Memoire de Master Profilage de Drogue Et

dR"APPLICATIONS DES TECHNIQUES DE
DATAMINING AU RETOUR D’EXPERIENCE ET

A LA SURETE DE FONCTIONNEMENT"
Projet de l’ISdF n° 1 / 99
IM
Copyright ISdF – Décembre 2000
"APPLICATION DES TECHNIQUES DE DATAMINING AU RETOUR
dR
D’EXPERIENCE ET A LA SURETE DE FONCTIONNEMENT"
Projet de l’ISdF n° 1 / 99
Chef de Projet :
Monsieur Pascal CHAUSSIS
Société soumissionnaire :
EUROPSTAT
IM
L'Institut de Sûreté de Fonctionnement tient à remercier :
Monsieur Pascal CHAUSSIS de RENAULT, qui a dirigé cette étude,
dR -
- les sociétés qui ont souscrit à ce projet et leurs collaborateurs qui ont
participé à sa réalisation :
•
•
•
•
•
•
EDF
DGA
PSA
PSA
RATP
RENAULT
Monsieur Thierry SOUCHOIS
Monsieur Philippe MOREAU
Monsieur Stanislas DI PIAZZA
Monsieur Christophe BATT
Monsieur Guy GIORGI
Monsieur
GUILLEMAZ
Joseph MOREL-
• RFF Madame Francine KERAVEL

• SNCF Monsieur Yves CASTELLANI
• USINOR Monsieur Manuel AUDRAIN
IM
SOMMAIRE
1 OBJET .......................................................................................................................................................... 4
2 INTRODUCTION ....................................................................................................................................... 4
3 PRESENTATION DU DATA MINING .................................................................................................... 5

3.1 LE DATA MINING........................................................................................................................................ 5
3.1.1 Définition ........................................................................................................................................ 5
3.1.2 Objectifs .......................................................................................................................................... 5
3.1.3 Démarche ........................................................................................................................................ 7
3.1.4 Bibliographie................................................................................................................................... 8
3.2 LE DATA MINING ET LES APPROCHES CLASSIQUES ................................................................................... 10
dR
3.2.1
3.2.2
Rappels sur quelques approches classiques .................................................................................. 10
3.2.1.1 Les méthodes descriptives : l’analyse des données multidimensionnelle ................................................. 10
3.2.1.1.1
3.2.1.1.2
3.2.1.1.3
3.2.1.1.4
3.2.1.1.5
3.2.1.1.6
3.2.1.2.1
3.2.1.2.2
3.2.1.2.3
3.2.1.2.4
3.2.1.2.5
3.2.1.2.6
Objectifs ......................................................................................................................................... 10
L’analyse en composantes principales ........................................................................................... 10
L’analyse factorielle des correspondances ..................................................................................... 13
L’analyse des correspondances multiples....................................................................................... 14
La classification ............................................................................................................................. 16
Synthèse ......................................................................................................................................... 19
3.2.1.2 Les techniques de prévision ...................................................................................................................... 20
Objectifs ......................................................................................................................................... 20
La régression linéaire ..................................................................................................................... 20
La régression logistique ................................................................................................................. 23
L’analyse discriminante ................................................................................................................. 23
L’analyse de la variance ................................................................................................................. 24
Synthèse ......................................................................................................................................... 24
Les techniques de data mining ...................................................................................................... 26
3.2.2.1 Les données .............................................................................................................................................. 26
3.2.2.2 Les arbres de décision............................................................................................................................... 27
3.2.2.2.1 Objectifs ......................................................................................................................................... 27
3.2.2.2.2 Définitions...................................................................................................................................... 27
3.2.2.2.3 Lecture de l’arbre ........................................................................................................................... 28
IM
3.2.2.2.4 Les algorithmes .............................................................................................................................. 29
3.2.2.2.5 Exemple d’application ................................................................................................................... 32
3.2.2.2.6 Synthèse ......................................................................................................................................... 33
3.2.2.3 Les règles d’association ............................................................................................................................ 34
3.2.2.4 Les réseaux de neurones ........................................................................................................................... 36
3.2.2.4.1 Présentation .................................................................................................................................... 36
3.2.2.4.2 Mise en œuvre d’un réseau de neurones ......................................................................................... 38
3.2.2.4.3 Préparation des données ................................................................................................................. 38
3.2.2.4.4 Constitution de la base d’exemples ................................................................................................ 38
3.2.2.4.5 Codage des entrées ......................................................................................................................... 38
3.2.2.4.6 Optimisation du jeu de données ..................................................................................................... 38
3.2.2.4.7 Détermination des paramètres ........................................................................................................ 38
3.2.2.4.8 Principe de la phase d’apprentissage .............................................................................................. 39
3.2.2.4.9 Exemple d’application ................................................................................................................... 40
3.2.2.4.10 Synthèse ......................................................................................................................................... 41
3.2.2.5 Les algorithmes génétiques ....................................................................................................................... 41
3.2.2.5.1 Fonctionnement .............................................................................................................................. 42
3.2.2.5.2 Mise en œuvre ................................................................................................................................ 42
3.2.2.5.3 Synoptique du processus de mise en œuvre des algorithmes génétiques ........................................ 46
3.2.2.5.4 Synthèse ......................................................................................................................................... 47
3.2.2.6 Le raisonnement à base de cas (RBC) ...................................................................................................... 47
3.2.2.6.1 Utilisation....................................................................................................................................... 47
3.2.2.6.2 Fonctionnement .............................................................................................................................. 48
3.2.2.6.3 Exemple ......................................................................................................................................... 49
3.2.2.6.4 Synthèse ......................................................................................................................................... 51
3.2.2.7 Les réseaux bayésiens ............................................................................................................................... 51
3.2.2.7.1 La conception ................................................................................................................................. 51
3.2.2.7.2 Domaines d’application ................................................................................................................. 52
Page 1
3.2.2.7.3 Synthèse ......................................................................................................................................... 53
3.2.3 Le text mining ................................................................................................................................ 53
3.3 COMPARAISON DES METHODES................................................................................................................ 53
3.3.1 Différences et similitudes .............................................................................................................. 54
3.3.2 Forces et faiblesses des méthodes ................................................................................................. 57
3.3.3 Limites et contraintes .................................................................................................................... 58
3.4 LES LOGICIELS DE DATA MINING ............................................................................................................ 58
3.4.1 Les logiciels mono-techniques....................................................................................................... 59
3.4.2 Les logiciels pluri-techniques........................................................................................................ 60
3.5 SYNTHESE ............................................................................................................................................... 62
4 APPLICATION DES TECHNIQUES DE DATA MINING.................................................................. 66
1.1 ANALYSE BIBLIOGRAPHIQUE ................................................................................................................... 68
1.1.1 un panorama d’articles ................................................................................................................. 68
1.1.2 Gros plan sur un article ................................................................................................................ 72
1.2 LE PROJET EUROPEEN NOEMIE .............................................................................................................. 76
1.3 SYNTHESE ................................................................................................................................................ 77
5 IDENTIFICATION DES APPLICATIONS POTENTIELLES DE L’ETUDE .................................. 77
dR
5.1 RAPPELS SUR LES FORMES D’UN REX ..................................................................................................... 78
5.1.1
5.1.2
5.1.3
5.1.4
5.2.1
Caractéristiques générales ............................................................................................................ 78
Identification ................................................................................................................................. 78
Circonstance de défaillances......................................................................................................... 79
Description de la défaillance ........................................................................................................ 79
5.2 QUELQUES TRAITEMENTS POTENTIELS…. ............................................................................................... 80
Détermination de la probabilité d’incidents en fonction du temps ............................................... 81
5.2.1.1
5.2.1.2
5.2.2
Problématique ........................................................................................................................................... 81
Les méthodes utilisées .............................................................................................................................. 81
Détermination des facteurs discriminants ..................................................................................... 81
5.2.2.1 Problématique ........................................................................................................................................... 81
5.2.2.2 Les méthodes utilisées .............................................................................................................................. 81
5.2.3
5.2.2.2.1
5.2.2.2.2
Les arbres de décision .................................................................................................................... 82
Les réseaux de neurones................................................................................................................. 82
La succession de facteurs comme élément explicatif ..................................................................... 82
5.2.3.1 Problématique ........................................................................................................................................... 82
5.2.3.3 Résultats escomptés .................................................................................................................................. 83
5.3 LA SURVENANCE CONJOINTE D’INCIDENTS .............................................................................................. 83
IM
5.3.1.1 Problématique ........................................................................................................................................... 83
5.3.1.3 Résultats escomptés .................................................................................................................................. 83
5.3.2 L’aide au diagnostic ...................................................................................................................... 83
5.3.2.1 Problématique ........................................................................................................................................... 84
5.4 CAS PRATIQUE ......................................................................................................................................... 84
5.4.1 Introduction ................................................................................................................................... 84
5.4.1.1 Problématique ........................................................................................................................................... 84
5.4.1.2 Principe des méthodes .............................................................................................................................. 85
5.4.1.2.1 Les modèles linéaires généralisés (GLM) ...................................................................................... 85
5.4.1.2.2 Les arbres de décision .................................................................................................................... 85
5.4.1.2.3 Les réseaux de neurones................................................................................................................. 85
5.4.1.3 Démarche .................................................................................................................................................. 85
5.4.1.4 Critères pris en compte ............................................................................................................................. 86
5.4.1.5 Résultats ................................................................................................................................................... 86
5.4.1.5.1 Les modèles linéaires généralisés................................................................................................... 86
5.4.1.5.2 Les arbres de décision .................................................................................................................... 88
5.4.1.5.3 Les réseaux de neurones................................................................................................................. 95
5.4.1.5.4 Comparaison des modèles arbres – réseaux de neurones ............................................................... 99
5.4.1.5.5 Conclusion ................................................................................................................................... 100
5.5 LES PROBLEMATIQUES SOULEVEES PAR LES SOUSCRIPTEURS ................................................................ 101
5.5.1 Société A ...................................................................................................................................... 101
5.5.1.1 Problématique ......................................................................................................................................... 101
5.5.1.2 Les méthodes utilisées ............................................................................................................................ 101
5.5.1.3 Résultats escomptés ................................................................................................................................ 102
5.5.2 Société B ...................................................................................................................................... 103
5.5.2.1 Problématiques ....................................................................................................................................... 103
Page 2
5.5.3 Société C ..................................................................................................................................... 104
5.5.3.1 Problématique ......................................................................................................................................... 104
6 CONCLUSION ........................................................................................................................................ 105
7 REFERENCES BIBLIOGRAPHIQUES .............................................................................................. 107
ANNEXE A : QUESTIONNAIRE
ANNEXE B : SYNTHÈDE DES ENTRETIENS INDIVIDUELS
ANNEXE C: L'ENTROPIE
ANNEXE D : QUELQUES APPLICATIONS DE DATA MINING
ANNEXE E: FICHE DESCRIPTIVE D’UN REX
dR
ANNEXE F : LES RÈGLES DE L’ARBRE DE DÉCISION
ANNEXE G: LES RÉSULTATS DES RÉSEAUX DE NEURONES
ANNEXE H : GLOSSAIRE
ANNEXE I : RÉSULTATS DE L’ANALYSE DE TYPE GLM

IM
Page 3
1 OBJET
Le projet ISdF 1/99 “ Application des techniques de data mining au retour d’expérience et à la
sûreté de fonctionnement ” est décomposé en quatre tâches :
• Tâche n° 1 : “ Présentation du data mining ” ;
• Tâche n° 2 : “ Identification des applications existantes ” ;
• Tâche n° 3 : “ Identification des applications potentielles ” ;
• Tâche n°4 : “ Synthèse de l’étude ”.
La tâche 4 comprendra également une présentation des logiciels aux souscripteurs.
dR
INTRODUCTION
L’accroissement de la concurrence, l’individualisation des consommateurs - la

“démassification” - et la brièveté du cycle de vie des produits obligent les entreprises à non
plus simplement réagir au marché mais à l’anticiper. Elles doivent également cibler au mieux
leur clientèle afin de répondre à ses attentes et anticiper les besoins. La connaissance de son
métier, des schémas de comportement de ses clients, de ses fournisseurs est essentielle à la
survie de l’entreprise, car elle lui permet d’anticiper sur l’avenir.
Aujourd’hui, les entreprises ont à leur disposition une masse de données importante. En effet,
les faibles coûts des machines en termes de stockage et de puissance ont encouragé les
sociétés à accumuler toujours plus d’informations. Cependant, alors que la quantité de
données à traiter augmente énormément - l'institut EDS estime que la quantité de données
collectées dans le monde double tous les 20 mois - le volume d’informations fournies aux
utilisateurs n’augmente lui que très peu. Ces réservoirs de connaissance doivent être explorés
IM
afin d’en comprendre le sens et de déceler des relations entre les données, des modèles
expliquant leur comportement.
Dans cette optique, la constitution d’un Data Warehouse, regroupant sous une forme
homogène toutes les données de l’entreprise sur une longue période, offre des perspectives
nouvelles aux utilisateurs, notamment en termes d’extraction de connaissances grâce aux
outils de Data Mining. Les techniques de Data Mining apparaissent comme les techniques
destinées à exploiter ces volumes importants de données. On les retrouve particulièrement
dans les domaines orientés clients, c’est-à-dire, le marketing, la détection de fraudes….
Mais qu’en est-il du domaine de la sûreté de fonctionnement et de l’analyse du retour
d’expérience ?
Afin de répondre à cette question, il est primordial de comprendre ce qu’est le data mining,
quelles sont les techniques recouvertes par ce terme et quels sont les logiciels existants.
Cependant, bien que rares les expériences d’application du data mining dans le domaine de la
sûreté de fonctionnement existent et feront l’objet d’une présentation à travers une analyse
bibliographique à ce sujet. L’analyse d’articles présentant des applications existantes
s’effectuera dans une seconde partie.
Page 4
Enfin, une troisième partie présentera un certain nombre de problématique propre à la sûreté
de fonctionnement ou aux données issues d’une base de retour d’expérience. Ces
problématiques seront illustrées à l’aide d’un exemple d’un cas test appliqué sur des données
issues d’une entreprise participant au projet.
3 PRESENTATION DU DATA MINING
3.1 LE DATA MINING

3.1.1 Définition
Le terme de data mining signifie littéralement forage de données. Comme dans tout forage,
son but est de pouvoir extraire un élément : ici, la connaissance. Ces concepts s’appuient sur
le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement
dR
de données. Différentes définitions peuvent être fournies. Tout d’abord, une définition
littéraire où le datamining est le fait de “ creuser une montagne pour y découvrir un joyau ”,
ou humoristique : le data mining permet alors de “ dénicher une pépite dans un tas de
charbon sans se salir les mains ” ou encore une définition philosophique qui explique que le
data mining permet de “ trouver des réponses aux questions que l’on ne pose pas ! ”.
L’ensemble de ces définitions a en commun de montrer l’importance de la connaissance.
Le data mining peut ainsi être défini comme l’ensemble des procédés visant à analyser de
grands ensembles de données pour y découvrir des relations et des structures utiles dans un
processus de décision.
Le data mining se trouve donc au carrefour de plusieurs disciplines : la gestion de bases de
données, l’intelligence artificielle, l’apprentissage (Machine Learning), ces disciplines
relevant plutôt de la science informatique, la reconnaissance des formes et l’analyse des
données, celles-ci relevant plutôt de la science statistique.
IM
3.1.2 Objectifs
Le data mining n’est pas issu du milieu des statisticiens ni même de celui des spécialistes
d’analyse des données, mais plutôt de celui des bases de données. Il s’est ainsi développé dans
le domaine de l’intelligence artificielle chez les spécialistes de l’apprentissage (learning from
data). Ainsi, la culture de ses pionniers et de ses promoteurs relève plus de l’informatique et
surtout de l’intelligence artificielle que de la statistique et du calcul des probabilités.
La pertinence et l’intérêt du data mining sont conditionnés par les enjeux attachés à la
démarche entreprise, qui doit être guidée par des objectifs directeurs clairement explicités :
• améliorer la performance commerciale ;
• mieux cibler les prospects ;
• fidéliser la clientèle ;
• mieux comprendre les performances de production…
Aujourd’hui, un grand nombre d’entreprises prennent conscience de la richesse contenue dans
leurs données et s’interrogent quant à l’intérêt de la mise en œuvre de telles techniques.
Ces méthodes répondent à des besoins de :
Page 5
• prévision ;
• découverte de corrélations inattendues parmi des centaines de paramètres ;
• classification ;
• segmentation (de clientèle par exemple).
Pour cela, diverses techniques sont à notre disposition regroupées sous le terme data mining
dont :
• les arbres de décision ou la découverte de règles ;
• les méthodes de classification,
auxquelles, il faut ajouter des techniques moins fréquemment utilisées telles que :
• les réseaux de neurones (perceptron multicouches, fonctions radiales de bases…) ;
• les algorithmes génétiques.
•
dR
D’autre part, les logiciels de data mining incluent de plus en plus de techniques relevant de la
statistique multidimensionnelle dite “ classique ” :
• les méthodes exploratoires (analyse en composantes principales,
correspondances, analyse des correspondances multiples…) ;
les méthodes
logistique…).
de data mining.
prédictives (régression linéaire, analyse de
analyse
variance,
des
régression
En effet, les techniques dites “ classiques ” tendent aujourd’hui à être intégrées sous le terme
Mais l’émergence du datamining repose plus sur la façon dont sont présentés ces différents
outils mathématiques que sur les outils eux-mêmes. Aussi, trois qualités sont-elles
généralement mises en avant par les promoteurs des techniques de data mining. Les outils
proposés se doivent d’être :
• Rapides et à même de traiter de très grands ensembles de données.
IM
Il s’agit d’une caractéristique majeure et typique du data mining. En effet, les progrès
technologiques permettent d’envisager de gigantesques tableaux de données. L’un des défis
du data mining consiste à proposer des algorithmes adaptés à un traitement efficace (en des
temps raisonnables) d’énormes bases de données. C’est certainement l’un des domaines où le
data mining sera le plus porteur dans le futur, hors de ses domaines traditionnels
d’intervention, et devrait conduire à l’émergence d’une véritable méthodologie particulière
qui consistera pour l’essentiel à proposer des outils nouveaux pour le traitement efficace
d’énormes bases de données par des méthodes classiques d’analyse statistique.
• D’utilisation aisée.
Cette caractéristique comporte plusieurs aspects. Le lancement des commandes doit être
facile, les sorties graphiques doivent être agréables, faciles à modifier et nombreuses, les
résultats doivent pouvoir être modifiés avec souplesse. Ces caractéristiques sont maintenant
classiques, exigées de nombreux utilisateurs de logiciels et ne sont en rien spécifiques aux
logiciels de data mining. Cependant, ce sont des caractéristiques cruciales pour eux, eu égard
à la clientèle de “ décideurs ” visée. On doit d’ailleurs signaler que ces caractéristiques ne sont
souvent que médiocrement présentes dans les plus grands logiciels de statistique, même si des
progrès considérables ont été réalisés dans ce domaine.
Page 6
• Permettre des interprétations de résultats faciles.
Là aussi, il s’agit d’une caractéristique majeure et typique du data mining. Certes, les
méthodes mathématiques utilisées dans le data mining sont des méthodes “ traditionnelles ”
connues depuis longtemps. Mais alors que jusqu’à maintenant, elles n’étaient accessibles
qu’aux seuls experts statisticiens, grâce aux outils du data mining, elles sont aujourd’hui à
disposition de tout utilisateur. Les promoteurs du data mining insistent beaucoup sur cet
aspect des choses et l’argument publicitaire suivant est souvent utilisé : “ Il n’est pas
nécessaire d’être un spécialiste de la statistique ou d’avoir une solide formation mathématique
pour comprendre les sorties de logiciels de data mining et tirer le meilleur parti des outils
proposés ”. Ainsi, les logiciels de data mining évitent les méthodes dont le réglage des
paramètres d’entrée ou l’interprétation des sorties exigeraient un savoir-faire particulier. Cette
exigence s’explique bien sûr par le public visé par les produits de data mining (cadres
commerciaux et financiers, économistes, publicitaires…).
dR
Néanmoins, afin de garantir une fiabilité des résultats, il est nécessaire de suivre une
démarche précise.
3.1.3 Démarche
Il existe souvent une confusion entre les logiciels de Data Mining et le processus de Data
Mining. Or, les outils ne sont qu’un composant dans la transformation des données en
connaissance. Ils s’intègrent dans un processus en cinq étapes.
• Phase 1 : Recherche et sélection des données
Il s’agit de déterminer la structure générale des données ainsi que les règles utilisées pour
les constituer. Il faut pour cela identifier les informations exploitables et vérifier leur
qualité, leur facilité d’accès : documents papier, fichiers…
• Phase 2 : Transformation des données
Cette étape consiste à résoudre le problème de valeurs aberrantes, de données manquantes
et à effectuer des transformations sur les variables (normalisation, transformation de
IM
variables quantitatives en variables qualitatives,…).
• Phase 3 : Modélisation
Cette étape consiste à extraire la connaissance utile à partir d’un volume de données et à la
présenter sous forme synthétique. Il s’agit de la phase plus souvent décrite sous le terme
de Data Mining et qui repose sur une “ recherche exploratoire, c’est-à-dire dépourvue de
préjugés concernant les relations entre les données ”.
• Phase 4 : Validation
L’évaluation du résultat permet d’estimer la qualité du modèle, c’est-à-dire sa capacité à
classer de manière correcte de nouvelles données. Le modèle doit être validé sur des bases
de données n’ayant pas servie à le constituer.
• Phase 5 : Intégration de la connaissance
La connaissance n’est rien tant qu’elle n’est pas convertie en décision puis en action. Cette
phase d’intégration de la connaissance consiste à implanter le modèle ou ses résultats dans
les systèmes informatiques ou dans les processus de l’entreprise.
Page 7
Base de données
70% 30%
Création des bases
Base d’apprentissage Base de test
Modélisation Validation du
modèle sur la
base de test
Modèle Mise en production
dR des modèles
Le schéma précédent illustre la démarche à mettre en œuvre. La base de données origine est
partagée en deux sous-ensembles effectués par tirage aléatoire. Le premier qui, par
convention constitue 70% de l’échantillon de la base initiale constitue la base d’apprentissage,
c’est-à-dire l’échantillon à partir duquel le modèle va être élaboré, et le second qui constitue
30% de la base initiale est l’échantillon test, c’est-à-dire l’échantillon qui va permettre de
tester et valider le modèle obtenu. Par convention, les proportions sont de 2/3 pour la base
d’apprentissage et 1/3 pour la base test mais il est possible de modifier ces proportions. Il
suffit que l’échantillon soit représentatif de la population initiale et de taille suffisante pour
permettre l’apprentissage des règles ou du modèle.
IM
3.1.4 Bibliographie
• R. LEFEBURE, G. VENTURI, Le Data Mining, Eyrolles, 1998

Ouvrage simple et facile d’accès. Il s’adresse aux décideurs désireux d’acquérir une vue
d’ensemble du data mining, de ses applications possibles et des outils existant sur le marché.
• M. TENENHAUS, Modèles Statistiques en Gestion, Dunod, 1994
Ouvrage destiné à des statisticiens qui présente des méthodes d’analyse statistique classique.
• G. CELEUX, J.P. NAKACHE, Analyse discriminante sur variables qualitatives,
Polytechnica, 1994
Ouvrage destiné aux personnes souhaitant approfondir la méthode des arbres de décision
selon l’algorithme CART. Les concepts liés à cet algorithmes sont présentés et détaillés. Un
exemple aide à comprendre son mode de fonctionnement.
• L. LEBART, A. MORINEAU, M. PION, Statistique exploratoire multidimensionnelle,
Dunod,
Ouvrage facile d’accès qui reprend les grands principes des méthodes classiques.
Page 8
• M. JAMBU, Introduction au Data Mining : à l’usage des décideurs, Eyrolles, 1998
Cet ouvrage s’adresse aux responsables opérationnels qui élaborent leurs décisions au moyen
de l’analyse de l’information. Il présente le Data Mining, comment il se situe par rapport aux
techniques du décisionnel, ce qu’on peut en attendre lors de sa mise en œuvre lors de
l’application en entreprise, quels sont les problèmes opérationnels qui peuvent être résolus à
l’aide de ces techniques, quels sont les facteurs clés pour une mise en œuvre de ces
techniques.
• M. J.A. BERRY, G. LINOFF, Data Mining : techniques appliquées au marketing à la
vente et aux services clients, Masson, 1997
Ouvrage dont l’abord est aisé. Il reprend l’historique du data mining ainsi qu’une présentation
des principales techniques d’analyse assorties d’exemples d’application dans différents
secteurs d’activité. Il est essentiellement orienté vers le marketing.
• THURAISINGHAM, Data mining : technologies, techniques tools and trends, 1999
dR
Discussion sur la place du data mining et de ses perspectives d’évolution. Cet ouvrage ne
nécessite aucune connaissance particulière en statistiques ou en data mining.
• Progiciels du domaine : analyse statistique de données – data mining – traitement
d’enquêtes / CXP.
Cet ouvrage fournit la fiche signalétique de l’ensemble des logiciels répondant à la
problématique d’analyse statistique, de data mining ou encore de traitement d’enquêtes. Il
présente en une page de façon synthétique les techniques traitées par l’outil, ses
caractéristiques techniques et ses compatibilités avec d’autres outils.
• J.F. JAUDOUIN, Les réseaux de neurones : principes et définitions,
Cet ouvrage vise à présenter les concepts fondamentaux des réseaux de neurones et de leur
mise en œuvre. Une certaine culture scientifique générale semble nécessaire mais l’auteur ne
rentre pas dans des détails mathématiques poussés.
• J.F. JAUDOUIN, Les réseaux neuromimétiques,
IM
Cet ouvrage est la suite de l’ouvrage précédent du même auteur. Celui-ci vise un public plutôt
universitaire de second ou troisième cycle ayant une culture scientifique générale. Il présente
les notions fondamentales du connexionisme et vise à communiquer les connaissances
pratiques suffisantes à la mise en œuvre de réseaux de neurones.
• BREIMAN, FRIEDMAN, OLSHEN, STONE, Classification And Regression Trees,
Chapman & Hall, 1984
Ouvrage réalisé par les auteurs de la méthode. Il est donc nécessaire d’avoir une bonne culture
mathématique pour en faire sa lecture. Il est donc plutôt destiné à des spécialistes de ces
méthodes.
• J.G. TAYLOR, Neural Networks, Alfred Waller, 1995
Présentation des concepts mathématiques utilisés pour les techniques des réseaux de
neurones.
Page 9
3.2 LE DATA MINING ET LES APPROCHES CLASSIQUES
3.2.1 Rappels sur quelques approches classiques
Les approches classiques permettent d’effectuer des prévisions, d’effectuer des classifications
et des segmentations.
Nous allons présenter différentes méthodes, toutefois, pour approfondir les modèles
mathématiques correspondants, vous pourrez vous référer aux ouvrages suivants pour plus de
détails :
• “ Méthodes statistiques en gestion ” de M.Tenenhaus (DUNOD) ;
• “ Statistique exploratoire multidimensionnelle ” de L.Lebart, A.Morineau et M.Piron
(DUNOD).
3.2.1.1 Les méthodes descriptives : l’analyse des données multidimensionnelle
dR
3.2.1.1.1 Objectifs
Un individu est caractérisé en général par un nombre N important de variables. Sa
représentation géométrique se fait alors dans un espace à N dimensions qu’il est difficile
d’étudier si ce n’est impossible. C’est pourquoi on va chercher un espace dans lequel on
pourra interpréter la visualisation graphique.
Le principe de ces méthodes consiste à projeter les données sur un espace de dimension la
plus faible possible et d’étudier la meilleure représentation. Autrement dit, on va chercher à
résumer des variables naturelles par un ensemble plus réduit de variables synthétiques tout en
conservant un maximum d’informations.
Trois méthodes différentes seront présentées : l’analyse en composantes principales, l’analyse
factorielle des correspondances et l’analyse des correspondances multiples. On verra que ces
méthodes dépendent du type des données étudiées.
IM
3.2.1.1.2 L’analyse en composantes principales
Les données
L’analyse en composantes principales (ACP) est utilisée pour analyser des relations linéaires
entre des données quantitatives uniquement.
VAR 1 …………….. VAR k

IND1
…………………..
INDn
Nous allons étudier les différentes étapes à suivre pour obtenir une représentation significative
des données.
Principe
Page 10
Dans un premier temps, il est nécessaire de choisir le nombre d’axes du nouveau repère. Pour
cela, on étudie la matrice de corrélation des variables. Dans la pratique, on ne gardera que les
axes qu’on sait interpréter.
Il va ensuite falloir donner un sens à ces axes synthétiques. Tout d’abord, on va étudier la
corrélation entre les axes et les variables du tableau de données initiales. On utilise pour cela
le “ cercle des corrélations ” : c’est un graphique où les variables sont représentées par des
points dont les cordonnées sur un axe sont égales aux corrélations des variables avec cet axe.
On peut alors évaluer la qualité de représentation des variables. Plus une variable est proche
du cercle, plus sa qualité de représentation est bonne. Si toutes les variables ont des
coordonnées de même signe sur un axe, alors on considère cet axe comme un axe
d’opposition.
Puis, on va interpréter la position des individus par rapport à ces axes. Différents indicateurs
sont étudiés :
• la stabilité de la représentation : on regarde la contribution des individus à la construction
•
dR
des axes. Si un axe est essentiellement dû à quelques individus, il faudra alors
recommencer toute l’étude en les retirant de l’analyse ;
la qualité de représentation : on vérifie que la déformation due à la projection n’est pas
trop importante ;
* Ind2
IM
Sur le schéma précédent, on remarque que les deux individus 1 et 2 ont la même image dans
le nouveau repère alors qu’ils ne sont pas proches dans la réalité : L’individu 2 est mieux
représenté.
Le lien entre les individus : pour évaluer la proximité des individus, leurs coordonnées par
rapport aux axes sont étudiées.
Remarque : la métrique utilisée pour les différents espaces est la distance euclidienne.
Page 11
Exemple d’application : “ Etude de la criminalité dans 50 états américains ”
Les données représentent des taux de criminalité pour 100 000 personnes dans chacun des
états en 1977. Pour chaque Etat, on connaît les taux de meurtres, viols, vols, agressions,
cambriolages, larcins et vols de voitures.
• choix des axes :

Après l’étude de la matrice des corrélations, on a observé qu’en gardant deux axes, 77%
de l’information des données était conservé. On décide donc de conserver deux axes
seulement.
• interprétation des axes à partir des variables de l ‘étude :
Pour cela, on va étudier le cercle de corrélation :
dR
IM
Toutes les variables étant positives par rapport à l’axe des abscisses, on va considérer cet axe
comme un axe d’opposition. Il oppose les états dans lesquels la criminalité est faible à ceux
où elle est élevée.
En ce qui concerne l’axe des ordonnées, on remarque que les petits délits (vols,
cambriolages…) sont à valeurs positives alors que les délits importants (meurtre,
agression…) sont à valeurs négatives. Cet axe opposera donc les types de délits.
Page 12
• Etude des individus (Etats):
On va maintenant étudier la criminalité dans les différents états en examinant la représentation
des individus par rapport aux axes :
dR
En étudiant la position des états par rapport à l’axe des abscisses qui oppose la forte à la faible
criminalité, on remarque que les états du Dakota et d’West Virginia sont à faible criminalité
IM
en opposition avec ceux de New York, de Californie, de Floride et du Nevada où la
criminalité est importante. Quant à l’axe des ordonnées qui oppose les types de délits, il nous
indique que les états du Massachusetts, de Rhode Island, du Connecticut et de Delaware sont
surtout touchés par des petits délits (vols, larcins…) en opposition aux états d’Alabama, de
Louisiane, du Mississipi et de Caroline du sud où les délits sont violents (meurtre, viols…).
3.2.1.1.3 L’analyse factorielle des correspondances

Les données
L’analyse factorielle des correspondances (AFC) est utilisée pour étudier les liaisons entre
deux variables qualitatives.
Page 13
Les données doivent être sous la forme d’un tableau de contingence. C’est un tableau dont
les lignes représentent les modalités de la variable1 et les colonnes celles de la variable2.
Variable2
j
Xij = nombre d’individus

Possédant la modalité i de
la variable 1 et la modalité
Variable1 i Xij j de la variable 2.
dR
Principe
L’analyse des correspondances repose sur l’étude des proportions d’individus possédant telle
ou telle caractéristique (par rapport aux deux variables). Ainsi, alors que dans l’ACP on
utilisait la distance euclidienne comme métrique de l’espace, ici, c’est la distance du Chi2 qui
est utilisée.
La démarche à suivre est identique à celle de l’ACP.
Mais, alors que dans l’ACP, on visualisait d’une part les variables puis les individus, ici, on
va représenter les deux simultanément sur un même graphique.
Cette méthode peut se généraliser pour plus de deux variables comme on va le voir avec
l’analyse des correspondances multiples.
IM
3.2.1.1.4 L’analyse des correspondances multiples
L’analyse des correspondances multiples n’est qu’une simple généralisation de l’Analyse

Factorielle des Correspondances.
Les données
Cette méthode est utilisée pour l’étude de plusieurs variables qualitatives. Cette méthode est
très générale puisqu’elle permet de traiter tous les types de données (après découpage en
classe, les données quantitatives peuvent intervenir dans l’analyse).
Page 14
L’interprétation des résultats est identique à l’AFC, seul le format des données n’est pas le
même :
TABLE DE BURT
Variable 1 Variable 2 Variable K

1 m1 1 mk 1 mK
1
Variable 1 nk = nombre d’individus
m1 n1k possédant la modalité k.
1
Variable 2
mk nk n1k = nombre d’individus
1 possédant à la fois la
Variable K
dR mK
modalité i et la modalité k.
Très souvent dans la pratique, après avoir étudié les liaisons entre les variables et évalué les
ressemblances entre les individus à l’aide des méthodes factorielles, on effectue une
classification sur les résultats obtenus.
Exemple : la cause des divorces aux Etats-Unis
Rai sons de Di vor ce
2
IM
1
d
i
m
e
n
s 0
i
o
n
-1
-2
- 0. 8 - 0. 6 - 0. 4 - 0. 2 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 1. 2 1. 4
di mensi on 2
Ici sont projetées les causes de divorce. Les deux axes sont un résumé de la réalité. Leur
interprétation s’effectue de la façon suivante :
Page 15
L’axe nommé dimension 2 oppose les raisons de divorce : séparation/pas de séparation et
entente/incompatibilité.
L’axe nommé dimension 1 ordonne les raisons moins violentes aux plus violentes.
Par la suite, on peut obtenir la représentation factorielle suivante :
Rai sons de Di vor ce
1. 1
1. 0
0. 9
0. 8
0. 7
0. 6
0. 5
d 0. 4
i
m 0. 3
e 0. 2
n
s 0. 1
i
0. 0
o
n - 0.
1 - 0. 2
- 0. 3
- 0. 4
- 0. 5
- 0. 6
- 0. 7
- 0. 8
- 0. 9
dR
1
- 0. 7 - 0. 6 - 0. 5 - 0. 4 - 0. 3 - 0. 2 - 0. 1 0. 0
di m
0. 1
ensi on 2
0. 2 0. 3
On interprète la position des individus, ici les Etats américains, en fonction de l’interprétation
des axes effectuée à l’étape précédente. Ainsi, on distingue les Etats où les divorces sont liés à
0. 4 0. 5 0. 6 0. 7 0. 8 0. 9
des causes “ violentes ” l’Utah, l’Alabama,…. de ceux où les divorces ne sont pas liés à ce
type de cause, les Etats tels que la Californie….
Cette analyse peut être complétée par une classification.
IM
3.2.1.1.5 La classification
Différentes techniques de classification existent dont les principes peuvent être différents
notamment pour les critères et distances utilisés . Néanmoins, elles poursuivent toutes les
mêmes objectifs. La méthode présentée ci-après est la classification ascendante hiérarchique
(CAH).
Objectifs
Les méthodes de classification permettent de regrouper des individus en classes les plus
homogènes possible.
Ainsi, on va chercher à maximiser l’inertie interclasse (deux individus de deux classes
différentes doivent être les plus différents possible), ou de façon équivalente, minimiser
l’inertie intra-classe ( deux individus de la même classe doivent être les plus ressemblants
possible).
Page 16
Principe
Au départ, chaque individu forme une classe distincte. Les deux individus les plus proches
sont agrégés et forment ainsi une nouvelle classe qui remplace les deux anciennes. Cette
agrégation se poursuit jusqu’au moment où tous les individus sont rassemblés au sein de la
même classe. On représente les différentes classes sous forme d’un dendogramme :
a b c d e
dR
Exemple d’application
On souhaite classer 5 produits de grande consommation qui ont été notés sur l’esthétique de
leur packaging et la mémorisation de leur accroche publicitaire.
Ces produits ont obtenu les notes suivantes :
Produit A
Esthétique
1
Mémorisation
1
Produit B 1 2
Produit C 4 3
Produit D 4 5
IM
Produit E 2 4
Dans un premier temps, on va calculer les distances entre chacun des produits. On utilise la
distance euclidienne mais bien souvent se sont des distances plus complexes qui sont utilisées.
On va alors chercher les deux produits les plus ressemblants (les plus proches) :
A B C D E
A - 1.00 3.61 5.00 3.16
B - 3.16 4.24 2.24
C - 2.00 2.24
D - 2.24
E -
Page 17
D’après le tableau des distances précédent, on constate que ce sont les produits A et B qui se
ressemblent le plus, on va donc les regrouper en une même classe. Alors qu’au départ, on
avait 5 classes distinctes, nous n’en avons plus que 4 : {A,B}, {C}, {D}, {E}.
On réitère l’opération précédente sur les quatre classes. On obtient le tableau de distances
suivant :
AB C D E
AB - 3.61 5.00 3.16
C - 2.00 2.24
D - 2.24
E -
On va alors regrouper C et D, on obtient les classes suivantes : {A,B}, {C,D} et E
On obtient alors, le tableau suivant :
AB
CD
E
dR AB
-
CD
5.00
-
E
3.16
2.24
-
On va donc regrouper E, C et D. On a donc plus que les deux classes suivantes : {A,B} et
{C,D,E}
On obtient donc le dendogramme suivant :

IM
distances
A B C D E produits
Page 18
Chaque classe regroupe donc les individus les plus similaires. Les classes sont par la suite
caractérisées par le profil moyen des individus de la classe.
L’ensemble des étapes est rendu transparent dans l’utilisation des logiciels de statistiques.
Néanmoins, il est nécessaire d’avoir des notions en statistiques afin de faire des choix :
nombre d’axes, nombre de classes,….et d’interpréter les résultats. Ces tâches nécessitent la
connaissance statistiques pour interpréter les différents indicateurs et résultats obtenus.
3.2.1.1.6 Synthèse
Une analyse statistique se décompose en différentes phases.
Une première étape consiste à valider les données dont on dispose.
La seconde phase dans une analyse statistique consiste à comprendre l’organisation des
données. Pour cela, on fait appel à des techniques dites descriptives qui varient selon la
nature des données.
dR
Le tableau suivant permet de spécifier quelle est la technique à utiliser en fonction de la
nature des observations :
Quantitatives
Analyse en
composantes
principales
Nature des variables d’analyse
2 variables
Analyse
Qualitatives
Plus de 2 variables
factorielle Analyse factorielle des
des correspondances correspondances
multiples.
Ces techniques d’analyse permettent de mettre en évidence certaines relations mais sont
uniquement descriptives. C’est un constat. Néanmoins, parmi ces méthodes, on distingue
IM
celles de visualisation que sont les analyses de type ACP, ACM, AFC des techniques de
classification. La démarche d’analyse communément utilisée est d’effectuer dans un premier
temps l’une des méthodes de visualisation qui permet d’obtenir un ensemble d’individus ou
variables projetés dans un plan et donc des coordonnées. Sur la base de ces coordonnées, on
effectue alors une classification.
Pour effectuer une prévision, il convient par la suite d’établir un modèle permettant
d’effectuer des prévisions. On va donc chercher à mettre en évidence une fonction liant une
variable à expliquer et des variables caractéristiques dites “ explicatives ”. Il est également
possible de mettre en évidence l’influence d’un facteur saisonnier à travers la méthode des
séries chronologiques. Cette méthode ne fait néanmoins pas partie de celles décrites dans les
paragraphes suivants.
Page 19
3.2.1.2 Les techniques de prévision
3.2.1.2.1 Objectifs
On va chercher à estimer un modèle qui exprimera une variable à expliquer en fonction

d’autres variables dites explicatives. Il existe différentes techniques qui s’adaptent à la nature
des données à analyser. Les principales techniques sont :
• les régressions linéaire ou logistique ;
• l’analyse de la variance ;
• l’analyse discriminante. Cette dernière technique a un statut un peu particulier mais peut
faire partie de ce type de technique.
Ce modèle pourra alors être utilisé afin d’anticiper et prévoir les réponses à la variable à
dR
expliquer en fonction de caractéristiques. Nous allons donc présenter le principe de ces
méthodes.
Les techniques de régression permettent de relier une variable à expliquer Y à un ensemble de
variables X1,…,Xk. Nous verrons par la suite que la méthode d’élaboration du modèle dépend
de la nature des données. Aussi, nous traiterons cas par cas les différentes méthodes (la
régression linéaire, la régression logistique et l’analyse de la variance).
3.2.1.2.2 La régression linéaire
Les données
La régression linéaire permet d’étudier la liaison entre une variable à expliquer quantitative Y
et une ou plusieurs variables indépendantes quantitatives X1,…,Xk (variables explicatives).
IM
Le modèle de régression consiste à considérer que la variable Y peut être assimilée à une
variable aléatoire dont la loi dépend des valeurs des variables explicatives. Sous cette
hypothèse, nous pouvons donc considérer le modèle suivant.
Le modèle statistique
On cherche à approcher Y par une combinaison linéaire des variables explicatives X 1,…,Xk.
Pour cela, on pose le modèle :
Yi = 0 + 1 X1i +2 X2i +…+k Xki + i
où 0, 1, 2, …, k sont les coefficients à estimer du modèle.

i est le résidu représentant l’écart entre la valeur observée Yi et la partie “ expliquée ” de
l’observation (0 + 1 X1i +2 X2i +…+k Xki).
On suppose que i est un terme aléatoire suivant une loi normale N(0,) et que les i sont
indépendants les uns des autres.
Page 20
Une fois le modèle défini, il reste à estimer les paramètres . Pour cela, il va falloir résoudre
le problème suivant.
Le problème à résoudre
  
On va rechercher des estimations  0,  1,…,  k des paramètres 0, 1,…, k permettant de
reconstituer au mieux les données Yi à partir des variables indépendantes Xi1, Xi2,…, Xik.
Pour cela, on cherchera la solution qui minimise globalement, suivant un critère à définir,
l’ensemble des écarts à la linéarité, c’est-à-dire :
  
Choisir (  0,  1,…,  k) qui minimisent l’ensemble des ei
  
avec ei = Yi –(  0+  1 Xi1 +…+  k Xik)
dR
En général, on utilise le critère de minimisation de la méthode des moindres carrés :
Min ( e i
2
)
En effet, ce critère s’avère conduire à des calculs algébriques simples, se prête à une
interprétation géométrique claire, et donne lieu à des interprétations statistiques intéressantes.
En considérant donc le critère des moindres carrés, on peut calculer les différents coefficients
.
Une fois le modèle défini, il reste alors à tester sa validité. Ainsi, il est nécessaire de tester
d’une part la qualité de l’ajustement puis, d’autre part, voir si la liaison globale entre Y et les
Xi est significative et si c’est le cas, étudier la liaison entre Y et chacune des variables Xi.
IM
Pour cela, l’étude de certains indicateurs présentés par la suite est nécessaire.
Test de validité du modèle

Pour évaluer la qualité d’ajustement du modèle, on étudie le coefficient de corrélation R² :
plus celui-ci se rapproche de 1, meilleur est le modèle.
Ensuite, pour étudier la liaison globale entre Y et les Xi, on teste l’hypothèse suivante :
“ Il n’y a aucune corrélation entre Y et les Xi, c’est-à-dire les différents coefficients  du
modèle peuvent être considérés comme nuls ”.
Pour tester cette hypothèse, on utilise un test de Fisher.
Si cette hypothèse est rejetée, c’est-à-dire que Y est corrélée aux Xi, on teste alors l’hypothèse
pour chacun des coefficients. Pour cela, on utilise, un test de Student. On définit alors, les
variables explicatives Xi qui “ expliquent ” le mieux Y. Seules ces variables seront conservées
dans le modèle, les autres n’apportant finalement que trop peu d’informations.
Exemple d’application : Déterminer le prix d’un appartement
Page 21
On souhaite créer un modèle permettant de prévoir le prix d’un appartement en fonction de sa
superficie.
On possède au départ un échantillon de 28 observations comprenant pour chaque
appartement :
• son prix ;
• sa surface ;
• son prix au m².
Dans un premier temps, nous allons créer le modèle.
En appliquant la méthode des moindres carrés, on obtient le modèle suivant :
Y=26.77x-147.33,
où Y correspond au prix de l’appartement et X à sa surface.
dR
8000
7000
6000
Graphique prix/surface des appartements
Prix (en KF)
5000 Droite de régression

4000 Nuage d'observations
3000
2000
1000
0
0 100 200 300
Surface(m²)
IM
Nous allons maintenant tester la validité du modèle.
On obtient un coefficient de corrélation égal à 0.93 ; on en déduit donc que le modèle est
approprié.
Le test de Student appliqué à la pente de la droite, rejette l’hypothèse que celle-ci est nulle, on
en déduit donc que les variables Y et X sont corrélées, c’est-à-dire que le prix de
l’appartement dépend bien de sa surface.
Il ne reste plus qu’à étudier le terme constant du modèle. D’après le test de Student, on déduit
que celui-ci peut-être considéré comme nul. On peut alors chercher un modèle de la forme
y=ax. Ce qui est plus logique car alors, un appartement de 0 m² coûtera bien 0F.
On obtient finalement le modèle suivant :
Y=25.5 X
Dans le cas d’une variable à expliquer en fonction d’une seule variable explicative, on parle
de régression linéaire simple. Si le modèle contient plusieurs variables explicatives, on parle
de régression linéaire multiple.
Ici, le problème de la régression linéaire a été traité mais néanmoins, il est possible de dégager
des modèles non-linéaires par d’autres techniques d’ajustement.
Page 22
3.2.1.2.3 La régression logistique
Les données
La modélisation logistique permet d’étudier la liaison entre une variable à expliquer
qualitative binaire ou ordinale et des variables explicatives quantitatives X1, X2,…, Xk.
Elle présente de nombreuses similarités avec la régression linéaire. En fait, seule la variable à
expliquer est différente.
La démarche adoptée consiste à relier les probabilités d’observer les différentes modalités de
la variable Y aux variables explicatives. En fait, une certaine fonction, dite fonction de lien de
ces probabilités, sera modélisée par une régression linéaire sur les variables explicatives.
Par ailleurs, ces probabilités n’étant pas disponibles a priori, elles seront estimées par des
proportions.
dR
Le principe
A partir de données explicatives (ex : le poids, la taille, l’âge…), on va chercher à prévoir un
événement de type binaire (ex : Des malades atteints du cancer vont-ils guérir ? oui ou non).
Pour cela, on va construire un modèle de régression donnant la probabilité que le malade
guérisse en fonction des différents paramètres explicatifs.
Une fois que ces probabilités sont calculées, grâce à un seuil que l’on fixe (ex : 80%), on peut
alors répondre à l’interrogation de départ : si la probabilité qu’il guérisse est supérieure à 80%
alors on considère que celui-ci va guérir.
3.2.1.2.4 L’analyse discriminante

IM
Objectifs
Une population est divisée en k classes au moyen d’un critère qualitatif Y. Chaque individu
de la population est décrit par des variables numériques. L’analyse discriminante recouvre
plusieurs méthodes permettant d’étudier la liaison entre le critère Y et les variables
caractéristiques. A partir d’un échantillon. L’analyse factorielle discriminante (ou analyse
canonique) permet de mettre en évidence les différences entre les classes au niveau des
variables caractéristiques et de visualiser les données. Lorsqu’on souhaite construire une règle
de décision permettant d’affecter un nouvel individu à une seule des classes à partir des
variables explicatives ou caractéristiques, on peut alors utiliser l’analyse discriminante
bayesiennes. Cette méthode permet d’obtenir une règle de décision optimisée par la
connaissance de probabilités a priori sur les classes de la variable à expliquer.
Cette méthode nécessite néanmoins de faire l’hypothèse de multinormalité des variables
explicatives.
Principe
On va chercher les variables les plus discriminantes, c’est-à-dire les variables qui permettent
de différencier au mieux deux individus. On parle alors du pouvoir discriminant d’une
Page 23
variable qui repose sur le concept de décomposition de l’analyse de la variance. On
sélectionne ainsi les variables significativement discriminantes, au sens statistique du terme.
Puis, à partir de ces variables, des règles d’affectation des individus à une classe vont être
élaborées ; ainsi, par la suite, lorsqu’un individu aura un certain nombre de caractéristiques,
on pourra automatiquement prévoir sa classe.
3.2.1.2.5 L’analyse de la variance
Les données
L’analyse de la variance est utilisée lorsque les variables explicatives sont nominales.
Cette technique est liée aux plans d’expériences et aux interprétations statistiques de données
expérimentales.
dR
En général, ces méthodes sont surtout utilisées dans le milieu médical ou agro-alimentaire
mais peuvent s’adapter à d’autres domaines si les données le permettent.
Principe
On cherche à évaluer l’influence des variables explicatives sur la variable à expliquer (ex :
étudier l’influence de la nourriture sur le rendement de vaches laitières).
Soient Y la variable à expliquer, u et v les variables explicatives nominales, on possède n
observations de Y (ex : nombre de litres de lait produit par une vache).
La variable u possède q modalités (ex : type de nourriture donnée à la vache : blé, maïs,
orge…).
La variable v possède r modalités (ex : quantité de nourriture : forte ou faible).
Soit yikj (ex : la vache n°10 nourrit avec une forte quantité de blé : yikj = le nombre de litres
de lait produit par cette vache) : la ième observation dont les caractéristiques sont : la kième
IM
modalité de la variable u (ex : le blé) et la jième modalité de la variable v (ex : forte).
Si l’on considère qu’il n’y a pas d’interaction entre les variables u et v, on a alors le modèle
linéaire suivant :
yikj =  + k + k + ikj avec i=1,…,n ; k=1,…,q-1 et j=1,…,r-1.
3.2.1.2.6 Synthèse
Comme on a pu le constater, il existe une grande diversité des méthodes d’estimation d’un
modèle permettant d’expliquer une variable par d’autres variables caractéristiques. Chacune
des méthodes s’adapte à une problématique et à un type de données.
Quelle méthode utiliser suivant les données à traiter ?
On a pu voir que toutes ces méthodes permettaient de faire de la prévision mais qu’elles ne
s’employaient pas dans le même contexte. Ainsi, suivant le type de données dont dispose
l’entreprise et le problème posé : souhaitons-nous expliquer un phénomène quantitatif ou
Page 24
qualitatif ? Dans un premier temps, il convient de choisir la méthode adéquate. Le tableau
suivant classe les différentes méthodes suivant les types de données traitées.
Variable à expliquer
Quantitatives Qualitatives
Variables explicatives Quantitative • Régression linéaire • Analyse discriminante
simple ou multiple
• Régression logistique
• Régression non
linéaire
• Durée de vie
(paramétrique ou non
paramétrique)
dR Qualitative • Analyse de la
variance à un ou
plusieurs facteurs
Quantitative • Modèle linéaire
et qualitative généralisé
•
•
Régression logistique
Régression logistique
D’après l’étude faite dans ce chapitre sur les différentes méthodes classiques, on voit que
celles-ci répondent à un grand nombre d’interrogations que peuvent se poser les entreprises.
En effet, suivant les données à étudier, quelles soient qualitatives ou quantitatives, il existe un
moyen de faire de la prévision, de la classification, de la segmentation ou de détecter des
corrélations entre les données. Mais on a pu constater que ces méthodes demandaient
toutefois un minimum de connaissances en mathématiques, d’une part pour construire les
différents modèles et les tester, et d’autre part pour interpréter correctement les résultats.
C’est pourquoi, comme nous allons le voir par la suite, de nouvelles méthodes ont été créées
IM
pour permettre à des utilisateurs non mathématiciens d’analyser les données de l’entreprise.
Page 25
3.2.2 Les techniques de data mining
Les techniques qui vont être présentées ci-après sont :

• les arbres de décision ;
• les règles d’association ;
• les réseaux de neurones ;
• les algorithmes génétiques ;
• le raisonnement à base de cas ;
• les réseaux bayésiens.
•
•
•
dR
3.2.2.1 Les données
Les données brutes sont rarement directement exploitables pour une opération de data mining.
Elles sont souvent issues de systèmes dont la vocation est la production et nécessitent des
adaptations, voire des transformations : codages, calculs, création de données combinées
calculées. Plusieurs problèmes se posent :
• définir le bon niveau de résumé ;
les architectures informatiques incompatibles ;
le codage incohérent des données ;
les données textuelles : les données textuelles (champs au format texte) posent beaucoup
de problèmes et sont souvent non utilisées. Il est très difficile d'extraire d'un champ texte
une donnée, sauf si le champ correspond à un codage connu ou s'il est très contraint (code
postal, numéro de sécurité sociale ou de plaque d'immatriculation de véhicule,…). La
méthode de codage la plus simple et la plus utilisée consiste à créer un tableau de
IM
transcodage avec un champ contenant une valeur possible et le résultat codé. On pourra
ainsi transformer les différentes orthographes possibles d'une commune (avec toutes les
formes d'abréviations imaginables) pour ressortir le code postal ou rechercher dans un
texte d'adresse les mots et y associer un code pays. Il faut noter cependant que des outils
de text mining font leur apparition et facilitent ces tâches ;
• les valeurs manquantes.
Les données peuvent être qualitatives (ou discrètes) ou quantitatives (ou continues) tant pour
la variable à expliquer que pour les variables explicatives. Néanmoins, selon les algorithmes
utilisés, elles feront l’objet d’une manipulation préalable, en particulier les variables continues
pourront être discrétisées (c’est-à-dire partagées en classes).
Pour une bonne mise en œuvre des techniques, il est nécessaire :
• d’avoir une véritable connaissance des données, c’est-à-dire comprendre la définition et le

mode d’emploi de chaque champ ;
• d’avoir accès à l’expertise du domaine ;
Page 26
• de procéder à des transformations de données qui accroissent l’efficacité de la méthode,
en particulier, transformer les champs cibles à valeur continue en quelques intervalles de
largeur suffisante, coder les noms et autres chaînes de caractères comme des index
numériques dans un tableau de noms ;
• d’ajouter des champs dérivés pour exprimer les relations entre les données ;
• de choisir des valeurs pour les champs qui manquent afin qu’elles aient un sens en cas
d’utilisation par les règles ;
• de disposer de données suffisamment fines pour permettre l’analyse. Si les données sont
trop fines, elles devront être résumées.
3.2.2.2 Les arbres de décision

3.2.2.2.1 Objectifs
dR
Les arbres de décision sont particulièrement appréciés et utilisés dans les domaines de :
• la prévision ;
• la segmentation.
Ils sont mis en œuvre pour analyser les relations entre une variable Y (variable à expliquer ou
dependant variable) et un ensemble de p variables X j (variables explicatives ou independant
variable) dans le but d’élaborer des règles. Les règles sont alors utilisées pour prévoir quelle
valeur sera prise par la variable à expliquer en fonction des variables explicatives.
Afin de comprendre les arbres de décision, il semble nécessaire de préciser quelques
définitions de termes clés.
3.2.2.2.2 Définitions
Un arbre est une représentation sous une forme particulière de règles de décision comprenant
des opérateurs logiques “ ET ”, “ OU ”. On a par exemple la figure suivante qui représente un
arbre binaire :
IM
1
Var3 = 0 Var3 = 1
2 3
Var1 = 0 Var1 = 1 Var2 = 0 Var2 = 1
4 5 6 7
G1 G2 G1 G2
Un arbre est constitué de nœuds de niveaux différents :
Page 27
• le nœud racine (le nœud 1) : il y en a un et un seul dans un arbre. Il contient l’ensemble des
observations et est caractérisé par la fréquence des modalités de la variable à expliquer sur
la population globale ;
• les nœuds intermédiaires (nœuds 2 et 3) : sont des sous-ensembles de la population initiale
obtenus par division du nœud racine par rapport à une variable. Le choix de cette variable
repose sur son pouvoir discriminant, c’est-à-dire sa capacité à différencier des individus.
On parle de variable discriminante. Ici, on a un arbre avec une seule couche de nœuds
intermédiaires. Ce nombre de couches peut varier. Les divisions peuvent être en deux sous-
ensembles, on parle alors d’arbre binaire mais peuvent également être supérieures. Le
partitionnement est récursif et s’effectue à l’étape suivante sur les nœuds intermédiaires.
Les nœuds obtenus par le partitionnement sont des nœuds descendants. Ceux à partir
desquels est effectué le partitionnement sont appelés des nœuds parents.
• Les nœuds terminaux ou feuilles (nœuds 4,5 6 et 7) : sont ceux pour lesquels la division
ne s’effectue plus. On aboutit à la conclusion finale de la règle.
dR
Variable discriminante : variable qui permet de différencier au-mieux des individus
dissemblables et de regrouper ceux les plus similaires.
Exemple :
pour une banque, Y peut être l’état des comptes courants (excédentaire, équilibré ou
déficitaire) et les variables Xi peuvent être des informations diverses de type montant du
revenu mensuel, nombre d’enfants à charge, profession exercée, niveau d’études, sexe, etc.
3.2.2.2.3 Lecture de l’arbre

La lecture de l’arbre est descendante. L’utilisation des opérateurs logiques ‘et’ ‘ou’ suit les
règles suivantes :
• Si la règle considérée conduit à passer d’un nœud parent à un nœud descendant alors on
utilisera l’opérateur ‘et’
IM
• Si la règle considérée conduit à interpréter plusieurs modalités dans un nœud alors on
utilise l’opérateur logique ‘ou’.
Pour élaborer une règle, il faut lire l’arbre de la racine à la feuille.
Par exemple, soit l’arbre suivant :
Page 28
dR
L’exemple consiste à déterminer l’état d’un compte bancaire : équilibré, retard de paiement de
60 jours ou de 30 jours. Différentes variables sont introduites dans l’arbre telles que
l’autorisation de découvert, la situation familiale. L’arbre obtenu peut se lire de la façon
suivante :
SI l’autorisation de découvert est faible OU Très faible OU Moyenne
ET qu’il ne dispose pas d’un compte d’épargne
ET qu’il n’a aucun enfant OU un enfant unique

IM
ALORS il aura un retard de 60 jours avec une probabilité de 54.5%.
3.2.2.2.4 Les algorithmes
Il existe différents algorithmes qui permettent la construction des arbres de décision. Les
principaux sont :
• CART : CLASSIFICATION AND REGRESSION TREES
• CHAID : CHI-SQUARED AUTOMATIC INTERACTION DETECTION
• C4.5.
Leurs principes et approches sont relativement différentes et ne permettent pas la même
utilisation des données. De plus, les différents logiciels proposent de choisir la méthode
d’apprentissage entre ces différents algorithmes. Ils vont donc faire l’objet d’une brève
présentation.
Page 29
• Cart :
Cet algorithme consiste à construire le plus grand arbre possible, appelé arbre maximal, et
ensuite à le réduire, on parle alors d’élagage, en déterminant un sous-arbre optimal. L’arbre
maximal est l’arbre qui contient l’ensemble des divisions binaires de nœuds possibles quel
que soient leur degré de pertinence.
Il répond à un problème de discrimination ou de régression selon que la variable à expliquer
est une variable qualitative ou quantitative.
L’algorithme consiste en une division récursive binaire du ou des nœud(s) parent(s) de telle
sorte que les nœuds descendants générés soient plus homogènes que le nœud parent et qu’ils
soient les plus différents possible entre eux relativement à la variable à expliquer.
La sélection de la variable discriminante s’effectue relativement à un critère défini dans la
méthode1.
dR
La construction de l’arbre suit les étapes suivantes :
1. Établir pour chaque nœud l’ensemble des divisions admissibles.
2. Définir un critère permettant de sélectionner la “ meilleure ” division du nœud considéré.
3. Définir une règle permettant de déclarer un nœud comme terminal ou intermédiaire.
4. Affecter chaque nœud terminal à l’un des groupes ou modalités de la variable à expliquer
(dans le cas de la discrimination) ou affecter une valeur à la variable à expliquer pour
chaque nœud (cas de la régression). La règle d’affectation dans le cas d’une
discrimination repose sur le principe de la modalité la plus représentée dans le nœud
considéré, et dans le cas d’une régression, elle consiste à affecter au nœud la valeur
moyenne prise par la population contenue dans le nœud.
5. Estimer le risque d’erreur de classement (cas de la discrimination) ou de prévision (cas de
la régression) associé à l’arbre.
IM
Remarque : les variables explicatives peuvent être discrètes ou continues.
• L’algorithme C4.5 :
C4.5 est la version la plus récente de l’algorithme d’arbre de décision développée par J. Ross
Quinlan. Cet algorithme est très proche de l’algorithme CART puisqu’il suit la même
démarche, c’est-à-dire, construction d’un arbre de taille maximale puis élagage.
Cet algorithme, à la différence du précédent, qui produit un arbre binaire, C4.5 peut conduire
des arbres binaires ou non binaires (la séparation des nœuds est supérieure à deux nœuds fils).
La séparation de chacun des nœuds lors de la construction de l’arbre maximal s’effectue en
fonction du nombre de modalités de la variable considérée pour la séparation du nœud.
Chacune des divisions possibles sont comparées entre elles. Le critère de comparaison repose
sur le principe du gain informationnel.
1
Pour en savoir plus, se rapporter à l’ouvrage CELEUX G, NAKACHE J.P., Analyse discriminante sur
variables qualitatives, Polytechnica, 1994
Page 30
Gain informationnel
Le nombre d’octets requis pour décrire une situation ou un résultat dépend de la taille
de l’ensemble des résultats possibles. S’il y a 8 classes de probabilités égales, il faut
log2(8) ou 3 bits. Si par ailleurs, il n’y a que 4 classes, il faut seulement log 2(4) ou 2
bits. Ainsi, on dit qu’une division qui part d’un nœud de 8 classes et arrive à des
nœuds de 4 classes a en moyenne un gain informationnel d’un bit.
Le critère de comparaison des nœuds est le rapport entre le gain informationnel dû à la

division proposée et le gain informationnel qui ne peut être attribué qu’au nombre de sous-
ensembles créés.
L’élagage de l’arbre repose sur les données qui ont servi à la construction de l’arbre. Il a lieu
au niveau de chacune des feuilles de l’arbre en fonction du taux d’erreur et en supposant que
le taux d’erreur réel sera sensiblement pire que celui estimé. Soit N le nombre
d’enregistrements dans une feuille dont E sont mal classés alors le taux d’erreur est estimé par
dR
le rapport E/N. Le but de l’algorithme de croissance est de minimiser ce taux d’erreur. On
suppose que le taux d’erreur observé avec les données d’apprentissage se situe sur la borne
inférieure de l’intervalle de confiance.
Après l’élaboration de l’arbre, l’algorithme dispose d’un programme qui permet de transcrire
l’arbre de décision en règles de décision. Ce générateur de règles ne se contente pas de lire
l’arbre mais cherche également à généraliser ces règles en éliminant des conditions et en
comparant ensuite les taux d’erreurs prédits des règles plus courtes avec ceux des règles
initiales. Souvent les règles de plusieurs feuilles différentes vont se généraliser de la même
façon de sorte que le nombre de règles est inférieur à celui des feuilles de l’arbre.
Après ce processus de généralisation, on risque de voir apparaître deux types de problèmes :
• les règles obtenues ne s’excluent pas mutuellement ;

• des enregistrements ne sont couverts par aucune règle.
IM
Lorsque plusieurs règles peuvent s’appliquer, il faut déclarer une seule règle applicable. Il
peut s’avérer également nécessaire d’introduire une classe par défaut à laquelle seront
attribués tous les enregistrements non couverts par une règle.
• L’algorithme CHAID :
Cet algorithme à la différence des précédents ne cherche pas à tenir compte de toutes les
données puis à élaguer mais essaie plutôt d’arrêter la croissance de l’arbre avant la
construction de branches. Il s’appuie essentiellement sur des tests du Chi-Deux. Cet
algorithme est limité aux variables énumératives, les variables continues devront être
discrétisées, c’est-à-dire découpées en classes.
CHAID opère sur une variable nominale à expliquer et maximise le niveau de signification du
Chi-Deux pour chaque partition réalisée. La partition peut être supérieure à deux, elle n’est
pas nécessairement binaire.
La démarche globale de cet algorithme peut se résumer comme suit :
Étape 1
Page 31
déterminer la meilleure partition pour chacune des variables explicatives. On cherche à
réduire le nombre de modalités en testant si ces modalités sont statistiquement différentes ou
non. En cas de différence non-significative, les modalités sont regroupées et ne constitueront
qu’une seule et même ligne.
Étape 2
comparer les variables explicatives entre elles et choisir la plus significativement différente
des autres.
Étape 3
diviser les données par rapport à la variable sélectionnée à l’étape précédente.
Chacun des sous-groupes ainsi obtenus fait l’objet de cette même démarche de façon
indépendante. On obtient alors un arbre de décision non nécessairement binaire.
1980.
CHAID dR
Cette méthode est détaillée par Kass dans son article An Exploratory Technique for
Investigating Large Quantities of Categorical Data, publié dans la revue Applied Satistics,
consiste en fait à effectuer tous les tris-croisés entre la variable à expliquer et les
variables explicatives. La méthode consiste à diminuer le nombre de modalités des variables
explicatives en établissant des proximités entre les modalités. Une fois réduit ce nombre de
modalités, l’algorithme effectue un test du Chi-Deux (test d’indépendance) qui met en
évidence les tris-croisés à rejeter, car non significatifs, et focalise immédiatement son
attention sur les subdivisions potentielles.
On a donc recherché les variables les plus discriminantes. On a effectué la discrimination de
la population par rapport à la variable retenue. Cette méthode présente l’avantage de pouvoir
effectuer des segmentations supérieures à 2.
IM
3.2.2.2.5 Exemple d’application
L’algorithme C4.5 a été utilisé pour mettre en place des règles afin de décider du choix d’un
mode de transport en région parisienne.
Suite à une enquête détaillée sur les modes de transport en Ile-de-France, une étude a été
réalisée afin d’établir un modèle de détermination du mode de transport pour permettre des
simulations de l’évolution du trafic dans la région. L’analyse datamining mise en œuvre
consistait à étudier les facteurs déterminants du choix d’un mode de transport par les
franciliens.
Cette étude s’est déroulée en différentes étapes. La première étape a consisté en un examen
attentif des différentes données disponibles, à leur sélection et à leur recodage. Les deux cents
champs initiaux ont été regroupés par groupe thématique. On avait ainsi des renseignements
sur le lieu de résidence, la catégorie socio-professionnellle, etc. Seuls 26 champs ont
finalement été utilisés lors de la découverte de connaissances. Pour cette modélisation, il
s’agissait de prédire le type de déplacement codé à l’aide d’une variable à trois modalités : le
déplacement s’effectue à pieds, en voiture ou en transport en commun.
Page 32
La base de données comportait 400.000 enregistrements et assurait un représentation
statistique de la population en Ile-de-France. Les règles obtenues par utilisation de
l’algorithme C4.5 sont simples et couvrent des populations suffisamment importantes. Des
tests de validation ont été effectués et ont montré leur robustesse.
Néanmoins, cette application présente la particularité qu’elle consiste à prédire mais
également à déterminer les variables pertinentes dans le choix d’un mode de transport par un
usager. Il est apparu que les éléments déterminants dans le choix du mode de transport sont la
durée et la longueur du trajet. Par contre, les facteurs sociologiques et le motif de déplacement
n’ont pas l’importance attendue. Cette étude de data mining a donc permis d’envisager des
modèles de simulations plus simples et ainsi d’orienter les développements théoriques futurs.
3.2.2.2.6 Synthèse
Une grande diversité d’algorithmes conduisent à la création d’un arbre de décision.
Néanmoins, s’ils ont tous la même vocation, établir des règles pour effectuer des prévisions
dR
ou des segmentations, les données utilisables ne sont pas toutes strictement identiques.
Ainsi, le tableau suivant résume la compatibilité entre données, méthodes et résultats :
Variables quantitatives
Variables qualitatives
Résultats
CART
Oui
Oui
Arbre
binaire
uniquement
C4.5
Oui
Oui
Arbre
binaire ou
non
CHAID
Non
Oui
Arbre
binaire ou
non
Ces algorithmes sont présents dans la plupart des logiciels de data mining. Ils offrent la
possibilité de choisir l’algorithme d’apprentissage des règles. Le choix de l’algorithme va
IM
donc s’effectuer en fonction des variables et des résultats attendus. C4.5 est l’algorithme le
plus récent mais chacun comporte des limites plus ou moins contraignantes.
Page 33
Forces Faiblesses
• Nature des variables prises en compte : • Instabilité des arbres obtenus
qualitatives ou quantitatives (nécessaire d’itérer plusieurs fois
l’analyse pour obtenir une réponse
• Prise en compte des données
CART
fiable)
manquantes dans l’analyse
• Arbre construit ne peut qu’être binaire
• Procédure robuste vis-à-vis des données
aberrantes ou erronées
• Nature des variables prises en compte : • Non-exclusion mutuelles des règles

qualitatives ou quantitatives
• Certains enregistrements peuvent ne
C4.5
• Prise en compte des données pas être couverts par des règles.
dR
•
•
manquantes dans l’analyse
Arbre binaire ou non
Arbre binaire ou non • Variables uniquement qualitatives
CHAID
Ces méthodes peuvent être utilisées dans divers domaines dont :

• les études marketing : ces méthodes permettent de comprendre les critères prépondérants
dans le comportement des clients ; par exemple, son comportement d’achat ;
• les ventes : analyse des performances ;
• les services après-vente : détection des causes de réclamation ;
IM
• l’analyse de risque : détection des facteurs prédictifs dans le comportement de non-
paiement ;
• le contrôle-qualité : identifier dans le processus de fabrication les éléments responsables
des défauts ou estimer la probabilité de défaut de chaque objet produit en fonction des
conditions de fabrication. On peut imaginer ainsi ajuster une politique de maintenance
préventive.
La méthode des arbres de décision séduit par sa simplicité de lecture et d’utilisation.
Les arbres de décision s’apparentent donc aux méthodes dites de prévision par élaboration de
règles. D’autres techniques telles que les associations permettent de découvrir et d’élaborer
des règles.
3.2.2.3 Les règles d’association
Les associations visent à construire un modèle constitué d’un ensemble de règles
conditionnelles de type Si…. Sinon….Alors. Elles sont élaborées à partir d’un fichier de
données. La recherche des associations peut s’opérer sur l’ensemble des données en testant
toutes les conclusions possibles ou sur une donnée cible où la conclusion est fixée par
l’utilisateur.
Page 34
Les principales utilisations de cette méthode concernent essentiellement le diagnostic de
crédit ainsi que l’analyse des tickets de caisse de magasin, ou encore le fonctionnement des
cartes de crédit ou de fidélité. Néanmoins, cette technique est également applicable dans
l’industrie pour l’analyse des pannes. Plus généralement, ces techniques s’appliquent pour les
problèmes où l’apparition d’un événement est conditionnée par des événements passés.
Cette méthode consiste à évaluer les affinités existantes entre les variables. Dans le cas de la
vente d’articles, on cherche à mettre en évidence les produits vendus simultanément par
identification des liaisons existantes.
Cette méthode repose sur des principes simples qui vont faire l’objet d’une brève
présentation.
La première étape consiste à détecter quelles sont les paires de produits ou de variables qui
apparaissent le plus fréquemment. On considère ainsi l’ensemble des couples ordonnés
possibles. On parle alors d’association.
Ces associations sont évaluées grâce aux indicateurs suivants :
•
dR
le niveau de confiance : il correspond au nombre de fois où chaque association possible
apparaît, rapporté au nombre de fois où l’une des variables apparaît seule. Ainsi, si l’on
considère trois tickets de caisse différents :
➢ ticket 1 : farine – sucre – lait ;
➢ ticket 2 : œuf – sucre – chocolat ;
➢ ticket 3 : farine – œuf – sucre – chocolat.
L’ensemble des associations possibles du ticket 1 est le suivant : farine/sucre – sucre/farine –
farine/lait – lait/farine – sucre/lait – lait/sucre.
Le niveau de confiance pour l’association farine/sucre est de : 2/2 (nombre de fois où
l’association apparaît / nombre de fois où la farine seule apparaît)
Le niveau de support : cet indicateur correspond au nombre de fois où l’association apparaît
rapporté au nombre de fois où l’une des variables de l’association apparaît. On prend la valeur
IM
maximale.
Dans une seconde étape, on cherche à mettre en évidence les associations pertinentes, soit
celles pour lesquelles le niveau de confiance et de support est élevé. Pour cela, on procède en
deux étapes :
• tout d’abord, les articles ou événements présentant un niveau de support supérieur à un
certain seuil sont isolés ;
• ensuite les articles les plus représentés sont combinés entre eux afin de générer les
associations.
La simplicité de ces techniques peut séduire mais constitue également sa faiblesse.

La recherche des associations de manière exploratoire, soit en considérant l’ensemble des
associations possibles, semble difficile à mettre en œuvre si les variables considérées sont à
un niveau trop fin. On disposerait alors d’une combinatoire trop élevée qui ferait perdre à la
méthode sa pertinence. Il convient donc d’effectuer l’analyse sur des données agrégées.
Page 35
Le niveau élémentaire peut en revanche être utilisé pour confirmer une hypothèse quant à la
relation entre plusieurs variables, par exemple, on peut mesurer quel est l’impact de la marque
X sur les ventes d’un produit Y.
Cette méthode s’applique essentiellement à des données qualitatives.
Relativement à la méthodologie utilisée, on risque d’être rapidement confronté à des
problèmes de volumétrie dans le cas d’analyse de bases à fort volume.
3.2.2.4 Les réseaux de neurones

Les réseaux de neurones représentent l’une des techniques de data mining la plus utilisée mais
qui en même temps est la plus mystifiée. Les statisticiens hésitent à la mettre en œuvre car ils
ont l’impression d’une “ boîte noire ” : il est difficile de savoir comment les résultats sont
produits, ce qui rend les explications délicates, même si les résultats sont corrects.
Cette technique est une transposition simplifiée des neurones du cerveau humain. Dans leur
dR
variante la plus courante, les réseaux de neurones apprennent sur une population d'origine
puis sont capables d'exprimer des résultats sur des données inconnues. Ils sont utilisés dans la
prédiction et la classification dans le cadre de la découverte de connaissances dirigée.
Certaines variantes permettent l'exploration des séries temporelles et des analyses non
dirigées (réseaux de Kohonen). Le champ d'application est très vaste et l'offre logicielle
importante.
3.2.2.4.1 Présentation
Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit
des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises pour activer les
muscles.
Il existe deux types de réseaux :
• à apprentissage supervisé où la réponse est connue ;
IM
• à apprentissage non supervisé où le réseau ne connaît pas le résultat.
Nous nous intéresserons ici aux réseaux à apprentissage supervisé. Le réseau est construit à
partir de cas connus (telles données en entrée doivent fournir tel résultat). Les données sont
présentées en entrée au réseau sous la forme d’une configuration d’activation des neurones
d’entrée. Cette activation est propagée à travers le réseau. La réponse fournie se présente sous
la forme de l’activation des neurones de sortie.
Ils répondent à une problématique de prévision et de classification sur tous types de variables.
Les données nécessitent une phase de manipulation préalables à l’estimation du modèle. En
effet, les données doivent être comprises entre 0 et 1 d’où la nécessité de recoder certaines
variables. Néanmoins, les logiciels mettant en œuvre cette technique permettent de rendre
transparente cette étape.
Les composants d’un réseau de neurones sont donc:
• le neurone formel ;
• une règle d’activation ;
• une organisation en couches ;
• une règle d’apprentissage.
Page 36
L’ajustement du modèle s’effectue pendant la phase dite d’apprentissage où le réseau apprend
les relations entre les variables à partir des données observées. Cette phase s’effectue
progressivement par itérations successives, par présentation répétée des données au système et
correction partielle des paramètres des neurones, on parle ici de poids, et ce jusqu’à la
satisfaction du critère d’arrêt. Ce critère d’arrêt peut être la durée autorisée d’apprentissage,
un certain laps de temps autorisé, ou la qualité du modèle. La qualité du modèle est évaluée
par comparaison des réponses estimées par le réseau et celles réelles. Il est conseillé de tester
sur un autre échantillon de données la qualité du modèle. En effet, dans la mesure où le
système est fortement surparamétré, il est souvent possible d’obtenir un très bon
apprentissage mais aucune garantie n’est offerte en ce qui concerne les performances des
données similaires. C’est pourquoi il est nécessaire de tester la qualité du modèle sur un jeu de
données indépendant de celui d’apprentissage.
Le réseau de neurones se présente de la façon suivante :
X1
dR X2
…….. Xj
…….. XJ
h1 …….. hk …….. hK
IM
Y
Où les neurones notés X constituent la couche d’entrée et représentent les variables

explicatives.
Les neurones notés h constituent la couche cachée et le neurone noté Y est la variable à
expliquer, c’est-à-dire celle sur laquelle on souhaite effectuer la prévision.
Cette figure est une représentation théorique du réseau de neurones. Néanmoins, cette phase
est rendue transparente pour les utilisateurs des logiciels statistiques.
Page 37
3.2.2.4.2 Mise en œuvre d’un réseau de neurones
La construction d’un réseau de neurones est constituée des étapes suivantes :
• préparation des données ;
• détermination des paramètres ;
• phase d’apprentissage ;
• phase d’optimisation ;
• phase de test ;
• phase d’exploitation.
Seules les trois premières étapes seront présentées, les étapes suivantes ne présentant pas de
spécificité par rapport à une mise en place informatique classique.
dR
3.2.2.4.3 Préparation des données
La préparation des données consiste à déterminer les entrées et les sorties, constituer la base
d’exemples, coder les entrées et enfin optimiser le jeu de données, en particulier sa taille. La
dimension du jeu de données d’apprentissage dépendra du nombre de neurones et de couches
intégré dans le réseau. Il faut qu’il soit suffisamment important pour permettre un bon
apprentissage. Cependant, si sa taille est trop importante, le délai d’apprentissage sera long.
3.2.2.4.4 Constitution de la base d’exemples

Le choix des exemples conditionne, bien entendu, les résultats, le but étant d’expliquer un
phénomène. Si une action est positive dans 90 % des cas, ce n’est pas pour autant qu’il faille
prendre un échantillon contenant 90 % des cas positifs aussi. Mieux vaut équilibrer et faire 50
/ 50 afin de forcer le réseau à comprendre les 10 % négatifs.
IM
3.2.2.4.5 Codage des entrées
Le codage des entrées est l’association des variables aux neurones. Ainsi, une valeur continue
sera représentée par un neurone alors qu’une variable discrète prenant, par exemple, les
valeurs travailleur actif ou non actif sera codée par deux neurones.
3.2.2.4.6 Optimisation du jeu de données

Le jeu de données constitué à l’étape précédente peut contenir, soit beaucoup trop de
variables, qui alourdirait le travail d’apprentissage, soit des valeurs aberrantes qui fausseraient
les calculs. Il est donc important de retravailler cet échantillon.
3.2.2.4.7 Détermination des paramètres

Les éléments à paramétrer pour la construction d’un réseau de neurones sont :
• l’architecture : détermination du nombre de couches et du nombre de neurones de chaque
couche ;
Page 38
• la fonction de sommation : définition de la nature de l’opérateur qui combine les poids des
Wi (somme, minimum, maximum, majorité, produit). La plus utilisée est la somme ;
• la fonction de transfert : détermination de la fonction à appliquer sur le résultat de la
fonction de sommation (sigmoïde, linéaire, gaussienne). La plus utilisée est la sigmoïde ;
• la fonction de normalisation : transformation de la sortie soit pour la rendre
compréhensible par l’utilisateur, soit pour la mettre dans des limites acceptables pour les
couches cachées ;
• la fonction de compétition : détermination de la ou des sorties qui seront présentes à la
couche suivante (la plus forte, les deux plus fortes, …) ;
• le calcul de l’erreur : calcul de l’écart entre la sortie donnée et la sortie calculée (erreur
moyenne, erreur absolue, erreur quadratique, sens de variation de l’erreur).
Ce sont des paramètres qui sont pré-établis dans les différents logiciels mettant en œuvre ces
techniques. Certains d’entre eux peuvent malgré tout être modifiés par un utilisateur averti.
•
•
•
dR
3.2.2.4.8 Principe de la phase d’apprentissage
L’apprentissage consiste à descendre le réseau de façon itérative en ajustant les poids à
chaque passage selon le calcul d’erreur jusqu’à ce qu’il n’y ait plus d’amélioration. Pour cela,
un algorithme de rétropropagation de l’erreur est mis en œuvre.
Principe de l’algorithme de rétropropagation de l’erreur :
initialiser la matrice des poids au hasard ;
choisir un exemple en entrée ;
propager le calcul de cette entrée à travers le réseau ;
• calculer la sortie de cette entrée ;
• mesurer l’erreur de prédiction par différence entre sortie réelle et sortie prévue ;
IM
• calculer la contribution d’un neurone à l’erreur à partir de la sortie ;
• déterminer le signe de modification du poids ;
• corriger les poids des neurones pour diminuer l’erreur.
Le processus recommence ainsi, à partir du choix de l’exemple en entrée, jusqu’à ce qu’un

taux d’erreur minimal soit atteint.
On peut résumer la démarche dans la synotpique suivant :
Page 39
dR
3.2.2.4.9 Exemple d’application
Cet exemple est un cas concret d’application des réseaux de neurones. Il s’agit de modéliser la
corrosion de la peau. Un laboratoire de protection de l’environnement s’occupe
particulièrement des problèmes de toxicologie. Il vérifie et valide l’innocuité de nouveaux
produits à tester. Un des objectifs est de développer de nouvelles méthodes d’analyse
informatique afin de réduire l’ampleur des campagnes de test avant la mise sur le marché du
produit.
Les réseaux neurones ont été mis en place pour modéliser le degré de corrosivité de
substances chimique. Ils ont été entraînés à déterminer un degré de corrosivité (variable à
expliquer) en fonction d’un certain nombre de paramètres tels que le volume moléculaire, le
point de fusion, une mesure de l’hydrophobicité de la substance,….. Cela a permis d’élaborer
une nouvelle échelle à partir des informations existantes assurant ainsi un traitement plus
précis des substances limites.
IM
Page 40
3.2.2.4.10 Synthèse
Forces Faiblesses
• Souplesse : répondent à différentes • Codage des données d’entrée est
problématiques telles que la prévision, la nécessaire. Elles doivent être comprises
LES RESEAUX DE NEURIBES
classification entre 0 et 1. A effectuer avec prudence

afin de ne pas biaiser le résultat.
• Bonne résolution : bons résultats
• Les réseaux de neurones ne fournissent
• Bonne adaptation aux données : après
pas des résultats lisibles
codage des données, tous les types de
données peuvent être utilisées • Les résultats fournies ne sont pas
(quantitatives et qualitatives) nécessairement optimaux
• Outils disponibles : un grand nombre de • Performance : le nombre de calculs à
dR
3.2.2.5 Les algorithmes génétiques
logiciels ont intégré dans leur offre les
réseaux de neurones
effectuer pour définir un réseau optimal
peut être consommateur de puissance
Les algorithmes génétiques représentent une technique dont la vocation principale est
l'optimisation, mais on peut également les utiliser pour des prédictions ou classifications. Leur
champ d'application est très large. C'est une technique récente : les premiers travaux datent de
la fin des années 50 où biologistes et informaticiens ont coopéré pour modéliser les
mécanismes génétiques sur ordinateur. Mais c'est surtout au début des années 60 que John
Holland développa ses travaux de recherche sur ce thème. Le terme d'algorithme génétique,
quant à lui, date de 1967, tandis que l'algorithme date de 1975. Ces concepts étaient mal
perçus car, à cette époque, régnait la recherche opérationnelle capable de trouver, par
définition, la meilleure solution, tandis que les algorithmes génétiques se basent sur un
IM
processus aléatoire dont l'objectif est de trouver une meilleure solution que celle en cours.
Actuellement, peu de produits commerciaux proposent ces algorithmes. En fait ils sont
intégrés de manière transparente pour optimiser l'apprentissage des réseaux de neurones.
Les algorithmes génétiques trouvent de nombreux domaines d'applications.
Ils sont utilisés dans :

• l'industrie pour optimiser ou contrôler les processus (pression d'un cylindre, température
d'un four, etc…) ;
• le domaines spatiaux (choix des meilleures implantations d'un distributeur automatique de
billets de banque) ;
• le domaine marketing (choix des meilleurs candidats à une offre).
Cependant, on les trouve surtout dans le data mining où ils vont optimiser les performances
des systèmes : modifier les paramètres d'une régression, optimiser les poids des liaisons d'un
réseau neuronal, isoler les variables qui permettent le mieux d'interpréter le comportement des
clients dans un arbre de décision.
Page 41
3.2.2.5.1 Fonctionnement
Les algorithmes génétiques sont basés sur les principes de Darwin dans ce domaine. Les
chromosomes (à la base des théories sur l'hérédité et l'évolution) sont formés de brins d'ADN
(acide désoxyribonucléique). Ceux-ci sont porteurs d'informations sur toutes les
caractéristiques des individus (couleur des yeux, forme des lèvres, maladies héréditaires,
tares, …). Lors du processus de reproduction, les gènes se combinent entre eux et les gènes
les plus faibles ou les moins biens adaptés tendent à disparaître. Ceci rend les nouveaux
individus plus aptes à évoluer dans leur environnement. Il arrive également que certains gènes
se combinent mal et aboutissent à des anomalies génétiques.
Les algorithmes génétiques s'inspirent du processus naturel décrit ci-dessus. Le fichier de
départ doit être codé par des 0 et des 1. Un nombre n de chromosomes est fixé par le système.
Ce nombre ne bougera plus. Pour initialiser le processus, on peut prendre les n premiers
enregistrements. Chaque chromosome est évalué par une fonction adéquate. Cela donnera
dR
naissance à une nouvelle génération proportionnelle au résultat de l'évaluation. Divers
processus (mutation, croisement, …) seront mis en œuvre. Le système choisira de manière
aléatoire n nouveaux chromosomes parmi les descendants, ce qui réinitialise le processus.
Compte tenu de la méthode de calcul des descendants, les sujets potentiellement les mieux
adaptés ont plus de chances d'être choisis.
3.2.2.5.2 Mise en œuvre

• Les données :
Pour pouvoir fonctionner correctement, les données doivent être codées sous forme d'une
séquence de 0 et de 1. Les données numériques sont codées en binaires tandis que les autres
variables sont codifiées sur un ou plusieurs codes élémentaires. Par exemple sexe peut être
codé 1 pour les femmes et 0 pour les garçons; nombre annuel de commandes peut être 00 pour
aucune, 01 pour une ou deux, 10 pour trois ou quatre, et 11 pour 5 et plus, …
IM
• La fonction d’évaluation :
Il faut définir une fonction d'évaluation pour mesurer l'aptitude d'un enregistrement. C'est la
partie la plus délicate. Il faut trouver une fonction adéquate au problème posé et chaque cas
est un cas particulier. Il existe cependant deux techniques couramment utilisées. La première
consiste à faire l'évaluation compte tenu de cas analogues existant dans l'historique. La
seconde consiste à créer une fonction spécifique qui va retirer des points lorsque les
contraintes ne sont pas respectées.
• La génération des descendants :

Un chromosome représente un enregistrement codé en binaire. Il faut initialiser le processus
avec un nombre n fixe de chromosomes. Ce nombre ne changera pas. Chaque chromosome
est soumis à la fonction d'évaluation, pour mesurer sa justesse (fitness en anglais). Les
chromosomes les plus adaptés reçoivent une descendance plus importante. L'ensemble des
descendants représente un cercle composé de n secteurs. Exemple :
Soient 4 chromosomes qui, soumis à la fonction d'évaluation, obtiennent les résultats
respectifs suivants :
Page 42
Chromosome Evaluation % Angle en radians
111100110 12 35.3 % 2.218
100101000 4 11.7 % 0.739
011001001 000111011
15 44.1 % 2.772
001110110 9% 3 8.8 % 0.554
TOTAL 34 100 % 2 PI
111100110
35%
Valeur 000111011
retenue 9%
dR 011001001
44%
011001001
44%
111100110
100101000
12%
35%
100101000
12%
La roue
tourne
Graphique 1 : répartition des descendants sur un cercle

IM
• Le processus de sélection :
L'effectif de la population est constant pour éviter une extinction ou un trop grand
développement. Par conséquent, le nombre de descendants est toujours ramené à celui des
parents. Le processus de sélection est aléatoire. Chaque descendant prend une surface d'un
secteur du cercle proportionnel à son aptitude (résultat de la fonction d'évaluation). L'angle
représenté par chaque chromosome vaut donc 2xPIxfréquence. Sur le principe de la roue de la
fortune, on procède au tirage aléatoire dans le cercle. Cette valeur représentera le chromosome
retenu. On veillera à éviter qu'une valeur ne domine pas trop les autres, surtout pas trop vite
car il faut conserver un minimum de diversité. En procédant ainsi, les chromosomes les plus
adaptés reçoivent une descendance plus importante. Cette croissance des meilleures solutions
sous la contrainte de la pression sélective (selective pressure) conduit à une disparition
progressive des solutions les moins adaptées, ce qui contribue à confirmer les théories de
Darwin.
Page 43
•
dR Graphique 2 : processus de sélection des descendants
Manipulation génétique :
Lorsque les descendants sont définis, on peut procéder à des manipulations sur ceux-ci. Il
existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou l'inversion.
 Hybridation
L'hybridation ou croisement (cross-over en anglais) consiste à permuter deux chromosomes à
Valeur retenue
partir d'un point choisi de manière aléatoire.
IM
Figure 1 : hybridation de deux chromosomes
 Mutation
La mutation consiste à changer la parité d'un des éléments pris au hasard :
➔
Figure 2 : mutation d'un chromosome
 Inversion
L'inversion consiste à intervertir deux caractères consécutifs :
Page 44
➔
Figure 3 : inversion dans un chromosome
50% à 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes
performances, le taux d'hybridation est souvent élevé (80% du taux de manipulation).
• Fin du processus :
Après les manipulations, le système choisit de manière aléatoire parmi tous les descendants le
nombre fixe de chromosomes (généralement faible, de l'ordre des unités). Le processus
recommence jusqu'à trouver une solution acceptable.
dR
IM
Page 45
3.2.2.5.3 Synoptique du processus de mise en œuvre des algorithmes génétiques
Choix des n
premiers
chromosomes
-1-
Génération des descendants Evaluation des
chromosomes
dR -2-
Sélection (choix pseudo-
aléatoire) d'une nouvelle
génération de n
chromosomes
-3-
Manipulations génétiques
(hybridation, inversion,
Solution acceptable
?
mutation)
IM
NON
OUI
Fin du processus
Page 46
3.2.2.5.4 Synthèse
Les algorithmes génétiques sont utilisés dans la découverte de connaissances dirigée. Ils
permettent de résoudre des problèmes divers, notamment d'optimisation, d'affectation ou
de prédiction.
Leur fonctionnement s'apparente à celui du génome humain. Le principe de fonctionnement
est le suivant : les données sont converties en chaînes binaires (comme les chaînes d'ADN -
acide désoxyribo nucléique-). Celles-ci se combinent par sélection, croisement ou mutation et
donnent ainsi une nouvelle chaîne qui est évaluée. En fonction du résultat, les chaînes les plus
faibles cèdent leur place aux plus fortes. Cette technique est particulièrement intéressante pour
résoudre des problèmes d'affectation ou des problèmes sur lesquels on peut poser une fonction
d'évaluation car elle peut trouver des solutions optimisées parfois inexistantes dans les
données d'origine.
HME
S
dR
LES
ALG
ORIT
GENE
TIQU
ES
•
•
•
analyser
Forces
Résultats explicites et faciles à •
Tous types de données

Performants pour optimiser les •
réseaux de neurones
3.2.2.6 Le raisonnement à base de cas (RBC)

•
Faiblesses
Codage binaire préalable qui peut se
révéler complexe
Optimisation non garantie
Techniques peu commercialisées
C'est une technique de découverte de connaissances dirigée utilisée dans un but de

classification et de prédiction. Appelée également raisonnement basé sur la mémoire (RBM),
IM
ou Case Based Reasoning (CBR) en anglais, cette technique est l'équivalence de l'expérience
chez l'homme : en fonction d'elle, tout le monde peut prendre une décision. Lorsqu'un
médecin pose un diagnostic et un traitement, il applique sa connaissance du patient et de
symptômes similaires au cas présent. Son processus sera l'identification des cas similaires,
puis l'application de l'information provenant de ces cas au problème actuel. Le RBC
fonctionne sur le même principe : lorsque l'on présente un nouvel enregistrement, le RBC
trouve les voisins les plus proches et positionne ce nouvel élément. Le RBC s'applique à tous
les types de données.
3.2.2.6.1 Utilisation
Le RBC s'adapte bien aux bases de données relationnelles, qui sont les plus courantes dans le
domaine de gestion. Sa mise en œuvre est simple, ce qui en fait un outil apprécié. On peut
l'utiliser pour :
• estimer des éléments manquants ;
• détecter des fraudes ;
Page 47
• déterminer le meilleur traitement d'un malade ;
• prédire si un client sera intéressé ou non par telle offre ;
• classifier les réponses en texte libre.
3.2.2.6.2 Fonctionnement
Les systèmes de raisonnement à base de cas consistent à comparer une situation nouvelle à
une situation passée. Si elles sont suffisamment “ similaires ”, toutes les conclusions
appliquées à l’expérience passée restent valides et peuvent être appliquées à la nouvelle
situation.
La construction d’un RBC s’effectue en quatre étapes :
• la collecte des données ;
• la recherche des facteurs pertinents ;
•
•
dR
l’indexation des données ;
les tests et l’amélioration de la performance.
Etape 1 : la collecte des données
La base de données est constituée de cas qui représentent chacun une situation caractéristique
du domaine d’étude. Le cas comporte deux types d’informations : une collection de faits qui
décrivent un état particulier et cohérent, et un ensemble de déductions ou d’interprétations
envisageables relativement à la collection de faits.
Les données en entrée sont structurées sous forme de variables, définies par une liste finie de
modalités, ou sous forme textuelle libre. Néanmoins, dans ce dernier cas, il est plus difficile
d’identifier les facteurs pertinents.
IM
Etape 2 : la recherche des facteurs pertinents
La fourniture de la base de cas pour l’élaboration du RBC s’avère fréquemment insuffisante.

Il est alors nécessaire de construire un mode de représentation hiérarchique des données en
fonction des buts poursuivis par l’expert qui va permettre d’accélérer la recherche et la
sélections des cas.
Plusieurs stratégies sont disponibles :
• la recherche de mots-clés :
un exemple peut être décrit par des mots clés. La mesure de similarité consiste alors à compter
par exemple le nombre de mots clés communs au nouvel exemple et aux cas présents dans la
base.
Page 48
On définit ainsi la distance d suivante :
Nombre de mots - clés communes a et b
d(a, b) = 1 − ;
Nombre de mots - clés en a ou b
• la hiérarchisation des concepts :
elle s’écrit sous la forme d’une arborescence ce qui permet de limiter la mesure de la distance
aux seuls cas pertinents. On crée ainsi un contexte d’analyse et une liste des facteurs
pertinents pour chaque contexte.
Une fois la base de cas structurée, il reste à associer un nouveau cas avec d’autres qui
présentent un contexte identique. Le ou les diagnostics possibles sont alors présentés à
l’utilisateur.
La solution la plus probable s’appuie sur le nombre de fois où le cas s’est présenté et sur la
répartition des diagnostics sur ce sous-ensemble de cas.
dR
Etape 3 : l’indexation des données
Cette étape consiste à pondérer les différents critères de calcul de la similarité entre le
nouveau cas et les cas existants. La méthode d’indexation la plus couramment utilisée est
celle des plus proches voisins qui fait intervenir une fonction de similarité. Elle consiste à
calculer une distance entre le nouveau cas et les cas ayant le même contexte, à sélectionner les
distances les plus courtes et présente enfin les diagnostics les plus fréquents.
Les fonctions de similarité peuvent faire intervenir le dénombrement des cas ou également
une pondération des critères.
Etape 4 : les tests et amélioration des performances

La mesure de la performance passe par une confrontation entre les diagnostics réels et estimés
par le RBC. Cette confrontation est présentée sous forme matricielle. C’est la matrice de
IM
confusion.
3.2.2.6.3 Exemple
Pour notre exemple, considérons une liste de clients ayant déjà répondu à une offre
commerciale (par oui ou non). L'utilisateur métier estime que les critères les plus déterminants
sont le sexe, l'âge et le salaire net du dernier semestre. Soit la liste suivante de clients
identifiés :
Numéro Age Sexe Salaire Acheteur
A 27 F 19000 Non
B 51 M 66000 Oui
C 52 M 105000 Non
D 33 F 55000 Oui
E 45 M 45000 Oui
Considérons maintenant un nouveau client : une femme de 45 ans ayant un revenu de 100000
Francs. Déterminons si cette cliente sera intéressée ou non par l'offre.
Page 49
La fonction de distance est définie ainsi : il s'agit d'une femme, donc la distance par rapport
aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on ajoute
la distance normalisée du salaire et de l'âge, ce qui donne les tableaux des distances suivants :
Client Age Sexe Salaire Distance totale

A 0.720 0 0.942 1.662
B 0.240 1 0.395 1.635
C 0.280 1 0.058 1.338
D 0.480 0 0.523 1.003
E 0.000 1 0.640 1.640
Les voisins les plus proches sont donc, dans l'ordre : D C B E A
dR
Utilisons maintenant la fonction de combinaison. Il va falloir déterminer le nombre de voisins
retenus pour l'estimation de la réponse. Pour l'exemple, nous allons faire varier ce nombre de
1 à 5. Cela nous donne le tableau de synthèse suivant utilisant la fonction de combinaison:
Nombre
retenus
de
Numéro des voisins

voisins
Réponses des voisins

Décompte des réponses
1
D
O
Oui 1
2
DC
O,N
Oui 1
3
DCB
O,N,O
Oui 2
4
DCBE
O,N,O,O
Oui 3
5
DCBEA
O,N,O,O,N
Oui 3
Non 0 Non 1 Non 1 Non 1 Non 2
Valeur retenue Oui ? Oui Oui Oui
IM
Evaluation 100 % 50 % 66 % 75 % 60 %
Il est préférable de prendre un nombre impair car la réponse ne peut prendre que 2 valeurs et
on évite ainsi les réponses incertaines (cas de 2 voisins).
Si nous ne retenons que les trois voisins les plus proches, la réponse sera favorable avec une
probabilité (ou plutôt une espérance) de 66%.
Il aurait été possible également de donner un poids à chaque contribution. Par exemple le
premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisième un
poids de 1. On peut également affecter des poids à chaque variable utilisée dans la fonction de
distance.
Page 50
3.2.2.6.4 Synthèse
Forces Faiblesses
• Résultats explicites • Nécessite un important volume de
LE RBC
données pour être performant

• Applicable à tous types de données
• Très dépendant des fonctions de
• Aisé à mettre en œuvre et à
distance et de combinaison
comprendre
Le raisonnement basé sur la mémoire (RBM) est une technique de prédiction et de

classification utilisée dans le cadre de la découverte de connaissances dirigée. Elle peut être
également utilisée pour l'estimation. Pour chaque nouvelle instance présentée, le système
recherche les voisins les plus proches et procède ainsi à l'affectation ou estimation en les
dR
combinant entre eux. L'avantage du RBM est qu'il est facile à comprendre, à mettre en œuvre,
très stable (les nouvelles données n'entraînent pas de refaire fonctionner un système de calcul)
et supporte tout type de données. Les performances de cette technique sont assez bonnes.
3.2.2.7 Les réseaux bayésiens
Les réseaux bayésiens sont une méthode probabiliste classique utilisée pour estimer une
probabilité d’apparition d’un événement, étant donné la connaissance de certains autres
événements. Ils consistent en un modèle graphique qui encode les probabilités entre les
variables les plus pertinentes.
Cette technique complétée par des statistiques classiques permet de comprendre les relations
causales existant entre les variables (mesure d’impact) pour déclencher une action. On fait
donc appel à une notion de seuil.
3.2.2.7.1 La conception
IM
Un réseau bayésien est un graphe orienté dont les nœuds représentent des variables et les arcs
symbolisent les dépendances entre les variables. Chaque nœud ne peut être relié que par un
nœud ou une variable le précédant. La probabilité d’une variable est mesurée par sa fréquence
d’apparition. La force des relations entre les variables est mesurée par les probabilités
conditionnelles.
Toutefois, le réseau peut s’avérer complexe car :
• pour des variables qualitatives, il y a autant de nœuds créés que de modalités existantes ;
• les connexions entre les nœuds peuvent être nombreuses, en particulier s’il est totalement
connecté (les nœuds sont connectés deux à deux).
Cette complexité peut entraîner des temps de calculs relativement longs.
Pour pallier à cette difficulté, il est possible d’élaguer le réseau en :
• regroupant les valeurs ;
Page 51
• limitant les liens : un nombre maximal de liens parents pour un nœud est fixé . Cette
solution permet de réduire le temps de calcul mais peut conduire à une perte de dépendance
entre variable et donc à un modèle qui ne traduit plus la réalité car trop simplifié.
Différents réseaux peuvent exister. Il convient de sélectionner le meilleur. Pour cela, la
démarche de mise en œuvre s’effectue en quatre phases.
Phase 1 : Préparation des variables

Les variables continues sont discrétisées, c’est-à-dire découpées en classes alors que les
variables discontinues sont recensées en termes de fréquences afin d’effectuer un
regroupement éventuel de certaines modalités.
Phase 2 : Sélection des variables

Il est nécessaire de déterminer les variables d’entrée et de sortie. Une variable de sortie ne
dR
peut être une variable d’entrée pour une autre variable. La sélection des variables dans le
modèle s’effectue par un classement qui repose sur le mesure d’entropie entre les variables
qui reflète la mesure d’incertitude a priori. La sélection des variables s’opère relativement à
un seuil fixé.
Pour plus d’informations sur la mesure d’entropie, se reporter à l’annexe 1.
Phase 3 : Identification des dépendances

Cette étape consiste à mesurer la dépendance entre chaque nœud et à les classer dans l’ordre
croissant.
Phase 4 : Matrice des probabilités

Cette étape consiste à construire les probabilités estimées par les fréquences d’occurrence
IM
entre les différents nœuds.
3.2.2.7.2 Domaines d’application
Les applications opérationnelles de ce type de technique sont peu nombreuses. Les logiciels
proposant ce type de techniques sont également peu nombreux.
Néanmoins, voici quelques applications existantes :
• AT&T a développé un système de détection de fraudes, ou plus généralement de mauvais
payeurs, en ce qui concerne le paiement des factures téléphoniques ;
• Le centre de recherche californien de la société Ricoh a développé un système
d’assistance aux opérateurs chargés d’intervenir sur des photocopieurs en panne. En
fonction des symptômes, le système recherche les causes de panne potentielles, et présente
à l’utilisateur un accès aux pages de la documentation concernée ;
• General Electric utilise les réseaux bayésiens pour l’analyse des performances des
moteurs d’avion pendant leur révision générale. Le problème clé de la révision des
Page 52
moteurs est de déterminer l’action de maintenance la plus appropriée pour ramener si
nécessaire les performances du moteur dans le domaine défini par le constructeur. La
difficulté est de relier les différentes mesures pour en déduire un problème potentiel, et
donc l’action à effectuer.
Les logiciels proposant ce type de techniques sont relativement peu nombreux. Cependant, on
peut noter que Microsoft développe une expertise dans le domaine des réseaux bayésiens.
Microsoft a développé par ailleurs un outil basé sur les réseaux bayésiens nommés MSBN
(Microsoft Belief Network).
3.2.2.7.3 Synthèse
Forces Faiblesses
LES
RESE
AUX
BAYE
SIENS
dR • Méthode robuste face aux données
manquantes ou au bruit
• Méthode qui se situe entre réseaux
de neurones et arbres de décision
•
•
Consommatrice de puissance de calcul
Le réseau n’est pas nécessairement
optimal
Les réseaux bayésiens sont une technique nouvellement mise en œuvre dans les logiciels.
Ainsi, cette technique ne fait que rarement partie des méthodes proposées par les outils de
data mining. Ils ont été utilisés pour la modélisation des processus d’alertes dans le domaine
industriel, ou la prédiction de risque d’impayés dans le domaine des télécommunications.
3.2.3 Le text mining

Alors que le data mining recouvre l’exploitation de données structurées, le text mining permet
IM
l’analyse de données non-structurées.
Le text mining consiste en l’analyse de documents pour la recherche d’associations de mots
ou de concepts. Ces techniques sont utilisées pour mettre en relation des cibles et le
vocabulaire utilisé dans la communication, ou pour prendre en considération les
commentaires des clients sur des enquêtes qualité. Ce dernier exemple n’est qu’une
illustration d’application possible mais d’une façon plus générale, le text mining recouvre
l’exploitation des champs libres.
3.3 COMPARAISON DES METHODES

L’ensemble des méthodes présentées dans le paragraphe précédent répond globalement à la
même problématique : dégager la connaissance à partir des données. Les techniques
auxquelles nous sommes susceptibles de faire appel sont diverses mais permettent de
comprendre, segmenter et prévoir le comportement traduit par une variable.
Face à cette diversité de méthodes, le problème de choix de la bonne méthode persiste. En
effet, si la nature des données et l’objectif poursuivi nous guide, il n’en reste pas moins qu’il
se dégage une impression de redondance et de profusion des méthodes.
Page 53
Pour comprendre cette diversité, il faut savoir qu’à son origine le data mining recouvrait les
quelques méthodes que nous avons présentées précédemment. Auparavant, les seules
méthodes étaient celles dites plus classiques qui nécessitaient une culture statistique pour leur
utilisation et surtout leur interprétation. Le data mining visait à mettre à la disposition des
décideurs ces techniques. On assistait à un phénomène de vulgarisation des techniques.
Aujourd’hui le terme de data mining recouvre l’ensemble des techniques permettant de
comprendre les données.
Les techniques de data mining proprement dites telles que les arbres de décision ou les
réseaux de neurones apparaissent fréquemment comme une solution miracle, mais qu’en est-il
vraiment ? Sont-elles si différentes des techniques classiques ? Quels sont leurs atouts et leurs
faiblesses ? Ont-elles des limites ?
3.3.1 Différences et similitudes

Comme on a pu le constater à travers le paragraphe précédent, les techniques de data mining
visent à répondre d’une autre façon, qui se veut plus claire et compréhensive pour un
dR
néophyte.
On peut établir cette comparaison à travers le tableau suivant :
IM
Page 54
Techniques classiques Nouvelles Techniques
dR
AFC, ACP, ACM Analyse discriminante Régressions Arbres de décision Règles d’association Réseaux de neurones
O Analyse descriptive Etablir une prévision Etablir un modèle sous Etablir des règles Etablir un ensemble de Etablir des prévisions,
bj des données pour une variable la forme d’une représentées sous la règles segmentation.
ec qualitative à l’aide de équation linéaire ou forme d’un arbre afin
Compréhension des
tif variables explicatives non linéaire afin de d’effectuer une
relations entre les
s par la recherche des prévoir une variable à segmentation, des
variables
variables qui expliquer en fonction prévisions
différencient le plus de variables
les individus explicatives
Pr Utilisation des notion • Utilisation des • Utilisation des Les principes sont Reposent sur les • Estimation d’une
in de distance, de notions de principes de différents selon les notions de fréquence fonction non-
ci corrélation corrélation, de corrélation, algorithmes mais ils d’apparition de linéaire complexe.
pe variance. d’estimation des consistent à couples de variable
Projection des • Repose sur des
s paramètres du déterminer les
individus et/ou • Utilisation algorithmes
modèle par la modalités de variables
variables sur un plan d’hypothèses à d’apprentissage.
factoriel méthode des qualitatives ou
vérifier sur les
moindre carrés quantitatives
Interprétation des axes variables
permettant de séparer
en s’appuyant sur un explicatives • Tests de
la population initiale
ensemble d’indicateurs significativité du
en sous-ensembles.
fournis par les modèle et des
variables On parle également de
méthodes
introduites dans le variables
modèle discriminantes.
• Intervalles de
confiance des
paramètres estimés
Page 55
Techniques classiques Nouvelles Techniques
AFC, ACP, ACM Analyse discriminante Régressions Arbres de décision Règles d’association Réseaux de neurones
dR
Ré • Représentation Représentation sous la Une équation avec de Un arbre qui se Un ensemble de Un modèle non
su sous forme d’un forme d’équations du type : y=f(x)+. parcourt de la racine règles. explicité
lta plan factoriel problème. aux feuilles selon les
Elle permet Des indicateurs de
ts défini par deux ou modalités prises par un
Elle permet d’effectuer une qualité du modèle.
plusieurs axes qui individu placé en
d’effectuer une prévision ainsi que des
sont des résultats entrée.
prévision. simulations.
synthétiques des La lecture s’effectue
variables initiales en termes de
• Indicateurs de probabilités.
qualité et de
représentation
Page 56
Remarque :
CART peut concurrencer les méthodes plus classiques que sont la régression multiple,
l’analyse discriminante et la régression logistique pour sa problématique.
On constate donc que, globalement, ces familles de technique recouvrent les mêmes
problématiques et objectifs mais sont différentes relativement aux concepts utilisés au sein de
ces techniques. Néanmoins, les méthodes dites de data mining font appel à des notions
statistiques tels que la corrélation, les tests du Chi-Deux, le calcul de fréquence,….
Les différences essentielles concernent :
• les utilisateurs potentiels : les techniques classiques nécessitent une bonne connaissance
du domaine statistique afin d’interpréter les résultats alors que les résultats fournis par les
techniques de data mining ne nécessitent aucune connaissance particulière ;
• le volume de données : les analyses classiques peuvent être parfois limitées par le volume
de données à traiter. Les volumes actuels importants. Les techniques d’analyse classique
•
dR
font fréquemment appel à des calculs matriciels forts consommateurs de mémoire. Les
techniques de data mining répondent plus facilement à cette problématique de forte
volumétrie ;
l’utilisation des résultats : les résultats fournis par les méthodes dégageant un ensemble
de règles sont utilisables et peuvent être exploités tout comme les modèles estimés à
l’aide des méthodes dites classiques ;
la clarté des résultats : les résultats fournis par les techniques de data mining sont
explicites et facilement exploitables, en particulier les arbres de décision, ou totalement
obscurs (les réseaux de neurones !) alors que ceux fournis par les techniques classiques
sont explicités mais nécessitent une bonne culture statistique.
3.3.2 Forces et faiblesses des méthodes

Ces différences explicitent clairement les forces et faiblesses de chaque méthodologie :
Les techniques de datamining sont :
IM
• facilement exploitables ;
• permettent l’analyse d’importants volumes de données ;
• aisées d’accès ;
mais elles ne permettent pas ou peu de simulation ;
Les techniques classiques :
• nécessitent une connaissance du domaine statistique ;
• fournissent des résultats de bonne qualité ;
• permettent la simulation ;
• sont parfois limitées en volumes de données à traiter.
Néanmoins, les techniques de data mining ont également leurs limites et contraintes.
Page 57
3.3.3 Limites et contraintes
Comme toutes techniques, certaines nécessitent une transformation des données qui peuvent
introduire un biais dans les résultats. En effet, en particulier, par exemple, les réseaux de
neurones nécessitent que les valeurs fournies en entrée soient comprises entre 0 et 1 ce qui
peut biaiser les résultats.
De même, on a vu que les arbres de décision se présentaient sous une forme conviviale mais
ils se trouvent également limités par le volume de données si une variable dispose d’un trop
grand nombre de modalités. De plus, il convient de s’assurer que sa lecture et son usage
s’effectuent en termes de probabilités.
Un certain nombre de règles sont à respecter, en particulier celles préconisées dans la
démarche qui est d’échantillonner la population initiale globale en deux sous-populations qui
constitueront les échantillons d’apprentissage et de test contenant respectivement 70% et 30%
de la population initiale. Le premier sera utilisé pour déterminer et construire le modèle alors
dR
que le second sera plus particulièrement utilisé pour les valider le modèle obtenu
préalablement à sa mise en exploitation.
Aujourd’hui, on constate un engouement pour ces techniques de la part des industriels, mais
leur succès tient plus à la présentation des résultats qu’aux performances réelles de ces
analyses. Néanmoins, elles répondent ainsi à un besoin d’analyses statistiques réalisées non
plus par l’expert du domaine statistique mais par un néophyte en la matière. Le décideur
obtient alors des résultats simples et synthétiques lui permettant d’orienter ses décisions.
Face à cet engouement, les éditeurs de logiciel ont développé un ensemble d’outils qui vont
faire l’objet d’une présentation dans le paragraphe suivant.
3.4 LES LOGICIELS DE DATA MINING

Les principaux logiciels sont présentés ci-dessous selon leur prix et le niveau de compétence
requis.
IM
Simples Techniques de modélisation Complexes
1 MF Intelligent Gros serveurs

Miner
Decision
SAS Series
4Though
t
150KF
Knowledge Seeker Clementine
Predict SPSS
Datamind
Alice Business
5 KF
Scénario Miner PC
Utilisateur Compétences requises Expert
On constate que se dégagent différents groupes de produits qui peuvent être caractérisés
comme suit :
Page 58
• des logiciels simples demandant peu de compétences particulières de la part des
utilisateurs. On retrouve dans cette catégorie des produits tels que Business Miner, Alice,….
Les plupart de ces produits sont dédiés à une seule méthode. Ces outils souvent utilisés sur PC
ont la particularité d’être fortement conviviaux et faciles d’apprentissage ;
• une deuxième catégorie de produit qui nécessite certaines connaissances mais restent
utilisables par un utilisateur non-averti et offrent des fonctionnalités permettant aux experts du
domaine de préciser certains paramètres. On retrouve ici des produits tels que Datamind,
Clementine,…. Les produits de cette gamme fonctionnent essentiellement sur PC mais
peuvent également être utilisés en mode client-serveur ;
• enfin, une troisième catégorie regroupe les outils demandant le plus d’expertise dans le
domaine, même si des efforts et des progrès en termes de convivialité et facilité
d’apprentissage ont été faits par les éditeurs. On retrouve ici des produits tels que SAS
Enterpise Miner, Intelligent Miner (IBM)… Ces outils permettent le traitement de forts
volumes de données et offrent une gamme complète de méthodes. Pour le traitement de
données à forte volumétrie, il est évident que leur mise en œuvre s’effectue essentiellement
•
•
•
dR
sur gros serveurs.
3.4.1 Les logiciels mono-techniques

On retrouve ici les logiciels de la première catégorie décrite précédemment, en particulier :
• Predict ;
Alice ;
Scenario ;
BusinessMiner.
Ces logiciels vont faire l’objet d’une rapide présentation en termes de capacités
volumétriques, d’utilisateurs, de configuration technique, de relation avec les SGBD (Système
de Gestion de Base de Données) et de méthodes disponibles.
IM
Predict (Neuralware)
Volume SGBD Machine Utilisateurs Méthodes

Quelques milliers • Unix Néophytes • Réseaux neuronaux
d'enregistrements
• Windows
Page 59
Alice (Isoft)

Quelques milliers • ODBC • Windows Néophytes • Arbres de décision
d'enregistrements
Scénario (Cognos)

Quelques milliers • ODBC • Windows Néophytes • Arbres de décision
d'enregistrements
dR
BusinessMiner (BusinessObjects)
Volume
Quelques milliers
d'enregistrements
SGBD
3.4.2 Les logiciels pluri-techniques

Machine Utilisateurs
• Windows Néophytes
Méthodes
• Arbres de décision
On distingue les produits selon leur diversité méthodologique et les utilisateurs potentiels.
On a vu qu’il existait deux types de produit présentant plusieurs méthodes d’analyse mais
dont la richesse algorithmique et les capacités volumétriques sont plus différentes :
IM
• Première sous-catégorie avec des limites volumétriques :
➢ Datamind ;
➢ Knowledge Seeker ;
➢ 4Thought ;
➢ Mineset ;
➢ Clementine ;
➢ SPSS ;
• Seconde sous-catégorie sans (ou peu) de limites volumétriques :
➢ SAS Enterprise Miner ;
➢ Decision Series ;
➢ Intelligent Miner.
Page 60
Datamind (Datamind Inc.)

Quelques milliers • ODBC • Unix Néophytes • Technique propriétaire qui peut
d'enregistrements être rapprochée des arbres de
• Windows
décision
Knowledge Seeker (Angoss)

Quelques milliers • ODBC • Unix Néophytes • Arbres de décision
dR
d'enregistrements
4Thought (COGNOS)
Volume
Peu de limites
SGBD
• ODBC
• Windows
Machine Utilisateurs
• Windows Avertis
• Réseaux neuronaux
Méthodes
• Techniques de régression
• Réseaux neuronaux
+
Séries temporelles
Clementine (SPSS Inc.)

IM
Peu de limites • Oracle • Unix Avertis • Techniques de régression
linéaires
• Informi • Windows
x • Réseaux neuronaux
• Sybase • Arbres de décision
• Ingres • Règles
Clementine fait aujourd’hui partie de l’offre logicielle proposée par SPSS Inc. éditeur du
logiciel statistiques SPSS. Ce dernier dispose également d’un module permettant de réaliser
des arbres de décision.
Page 61
Decision Series (Novista)

Peu de limites • Oracle • Unix • Réseaux neuronaux
• Informi • Arbres de décision
x
• Règles
• Sybase
• Ingres
Intelligent Miner (IBM)
dR Volume
Pas de limites
SGBD
• DB2
• Oracle
Machine
• Unix
Utilisateurs
Experts
Méthodes
• Réseaux neuronaux appliqués à
différentes techniques
(clusterisation, régression…)
• Arbres de décision appliqués à
différentes méthodes
(segmentation,
clusterisation,…)
• Règles d’association
Enterprise Miner (SAS)

IM
Peu de limites • ODBC • Unix Avertis • Techniques de régression
• SAS • Windows • Réseaux neuronaux
• Arbres de décision
• Techniques de projection
• Règles d’association
Les logiciels appartenant à cette dernière catégorie disposent fréquemment d’algorithmes

propres. On retrouve les algorithmes classiques mais on dispose également d’algorithmes
évolués et qui peuvent faire parfois l’objet de brevets. C’est le cas pour IBM qui dispose d’un
algorithme breveté pour certaines de ses méthodes.
3.5 SYNTHESE
Page 62
Face à l’augmentation du volume de données engrangées par les sociétés, ces dernières
prennent conscience de la richesse qu’elles peuvent contenir. Cette prise de conscience
s’accompagne de l’émergence de techniques dites de data mining. Auparavant, les entreprises
avaient à leur disposition des techniques d’analyse statistique mais qui nécessitaient la
connaissance et la maîtrise des techniques. L’émergence du data mining correspond donc à la
volonté de mettre en œuvre des techniques d’analyse mais par les décideurs.
L’émergence du data mining vient donc des progrès réalisés dans le stockage de données. Les
outils de gestion des bases de données ont rendu accessible l’idée d’en tirer un maximum
d’informations rapidement et facilement pour aide à répondre aux questions que se posent les
propriétaires de ces bases de données souvent diverses et énormes. Les techniques statistiques
doivent donc être rendues accessibles à tous à travers des outils faciles d’accès.
La technologie logicielle fait donc partie intégrante du data mining. Il regroupe toutes les
techniques et algorithmes utilisés dont la fin est la découverte d’informations.
Les objectifs poursuivis par les méthodes sont donc essentiellement les mêmes que celles de
l’analyse statistique, à savoir comprendre les clients ou un phénomène, pour prévoir, anticiper
dR
et ajuster une politique d’entreprise. On se situe dans le cadre de la rationalisation des prises
de décision. Les techniques mises en œuvre sont essentiellement les arbres de décision, les
règles d’association ou encore les réseaux de neurones. Elles sont essentiellement mises en
œuvre pour des actions orientées client (marketing, ciblage, mailing….).
Il est clair que le data mining utilise de manière privilégiée les outils d’analyse des données
multidimensionnelles qui émanent de la communauté statistique. Pourtant le data mining ne
se présente pas comme une branche de la science statistique. Dans ce texte, largement inspiré
de la conférence de J. Friedman “ Data Mining and Statistics: What’s the Connection ? ” au
29ème symposium on the Interface (mai 1997, Houston, Texas), nous essayons d’esquisser les
différences entre le data mining et les techniques statistiques multidimensionnelles.
Les techniques de data mining cherchent à :
• être rapides et à même de traiter de très grands ensembles de données ;
• être d’utilisation aisée (user friendly) ;
IM
• fournir des résultats faciles à interpréter.
Les outils de statistique multidimensionnelle

La statistique multidimensionnelle s’est beaucoup développé dans les années soixante et les
outils d’analyse exploratoire des données, comme l’analyse factorielle et les méthodes de
classification, ont connu une véritable vogue (comparable à celle du data mining
actuellement) au début des années soixante-dix. Typiquement, les techniques exploratoires
des données semblent faites pour répondre au principal objectif du data mining qui est de tirer
des informations utiles de grandes masses de données peu structurées. Pourtant, de
nombreuses techniques de la statistique multidimensionnelle sont absentes des logiciels de
data mining.
Voici la liste des principales méthodes plus ou moins ignorées par le data mining :
• Méthodes exploratoires
Page 63
➢ analyse en composantes principales ;
➢ analyse des correspondances ;
➢ analyse des correspondances multiples ;
➢ recherche de structures latentes (méthodes factorielles anglo-saxonnes).
• Méthodes prédictives :
➢ régression linéaire ;
➢ analyse de variance ;
➢ analyse discriminante ;
➢ régression logistique ;
dR
➢ modèles linéaires généralisés ;
➢ modèles additifs.
Seules certaines de ces techniques ont fait l’objet d’une présentation dans le présent document
mais font néanmoins partie intégrante des analyses statistiques disponibles.
Les promoteurs des techniques d’analyse factorielle ont toujours insisté sur le fait que
l’interprétation des plans factoriels devait obéir à des règles strictes et se faire avec minutie.
Dans cet esprit, les ouvrages de l’analyse des données mettent en garde contre une mise en
œuvre et une lecture hâtive des représentations factorielles.
Les méthodes prédictives qui viennent d’être citées sont pour la plupart fondées sur des
modèles probabilistes précis et elles demandent effectivement, pour une mise en œuvre
optimale, une bonne compréhension des hypothèses sous-jacentes ou explicites qui les sous-
IM
tendent. On peut à ce propos s’attarder sur l’exemple de l’analyse discriminante.
L’analyse discriminante regroupe toutes les techniques qui visent à affecter un individu à l’un
des groupes définis a priori à partir de la connaissance des valeurs qu’il prend sur des
variables explicatives. Il s’agit par exemple de prévoir si une personne risque d’être un
mauvais payeur au vu de ses caractéristiques sociales, familiales et culturelles. Il existe de
nombreuses méthodes d’analyse discriminante. Parmi les plus efficaces et les plus utilisées,
on trouve des techniques paramétriques (l’analyse discriminante linéaire, l’analyse
discriminante quadratique), semi-paramétriques (la régression logistique) et non
paramétriques (méthode des noyaux). L’analyse discriminante est bien sûr une problématique
très présente en data mining. Mais, finalement, les techniques d’analyse discriminante
utilisées par le data mining sont assez restreintes.
Page 64
Il s’agit :
• des méthodes d’arbres de décision (méthodes non paramétriques séduisantes par leur
facilité d’interprétation),
• la méthode des plus proches voisins (technique non paramétrique de conception très
simple),
• les méthodes neuronales comme le perceptron multicouche (boîtes noires à mi-chemin

entre les techniques paramétriques et non paramétriques utilisables efficacement sans
culture statistique).
Par contre, des techniques anciennes et souvent très efficaces comme l’analyse discriminante
linéaire et la régression logistique sont négligées par le data mining. Néanmoins, certains
logiciels tendent à intégrer quelques-unes de ces méthodes ; citons SAS Enterprise Miner par
exemple qui a intégré les méthodes de régression linéaire et logistique.
dR
Signalons enfin que les différences entre data mining et statistique ne sont parfois
qu’apparentes. Par exemple, des modèles explicatifs faisant appel à des graphes sont en
général connus sous le nom de réseaux bayésiens dans la communauté du data mining et sont
plutôt connus sous le non de modèles graphiques d’association dans la communauté
statistique.
Le futur
On peut penser que les deux domaines, le data mining, domaine émergeant et très appliqué, et
la statistique multidimensionnelle, domaine maintenant assez ancien et bien-fondé
théoriquement, vont se rapprocher.
D’une part, les logiciels de data mining incluent de plus en plus de techniques relevant de la
statistique multidimensionnelle. Un bon exemple est celui du modèle de mélange de lois de
probabilité, par excellence modèle probabiliste de classification et de structure latente, qui est
IM
de plus en plus présent dans la communauté du data mining, ainsi que l’algorithme EM, outil
de statistique célèbre pour l’estimation de modèles à structure cachée. Inversement, on voit
les tenants des méthodes neuronales de plus en plus s’interroger sur les modèles probabilistes
sous-jacents aux réseaux de neurones construits et introduire des techniques (comme, de
nouveau, l’algorithme EM) et des points de vue (par exemple, émergence du paradigme
bayésien) statistiques.
D’autre part, le data mining pose des défis importants et intéressants à la statistique
multidimensionnelle. En effet, la nécessité de disposer d’algorithmes efficaces spécifiques
pour traiter de très grands ensembles de données s’impose de plus en plus, et devrait conduire
à un développement des méthodes statistiques dans des domaines comme la génétique et
l’astronomie. Pour ce type de problème, on peut penser d’ailleurs que la science statistique
pourra facilement faire progresser les méthodes utilisées grâce aux techniques
d’échantillonnage trop peu utilisées actuellement pour le data mining.
Un autre défi important posé par le data mining réside dans la perspective de doter des outils
classiques comme l’analyse factorielle, et des méthodes aussi anciennes que l’analyse en
composantes principales, d’outils d’aide à l’interprétation des résultats plus modernes et
Page 65
conviviaux que ceux actuellement disponibles tout en préservant la rigueur dans la démarche
d’analyse.
En conclusion, le data mining, dont le succès témoigne de son utilité, est un facteur de
dynamisme pour la statistique multidimensionnelle et la coopération des deux domaines
devrait conduire à augmenter la fiabilité et les champs d’intervention du data mining.
Mais qu’en est-il de son application dans le domaine de la sûreté de fonctionnement et de

l’exploitation des données d’une base de retour d’expérience ?
Les phases suivantes de l’étude consisteront à recenser les applications du data mining traitant
ce type de données ou des données qui peuvent être assimilées à cette problématique.
4 APPLICATION DES TECHNIQUES DE DATA MINING
dR
Le data mining concerne avant tout l’analyse de très grandes bases de données souvent
disparates. De par leur nature, les techniques du data mining sont bien adaptées pour traiter
des données industrielles archivées, nombreuses mais mal organisées et susceptibles de
contenir des informations importantes et peu visibles sur les processus de fonctionnement
qu’elles décrivent. Ce domaine d’application est souvent évoqué dans les textes généraux sur
le data mining (voir par exemple Chen, Han et Yu 2000 ou Jianhua et Deyi 1998). Mais,
comme on l’a vu dans la première partie de cette étude, il s’est surtout développé dans le
domaine du marketing. Ses applications dans le domaine de la sûreté de fonctionnement sont
encore assez rares. Ainsi, par exemple dans les actes du dernier congrès  12, qui s’est tenu
à Montpellier en mars 2000 et qui donne une bonne photographie des activités et des
tendances dans le domaine de la sûreté de fonctionnement, nous n’avons relevé aucun article
relevant directement du data mining. L’une des raisons de cet apparent désintérêt est, qu’à
l’heure actuelle, les études de fiabilité concernent assez peu les données
multidimensionnelles. Ainsi, nous n’avons retenu que trois articles qui peu ou prou peuvent
être rapprochés de la problématique du data mining.
IM
• L’article de Van der Vliet et Masson (2000) “ Plan d’expériences et sûreté de
fonctionnement ” traite bien de données multidimensionnelles puisqu’il s’agit de
débusquer les facteurs susceptibles d’influencer la sûreté fonctionnement d’un système
industriel. Mais c’est fait dans une optique franchement opposée au data mining. En effet,
le cadre de leur étude est celui d’essais planifiés et les méthodes d’analyse relèvent de
l’analyse statistique traditionnelle (l’analyse de variance en l’occurrence). Du moins cet
article, très intéressant, nous donne l’occasion de tracer une frontière entre data mining
dans le domaine industriel et les techniques statistiques fondées sur des plans
d’expérience. Le data mining concerne l’analyse de données recueillies au vol lors de
processus de fonctionnement ou de fabrication réels et non lors d’essais planifiés. Dans le
deuxième cas, tout l’art des plans d’expérience consiste à construire avec soin et
pertinence les données. Au contraire le data mining part de données non contrôlées,
souvent parcellaires et non homogènes, parfois de fiabilité douteuse et dont la pertinence
n’est pas avérée a priori. L’art consiste alors à tirer des informations utiles de cette masse
éparse de données.
Page 66
• L’article de Cabarbaye et Séroi (2000) “ Optimisation dans le domaine de la Sûreté de
Fonctionnement ” traite de l’utilisation des algorithmes génétiques pour l’optimisation de
l’exploitation de matériels à l’architecture complexe. Ils envisagent également
l’optimisation par une technique de programmation dynamique avec apprentissage par
renforcement. L’article reste allusif sur les applications possibles. Mais incontestablement,
il rejoint une des préoccupations du data mining pour la recherche des solutions aux
problèmes d’optimisation engendrés par les procédures de data mining. Dans le domaine
de la sûreté de fonctionnement, ces problèmes concernent effectivement des problèmes de
fonctionnement fiable de systèmes complexes à coûts minimaux. En effet, le data mining
pose des problèmes d’optimisation difficiles pour lesquels les outils traditionnels
d’optimisation (algorithme du gradient conjugué, algorithme de quasi Newton, …) ne
peuvent pas en général être appliqués car la fonction de plusieurs variables à optimiser
n’est pas différentiable ou ses dérivées sont très difficilement calculables. L’intérêt des
algorithmes génétiques est de proposer une recherche stochastique de l’optimum d’une
fonction sans exiger aucune hypothèse sur cette fonction, ni nécessiter une connaissance
de ses propriétés de différenciation. Les algorithmes génétiques utilisent des opérateurs de
dR
mutation, croisement et sélection. Il faut noter que d’autres algorithmes de nature
stochastique comme le recuit simulé s’attaque aux problèmes d’optimisation sans utiliser
d’hypothèse sur la fonction à optimiser (cf. van Laarhoven 1988). Curieusement, dans le
milieu du data mining, les algorithmes génétiques sont beaucoup plus populaires que les
techniques de type recuit simulé. Pourtant, contrairement à ce que laisse entendre
Cabarbaye et Séroi (2000), le recuit simulé semble souvent en pratique d’un usage plus
simple et plus efficace surtout en temps de calcul que les algorithmes génétiques. Du
moins, les algorithmes génétiques n’ont pas fait montre d’une supériorité marquée sur
l’algorithme du recuit simulé.
• L’article de Schön, Odeh, Denoeux et Fotooh (2000) “ Maîtrise des risques dans le
domaine de l’eau potable ” traite de l’utilisation des réseaux de neurones pour d’une part
prendre en compte des données manquantes et d’autre part pour prédire les taux de
IM
coagulants à prescrire. Cet article est bien centré sur la problématique appliquée relevant
de la sûreté de fonctionnement car le but est de surveiller de manière continue les
paramètres susceptibles d’influer sur la qualité sanitaire de l’eau et aussi de proposer des
indicateurs de disponibilité de l’eau. Le problème traité relève typiquement du data
mining. Il s’agit de tirer de l’information de données issues de capteurs physiques qui
produisent des données brutes peu fiables et redondantes. La façon dont les auteurs
attaquent les problèmes posés est également typique de l’approche data mining. Ainsi, ils
posent le problème en termes de fusion de données où il s’agit de tirer des informations de
bas niveau fournies par les capteurs des informations de haut niveau fiables et
synthétiques (notion de capteur logiciel). Les outils d’analyse qu’ils utilisent sont
également typiques du data mining. Par exemple, pour prendre en compte les nombreuses
données manquantes, ils ne se placent pas dans un cadre probabiliste paramétrique de
prise en compte des données manquantes qui les auraient conduits à utiliser l’algorithme
EM (cf. Little et Rubin 1987), mais préfèrent remplacer les données manquantes par des
fonctions d’appartenance, obtenues par un réseau de neurones “ flou ”, plus faciles à
prendre en compte dans les calculs ultérieurs. Les outils utilisés pour calculer la
disponibilité du réseau sont plus traditionnels (propagation de probabilités sur un réseau
assez simple). Mais là aussi, il s’agit d’un point de vue simple et naturel souvent à l’œuvre
dans un processus de data mining. Au total, il s’agit d’un article intéressant émanant
Page 67
d’auteurs de la communauté “ neuronale ” du data mining où les aspects applicatifs
relevant de la sûreté de fonctionnement sont bien mis en valeur. (Pour une présentation
complète, claire et synthétique des méthodes neuronales en classification supervisée, nous
recommandons l’ouvrage de Bishop 1995.)
Les techniques neuronales floues connaissent un certain succès, notamment dans le domaine
industriel. Les articles présentés plus loin de Wang et McCreavy (1997) mais aussi de
Toscano et al. (1999) montrent leur application. En particulier, le dernier article cité qui
présente une classification neuro-flou pour détecter l’usure d’un outil.
Cela étant, il existe tout de même dans les actes de congrès internationaux et dans les revues
internationales un certain nombre d’articles qui relèvent explicitement du data mining pour
l’analyse du retour d’expérience dans le cadre de la sûreté de fonctionnement.
Dans la section qui suit nous avons sélectionné un certain nombre d’articles significatifs
porteurs d’enseignement sur l’usage du data mining en sûreté de fonctionnement. Dans la
dR
présentation que nous en faisons, nous nous efforçons de mettre avant tout en exergue les
éléments propres à ce domaine d’application, comme nous venons de le faire pour les
quelques articles qui ont retenu notre attention dans les actes du dernier congrès .
4.1 ANALYSE BIBLIOGRAPHIQUE

Dans cette partie, nous allons analyser un certain nombre d’articles que nous avons repérés
après une recherche bibliographique par mots-clés dans de grandes bases de données
documentaires. Dans cette revue bibliographique, nous ne visons pas à l’exhaustivité (cela
serait illusoire et de toute façon peu utile), mais nous recherchons à tirer des informations
utiles pour cerner les caractéristiques spécifiques des études de data mining dans le domaine
de la sûreté de fonctionnement.
En réalité, les articles que nous avons lus sont souvent un peu décevants de ce point de vue.
En effet, beaucoup d’articles accentuent un aspect des choses au détriment des autres. Ainsi,
•
IM
soit ils mettent en avant le cas industriel traité, mais donnent peu de renseignements sur
les stratégies développées ou les techniques utilisées ;
• soit, ils présentent de manière pédagogique une approche méthodologique, mais sont
assez flous sur la mise en application dans le domaine qui nous intéresse.
Aussi, une revue bibliographique un peu linéaire risque d’être un peu frustrante et de ne pas
faire ressortir des points forts pour l’utilisation du data mining en sûreté de fonctionnement.
Pour tenter d’éviter cet écueil, nous avons décidé de procéder ainsi. Dans une première partie,
nous passons en revue un certain nombre d’articles en essayant de faire ressortir leur point
saillant de notre point de vue qui est d’analyser les apports possibles du data mining à la
sûreté de fonctionnement. Dans une deuxième partie, nous avons décidé de commenter en
détail un article, paru dans une revue internationale, qui est en tout point remarquable et qui
nous fournit un excellent cadre pour mettre en exergue des points importants pour une bonne
utilisation du data mining pour l’analyse du retour d’expérience en sûreté de fonctionnement.
4.1.1 un panorama d’articles
Page 68
Nous commençons donc par passer en revue un certain nombre d’articles pour la plupart
présentés dans des congrès et qui éclairent différents aspects du data mining dans un contexte
industriel. Dans cette revue, l’ordre de présentation est arbitraire.
• V. Gelmi (1999) “ Preventive Maintenance : Using Data Mining Systems ”

Cet article a pour contexte la maintenance de grands réseaux de télécommunication. Il
concerne essentiellement l’analyse de défauts chroniques qu’il n’est pas possible d’isoler ni
d’enlever et dont l’analyse est, de ce fait, difficile. L’auteur part du point de vue que ces
incidents peuvent avoir des causes externes qu’il va chercher à découvrir par des outils de
data mining. Les contraintes qu’il s’impose est de construire un système en temps réel, piloté
par un opérateur humain, tirant de l’information de très grandes bases de données contenant
des informations instantanées sur le fonctionnement du réseau afin d’aider à la détection de
problèmes chroniques. Le système qu’il considère est très orienté “ Base de données ” et
utilise un système multi-agents pour passer des informations de différentes sources à
dR
l’opérateur. Ces systèmes multi-agents se doivent de faciliter le dialogue entre les bases de
données et l’opérateur. À cette fin, l’auteur privilégie des fonctions multi-agents simples et
facilement interprétables. Les outils d’analyse sont du même coup particulièrement simples
(histogrammes, synthèses simples des faits et incidents enregistrés fondés sur des comptages,
…). Ainsi, cet article bien motivé met en évidence un des aspects courants présidant au data
mining. Le point de vue est très informatique et le data mining est utilisé comme une aide à
un opérateur humain. Les règles qu’il construit se doivent d’être simples et claires pour
faciliter cette interface agents informatiques-homme et se doit de proposer des aides à son
utilisation. Ainsi, dans le futur, l’auteur pense à introduire des fonctions où l’utilisateur par les
actions préventives qu’il entreprend pourra influencer le système multi-agents construit dans
une procédure avec feedback.
• B. Chiarello, T. Ageron et C. Perruchet (1997) “ Étude comparative de différentes

techniques d’identification de population à risque ”.
Il s’agit d’une communication faite au club SAS et qui illustre les possibilités de data mining
IM
avec le logiciel SAS (version 6.11). Cette étude menée par des ingénieurs de l’UTAC
concernait la caractérisation des véhicules automobiles qui ne se représentent pas à une
contre-visite obligatoire suite à un contrôle technique ayant diagnostiqué une défectuosité.
Les données (nombreuses) sont celles récoltées lors du contrôle technique. Il s’agissait d’un
problème de classification supervisé de nombreuses données décrites par des variables
quantitatives et des variables qualitatives. Pour ce problème, les auteurs ont comparé trois
technique d’analyse discriminante qui autorisent la prise en compte conjointe de variables
qualitatives et de variables quantitatives (cf. Celeux et Nakache 1994) : la régression
logistique, une méthode d’arbre de décision, et la méthode des k plus proches voisins, les
variables qualitatives étant codées quantitativement grâce à l’analyse des correspondances.
Les performances des trois classifieurs sont évaluées sur un échantillon test qui fait ressortir
une certaine supériorité (pour ce problème) de la régression logistique. Notons à ce propos,
que l’introduction de la régression logistique dans un processus de data mining est encore
assez rare. Il s’agit pourtant d’une technique de classification supervisée qui a fait ses
preuves, notamment dans le domaine médical, agréable d’interprétation par les odds-ratio et
qui permet la prise en compte conjointe de variables qualitatives et quantitatives (cf. Celeux et
Nakache 1994). On peut donc penser que son emploi dans la pratique du data mining ira
croissant.
Page 69
Dans cette étude, c’est incontestablement l’aspect statistique qui est privilégié. SAS, avant de
proposer des outils de data mining, a produit l’un des logiciels de statistique les plus utilisés
dans le monde. Ainsi, les aspects codage des données (utilisation de différents codages
suivant la technique utilisée) et validation des résultats (utilisation d’un échantillon test
énorme) sont très bien traités. Mais les données traitées ne sont pas vraiment représentatives
des données de retour d’expérience en sûreté de fonctionnement. Elles font plus penser à des
données d’enquête épidémiologique par leur taille et leur régularité.
• X. Z. Wang et C. McGreavy (1997) “ Data Mining for Safety and Operability Studies in
Process Industries ”
Cet article est bien centré sur le sujet qui nous préoccupe. Il s’intéresse à l’étude de données
historiques, éparses, comportant des trous et de fiabilité douteuse. De nature plutôt
méthodologique, il comprend deux parties bien distinctes. Dans la première partie, il
dR
s’intéresse aux réseaux de neurones à partir de codage flou des différentes catégories que
peuvent présenter une variable qualitative (du type bas, moyennement bas, normal,
moyennement haut, haut). Les codages d’appartenance flous que les auteurs considèrent font
assez penser à ce que Cazes et al. (1977) ont proposé et étudié, vingt ans plus tôt. Partant de
là, ils considèrent un réseau de neurone flou comme Schön et al. (2000) qui leur fournit des
règles logiques floues du type suivant : s i A est vrai avec un degré de confiance de 0.6 et si B
est vrai avec un degré de confiance de 0.8 alors C est vrai avec un degré de confiance de 0.7.
La construction de telles règles floues constitue la partie la plus intéressante de leur article. La
deuxième partie de leur exposé est consacré aux réseaux d’apprentissage probabilistes connus
également sous le nom de réseaux bayésiens (Pearl 1988) ou de modèles graphiques
(Lauritzen et Spiegelhalter 1988), ce dernier article constituant un article de référence sur ce
type de sujet. Les auteurs donnent l’exemple d’un tel réseau pour décrire les possibles
défaillances d’un compresseur. Cet article a surtout un intérêt pédagogique.
Incontestablement, l’utilisation de codages flous est intéressant dans le domaine du retour
d’expérience lorsque les données ne sont pas précises et risquent d’être entachées d’erreur.
Par ailleurs, l’utilisation des réseaux probabilistes relève plutôt de la modélisation statistique
IM
voire bayésienne si les liens entre les variables sont donnés par des experts ou pour des
raisons fonctionnelles. Cependant, la frontière entre analyse des données et modélisation est
parfois difficile à tracer et l’analyse exploratoire de données peut suggérer un modèle
d’association entre variables et aider à l’estimation de ses paramètres.
• R. Heider ( 1996) “ Troubleshooting CFM 56-3 Engines for the Boeing 737 Using CBR
and Data Mining ”
Cet article décrit un logiciel construit pour diagnostiquer d’éventuelles défaillances sur des
moteurs d’avion à partir du relevé d’informations sur des incidents passés. Ce système se
fonde sur l’utilisation conjointe des arbres de décision et des techniques de CBR (Case Based
Reasoning : raisonnement par cas). L’auteur met en avant l’utilisation du CBR, qui permet la
construction de règles simples, pouvant être facilement confirmées ou infirmées, et qui
autorisent facilement l’introduction en ligne de nouveaux paramètres non apparus
précédemment. Il met bien en évidence l’intérêt du CBR pour des cas où les spécialistes de la
maintenance sont amenés à rattacher une défaillance observée à des situations antérieures
qu’ils ont rencontrées.
Page 70
Dans son application qui concerne une grande base de données (30 000 cas recensés), l’auteur
détaille les étapes d’analyse :
• identification des symptômes de défaillance ;
• établissement par des spécialistes de la maintenance d’une liste de paramètres associés
aux symptômes techniques pouvant être liés à des défaillances,
• extraction manuelle des informations techniques dans les rapports d’incidents. Ce travail a
occupé un spécialiste pendant un an et a donné lieu à la sélection de 1500 cas
représentatifs de la variété des défaillances possibles ;
• définition soignée d’une interface utilisateur qui doit être très conviviale car les
utilisateurs sont les membres de l’équipe de maintenance qui intervient “ à chaud ” (au
départ des avions) sur les moteurs.
L’auteur n’est pas très précis sur la façon dont son système utilise les arbres de décision et le
CBR notamment en ce qui concerne la validation des résultats. Mais, ces techniques sont
dR
effectivement relativement classiques.
L’intérêt de son article réside surtout dans sa description du protocole de construction des cas
qu’il soumet finalement à son système d’aide au diagnostic. Il a essentiellement procédé par
expertise au lieu d’utiliser des outils exploratoires (comme l’analyse factorielle) pour
constituer sa base de données de cas qu’il va finalement utiliser pour construire son système.
De la sorte, il a sans doute mis le doigt sur un aspect important pour une bonne pratique des
techniques de data mining dans une problématique de maintenance. C’est un domaine, où il
existe une expertise importante et où les données objectives sont assez difficiles à extraire par
des moyens automatiques. Dans bien des cas, les traitements manuels et l’appel à l’expertise
des spécialistes maintenance est indispensable ou du moins très bénéfique.
En quelque sorte la phase non supervisée et exploratoire du data mining est remplacée par un
traitement plus ou moins manuel des opinions a priori d’experts.
IM
Mais cela représente un coût en temps humain très important. Ici, le soin apporté à cet aspect
des choses est très remarquable. Notons pour finir que bien souvent l’utilisation conjointe des
opinions d’experts et d’outils d’analyse exploratoire peut être profitable.
• J.-L. Bouchet et C. Eichenbaum-Voline (1996) “ Case Based Reasoning Techniques

Applied to OperationExperience Feedback in Nuclear Power Plants ”
Cet article a trait à l’analyse du retour d’expérience du parc nucléaire français. Depuis près de
vingt ans, les opérations de retour d’expérience sont rassemblées et constituent un fond
documentaire important. Ces fiches comprennent des données chiffrées, des mots-clés et une
zone de texte libre où sont résumés les observations faites, les incidents relevés et les actions
de maintenance effectuées dans un style télégraphique faisant appel à des stéréotypes. Les
auteurs se placent dans une optique d’analyse exploratoire de ces fiches de retour
d’expérience.
Dans cette optique, l’analyse de textes est centrale pour eux. Pour la mener à bien, ils utilisent
une méthode du nom de REX, mise au point par le CEA, qui construit un lexique de mots-clés
à partir des textes libres, puis un réseau de ces mots appelés lexemes. Partant de ces éléments
Page 71
de connaissances, le système REX construit des cartes synthétisant l’information des fiches.
Les proximités entre cartes sont évaluées par une procédure de type “ plus proche voisin ”.
Les auteurs soulignent les dangers de ce type de mesure de proximité et conseillent de les
contrôler par un expert ou d’utiliser une base d’apprentissage bien connue pour les définir.
Partant de là, ils utilisent des arbres de décision pour comparer le pouvoir discriminant des
descripteurs des cartes vis-à-vis des défaillances recensées. Une pratique de différents
programmes d’arbres de décision (ID3, CART,…) leur inspirent un certain nombre de
remarques. Ils préconisent notamment la distance de Mantara pour traiter ces ensembles
volumineux de données et ne trouvent pas que les arbres leur aient fourni des critères de
classification utilisables.
Ils proposent alors un CBR définissant des événements par une évaluation des voisinages à
l’intérieur du réseau des lexemes, puis d’un calcul de proximité entre ces événements vis-à-
vis des défaillances observées.
Ils concluent leur article en soulignant le fait que ce type d’approche pour être efficace se doit
de partir d’un objectif précis et volontairement limité. D’autres part, il souligne le fait que les
dR
données textuelles donnent naissance à des données codées très dispersées ce qui augmente
considérablement la difficulté d’analyse.
Cet article montre bien l’intérêt de la prise en compte de données textuelles et des difficultés
que cela induit (voir aussi Lannoy et al. 1996). Ainsi, la prise en compte de données textuelles
est actuellement limitée à la recherche de mots-clés pour constituer des tableaux de présence-
absence. Mais, à notre connaissance, il n’existe pas de logiciel opérationnel pour une prise en
compte d’une analyse syntaxique ou sémantique de ces données.
En tout cas, le codage et l’exploitation des données textuelles même élémentaire sont riches
d’information et constituent un domaine d’importance croissante en data mining (cf. par
exemple Lebart et Salem 1994, pour un livre complet sur l’analyse de données textuelles). Le
fait que de façon général les fiches de retour d’expérience sont écrites de manière très
stéréotypée laisse espérer que l’on puisse bientôt disposer de logiciels permettant d’en tirer
des facteurs discriminants pour décrire des situations à haut risque de défaillance.
IM
4.1.2 Gros plan sur un article
Comme nous l’avons annoncé, nous allons maintenant commenter un article qui nous semble
particulièrement riche d’enseignements dans le cadre de notre étude. Il est écrit de manière
soigné et précise et il analyse bon nombre des aspects que nous avons rencontrés, souvent de
manière rapide voire allusive, dans d’autres articles. Il est avant tout remarquable par sa
description des problèmes à résoudre, des pièges à éviter et des précautions à prendre pour un
bon usage du data mining dans un contexte de sûreté de fonctionnement. De plus, il met bien
en exergue des problèmes important souvent négligés par les autres auteurs comme
l’évaluation de la qualité des résultats, la prise en compte des coûts et de la composante
temporelle présente dans des problèmes de data mining. Le commentaire de cet article va
nous permettre de présenter des éléments importants pour une mise en œuvre profitable du
data mining à des problèmes de sûreté de fonctionnement.
S. Létourneau, F. Famili et S. Matwin (1999) “ Data Mining to Predict Aircraft Component

Replacement ”
La problématique de cet article est la construction de modèles de prédiction de remplacement
des composants d’un avion avant leur défaillance à partir des multiples données recueillies
Page 72
durant un vol. Il s’agit donc bien d’une problématique d’optimisation de maintenance.
L’objectif de l’article est de décrire comment ils ont résolu les difficultés essentielles
rencontrées lors du processus complet de data mining qu’ils ont mis en œuvre pour ce
problème. Dans le commentaire que nous en faisons, nous découpons l’exposé en paragraphes
traitant les différents aspects évoqués. Par ailleurs, pour des raisons de commodité, il nous
arrivera de désigner les auteurs par l’acronyme LFM.
Pourquoi le data mining ?
Les données n’émanent pas d’essais recueillies lors de plans d’expérience comme dans
l’article de Van der Vliet J. et Masson A. (2000). On ne peut donc pas les traiter par des
techniques de type ANOVA. Elles sont recueillies lors de vols réguliers. Elle sont énormes,
diverses (descriptions textuelles de défaillance, données quantitatives recueillies par des
capteurs, …) et complexes. Elles concernent pas moins de 19 modes différents de
dR
fonctionnement des avions et pour chaque mode, de 20 à 150 caractéristiques sont récoltées.
Notons de plus l’une des originalités de ces données par rapport aux autres études présentées :
pour ce problème de maintenance préventive, la prise en compte de la composante temporelle
des données est essentielle.
Le recueil des données
La problématique est tellement complexe qu’il n’est pas possible de traiter un ensemble de
données représentatif de toutes les situations réalistes envisageables. Les auteurs récusent
l’emploi des techniques statistiques de sous-échantillonnage et préfèrent utiliser un procédé
de recueil favorisant les situations susceptibles d’induire un risque de défaillance important
que nous allons décrire.
Cependant, nous voudrions nous inscrire légèrement en faux avec ce point de vue des auteurs
IM
sur les techniques de sous-échantillonnage par tirages aléatoires. Ces techniques de sous-
échantillonnage (sondages) peuvent être sophistiquées et pertinentes, et permettent une
interpolation fiable des données négligées. Comme Friedman (1997) l’a noté, elles constituent
une réponse élégante et efficace aux difficultés qui peuvent être rencontrées dans le traitement
de très gros ensembles de données.
Cela étant, la technique de recueil préconisée par LFM est très pertinente. Partant du souci de
bien caractériser les situations de défaillance, ils procèdent ainsi :
1. ils recueillent toutes les informations concernant les remplacements ;
2. ils utilisent un système d’extraction de phrases clés des fiches de description des
remplacements. (Cette phase sur les données textuelles est analogue au travail de Bouchet
et Eichenbaum-Voline 1996.) ;
3. le système recherche ensuite les rapports de fonctionnements présentant les mêmes

phrases clés. Par un examen manuel, assez rapide car restreint, LFM décident ou non de
retenir ces nouvelles instances ;
Page 73
4. un expert est chargé de retrouver les remplacements à partir d’une sélection aléatoire des
rapports choisis par LFM pour s’assurer de la pertinence des phrases clés choisies ;
5. ils ajoutent à leur sélection toutes les données disponibles m jours avant un remplacement
et n jours après. De plus, ils ajoutent l’attribut “ temps avant une défaillance ” à leurs
données.
Dans cette procédure, se retrouvent presque tous les aspects pour la construction d’une base
pertinente de data mining à but décisionnel : prise en compte des données textuelles par
extraction de mots-clés significatifs, sélection manuelle des instances et contrôle de la
procédure par un expert, (ces deux derniers points sont sans doute ceux qui prennent le plus
de temps, mais il ne faut pas en faire l’économie dans notre domaine), sélection des données
en ayant en tête la problématique, (ce qui ici les incite à prendre en compte le temps avant les
remplacements).
dR
Étiquetage des données
Le problème posé relève typiquement de la classification. Il s’agit de décider à chaque instant

enregistré si oui (décision 1) ou non (décision 0) on doit remplacer un composant du moteur
de l’avion. Cependant, dans l’ensemble d’apprentissage toutes les données ne sont pas
étiquetées. LFM décident d’étiqueter les données ainsi : toutes les données intervenant k jours
avant un remplacement (k < m) prennent la valeur 1, sinon elles prennent la valeur 0. Et, bien
sûr, les décisions doivent retrouver au mieux ces deux valeurs. La valeur de k peut changer
selon les composants. Afin d’assurer pour chaque composant un nombre d’exemples suffisant
en regard du nombre de contre-exemples, LFM imposent k > 0.1(m + n).
Le choix de k est naturel. Mais dans toute la procédure décisionnelle de LFM, il s’agit de la
partie la plus fragile, car ce choix reste arbitraire. Conscients de ce fait, LFM ont réalisé leurs
analyses en faisant varier k pour juger de la sensibilité de ce paramètre crucial.
IM
Construction du modèle
Dans ce contexte de classification supervisée, LFM utilisent trois techniques souvent utilisées
en data mining. Il s’agit d’une :
• méthode d’arbres de décision, la version C4.5 des programmes de Quinlan (1993) de la

famille ID,
• de la méthode des K plus proches voisins, avec en l’occurrence un seul voisin, ce qui
correspond à une méthode très locale,
• une méthode dite “ naive Bayes ” qui consiste simplement à utiliser la formule de Bayes
pour estimer les probabilités conditionnelles des deux groupes à séparer, les probabilités
étant estimées à partir des fréquences empiriques observées. Cette méthode part au
contraire d’un point de vue global.
Notons à ce propos que nous n’avons pas rencontré dans notre étude bibliographique sur
l’usage du data mining pour des données industrielles l’emploi de méthodes particulières, que
Page 74
ce soit dans un contexte exploratoire ou inferentiel. L’originalité des pratiques en ce domaine
est plutôt à rechercher dans les à-côtés de la pratique du data mining : préparation des
données, utilisation d’avis d’experts, évaluation des résultats.
Évaluation des performances
LFM passent tout d’abord en revue les moyens classiques d’évaluation des performances d’un
classifieur. Cette évaluation peut se faire à l’aide d’un échantillon test, par validation croisée
ou par bootstrap. On trouvera une description précise de ces techniques de rééchantillonnage
dans Celeux et Nakache (1994).
Pour leurs données, LFM soulignent à juste titre qu’ils ne peuvent pas utiliser directement ces
techniques. En effet, les données sont issues d’une entité particulière, ici un avion, qui peut
avoir ses caractéristiques propres. Aussi, il fait construire une règle de classement qui soit
dR
indépendante de l’avion considéré. Ce problème est bien connu, par exemple, en
reconnaissance de la parole où il s’agit de construire un système capable de faire de la
reconnaissance indépendamment du locuteur. Il faut éviter de construire une règle qui se
fonderait sur les caractéristiques propres d’un avion et non sur des caractéristiques générales.
Cet aspect des choses est très important et est fréquent en sûreté de fonctionnement où l’on
étudie en général des systèmes complexes formés de différents composants et qui peuvent
avoir leur caractéristique propre dont il faut s’affranchir.
Dans ce but, LFM ont construit une adaptation des procédures d’échantillon test ou de
validation croisée où les entités homogènes (les batchs) servent soit entièrement à
l’apprentissage de la règle de classement, soit entièrement à sa validation.
Fonction d’évaluation
IM
Un autre aspect important considéré par LFM est le choix de la fonction d’évaluation des
performances du classifieur. En effet, ils font face à un problème de maintenance où il s’agit
de prévoir une défaillance suffisamment à l’avance pour pouvoir intervenir, mais bien sûr pas
trop tôt pour ne pas provoquer de fausse alarme. À cette fin, ils ont construit une fonction de
récompense de la décision prise qui dépend du temps. La fonction considérée est simple,
linéaire par morceaux, et est pilotée par deux paramètres arbitraires donnant à partir de quand
une décision de défaillance est soit une fausse alarme, soit intervient trop tard. Ils ne sont pas
très précis sur la façon expérimentale dont ils ont choisi ces deux paramètres, mais ils ont
procédé à une étude de sensibilité sérieuse. En tout cas, ils ne recommandent pas de
compliquer cette fonction de récompense, ce avec quoi nous sommes pleinement d’accord.
Fusion de modèles
La question de la fusion d’informations est souvent capitale dans le domaine du data mining,
où il s’agit de mettre en commun des bases de données de natures souvent très différentes.
LFM envisagent ce problème sous deux points de vue.
• La fusion des données d’entrée : c’est actuellement la pratique la plus répandue (cf. par
exemple Schön et al. 2000). Pourtant ce n’est pas la plus aisée, l’espace de données
Page 75
construit peut devenir énorme et très hétérogène et le traitement devient difficile à
maîtriser.
• La fusion des modèles (ici la fusion des classifieurs) : c ette approche est beaucoup plus
aisée et nous sommes d’accord avec LFM pour la privilégier par rapport à la précédente.
Cette fusion de classifieurs peut se faire de manière assez simple et, de plus en plus, des
auteurs s’intéressent à cette approche (voir par exemple les comités de méthodes proposés
par Bishop 1995).
Analyse des résultats

LFM ont procédé à des analyses intensives sur beaucoup de bases de données correspondant à
des composants différents, 16 analyses au total. Les résultats sont plutôt bons et montrent,
qu’en général, ils sont à même de proposer une amélioration de la maintenance des moteurs
d’avion. La méthode locale du plus proche voisin semble donner des résultats plutôt
meilleurs. Mais, comme c’est souvent le cas pour des données complexes, aucune des trois
méthodes considérées (plus proche voisin, arbre de décision ou calcul de Bayes) ne s’avère
dR
uniformément meilleure que les autres. Pour la suite LFM envisage de combiner les trois
classifieurs. Cela semble une bonne idée, car les trois méthodes partent de points de vue très
différents et les instances mal classés par les trois méthodes sont souvent différentes. Une
combinaison par un comité de méthodes devrait permettre d’améliorer encore les résultats.
4.2 LE PROJET EUROPEEN NOEMIE

Il existe un très grand nombre de logiciels spécifiquement ou essentiellement consacrés au
data mining (voir la première partie de ce rapport ainsi que les logiciels cités dans Jianhua F.
et Deyi L. 1998). Ces logiciels sont le plus souvent d’intérêt général ou parfois spécialisés
dans des domaines comme le marketing ou l’analyse des données spatiales.
Dans ce paysage, le projet européen NOEMIE qui a pour objectif de définir une méthodologie
et une plate-forme logicielle pour optimiser le retour d’expérience industriel par l’utilisation
des bases d’information de l’entreprise (cf. Chanchevier et al. - 1999) prend un intérêt
IM
particulier dans le cadre de notre étude.
L’examen de la fiche de présentation de NOEMIE au dernier congrès  de Montpellier

(Chanchevrier et Pollet 2000) nous inspire les réflexions suivantes :
• les auteurs présentent bien NOEMIE comme un système d’information intégré pour le
retour d’expérience industrielle, mais ils utilisent une définition très large et peu courante
du retour d’expérience. Pour eux, il s’agit de l'ensemble des moyens, concepts et outils
propres à garantir l'extraction optimale de la connaissance afférente à un processus ou
une organisation à partir de la mémoire de l'entreprise. Cette définition aux contours
assez vagues n’est pas, à notre sens, directement associée au retour d’expérience industriel
tel qu’on l’entend usuellement en sûreté de fonctionnement ;
• la description qu’ils font ensuite de l’enchaînement des outils est typique des descriptions
des logiciels de Data Mining (Data Warehouse , les techniques de Data Mining , le CBR
(Case Based Reasoning), le traitement du langage naturel). Elle est séduisante mais ne
relève pas particulièrement du retour d’expérience ;
Page 76
• les références qu’ils donnent sont assez hétéroclites, mélangeant quelques textes de
référence du domaine et des articles traitant des aspects assez spécifiques du domaine de
l’intelligence artificielle sans grand rapport avec le domaine industriel ;
• NOEMIE a surtout été appliqué à des problèmes de recherche pétrolière ;
• finalement, si NOEMIE apparaît comme un produit cohérent et intéressant, nous ne
sommes pas sûr qu’il soit d’un intérêt spécifique pour le retour d’expérience en sûreté de
fonctionnement. D’ailleurs, après cette étude bibliographique, nous ne pensons pas que la
sûreté de fonctionnement nécessite la définition et la réalisation d’outils spécifiques de data
mining. C’est plus dans la façon de piloter les analyses et leurs validations que les
ingénieurs fiabilistes construiront un savoir-faire particulier dans le domaine du data
mining dans un contexte de sûreté de fonctionnement, comme ont commencé à le faire
certains auteurs évoqués ici et notamment Létourneau, Famili et Matwin (1996),
4.3 SYNTHESE
dR
Le data mining est utilisé quel que soit le domaine d’activité d’une entreprise mais
essentiellement à des fins marketing. Néanmoins, toutes entreprises détennant des données
par exemple de suivi de matériel, peuvent les analyser et les exploiter. Jusqu’à pésent les
entreprises étaient peu ou pas conscience de l’informations contenues dans leur données.
Aujourd’hui, elles en prennent conscience et souhaitent savoir comment tirer avantages de ces
informations mais surtout comment dégager de l’information apportant une plus-value à leur
activité, quelles sont les techniques utilisables pour aboutir à des conclusions par des
méthodes plus soiphistiquées que de simples comptages. Elles ont à leur disposition les
techniques d’analyse statistiques mais qui demandent une expertise. Depuis quelques années
sont apparues les techniques de data mining qui permettent l’exploitation d’importants
volumes de données à l’aide de techniques fournissant des résultats explicites.
Le data mining répond aux besoins de toutes entreprises ayant d’importants volumes de
données et qui souhaite les valoriser par leur exploitation. Un ensemble d’articles explicite la
mise en œuvre de technique de data mining mais le nombre d’expériences reste cependant
limité dans le domaine de la sûreté de fonctionnement. Néanmoins, certaines expériences
IM
existent et montrent que ces méthodes sont applicables. Le milieu aéronautique en est
l’illustration comme l’a montrée l’analyse de l’article dans le chanpitre précédent.
La troisième phase de l’étude visera à déterminer des application potentielles du data mining à
partir de données de REX. Cette phase sera assortie d’un exemple illustratif réalisé à partir
des données fournies par un souscripteur.
5 IDENTIFICATION DES APPLICATIONS POTENTIELLES DE

L’ETUDE
L’étude consiste à déterminer quels sont les apports potentiels du data mining en matière de
sûreté de fonctionnement à partir de données issues de la base de retour d’expérience.
Après avoir défini le data mining (Cf. paragraphe 1), et fourni des exemples d’application
concrets (Cf. tâche 2), le présent document vise à présenter quelles sont les techniques
potentiellement utilisables dans ce domaine particulier ainsi que présenter un cas d’étude. Le
cas d‘étude est présenté à des fins illustratives sur la base de données fournie par l’un des
souscripteurs. Les données ont été maquillées afin de protéger l’information.
Page 77
Pour déterminer quelles méthodes sont potentiellement applicables d’une manière généraliste,
il est nécessaire de rappeler le contenu d’une base de données de retour d’expérience.
Nous aborderons ce point dans un première partie. A partir de ces informations, des
problématiques généralistes seront dégagées accompagnées de proposition de traitement. Ces
problématiques sont non-exhaustives et sont présentées par rapport aux attentes des
différentes entreprises ayant participé à la réalisation du projet.
Une troisième partie illustrera ces méthodes sur la base d’un exemple traité à partir de
données issues d’une entreprise.
Enfin, la dernière partie sera consacrée aux problématiques propres aux entreprises
souscriptrices accompagnées des propositions de traitement.
5.1 RAPPELS SUR LES FORMES D’UN REX
dR
Un REX n’est pas seulement constitué par une suite de dates de défaillance mais il contient
également des renseignements complémentaires tels que les caractéristiques générales, ...
Pour élaborer un REX, il est nécessaire de suivre des règles assez précises. La définition de
ces règles de collecte a fait l’objet de bien des études : on peut, par exemple, suivre les
principes généraux établis par le groupe de travail EUREDATA (EUropean REliability DATa
Association).
Il est important de noter que, dans la plupart des cas, le REX n’est jamais exhaustif. Tous les
champs qui sont cités ci-dessous ne sont pas forcément utiles pour l’analyse mais donnent des
informations complémentaires.
5.1.1 Caractéristiques générales

Ces données peuvent être mises dans une fiche spéciale.
•
IM
Constructeur
• N° du modèle
• N° de série
• Date de fabrication
• Date de mise en service
• Date de début de collecte
• Date de retrait d’exploitation du matériel
• Date de mise à jour de la fiche
5.1.2 Identification
Les données d’identification sont par exemple :
• Code usine
• Code système
Page 78
• Type du composant par famille.
• N° d’ordre : pour distinguer les matériels d’une même famille.
5.1.3 Circonstance de défaillances

Il est important de décrire la configuration du système et de son environnement avant
l’apparition de la défaillance.
• Situation du matériel lors de la défaillance ou de la découverte de la défaillance :
- Service normal
- Test
- Maintenance
• Etat du matériel :
-
-
-
•
-
-
-
-
dR Fonctionnement
Sollicitation
Arrêt
Situation du système :
en charge nominale
en charge réduite (% de la charge nominale)
à l’arrêt, circuit conditionné
à l’arrêt pour maintenance
- en test
• Conditions physiques du système spécifiques à chaque type de système, par exemple :
- pression
IM
- débit
- température
• Conditions extérieures du système :
- température ambiante
- hygrométrie
- taux de pollution
5.1.4 Description de la défaillance

Elle s’effectue selon différents éléments :
• Découverte de l’anomalie : date et heure de la découverte de la défaillance
• Début de la défaillance : la date et l’heure peuvent coïncider avec celle de la découverte
• Degré de la défaillance :
Page 79
- Défaillance partielle : le matériel n’assure que partiellement sa fonction
- Dégradation : le matériel se détériore progressivement
- Défaillance complète : le matériel est indisponible
• Apparition de la défaillance : rapidité de l’évolution de la défaillance
- Défaillance soudaine : qui n’aurait pu être découverte par un examen antérieur
- Défaillance progressive : qui aurait pu être découverte par un examen antérieur
• Mode de défaillance
• Composant interne affecté
• Causes de défaillance
• Durée de réparation : en temps réel passé pour l’expertise, la réparation
• Durée de main d’œuvre cumulée
•
• dR
Durée d’indisponibilité : durée qui sépare le début de la défaillance de la fin de la
défaillance
Résumé de la défaillance : texte libre
On peut aussi ajouter le nom du rédacteur et du vérificateur, pour demander des
renseignements complémentaires.
Ces différentes informations constituent la trame du REX et peuvent être évidemment
enrichies et adaptées à l’entreprise et à son activité.
5.2 QUELQUES TRAITEMENTS POTENTIELS….

La problématique essentielle en sûreté de fonctionnement et, plus généralement, dans
l’analyse d’un REX consiste à prévoir, à anticiper la survenance d’un incident, c’est-à-dire
déterminer quelle est la probabilité, après un certain laps de temps, que le matériel soit en
défaillance ou non, qu’un incident se produise ou non.
IM
Le REX se caractérise comme on l’a vu par un historique des défaillances qui se sont
produites ainsi que de différentes informations complémentaires. Un ensemble de
renseignements est donc à notre disposition afin de décrire le contexte de l’incident.
Un certain nombre de problématiques peuvent ainsi être dégagées :
1. On peut introduire le facteur temps en intégrant le laps de temps qui s’est écoulé entre
deux incidents (du même type ou non selon la problématique). La problématique consiste
à déterminer après un laps de temps écoulé, quelle est la probabilité de défaillance.
2. Déterminer quels sont les facteurs discriminants dans la survenance d’un incident (en
incluant le facteur temps).
3. Il est possible qu’il existe un lien également entre les successions d’incidents et donc il est
nécessaire de tenir compte de la succession.
4. Cette dernière problématique consiste à mettre en évidence des couples de survenance
d’incident, c’est-à-dire quels sont les incidents qui surviennent simultanément.
5. Le datalmining comme aide au diagnostic
Page 80
Ces problématiques sont proposées à la suite des attentes exprimées par les entreprises ou par
rapport aux informations disponibles dans le REX.
Chaque problématique sera abordée dans les paragraphes suivants. Ils visent à répondre sur la
faisabilité de l’analyse par des techniques de datamining. Dans le cas d’une analyse possible,
nous préciserons quelles sont les techniques utilisables ainsi que les résultats attendus.
5.2.1 Détermination de la probabilité d’incidents en fonction du temps

5.2.1.1 Problématique
A partir des données contenues dans le REX, il est possible d’établir une probabilité
d’incidents en fonction du temps écoulé entre deux incidents.
Cette problématique permet de prévenir les incidents et de les gérer. Son objectif n’est pas de
mettre en évidence des relations de cause à effet, mais d’anticiper sur la survenance d’un
incident. Elle relève donc du domaine de la prévision.
Cette prévision permet alors à l’entreprise de mettre en œuvre une politique qui va tenir
dR
compte des probabilités ainsi établies.
Toutefois, intégrer le seul facteur temps ne répond pas à la problématique du data mining qui
consiste, comme nous l’avons expliqué dans une première partie, à mettre en évidence des
relations cachées à partir d’un volume important de variables prises en compte. Or, dans le
cas présent, seule une variable est prise en compte : le temps. Le principe du data mining est
de forer les données et donc d’avoir un grand nombre de variables explicatives.
Pour effectuer une analyse de type data mining, il est nécessaire d’ajouter des variables
contextuelles qui permettent d’enrichir les explications potentielles. Le facteur temps sera
donc considéré comme une variable explicative parmi d’autres.
Cette problématique est abordée ci-après.
5.2.1.2 Les méthodes utilisées
Aucune des méthodes relevant du data mining ne répond à cette problématique. Il convient
alors d’avoir recours aux analyses classiques.
IM
5.2.2 Détermination des facteurs discriminants
Les REX sont potentiellement une source d’information d’une grande richesse étant donné le
nombre de variables renseignées. Dans un premier temps, il s’agit donc de déterminer quelles
sont les variables ou les combinaisons d’évènements qui expliquent le mieux ces incidents. Le
facteur temps est alors intégré et proposé parmi les variables discriminantes. La méthode
permettra de mettre en évidence si cette variable est particulièrement discriminante ou non.
Cette problématique relève particulièrement du data mining dans la mesure où la recherche
des causes des incidents n’est pas limitée à un seul facteur explicatif mais à un ensemble de
facteurs qui, pris isolément, pourraient ne présenter aucun lien, mais dont la conjonction peut
provoquer des conséquences en termes de sûreté de fonctionnement. Il s’agit donc de dégager
de l’information à partir d’un ensemble de données disponibles.

Les méthodes potentiellement utilisables sont essentiellement :
Page 81
• les arbres de décision
• les réseaux de neurones : ils peuvent être utilisés mais ne constituent pas la meilleure
méthode. Leur usage est plutôt à des fins de prévision.
5.2.2.2.1 Les arbres de décision

Cette méthode permettra d’établir un ensemble de règles qui vont dégager quelles sont les
variables les plus discriminantes du problème posé.
Les résultats seront alors explicités clairement sous forme de conditions, et graphiquement,
sous la forme d’un arbre où les règles seront représentées ainsi que la probabilité associée.
Cet arbre peut par la suite être utilisé dans le domaine prévisionnel. Il répond ainsi à deux
stratégies : une stratégie explicative mais également prédictive.
A partir de ces règles, l’entreprise peut réajuster sa politique et prendre des mesures
palliatives. La mesure des bénéfices liés à la mise en œuvre des corrections ainsi effectuées
dR
nécessitent une nouvelle étude. Cette nouvelle étude permettra de mesurer l’apport et les
conséquences suite à la mise en œuvre de la nouvelle politique ou des mesures prises en
comparant les probabilités de survenance d’incident entre les différents modèles ainsi établis.
5.2.2.2.2 Les réseaux de neurones

Les réseaux de neurones présentent la particularité d’être particulièrement efficaces dans le
domaine prédictif. Néanmoins, le modèle ne pouvant être clairement explicité, il est difficile
d’utiliser les résultats à des fins explicatives. La détermintation des variables les plus
discriminantes s’effectuera par l’analyse des poids. Une variable est d’autant plus explicative
que son poids associé est élevé.
Dans cette optique, il peut être alors également possible d’introduire un certain ordre
chronologique dans les facteurs explicatifs introduits.
IM
5.2.3 La succession de facteurs comme élément explicatif
Il s’agit ici d’identifier s’il existe une succession de facteurs pouvant expliquer la défaillance.
Cette problématique se rapproche de la précédente mais on considère ici la succession de
facteurs. Il convient donc de considérer différemment la conjonction de l’événement A puis B
et la conjonction de B puis A.
Ceci n’est cependant qu’une piste de réflexion dans la mesure où l’on cherche à éviter
d’introduire dans le modèle des variables qui soient corrélées entre elles.

Comme dans le paragraphe précédent, les principales méthodes qui peuvent être mises en
œuvre sont essentiellement :
• les réseaux de neurones
• les arbres de décisions.
Page 82
5.2.3.3 Résultats escomptés
Comme précédemment, les résultats seront, soit des règles clairement explicitées, soit un
modèle non-explicité mais efficace en matière de prédiction.
Ces réflexions nous conduisent finalement à une problématique sur l’étude de survenance des
combinaisons d’incidents.
5.3 LA SURVENANCE CONJOINTE D’INCIDENTS

Cette problématique consiste à déterminer quels sont les couples d’incidents les plus
fréquents. Il s’agit ici d’une problématique descriptive.
Cette problématique vise à mettre en évidence une relation deux à deux entre les incidents par
rapport à un effet fixé.
dR
C’est-à-dire, pour les incidents (donc en mode défaillance), on cherche à cerner s’il existe un
lien entre la survenance de cet incident et le fait que certains facteurs surviennent plus
fréquemment simultanément.

La méthode de data mining utilisée sera alors les règles d’association.

Les résultats seront explicités sous forme de règles.
IM
La simplicité de ces techniques peut séduire mais constitue également leur faiblesse.
Considérer l’ensemble des associations possibles semble difficile à mettre en œuvre si les
variables considérées sont à un niveau trop fin. On disposerait alors d’une combinatoire trop
élevée qui ferait perdre à la méthode sa pertinence. Il convient donc d’effectuer l’analyse sur
des données agrégées et, donc, de procéder à une phase préparatoire d’agrégation des
données.
Le niveau élémentaire peut en revanche être utilisé pour confirmer une hypothèse quant à la
relation entre plusieurs variables. Cette méthode s’applique essentiellement à des données
qualitatives.
Relativement à la méthodologie utilisée, on risque d’être rapidement confronté à des
problèmes de volumétrie dans le cas d’analyses de bases à forte volumétrie.
5.3.2 L’aide au diagnostic

Cette problématique consiste en fonction de symptômes de déterminer le diagnostic de la
panne. Cette problématique est totalement comparable à une aide au diagnostic dans le milieu
médical. Cette problématique a particulièrement été traitée par le domaine de l’intelligence
Page 83
artificielle duquel est issu le, pour partie, le data mining, en particulier les réseaux de
neurones.
Cette problématique d’aide au diagnostic a essentiellement été traitée dans le milieu médical
où la définition des règles décrivant les symptômes était effectuée par un expert.
L’exploitation de ces règles étaient effectuées à l’aide d’un système expert.
Aujourd’hui, le datamining nous permet de décrire ces règles traduisant les symptômes à
partir non seulement de la connaissance des experts mais également d’une manière objective à
partir de l’analyse des données par des techniques telles que le raisonnement à base de cas.
dR
La méthode utilisable est le raisonnement à base de cas qui va permettre de déduire à partir
des constatations existantes quel sont les facteurs explicatifs caractéristiques d’un phénomène
constaté.
5.4 CAS PRATIQUE

5.4.1 Introduction
Le cas pratique est réalisé à partir de données fournies par une société. Dans un souci de
confidentialité, les données ont été recodées. L’analyse a été effectuée à l’aide du progiciel
SAS Enterprise Miner.
La société D cherche à expliquer l’évolution d’un phénomène de dégradation de son matériel.
Le matériel de production est inspecté à la chaque fin de cycle de fonctionnement. Les
IM
données de contrôle sont sauvegardées au sein d’une base de données de retour d’expérience.
La société cherche à comprendre l’évolution de l’amplitude d’un phénomène observé sur le
matériel de production par rapport à certains facteurs. Cette évolution constituera la variable à
expliquer. A chaque inspection, l’évolution de la dégradation du matériel est déterminée par la
différence entre la donnée de contrôle réalisée à la fin du cycle et la donnée de contrôle
réalisée à la fin du cycle précédent (en général un an avant).
Et à chaque inspection, un ensemble de renseignements est disponible. On dispose ainsi de
renseignements sur les conditions de fabrication du matériel et de fonctionnement. Ces
différentes variables constitueront les variables explicatives à l’aide desquelles nous
chercherons à comprendre quels sont les facteurs pouvant permettre d’expliquer l’évolution
de la dégradation constatée. Identifier les éléments moteurs de cette évolution peut permettre
de prendre des mesures ciblées sur les facteurs essentiels lorsqu’il est possible d’agir sur
ceux-ci. Les données constituant les variables explicatives sont des données de fabrication, de
fonctionnement et de conditionnement.
Les analyses ont été effectuées à partir d’un historique de plusieurs années constitué de
83.273 observations et 50 variables. Néanmoins, seules 14 variables explicatives sont retenues
pour l’analyse.
Page 84
La sélection des variables à prendre en compte s’effectue par étape. Dans un premier temps, il
est nécessaire de s‘assurer que les variables prises en compte dans le modèle ne sont pas
corrélées entre elles ou qu’elles sont indépendantes. De plus, il peut s’avérer judicieux de
transformer les variables quantitatives en variables qualitatives par un processus de
discrétisation, c’est-à-dire en découpant la variable quantitative en différentes classes. Ce
découpage doit conduire à un nombre limité de modalités. Les effectifs présents dans chaque
classe doivent être approximativement identiques. Ce principe a été appliqué à nos données.
Dans le cadre du projet, nous allons comparer les résultats obtenus à l’aide d’une analyse
classique par la méthode de la régression de type GLM (modèle linéaire généralisé) et une
analyse de data mining à l’aide des arbres de décision et des réseaux de neurones.
5.4.1.2 Principe des méthodes

Nous nous bornerons ici à effectuer un bref rappel sur les techniques utilisées sans repréciser
les notions élémentaires que nous considérerons comme acquises. Pour plus de
dR
renseignements, se reporter à la partie 1.
5.4.1.2.1 Les modèles linéaires généralisés (GLM)

Ces modèles visent à écrire une fonction permettant de lier une variable à expliquer à
caractère quantitatif à une ou plusieurs variables qualitatives ou quantitatives.

Les arbres de décision ont pour but d’établir un ensemble de règles. L’algorithme consiste à
partager la population initiale contenue dans la racine de l’arbre en un ensemble de sous-
populations contenues dans les nœuds et les feuilles. La constitution de ces sous-populations
s’effectue par divisions successives par rapport aux variables jugées les plus discriminantes.
Ici, les données présentes sont aussi bien quantitatives que qualitatives. La variable à
expliquer est quantitative. Chaque nœud et feuille permet d’effectuer une prévision par
IM
rapport à la variable à expliquer. Lorsque la variable à expliquer est qualitative, la prévision
est estimée par rapport à la répartition en effectif de la variable à expliquer.
Si la variable à expliquer est quantitative, la prévision est estimée par la valeur moyenne de la
variable à expliquer pour la sous-population considérée.

Les réseaux de neurones sont souvent assimilés à des boîtes noires car les résultats fournis
sont peu explicites. Le principe repose sur des algorithmes d’apprentissage, par exemple du
recuit simulé, qui va permettre de pondérer les différents neurones constituant le réseau. Le
réseau comporte des neurones d’entrée, un neurone de sortie ainsi que des neurones
intermédiaires compris dans des couches cachées. Ces notions sont développées plus
amplement dans la partie 1.
5.4.1.3 Démarche
Page 85
Une phase préparatoire des données est nécessaire. Dans le cas étudié, les données avaient
déjà fait l’objet de préparations et d’études. Les données que nous avons traitées n’ont donc
fait l’objet que d’un recodage.
Une étape préparatoire consiste également à constituer différents échantillons à partir de la
population initiale. Les échantillons suivants ont été constitués aléatoirement :
• Un échantillon d’apprentissage qui représente 70% de la population initiale,
• Un échantillon de validation, constitué de 30% de la population initiale.
5.4.1.4 Critères pris en compte

La variable à expliquer est la mesure de l’amplitude d’un phénomène. Deux cas sont
considérés : tout d’abord, la variable est considérée comme quantitative puis, dans un
deuxième cas, elle fait l’objet d’un découpage en classes nommé discrétisation. Cette variable
est notée, dans le premier cas EVOLNUM, dans le second cas, EVOLCHAR. Dans ce dernier cas, la
dR
variable prend alors les 3 valeurs suivantes : fort, moyen, faible selon les bornes des
intervalles définis par l’expert.
Les variables explicatives sont constituées de données de fabrication et de fonctionnement,
tant qualitatives que quantitatives.
5.4.1.5 Résultats
5.4.1.5.1 Les modèles linéaires généralisés
Les sorties obtenues à l’aide du logiciel SAS sont fournies en annexe (Cf. Annexe).
Deux modèles sont présentés pour lesquels la variable TRAIT fait ou non partie des variables
explicatives.Voici les résultats essentiels :
TYPE : AM
IM
POSITION : 1, 2, 3, 4
TRAIT : 0, 1
TPSFCT : [110000-130000] [130000-150000] [90000-110000]
AMPLINIT : [0-250] [1000-1250] [1250-1500] [1500-1750] [1750-2000] [2000-2250] [250-500] [500-750]
[750-1000]
HMARCHE : BCDE
PLAQUE : E1 E2 E3 E4 E5 E6 E7 E8
SITU2 : AB
FAB : ?? A B C D
Variable à expliquer : EVOLNUM.
Source Degré de liberté Somme des Moyenne F value Pr > F

carrés Carréz
Modèle 35 255250501,4 7292871, 942,00 <,0001
Erreur 83238 644422986,6 7741,9
Page 86
Total corrigé 83273 899673488,0
R-Square Coeff Var Root MSE EVOLNUM Mean

0,283715 213,4252 87,98825 41,22673
Source Degré de liberté Type III SS Moyenne F value Pr>f

Carrée
FONCT1 1 2311646.0 2311646.0 298.59 <.0001
FONCT4 1 543910.5 543910.5 11.59 0.0007
FONCT5 1 89741.7 89741.7 11.59 0.0007
FONCT6 1 1734266.9 1734266.9 224.01 <.0001
FONCT7 1 1573570.6 1573570.6 203.25 <.0001
TYPE
POSITION
TRAIT
TPSFCT
AMPLINIT
HMARCHE
PLAQUE
SITU2
FAB
dR 1
3
1
2
8
3
7
1
4
5800006.4
477560.3
619.8
462572.7
171422188.6
14591323.1
787681.0
124364.9
16361899.3
5800006.4
159186.8
619.8
231286.3
21427773.6
4863774.4
112525.9
124364.9
4090474.8
749.17
20.56
0.08
29.87
2767.76
628.24
14.53
16.06
528.35
<.0001
<.0001
0.7772
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
Il apparaît que toutes les variables sont explicatives (Pr >F faible) sauf la variable TRAIT qui
n’est pas-significative au sens statistique du terme (Pr>F = 0,7772). C’est pourquoi, le second
IM
modèle est généré sans cette variable et fournit les résultats suivants :
Source Degré de liberté Somme des Moyenne F value Pr > F

carrés Carréz
Modèle 34 255249881,6 7507349,5 969.71 <.0001
Erreur 83239 644423606,4 7741,8
Total corrigé 83273 899673488,0

0.283714 213.4241 87.98777 41.22673
Source Degré de liberté Type III SS Moyenne F value Pr>f

Carrée
FONCT1 1 2325791,5 2325791,5 300,42 <,0001
FONCT4 1 575144,4 575144,4 74,29 <,0001
Page 87
FONCT5 1 90063,9 90063,9 11,63 0,0006
FONCT6 1 1736653,2 1736653,2 224,32 <,0001
FONCT7 1 1573378,2 1573378,2 203,23 <,0001
TYPE 1 6011446,3 6011446,3 776,49 <,0001
POSITION 3 477965,6 159321,9 20,58 <,0001
TPSFCT 2 480481,4 240240,7 31,03 <,0001
AMPLINIT 8 171424304,7 21428038,1 2767,82 <,0001
HMARCHE 3 14711492,9 4903831,0 633,42 <,0001
PLAQUE 7 787576,6 112510,9 14,53 <,0001
SITU2 1 163931,5 163931,5 21,17 <,0001
FAB 4 16431396,9 4107849,2 530,60 <,0001
•
•
•
•
•
•
•
Fab,
dR
Les variables les plus explicatives, dans l’ordre décroissant sont :
Amplinit,
Type,
Hmarche,
Fonct1,
Fonct6,
Fonct7.
Leur ordre est déterminé en fonction du poids du F-value qui est une statistique utilisée dans
ce type de modèle. Une variable est d’autant plus importante que son F-value est fort et ce,
dans la mesure où la variable est jugée statistiquement significative (Pr>F faible).
IM
Seules les variables les plus discriminantes sont citées ici. Pour avoir plus d’information sur
les modèles, se reporter à l’annexe correspondante (Cf. Annexe I).
Ce type d’analyse permet alors d’écrire un modèle de type y=f(x1, x2,….,xn) où x1, ….,xn sont
les variables explicatives et y est la variable à expliquer. Le poids associés aux variables
permet d’identifier les variables les plus explicatives et le modèle permet ensuite de réaliser
des prévisions par rapport à la variable à expliquer.

L’algorithme utilisé est fondé sur la réduction de l’entropie, c’est-à-dire que nous avons
utilisé l’algorithme C4.5. Pour plus de détails sur l’entropie ou l’algorithme, se reporter à
l’annexe C et à la partie 1 du rapport.
Quelques uns des résultats fournis pas l’outil sont présentés et commentés ci-après. Toutefois,
des résultats complémentaires sont fournis. En particulier, des règles dont l’intégralité est
jointe en annexe (Cf. Annexe F).
La variable à expliquer EVOLCHR a fait l’objet d’une discrétisation préalable. Nous
présenterons ici uniquement les résultats de l’arbre construit en tenant compte des variables
Page 88
identifiées par l’analyse précédente de type GLM, c’est-à-dire que la variable TRAIT ne fait
pas partie des variables explicatives retenues pour l’analyse.
La première étape permet le développement d’un arbre binaire.
dR
Cet écran interactif récapitule l'ensemble des résultats obtenus sur le modèle. Il est composé
IM
de quatre pavés :
• en bas à gauche : pour chaque feuille on dispose du pourcentage de personnes bien
classées par l'arbre.
• en bas à droite : sélection du nombre de feuilles composant l'arbre correspondant à la
sélection précédente
• en haut à droite: représentation graphique de l'arbre constitué du nombre de feuilles
sélectionné.
• en haut à gauche : tableau de statistiques; ici, la matrice de confusion.
La matrice de confusion compare le réel avec les prévisions effectuées par le modèle. On
obtient ainsi le pourcentage d'individus bien classés.
Parmi les résultats fournis, le graphique en haut à droite de l’écran précédent permet de
déterminer la taille optimale de l’arbre.
Page 89
dR
Ce graphique montre l’évolution du pourcentage de la population bien classée en fonction du
nombre de feuilles dont est composé l'arbre. Cette évolution porte sur l’échantillon
d’apprentissage ainsi que sur l’échantillon de validation.
L'arbre considéré peut-être réduit à un nombre inférieur de feuilles que le nombre maximum
ici visualisé. On choisira ici de limiter le développement de l'arbre à 9 feuilles. En effet, on
IM
constate qu'augmenter le nombre de feuilles ne permet pas de gagner significativement en
pourcentage d'individus bien classés par l'arbre.
La représentation graphique montre l'évolution du pourcentage de personnes bien classées
selon le nombre de feuilles de l'arbre sur l'échantillon d'apprentissage et sur l'échantillon de
validation. Il est normal de constater que le pourcentage de bien classé est légèrement
inférieur sur l'échantillon de validation. Dans le cas présent, l’arbre développé avec 9 feuilles
permet de classer correctement 74,92% de la population d’apprentissage et 74,6% de la
population de l’échantillon de validation.
Pour obtenir plus d'information sur la qualité du modèle, on peut observer la matrice de
confusion qui permet de comparer la réalité avec la prévision.
Page 90
Effectif Valeurs prévues
Pourcentage global
Pourcentage ligne Faible Fort Moyen TOTAL
Pourcentage colonne
Faible 17511 134 464 18109

70.09 0.54 1.86 72.49
96.7 0.74 2.56
76.66 17.18. 34.09
Fort 614 483 251 1348
Valeurs réelles
2.46 1.93 1.00 5.40

45.55 35.83 18.62
dRMoyen
TOTAL
4716
22841
91.43
2.69
18.88
85.36
20.65
163
780
3.12
61.92
0.65
2.95
20.90
1361
5.45
646
18.44
2.59
11.69
47.47
5525
24982
100
22.12
Un bon modèle doit conduire à des effectifs élevés sur la diagonale et faibles hors-diagonale.
En effet, les individus qui se trouvent sur la diagonale sont ceux bien classés par le modèle,
c’est-à-dire que la prévision est identique à la réalité. Hors diagonale sont portés les effectifs
pour lesquels la prévision et la réalité sont différentes ; le modèle a alors effectué une erreur
de prévision.
IM
Par exemple, sur cette matrice, parmi les 24982 cas annlysés, l’évolution observées étaient
faible dans 18109 cas. Le modèle prévoit quant à lui, que sur ces 18109 cas, l’évolution sera
faible pour 17511 cas, soit 96,7% de bien classés, et pour 134 cas, le modèle prévoit une
évolution forte soit 0,74%, et pour 464 cas le modèle prévoit une évolution moyenne soit
2.56%. Pour une évolution faible du phénomène, le modèle prévoit correctement dans 96,7%
des cas et effectue une erreur de prévision dans 3,3% des cas.
De plus, on constate également en comparant la répartition du total que le modèle a tendance
à prévoir des évolutions faibles (91,43%) alors que dans la réalité l’évolution faible est
constatée sur 72,49% des cas . De plus, on constate le phénomène inverse pour une évolution
moyenne qui a tendance à être sous-estimée. Dans la réalité, 22,12% des cas montrent une
évolution moyenne du phénomène et le modèle n’en prévoit que 5,45% parmi lesquelles
seules 2,59% des cas sont corrects, c’est-à-dire, parmi tous les cas constatés, seuls 2,59% ont
une évolution myenne prédite et réelle.
Ici, on constate donc que le modèle tend à classer les individus en faible. Le problème peut
provenir d'un déséquilibre dans la répartition initiale. Il aurait fallu un échantillon stratifié par
rapport à la variable à expliquer.
Page 91
L'arbre peut être visualisé sous différentes formes :
• sous la forme d'un tronc comme le montre l'écran précédent ce qui est pratique pour une
visualisation sur écran car le descriptif du nœud peut être fourni interactivement,
• sous la forme plus classique d'un arbre ce qui est pratique pour la rédaction de rapports car
le descriptif est contenu dans le nœud.
dR
IM
Remarque :
La couleur des nœuds correspond à la prévision sur la variable à expliquer :
▪ rouge : évolution forte,
▪ vert :évolution faible,
▪ bleu : évolution moyenne.
Comme on peut le constater ici, une même variable apparaît deux fois successivement. Il
semble alors intéressant de partager le premier nœud, non en deux branches, mais en un
nombre plus important de branches.
Lorsqu’on réalise un développement plus important, mais néanmoins limité à un découpage
en 6 sous-classes maximum, on obtient alors un pourcentage de bien classés de 75.11% avec
un arbre composé de 31 feuilles. Les variables les plus discriminantes sont alors les
suivantes :
• Amplinit,
Page 92
• Fab,
• Hmarche,
• Fonct4,
• Fonct1.
Seules les premières variables discriminantes sont citées.
Remarques :
• ces règles ont été “ apprises ” sur la base d’un échantillon constitué de 70% de la
population alors que, pour estimer le modèle linéaire généralisé, l’ensemble de la
population a été utilisé,
• la variable à expliquer est discrétisée.
A partir de cet arbre sont générées des règles qui peermettent d’effectuer des prévisions sur la
variable à expliquer.
dR
Ces règles sont éditées automatiquement par l’outil et sont la traduction de la lecture de
l’arbre. Ainsi, voici un extrait des règles éditées par l’outil :
IF AMPLINIT EQUALS [0-250]

THEN
NODE :
N : 14662
2
MOYEN : 14.1%
FORT : 0.6%
FAIBLE : 85.3%
Si AMPLINIT est compris entre 0 et 250, alors la variable evolchr aura pour modalité “ faible ”
dans 85.3% des cas. Si AMPLINIT est comprise entre 0 et 250 alors l’évolution du phénomène
sera faible avec une probabilité de 0,85. Les informations contenues sur le nœud (après le
“ Then ”) sont les suivantes :
IM
▪ Numéro du nœud
▪ L’effectif contenu dans le nœud
▪ La répartition par rapport aux modalités de la variable à expliquer, ici evolchr.
On obtient ainsi un ensemble de règles qui s’obtiennent en parcourant l’arbre du nœud racine
aux feuilles terminale.
IF AMPLINIT IS ONE OF: [1250-1500] [1500-1750] [1750-2000]

THEN
NODE : 4
N : 900
MOYEN : 19.2%
FORT : 58.9%
FAIBLE : 21.9%
IF HMARCHE EQUALS B
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE : 12
N : 121
Page 93
MOYEN : 26.4%
FORT : 70.2%
FAIBLE : 3.3%
IF HMARCHE EQUALS C
THEN
NODE : 13
N : 490
MOYEN : 27.3%
FORT : 18.6%
FAIBLE : 54.1%
IF HMARCHE EQUALS D
THEN
NODE : 14
N : 525
MOYEN : 32.4%
dR FORT : 39.8%
FAIBLE : 27.8%
IF HMARCHE EQUALS E
THEN
NODE :
N : 66
15
MOYEN : 33.3%
FORT : 25.8%
FAIBLE : 40.9%
IF FAB EQUALS A
THEN
NODE : 21
N : 246
MOYEN : 21.5%
IM
FORT : 5.3%
FAIBLE : 73.2%
IF FAB EQUALS B
THEN
NODE : 22
N : 443
MOYEN : 40.4%
FORT : 4.7%
FAIBLE : 54.9%
L’ensemble des règles est fourni en annexe (Cf. Annexe F).
Ces règles vont permettre d’effectuer une pévision par rapport aux indications fournies en
entrée pour une observation.
Page 94
Les spécifications suivantes ont été effectuées sur les réseaux de neurones :
▪ chaque variable explicative constitue un nœud d’entrée,
▪ la couche cachée est composée de 3 neurones.
Seuls certains résultats sont présentés ci-après. Certains autres résultats sont fournis en annexe
(Cf. Annexe G) en particulier, les équations permettant d’aboutir à la prévision.
Le réseau de neurones peut être schématisé de la façon suivante :
dR
IM
Légende :
▪ en bleu ciel sont représentés les neurones d’entrée,
▪ en bleu foncé est représentée la couche cachée composée de trois neurones,
▪ en jaune est représenté le neurone de sortie qui constitue la variable à expliquer.
Certains résultats nous sont fournis, en particulier les poids associés aux différentes relations
entre les neurones, mais tous ne sont pas présentés et commentés dans ce document. Dans le
cas présent, il n’existe pas de connexion directe entre les neurones d’entrée et le neurone de
sortie.
Le graphique suivant représente les poids associés aux relations :
Page 95
dR
On constate à travers ce graphique quelles sont les relations les plus fortement pondérées,
donc celles qui participent le plus à la prévision.
H11, H12 et H13 sont les trois neurones qui constituent la couche cachée du réseau. La
relation avec les variables ne sont pas identiques.
IM
Remarque :
le graphique ici n’est centré que sur certaines relations du réseau de neurone mais ce
graphique peut être déroulé et reprend l’ensemble des relations entre neurones. Dans le
rapport, il n’est pas possible de présenter l’intégralité du graphique du fait de son
interactivité.
Cependant, il ressort de son analyse, complétée de l’analyse de la table correspondante, que
les variables ayant le plus de poids dans l’apprentissage du réseau sont les suivantes :
• Amplinit,
• Hmarche,
• Fab,
• Fonct7,
• Fonct1,
• Tpsf,
• Fonct4.
Page 96
Voici un extrait du tableau qui nous permet d’aboutir à ces conclusions :
dR
IM
Page 97
dR
Le graphique ci-dessus représente l’évolution de l’erreur moyenne par itération durant la
phase d’apprentissage. On constate que le modèle est relativement stable au-delà de la
cinquantième itération et que l’erreur moyenne pour l’échantillon d’apprentissage est de
l’ordre de 0,39 alors que sur l’échantillon de validation elle est de l’ordre 0,40. Les deux
courbes sont relativement proches ce qui montre que le modèle est relativement performant.
Les poids attribués aux neurones ont été réajustés à chaque itération.
IM
Page 98
La matrice de confusion est également disponible et présente les résultats suivants :
Effectif Valeurs prévues

Pourcentage global
Pourcentage ligne Faible Fort Moyen TOTAL
Pourcentage colonne
Faible 17566 99 444 18109

70.31 0.40 1.78 72.49
97.00 0.55 2.45
77.35 11.79. 31.03
Fort 470 544 334 1348
Valeurs réelles
1.88 2.18 1.34 5.40
dRMoyen
TOTAL
4675
22711
90.91
34.87
2.07
18.71
84.62
20.58
197
840
3.36
40.36
64.76
0.79
3.57
23.45
653
1431
5.73
24.78
23.34
2.61
11.82
45.63
5525
22.12
24982
100
Remarque :
Il semble que le réseau ne soit pas à même de prédire les valeurs faibles pour la variable à
expliquer EVOLCH. Le classement est bien effectué mais on ne dispose pas de l’information.
IM
L’apprentissage d’un bon réseau demande du temps pour l’apprentissage.
Dans le cas présent, il est nécessaire d’attendre 30 minutes mais le nombre d’itérations et le
temps d’attente avaient été limités). Ici l’exemple est à caractère illustratif ; les résultats
pourraient probablement être améliorés. La découverte d’un bon réseau s’effectue par
ajustements successifs des différents paramètres et pas comparaison des résultats obtenus en
termes de pertinence et de qualité.
5.4.1.5.4 Comparaison des modèles arbres – réseaux de neurones
Grâce à l’outil utilisé, il est possible de comparer les modèles entre eux bien qu’ils ne soient
pas de même nature. Pour cela, nous avons à notre disposition le graphique suivant :
Page 99
dR
Le modèle neuronal semble avoir un léger avantage en termes de prédiction sur le modèle
obtenu par les arbres de décision pour 50% de l’échantillon de validation. Au-delà de cette
médiane, ils ont approximativement les mêmes performances.
De plus, si on compare les matrices de confusion, il apparaît que le modèle de réseau de
neurone conduit à une meilleure prévision que celle utilisée par les arbres de décision.
Néanmoins, les résultats sont relativement proches. Les modèles fournissent des résultats
similaires. Les problèmes de prévision concernent essentiellement les modalités fort et moyen.
IM
Ceci est lié à l’échantillon et à la différence de population entre les effectifs des modalités
faible, moyen et fort de la variable à expliquer.
5.4.1.5.5 Conclusion
Ce cas pratique montre que les méthodes utilisées conduisent à des résultats similaires, mais
que le choix de l’algorithme peut avoir des implications en termes de stabilité. En effet, ici
seuls sont présentés les résultats finaux, leur obtention a nécessité le recours à de nombreuses
étapes.
Il est reconnu dans le milieu du data mining que les résultats fournis par les arbres sont
instables et conduisent à une évolution des techniques et méthodes mises en œuvre pour
l’apprentissage. Ainsi, la tendance actuelle vise à stabiliser les résultats obtenus par les arbres
de décision, les recherches, quant à elles, tendent à développer une démarche et des
algorithmes dont les résultats sont de plus en plus robustes.
Néanmoins, ce cas pratique se révèle positif dans la mesure où il montre que ces techniques
peuvent s’appliquer aussi bien au marketing qu’à des données issues du domaine de la sûreté
de fonctionnement.
Page 100
Il permet également de contribuer à une démystification des réseaux de neurones. En effet, il
est possible de les lire, même s’ils n’ont pas une réelle interprétation physique. De plus, leurs
résultats sont cohérents par rapport aux arbres et peuvent être plus performants. Néanmoins,
ils restent plus usités dans le domaine de la prévision que dans la recherche de variables
discriminantes.
5.5 LES PROBLEMATIQUES SOULEVEES PAR LES SOUSCRIPTEURS

Lors d’entretien avec les représentants de trois entreprises, certains problématiques ont été
soulevées. Nous allons présenter ici les résultats de ces entretiens. Dans un souci de
confidentialité, les problématiques seront décrites sans précision sur l’activité de la société et
le type de matériel.
5.5.1 Société A
dR
Il s’agit d’analyser à partir de l’historique de résolution des défauts ce qui peut expliquer la
non résolution finale de défauts.
Les données ont les caractéristiques suivantes. Chaque ligne décrit l’occurrence de défauts
constatés lors d’essais. Il peut y en avoir jusqu’à 60000.
Les données sur chaque ligne sont principalement constituées par un processus temporel
binaire t1, t2, …,t8. Ce processus est donc une suite de 0 et de 1. Un 0 signifie l’absence du
défaut au temps considéré et un 1 signifie la présence d’un défaut au temps considéré. La
variable à expliquer est la valeur de l’état binaire au temps t8. Un 1 à cette date signifie que le
défaut est non résolu en fin d’essais, et le but de la société A est de caractériser ces défauts
non résolus par rapport aux autres.
Par ailleurs, chaque ligne comporte un certain nombre de caractéristiques qualitatives, dont le
nombre peut varier et qui peuvent constituer des facteurs explicatifs de l’occurrence des
défauts. Pour fixer les idées, on suppose ici qu’il y en a six. On les note v1, v2, …, v6. Le
IM
nombre de modalités de ces variables qualitatives pouvant être très différent.
L’objectif est d’analyser si les défauts non résolus présentent des caractéristiques analogues
sur le processus binaire.
Le rôle des variables qualitatives v1, v2, …, v6 intéresse bien sûr le souscripteur mais semble
subordonné à cet objectif principal. De plus, le souscripteur est intéressé à une approche de
type Case Based Reasoning (CBR) ou raisonnement à base de cas. (Cf. tâche 1).

Vu la nature du problème (l’analyse d’un processus discret), on pourrait envisager une
modélisation par une chaîne de Markov, voire par un processus autorégressif d’ordre
supérieur. Mais une telle approche de modélisation statistique ne relève pas vraiment du data
mining.
Si on adopte le point de vue plus exploratoire du data mining, et en particulier celui du CBR,
on peut envisager l’approche suivante : la suite de 0 et de 1 précédant le dernier instant (elle
est donc de longueur sept si on considère huit instants) ne serait pas vue comme la réalisation
d’un processus gouverné par une loi temporelle précise mais comme une forme (pattern en
Page 101
anglais…). Dans cette optique, il s’agirait de voir si l’occurrence de certaines formes ne serait
pas plutôt caractéristique des défauts non résolus que des autres. De ce point de vue “ CBR ”,
il suffirait, pour chaque forme, de compter le nombre de cas associés aux défauts non résolus
sur le nombre total d’occurrences de la forme. De la sorte, on aurait la liste des formes
significativement présentes sur les défauts non résolus. Du fait qu’il y a 27 = 128 formes, cela
semble facilement réalisable. Il s’agit typiquement d’une approche Naive Bayes telle qu’on en
a vu dans la deuxième partie bibliographique de cette étude. Elle pourrait être mise en
compétition avec les arbres de décision.
Partant de là, pour étudier le rôle des différents facteurs v1, v2, …, v6, il suffirait de reprendre
les mêmes calculs conditionnellement aux modalités de chaque facteur (par exemple le
modèle du système en essai) pour voir s’il permet de distinguer des formes particulières et de
voir si elles sont notablement différentes de celles sélectionnées en considérant globalement
toutes les lignes du tableau de données.
dR
Les difficultés de cette approche résideraient dans la sélection des formes significatives et
dans la sélection des modalités des facteurs qualitatifs discriminants.
La sélection des formes ne semble pas compliquée, même si on augmente le nombre de

formes. (Par exemple, si l’on considère douze instants au lieu de huit, on passe à 211 = 2048
formes au lieu de 128). Il suffit de sélectionner les formes significativement différentes de la
répartition (1/2,1/2) entre défauts résolus et défauts non résolus. De ce point de vue, on peut
remarquer que, plus on aura de lignes dans le tableau de données, plus les résultats seront
fiables. Ce qui risque d’être intéressant sera de regrouper les formes significatives de manière
à simplifier leur description. Mais ce travail, reviendra essentiellement à supprimer des
coordonnées des formes par simple sommation et juger de la significativité des formes
nouvelles ainsi construites. Par exemple, on aurait une règle du genre : “ une présence d’un
défaut à l’instant t2 et à l’instant t4 fait craindre un défaut non résolu avec une confiance de
80% ”.
IM
La sélection des modalités intéressantes des facteurs qualitatifs est plus délicate. Sans doute le
recours à des outils exploratoires de data mining : arbres de décision, mais aussi analyse en
composantes principales du tableau des formes (équivalent à l’analyse des correspondances
multiples, car il s’agit d’un tableau binaire) avec projection en éléments illustratifs des
modalités des facteurs qualitatifs, devraient aider à se focaliser sur les modalités les plus
intéressantes. Par ailleurs, on pourra bien sûr se restreindre aux modalités suffisamment
fréquentes dans le tableau de données.
On pourrait se concentrer sur l’obtention de règles du type CBR sur des situations
particulièrement intéressantes du point de vue du souscripteur. Enfin, le fait de travailler sur
un ensemble de données assez grand est souhaitable pour obtenir des résultats convaincants.
Page 102
5.5.2 Société B
5.5.2.1 Problématiques
Il s’agit d’analyser à partir d’un historique d’incidents la possibilité que d’autres facteurs que
ceux clairement identifiés dans la fiche d’incident interviennent., c’est-à-dire valider les
études AMDEC prévisionnelles.
Chaque ligne décrit un incident ainsi que les facteurs des causes identifiés. Des informations
contextuelles telles que la météo ou la température font également partie des variables
renseignées pour l’incident considéré.
Lors de cet entretien, d’autres problématiques ont été proposées mais qui ne relèvent pas du
domaine du data mining.
Une proposition consistait :

• à détecter automatiquement des dérives ou l’émergence de nouveaux phénomènes par
•
•
dR
rapport à certains indicateurs par la surveillance des données et la mesure de l’effet
temporel,
à analyser des champs libres (texte) : l’analyse des champs libres relève du text mining,
à aider à l’appréciation de la qualité des bases de données en termes de fiabilité de saisie :
évaluer la fiabilité de la saisie dans une base de données consiste en des tests de cohérence
qui sont réalisés préalablement à toute étude statistique classique ou à l’emploi de
techniques de data mining.

La mise en évidence de facteurs explicatifs autres que ceux clairement identifiés répond à la
problématique globale du data mining qui consiste à mettre en évidence des relations
auxquelles on ne pense pas nécessairement. Cela suppose évidemment d’avoir à sa disposition
un ensemble de variables suffisamment renseignées telles que des variables contextuelles
IM
(temps, température, localisation,….). Dans le cas de la société concernée, il s’agit de données
de trafic, de saison et, lié à ce contexte saisonnier, de la météo.
Les techniques alors mises en œuvre peuvent être les arbres de décision qui font apparaître
des règles et les variables les plus discriminantes dans le phénomène que nous cherchons à
mettre comprendre. Néanmoins, le recours à ces techniques est parfois limité car le délai
d’apprentissage peut s’avérer être long. Le choix de la méthode dépend de la nature des
variables ainsi que du volume à traiter. L’avantage reste néanmoins la clarté des résultats
obtenus.
Le CBR peut également faire partie des méthodes possibles. On obtient également des règles.
Cette méthode n’est cependant pas disponible sous l’ensemble des logiciels du marché.
De même, les réseaux de neurones permettent de répondre à cette problématique particulière.

la différence des arbres de décision, les résultats fournis ne seront pas clairement explicites.
Page 103
Comme nous l’avons vu dans le cas pratique, le traitement par arbre de décision permet de
produire des règles qui peuvent être utilisées afin d’appréhender et de comprendre un
phénomène à un instant donné, et, en fonction des caractéristiques obtenues, les règles
peuvent être utilisées à des fins prédictives. De plus, des actions correctives peuvent être
mises en place. Afin d’évaluer l’impact de ces mesures, il sera nécessaire d’effectuer une
nouvelle analyse après un laps de temps suffisant pour que les mesures aient un impact
fonctionnel et que nous ayons à notre disposition suffisamment d’observations pour élaborer
de nouvelles règles.
5.5.3 Société C
Cette société souhaite travailler sur le facteur humain. Il s’agit de déterminer s’il existe un
dR
profil des personnes récidivistes responsables d’incidents lors de la production. Il s’agit donc
de prévoir la défaillance, non dans le temps comme la plupart des problématiques de la sûreté
de fonctionnement, mais en fonction de caractéristiques telles que l’âge, le niveau de
formation, etc.

Toutes les méthodes de data mining permettent de répondre à cette problématique. Toutefois,
les méthodes statistiques dites classiques permettent également de répondre à cette
problématique. La limite porte néanmoins sur le volume de données à traiter.
Dans le cas de volumes importants, il est plus aisé d’aboutir à un résultat via les techniques de
data mining.
Les techniques utilisables sont alors les arbres de décision. Ce sont eux qui fourniront les
résultats les plus explicites et qui répondent le mieux à ce type de problématique.
IM
Les arbres de décision visent à répondre à une question précise dont le nombre de modalités
est fixé dans le cas d’une telle problématique.
Ils répondent à la question suivante : quelle est la probabilité que l’individu i considéré
présentant des caractéristiques particulières soit récidiviste ou non récidiviste ?
Les résultats obtenus seront des règles qui décrivent le profil des personnes récidivistes. Si un
individu présente un profil particulier, alors il a une probabilité estimée d’être récidiviste.
Toutefois, il est nécessaire de disposer de l’ensemble de la population tant récidiviste que non
récidiviste afin de pouvoir distinguer les deux types de profil.
Page 104
6 CONCLUSION
.
A travers cette étude, nous avons cherché à définir les concepts du data mining et quelles sont
ses potentialités dans le domaine de la sûreté de fonctionnement.
Le premier chapitre nous a permis de définir ces concepts qui sont difficiles à distinguer de
l’analyse statistique classique. En effet, les deux domaines répondent aux mêmes attentes :
apporter de la connaissance. Les moyens peuvent cependant être différents. En effet, les
techniques de régression ou d’analyse multi-dimensionnelles relèvent de la statistique ou de
l’analyse des données alors que les arbres de décisions ou les réseaux de neurones sont plus
apparentés au data mining. Néanmoins, en se basant sur l’offre logicielle, on constate que les
techniques de régression sont rendues disponibles dans des outils tels que SAS Enterprise
Miner ou SPSS Clementine. Le Data Mining tend à recouvrir l’ensemble des méthodes
permettant de dégager de l’information à partir des données stockées par l’entreprise.
Néanmoins, le data mining fait appel aux techinques statistiques pour estimer les valeurs
dR
manquantes, pour effectuer certaines analyses préalables à la mise en œuvre d’une analyse de
data mining.
Néanmoins, de plus en plus d’entreprises s’interrogent sur ce qu’est le data mining et quel est
son apport potentiel dans son domaine particulier. C’est le cas pour notre étude dont l’élément
centrale est de savoir s’il est possible d’appliquer le data mining à la sûreté de fonctionnement
est le point essentiel de cette étude. Pour cela, il est apparu intéressant de réaliser une étude
bibliographique afin d’effectuer un état de l’art dans ce domaine particulier. Ces recherches
ont montré que finalement peu d’entreprises avaient réalisée une analyse par des techniques
de data mining. Certaines applications existent mais leur nombre reste limité.
Un certain nombre de problématiques générales ont pu être dégagées mais cela reste à un
niveau relativement élevé. Chaque entreprise doit adapter les propositions et pistes de
recherche à son activité, à ses particularités et ses priorités. Cependant, le traitement du cas
pratique montre que ce type d’analyse s’adapte parfaitement aux données desûreté de
fonctionnement ou de données issues d’une base de retour d’expérience. La simplicité des
résultats peut toutefois être trompeuse. En effet, un certain nombre d’étapes sont nécessaires
IM
avant l’obtention d’un résultat valide. Les données peuvent nécessiter des transformations
intermédiaires pour les rendre exploitables et dévoiler leur véritable richesse.
Sous le couvert d’une simplicité parfois trompeuse, le data mining nécessite un certain recul
dans son interprétation et une certaine prudence. Il est important de garder à l’esprit que le
data mining, tout comme les statistiques, constituent une réalité déformée ou simplifiée afin
d’être rendue exploitable et apporter de la connaissance.
Le data mining apporte de la connaissance et de précieuses informations sur le système de
production de l’entreprise. Sa force réside essentiellement dans la quantité de données
exploitables par les différentes méthodes et l’originalité de ses résultats.
Ces techniques sont actuellement essentiellement utilisées dans le domaine du marketing mais
vont faire l’objet d’un développement dans d’autres secteurs générateurs d’une grande
quantité de données qui souvent restent inexploitées.
Le data mining bien que peu utilisé dans le domaine de la sûreté de fonctionnement est
également capable de répondre aux problématiques de ce domaine particulier comme nous
l’avons constaté lors du traitement du cas pratique. Toutefois, pour le data mining comme
pour toute analyse statistique, il est important de cerner sa problématique, de connaître les
données à disposition et d’analyser les résultats avec un certain recul.
Page 105
dR
IM
Page 106
7 REFERENCES BIBLIOGRAPHIQUES
• J.AUPIED, Retour d’expérience appliqué à la sûreté de fonctionnement des matériels en

exploitation, Eyrolles, 1994
• Bishop C. M. (1995) Neural Networks for Pattern Recognition. Clarendon Press, Oxford.
• J.A. BERRY, G. LINOFF, Data Mining – Techniques appliquées au marketing, à la vente

et aux servies clients, InterEditions, 1997
• Bouchet J.-L., Eichenbaum-Voline C. (1996) “ Case-Based Reasoning Techniques
Applied to Operation Experience Feedback in Nuclear Power Plants ”. Advances in Case-
Based Reasoning, Third European worshop, EWCBR-96, Lausanne, Lecture Notes in
Computer Science 1168 pp. 497-511.
dR
BREIMAN, FRIEDMAN, OLSHEN, STONE, Classification And Regression Trees,
Chapman & Hall, 1984
• Cabarbaye A. et Séroi J. (2000) Optimisation dans le domaine de la Sûreté de
Fonctionnement. Actes de  12, Montpellier, pp. 309-318.
• Cazes P., Baumeder S., Bonnefous S. et Pages J.-P. (1977) Codage et analyse de tableaux
logiques ; introduction à la pratique des variables qualitatives. Cahiers du BURO 27.
• G. CELEUX, J.P. NAKACHE, Analyse discriminante sur variables qualitatives,

Polytechnica, 1994
• Chanchevrier N., Pollet Y. et Bregeault L. (1999) – NOEMIE : Méthodologie et outils
pour le retour d’expérience industriel. Actes de QUALITA99
• Chanchevrier N. et Pollet Y. (2000) NOEMIE : un Système d'Information intégré pour le

IM
Retour d’Expérience industrielle. Congrès  12, Montpellier.
• Chen M.-S., Han J. et Yu P. S. (2000) Data Mining : An Overview from Database

Perspective. Rapport technique, Université Simon Fraser, Vancouver.
• Chiarello B., Ageron T. et Perruchet C. (1997) Étude comparative de différentes

techniques d’identification de population à risque. Présentation au club SAS 97
(transparents).
• CHOVINO, Les clés du data mining, , 1997

• DAMPER, Data Mining techniques in speech synthesis, 1998
• Friedman J. H. (1997) Data Mining and Statistics: What’s the Connection ? 29th
Symposium on the Interface, Houston, Texas.
• Gelmi V. (1999) Preventive Maintenance : Using Data Mining Systems. FITCE 99, 38th
European Telecommunication Congress, Networking the Future, Utrecht, pp. 50-54.
• GROTH, Data mining : building competitive advantage, 1997
Page 107
• Heider R. (1996) “ Troubleshooting CFM 56-3 Engines for the Boeing 737 Using CBR
and Data Mining. ” Advances in Case-Based Reasoning, Third European worshop, EWCBR-
96, Lausanne, Lecture Notes in Computer Science 1168 pp. 512-518.
• M. JAMBU, Introduction au Data Mining : à l’usage des décideurs, Eyrolles, 1998

• J.F. JAUDOUIN, Les réseaux de neurones : principes et définitions,
• J.F. JAUDOUIN, Les réseaux neuromimétiques,
• Jianhua F. et Deyi L. (1998) An overview of Data Mining and Knowledge Discovery.
Journal of Computation Science and Technology, 13, 348-368.
• Van Laarhoven P. J. M. (1988) Theoretical and computational aspects of simulated

annealing. CWI Tract 51, Amsterdam.
• Lannoy et al. (1996) Analyse automatique de texte libre. Application au codage et

validation de fiches de retour d’expérience – Actes de 10 - Saint Oralo
•
•
dR
• Lauritzen et Spigelhalter(1988) Local Computations with probabilities on graphical
structures and their application to expert systems (with discussion). Journal of the Royal
Satistical Association B, 50, 157-224.
• Lebart L. et Salem A. (1994) Statistique textuelle. Dunod, Paris.
L. LEBART, A ; MORINEAU, M. PIRON, Statistique exploratoire multidimensionnelle,

DUNOD, 1997
R. LEFEBURE, G. VENTURI, Le Data Mining, Eyrolles, 1998
L. LEBART, A. MORINEAU, M. PION, Statistique exploratoire multidimensionnelle,
Dunod,
• Létourneau S., Famili F., Matwin S. (1999) Data Mining to Predict Aicraft Component
Replacement. IEEE Intelligent Systems 14, 59-66.
IM
• Little R. J. A. et Rubin D. B. (1987) Statistical Analysis with Missing Data. Wiley, New
York.
• Pearl J. (1988) Probabilistic Reasoning in Intelligent Systems : Networks of Plausible

Inference. Morgan and Kaufmann, New York.
• Progiciels du domaine : analyse statistique de données – data mining – traitement

d’enquêtes / CXP.
• Quinlan J. R. (1993) C4.5 : Programs for Machine Learning. Morgan Kaufmann, San
Mateo, Californie.
• Schön, Odeh, Denoeux et Fotooh (2000) Maîtrise des risques dans le domaine de l’eau
potable. Actes de  12, Montpellier, pp. 695-701.
• J.G. TAYLOR, Neural Networks, Alfred Waller, 1995

• M. TENENHAUS, Modèles Statistiques en Gestion, Dunod, 1994
Page 108
• THURAISINGHAM, Data mining : technologies, techniques tools and trends, 1999
• Toscano R., Handi H. et Lyonnet P. (1999) – Détection d’usure par classification neuro-
floue à partir de signatures automatiques de surface. Actes de QUALITA99.
• Van der Vliet J. et Masson A. (2000) Plans d’expériences et sûreté de fonctionnement.

Actes de  12, Montpellier, pp. 259-268.
• Wang X. Z. et McGreavy C. (1997) Data Mining for Safety and Operability Studies in
Process Industries. PADD97, Proceedings of the First International Conference on the
Practical Application of Knowledge Discovery and Data Mining, pp. 271-292.
dR
IM
Page 109
dR ANNEXE A
QUESTIONNAIRE
IM
Annexe A 1
Nom :………………….………………… Prénom :……………………….
Date de rendez-vous :……………………
Société :…………………………………
Direction :……………………………….
Service :…………………………………
dR
Connaissance métier
Quel poste occupez-vous ?……………………………………………………………………
Descriptif métier :……………………………………………………………………………..
…………………………………………………………………………………………………
La politique de maintenance
IM
Quelle est la politique de maintenance pratiquée ?……………………………………………
…………………………………………………………………………………………………
Quel est le champ d’application de la politique de maintenance ?……………………………
…………………………………………………………………………………………………
Quels sont les objectifs poursuivis ?………………………………………………………….
…………………………………………………………………………………………………
Quel est le type de matériel suivi ? est-il réparable ?....………………………………………
………………………………………………………………………………………………….
Quel est le type de défaillance ? ……………………..…………………………………………
………………………………………………………………………………………………….
Dans quelle phase se trouve le matériel (phase de jeunesse,…) ?……………………………..
………………………………………………………………………………………………….
Annexe A 2
Informations sur le matériel ?………………………………………………………………….
………………………………………………………………………………………………….
Est-ce du matériel de sécurité ?…………………………………………………………………
…………………………………………………………………………………………………...
Quel investissement représente le renouvellement du matériel ? ………………………………
…………………………………………………………………………………………………...
Aujourd’hui, comment s’effectue le renouvellement du matériel ou la maintenance du
matériel ? ……………………………………………………………………………………….
…………………………………………………………………………………………………...
dR
Les données et les méthodes utilisées
Les données
Quelle(s) est (sont) la (les) sources de données ?……………………………………………..
………………………………………………………………………………………………….
Quel est le volume de données dont vous disposez ?………………………………………….
………………………………………………………………………………………………….
Quel est l’historique dont vous disposez ?……………………………………………………..
…………………………………………………………………………………………………...
Quelle est la qualité de vos données ?…………………………………………………………..
IM
…………………………………………………………………………………………………...
De quel type de données disposez-vous ?……………………………………………………….
…………………………………………………………………………………………………...
Les méthodes :
Quelles sont les méthodes mises en œuvre ?……………………………………………………
…………………………………………………………………………………………………...
Faîtes-vous appel à l’avis d’expert ?…………………………………………………………….
…………………………………………………………………………………………………...
Quels sont les indicateurs calculés ?…………………………………………………………….
…………………………………………………………………………………………………...
Par qui ?…………………………………………………………………………………………
…………………………………………………………………………………………………...
Annexe A 3
Les attentes relatives au projet
Que voudriez-vous prévoir par rapport aux pratiques actuelles ?……………………………….

…………………………………………………………………………………………………...
Quelles sont vos attentes d’un point de vue métier ?……………………………………………
…………………………………………………………………………………………………...
Pourriez-vous formuler votre problématique en une question synthétique reprenant les critères
que vous voudriez voir pris en compte dans votre analyse ? (variable à expliquer et variables
explicatives)……………………………………………………………………………………..
…………………………………………………………………………………………………...
dR
…………………………………………………………………………………………………...
Commentaires
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
IM
…………………………………………………………………………………………………
………………………………………………………………………………………………….
Annexe A 4
dR ANNEXE B
SYNTHESE DES ENTRETIENS INDIVIDUELS

IM
Annexe B 1
Les entretiens individuels se sont déroulés en suivant le fil conducteur qu’était le
questionnaire (Cf Annexe A). Néanmoins, les interlocuteurs étant issus de domaine d’activité
différents et occupant des postes différents, le questionnaire restait général et ne s’adaptait
pas à certains domaines d’activité. Nous nous en sommes donc écartés afin d’approfondir les
attentes de chacun.
Globalement, les entretiens visaient à :
• Identifier les postes et responsabilités ;
• Connaître les données disponibles dans la perspective de la phase 3 de l’étude qui consiste
à traiter un cas pratique à partir de données fournies par un souscripteur ;
• Obtenir des informations sur la connaissance d’applications existantes en matière
d’analyse de données de sûreté de fonctionnement et de REX par des techniques de data
mining ;
• Cerner les attentes des souscripteurs.
dR
La synthèse de ces entretiens est présentée dans les paragraphes suivants.
1. LES FONCTIONS OCCUPEES PAR LES SOUSCRIPTEURS
Elles sont relativement diverses. Parmi eux, certains réalisent le calcul d’indicateurs pour la
maintenance et la sûreté de fonctionnement qui sont communiqués aux décideurs de la mise
en œuvre et de l’orientation de la politique en matière de sûreté de fonctionnement.
2. LES DONNEES
L’ensemble des entreprises et souscripteurs disposent bien évidemment de données présentant
des caractéristiques différentes selon l’activité.
Ainsi, on peut distinguer trois catégories :
• Des données issues de l’exploitation et du suivi de l’entretien d’un matériel, les données
événementielles et des données de contrôle ;
• Des données issues d’enquêtes effectuées régulièrement auprès de la clientèle et d’essais
IM
en particulier dans le milieu des constructeur et industriel ;
• Des données issues de l’exploitation d’infrastructure.
Ces données peuvent être :
• Qualitatives
• Quantitatives
• Textuelles (champs libres).
Etant donné les entreprises considérées, les volumes de données sont relativement importants
mais ces données ne font pas l’objet d’une exploitation systématique.
1. LES ATTENTES RELATIVES AU PROJET

Les souscripteurs participent au projet dans le cadre d’une veille technologique mais sont
confrontés à des problématiques différentes selon leur activité. De plus, l’état de la
connaissance sur le data mining est différent d’une entreprise à l’autre. Tous ont néanmoins le
souci de valider ou de découvrir ce qui se cache réellement derrière le terme data mining et si
ces techniques sont applicables sur des données issues d’un REX.
Annexe B 2
Le choix de la mise en œuvre d’une politique s’effectue à partir d’indicateurs plus ou moins
complexes selon l’entreprise. L’ensemble des souscripteurs attend néanmoins de savoir si le
data mining peut leur fournir des critères ou indicateurs identiques ou différents leur
permettant de décider d’une politique correspondant à leur problématique. Il s’agit d’identifier
les apports potentiels du data mining, en particulier dans l’estimation des indicateurs
statistiques tels que des indicateurs de dangerosité ou de criticité.
Les données issues d’un REX présentent fréquemment la caractéristique de champs libres. En
effet, pour le suivi d’un matériel, des renseignements sont saisis à l’aide de codes prédéfinis
mais également de champs libres où les individus peuvent décrire leur intervention et leur
expertise. L’exploitation de ces champs libres constitue également une problématique. La data
mining permet-il d’exploiter les données textuelles contenues dans des champs libres ? Cette
dernière question relève cependant plus du text mining que du data mining à proprement
parler. Les attentes sont relativement concrètes. Par exemple, certains attendent de savoir,
d’un point de vue objectif, si le data mining permet concrètement de pallier aux limites liées à
l’AMDEC, de fournir une aide au diagnostic, en particulier en phase de développement.
dR
D’une façon plus générale, les souscripteurs attendent de l’étude qu’elle leur présente les
applications potentielles sur des données issues d’une base de données de retour d’expérience.
Actuellement, les bases de REX sont peu voire pas exploitées. Le data mining permet-il leur
exploitation en vue de déterminer la fiabilité d’un matériel ?
L’aspect applicatif de cette méthode est primordial. Les souscripteurs attendent des solutions
ou propositions pouvant être rapidement mise en œuvre. Il s’agit donc avant tout de cerner
objectivement les apports potentiels du data mining en matière de sûreté de fonctionnement et
d’analyse de données de REX. Néanmoins, les données, l’activité et les intérêts et donc les
problématiques de chacun étant différents, les méthodes envisageables seront alors également
différentes.
L’aspect sur les possibilités d’application des méthodes de data mining sur une base de retour
d’expérience – sûreté de fonctionnement - sera particulièrement traitée dans la troisième
phase de l’étude et complétée par un exemple basé sur un jeu de données fourni par les
souscripteurs.
IM
2. LES REFERENCES CITEES PAR LES SOUSCRIPTEURS
Les réseaux de neurones sont utilisés d’une façon régulière dans les entreprises industrielles,
en particulier, pour la commande de système.
Pour les autres techniques, elles n’ont jamais ou peu été mises en œuvre par les souscripteurs
du moins dans le domaine de la sûreté de fonctionnement. Certaines entreprises se sont déjà
intéressées à ce type de techniques d’analyse mais essentiellement dans le domaine
d’application le plus courant qu’est le marketing.
Des références ont également été citées, en particulier :
• le club SAS : une application par l’UTAC pour le contrôle des véhicules ;
• General Motors : étude data mining pour l’analyse des retours garantie – détection des
dérives.
Ces références ont été complétées dans une analyse bibliographiques présentée dans le
paragraphe suivant.
Annexe B 3
Les postes • Chercheur
• Responsable REX
• Direction Informatique
• Pôle Sûreté de fonctionnement
• Maîtrise des risques
La • Préventive
maintenance
• Corrective
Les Analyse statistique ACP, ….

techniques multidimensionnelle
dR
statistiques
Techniques de prévision
Modèles probabilistes
Indicateur de fiabilité
•
•
•
•
•
•
•
Modèles linéaires généralisés,
régression linéaire,
régression logistique
Modèle bayesien,
Modèle de Weibull,
Méthode de Monte-Carlo
, ,
• MTBF,
• MTTF
Statistiques descriptives et indicateurs • Fréquence,
IM
• moyenne,
• indicateur synthétique
Contrôle et maîtrise des processus
Autres • Réseau de neurones,
• technique de lissage par noyaux
Annexe B 4
Données Nature • Quantitatives
• Qualitatives
Sources • Exploitation,
• enquête,
• essais,
• maintenance
Le matériel Matériel de sécurité et composants
suivi sensible
Matériel roulant (train, bus, Incidents les + fréquents : fermeture des
voitures…) portes
dR
Les attentes
Matériel de production
Veille technologique
Confirmer l’existant
Aller plus loin que les études

actuelles
Incidents les moins fréquents : les freins.
• Fournir les indicateurs actuels

• Valider les indicateurs et objectifs
établis
• Déterminer des indcateurs
• Etablir des relations entre des
variables
• Exploiter des champs libres
• Etablir des règles et des poids sur les
éléments caractérisant un process.
IM
• Etablir des règles mettant en évidence
des indicateurs permettant le diagnostic.
• Le data mining et les données

temporelles
• Le data mining peut-il être un
outil d’aide à la décision pour la mise
en œuvre d’un plan de maintenance
Remise en cause des pratiques Utilité de traiter et donc de saisir tous les
actuelles incidents ==> remise en cause du mode de
recueil de l’information.
Remarque : la maintenance n’est pas nécessairement assurée par l’entreprise productrice du bien ou
du service
Contexte et problématique :
Annexe B 5
• Recherche –développement : conception de prototypes et de nouveaux produits en
améliorant leur fiabilité, en particulier, la fiabilité des éléments de sécurité.
• Exploitation : détecter les signes précurseurs de défaillance et définir des bornes et
indicateurs afin d’anticiper sur le renouvellement
• aide au choix de mise en œuvre d’un plan de maintenance
• Validation : établir des indicateurs d’objectifs en pondérant les causes des incidents et en
tenant compte du coût associé aux incidents – les valider par rapport aux indicateurs existants.
• Prévision : établir des règles afin de fournir des signes précurseurs de défaillance
dR
IM
Annexe B 6
dR
ANNEXE C
L’ENTROPIE
IM
Annexe C 1
L’entropie d’un phénomène X s’apprécie par la formule suivante :
H ( X ) = − P( X ) log P( X )
avec P(X) qui présente la proportion des occurrences de X.
Cette entropie peut être appréciée comme une mesure d’incertitude a priori. L’information
mutuelle entre deux variables X et Y peut se mesurer au moyen du facteur de dépendance, de
la façon suivante :
dR I(X /Y) =
 P( X / Y ) log P( X / Y )
P( X )  P(Y )
L’information mutuelle entre X et Y représente l’information apportée sur X par la

connaissance de Y (et réciproquement) ; Cette expression peut être calculée au moyen des
facteurs d’entropie par l’expression suivante :
I(X /Y ) = H (X ) − H(X /Y )
L’information mutuelle exprime la réduction d’incertitude de l’événement X sachant Y. La

connaissance de Y ne nous apporte aucune information sur X. Cette mesure est positive
IM
lorsque les distributions de X et Y sont différentes, et est égale à zéro lorsqu’elles sont
identiques.
Annexe C 2
dR ANNEXE D :
QUELQUES APPLICATIONS DU DATA MINING

IM
Annexe D 1
La BBC : prévision de l’audience des programmes T.V ;
Dans le paysage très concurrentiel de l’audiovisuel, les spécialistes de la B.B.C élaborant les
grilles de programmes doivent pouvoir estimer l’audience probable d’unprogramme et
déterminer la case horaire qui lui convient le mieux.
Par la mise en œuvre de techniques de data mining, il a été possible d’estimer des modèles
permettant l’estimation de l’audience. Les facteurs qui influent sur la part de marché d’un
programme ne sont pas uniquement les caractéristiques du programme lui-même mais aussi
celles des programmes concurrents, précédent et suivants.
Les modèles obtenus estiment les parts de marché avec une erreur moyenne d’environ 4
points.
dR
Halfords : choix des sites d’implantation des points de vente
Pour mener à bien un programme de développement, Halfords, magasin de pièces détachées

auto-moto, recherchait de nouveaux sites pour implanter ses magasins ? De nombreux
facteurs interviennent dans le succès d’un point de vente : la gestion du magasin, la
concurrence, sa zone de chalandise, etc. Il est donc nécessaire de disposer d’une connaissance
quantitative de l’effet de ces différents facteurs sur les ventes pour construire un modèle de
prévision du chiffre d’affaires avec suffisamment de précision, et ceci d’autant plus que l’on
cherche à effectuer cette prévision pour des magasins qui n’existent pas encore…
La modélisation s’est effectuée à partir de 150 magasins choisis au hasard et de l’historique
des ventes sur deux années consécutives ainsi que sur un questionnaire clientèle d’évaluation
de la qualité des points de vente et des informations démographiques sur les zones de
chalandise.
IM
Le modèle développé pour prédire le chiffre d’affaires fut testé sur les magasins existants et
donna de bons résultats, jugés meilleurs que ceux obtenus par un modèle de régression.
Reuters : Analyse de flux de données financières en temps réel
Reuters est fournisseur de flux de données financières comme le taux de change, les cours de
la Bourse, etc. Le groupe “ Qualité des données ” a testé les techniques de data mining sur le
problème de la détection des erreurs dans le flux de taux de change.
L’approche choisie fut d’élaborer des modèles prédisant approximativement la valeur des taux
à partir d’un relevé de leurs récentes évolutions. Les nouvelles données qui devient de façon
importante de la prédiction réalisée par le modèle sont considérées comme erronées.
Le système de modélisation mis en place combinait les réseaux de neurones et un ensemble de
règles générées automatiquement. Cette approche leur a permis de détecter des erreurs que les
méthodes traditionnelles étaient incapables de détecter.
Annexe D 2
dR ANNEXE E :
FICHE DESCRIPTIVE D’UN REX

IM
Annexe E 1
Caractéristiques
générales
Constructeur
ces données peuvent
n° du modèle
être mises dans une
n° de série fiche spéciale.
Date de fabrication
Date de mise en service
Date de début de collecte
Date de retrait
d’exploitation du matériel
Date de mise à jour de la
fiche
Identification
Code usine
pour distinguer les
Code système matériels d’une même
Type du composant : par famille
famille.
n° d’ordre
dR
Circonstances de la
défaillance
Situation du matériel lors
de la défaillance ou de la
découverte de la
défaillance
Service normal
Test
Maintenance
Etat du matériel
Fonctionnement
Sollicitation
Arrêt
Il est important de décrire la
configuration du système et de
son environnement avant
l’apparition de la défaillance.
Situation du système
en charge nominale (% de la charge
en charge réduite nominale)
IM
à l’arrêt circuit conditionné
à l’arrêt pour maintenance
en Test spécifiques à chaque
type de système, par
Conditions physiques du exemple
système
pression
débit
température
Annexe E 2
Conditions extérieures du
système
température ambiante
hygrométrie
taux de pollution
Description de la Date et heure de la

défaillance découverte de la
défaillance
Découverte de l’anomalie
Début de la défaillance La date et l’heure
peuvent coïncider avec
Degré de la défaillance celle de la découverte
Défaillance partielle
Défaillance progressive
Le matériel n’assure
Le matériel est que partiellement sa
Apparition de la indisponible fonction
défaillance
Défaillance soudaine
dR
Défaillance progressive
Mode de défaillance
Composant interne affecté
Cause de défaillance
Durée de réparation
Durée de main d’œuvre
cumulée
Durée d’indisponibilité
Résumé de la défaillance
Qui aurait pu être
découverte par un
examen antérieur
Rapidité de l’évolution de
la défaillance
Qui n’aurait pu être découverte par

un examen antérieur
En temps réel passé

pour l’expertise, la
réparation
Durée qui sépare le début de la

défaillance de la fin de la
défaillance
Texte libre
On peut aussi ajouter le nom du

IM
rédacteur et du vérificateur, pour
demander des renseignements
complémentaires.
Annexe E 3
dR ANNEXE F :
LES REGLES DE L’ARBRE DE DECISION

IM
Annexe G 1
IF AMPLINIT EQUALS [0-250]
THEN
NODE : 2
N : 14662
MOYEN : 14.1%
FORT : 0.6%
FAIBLE : 85.3%
IF AMPLINIT IS ONE OF: [1250-1500] [1500-1750] [1750-2000]

THEN
NODE : 4
N : 900
MOYEN : 19.2%
FORT : 58.9%
FAIBLE : 21.9%
IF HMARCHE EQUALS B
dR
THEN
NODE
N
MOYEN
FORT
NODE
N
MOYEN
FORT
:
:
:
:
FAIBLE :
:
:
:
:
12
121
26.4%
70.2%
3.3%
IF HMARCHE EQUALS C
THEN
13
490
27.3%
18.6%
FAIBLE : 54.1%
IF HMARCHE EQUALS D
IM
THEN
NODE : 14
N : 525
MOYEN : 32.4%
FORT : 39.8%
FAIBLE : 27.8%
IF HMARCHE EQUALS E
THEN
NODE : 15
N : 66
MOYEN : 33.3%
FORT : 25.8%
FAIBLE : 40.9%
IF FAB EQUALS A
THEN
NODE : 21
N : 246
MOYEN : 21.5%
FORT : 5.3%
FAIBLE : 73.2%
Annexe G 2
IF FAB EQUALS B
THEN
NODE : 22
N : 443
MOYEN : 40.4%
FORT : 4.7%
FAIBLE : 54.9%
IF FAB EQUALS C
THEN
NODE : 23
N : 1330
MOYEN : 35.0%
FORT : 15.4%
FAIBLE : 49.6%
dR
IF FAB EQUALS A
THEN
NODE
N
MOYEN
FORT
:
:
:
:
FAIBLE :
IF FAB EQUALS B
N
MOYEN
:
:
:
24
1169
17.3%
1.7%
81.0%

THEN
NODE 25
2038
28.3%
FORT : 1.7%
FAIBLE : 70.0%
IF FAB EQUALS C
IM
THEN
NODE : 26
N : 3968
MOYEN : 30.1%
FORT : 5.5%
FAIBLE : 64.4%
IF HMARCHE EQUALS D
THEN
NODE : 30
N : 11482
MOYEN : 18.4%
FORT : 1.1%
FAIBLE : 80.5%
IF HMARCHE EQUALS E
THEN
NODE : 31
N : 2181
MOYEN : 27.0%
Annexe G 3
FORT : 0.9%
FAIBLE : 72.1%
IF HMARCHE EQUALS B
AND FAB IS ONE OF: ?? D
THEN
NODE : 52
N : 204
MOYEN : 16.2%
FORT : 76.0%
FAIBLE : 7.8%
IF HMARCHE EQUALS C
THEN
NODE : 53
N : 314
dRMOYEN
FORT
N
MOYEN
FORT
:
:
FAIBLE :
:
:
:
:
FAIBLE :
34.1%
17.8%
48.1%
IF HMARCHE EQUALS D
THEN
NODE 54
697
37.9%
25.7%
36.4%
IF HMARCHE EQUALS E
THEN
NODE : 55
IM
N : 41
MOYEN : 46.3%
FORT : 19.5%
FAIBLE : 34.1%
IF HMARCHE EQUALS B
AND FAB EQUALS D
THEN
NODE : 80
N : 600
MOYEN : 32.3%
FORT : 52.3%
FAIBLE : 15.3%
IF HMARCHE EQUALS C
AND FAB EQUALS D
THEN
NODE : 81
N : 1064
MOYEN : 32.5%
FORT : 6.1%
Annexe G 4
FAIBLE : 61.4%
IF HMARCHE EQUALS D
AND FAB EQUALS D
THEN
NODE : 82
N : 2395
MOYEN : 34.6%
FORT : 9.7%
FAIBLE : 55.7%
IF HMARCHE EQUALS E
AND FAB EQUALS D
THEN
NODE : 83
N : 280
MOYEN : 37.5%
dRFORT
N
MOYEN
FORT
:
FAIBLE :
IF FONCT1 EQUALS 2
:
:
:
FAIBLE :
5.4%
57.1%
AND HMARCHE EQUALS B

THEN
NODE : 84
1090
15.4%
1.9%
82.7%
IF FONCT1 EQUALS 3
THEN
NODE : 85
N : 1376
IM
MOYEN : 50.9%
FORT : 20.2%
FAIBLE : 28.9%
IF FONCT1 IS ONE OF: 4 5 6 7

THEN
NODE : 86
N : 172
MOYEN : 43.0%
FORT : 7.6%
FAIBLE : 49.4%
IF FONCT4 < 1.5

AND HMARCHE EQUALS C
THEN
NODE : 87
N : 3918
MOYEN : 15.1%
FORT : 0.4%
FAIBLE : 84.6%
Annexe G 5
IF 1.5 <= FONCT4 < 2.5
THEN
NODE : 88
N : 2027
MOYEN : 7.2%
FORT : 0.3%
FAIBLE : 92.6%
IF 2.5 <= FONCT4 < 5.5

THEN
NODE : 89
N : 2423
MOYEN : 21.2%
FORT : 0.7%
IF
IF
dRFAIBLE :
MOYEN
FORT
FAIBLE :
:
:
78.1%
5.5 <= FONCT4 <

THEN
NODE
N
:
:
90
416
38.2%
1.4%
60.3%
7.5 <= FONCT4 <

7.5
12.5
THEN
NODE : 91
N : 1293
MOYEN : 17.8%
IM
FORT : 0.6%
FAIBLE : 81.6%
IF 12.5 <= FONCT4

THEN
NODE : 92
N : 361
MOYEN : 57.9%
FORT : 4.4%
FAIBLE : 37.7%
Annexe G 6
dR ANNEXE G :
LES RESULTATS DES RESEAUX DE NEURONES

IM
Annexe G 1
DROP _FATAL_ _EPS _NOCL_ _MAX_ _MAXP_ _SUM_ _NTRIALS;
_FATAL_ = 0;
_NOCL_ = .;
_MAX_ = .;
_MAXP_ = .;
_SUM_ = .;
_NTRIALS = .;
_EPS = 1E-10;
DROP F_AMPLIN;
DROP AMPL_0_2 AMPL_100 AMPL_125 AMPL_150
AMPL_175 AMPL_250 AMPL_500
AMPL_750 ;
DROP F_FAB;
DROP FAB__ FABA FABB FABC
FABD ;
DROP F_FONCT5;
DROP FONCT51 FONCT52 ;
DROP F_HMARCH;
DROP HMARCHEB HMARCHEC HMARCHED HMARCHEE
;
dR
DROP F_PLAQUE;
DROP PLAQUEE1 PLAQUEE2 PLAQUEE3 PLAQUEE4
PLAQUEE5 PLAQUEE6 PLAQUEE7
PLAQUEE8 ;
DROP F_SITU2;
DROP SITU2A SITU2B ;
DROP F_TPSFCT;
DROP TPSF_110 TPSF_130 TPSF_900 ;
DROP F_FONCT1;
DROP FONCT12 FONCT13 FONCT14 FONCT15
FONCT16 FONCT17 ;
DROP F_FONCT6;
DROP FONCT61 FONCT62 FONCT63 ;
DROP F_FONCT7;
DROP FONCT71 FONCT72 FONCT73 FONCT74
FONCT76 ;
DROP F_POSITI;
DROP POSITIO1 POSITIO2 POSITIO3 POSITIO4
IM
;
DROP F_TYPE;
DROP TYPEA TYPEM ;
DROP EVOMOY EVOFOR EVOFAI ;
LENGTH _WARN_ $4
F_AMPLIN $ 11
F_FAB $ 2
F_FONCT5 $ 12
F_HMARCH $ 1
F_PLAQUE $ 8
F_SITU2 $ 7
F_TPSFCT $ 15
F_FONCT1 $ 12
F_FONCT6 $ 12
F_FONCT7 $ 12
F_POSITI $ 12
F_TYPE $ 6
F_EVOLCH $ 6
I_EVOLCH $ 6
;
LABEL
AMPL_0_2 = "AMPL_0_250_"
AMPL_100 = "AMPL_1000_1250_"
Annexe G 2
AMPL_125 = "AMPL_1250_1500_"
AMPL_150 = "AMPL_1500_1750_"
AMPL_175 = "AMPL_1750_2000_"
AMPL_250 = "AMPL_250_500_"
AMPL_500 = "AMPL_500_750_"
FAB__ = "FAB__"
FABA = "FABA"
FABB = "FABB"
FABC = "FABC"
FONCT51 = "FONCT51"
HMARCHEB = "HMARCHEB"
HMARCHEC = "HMARCHEC"
HMARCHED = "HMARCHED"
PLAQUEE1 = "PLAQUEE1"
dR PLAQUEE7 = "PLAQUEE7"
SITU2A = "SITU2A"
TPSF_110 = "TPSF_110000_130000_"
TPSF_130 = "TPSF_130000_150000_"
FONCT12 = "FONCT12"
FONCT13 = "FONCT13"
FONCT14 = "FONCT14"
FONCT15 = "FONCT15"
FONCT16 = "FONCT16"
FONCT61 = "FONCT61"
FONCT62 = "FONCT62"
FONCT71 = "FONCT71"
FONCT72 = "FONCT72"
FONCT73 = "FONCT73"
FONCT74 = "FONCT74"
POSITIO1 = "POSITIO1"
TYPEA = "TYPEA"
IM
S_FONCT4 = "Standard: FONCT4"
H11 = "Hidden: H11"
H12 = "Hidden: H12"
H13 = "Hidden: H13"
I_EVOLCH = "Into: EVOLCHR"
F_EVOLCH = "From: EVOLCHR"
P_EVOMOY = "Predicted: EVOLCHR=MOYEN"
R_EVOMOY = "Residual: EVOLCHR=MOYEN"
P_EVOFOR = "Predicted: EVOLCHR=FORT"
R_EVOFOR = "Residual: EVOLCHR=FORT"
P_EVOFAI = "Predicted: EVOLCHR=FAIBLE"
R_EVOFAI = "Residual: EVOLCHR=FAIBLE"
_WARN_ = "Warnings";
*** *************************;
*** Setting the class variable AMPLINIT;
*** *************************;
F_AMPLIN = PUT( AMPLINIT, $11. );
*** *************************;
*** Normalizing F_AMPLIN;
*** *************************;
%DMNORMIP( F_AMPLIN );
IF F_AMPLIN = '. ' THEN DO;
Annexe G 3
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
AMPL_0_2 = .;
AMPL_100 = .;
AMPL_125 = .;
AMPL_150 = .;
AMPL_175 = .;
AMPL_250 = .;
AMPL_500 = .;
AMPL_750 = .;
END;
ELSE IF F_AMPLIN = '[0-250] ' THEN DO;
AMPL_0_2 = 1;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 0;
dR
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1000-1250]'
AMPL_0_2 = 0;
AMPL_100 = 1;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1250-1500]'
AMPL_0_2 = 0;
AMPL_100 = 0;
THEN DO;
THEN DO;
AMPL_125 = 1;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
IM
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1500-1750]' THEN DO;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 1;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1750-2000]' THEN DO;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 1;
AMPL_250 = 0;
AMPL_500 = 0;
AMPL_750 = 0;
END;
Annexe G 4
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 1;
AMPL_500 = 0;
AMPL_750 = 0;
END;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 1;
AMPL_750 = 0;
dR
END;
AMPL_0_2 = -1;
AMPL_100 = -1;
AMPL_125 = -1;
AMPL_150 = -1;
AMPL_175 = -1;
AMPL_250 = -1;
AMPL_500 = -1;
AMPL_750 = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
AMPL_0_2 = .;
AMPL_100 = .;
AMPL_125 = .;
AMPL_150 = .;
AMPL_175 = .;
IM
AMPL_250 = .;
AMPL_500 = .;
AMPL_750 = .;
END;
*** *************************;
*** Setting the class variable FAB;
*** *************************;
F_FAB = PUT( FAB, $2. );
*** *************************;
*** Normalizing F_FAB;
*** *************************;
%DMNORMIP( F_FAB );
IF F_FAB = '. ' THEN DO;
_FATAL_ = 1;
FAB__ = .;
FABA = .;
FABB = .;
FABC = .;
FABD = .;
END;
Annexe G 5
ELSE IF F_FAB = '??' THEN DO;
FAB__ = 1;
FABA = 0;
FABB = 0;
FABC = 0;
FABD = 0;
END;
ELSE IF F_FAB = 'A ' THEN DO;
FAB__ = 0;
FABA = 1;
FABB = 0;
FABC = 0;
FABD = 0;
END;
ELSE IF F_FAB = 'B ' THEN DO;
FAB__ = 0;
FABA = 0;
FABB = 1;
FABC = 0;
dR
FABD = 0;
END;
ELSE IF F_FAB = 'C '
FAB__ = 0;
FABA = 0;
FABB = 0;
FABC = 1;
FABD = 0;
END;
ELSE IF F_FAB = 'D '
FAB__ = -1;
FABA = -1;
FABB = -1;
FABC = -1;
FABD = -1;
THEN DO;
THEN DO;
END;
ELSE DO;
_FATAL_ = 1;
IM
FAB__ = .;
FABA = .;
FABB = .;
FABC = .;
FABD = .;
END;
*** *************************;
*** Setting the class variable FONCT5;
*** *************************;
F_FONCT5 = PUT( FONCT5, BEST12. );
*** *************************;
*** Normalizing F_FONCT5;
*** *************************;
%DMNORMIP( F_FONCT5 );
IF F_FONCT5 = '. ' THEN DO;
_FATAL_ = 1;
FONCT51 = .;
FONCT52 = .;
END;
ELSE IF F_FONCT5 = '1 ' THEN DO;
Annexe G 6
FONCT51 = 1;
FONCT52 = 0;
END;
FONCT51 = -1;
FONCT52 = -1;
END;
ELSE DO;
_FATAL_ = 1;
FONCT51 = .;
FONCT52 = .;
END;
*** *************************;
*** Setting the class variable HMARCHE;
*** *************************;
F_HMARCH = PUT( HMARCHE, $1. );
dR
*** *************************;
*** Normalizing F_HMARCH;
*** *************************;
%DMNORMIP( F_HMARCH );
IF F_HMARCH = '.' THEN DO;
_FATAL_ = 1;
HMARCHEB = .;
HMARCHEC = .;
HMARCHED = .;
HMARCHEE = .;
END;
ELSE IF F_HMARCH = 'B' THEN DO;
HMARCHEB = 1;
HMARCHEC = 0;
HMARCHED = 0;
HMARCHEE = 0;
END;
ELSE IF F_HMARCH = 'C' THEN DO;
IM
HMARCHEB = 0;
HMARCHEC = 1;
HMARCHED = 0;
HMARCHEE = 0;
END;
ELSE IF F_HMARCH = 'D' THEN DO;
HMARCHEB = 0;
HMARCHEC = 0;
HMARCHED = 1;
HMARCHEE = 0;
END;
ELSE IF F_HMARCH = 'E' THEN DO;
HMARCHEB = -1;
HMARCHEC = -1;
HMARCHED = -1;
HMARCHEE = -1;
END;
ELSE DO;
_FATAL_ = 1;
HMARCHEB = .;
HMARCHEC = .;
HMARCHED = .;
Annexe G 7
HMARCHEE = .;
END;
*** *************************;
*** Setting the class variable PLAQUE;
*** *************************;
F_PLAQUE = PUT( PLAQUE, $8. );
*** *************************;
*** Normalizing F_PLAQUE;
*** *************************;
%DMNORMIP( F_PLAQUE );
IF F_PLAQUE = '. ' THEN DO;
_FATAL_ = 1;
PLAQUEE1 = .;
PLAQUEE2 = .;
PLAQUEE3 = .;
PLAQUEE4 = .;
dR
PLAQUEE5 = .;
PLAQUEE6 = .;
PLAQUEE7 = .;
PLAQUEE8 = .;
END;
ELSE IF F_PLAQUE = 'E1
PLAQUEE1 = 1;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
' THEN DO;
ELSE IF F_PLAQUE = 'E2 ' THEN DO;

PLAQUEE1 = 0;
PLAQUEE2 = 1;
PLAQUEE3 = 0;
IM
PLAQUEE4 = 0;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 1;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 1;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
Annexe G 8
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 1;
PLAQUEE6 = 0;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
dR
PLAQUEE6 = 1;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
PLAQUEE7 = 1;
PLAQUEE8 = 0;
END;
' THEN
' THEN
DO;
DO;
PLAQUEE1 = -1;
PLAQUEE2 = -1;
PLAQUEE3 = -1;
PLAQUEE4 = -1;
IM
PLAQUEE5 = -1;
PLAQUEE6 = -1;
PLAQUEE7 = -1;
PLAQUEE8 = -1;
END;
ELSE DO;
_FATAL_ = 1;
PLAQUEE1 = .;
PLAQUEE2 = .;
PLAQUEE3 = .;
PLAQUEE4 = .;
PLAQUEE5 = .;
PLAQUEE6 = .;
PLAQUEE7 = .;
PLAQUEE8 = .;
END;
*** *************************;
*** Setting the class variable SITU2;
*** *************************;
F_SITU2 = PUT( SITU2, $7. );
Annexe G 9
*** *************************;
*** Normalizing F_SITU2;
*** *************************;
%DMNORMIP( F_SITU2 );
IF F_SITU2 = '. ' THEN DO;
_FATAL_ = 1;
SITU2A = .;
SITU2B = .;
END;
ELSE IF F_SITU2 = 'A ' THEN DO;
SITU2A = 1;
SITU2B = 0;
END;
ELSE IF F_SITU2 = 'B ' THEN DO;
SITU2A = -1;
SITU2B = -1;
END;
ELSE DO;
dR
_FATAL_ = 1;
SITU2A = .;
SITU2B = .;
END;
*** *************************;
*** Setting the class variable TPSFCT;
*** *************************;
F_TPSFCT = PUT( TPSFCT, $15. );
*** *************************;
*** Normalizing F_TPSFCT;
*** *************************;
%DMNORMIP( F_TPSFCT );
IF F_TPSFCT = '. ' THEN DO;
_FATAL_ = 1;
TPSF_110 = .;
IM
TPSF_130 = .;
TPSF_900 = .;
END;
ELSE IF F_TPSFCT = '[110000-130000]' THEN DO;
TPSF_110 = 1;
TPSF_130 = 0;
TPSF_900 = 0;
END;
ELSE IF F_TPSFCT = '[130000-150000]' THEN DO;
TPSF_110 = 0;
TPSF_130 = 1;
TPSF_900 = 0;
END;
ELSE IF F_TPSFCT = '[90000-110000] ' THEN DO;
TPSF_110 = -1;
TPSF_130 = -1;
TPSF_900 = -1;
END;
ELSE DO;
_FATAL_ = 1;
TPSF_110 = .;
TPSF_130 = .;
Annexe G 10
TPSF_900 = .;
END;
*** *************************;
*** *************************;
*** *************************;
*** *************************;
_FATAL_ = 1;
FONCT12 = .;
FONCT13 = .;
FONCT14 = .;
FONCT15 = .;
dR
FONCT16 = .;
FONCT17 = .;
END;
ELSE IF F_FONCT1 = '2
FONCT12 = -0.507092553;
FONCT13 = -0.507092553;
FONCT14 = -0.507092553;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
FONCT12 = 0.5070925528;
FONCT13 = -0.507092553;
FONCT14 = -0.507092553;
' THEN
' THEN
DO;
DO;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
IM
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = -0.507092553;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = 0.5070925528;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = 0.5070925528;
FONCT15 = 0.5070925528;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
Annexe G 11
END;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = 0.5070925528;
FONCT15 = 0.5070925528;
FONCT16 = 0.5070925528;
FONCT17 = -0.507092553;
END;
ELSE DO;
_FATAL_ = 1;
FONCT12 = .;
FONCT13 = .;
FONCT14 = .;
FONCT15 = .;
FONCT16 = .;
FONCT17 = .;
END;
dR
*** *************************;
*** *************************;
*** *************************;
*** *************************;
_FATAL_ = 1;
FONCT61 = .;
FONCT62 = .;
FONCT63 = .;
END;
FONCT61 = -0.75;
IM
FONCT62 = -0.75;
FONCT63 = -0.75;
END;
FONCT61 = 0.75;
FONCT62 = -0.75;
FONCT63 = -0.75;
END;
FONCT61 = 0.75;
FONCT62 = 0.75;
FONCT63 = -0.75;
END;
ELSE DO;
_FATAL_ = 1;
FONCT61 = .;
FONCT62 = .;
FONCT63 = .;
END;
*** *************************;
Annexe G 12
*** *************************;
*** *************************;
*** *************************;
_FATAL_ = 1;
FONCT71 = .;
FONCT72 = .;
FONCT73 = .;
FONCT74 = .;
FONCT76 = .;
END;
FONCT71 = -0.559016994;
FONCT72 = -0.559016994;
dR
FONCT73 = -0.559016994;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
FONCT71 = 0.5590169944;
FONCT72 = -0.559016994;
FONCT73 = -0.559016994;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
FONCT71 = 0.5590169944;
FONCT72 = 0.5590169944;
FONCT73 = -0.559016994;
' THEN
' THEN
DO;
DO;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
IM
FONCT71 = 0.5590169944;
FONCT72 = 0.5590169944;
FONCT73 = 0.5590169944;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
FONCT71 = 0.5590169944;
FONCT72 = 0.5590169944;
FONCT73 = 0.5590169944;
FONCT74 = 0.5590169944;
FONCT76 = -0.559016994;
END;
ELSE DO;
_FATAL_ = 1;
FONCT71 = .;
FONCT72 = .;
FONCT73 = .;
FONCT74 = .;
FONCT76 = .;
END;
Annexe G 13
*** *************************;
*** Setting the class variable POSITION;
*** *************************;
F_POSITI = PUT( POSITION, BEST12. );
*** *************************;
*** Normalizing F_POSITI;
*** *************************;
%DMNORMIP( F_POSITI );
IF F_POSITI = '. ' THEN DO;
_FATAL_ = 1;
POSITIO1 = .;
POSITIO2 = .;
POSITIO3 = .;
POSITIO4 = .;
END;
ELSE IF F_POSITI = '1 ' THEN DO;
POSITIO1 = -0.632455532;
dR
POSITIO2 = -0.632455532;
POSITIO3 = -0.632455532;
POSITIO4 = -0.632455532;
END;
ELSE IF F_POSITI = '2
POSITIO1 = 0.632455532;
POSITIO2 = -0.632455532;
POSITIO3 = -0.632455532;
POSITIO4 = -0.632455532;
END;
ELSE IF F_POSITI = '3
POSITIO1 = 0.632455532;
POSITIO2 = 0.632455532;
POSITIO3 = -0.632455532;
POSITIO4 = -0.632455532;
' THEN DO;
' THEN DO;
END;
ELSE IF F_POSITI = '4 ' THEN DO;
POSITIO1 = 0.632455532;
POSITIO2 = 0.632455532;
IM
POSITIO3 = 0.632455532;
POSITIO4 = -0.632455532;
END;
ELSE DO;
_FATAL_ = 1;
POSITIO1 = .;
POSITIO2 = .;
POSITIO3 = .;
POSITIO4 = .;
END;
*** *************************;
*** Setting the class variable TYPE;
*** *************************;
F_TYPE = PUT( TYPE, $6. );
*** *************************;
*** Normalizing F_TYPE;
*** *************************;
%DMNORMIP( F_TYPE );
IF F_TYPE = '. ' THEN DO;
Annexe G 14
_FATAL_ = 1;
TYPEA = .;
TYPEM = .;
END;
ELSE IF F_TYPE = 'A ' THEN DO;
TYPEA = 1;
TYPEM = 0;
END;
ELSE IF F_TYPE = 'M ' THEN DO;
TYPEA = -1;
TYPEM = -1;
END;
ELSE DO;
_FATAL_ = 1;
TYPEA = .;
TYPEM = .;
END;
dR
*** *************************;
*** Checking missing input Interval
*** *************************;
IF NMISS(
FONCT4 ) THEN DO;
_FATAL_ = 1;
END;
*** *************************;
*** Writing the Node AMPLINIT;
*** *************************;
*** *************************;
*** Writing the Node FAB;
*** *************************;
*** *************************;
*** Writing the Node FONCT5;
IM
*** *************************;
*** *************************;
*** Writing the Node HMARCHE;
*** *************************;
*** *************************;
*** Writing the Node PLAQUE;
*** *************************;
*** *************************;
*** Writing the Node SITU2;
*** *************************;
*** *************************;
*** Writing the Node TPSFCT;
*** *************************;
*** *************************;
*** *************************;
*** *************************;
*** *************************;
*** *************************;
*** *************************;
*** *************************;
Annexe G 15
*** Writing the Node POSITION;
*** *************************;
*** *************************;
*** Writing the Node TYPE;
*** *************************;
*** *************************;
*** *************************;
IF _FATAL_ EQ 0 THEN DO;
S_FONCT4 = -0.968584655 + 0.2631601019 * FONCT4;
END;
ELSE DO;
S_FONCT4 = .;
END;
*** *************************;
*** Writing the Node H1;
*** *************************;
H11 = 0.360014417 * AMPL_0_2 + 0.1567946106 * AMPL_100 + 0.2019029757
dR * AMPL_125 + 0.1159351625 * AMPL_150 + 0.1438121432 *

AMPL_175 + 0.0065433389 * AMPL_250 + -0.359349311 *
AMPL_500;
H12 = -1.236178825 * AMPL_0_2 + 0.4438210583 * AMPL_100 + 0.7229258925
* AMPL_125 + 0.8283835077 * AMPL_150 + 0.8708377123 *
AMPL_175 + -0.885813034 * AMPL_250 + -0.589804305 *
AMPL_500;
H13 = 1.3024835949 * AMPL_0_2 + 0.0024053597 * AMPL_100 + -0.480007861
* AMPL_125 + -0.945185528 * AMPL_150 + -0.857110937 *
AMPL_175 + 0.8034686895 * AMPL_250 + 0.1847596773 *
AMPL_500;
H11 = H11 + 0.15313588 * FAB__ + 0.2394325563 * FABA + -0.161980126
* FABB + 0.1230147676 * FABC;
H12 = H12 + 0.3702583521 * FAB__ + -0.241311824 * FABA + -0.350730963
* FABB + 0.2377811101 * FABC;
H13 = H13 + -0.070006726 * FAB__ + 0.9391051237 * FABA + -0.058670675
* FABB + -0.385717473 * FABC;
H11 = H11 + 0.0844910756 * FONCT51;
H12 = H12 + 0.1610888556 * FONCT51;
IM
H13 = H13 + -0.173523629 * FONCT51;
H11 = H11 + -0.584614586 * HMARCHEB + -0.02430297 *
HMARCHEC + 0.6791223115 * HMARCHED;
H12 = H12 + 1.0831315807 * HMARCHEB + 0.127634036 *
H13 = H13 + 0.0317887649 * HMARCHEB + 0.6694306678 *
H11 = H11 + 0.0862056697 * PLAQUEE1 + -0.084283193 *
PLAQUEE2 + 0.0301099446 * PLAQUEE3 + -0.064200542 *
PLAQUEE4 + -0.202641985 * PLAQUEE5 + -0.222227973 *
PLAQUEE6 + 0.0616289859 * PLAQUEE7;
H12 = H12 + 0.4353893896 * PLAQUEE1 + 0.1615765248 *
PLAQUEE2 + 0.2098967031 * PLAQUEE3 + 0.0860266423 *
PLAQUEE4 + -0.117340496 * PLAQUEE5 + -0.144629741 *
PLAQUEE6 + -0.016211216 * PLAQUEE7;
H13 = H13 + 0.0577048343 * PLAQUEE1 + 0.124559803 *
PLAQUEE2 + 0.1785887698 * PLAQUEE3 + 0.1147207452 *
PLAQUEE4 + 0.212240467 * PLAQUEE5 + -0.076888225 *
PLAQUEE6 + 0.0340905413 * PLAQUEE7;
H11 = H11 + 0.4184053638 * SITU2A;
H12 = H12 + -0.257806037 * SITU2A;
H13 = H13 + 0.1430197909 * SITU2A;
H11 = H11 + -0.112755542 * TPSF_110 + 0.6326654994 *
Annexe G 16
TPSF_130;
H12 = H12 + -0.153175915 * TPSF_110 + -0.238775254 *
TPSF_130;
H13 = H13 + -0.162962094 * TPSF_110 + -0.339351282 *
TPSF_130;
H11 = H11 + 0.0197679794 * FONCT12 + 0.2459929417 * FONCT13
+ 1E-10 * FONCT14 + 0.2479578765 * FONCT15 + 0.2536661252
* FONCT16;
H12 = H12 + 0.3475093125 * FONCT12 + 0.0010983801 * FONCT13
+ 0.5786225434 * FONCT14 + 0.038760434 * FONCT15 + 1E-10
* FONCT16;
H13 = H13 + 1E-10 * FONCT12 + 0.0072452858 * FONCT13
+ 1E-10 * FONCT14 + 1E-10 * FONCT15 + 0.3157548541
* FONCT16;
H11 = H11 + 1E-10 * FONCT61 + 0.3911592397 * FONCT62
;
H12 = H12 + 0.2932234607 * FONCT61 + 0.003872207 * FONCT62
;
H13 = H13 + 0.1275923242 * FONCT61 + 0.2350870845 * FONCT62
dR
;
H11 = H11 + 0.2042586386 * FONCT71 + 0.0791866176 * FONCT72
+ 0.5534920988 * FONCT73 + 0.1703946037 * FONCT74;
H12 = H12 +
+
1E-10 * FONCT71 + 0.0095846735 * FONCT72
1E-10 * FONCT73 + 0.5812445439 * FONCT74;
H13 = H13 + 0.5481568314 * FONCT71 + 0.0020636067 * FONCT72
+ 0.0327470478 * FONCT73 + 0.0025087044 * FONCT74;
H11 = H11 + 0.0171687198 * POSITIO1 + 0.1508942065 *
POSITIO2 + 0.2799252625 * POSITIO3;
H12 = H12 + 0.0332386056 * POSITIO1 +
POSITIO2 + 0.153214925 * POSITIO3;
1E-10 *
H13 = H13 + 0.0396880325 * POSITIO1 + 0.0759730206 *

POSITIO2 + 1E-10 * POSITIO3;
H11 = H11 + -0.082972066 * TYPEA;
H12 = H12 + 0.1737611724 * TYPEA;
H13 = H13 + -0.24826453 * TYPEA;
H11 = H11 + -0.078220749 * S_FONCT4;
H12 = H12 + 0.4449338923 * S_FONCT4;
H13 = H13 + 0.4859247282 * S_FONCT4;
IM
H11 = -0.109739776 + H11;
H12 = 0.6597031287 + H12;
H13 = 0.6592043745 + H13;
H11 = TANH(H11);
H12 = TANH(H12);
H13 = TANH(H13);
END;
ELSE DO;
H11 = .;
H12 = .;
H13 = .;
END;
*** *************************;
*** Writing the Node EVOLCHR;
*** *************************;
*** *************************;
*** Setting the class variable EVOLCHR;
*** *************************;
F_EVOLCH = PUT( EVOLCHR, $6. );
*** *************************;
*** Normalizing F_EVOLCH;
*** *************************;
Annexe G 17
%DMNORMIP( F_EVOLCH );
IF F_EVOLCH = '. ' THEN DO;
EVOMOY = .;
EVOFOR = .;
EVOFAI = .;
END;
ELSE IF F_EVOLCH = 'MOYEN ' THEN DO;
EVOMOY = 1;
EVOFOR = 0;
EVOFAI = 0;
END;
ELSE IF F_EVOLCH = 'FORT ' THEN DO;
EVOMOY = 0;
EVOFOR = 1;
EVOFAI = 0;
END;
ELSE IF F_EVOLCH = 'FAIBLE' THEN DO;
EVOMOY = 0;
dR
EVOFOR = 0;
EVOFAI = 1;
END;
ELSE DO;
EVOMOY = .;
EVOFOR = .;
EVOFAI = .;
END;

P_EVOMOY = -0.711722293 * H11 + 1.0303279262 * H12 + -0.857566999
* H13;
P_EVOFOR = -0.442589684 * H11 + 2.805113418 * H12 + -2.471012543
* H13;
P_EVOMOY = -1.019555844 + P_EVOMOY;
P_EVOFOR = -2.375929189 + P_EVOFOR;
_MAX_ = MAX ( P_EVOMOY, P_EVOFOR);
_SUM_ = exp( - _MAX_ );
IM
P_EVOMOY = EXP(P_EVOMOY - _MAX_);
_SUM_ = _SUM_ + P_EVOMOY;
P_EVOFOR = EXP(P_EVOFOR - _MAX_);
_SUM_ = _SUM_ + P_EVOFOR;
P_EVOMOY = P_EVOMOY / _SUM_;
P_EVOFOR = P_EVOFOR / _SUM_;
P_EVOFAI = 1. - ( P_EVOMOY + P_EVOFOR );
END;
ELSE DO;
P_EVOMOY = .;
P_EVOFOR = .;
P_EVOFAI = .;
END;
P_EVOMOY = 0.2169766006;
P_EVOFOR = 0.0529575242;
P_EVOFAI = 0.7300658752;
END;
*** *****************************;
*** Writing the Error;
*** And Residuals of the Node EVOLCHR;
*** ******************************;
IF EVOMOY NE . AND P_EVOMOY NE . THEN DO;
Annexe G 18
IF EVOMOY NE 0 AND EVOMOY NE 1 THEN DO;
R_EVOMOY = .;
END;
ELSE DO;
R_EVOMOY = EVOMOY - P_EVOMOY;
END;
END;
ELSE DO;
R_EVOMOY = .;
END;
IF EVOFOR NE . AND P_EVOFOR NE . THEN DO;
IF EVOFOR NE 0 AND EVOFOR NE 1 THEN DO;
R_EVOFOR = .;
END;
ELSE DO;
R_EVOFOR = EVOFOR - P_EVOFOR;
END;
END;
ELSE DO;
dR
R_EVOFOR = .;
END;
IF EVOFAI NE . AND P_EVOFAI NE . THEN
IF EVOFAI NE 0 AND EVOFAI NE 1
R_EVOFAI = .;
END;
ELSE DO;
END;
R_EVOFAI = EVOFAI - P_EVOFAI;
END;
ELSE DO;
R_EVOFAI = .;
END;
*** Decision Processing;

DO;
THEN DO;
label
D_EVOLCH = 'Decision: EVOLCHR'
EP_EVOLC = 'Expected Profit: EVOLCHR'
BP_EVOLC = 'Best Profit: EVOLCHR'
IM
CP_EVOLC = 'Computed Profit: EVOLCHR'
;
length D_EVOLCH $ 6;
BP_EVOLC = .; CP_EVOLC = .;
*** Compute Expected Consequences and Choose Decision;

_decnum = 1; drop _decnum;
D_EVOLCH = 'Moyen';
EP_EVOLC = P_EVOMOY * 1 + P_EVOFOR * 0 +
P_EVOFAI * 0;
drop _sum;
_sum = P_EVOMOY * 0 + P_EVOFOR * 1 +
P_EVOFAI * 0;
if _sum > EP_EVOLC + 4.547474E-13 then do;
EP_EVOLC = _sum; _decnum = 2;
D_EVOLCH = 'Fort';
end;
_sum = P_EVOMOY * 0 + P_EVOFOR * 0 +
P_EVOFAI * 1;
if _sum > EP_EVOLC + 4.547474E-13 then do;
Annexe G 19
EP_EVOLC = _sum; _decnum = 3;
D_EVOLCH = 'Faible';
end;
*** Decision Matrix;

array _NNAdema[3,3] _temporary_ (
/* row 1 */ 1 0 0
/* row 2 */ 0 1 0
/* row 3 */ 0 0 1);
*** Find Index of Target Category;

drop _tarnum; select(F_EVOLCH);
when('MOYEN') _tarnum = 1;
when('FORT') _tarnum = 2;
when('FAIBLE') _tarnum = 3;
otherwise _tarnum = 0;
end;
if _tarnum <= 0 then goto _NNAdeex;
dR
*** Computed Consequence of Chosen Decision;
CP_EVOLC = _NNAdema[_tarnum,_decnum];
*** Best Possible Consequence of Any Decision without Cost;

array _NNAdebe[3] _temporary_ (
BP_EVOLC = _NNAdebe[_tarnum];
_NNAdeex:;
*** End Decision Processing;
*** *************************;
*** Writing the I_EVOLCH;
*** *************************;
_MAXP_ = P_EVOMOY;
I_EVOLCH = 'MOYEN ';
1 1 1);
IF( _MAXP_ LT P_EVOFOR ) THEN DO;

_MAXP_ = P_EVOFOR;
I_EVOLCH = 'FORT ';
END;
IM
IF( _MAXP_ LT P_EVOFAI ) THEN DO;
_MAXP_ = P_EVOFAI;
I_EVOLCH = 'FAIBLE';
END;
Annexe G 20
dR
ANNEXE H :
GLOSSAIRE
IM
Annexe H 1
Arbre de décision Technique visuelle permettant de diviser des données en groupes basés
sur les valeurs des variables. Elle permet de déterminer les variables
significatives pour une variable à donnée.
Catégorie Valeur prise par une variable discrète
Classification Deux types de classification existent :
▪ Classement des éléments dans des classes connues (par exemple, les
bons et les mauvais clients)
▪ Regroupement des éléments ayant des comportements similaires
dans des classes inconnues au départ. On parlera alors de clustering,
de segmentation ou d’apprentissage non supervisé.
dR
Clustering
Data Mining
Cf. Classification
Continue (variable) Variable pouvant prendre un nombre illimté de valeurs (par exemple, un
réel
Différentes définitions :
▪
▪
Processus d’extraction de la connaissance à partir de données
contenues dans une base de données.
Ensemble des moyens pour détecter des associations entre des
informations contenues dans d’importantes bases de données.
Technique d’investigation des données qui permet de mettre en
évidence des propriétés ou corrélations de données non détectables
par simple consultation.
Data Mining Aussi connu sous le nom de KDD (Knowlegs Discovery Data), les outils
de datat mining permettent d’extraire de la connaissance des données en
IM
(outils de)
découvrant des modèles, des règles dans le colume d’information stocké
par les entreprises.
Découverte de Objectif de certaines analyses de data mining utilisées à des fins
règles prévisionnelles à l’aide de différents algorithmes. Ces règles permettent
de :
▪ Réaliser des prévisions
▪ Déterminier des variables discriminantes et dégager leur importance
relattive.
Dépendante Variable cible de l’analyse de Data Mining, notamment, pour les arbres
(variable) de décisions. On parle aussi de variable à expliquer.
Discrétisation Transformation d’une variable continue en une variable discrète.
Discrète Variable prenant ses valeurs (Cf. catégorie) dans un ensemble limité.
(variable)
Annexe H 2
Échantillon Ensemble de données tiré , aléatoirement ou non, de la source des
données afin d’effectuer des tests et des recherches sur des données.
Génétique Un algorithme génétique est un algorithme lent, représentant les modèles
(algorithme) commes des gènes et des opérateurs génétiques et les faisant évoluer
soit par mutation (un gène au hasard est remplacé), soit par cross-over
(la place de deux sous-arbres est échangéeà. Il est surtout utilisé pour
optimiser les paramètres associés à des outils de prédiction ou de
classification.
Indicateur Information permettant de mesurer la performance d’un modèle.
statistique
Modalité Cf. catégorie.
Réseau neuronal Processus opaque permettant d’estimer une valeur en sortie à partir de
dR
Segmentation
Statistiques
valeurs fournies en entrée.
Les réseaux neuronaux sont constitués de neurones, aussi appelés
nœuds, et d’interconnxions entre ces nœuds, liens permettant d’envoyer
des signaux de neurone à neurone. Un réseau de neurone a pour
caractéristique de pouvoir apprendre et mettre à profit sont expérience
pour ajuster le modèle trouvé en fonction, par exemple, de l’arrivée de
nouveaux éléments.
Cf. classification.
Les techniques statistiques sont des techniques mathématiques
permettant de récueillir et d’analyser des données.
Variable Les données se décomposent en lignes et en colones. Chaque colonne
représente une variable, une propriété des éléments considérés. Les
lignes constituent les individus (au sens statististique, un individu est
IM
une observation).
Annexe H 3
dR ANNEXE I :
RESULTATS DE L’ANALYSE DE TYPE GLM

IM
Annexe I 1
Modèle 1 :
The GLM Procedure
Class Level Information
Class Levels Values
TYPE 2 A M
POSITION 4 1 2 3 4
TRAIT 2 0 1
TPSFCT 3 [110000-130000] [130000-150000] [90000-110000]
AMPLINIT 9 [0-250] [1000-1250] [1250-1500] [1500-1750] [1750-2000] [2000-2250]

[250-500] [500-750] [750-1000]
HMARCHE 4 B C D E
PLAQUE
SITU2
FAB dR 8
5
E1 E2 E3 E4 E5 E6 E7 E8
A B
?? A B C D
Dependent Variable: EVOLNUM
Source
Model
Number of observations
DF
35
The GLM Procedure
Sum of
Squares
255250501.4
83274
Mean Square
7292871.5
F Value
942.00
Pr > F
<.0001
Error 83238 644422986.6 7741.9
Corrected Total 83273 899673488.0

IM
0.283715 213.4252 87.98825 41.22673
Source DF Type III SS Mean Square F Value Pr > F
FONCT1 1 2311646.0 2311646.0 298.59 <.0001

FONCT4 1 543910.5 543910.5 70.26 <.0001
FONCT5 1 89741.7 89741.7 11.59 0.0007
FONCT6 1 1734266.9 1734266.9 224.01 <.0001
FONCT7 1 1573570.6 1573570.6 203.25 <.0001
TYPE 1 5800006.4 5800006.4 749.17 <.0001
POSITION 3 477560.3 159186.8 20.56 <.0001
TRAIT 1 619.8 619.8 0.08 0.7772
TPSFCT 2 462572.7 231286.3 29.87 <.0001
AMPLINIT 8 171422188.6 21427773.6 2767.76 <.0001
HMARCHE 3 14591323.1 4863774.4 628.24 <.0001
PLAQUE 7 787681.0 112525.9 14.53 <.0001
SITU2 1 124364.9 124364.9 16.06 <.0001
FAB 4 16361899.3 4090474.8 528.35 <.0001
Annexe I 2
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 100.0885486 B 4.19011845 23.89 <.0001

FONCT1 18.4337883 1.06678922 17.28 <.0001
FONCT4 0.8141928 0.09713780 8.38 <.0001
FONCT5 -5.7084148 1.67665219 -3.40 0.0007
FONCT6 -23.0455845 1.53976502 -14.97 <.0001
FONCT7 -16.0956214 1.12898799 -14.26 <.0001
TYPE A 29.2974823 B 1.07038683 27.37 <.0001
TYPE M 0.0000000 B . . .
POSITION 1 -1.0968603 B 1.49995360 -0.73 0.4646
POSITION 2 0.5382891 B 0.86484460 0.62 0.5337
POSITION 3 -5.6536935 B 0.77541861 -7.29 <.0001
POSITION 4 0.0000000 B . . .
TRAIT 0 0.2798610 B 0.98911563 0.28 0.7772
TRAIT 1 0.0000000 B . . .
TPSFCT [110000-130000] 1.5136609 B 1.18684379 1.28 0.2022
The GLM Procedure
dR
Parameter
TPSFCT
TPSFCT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
HMARCHE
HMARCHE
[130000-150000]
[90000-110000]
[0-250]
[1000-1250]
[1250-1500]
[1500-1750]
[1750-2000]
[2000-2250]
[250-500]
[500-750]
[750-1000]
B
C
Estimate
9.2934717
0.0000000
-65.1081576
68.2659194
179.3619576
318.2768203
465.2483036
92.9285279
-62.1104771
-40.1130966
0.0000000
40.4246795
-13.3232961
B
B
B
B
B
B
B
B
B
B
B
B
B
Standard
Error
1.48764336
.
1.46305846
2.49087435
3.52669555
4.91287040
6.41929436
88.00973241
1.38856423
1.45922977
.
1.74339255
1.33111967
t Value
6.25
.
-44.50
27.41
50.86
64.78
72.48
1.06
-44.73
-27.49
.
23.19
-10.01
Pr > |t|
<.0001
.
<.0001
<.0001
<.0001
<.0001
<.0001
0.2910
<.0001
<.0001
.
<.0001
<.0001
HMARCHE D -14.1233468 B 1.35271619 -10.44 <.0001
HMARCHE E 0.0000000 B . . .
PLAQUE E1 5.6237454 B 3.03866560 1.85 0.0642
PLAQUE E2 0.6837169 B 3.03971363 0.22 0.8220
PLAQUE E3 -0.4541825 B 3.09010724 -0.15 0.8831
PLAQUE E4 -1.5395695 B 3.14417630 -0.49 0.6244
IM
PLAQUE E5 -5.7557295 B 3.28961047 -1.75 0.0802
PLAQUE E6 0.8723357 B 3.38096687 0.26 0.7964
PLAQUE E7 -2.3933431 B 3.53993495 -0.68 0.4990
PLAQUE E8 0.0000000 B . . .
SITU2 A -4.9140536 B 1.22607117 -4.01 <.0001
SITU2 B 0.0000000 B . . .
FAB ?? -11.1094226 B 4.34149671 -2.56 0.0105
FAB A -57.9030608 B 1.32150154 -43.82 <.0001
FAB B -16.0451355 B 1.10292938 -14.55 <.0001
FAB C -7.1938947 B 0.84782478 -8.49 <.0001
FAB D 0.0000000 B . . .
Annexe I 3
Modèle 2 :
The GLM Procedure
Class Level Information
Class Levels Values
TYPE 2 A M
POSITION 4 1 2 3 4
TPSFCT 3 [110000-130000] [130000-150000] [90000-110000]
AMPLINIT 9 [0-250] [1000-1250] [1250-1500] [1500-1750] [1750-2000] [2000-2250]

[250-500] [500-750] [750-1000]
HMARCHE 4 B C D E
PLAQUE
SITU2
FAB
dR 8
5
E1 E2 E3 E4 E5 E6 E7 E8
A B
?? A B C D
Source
Model
Number of observations
DF
34
The GLM Procedure
Sum of
Squares
255249881.6
83274
Mean Square
7507349.5
F Value
969.71
Pr > F
<.0001
Error 83239 644423606.4 7741.8
Corrected Total 83273 899673488.0

IM
0.283714 213.4241 87.98777 41.22673
Source DF Type III SS Mean Square F Value Pr > F
FONCT1 1 2325791.5 2325791.5 300.42 <.0001

FONCT4 1 575144.4 575144.4 74.29 <.0001
FONCT5 1 90063.9 90063.9 11.63 0.0006
FONCT6 1 1736653.2 1736653.2 224.32 <.0001
FONCT7 1 1573378.2 1573378.2 203.23 <.0001
TYPE 1 6011446.3 6011446.3 776.49 <.0001
POSITION 3 477965.6 159321.9 20.58 <.0001
TPSFCT 2 480481.4 240240.7 31.03 <.0001
AMPLINIT 8 171424304.7 21428038.1 2767.82 <.0001
HMARCHE 3 14711492.9 4903831.0 633.42 <.0001
PLAQUE 7 787576.6 112510.9 14.53 <.0001
SITU2 1 163931.5 163931.5 21.17 <.0001
FAB 4 16431396.9 4107849.2 530.60 <.0001
Annexe I 4
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 100.3820063 B 4.05970292 24.73 <.0001

FONCT1 18.4048340 1.06186377 17.33 <.0001
FONCT4 0.8197775 0.09511080 8.62 <.0001
FONCT5 -5.7175831 1.67632977 -3.41 0.0006
FONCT6 -23.0192439 1.53693961 -14.98 <.0001
FONCT7 -16.0945459 1.12897535 -14.26 <.0001
TYPE A 29.2375858 B 1.04923874 27.87 <.0001
TYPE M 0.0000000 B . . .
POSITION 1 -1.0922663 B 1.49985743 -0.73 0.4665
POSITION 2 0.5441737 B 0.86458971 0.63 0.5291
POSITION 3 -5.6538598 B 0.77541410 -7.29 <.0001
POSITION 4 0.0000000 B . . .
TPSFCT [110000-130000] 1.3307623 B 0.99535340 1.34 0.1812
TPSFCT [130000-150000] 9.0959816 B 1.31372435 6.92 <.0001
TPSFCT [90000-110000] 0.0000000 B . . .
AMPLINIT [0-250] -65.1121336 B 1.46298289 -44.51 <.0001
The GLM Procedure
dR
Parameter
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
HMARCHE
HMARCHE
HMARCHE
HMARCHE
PLAQUE
[1000-1250]
[1250-1500]
[1500-1750]
[1750-2000]
[2000-2250]
[250-500]
[500-750]
[750-1000]
B
C
D
E
E1
Estimate
68.2587004
179.3536143
318.2675103
465.2448701
93.1518861
-62.1120421
-40.1095268
0.0000000
40.4097814
-13.3211716
-14.1005685
0.0000000
5.6200965
B
B
B
B
B
B
B
B
B
B
B
B
B
Standard
Error
2.49072991
3.52655279
4.91273306
6.41924741
88.00570562
1.38854554
1.45916716
.
1.74258759
1.33109114
1.35031100
.
3.03862144
t Value
27.41
50.86
64.78
72.48
1.06
-44.73
-27.49
.
23.19
-10.01
-10.44
.
1.85
Pr > |t|
<.0001
<.0001
<.0001
<.0001
0.2898
<.0001
<.0001
.
<.0001
<.0001
<.0001
.
0.0644
PLAQUE E2 0.6824159 B 3.03969336 0.22 0.8224
PLAQUE E3 -0.4594927 B 3.09003317 -0.15 0.8818
PLAQUE E4 -1.5413892 B 3.14415235 -0.49 0.6240
PLAQUE E5 -5.7594486 B 3.28956603 -1.75 0.0800
PLAQUE E6 0.8695419 B 3.38093376 0.26 0.7970
PLAQUE E7 -2.3981320 B 3.53987492 -0.68 0.4981
IM
PLAQUE E8 0.0000000 B . . .
SITU2 A -4.7244328 B 1.02669346 -4.60 <.0001
SITU2 B 0.0000000 B . . .
FAB ?? -11.1188265 B 4.34134549 -2.56 0.0104
FAB A -57.8828559 B 1.31956342 -43.87 <.0001
FAB B -16.0379117 B 1.10262775 -14.55 <.0001
FAB C -7.2114474 B 0.84554739 -8.53 <.0001
FAB D 0.0000000 B . . .
Annexe I 5

Memoire de Master Profilage de Drogue Et

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Memoire de Master Profilage de Drogue Et

Transféré par

Droits d'auteur :

Formats disponibles

dR"APPLICATIONS DES TECHNIQUES DE

DATAMINING AU RETOUR D’EXPERIENCE ET

Monsieur Pascal CHAUSSIS de RENAULT, qui a dirigé cette étude,

• RFF Madame Francine KERAVEL

3 PRESENTATION DU DATA MINING .................................................................................................... 5

7 REFERENCES BIBLIOGRAPHIQUES .............................................................................................. 107

ANNEXE B : SYNTHÈDE DES ENTRETIENS INDIVIDUELS

ANNEXE D : QUELQUES APPLICATIONS DE DATA MINING

ANNEXE E: FICHE DESCRIPTIVE D’UN REX

ANNEXE G: LES RÉSULTATS DES RÉSEAUX DE NEURONES

ANNEXE I : RÉSULTATS DE L’ANALYSE DE TYPE GLM

L’accroissement de la concurrence, l’individualisation des consommateurs - la

3 PRESENTATION DU DATA MINING

3.1 LE DATA MINING

Base d’apprentissage Base de test

• R. LEFEBURE, G. VENTURI, Le Data Mining, Eyrolles, 1998

VAR 1 …………….. VAR k

• choix des axes :

3.2.1.1.3 L’analyse factorielle des correspondances

Xij = nombre d’individus

L’analyse des correspondances multiples n’est qu’une simple généralisation de l’Analyse

Variable 1 Variable 2 Variable K

Exemple : la cause des divorces aux Etats-Unis

Rai sons de Di vor ce

Rai sons de Di vor ce

On obtient donc le dendogramme suivant :

On va chercher à estimer un modèle qui exprimera une variable à expliquer en fonction

3.2.1.2.2 La régression linéaire

Yi = 0 + 1 X1i +2 X2i +…+k Xki + i

où 0, 1, 2, …, k sont les coefficients à estimer du modèle.

Test de validité du modèle

Exemple d’application : Déterminer le prix d’un appartement

5000 Droite de régression

3.2.1.2.4 L’analyse discriminante

3.2.1.2.5 L’analyse de la variance

Les techniques qui vont être présentées ci-après sont :

• d’avoir une véritable connaissance des données, c’est-à-dire comprendre la définition et le

• d’avoir accès à l’expertise du domaine ;

3.2.2.2 Les arbres de décision

Var1 = 0 Var1 = 1 Var2 = 0 Var2 = 1

Un arbre est constitué de nœuds de niveaux différents :

3.2.2.2.3 Lecture de l’arbre

Par exemple, soit l’arbre suivant :

ET qu’il ne dispose pas d’un compte d’épargne

ET qu’il n’a aucun enfant OU un enfant unique

3.2.2.2.4 Les algorithmes

Le critère de comparaison des nœuds est le rapport entre le gain informationnel dû à la

Après ce processus de généralisation, on risque de voir apparaître deux types de problèmes :

• les règles obtenues ne s’excluent pas mutuellement ;

• Nature des variables prises en compte : • Non-exclusion mutuelles des règles

Ces méthodes peuvent être utilisées dans divers domaines dont :

La simplicité de ces techniques peut séduire mais constitue également sa faiblesse.

3.2.2.4 Les réseaux de neurones

Où les neurones notés X constituent la couche d’entrée et représentent les variables

3.2.2.4.4 Constitution de la base d’exemples

3.2.2.4.6 Optimisation du jeu de données

3.2.2.4.7 Détermination des paramètres

Le processus recommence ainsi, à partir du choix de l’exemple en entrée, jusqu’à ce qu’un

classification entre 0 et 1. A effectuer avec prudence

Ils sont utilisés dans :

3.2.2.5.2 Mise en œuvre

• La génération des descendants :

Graphique 1 : répartition des descendants sur un cercle