Académique Documents
Professionnel Documents
Culture Documents
Projet de l’ISdF n° 1 / 99
IM
Copyright ISdF – Décembre 2000
"APPLICATION DES TECHNIQUES DE DATAMINING AU RETOUR
dR
D’EXPERIENCE ET A LA SURETE DE FONCTIONNEMENT"
Projet de l’ISdF n° 1 / 99
Chef de Projet :
Monsieur Pascal CHAUSSIS
Société soumissionnaire :
EUROPSTAT
IM
L'Institut de Sûreté de Fonctionnement tient à remercier :
dR -
- les sociétés qui ont souscrit à ce projet et leurs collaborateurs qui ont
participé à sa réalisation :
•
•
•
•
•
•
EDF
DGA
PSA
PSA
RATP
RENAULT
Monsieur Thierry SOUCHOIS
Monsieur Philippe MOREAU
Monsieur Stanislas DI PIAZZA
Monsieur Christophe BATT
Monsieur Guy GIORGI
Monsieur
GUILLEMAZ
Joseph MOREL-
1 OBJET .......................................................................................................................................................... 4
2 INTRODUCTION ....................................................................................................................................... 4
dR
3.2.1
3.2.2
Rappels sur quelques approches classiques .................................................................................. 10
3.2.1.1 Les méthodes descriptives : l’analyse des données multidimensionnelle ................................................. 10
3.2.1.1.1
3.2.1.1.2
3.2.1.1.3
3.2.1.1.4
3.2.1.1.5
3.2.1.1.6
3.2.1.2.1
3.2.1.2.2
3.2.1.2.3
3.2.1.2.4
3.2.1.2.5
3.2.1.2.6
Objectifs ......................................................................................................................................... 10
L’analyse en composantes principales ........................................................................................... 10
L’analyse factorielle des correspondances ..................................................................................... 13
L’analyse des correspondances multiples....................................................................................... 14
La classification ............................................................................................................................. 16
Synthèse ......................................................................................................................................... 19
3.2.1.2 Les techniques de prévision ...................................................................................................................... 20
Objectifs ......................................................................................................................................... 20
La régression linéaire ..................................................................................................................... 20
La régression logistique ................................................................................................................. 23
L’analyse discriminante ................................................................................................................. 23
L’analyse de la variance ................................................................................................................. 24
Synthèse ......................................................................................................................................... 24
Les techniques de data mining ...................................................................................................... 26
3.2.2.1 Les données .............................................................................................................................................. 26
3.2.2.2 Les arbres de décision............................................................................................................................... 27
3.2.2.2.1 Objectifs ......................................................................................................................................... 27
3.2.2.2.2 Définitions...................................................................................................................................... 27
3.2.2.2.3 Lecture de l’arbre ........................................................................................................................... 28
IM
3.2.2.2.4 Les algorithmes .............................................................................................................................. 29
3.2.2.2.5 Exemple d’application ................................................................................................................... 32
3.2.2.2.6 Synthèse ......................................................................................................................................... 33
3.2.2.3 Les règles d’association ............................................................................................................................ 34
3.2.2.4 Les réseaux de neurones ........................................................................................................................... 36
3.2.2.4.1 Présentation .................................................................................................................................... 36
3.2.2.4.2 Mise en œuvre d’un réseau de neurones ......................................................................................... 38
3.2.2.4.3 Préparation des données ................................................................................................................. 38
3.2.2.4.4 Constitution de la base d’exemples ................................................................................................ 38
3.2.2.4.5 Codage des entrées ......................................................................................................................... 38
3.2.2.4.6 Optimisation du jeu de données ..................................................................................................... 38
3.2.2.4.7 Détermination des paramètres ........................................................................................................ 38
3.2.2.4.8 Principe de la phase d’apprentissage .............................................................................................. 39
3.2.2.4.9 Exemple d’application ................................................................................................................... 40
3.2.2.4.10 Synthèse ......................................................................................................................................... 41
3.2.2.5 Les algorithmes génétiques ....................................................................................................................... 41
3.2.2.5.1 Fonctionnement .............................................................................................................................. 42
3.2.2.5.2 Mise en œuvre ................................................................................................................................ 42
3.2.2.5.3 Synoptique du processus de mise en œuvre des algorithmes génétiques ........................................ 46
3.2.2.5.4 Synthèse ......................................................................................................................................... 47
3.2.2.6 Le raisonnement à base de cas (RBC) ...................................................................................................... 47
3.2.2.6.1 Utilisation....................................................................................................................................... 47
3.2.2.6.2 Fonctionnement .............................................................................................................................. 48
3.2.2.6.3 Exemple ......................................................................................................................................... 49
3.2.2.6.4 Synthèse ......................................................................................................................................... 51
3.2.2.7 Les réseaux bayésiens ............................................................................................................................... 51
3.2.2.7.1 La conception ................................................................................................................................. 51
3.2.2.7.2 Domaines d’application ................................................................................................................. 52
Page 1
3.2.2.7.3 Synthèse ......................................................................................................................................... 53
3.2.3 Le text mining ................................................................................................................................ 53
3.3 COMPARAISON DES METHODES................................................................................................................ 53
3.3.1 Différences et similitudes .............................................................................................................. 54
3.3.2 Forces et faiblesses des méthodes ................................................................................................. 57
3.3.3 Limites et contraintes .................................................................................................................... 58
3.4 LES LOGICIELS DE DATA MINING ............................................................................................................ 58
3.4.1 Les logiciels mono-techniques....................................................................................................... 59
3.4.2 Les logiciels pluri-techniques........................................................................................................ 60
3.5 SYNTHESE ............................................................................................................................................... 62
4 APPLICATION DES TECHNIQUES DE DATA MINING.................................................................. 66
1.1 ANALYSE BIBLIOGRAPHIQUE ................................................................................................................... 68
1.1.1 un panorama d’articles ................................................................................................................. 68
1.1.2 Gros plan sur un article ................................................................................................................ 72
1.2 LE PROJET EUROPEEN NOEMIE .............................................................................................................. 76
1.3 SYNTHESE ................................................................................................................................................ 77
5 IDENTIFICATION DES APPLICATIONS POTENTIELLES DE L’ETUDE .................................. 77
dR
5.1 RAPPELS SUR LES FORMES D’UN REX ..................................................................................................... 78
5.1.1
5.1.2
5.1.3
5.1.4
5.2.1
Caractéristiques générales ............................................................................................................ 78
Identification ................................................................................................................................. 78
Circonstance de défaillances......................................................................................................... 79
Description de la défaillance ........................................................................................................ 79
5.2 QUELQUES TRAITEMENTS POTENTIELS…. ............................................................................................... 80
Détermination de la probabilité d’incidents en fonction du temps ............................................... 81
5.2.1.1
5.2.1.2
5.2.2
Problématique ........................................................................................................................................... 81
Les méthodes utilisées .............................................................................................................................. 81
Détermination des facteurs discriminants ..................................................................................... 81
5.2.2.1 Problématique ........................................................................................................................................... 81
5.2.2.2 Les méthodes utilisées .............................................................................................................................. 81
5.2.3
5.2.2.2.1
5.2.2.2.2
Les arbres de décision .................................................................................................................... 82
Les réseaux de neurones................................................................................................................. 82
La succession de facteurs comme élément explicatif ..................................................................... 82
5.2.3.1 Problématique ........................................................................................................................................... 82
5.2.3.2 Les méthodes utilisées .............................................................................................................................. 82
5.2.3.3 Résultats escomptés .................................................................................................................................. 83
5.3 LA SURVENANCE CONJOINTE D’INCIDENTS .............................................................................................. 83
IM
5.3.1.1 Problématique ........................................................................................................................................... 83
5.3.1.2 Les méthodes utilisées .............................................................................................................................. 83
5.3.1.3 Résultats escomptés .................................................................................................................................. 83
5.3.2 L’aide au diagnostic ...................................................................................................................... 83
5.3.2.1 Problématique ........................................................................................................................................... 84
5.3.2.2 Les méthodes utilisées .............................................................................................................................. 84
5.4 CAS PRATIQUE ......................................................................................................................................... 84
5.4.1 Introduction ................................................................................................................................... 84
5.4.1.1 Problématique ........................................................................................................................................... 84
5.4.1.2 Principe des méthodes .............................................................................................................................. 85
5.4.1.2.1 Les modèles linéaires généralisés (GLM) ...................................................................................... 85
5.4.1.2.2 Les arbres de décision .................................................................................................................... 85
5.4.1.2.3 Les réseaux de neurones................................................................................................................. 85
5.4.1.3 Démarche .................................................................................................................................................. 85
5.4.1.4 Critères pris en compte ............................................................................................................................. 86
5.4.1.5 Résultats ................................................................................................................................................... 86
5.4.1.5.1 Les modèles linéaires généralisés................................................................................................... 86
5.4.1.5.2 Les arbres de décision .................................................................................................................... 88
5.4.1.5.3 Les réseaux de neurones................................................................................................................. 95
5.4.1.5.4 Comparaison des modèles arbres – réseaux de neurones ............................................................... 99
5.4.1.5.5 Conclusion ................................................................................................................................... 100
5.5 LES PROBLEMATIQUES SOULEVEES PAR LES SOUSCRIPTEURS ................................................................ 101
5.5.1 Société A ...................................................................................................................................... 101
5.5.1.1 Problématique ......................................................................................................................................... 101
5.5.1.2 Les méthodes utilisées ............................................................................................................................ 101
5.5.1.3 Résultats escomptés ................................................................................................................................ 102
5.5.2 Société B ...................................................................................................................................... 103
5.5.2.1 Problématiques ....................................................................................................................................... 103
Page 2
5.5.2.2 Les méthodes utilisées ............................................................................................................................ 103
5.5.2.3 Résultats escomptés ................................................................................................................................ 104
5.5.3 Société C ..................................................................................................................................... 104
5.5.3.1 Problématique ......................................................................................................................................... 104
5.5.3.2 Les méthodes utilisées ............................................................................................................................ 104
5.5.3.3 Résultats escomptés ................................................................................................................................ 104
6 CONCLUSION ........................................................................................................................................ 105
ANNEXE A : QUESTIONNAIRE
ANNEXE C: L'ENTROPIE
dR
ANNEXE F : LES RÈGLES DE L’ARBRE DE DÉCISION
ANNEXE H : GLOSSAIRE
Page 3
1 OBJET
Le projet ISdF 1/99 “ Application des techniques de data mining au retour d’expérience et à la
sûreté de fonctionnement ” est décomposé en quatre tâches :
• Tâche n° 1 : “ Présentation du data mining ” ;
• Tâche n° 2 : “ Identification des applications existantes ” ;
• Tâche n° 3 : “ Identification des applications potentielles ” ;
• Tâche n°4 : “ Synthèse de l’étude ”.
La tâche 4 comprendra également une présentation des logiciels aux souscripteurs.
dR
INTRODUCTION
Page 4
Enfin, une troisième partie présentera un certain nombre de problématique propre à la sûreté
de fonctionnement ou aux données issues d’une base de retour d’expérience. Ces
problématiques seront illustrées à l’aide d’un exemple d’un cas test appliqué sur des données
issues d’une entreprise participant au projet.
dR
de données. Différentes définitions peuvent être fournies. Tout d’abord, une définition
littéraire où le datamining est le fait de “ creuser une montagne pour y découvrir un joyau ”,
ou humoristique : le data mining permet alors de “ dénicher une pépite dans un tas de
charbon sans se salir les mains ” ou encore une définition philosophique qui explique que le
data mining permet de “ trouver des réponses aux questions que l’on ne pose pas ! ”.
L’ensemble de ces définitions a en commun de montrer l’importance de la connaissance.
Le data mining peut ainsi être défini comme l’ensemble des procédés visant à analyser de
grands ensembles de données pour y découvrir des relations et des structures utiles dans un
processus de décision.
Le data mining se trouve donc au carrefour de plusieurs disciplines : la gestion de bases de
données, l’intelligence artificielle, l’apprentissage (Machine Learning), ces disciplines
relevant plutôt de la science informatique, la reconnaissance des formes et l’analyse des
données, celles-ci relevant plutôt de la science statistique.
IM
3.1.2 Objectifs
Le data mining n’est pas issu du milieu des statisticiens ni même de celui des spécialistes
d’analyse des données, mais plutôt de celui des bases de données. Il s’est ainsi développé dans
le domaine de l’intelligence artificielle chez les spécialistes de l’apprentissage (learning from
data). Ainsi, la culture de ses pionniers et de ses promoteurs relève plus de l’informatique et
surtout de l’intelligence artificielle que de la statistique et du calcul des probabilités.
La pertinence et l’intérêt du data mining sont conditionnés par les enjeux attachés à la
démarche entreprise, qui doit être guidée par des objectifs directeurs clairement explicités :
• améliorer la performance commerciale ;
• mieux cibler les prospects ;
• fidéliser la clientèle ;
• mieux comprendre les performances de production…
Aujourd’hui, un grand nombre d’entreprises prennent conscience de la richesse contenue dans
leurs données et s’interrogent quant à l’intérêt de la mise en œuvre de telles techniques.
Ces méthodes répondent à des besoins de :
Page 5
• prévision ;
• découverte de corrélations inattendues parmi des centaines de paramètres ;
• classification ;
• segmentation (de clientèle par exemple).
Pour cela, diverses techniques sont à notre disposition regroupées sous le terme data mining
dont :
• les arbres de décision ou la découverte de règles ;
• les méthodes de classification,
auxquelles, il faut ajouter des techniques moins fréquemment utilisées telles que :
• les réseaux de neurones (perceptron multicouches, fonctions radiales de bases…) ;
• les algorithmes génétiques.
•
dR
D’autre part, les logiciels de data mining incluent de plus en plus de techniques relevant de la
statistique multidimensionnelle dite “ classique ” :
• les méthodes exploratoires (analyse en composantes principales,
correspondances, analyse des correspondances multiples…) ;
les méthodes
logistique…).
de data mining.
prédictives (régression linéaire, analyse de
analyse
variance,
des
régression
En effet, les techniques dites “ classiques ” tendent aujourd’hui à être intégrées sous le terme
Mais l’émergence du datamining repose plus sur la façon dont sont présentés ces différents
outils mathématiques que sur les outils eux-mêmes. Aussi, trois qualités sont-elles
généralement mises en avant par les promoteurs des techniques de data mining. Les outils
proposés se doivent d’être :
• Rapides et à même de traiter de très grands ensembles de données.
IM
Il s’agit d’une caractéristique majeure et typique du data mining. En effet, les progrès
technologiques permettent d’envisager de gigantesques tableaux de données. L’un des défis
du data mining consiste à proposer des algorithmes adaptés à un traitement efficace (en des
temps raisonnables) d’énormes bases de données. C’est certainement l’un des domaines où le
data mining sera le plus porteur dans le futur, hors de ses domaines traditionnels
d’intervention, et devrait conduire à l’émergence d’une véritable méthodologie particulière
qui consistera pour l’essentiel à proposer des outils nouveaux pour le traitement efficace
d’énormes bases de données par des méthodes classiques d’analyse statistique.
• D’utilisation aisée.
Cette caractéristique comporte plusieurs aspects. Le lancement des commandes doit être
facile, les sorties graphiques doivent être agréables, faciles à modifier et nombreuses, les
résultats doivent pouvoir être modifiés avec souplesse. Ces caractéristiques sont maintenant
classiques, exigées de nombreux utilisateurs de logiciels et ne sont en rien spécifiques aux
logiciels de data mining. Cependant, ce sont des caractéristiques cruciales pour eux, eu égard
à la clientèle de “ décideurs ” visée. On doit d’ailleurs signaler que ces caractéristiques ne sont
souvent que médiocrement présentes dans les plus grands logiciels de statistique, même si des
progrès considérables ont été réalisés dans ce domaine.
Page 6
• Permettre des interprétations de résultats faciles.
Là aussi, il s’agit d’une caractéristique majeure et typique du data mining. Certes, les
méthodes mathématiques utilisées dans le data mining sont des méthodes “ traditionnelles ”
connues depuis longtemps. Mais alors que jusqu’à maintenant, elles n’étaient accessibles
qu’aux seuls experts statisticiens, grâce aux outils du data mining, elles sont aujourd’hui à
disposition de tout utilisateur. Les promoteurs du data mining insistent beaucoup sur cet
aspect des choses et l’argument publicitaire suivant est souvent utilisé : “ Il n’est pas
nécessaire d’être un spécialiste de la statistique ou d’avoir une solide formation mathématique
pour comprendre les sorties de logiciels de data mining et tirer le meilleur parti des outils
proposés ”. Ainsi, les logiciels de data mining évitent les méthodes dont le réglage des
paramètres d’entrée ou l’interprétation des sorties exigeraient un savoir-faire particulier. Cette
exigence s’explique bien sûr par le public visé par les produits de data mining (cadres
commerciaux et financiers, économistes, publicitaires…).
dR
Néanmoins, afin de garantir une fiabilité des résultats, il est nécessaire de suivre une
démarche précise.
3.1.3 Démarche
Il existe souvent une confusion entre les logiciels de Data Mining et le processus de Data
Mining. Or, les outils ne sont qu’un composant dans la transformation des données en
connaissance. Ils s’intègrent dans un processus en cinq étapes.
• Phase 1 : Recherche et sélection des données
Il s’agit de déterminer la structure générale des données ainsi que les règles utilisées pour
les constituer. Il faut pour cela identifier les informations exploitables et vérifier leur
qualité, leur facilité d’accès : documents papier, fichiers…
• Phase 2 : Transformation des données
Cette étape consiste à résoudre le problème de valeurs aberrantes, de données manquantes
et à effectuer des transformations sur les variables (normalisation, transformation de
IM
variables quantitatives en variables qualitatives,…).
• Phase 3 : Modélisation
Cette étape consiste à extraire la connaissance utile à partir d’un volume de données et à la
présenter sous forme synthétique. Il s’agit de la phase plus souvent décrite sous le terme
de Data Mining et qui repose sur une “ recherche exploratoire, c’est-à-dire dépourvue de
préjugés concernant les relations entre les données ”.
• Phase 4 : Validation
L’évaluation du résultat permet d’estimer la qualité du modèle, c’est-à-dire sa capacité à
classer de manière correcte de nouvelles données. Le modèle doit être validé sur des bases
de données n’ayant pas servie à le constituer.
• Phase 5 : Intégration de la connaissance
La connaissance n’est rien tant qu’elle n’est pas convertie en décision puis en action. Cette
phase d’intégration de la connaissance consiste à implanter le modèle ou ses résultats dans
les systèmes informatiques ou dans les processus de l’entreprise.
Page 7
Base de données
70% 30%
Création des bases
Modélisation Validation du
modèle sur la
base de test
Modèle Mise en production
dR des modèles
Le schéma précédent illustre la démarche à mettre en œuvre. La base de données origine est
partagée en deux sous-ensembles effectués par tirage aléatoire. Le premier qui, par
convention constitue 70% de l’échantillon de la base initiale constitue la base d’apprentissage,
c’est-à-dire l’échantillon à partir duquel le modèle va être élaboré, et le second qui constitue
30% de la base initiale est l’échantillon test, c’est-à-dire l’échantillon qui va permettre de
tester et valider le modèle obtenu. Par convention, les proportions sont de 2/3 pour la base
d’apprentissage et 1/3 pour la base test mais il est possible de modifier ces proportions. Il
suffit que l’échantillon soit représentatif de la population initiale et de taille suffisante pour
permettre l’apprentissage des règles ou du modèle.
IM
3.1.4 Bibliographie
Page 8
• M. JAMBU, Introduction au Data Mining : à l’usage des décideurs, Eyrolles, 1998
Cet ouvrage s’adresse aux responsables opérationnels qui élaborent leurs décisions au moyen
de l’analyse de l’information. Il présente le Data Mining, comment il se situe par rapport aux
techniques du décisionnel, ce qu’on peut en attendre lors de sa mise en œuvre lors de
l’application en entreprise, quels sont les problèmes opérationnels qui peuvent être résolus à
l’aide de ces techniques, quels sont les facteurs clés pour une mise en œuvre de ces
techniques.
• M. J.A. BERRY, G. LINOFF, Data Mining : techniques appliquées au marketing à la
vente et aux services clients, Masson, 1997
Ouvrage dont l’abord est aisé. Il reprend l’historique du data mining ainsi qu’une présentation
des principales techniques d’analyse assorties d’exemples d’application dans différents
secteurs d’activité. Il est essentiellement orienté vers le marketing.
• THURAISINGHAM, Data mining : technologies, techniques tools and trends, 1999
dR
Discussion sur la place du data mining et de ses perspectives d’évolution. Cet ouvrage ne
nécessite aucune connaissance particulière en statistiques ou en data mining.
• Progiciels du domaine : analyse statistique de données – data mining – traitement
d’enquêtes / CXP.
Cet ouvrage fournit la fiche signalétique de l’ensemble des logiciels répondant à la
problématique d’analyse statistique, de data mining ou encore de traitement d’enquêtes. Il
présente en une page de façon synthétique les techniques traitées par l’outil, ses
caractéristiques techniques et ses compatibilités avec d’autres outils.
• J.F. JAUDOUIN, Les réseaux de neurones : principes et définitions,
Cet ouvrage vise à présenter les concepts fondamentaux des réseaux de neurones et de leur
mise en œuvre. Une certaine culture scientifique générale semble nécessaire mais l’auteur ne
rentre pas dans des détails mathématiques poussés.
• J.F. JAUDOUIN, Les réseaux neuromimétiques,
IM
Cet ouvrage est la suite de l’ouvrage précédent du même auteur. Celui-ci vise un public plutôt
universitaire de second ou troisième cycle ayant une culture scientifique générale. Il présente
les notions fondamentales du connexionisme et vise à communiquer les connaissances
pratiques suffisantes à la mise en œuvre de réseaux de neurones.
• BREIMAN, FRIEDMAN, OLSHEN, STONE, Classification And Regression Trees,
Chapman & Hall, 1984
Ouvrage réalisé par les auteurs de la méthode. Il est donc nécessaire d’avoir une bonne culture
mathématique pour en faire sa lecture. Il est donc plutôt destiné à des spécialistes de ces
méthodes.
• J.G. TAYLOR, Neural Networks, Alfred Waller, 1995
Présentation des concepts mathématiques utilisés pour les techniques des réseaux de
neurones.
Page 9
3.2 LE DATA MINING ET LES APPROCHES CLASSIQUES
3.2.1 Rappels sur quelques approches classiques
Les approches classiques permettent d’effectuer des prévisions, d’effectuer des classifications
et des segmentations.
Nous allons présenter différentes méthodes, toutefois, pour approfondir les modèles
mathématiques correspondants, vous pourrez vous référer aux ouvrages suivants pour plus de
détails :
• “ Méthodes statistiques en gestion ” de M.Tenenhaus (DUNOD) ;
• “ Statistique exploratoire multidimensionnelle ” de L.Lebart, A.Morineau et M.Piron
(DUNOD).
3.2.1.1 Les méthodes descriptives : l’analyse des données multidimensionnelle
dR
3.2.1.1.1 Objectifs
Un individu est caractérisé en général par un nombre N important de variables. Sa
représentation géométrique se fait alors dans un espace à N dimensions qu’il est difficile
d’étudier si ce n’est impossible. C’est pourquoi on va chercher un espace dans lequel on
pourra interpréter la visualisation graphique.
Le principe de ces méthodes consiste à projeter les données sur un espace de dimension la
plus faible possible et d’étudier la meilleure représentation. Autrement dit, on va chercher à
résumer des variables naturelles par un ensemble plus réduit de variables synthétiques tout en
conservant un maximum d’informations.
Trois méthodes différentes seront présentées : l’analyse en composantes principales, l’analyse
factorielle des correspondances et l’analyse des correspondances multiples. On verra que ces
méthodes dépendent du type des données étudiées.
IM
3.2.1.1.2 L’analyse en composantes principales
Les données
L’analyse en composantes principales (ACP) est utilisée pour analyser des relations linéaires
entre des données quantitatives uniquement.
Principe
Page 10
Dans un premier temps, il est nécessaire de choisir le nombre d’axes du nouveau repère. Pour
cela, on étudie la matrice de corrélation des variables. Dans la pratique, on ne gardera que les
axes qu’on sait interpréter.
Il va ensuite falloir donner un sens à ces axes synthétiques. Tout d’abord, on va étudier la
corrélation entre les axes et les variables du tableau de données initiales. On utilise pour cela
le “ cercle des corrélations ” : c’est un graphique où les variables sont représentées par des
points dont les cordonnées sur un axe sont égales aux corrélations des variables avec cet axe.
On peut alors évaluer la qualité de représentation des variables. Plus une variable est proche
du cercle, plus sa qualité de représentation est bonne. Si toutes les variables ont des
coordonnées de même signe sur un axe, alors on considère cet axe comme un axe
d’opposition.
Puis, on va interpréter la position des individus par rapport à ces axes. Différents indicateurs
sont étudiés :
• la stabilité de la représentation : on regarde la contribution des individus à la construction
•
dR
des axes. Si un axe est essentiellement dû à quelques individus, il faudra alors
recommencer toute l’étude en les retirant de l’analyse ;
la qualité de représentation : on vérifie que la déformation due à la projection n’est pas
trop importante ;
* Ind2
IM
Sur le schéma précédent, on remarque que les deux individus 1 et 2 ont la même image dans
le nouveau repère alors qu’ils ne sont pas proches dans la réalité : L’individu 2 est mieux
représenté.
Le lien entre les individus : pour évaluer la proximité des individus, leurs coordonnées par
rapport aux axes sont étudiées.
Remarque : la métrique utilisée pour les différents espaces est la distance euclidienne.
Page 11
Exemple d’application : “ Etude de la criminalité dans 50 états américains ”
Les données représentent des taux de criminalité pour 100 000 personnes dans chacun des
états en 1977. Pour chaque Etat, on connaît les taux de meurtres, viols, vols, agressions,
cambriolages, larcins et vols de voitures.
dR
IM
Toutes les variables étant positives par rapport à l’axe des abscisses, on va considérer cet axe
comme un axe d’opposition. Il oppose les états dans lesquels la criminalité est faible à ceux
où elle est élevée.
En ce qui concerne l’axe des ordonnées, on remarque que les petits délits (vols,
cambriolages…) sont à valeurs positives alors que les délits importants (meurtre,
agression…) sont à valeurs négatives. Cet axe opposera donc les types de délits.
Page 12
• Etude des individus (Etats):
On va maintenant étudier la criminalité dans les différents états en examinant la représentation
des individus par rapport aux axes :
dR
En étudiant la position des états par rapport à l’axe des abscisses qui oppose la forte à la faible
criminalité, on remarque que les états du Dakota et d’West Virginia sont à faible criminalité
IM
en opposition avec ceux de New York, de Californie, de Floride et du Nevada où la
criminalité est importante. Quant à l’axe des ordonnées qui oppose les types de délits, il nous
indique que les états du Massachusetts, de Rhode Island, du Connecticut et de Delaware sont
surtout touchés par des petits délits (vols, larcins…) en opposition aux états d’Alabama, de
Louisiane, du Mississipi et de Caroline du sud où les délits sont violents (meurtre, viols…).
Page 13
Les données doivent être sous la forme d’un tableau de contingence. C’est un tableau dont
les lignes représentent les modalités de la variable1 et les colonnes celles de la variable2.
Variable2
j
dR
Principe
L’analyse des correspondances repose sur l’étude des proportions d’individus possédant telle
ou telle caractéristique (par rapport aux deux variables). Ainsi, alors que dans l’ACP on
utilisait la distance euclidienne comme métrique de l’espace, ici, c’est la distance du Chi2 qui
est utilisée.
La démarche à suivre est identique à celle de l’ACP.
Mais, alors que dans l’ACP, on visualisait d’une part les variables puis les individus, ici, on
va représenter les deux simultanément sur un même graphique.
Cette méthode peut se généraliser pour plus de deux variables comme on va le voir avec
l’analyse des correspondances multiples.
IM
3.2.1.1.4 L’analyse des correspondances multiples
Page 14
L’interprétation des résultats est identique à l’AFC, seul le format des données n’est pas le
même :
TABLE DE BURT
Variable K
dR mK
modalité i et la modalité k.
Très souvent dans la pratique, après avoir étudié les liaisons entre les variables et évalué les
ressemblances entre les individus à l’aide des méthodes factorielles, on effectue une
classification sur les résultats obtenus.
2
IM
1
d
i
m
e
n
s 0
i
o
n
-1
-2
- 0. 8 - 0. 6 - 0. 4 - 0. 2 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 1. 2 1. 4
di mensi on 2
Ici sont projetées les causes de divorce. Les deux axes sont un résumé de la réalité. Leur
interprétation s’effectue de la façon suivante :
Page 15
L’axe nommé dimension 2 oppose les raisons de divorce : séparation/pas de séparation et
entente/incompatibilité.
L’axe nommé dimension 1 ordonne les raisons moins violentes aux plus violentes.
Par la suite, on peut obtenir la représentation factorielle suivante :
1. 1
1. 0
0. 9
0. 8
0. 7
0. 6
0. 5
d 0. 4
i
m 0. 3
e 0. 2
n
s 0. 1
i
0. 0
o
n - 0.
1 - 0. 2
- 0. 3
- 0. 4
- 0. 5
- 0. 6
- 0. 7
- 0. 8
- 0. 9
dR
1
- 0. 7 - 0. 6 - 0. 5 - 0. 4 - 0. 3 - 0. 2 - 0. 1 0. 0
di m
0. 1
ensi on 2
0. 2 0. 3
On interprète la position des individus, ici les Etats américains, en fonction de l’interprétation
des axes effectuée à l’étape précédente. Ainsi, on distingue les Etats où les divorces sont liés à
0. 4 0. 5 0. 6 0. 7 0. 8 0. 9
des causes “ violentes ” l’Utah, l’Alabama,…. de ceux où les divorces ne sont pas liés à ce
type de cause, les Etats tels que la Californie….
Cette analyse peut être complétée par une classification.
IM
3.2.1.1.5 La classification
Différentes techniques de classification existent dont les principes peuvent être différents
notamment pour les critères et distances utilisés . Néanmoins, elles poursuivent toutes les
mêmes objectifs. La méthode présentée ci-après est la classification ascendante hiérarchique
(CAH).
Objectifs
Les méthodes de classification permettent de regrouper des individus en classes les plus
homogènes possible.
Ainsi, on va chercher à maximiser l’inertie interclasse (deux individus de deux classes
différentes doivent être les plus différents possible), ou de façon équivalente, minimiser
l’inertie intra-classe ( deux individus de la même classe doivent être les plus ressemblants
possible).
Page 16
Principe
Au départ, chaque individu forme une classe distincte. Les deux individus les plus proches
sont agrégés et forment ainsi une nouvelle classe qui remplace les deux anciennes. Cette
agrégation se poursuit jusqu’au moment où tous les individus sont rassemblés au sein de la
même classe. On représente les différentes classes sous forme d’un dendogramme :
a b c d e
dR
Exemple d’application
On souhaite classer 5 produits de grande consommation qui ont été notés sur l’esthétique de
leur packaging et la mémorisation de leur accroche publicitaire.
Ces produits ont obtenu les notes suivantes :
Produit A
Esthétique
1
Mémorisation
1
Produit B 1 2
Produit C 4 3
Produit D 4 5
IM
Produit E 2 4
Dans un premier temps, on va calculer les distances entre chacun des produits. On utilise la
distance euclidienne mais bien souvent se sont des distances plus complexes qui sont utilisées.
On va alors chercher les deux produits les plus ressemblants (les plus proches) :
A B C D E
A - 1.00 3.61 5.00 3.16
B - 3.16 4.24 2.24
C - 2.00 2.24
D - 2.24
E -
Page 17
D’après le tableau des distances précédent, on constate que ce sont les produits A et B qui se
ressemblent le plus, on va donc les regrouper en une même classe. Alors qu’au départ, on
avait 5 classes distinctes, nous n’en avons plus que 4 : {A,B}, {C}, {D}, {E}.
On réitère l’opération précédente sur les quatre classes. On obtient le tableau de distances
suivant :
AB C D E
AB - 3.61 5.00 3.16
C - 2.00 2.24
D - 2.24
E -
On va alors regrouper C et D, on obtient les classes suivantes : {A,B}, {C,D} et E
On obtient alors, le tableau suivant :
AB
CD
E
dR AB
-
CD
5.00
-
E
3.16
2.24
-
On va donc regrouper E, C et D. On a donc plus que les deux classes suivantes : {A,B} et
{C,D,E}
A B C D E produits
Page 18
Chaque classe regroupe donc les individus les plus similaires. Les classes sont par la suite
caractérisées par le profil moyen des individus de la classe.
L’ensemble des étapes est rendu transparent dans l’utilisation des logiciels de statistiques.
Néanmoins, il est nécessaire d’avoir des notions en statistiques afin de faire des choix :
nombre d’axes, nombre de classes,….et d’interpréter les résultats. Ces tâches nécessitent la
connaissance statistiques pour interpréter les différents indicateurs et résultats obtenus.
3.2.1.1.6 Synthèse
Une analyse statistique se décompose en différentes phases.
Une première étape consiste à valider les données dont on dispose.
La seconde phase dans une analyse statistique consiste à comprendre l’organisation des
données. Pour cela, on fait appel à des techniques dites descriptives qui varient selon la
nature des données.
dR
Le tableau suivant permet de spécifier quelle est la technique à utiliser en fonction de la
nature des observations :
Quantitatives
Analyse en
composantes
principales
Nature des variables d’analyse
2 variables
Analyse
Qualitatives
Plus de 2 variables
factorielle Analyse factorielle des
des correspondances correspondances
multiples.
Ces techniques d’analyse permettent de mettre en évidence certaines relations mais sont
uniquement descriptives. C’est un constat. Néanmoins, parmi ces méthodes, on distingue
IM
celles de visualisation que sont les analyses de type ACP, ACM, AFC des techniques de
classification. La démarche d’analyse communément utilisée est d’effectuer dans un premier
temps l’une des méthodes de visualisation qui permet d’obtenir un ensemble d’individus ou
variables projetés dans un plan et donc des coordonnées. Sur la base de ces coordonnées, on
effectue alors une classification.
Pour effectuer une prévision, il convient par la suite d’établir un modèle permettant
d’effectuer des prévisions. On va donc chercher à mettre en évidence une fonction liant une
variable à expliquer et des variables caractéristiques dites “ explicatives ”. Il est également
possible de mettre en évidence l’influence d’un facteur saisonnier à travers la méthode des
séries chronologiques. Cette méthode ne fait néanmoins pas partie de celles décrites dans les
paragraphes suivants.
Page 19
3.2.1.2 Les techniques de prévision
3.2.1.2.1 Objectifs
dR
expliquer en fonction de caractéristiques. Nous allons donc présenter le principe de ces
méthodes.
Les techniques de régression permettent de relier une variable à expliquer Y à un ensemble de
variables X1,…,Xk. Nous verrons par la suite que la méthode d’élaboration du modèle dépend
de la nature des données. Aussi, nous traiterons cas par cas les différentes méthodes (la
régression linéaire, la régression logistique et l’analyse de la variance).
Les données
La régression linéaire permet d’étudier la liaison entre une variable à expliquer quantitative Y
et une ou plusieurs variables indépendantes quantitatives X1,…,Xk (variables explicatives).
IM
Le modèle de régression consiste à considérer que la variable Y peut être assimilée à une
variable aléatoire dont la loi dépend des valeurs des variables explicatives. Sous cette
hypothèse, nous pouvons donc considérer le modèle suivant.
Le modèle statistique
On cherche à approcher Y par une combinaison linéaire des variables explicatives X 1,…,Xk.
Pour cela, on pose le modèle :
Page 20
Une fois le modèle défini, il reste à estimer les paramètres . Pour cela, il va falloir résoudre
le problème suivant.
Le problème à résoudre
On va rechercher des estimations 0, 1,…, k des paramètres 0, 1,…, k permettant de
reconstituer au mieux les données Yi à partir des variables indépendantes Xi1, Xi2,…, Xik.
Pour cela, on cherchera la solution qui minimise globalement, suivant un critère à définir,
l’ensemble des écarts à la linéarité, c’est-à-dire :
Choisir ( 0, 1,…, k) qui minimisent l’ensemble des ei
avec ei = Yi –( 0+ 1 Xi1 +…+ k Xik)
dR
En général, on utilise le critère de minimisation de la méthode des moindres carrés :
Min ( e i
2
)
En effet, ce critère s’avère conduire à des calculs algébriques simples, se prête à une
interprétation géométrique claire, et donne lieu à des interprétations statistiques intéressantes.
En considérant donc le critère des moindres carrés, on peut calculer les différents coefficients
.
Une fois le modèle défini, il reste alors à tester sa validité. Ainsi, il est nécessaire de tester
d’une part la qualité de l’ajustement puis, d’autre part, voir si la liaison globale entre Y et les
Xi est significative et si c’est le cas, étudier la liaison entre Y et chacune des variables Xi.
IM
Pour cela, l’étude de certains indicateurs présentés par la suite est nécessaire.
Page 21
On souhaite créer un modèle permettant de prévoir le prix d’un appartement en fonction de sa
superficie.
On possède au départ un échantillon de 28 observations comprenant pour chaque
appartement :
• son prix ;
• sa surface ;
• son prix au m².
Dans un premier temps, nous allons créer le modèle.
En appliquant la méthode des moindres carrés, on obtient le modèle suivant :
Y=26.77x-147.33,
où Y correspond au prix de l’appartement et X à sa surface.
dR
8000
7000
6000
Graphique prix/surface des appartements
Prix (en KF)
Page 22
3.2.1.2.3 La régression logistique
Les données
La modélisation logistique permet d’étudier la liaison entre une variable à expliquer
qualitative binaire ou ordinale et des variables explicatives quantitatives X1, X2,…, Xk.
Elle présente de nombreuses similarités avec la régression linéaire. En fait, seule la variable à
expliquer est différente.
La démarche adoptée consiste à relier les probabilités d’observer les différentes modalités de
la variable Y aux variables explicatives. En fait, une certaine fonction, dite fonction de lien de
ces probabilités, sera modélisée par une régression linéaire sur les variables explicatives.
Par ailleurs, ces probabilités n’étant pas disponibles a priori, elles seront estimées par des
proportions.
dR
Le principe
A partir de données explicatives (ex : le poids, la taille, l’âge…), on va chercher à prévoir un
événement de type binaire (ex : Des malades atteints du cancer vont-ils guérir ? oui ou non).
Pour cela, on va construire un modèle de régression donnant la probabilité que le malade
guérisse en fonction des différents paramètres explicatifs.
Une fois que ces probabilités sont calculées, grâce à un seuil que l’on fixe (ex : 80%), on peut
alors répondre à l’interrogation de départ : si la probabilité qu’il guérisse est supérieure à 80%
alors on considère que celui-ci va guérir.
Page 23
variable qui repose sur le concept de décomposition de l’analyse de la variance. On
sélectionne ainsi les variables significativement discriminantes, au sens statistique du terme.
Puis, à partir de ces variables, des règles d’affectation des individus à une classe vont être
élaborées ; ainsi, par la suite, lorsqu’un individu aura un certain nombre de caractéristiques,
on pourra automatiquement prévoir sa classe.
Les données
L’analyse de la variance est utilisée lorsque les variables explicatives sont nominales.
Cette technique est liée aux plans d’expériences et aux interprétations statistiques de données
expérimentales.
dR
En général, ces méthodes sont surtout utilisées dans le milieu médical ou agro-alimentaire
mais peuvent s’adapter à d’autres domaines si les données le permettent.
Principe
On cherche à évaluer l’influence des variables explicatives sur la variable à expliquer (ex :
étudier l’influence de la nourriture sur le rendement de vaches laitières).
Soient Y la variable à expliquer, u et v les variables explicatives nominales, on possède n
observations de Y (ex : nombre de litres de lait produit par une vache).
La variable u possède q modalités (ex : type de nourriture donnée à la vache : blé, maïs,
orge…).
La variable v possède r modalités (ex : quantité de nourriture : forte ou faible).
Soit yikj (ex : la vache n°10 nourrit avec une forte quantité de blé : yikj = le nombre de litres
de lait produit par cette vache) : la ième observation dont les caractéristiques sont : la kième
IM
modalité de la variable u (ex : le blé) et la jième modalité de la variable v (ex : forte).
Si l’on considère qu’il n’y a pas d’interaction entre les variables u et v, on a alors le modèle
linéaire suivant :
yikj = + k + k + ikj avec i=1,…,n ; k=1,…,q-1 et j=1,…,r-1.
3.2.1.2.6 Synthèse
Comme on a pu le constater, il existe une grande diversité des méthodes d’estimation d’un
modèle permettant d’expliquer une variable par d’autres variables caractéristiques. Chacune
des méthodes s’adapte à une problématique et à un type de données.
Quelle méthode utiliser suivant les données à traiter ?
On a pu voir que toutes ces méthodes permettaient de faire de la prévision mais qu’elles ne
s’employaient pas dans le même contexte. Ainsi, suivant le type de données dont dispose
l’entreprise et le problème posé : souhaitons-nous expliquer un phénomène quantitatif ou
Page 24
qualitatif ? Dans un premier temps, il convient de choisir la méthode adéquate. Le tableau
suivant classe les différentes méthodes suivant les types de données traitées.
Variable à expliquer
Quantitatives Qualitatives
Variables explicatives Quantitative • Régression linéaire • Analyse discriminante
simple ou multiple
• Régression logistique
• Régression non
linéaire
• Durée de vie
(paramétrique ou non
paramétrique)
dR Qualitative • Analyse de la
variance à un ou
plusieurs facteurs
Quantitative • Modèle linéaire
et qualitative généralisé
•
•
Régression logistique
Régression logistique
D’après l’étude faite dans ce chapitre sur les différentes méthodes classiques, on voit que
celles-ci répondent à un grand nombre d’interrogations que peuvent se poser les entreprises.
En effet, suivant les données à étudier, quelles soient qualitatives ou quantitatives, il existe un
moyen de faire de la prévision, de la classification, de la segmentation ou de détecter des
corrélations entre les données. Mais on a pu constater que ces méthodes demandaient
toutefois un minimum de connaissances en mathématiques, d’une part pour construire les
différents modèles et les tester, et d’autre part pour interpréter correctement les résultats.
C’est pourquoi, comme nous allons le voir par la suite, de nouvelles méthodes ont été créées
IM
pour permettre à des utilisateurs non mathématiciens d’analyser les données de l’entreprise.
Page 25
3.2.2 Les techniques de data mining
•
•
•
dR
3.2.2.1 Les données
Les données brutes sont rarement directement exploitables pour une opération de data mining.
Elles sont souvent issues de systèmes dont la vocation est la production et nécessitent des
adaptations, voire des transformations : codages, calculs, création de données combinées
calculées. Plusieurs problèmes se posent :
• définir le bon niveau de résumé ;
les architectures informatiques incompatibles ;
le codage incohérent des données ;
les données textuelles : les données textuelles (champs au format texte) posent beaucoup
de problèmes et sont souvent non utilisées. Il est très difficile d'extraire d'un champ texte
une donnée, sauf si le champ correspond à un codage connu ou s'il est très contraint (code
postal, numéro de sécurité sociale ou de plaque d'immatriculation de véhicule,…). La
méthode de codage la plus simple et la plus utilisée consiste à créer un tableau de
IM
transcodage avec un champ contenant une valeur possible et le résultat codé. On pourra
ainsi transformer les différentes orthographes possibles d'une commune (avec toutes les
formes d'abréviations imaginables) pour ressortir le code postal ou rechercher dans un
texte d'adresse les mots et y associer un code pays. Il faut noter cependant que des outils
de text mining font leur apparition et facilitent ces tâches ;
• les valeurs manquantes.
Les données peuvent être qualitatives (ou discrètes) ou quantitatives (ou continues) tant pour
la variable à expliquer que pour les variables explicatives. Néanmoins, selon les algorithmes
utilisés, elles feront l’objet d’une manipulation préalable, en particulier les variables continues
pourront être discrétisées (c’est-à-dire partagées en classes).
Pour une bonne mise en œuvre des techniques, il est nécessaire :
Page 26
• de procéder à des transformations de données qui accroissent l’efficacité de la méthode,
en particulier, transformer les champs cibles à valeur continue en quelques intervalles de
largeur suffisante, coder les noms et autres chaînes de caractères comme des index
numériques dans un tableau de noms ;
• d’ajouter des champs dérivés pour exprimer les relations entre les données ;
• de choisir des valeurs pour les champs qui manquent afin qu’elles aient un sens en cas
d’utilisation par les règles ;
• de disposer de données suffisamment fines pour permettre l’analyse. Si les données sont
trop fines, elles devront être résumées.
dR
Les arbres de décision sont particulièrement appréciés et utilisés dans les domaines de :
• la prévision ;
• la segmentation.
Ils sont mis en œuvre pour analyser les relations entre une variable Y (variable à expliquer ou
dependant variable) et un ensemble de p variables X j (variables explicatives ou independant
variable) dans le but d’élaborer des règles. Les règles sont alors utilisées pour prévoir quelle
valeur sera prise par la variable à expliquer en fonction des variables explicatives.
Afin de comprendre les arbres de décision, il semble nécessaire de préciser quelques
définitions de termes clés.
3.2.2.2.2 Définitions
Un arbre est une représentation sous une forme particulière de règles de décision comprenant
des opérateurs logiques “ ET ”, “ OU ”. On a par exemple la figure suivante qui représente un
arbre binaire :
IM
1
Var3 = 0 Var3 = 1
2 3
4 5 6 7
G1 G2 G1 G2
Page 27
• le nœud racine (le nœud 1) : il y en a un et un seul dans un arbre. Il contient l’ensemble des
observations et est caractérisé par la fréquence des modalités de la variable à expliquer sur
la population globale ;
• les nœuds intermédiaires (nœuds 2 et 3) : sont des sous-ensembles de la population initiale
obtenus par division du nœud racine par rapport à une variable. Le choix de cette variable
repose sur son pouvoir discriminant, c’est-à-dire sa capacité à différencier des individus.
On parle de variable discriminante. Ici, on a un arbre avec une seule couche de nœuds
intermédiaires. Ce nombre de couches peut varier. Les divisions peuvent être en deux sous-
ensembles, on parle alors d’arbre binaire mais peuvent également être supérieures. Le
partitionnement est récursif et s’effectue à l’étape suivante sur les nœuds intermédiaires.
Les nœuds obtenus par le partitionnement sont des nœuds descendants. Ceux à partir
desquels est effectué le partitionnement sont appelés des nœuds parents.
• Les nœuds terminaux ou feuilles (nœuds 4,5 6 et 7) : sont ceux pour lesquels la division
ne s’effectue plus. On aboutit à la conclusion finale de la règle.
dR
Variable discriminante : variable qui permet de différencier au-mieux des individus
dissemblables et de regrouper ceux les plus similaires.
Exemple :
pour une banque, Y peut être l’état des comptes courants (excédentaire, équilibré ou
déficitaire) et les variables Xi peuvent être des informations diverses de type montant du
revenu mensuel, nombre d’enfants à charge, profession exercée, niveau d’études, sexe, etc.
Page 28
dR
L’exemple consiste à déterminer l’état d’un compte bancaire : équilibré, retard de paiement de
60 jours ou de 30 jours. Différentes variables sont introduites dans l’arbre telles que
l’autorisation de découvert, la situation familiale. L’arbre obtenu peut se lire de la façon
suivante :
SI l’autorisation de découvert est faible OU Très faible OU Moyenne
Il existe différents algorithmes qui permettent la construction des arbres de décision. Les
principaux sont :
• CART : CLASSIFICATION AND REGRESSION TREES
• CHAID : CHI-SQUARED AUTOMATIC INTERACTION DETECTION
• C4.5.
Leurs principes et approches sont relativement différentes et ne permettent pas la même
utilisation des données. De plus, les différents logiciels proposent de choisir la méthode
d’apprentissage entre ces différents algorithmes. Ils vont donc faire l’objet d’une brève
présentation.
Page 29
• Cart :
Cet algorithme consiste à construire le plus grand arbre possible, appelé arbre maximal, et
ensuite à le réduire, on parle alors d’élagage, en déterminant un sous-arbre optimal. L’arbre
maximal est l’arbre qui contient l’ensemble des divisions binaires de nœuds possibles quel
que soient leur degré de pertinence.
Il répond à un problème de discrimination ou de régression selon que la variable à expliquer
est une variable qualitative ou quantitative.
L’algorithme consiste en une division récursive binaire du ou des nœud(s) parent(s) de telle
sorte que les nœuds descendants générés soient plus homogènes que le nœud parent et qu’ils
soient les plus différents possible entre eux relativement à la variable à expliquer.
La sélection de la variable discriminante s’effectue relativement à un critère défini dans la
méthode1.
dR
La construction de l’arbre suit les étapes suivantes :
1. Établir pour chaque nœud l’ensemble des divisions admissibles.
2. Définir un critère permettant de sélectionner la “ meilleure ” division du nœud considéré.
3. Définir une règle permettant de déclarer un nœud comme terminal ou intermédiaire.
4. Affecter chaque nœud terminal à l’un des groupes ou modalités de la variable à expliquer
(dans le cas de la discrimination) ou affecter une valeur à la variable à expliquer pour
chaque nœud (cas de la régression). La règle d’affectation dans le cas d’une
discrimination repose sur le principe de la modalité la plus représentée dans le nœud
considéré, et dans le cas d’une régression, elle consiste à affecter au nœud la valeur
moyenne prise par la population contenue dans le nœud.
5. Estimer le risque d’erreur de classement (cas de la discrimination) ou de prévision (cas de
la régression) associé à l’arbre.
IM
Remarque : les variables explicatives peuvent être discrètes ou continues.
• L’algorithme C4.5 :
C4.5 est la version la plus récente de l’algorithme d’arbre de décision développée par J. Ross
Quinlan. Cet algorithme est très proche de l’algorithme CART puisqu’il suit la même
démarche, c’est-à-dire, construction d’un arbre de taille maximale puis élagage.
Cet algorithme, à la différence du précédent, qui produit un arbre binaire, C4.5 peut conduire
des arbres binaires ou non binaires (la séparation des nœuds est supérieure à deux nœuds fils).
La séparation de chacun des nœuds lors de la construction de l’arbre maximal s’effectue en
fonction du nombre de modalités de la variable considérée pour la séparation du nœud.
Chacune des divisions possibles sont comparées entre elles. Le critère de comparaison repose
sur le principe du gain informationnel.
1
Pour en savoir plus, se rapporter à l’ouvrage CELEUX G, NAKACHE J.P., Analyse discriminante sur
variables qualitatives, Polytechnica, 1994
Page 30
Gain informationnel
Le nombre d’octets requis pour décrire une situation ou un résultat dépend de la taille
de l’ensemble des résultats possibles. S’il y a 8 classes de probabilités égales, il faut
log2(8) ou 3 bits. Si par ailleurs, il n’y a que 4 classes, il faut seulement log 2(4) ou 2
bits. Ainsi, on dit qu’une division qui part d’un nœud de 8 classes et arrive à des
nœuds de 4 classes a en moyenne un gain informationnel d’un bit.
L’élagage de l’arbre repose sur les données qui ont servi à la construction de l’arbre. Il a lieu
au niveau de chacune des feuilles de l’arbre en fonction du taux d’erreur et en supposant que
le taux d’erreur réel sera sensiblement pire que celui estimé. Soit N le nombre
d’enregistrements dans une feuille dont E sont mal classés alors le taux d’erreur est estimé par
dR
le rapport E/N. Le but de l’algorithme de croissance est de minimiser ce taux d’erreur. On
suppose que le taux d’erreur observé avec les données d’apprentissage se situe sur la borne
inférieure de l’intervalle de confiance.
Après l’élaboration de l’arbre, l’algorithme dispose d’un programme qui permet de transcrire
l’arbre de décision en règles de décision. Ce générateur de règles ne se contente pas de lire
l’arbre mais cherche également à généraliser ces règles en éliminant des conditions et en
comparant ensuite les taux d’erreurs prédits des règles plus courtes avec ceux des règles
initiales. Souvent les règles de plusieurs feuilles différentes vont se généraliser de la même
façon de sorte que le nombre de règles est inférieur à celui des feuilles de l’arbre.
• L’algorithme CHAID :
Cet algorithme à la différence des précédents ne cherche pas à tenir compte de toutes les
données puis à élaguer mais essaie plutôt d’arrêter la croissance de l’arbre avant la
construction de branches. Il s’appuie essentiellement sur des tests du Chi-Deux. Cet
algorithme est limité aux variables énumératives, les variables continues devront être
discrétisées, c’est-à-dire découpées en classes.
CHAID opère sur une variable nominale à expliquer et maximise le niveau de signification du
Chi-Deux pour chaque partition réalisée. La partition peut être supérieure à deux, elle n’est
pas nécessairement binaire.
La démarche globale de cet algorithme peut se résumer comme suit :
Étape 1
Page 31
déterminer la meilleure partition pour chacune des variables explicatives. On cherche à
réduire le nombre de modalités en testant si ces modalités sont statistiquement différentes ou
non. En cas de différence non-significative, les modalités sont regroupées et ne constitueront
qu’une seule et même ligne.
Étape 2
comparer les variables explicatives entre elles et choisir la plus significativement différente
des autres.
Étape 3
diviser les données par rapport à la variable sélectionnée à l’étape précédente.
Chacun des sous-groupes ainsi obtenus fait l’objet de cette même démarche de façon
indépendante. On obtient alors un arbre de décision non nécessairement binaire.
1980.
CHAID dR
Cette méthode est détaillée par Kass dans son article An Exploratory Technique for
Investigating Large Quantities of Categorical Data, publié dans la revue Applied Satistics,
consiste en fait à effectuer tous les tris-croisés entre la variable à expliquer et les
variables explicatives. La méthode consiste à diminuer le nombre de modalités des variables
explicatives en établissant des proximités entre les modalités. Une fois réduit ce nombre de
modalités, l’algorithme effectue un test du Chi-Deux (test d’indépendance) qui met en
évidence les tris-croisés à rejeter, car non significatifs, et focalise immédiatement son
attention sur les subdivisions potentielles.
On a donc recherché les variables les plus discriminantes. On a effectué la discrimination de
la population par rapport à la variable retenue. Cette méthode présente l’avantage de pouvoir
effectuer des segmentations supérieures à 2.
IM
3.2.2.2.5 Exemple d’application
L’algorithme C4.5 a été utilisé pour mettre en place des règles afin de décider du choix d’un
mode de transport en région parisienne.
Suite à une enquête détaillée sur les modes de transport en Ile-de-France, une étude a été
réalisée afin d’établir un modèle de détermination du mode de transport pour permettre des
simulations de l’évolution du trafic dans la région. L’analyse datamining mise en œuvre
consistait à étudier les facteurs déterminants du choix d’un mode de transport par les
franciliens.
Cette étude s’est déroulée en différentes étapes. La première étape a consisté en un examen
attentif des différentes données disponibles, à leur sélection et à leur recodage. Les deux cents
champs initiaux ont été regroupés par groupe thématique. On avait ainsi des renseignements
sur le lieu de résidence, la catégorie socio-professionnellle, etc. Seuls 26 champs ont
finalement été utilisés lors de la découverte de connaissances. Pour cette modélisation, il
s’agissait de prédire le type de déplacement codé à l’aide d’une variable à trois modalités : le
déplacement s’effectue à pieds, en voiture ou en transport en commun.
Page 32
La base de données comportait 400.000 enregistrements et assurait un représentation
statistique de la population en Ile-de-France. Les règles obtenues par utilisation de
l’algorithme C4.5 sont simples et couvrent des populations suffisamment importantes. Des
tests de validation ont été effectués et ont montré leur robustesse.
Néanmoins, cette application présente la particularité qu’elle consiste à prédire mais
également à déterminer les variables pertinentes dans le choix d’un mode de transport par un
usager. Il est apparu que les éléments déterminants dans le choix du mode de transport sont la
durée et la longueur du trajet. Par contre, les facteurs sociologiques et le motif de déplacement
n’ont pas l’importance attendue. Cette étude de data mining a donc permis d’envisager des
modèles de simulations plus simples et ainsi d’orienter les développements théoriques futurs.
3.2.2.2.6 Synthèse
Une grande diversité d’algorithmes conduisent à la création d’un arbre de décision.
Néanmoins, s’ils ont tous la même vocation, établir des règles pour effectuer des prévisions
dR
ou des segmentations, les données utilisables ne sont pas toutes strictement identiques.
Ainsi, le tableau suivant résume la compatibilité entre données, méthodes et résultats :
Variables quantitatives
Variables qualitatives
Résultats
CART
Oui
Oui
Arbre
binaire
uniquement
C4.5
Oui
Oui
Arbre
binaire ou
non
CHAID
Non
Oui
Arbre
binaire ou
non
Ces algorithmes sont présents dans la plupart des logiciels de data mining. Ils offrent la
possibilité de choisir l’algorithme d’apprentissage des règles. Le choix de l’algorithme va
IM
donc s’effectuer en fonction des variables et des résultats attendus. C4.5 est l’algorithme le
plus récent mais chacun comporte des limites plus ou moins contraignantes.
Page 33
Forces Faiblesses
• Nature des variables prises en compte : • Instabilité des arbres obtenus
qualitatives ou quantitatives (nécessaire d’itérer plusieurs fois
l’analyse pour obtenir une réponse
• Prise en compte des données
CART
fiable)
manquantes dans l’analyse
• Arbre construit ne peut qu’être binaire
• Procédure robuste vis-à-vis des données
aberrantes ou erronées
• Prise en compte des données pas être couverts par des règles.
dR
•
•
manquantes dans l’analyse
Arbre binaire ou non
Arbre binaire ou non • Variables uniquement qualitatives
CHAID
Page 34
Les principales utilisations de cette méthode concernent essentiellement le diagnostic de
crédit ainsi que l’analyse des tickets de caisse de magasin, ou encore le fonctionnement des
cartes de crédit ou de fidélité. Néanmoins, cette technique est également applicable dans
l’industrie pour l’analyse des pannes. Plus généralement, ces techniques s’appliquent pour les
problèmes où l’apparition d’un événement est conditionnée par des événements passés.
Cette méthode consiste à évaluer les affinités existantes entre les variables. Dans le cas de la
vente d’articles, on cherche à mettre en évidence les produits vendus simultanément par
identification des liaisons existantes.
Cette méthode repose sur des principes simples qui vont faire l’objet d’une brève
présentation.
La première étape consiste à détecter quelles sont les paires de produits ou de variables qui
apparaissent le plus fréquemment. On considère ainsi l’ensemble des couples ordonnés
possibles. On parle alors d’association.
Ces associations sont évaluées grâce aux indicateurs suivants :
•
dR
le niveau de confiance : il correspond au nombre de fois où chaque association possible
apparaît, rapporté au nombre de fois où l’une des variables apparaît seule. Ainsi, si l’on
considère trois tickets de caisse différents :
➢ ticket 1 : farine – sucre – lait ;
➢ ticket 2 : œuf – sucre – chocolat ;
➢ ticket 3 : farine – œuf – sucre – chocolat.
L’ensemble des associations possibles du ticket 1 est le suivant : farine/sucre – sucre/farine –
farine/lait – lait/farine – sucre/lait – lait/sucre.
Le niveau de confiance pour l’association farine/sucre est de : 2/2 (nombre de fois où
l’association apparaît / nombre de fois où la farine seule apparaît)
Le niveau de support : cet indicateur correspond au nombre de fois où l’association apparaît
rapporté au nombre de fois où l’une des variables de l’association apparaît. On prend la valeur
IM
maximale.
Dans une seconde étape, on cherche à mettre en évidence les associations pertinentes, soit
celles pour lesquelles le niveau de confiance et de support est élevé. Pour cela, on procède en
deux étapes :
• tout d’abord, les articles ou événements présentant un niveau de support supérieur à un
certain seuil sont isolés ;
• ensuite les articles les plus représentés sont combinés entre eux afin de générer les
associations.
Page 35
Le niveau élémentaire peut en revanche être utilisé pour confirmer une hypothèse quant à la
relation entre plusieurs variables, par exemple, on peut mesurer quel est l’impact de la marque
X sur les ventes d’un produit Y.
Cette méthode s’applique essentiellement à des données qualitatives.
Relativement à la méthodologie utilisée, on risque d’être rapidement confronté à des
problèmes de volumétrie dans le cas d’analyse de bases à fort volume.
dR
variante la plus courante, les réseaux de neurones apprennent sur une population d'origine
puis sont capables d'exprimer des résultats sur des données inconnues. Ils sont utilisés dans la
prédiction et la classification dans le cadre de la découverte de connaissances dirigée.
Certaines variantes permettent l'exploration des séries temporelles et des analyses non
dirigées (réseaux de Kohonen). Le champ d'application est très vaste et l'offre logicielle
importante.
3.2.2.4.1 Présentation
Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit
des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises pour activer les
muscles.
Il existe deux types de réseaux :
• à apprentissage supervisé où la réponse est connue ;
IM
• à apprentissage non supervisé où le réseau ne connaît pas le résultat.
Nous nous intéresserons ici aux réseaux à apprentissage supervisé. Le réseau est construit à
partir de cas connus (telles données en entrée doivent fournir tel résultat). Les données sont
présentées en entrée au réseau sous la forme d’une configuration d’activation des neurones
d’entrée. Cette activation est propagée à travers le réseau. La réponse fournie se présente sous
la forme de l’activation des neurones de sortie.
Ils répondent à une problématique de prévision et de classification sur tous types de variables.
Les données nécessitent une phase de manipulation préalables à l’estimation du modèle. En
effet, les données doivent être comprises entre 0 et 1 d’où la nécessité de recoder certaines
variables. Néanmoins, les logiciels mettant en œuvre cette technique permettent de rendre
transparente cette étape.
Les composants d’un réseau de neurones sont donc:
• le neurone formel ;
• une règle d’activation ;
• une organisation en couches ;
• une règle d’apprentissage.
Page 36
L’ajustement du modèle s’effectue pendant la phase dite d’apprentissage où le réseau apprend
les relations entre les variables à partir des données observées. Cette phase s’effectue
progressivement par itérations successives, par présentation répétée des données au système et
correction partielle des paramètres des neurones, on parle ici de poids, et ce jusqu’à la
satisfaction du critère d’arrêt. Ce critère d’arrêt peut être la durée autorisée d’apprentissage,
un certain laps de temps autorisé, ou la qualité du modèle. La qualité du modèle est évaluée
par comparaison des réponses estimées par le réseau et celles réelles. Il est conseillé de tester
sur un autre échantillon de données la qualité du modèle. En effet, dans la mesure où le
système est fortement surparamétré, il est souvent possible d’obtenir un très bon
apprentissage mais aucune garantie n’est offerte en ce qui concerne les performances des
données similaires. C’est pourquoi il est nécessaire de tester la qualité du modèle sur un jeu de
données indépendant de celui d’apprentissage.
Le réseau de neurones se présente de la façon suivante :
X1
dR X2
…….. Xj
…….. XJ
h1 …….. hk …….. hK
IM
Y
Page 37
3.2.2.4.2 Mise en œuvre d’un réseau de neurones
La construction d’un réseau de neurones est constituée des étapes suivantes :
• préparation des données ;
• détermination des paramètres ;
• phase d’apprentissage ;
• phase d’optimisation ;
• phase de test ;
• phase d’exploitation.
Seules les trois premières étapes seront présentées, les étapes suivantes ne présentant pas de
spécificité par rapport à une mise en place informatique classique.
dR
3.2.2.4.3 Préparation des données
La préparation des données consiste à déterminer les entrées et les sorties, constituer la base
d’exemples, coder les entrées et enfin optimiser le jeu de données, en particulier sa taille. La
dimension du jeu de données d’apprentissage dépendra du nombre de neurones et de couches
intégré dans le réseau. Il faut qu’il soit suffisamment important pour permettre un bon
apprentissage. Cependant, si sa taille est trop importante, le délai d’apprentissage sera long.
Page 38
• la fonction de sommation : définition de la nature de l’opérateur qui combine les poids des
Wi (somme, minimum, maximum, majorité, produit). La plus utilisée est la somme ;
• la fonction de transfert : détermination de la fonction à appliquer sur le résultat de la
fonction de sommation (sigmoïde, linéaire, gaussienne). La plus utilisée est la sigmoïde ;
• la fonction de normalisation : transformation de la sortie soit pour la rendre
compréhensible par l’utilisateur, soit pour la mettre dans des limites acceptables pour les
couches cachées ;
• la fonction de compétition : détermination de la ou des sorties qui seront présentes à la
couche suivante (la plus forte, les deux plus fortes, …) ;
• le calcul de l’erreur : calcul de l’écart entre la sortie donnée et la sortie calculée (erreur
moyenne, erreur absolue, erreur quadratique, sens de variation de l’erreur).
Ce sont des paramètres qui sont pré-établis dans les différents logiciels mettant en œuvre ces
techniques. Certains d’entre eux peuvent malgré tout être modifiés par un utilisateur averti.
•
•
•
dR
3.2.2.4.8 Principe de la phase d’apprentissage
L’apprentissage consiste à descendre le réseau de façon itérative en ajustant les poids à
chaque passage selon le calcul d’erreur jusqu’à ce qu’il n’y ait plus d’amélioration. Pour cela,
un algorithme de rétropropagation de l’erreur est mis en œuvre.
Principe de l’algorithme de rétropropagation de l’erreur :
initialiser la matrice des poids au hasard ;
choisir un exemple en entrée ;
propager le calcul de cette entrée à travers le réseau ;
• calculer la sortie de cette entrée ;
• mesurer l’erreur de prédiction par différence entre sortie réelle et sortie prévue ;
IM
• calculer la contribution d’un neurone à l’erreur à partir de la sortie ;
• déterminer le signe de modification du poids ;
• corriger les poids des neurones pour diminuer l’erreur.
Page 39
dR
3.2.2.4.9 Exemple d’application
Cet exemple est un cas concret d’application des réseaux de neurones. Il s’agit de modéliser la
corrosion de la peau. Un laboratoire de protection de l’environnement s’occupe
particulièrement des problèmes de toxicologie. Il vérifie et valide l’innocuité de nouveaux
produits à tester. Un des objectifs est de développer de nouvelles méthodes d’analyse
informatique afin de réduire l’ampleur des campagnes de test avant la mise sur le marché du
produit.
Les réseaux neurones ont été mis en place pour modéliser le degré de corrosivité de
substances chimique. Ils ont été entraînés à déterminer un degré de corrosivité (variable à
expliquer) en fonction d’un certain nombre de paramètres tels que le volume moléculaire, le
point de fusion, une mesure de l’hydrophobicité de la substance,….. Cela a permis d’élaborer
une nouvelle échelle à partir des informations existantes assurant ainsi un traitement plus
précis des substances limites.
IM
Page 40
3.2.2.4.10 Synthèse
Forces Faiblesses
• Souplesse : répondent à différentes • Codage des données d’entrée est
problématiques telles que la prévision, la nécessaire. Elles doivent être comprises
LES RESEAUX DE NEURIBES
dR
3.2.2.5 Les algorithmes génétiques
logiciels ont intégré dans leur offre les
réseaux de neurones
effectuer pour définir un réseau optimal
peut être consommateur de puissance
Les algorithmes génétiques représentent une technique dont la vocation principale est
l'optimisation, mais on peut également les utiliser pour des prédictions ou classifications. Leur
champ d'application est très large. C'est une technique récente : les premiers travaux datent de
la fin des années 50 où biologistes et informaticiens ont coopéré pour modéliser les
mécanismes génétiques sur ordinateur. Mais c'est surtout au début des années 60 que John
Holland développa ses travaux de recherche sur ce thème. Le terme d'algorithme génétique,
quant à lui, date de 1967, tandis que l'algorithme date de 1975. Ces concepts étaient mal
perçus car, à cette époque, régnait la recherche opérationnelle capable de trouver, par
définition, la meilleure solution, tandis que les algorithmes génétiques se basent sur un
IM
processus aléatoire dont l'objectif est de trouver une meilleure solution que celle en cours.
Actuellement, peu de produits commerciaux proposent ces algorithmes. En fait ils sont
intégrés de manière transparente pour optimiser l'apprentissage des réseaux de neurones.
Les algorithmes génétiques trouvent de nombreux domaines d'applications.
Page 41
3.2.2.5.1 Fonctionnement
Les algorithmes génétiques sont basés sur les principes de Darwin dans ce domaine. Les
chromosomes (à la base des théories sur l'hérédité et l'évolution) sont formés de brins d'ADN
(acide désoxyribonucléique). Ceux-ci sont porteurs d'informations sur toutes les
caractéristiques des individus (couleur des yeux, forme des lèvres, maladies héréditaires,
tares, …). Lors du processus de reproduction, les gènes se combinent entre eux et les gènes
les plus faibles ou les moins biens adaptés tendent à disparaître. Ceci rend les nouveaux
individus plus aptes à évoluer dans leur environnement. Il arrive également que certains gènes
se combinent mal et aboutissent à des anomalies génétiques.
Les algorithmes génétiques s'inspirent du processus naturel décrit ci-dessus. Le fichier de
départ doit être codé par des 0 et des 1. Un nombre n de chromosomes est fixé par le système.
Ce nombre ne bougera plus. Pour initialiser le processus, on peut prendre les n premiers
enregistrements. Chaque chromosome est évalué par une fonction adéquate. Cela donnera
dR
naissance à une nouvelle génération proportionnelle au résultat de l'évaluation. Divers
processus (mutation, croisement, …) seront mis en œuvre. Le système choisira de manière
aléatoire n nouveaux chromosomes parmi les descendants, ce qui réinitialise le processus.
Compte tenu de la méthode de calcul des descendants, les sujets potentiellement les mieux
adaptés ont plus de chances d'être choisis.
Page 42
Chromosome Evaluation % Angle en radians
111100110 12 35.3 % 2.218
100101000 4 11.7 % 0.739
011001001 000111011
15 44.1 % 2.772
001110110 9% 3 8.8 % 0.554
TOTAL 34 100 % 2 PI
111100110
35%
Valeur 000111011
retenue 9%
dR 011001001
44%
011001001
44%
111100110
100101000
12%
35%
100101000
12%
La roue
tourne
Page 43
•
dR Graphique 2 : processus de sélection des descendants
Manipulation génétique :
Lorsque les descendants sont définis, on peut procéder à des manipulations sur ceux-ci. Il
existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou l'inversion.
Hybridation
L'hybridation ou croisement (cross-over en anglais) consiste à permuter deux chromosomes à
Valeur retenue
partir d'un point choisi de manière aléatoire.
IM
Figure 1 : hybridation de deux chromosomes
Mutation
La mutation consiste à changer la parité d'un des éléments pris au hasard :
➔
Figure 2 : mutation d'un chromosome
Inversion
L'inversion consiste à intervertir deux caractères consécutifs :
Page 44
➔
Figure 3 : inversion dans un chromosome
50% à 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes
performances, le taux d'hybridation est souvent élevé (80% du taux de manipulation).
• Fin du processus :
Après les manipulations, le système choisit de manière aléatoire parmi tous les descendants le
nombre fixe de chromosomes (généralement faible, de l'ordre des unités). Le processus
recommence jusqu'à trouver une solution acceptable.
dR
IM
Page 45
3.2.2.5.3 Synoptique du processus de mise en œuvre des algorithmes génétiques
Choix des n
premiers
chromosomes
-1-
Génération des descendants Evaluation des
chromosomes
dR -2-
Sélection (choix pseudo-
aléatoire) d'une nouvelle
génération de n
chromosomes
-3-
Manipulations génétiques
(hybridation, inversion,
Solution acceptable
?
mutation)
IM
NON
OUI
Fin du processus
Page 46
3.2.2.5.4 Synthèse
Les algorithmes génétiques sont utilisés dans la découverte de connaissances dirigée. Ils
permettent de résoudre des problèmes divers, notamment d'optimisation, d'affectation ou
de prédiction.
Leur fonctionnement s'apparente à celui du génome humain. Le principe de fonctionnement
est le suivant : les données sont converties en chaînes binaires (comme les chaînes d'ADN -
acide désoxyribo nucléique-). Celles-ci se combinent par sélection, croisement ou mutation et
donnent ainsi une nouvelle chaîne qui est évaluée. En fonction du résultat, les chaînes les plus
faibles cèdent leur place aux plus fortes. Cette technique est particulièrement intéressante pour
résoudre des problèmes d'affectation ou des problèmes sur lesquels on peut poser une fonction
d'évaluation car elle peut trouver des solutions optimisées parfois inexistantes dans les
données d'origine.
HME
S
dR
LES
ALG
ORIT
GENE
TIQU
ES
•
•
•
analyser
Forces
Résultats explicites et faciles à •
3.2.2.6.1 Utilisation
Le RBC s'adapte bien aux bases de données relationnelles, qui sont les plus courantes dans le
domaine de gestion. Sa mise en œuvre est simple, ce qui en fait un outil apprécié. On peut
l'utiliser pour :
• estimer des éléments manquants ;
• détecter des fraudes ;
Page 47
• déterminer le meilleur traitement d'un malade ;
• prédire si un client sera intéressé ou non par telle offre ;
• classifier les réponses en texte libre.
3.2.2.6.2 Fonctionnement
Les systèmes de raisonnement à base de cas consistent à comparer une situation nouvelle à
une situation passée. Si elles sont suffisamment “ similaires ”, toutes les conclusions
appliquées à l’expérience passée restent valides et peuvent être appliquées à la nouvelle
situation.
La construction d’un RBC s’effectue en quatre étapes :
• la collecte des données ;
• la recherche des facteurs pertinents ;
•
•
dR
l’indexation des données ;
les tests et l’amélioration de la performance.
La base de données est constituée de cas qui représentent chacun une situation caractéristique
du domaine d’étude. Le cas comporte deux types d’informations : une collection de faits qui
décrivent un état particulier et cohérent, et un ensemble de déductions ou d’interprétations
envisageables relativement à la collection de faits.
Les données en entrée sont structurées sous forme de variables, définies par une liste finie de
modalités, ou sous forme textuelle libre. Néanmoins, dans ce dernier cas, il est plus difficile
d’identifier les facteurs pertinents.
IM
Etape 2 : la recherche des facteurs pertinents
Page 48
On définit ainsi la distance d suivante :
Nombre de mots - clés communes a et b
d(a, b) = 1 − ;
Nombre de mots - clés en a ou b
• la hiérarchisation des concepts :
elle s’écrit sous la forme d’une arborescence ce qui permet de limiter la mesure de la distance
aux seuls cas pertinents. On crée ainsi un contexte d’analyse et une liste des facteurs
pertinents pour chaque contexte.
Une fois la base de cas structurée, il reste à associer un nouveau cas avec d’autres qui
présentent un contexte identique. Le ou les diagnostics possibles sont alors présentés à
l’utilisateur.
La solution la plus probable s’appuie sur le nombre de fois où le cas s’est présenté et sur la
répartition des diagnostics sur ce sous-ensemble de cas.
dR
Etape 3 : l’indexation des données
Cette étape consiste à pondérer les différents critères de calcul de la similarité entre le
nouveau cas et les cas existants. La méthode d’indexation la plus couramment utilisée est
celle des plus proches voisins qui fait intervenir une fonction de similarité. Elle consiste à
calculer une distance entre le nouveau cas et les cas ayant le même contexte, à sélectionner les
distances les plus courtes et présente enfin les diagnostics les plus fréquents.
Les fonctions de similarité peuvent faire intervenir le dénombrement des cas ou également
une pondération des critères.
3.2.2.6.3 Exemple
Pour notre exemple, considérons une liste de clients ayant déjà répondu à une offre
commerciale (par oui ou non). L'utilisateur métier estime que les critères les plus déterminants
sont le sexe, l'âge et le salaire net du dernier semestre. Soit la liste suivante de clients
identifiés :
Numéro Age Sexe Salaire Acheteur
A 27 F 19000 Non
B 51 M 66000 Oui
C 52 M 105000 Non
D 33 F 55000 Oui
E 45 M 45000 Oui
Considérons maintenant un nouveau client : une femme de 45 ans ayant un revenu de 100000
Francs. Déterminons si cette cliente sera intéressée ou non par l'offre.
Page 49
La fonction de distance est définie ainsi : il s'agit d'une femme, donc la distance par rapport
aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on ajoute
la distance normalisée du salaire et de l'âge, ce qui donne les tableaux des distances suivants :
dR
Utilisons maintenant la fonction de combinaison. Il va falloir déterminer le nombre de voisins
retenus pour l'estimation de la réponse. Pour l'exemple, nous allons faire varier ce nombre de
1 à 5. Cela nous donne le tableau de synthèse suivant utilisant la fonction de combinaison:
Nombre
retenus
de
D
O
Oui 1
2
DC
O,N
Oui 1
3
DCB
O,N,O
Oui 2
4
DCBE
O,N,O,O
Oui 3
5
DCBEA
O,N,O,O,N
Oui 3
Non 0 Non 1 Non 1 Non 1 Non 2
Valeur retenue Oui ? Oui Oui Oui
IM
Evaluation 100 % 50 % 66 % 75 % 60 %
Il est préférable de prendre un nombre impair car la réponse ne peut prendre que 2 valeurs et
on évite ainsi les réponses incertaines (cas de 2 voisins).
Si nous ne retenons que les trois voisins les plus proches, la réponse sera favorable avec une
probabilité (ou plutôt une espérance) de 66%.
Il aurait été possible également de donner un poids à chaque contribution. Par exemple le
premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisième un
poids de 1. On peut également affecter des poids à chaque variable utilisée dans la fonction de
distance.
Page 50
3.2.2.6.4 Synthèse
Forces Faiblesses
• Résultats explicites • Nécessite un important volume de
LE RBC
dR
combinant entre eux. L'avantage du RBM est qu'il est facile à comprendre, à mettre en œuvre,
très stable (les nouvelles données n'entraînent pas de refaire fonctionner un système de calcul)
et supporte tout type de données. Les performances de cette technique sont assez bonnes.
3.2.2.7 Les réseaux bayésiens
Les réseaux bayésiens sont une méthode probabiliste classique utilisée pour estimer une
probabilité d’apparition d’un événement, étant donné la connaissance de certains autres
événements. Ils consistent en un modèle graphique qui encode les probabilités entre les
variables les plus pertinentes.
Cette technique complétée par des statistiques classiques permet de comprendre les relations
causales existant entre les variables (mesure d’impact) pour déclencher une action. On fait
donc appel à une notion de seuil.
3.2.2.7.1 La conception
IM
Un réseau bayésien est un graphe orienté dont les nœuds représentent des variables et les arcs
symbolisent les dépendances entre les variables. Chaque nœud ne peut être relié que par un
nœud ou une variable le précédant. La probabilité d’une variable est mesurée par sa fréquence
d’apparition. La force des relations entre les variables est mesurée par les probabilités
conditionnelles.
Toutefois, le réseau peut s’avérer complexe car :
• pour des variables qualitatives, il y a autant de nœuds créés que de modalités existantes ;
• les connexions entre les nœuds peuvent être nombreuses, en particulier s’il est totalement
connecté (les nœuds sont connectés deux à deux).
Cette complexité peut entraîner des temps de calculs relativement longs.
Pour pallier à cette difficulté, il est possible d’élaguer le réseau en :
• regroupant les valeurs ;
Page 51
• limitant les liens : un nombre maximal de liens parents pour un nœud est fixé . Cette
solution permet de réduire le temps de calcul mais peut conduire à une perte de dépendance
entre variable et donc à un modèle qui ne traduit plus la réalité car trop simplifié.
Différents réseaux peuvent exister. Il convient de sélectionner le meilleur. Pour cela, la
démarche de mise en œuvre s’effectue en quatre phases.
dR
peut être une variable d’entrée pour une autre variable. La sélection des variables dans le
modèle s’effectue par un classement qui repose sur le mesure d’entropie entre les variables
qui reflète la mesure d’incertitude a priori. La sélection des variables s’opère relativement à
un seuil fixé.
Pour plus d’informations sur la mesure d’entropie, se reporter à l’annexe 1.
Les applications opérationnelles de ce type de technique sont peu nombreuses. Les logiciels
proposant ce type de techniques sont également peu nombreux.
Néanmoins, voici quelques applications existantes :
• AT&T a développé un système de détection de fraudes, ou plus généralement de mauvais
payeurs, en ce qui concerne le paiement des factures téléphoniques ;
• Le centre de recherche californien de la société Ricoh a développé un système
d’assistance aux opérateurs chargés d’intervenir sur des photocopieurs en panne. En
fonction des symptômes, le système recherche les causes de panne potentielles, et présente
à l’utilisateur un accès aux pages de la documentation concernée ;
• General Electric utilise les réseaux bayésiens pour l’analyse des performances des
moteurs d’avion pendant leur révision générale. Le problème clé de la révision des
Page 52
moteurs est de déterminer l’action de maintenance la plus appropriée pour ramener si
nécessaire les performances du moteur dans le domaine défini par le constructeur. La
difficulté est de relier les différentes mesures pour en déduire un problème potentiel, et
donc l’action à effectuer.
Les logiciels proposant ce type de techniques sont relativement peu nombreux. Cependant, on
peut noter que Microsoft développe une expertise dans le domaine des réseaux bayésiens.
Microsoft a développé par ailleurs un outil basé sur les réseaux bayésiens nommés MSBN
(Microsoft Belief Network).
3.2.2.7.3 Synthèse
Forces Faiblesses
LES
RESE
AUX
BAYE
SIENS
dR • Méthode robuste face aux données
manquantes ou au bruit
• Méthode qui se situe entre réseaux
de neurones et arbres de décision
•
•
Consommatrice de puissance de calcul
Le réseau n’est pas nécessairement
optimal
Les réseaux bayésiens sont une technique nouvellement mise en œuvre dans les logiciels.
Ainsi, cette technique ne fait que rarement partie des méthodes proposées par les outils de
data mining. Ils ont été utilisés pour la modélisation des processus d’alertes dans le domaine
industriel, ou la prédiction de risque d’impayés dans le domaine des télécommunications.
Page 53
Pour comprendre cette diversité, il faut savoir qu’à son origine le data mining recouvrait les
quelques méthodes que nous avons présentées précédemment. Auparavant, les seules
méthodes étaient celles dites plus classiques qui nécessitaient une culture statistique pour leur
utilisation et surtout leur interprétation. Le data mining visait à mettre à la disposition des
décideurs ces techniques. On assistait à un phénomène de vulgarisation des techniques.
Aujourd’hui le terme de data mining recouvre l’ensemble des techniques permettant de
comprendre les données.
Les techniques de data mining proprement dites telles que les arbres de décision ou les
réseaux de neurones apparaissent fréquemment comme une solution miracle, mais qu’en est-il
vraiment ? Sont-elles si différentes des techniques classiques ? Quels sont leurs atouts et leurs
faiblesses ? Ont-elles des limites ?
dR
néophyte.
On peut établir cette comparaison à travers le tableau suivant :
IM
Page 54
Techniques classiques Nouvelles Techniques
dR
AFC, ACP, ACM Analyse discriminante Régressions Arbres de décision Règles d’association Réseaux de neurones
O Analyse descriptive Etablir une prévision Etablir un modèle sous Etablir des règles Etablir un ensemble de Etablir des prévisions,
bj des données pour une variable la forme d’une représentées sous la règles segmentation.
ec qualitative à l’aide de équation linéaire ou forme d’un arbre afin
Compréhension des
tif variables explicatives non linéaire afin de d’effectuer une
relations entre les
s par la recherche des prévoir une variable à segmentation, des
variables
variables qui expliquer en fonction prévisions
différencient le plus de variables
les individus explicatives
Pr Utilisation des notion • Utilisation des • Utilisation des Les principes sont Reposent sur les • Estimation d’une
in de distance, de notions de principes de différents selon les notions de fréquence fonction non-
ci corrélation corrélation, de corrélation, algorithmes mais ils d’apparition de linéaire complexe.
pe variance. d’estimation des consistent à couples de variable
Projection des • Repose sur des
s paramètres du déterminer les
individus et/ou • Utilisation algorithmes
modèle par la modalités de variables
variables sur un plan d’hypothèses à d’apprentissage.
factoriel méthode des qualitatives ou
vérifier sur les
moindre carrés quantitatives
Interprétation des axes variables
permettant de séparer
en s’appuyant sur un explicatives • Tests de
la population initiale
ensemble d’indicateurs significativité du
en sous-ensembles.
fournis par les modèle et des
variables On parle également de
méthodes
introduites dans le variables
modèle discriminantes.
• Intervalles de
confiance des
paramètres estimés
Page 55
Techniques classiques Nouvelles Techniques
AFC, ACP, ACM Analyse discriminante Régressions Arbres de décision Règles d’association Réseaux de neurones
dR
Ré • Représentation Représentation sous la Une équation avec de Un arbre qui se Un ensemble de Un modèle non
su sous forme d’un forme d’équations du type : y=f(x)+. parcourt de la racine règles. explicité
lta plan factoriel problème. aux feuilles selon les
Elle permet Des indicateurs de
ts défini par deux ou modalités prises par un
Elle permet d’effectuer une qualité du modèle.
plusieurs axes qui individu placé en
d’effectuer une prévision ainsi que des
sont des résultats entrée.
prévision. simulations.
synthétiques des La lecture s’effectue
variables initiales en termes de
• Indicateurs de probabilités.
qualité et de
représentation
Page 56
Remarque :
CART peut concurrencer les méthodes plus classiques que sont la régression multiple,
l’analyse discriminante et la régression logistique pour sa problématique.
On constate donc que, globalement, ces familles de technique recouvrent les mêmes
problématiques et objectifs mais sont différentes relativement aux concepts utilisés au sein de
ces techniques. Néanmoins, les méthodes dites de data mining font appel à des notions
statistiques tels que la corrélation, les tests du Chi-Deux, le calcul de fréquence,….
Les différences essentielles concernent :
• les utilisateurs potentiels : les techniques classiques nécessitent une bonne connaissance
du domaine statistique afin d’interpréter les résultats alors que les résultats fournis par les
techniques de data mining ne nécessitent aucune connaissance particulière ;
• le volume de données : les analyses classiques peuvent être parfois limitées par le volume
de données à traiter. Les volumes actuels importants. Les techniques d’analyse classique
•
dR
font fréquemment appel à des calculs matriciels forts consommateurs de mémoire. Les
techniques de data mining répondent plus facilement à cette problématique de forte
volumétrie ;
l’utilisation des résultats : les résultats fournis par les méthodes dégageant un ensemble
de règles sont utilisables et peuvent être exploités tout comme les modèles estimés à
l’aide des méthodes dites classiques ;
la clarté des résultats : les résultats fournis par les techniques de data mining sont
explicites et facilement exploitables, en particulier les arbres de décision, ou totalement
obscurs (les réseaux de neurones !) alors que ceux fournis par les techniques classiques
sont explicités mais nécessitent une bonne culture statistique.
Page 57
3.3.3 Limites et contraintes
Comme toutes techniques, certaines nécessitent une transformation des données qui peuvent
introduire un biais dans les résultats. En effet, en particulier, par exemple, les réseaux de
neurones nécessitent que les valeurs fournies en entrée soient comprises entre 0 et 1 ce qui
peut biaiser les résultats.
De même, on a vu que les arbres de décision se présentaient sous une forme conviviale mais
ils se trouvent également limités par le volume de données si une variable dispose d’un trop
grand nombre de modalités. De plus, il convient de s’assurer que sa lecture et son usage
s’effectuent en termes de probabilités.
Un certain nombre de règles sont à respecter, en particulier celles préconisées dans la
démarche qui est d’échantillonner la population initiale globale en deux sous-populations qui
constitueront les échantillons d’apprentissage et de test contenant respectivement 70% et 30%
de la population initiale. Le premier sera utilisé pour déterminer et construire le modèle alors
dR
que le second sera plus particulièrement utilisé pour les valider le modèle obtenu
préalablement à sa mise en exploitation.
Aujourd’hui, on constate un engouement pour ces techniques de la part des industriels, mais
leur succès tient plus à la présentation des résultats qu’aux performances réelles de ces
analyses. Néanmoins, elles répondent ainsi à un besoin d’analyses statistiques réalisées non
plus par l’expert du domaine statistique mais par un néophyte en la matière. Le décideur
obtient alors des résultats simples et synthétiques lui permettant d’orienter ses décisions.
Face à cet engouement, les éditeurs de logiciel ont développé un ensemble d’outils qui vont
faire l’objet d’une présentation dans le paragraphe suivant.
Predict SPSS
Datamind
Alice Business
5 KF
Scénario Miner PC
Utilisateur Compétences requises Expert
On constate que se dégagent différents groupes de produits qui peuvent être caractérisés
comme suit :
Page 58
• des logiciels simples demandant peu de compétences particulières de la part des
utilisateurs. On retrouve dans cette catégorie des produits tels que Business Miner, Alice,….
Les plupart de ces produits sont dédiés à une seule méthode. Ces outils souvent utilisés sur PC
ont la particularité d’être fortement conviviaux et faciles d’apprentissage ;
• une deuxième catégorie de produit qui nécessite certaines connaissances mais restent
utilisables par un utilisateur non-averti et offrent des fonctionnalités permettant aux experts du
domaine de préciser certains paramètres. On retrouve ici des produits tels que Datamind,
Clementine,…. Les produits de cette gamme fonctionnent essentiellement sur PC mais
peuvent également être utilisés en mode client-serveur ;
• enfin, une troisième catégorie regroupe les outils demandant le plus d’expertise dans le
domaine, même si des efforts et des progrès en termes de convivialité et facilité
d’apprentissage ont été faits par les éditeurs. On retrouve ici des produits tels que SAS
Enterpise Miner, Intelligent Miner (IBM)… Ces outils permettent le traitement de forts
volumes de données et offrent une gamme complète de méthodes. Pour le traitement de
données à forte volumétrie, il est évident que leur mise en œuvre s’effectue essentiellement
•
•
•
dR
sur gros serveurs.
Page 59
Alice (Isoft)
Scénario (Cognos)
dR
BusinessMiner (BusinessObjects)
Volume
Quelques milliers
d'enregistrements
SGBD
On distingue les produits selon leur diversité méthodologique et les utilisateurs potentiels.
On a vu qu’il existait deux types de produit présentant plusieurs méthodes d’analyse mais
dont la richesse algorithmique et les capacités volumétriques sont plus différentes :
IM
• Première sous-catégorie avec des limites volumétriques :
➢ Datamind ;
➢ Knowledge Seeker ;
➢ 4Thought ;
➢ Mineset ;
➢ Clementine ;
➢ SPSS ;
• Seconde sous-catégorie sans (ou peu) de limites volumétriques :
➢ SAS Enterprise Miner ;
➢ Decision Series ;
➢ Intelligent Miner.
Page 60
Datamind (Datamind Inc.)
dR
d'enregistrements
4Thought (COGNOS)
Volume
Peu de limites
SGBD
• ODBC
• Windows
Machine Utilisateurs
• Windows Avertis
• Réseaux neuronaux
Méthodes
• Techniques de régression
• Réseaux neuronaux
+
Séries temporelles
Clementine fait aujourd’hui partie de l’offre logicielle proposée par SPSS Inc. éditeur du
logiciel statistiques SPSS. Ce dernier dispose également d’un module permettant de réaliser
des arbres de décision.
Page 61
Decision Series (Novista)
dR Volume
Pas de limites
SGBD
• DB2
• Oracle
Machine
• Unix
Utilisateurs
Experts
Méthodes
• Réseaux neuronaux appliqués à
différentes techniques
(clusterisation, régression…)
• Arbres de décision appliqués à
différentes méthodes
(segmentation,
clusterisation,…)
• Règles d’association
3.5 SYNTHESE
Page 62
Face à l’augmentation du volume de données engrangées par les sociétés, ces dernières
prennent conscience de la richesse qu’elles peuvent contenir. Cette prise de conscience
s’accompagne de l’émergence de techniques dites de data mining. Auparavant, les entreprises
avaient à leur disposition des techniques d’analyse statistique mais qui nécessitaient la
connaissance et la maîtrise des techniques. L’émergence du data mining correspond donc à la
volonté de mettre en œuvre des techniques d’analyse mais par les décideurs.
L’émergence du data mining vient donc des progrès réalisés dans le stockage de données. Les
outils de gestion des bases de données ont rendu accessible l’idée d’en tirer un maximum
d’informations rapidement et facilement pour aide à répondre aux questions que se posent les
propriétaires de ces bases de données souvent diverses et énormes. Les techniques statistiques
doivent donc être rendues accessibles à tous à travers des outils faciles d’accès.
La technologie logicielle fait donc partie intégrante du data mining. Il regroupe toutes les
techniques et algorithmes utilisés dont la fin est la découverte d’informations.
Les objectifs poursuivis par les méthodes sont donc essentiellement les mêmes que celles de
l’analyse statistique, à savoir comprendre les clients ou un phénomène, pour prévoir, anticiper
dR
et ajuster une politique d’entreprise. On se situe dans le cadre de la rationalisation des prises
de décision. Les techniques mises en œuvre sont essentiellement les arbres de décision, les
règles d’association ou encore les réseaux de neurones. Elles sont essentiellement mises en
œuvre pour des actions orientées client (marketing, ciblage, mailing….).
Il est clair que le data mining utilise de manière privilégiée les outils d’analyse des données
multidimensionnelles qui émanent de la communauté statistique. Pourtant le data mining ne
se présente pas comme une branche de la science statistique. Dans ce texte, largement inspiré
de la conférence de J. Friedman “ Data Mining and Statistics: What’s the Connection ? ” au
29ème symposium on the Interface (mai 1997, Houston, Texas), nous essayons d’esquisser les
différences entre le data mining et les techniques statistiques multidimensionnelles.
Les techniques de data mining cherchent à :
• être rapides et à même de traiter de très grands ensembles de données ;
• être d’utilisation aisée (user friendly) ;
IM
• fournir des résultats faciles à interpréter.
Voici la liste des principales méthodes plus ou moins ignorées par le data mining :
• Méthodes exploratoires
Page 63
➢ analyse en composantes principales ;
• Méthodes prédictives :
➢ régression linéaire ;
➢ analyse de variance ;
➢ analyse discriminante ;
➢ régression logistique ;
dR
➢ modèles linéaires généralisés ;
➢ modèles additifs.
Seules certaines de ces techniques ont fait l’objet d’une présentation dans le présent document
mais font néanmoins partie intégrante des analyses statistiques disponibles.
Les promoteurs des techniques d’analyse factorielle ont toujours insisté sur le fait que
l’interprétation des plans factoriels devait obéir à des règles strictes et se faire avec minutie.
Dans cet esprit, les ouvrages de l’analyse des données mettent en garde contre une mise en
œuvre et une lecture hâtive des représentations factorielles.
Les méthodes prédictives qui viennent d’être citées sont pour la plupart fondées sur des
modèles probabilistes précis et elles demandent effectivement, pour une mise en œuvre
optimale, une bonne compréhension des hypothèses sous-jacentes ou explicites qui les sous-
IM
tendent. On peut à ce propos s’attarder sur l’exemple de l’analyse discriminante.
L’analyse discriminante regroupe toutes les techniques qui visent à affecter un individu à l’un
des groupes définis a priori à partir de la connaissance des valeurs qu’il prend sur des
variables explicatives. Il s’agit par exemple de prévoir si une personne risque d’être un
mauvais payeur au vu de ses caractéristiques sociales, familiales et culturelles. Il existe de
nombreuses méthodes d’analyse discriminante. Parmi les plus efficaces et les plus utilisées,
on trouve des techniques paramétriques (l’analyse discriminante linéaire, l’analyse
discriminante quadratique), semi-paramétriques (la régression logistique) et non
paramétriques (méthode des noyaux). L’analyse discriminante est bien sûr une problématique
très présente en data mining. Mais, finalement, les techniques d’analyse discriminante
utilisées par le data mining sont assez restreintes.
Page 64
Il s’agit :
• des méthodes d’arbres de décision (méthodes non paramétriques séduisantes par leur
facilité d’interprétation),
• la méthode des plus proches voisins (technique non paramétrique de conception très
simple),
Par contre, des techniques anciennes et souvent très efficaces comme l’analyse discriminante
linéaire et la régression logistique sont négligées par le data mining. Néanmoins, certains
logiciels tendent à intégrer quelques-unes de ces méthodes ; citons SAS Enterprise Miner par
exemple qui a intégré les méthodes de régression linéaire et logistique.
dR
Signalons enfin que les différences entre data mining et statistique ne sont parfois
qu’apparentes. Par exemple, des modèles explicatifs faisant appel à des graphes sont en
général connus sous le nom de réseaux bayésiens dans la communauté du data mining et sont
plutôt connus sous le non de modèles graphiques d’association dans la communauté
statistique.
Le futur
On peut penser que les deux domaines, le data mining, domaine émergeant et très appliqué, et
la statistique multidimensionnelle, domaine maintenant assez ancien et bien-fondé
théoriquement, vont se rapprocher.
D’une part, les logiciels de data mining incluent de plus en plus de techniques relevant de la
statistique multidimensionnelle. Un bon exemple est celui du modèle de mélange de lois de
probabilité, par excellence modèle probabiliste de classification et de structure latente, qui est
IM
de plus en plus présent dans la communauté du data mining, ainsi que l’algorithme EM, outil
de statistique célèbre pour l’estimation de modèles à structure cachée. Inversement, on voit
les tenants des méthodes neuronales de plus en plus s’interroger sur les modèles probabilistes
sous-jacents aux réseaux de neurones construits et introduire des techniques (comme, de
nouveau, l’algorithme EM) et des points de vue (par exemple, émergence du paradigme
bayésien) statistiques.
D’autre part, le data mining pose des défis importants et intéressants à la statistique
multidimensionnelle. En effet, la nécessité de disposer d’algorithmes efficaces spécifiques
pour traiter de très grands ensembles de données s’impose de plus en plus, et devrait conduire
à un développement des méthodes statistiques dans des domaines comme la génétique et
l’astronomie. Pour ce type de problème, on peut penser d’ailleurs que la science statistique
pourra facilement faire progresser les méthodes utilisées grâce aux techniques
d’échantillonnage trop peu utilisées actuellement pour le data mining.
Un autre défi important posé par le data mining réside dans la perspective de doter des outils
classiques comme l’analyse factorielle, et des méthodes aussi anciennes que l’analyse en
composantes principales, d’outils d’aide à l’interprétation des résultats plus modernes et
Page 65
conviviaux que ceux actuellement disponibles tout en préservant la rigueur dans la démarche
d’analyse.
En conclusion, le data mining, dont le succès témoigne de son utilité, est un facteur de
dynamisme pour la statistique multidimensionnelle et la coopération des deux domaines
devrait conduire à augmenter la fiabilité et les champs d’intervention du data mining.
dR
Le data mining concerne avant tout l’analyse de très grandes bases de données souvent
disparates. De par leur nature, les techniques du data mining sont bien adaptées pour traiter
des données industrielles archivées, nombreuses mais mal organisées et susceptibles de
contenir des informations importantes et peu visibles sur les processus de fonctionnement
qu’elles décrivent. Ce domaine d’application est souvent évoqué dans les textes généraux sur
le data mining (voir par exemple Chen, Han et Yu 2000 ou Jianhua et Deyi 1998). Mais,
comme on l’a vu dans la première partie de cette étude, il s’est surtout développé dans le
domaine du marketing. Ses applications dans le domaine de la sûreté de fonctionnement sont
encore assez rares. Ainsi, par exemple dans les actes du dernier congrès 12, qui s’est tenu
à Montpellier en mars 2000 et qui donne une bonne photographie des activités et des
tendances dans le domaine de la sûreté de fonctionnement, nous n’avons relevé aucun article
relevant directement du data mining. L’une des raisons de cet apparent désintérêt est, qu’à
l’heure actuelle, les études de fiabilité concernent assez peu les données
multidimensionnelles. Ainsi, nous n’avons retenu que trois articles qui peu ou prou peuvent
être rapprochés de la problématique du data mining.
IM
• L’article de Van der Vliet et Masson (2000) “ Plan d’expériences et sûreté de
fonctionnement ” traite bien de données multidimensionnelles puisqu’il s’agit de
débusquer les facteurs susceptibles d’influencer la sûreté fonctionnement d’un système
industriel. Mais c’est fait dans une optique franchement opposée au data mining. En effet,
le cadre de leur étude est celui d’essais planifiés et les méthodes d’analyse relèvent de
l’analyse statistique traditionnelle (l’analyse de variance en l’occurrence). Du moins cet
article, très intéressant, nous donne l’occasion de tracer une frontière entre data mining
dans le domaine industriel et les techniques statistiques fondées sur des plans
d’expérience. Le data mining concerne l’analyse de données recueillies au vol lors de
processus de fonctionnement ou de fabrication réels et non lors d’essais planifiés. Dans le
deuxième cas, tout l’art des plans d’expérience consiste à construire avec soin et
pertinence les données. Au contraire le data mining part de données non contrôlées,
souvent parcellaires et non homogènes, parfois de fiabilité douteuse et dont la pertinence
n’est pas avérée a priori. L’art consiste alors à tirer des informations utiles de cette masse
éparse de données.
Page 66
• L’article de Cabarbaye et Séroi (2000) “ Optimisation dans le domaine de la Sûreté de
Fonctionnement ” traite de l’utilisation des algorithmes génétiques pour l’optimisation de
l’exploitation de matériels à l’architecture complexe. Ils envisagent également
l’optimisation par une technique de programmation dynamique avec apprentissage par
renforcement. L’article reste allusif sur les applications possibles. Mais incontestablement,
il rejoint une des préoccupations du data mining pour la recherche des solutions aux
problèmes d’optimisation engendrés par les procédures de data mining. Dans le domaine
de la sûreté de fonctionnement, ces problèmes concernent effectivement des problèmes de
fonctionnement fiable de systèmes complexes à coûts minimaux. En effet, le data mining
pose des problèmes d’optimisation difficiles pour lesquels les outils traditionnels
d’optimisation (algorithme du gradient conjugué, algorithme de quasi Newton, …) ne
peuvent pas en général être appliqués car la fonction de plusieurs variables à optimiser
n’est pas différentiable ou ses dérivées sont très difficilement calculables. L’intérêt des
algorithmes génétiques est de proposer une recherche stochastique de l’optimum d’une
fonction sans exiger aucune hypothèse sur cette fonction, ni nécessiter une connaissance
de ses propriétés de différenciation. Les algorithmes génétiques utilisent des opérateurs de
dR
mutation, croisement et sélection. Il faut noter que d’autres algorithmes de nature
stochastique comme le recuit simulé s’attaque aux problèmes d’optimisation sans utiliser
d’hypothèse sur la fonction à optimiser (cf. van Laarhoven 1988). Curieusement, dans le
milieu du data mining, les algorithmes génétiques sont beaucoup plus populaires que les
techniques de type recuit simulé. Pourtant, contrairement à ce que laisse entendre
Cabarbaye et Séroi (2000), le recuit simulé semble souvent en pratique d’un usage plus
simple et plus efficace surtout en temps de calcul que les algorithmes génétiques. Du
moins, les algorithmes génétiques n’ont pas fait montre d’une supériorité marquée sur
l’algorithme du recuit simulé.
• L’article de Schön, Odeh, Denoeux et Fotooh (2000) “ Maîtrise des risques dans le
domaine de l’eau potable ” traite de l’utilisation des réseaux de neurones pour d’une part
prendre en compte des données manquantes et d’autre part pour prédire les taux de
IM
coagulants à prescrire. Cet article est bien centré sur la problématique appliquée relevant
de la sûreté de fonctionnement car le but est de surveiller de manière continue les
paramètres susceptibles d’influer sur la qualité sanitaire de l’eau et aussi de proposer des
indicateurs de disponibilité de l’eau. Le problème traité relève typiquement du data
mining. Il s’agit de tirer de l’information de données issues de capteurs physiques qui
produisent des données brutes peu fiables et redondantes. La façon dont les auteurs
attaquent les problèmes posés est également typique de l’approche data mining. Ainsi, ils
posent le problème en termes de fusion de données où il s’agit de tirer des informations de
bas niveau fournies par les capteurs des informations de haut niveau fiables et
synthétiques (notion de capteur logiciel). Les outils d’analyse qu’ils utilisent sont
également typiques du data mining. Par exemple, pour prendre en compte les nombreuses
données manquantes, ils ne se placent pas dans un cadre probabiliste paramétrique de
prise en compte des données manquantes qui les auraient conduits à utiliser l’algorithme
EM (cf. Little et Rubin 1987), mais préfèrent remplacer les données manquantes par des
fonctions d’appartenance, obtenues par un réseau de neurones “ flou ”, plus faciles à
prendre en compte dans les calculs ultérieurs. Les outils utilisés pour calculer la
disponibilité du réseau sont plus traditionnels (propagation de probabilités sur un réseau
assez simple). Mais là aussi, il s’agit d’un point de vue simple et naturel souvent à l’œuvre
dans un processus de data mining. Au total, il s’agit d’un article intéressant émanant
Page 67
d’auteurs de la communauté “ neuronale ” du data mining où les aspects applicatifs
relevant de la sûreté de fonctionnement sont bien mis en valeur. (Pour une présentation
complète, claire et synthétique des méthodes neuronales en classification supervisée, nous
recommandons l’ouvrage de Bishop 1995.)
Les techniques neuronales floues connaissent un certain succès, notamment dans le domaine
industriel. Les articles présentés plus loin de Wang et McCreavy (1997) mais aussi de
Toscano et al. (1999) montrent leur application. En particulier, le dernier article cité qui
présente une classification neuro-flou pour détecter l’usure d’un outil.
Cela étant, il existe tout de même dans les actes de congrès internationaux et dans les revues
internationales un certain nombre d’articles qui relèvent explicitement du data mining pour
l’analyse du retour d’expérience dans le cadre de la sûreté de fonctionnement.
Dans la section qui suit nous avons sélectionné un certain nombre d’articles significatifs
porteurs d’enseignement sur l’usage du data mining en sûreté de fonctionnement. Dans la
dR
présentation que nous en faisons, nous nous efforçons de mettre avant tout en exergue les
éléments propres à ce domaine d’application, comme nous venons de le faire pour les
quelques articles qui ont retenu notre attention dans les actes du dernier congrès .
Aussi, une revue bibliographique un peu linéaire risque d’être un peu frustrante et de ne pas
faire ressortir des points forts pour l’utilisation du data mining en sûreté de fonctionnement.
Pour tenter d’éviter cet écueil, nous avons décidé de procéder ainsi. Dans une première partie,
nous passons en revue un certain nombre d’articles en essayant de faire ressortir leur point
saillant de notre point de vue qui est d’analyser les apports possibles du data mining à la
sûreté de fonctionnement. Dans une deuxième partie, nous avons décidé de commenter en
détail un article, paru dans une revue internationale, qui est en tout point remarquable et qui
nous fournit un excellent cadre pour mettre en exergue des points importants pour une bonne
utilisation du data mining pour l’analyse du retour d’expérience en sûreté de fonctionnement.
Page 68
Nous commençons donc par passer en revue un certain nombre d’articles pour la plupart
présentés dans des congrès et qui éclairent différents aspects du data mining dans un contexte
industriel. Dans cette revue, l’ordre de présentation est arbitraire.
dR
l’opérateur. Ces systèmes multi-agents se doivent de faciliter le dialogue entre les bases de
données et l’opérateur. À cette fin, l’auteur privilégie des fonctions multi-agents simples et
facilement interprétables. Les outils d’analyse sont du même coup particulièrement simples
(histogrammes, synthèses simples des faits et incidents enregistrés fondés sur des comptages,
…). Ainsi, cet article bien motivé met en évidence un des aspects courants présidant au data
mining. Le point de vue est très informatique et le data mining est utilisé comme une aide à
un opérateur humain. Les règles qu’il construit se doivent d’être simples et claires pour
faciliter cette interface agents informatiques-homme et se doit de proposer des aides à son
utilisation. Ainsi, dans le futur, l’auteur pense à introduire des fonctions où l’utilisateur par les
actions préventives qu’il entreprend pourra influencer le système multi-agents construit dans
une procédure avec feedback.
Page 69
Dans cette étude, c’est incontestablement l’aspect statistique qui est privilégié. SAS, avant de
proposer des outils de data mining, a produit l’un des logiciels de statistique les plus utilisés
dans le monde. Ainsi, les aspects codage des données (utilisation de différents codages
suivant la technique utilisée) et validation des résultats (utilisation d’un échantillon test
énorme) sont très bien traités. Mais les données traitées ne sont pas vraiment représentatives
des données de retour d’expérience en sûreté de fonctionnement. Elles font plus penser à des
données d’enquête épidémiologique par leur taille et leur régularité.
• X. Z. Wang et C. McGreavy (1997) “ Data Mining for Safety and Operability Studies in
Process Industries ”
Cet article est bien centré sur le sujet qui nous préoccupe. Il s’intéresse à l’étude de données
historiques, éparses, comportant des trous et de fiabilité douteuse. De nature plutôt
méthodologique, il comprend deux parties bien distinctes. Dans la première partie, il
dR
s’intéresse aux réseaux de neurones à partir de codage flou des différentes catégories que
peuvent présenter une variable qualitative (du type bas, moyennement bas, normal,
moyennement haut, haut). Les codages d’appartenance flous que les auteurs considèrent font
assez penser à ce que Cazes et al. (1977) ont proposé et étudié, vingt ans plus tôt. Partant de
là, ils considèrent un réseau de neurone flou comme Schön et al. (2000) qui leur fournit des
règles logiques floues du type suivant : s i A est vrai avec un degré de confiance de 0.6 et si B
est vrai avec un degré de confiance de 0.8 alors C est vrai avec un degré de confiance de 0.7.
La construction de telles règles floues constitue la partie la plus intéressante de leur article. La
deuxième partie de leur exposé est consacré aux réseaux d’apprentissage probabilistes connus
également sous le nom de réseaux bayésiens (Pearl 1988) ou de modèles graphiques
(Lauritzen et Spiegelhalter 1988), ce dernier article constituant un article de référence sur ce
type de sujet. Les auteurs donnent l’exemple d’un tel réseau pour décrire les possibles
défaillances d’un compresseur. Cet article a surtout un intérêt pédagogique.
Incontestablement, l’utilisation de codages flous est intéressant dans le domaine du retour
d’expérience lorsque les données ne sont pas précises et risquent d’être entachées d’erreur.
Par ailleurs, l’utilisation des réseaux probabilistes relève plutôt de la modélisation statistique
IM
voire bayésienne si les liens entre les variables sont donnés par des experts ou pour des
raisons fonctionnelles. Cependant, la frontière entre analyse des données et modélisation est
parfois difficile à tracer et l’analyse exploratoire de données peut suggérer un modèle
d’association entre variables et aider à l’estimation de ses paramètres.
• R. Heider ( 1996) “ Troubleshooting CFM 56-3 Engines for the Boeing 737 Using CBR
and Data Mining ”
Cet article décrit un logiciel construit pour diagnostiquer d’éventuelles défaillances sur des
moteurs d’avion à partir du relevé d’informations sur des incidents passés. Ce système se
fonde sur l’utilisation conjointe des arbres de décision et des techniques de CBR (Case Based
Reasoning : raisonnement par cas). L’auteur met en avant l’utilisation du CBR, qui permet la
construction de règles simples, pouvant être facilement confirmées ou infirmées, et qui
autorisent facilement l’introduction en ligne de nouveaux paramètres non apparus
précédemment. Il met bien en évidence l’intérêt du CBR pour des cas où les spécialistes de la
maintenance sont amenés à rattacher une défaillance observée à des situations antérieures
qu’ils ont rencontrées.
Page 70
Dans son application qui concerne une grande base de données (30 000 cas recensés), l’auteur
détaille les étapes d’analyse :
• identification des symptômes de défaillance ;
• établissement par des spécialistes de la maintenance d’une liste de paramètres associés
aux symptômes techniques pouvant être liés à des défaillances,
• extraction manuelle des informations techniques dans les rapports d’incidents. Ce travail a
occupé un spécialiste pendant un an et a donné lieu à la sélection de 1500 cas
représentatifs de la variété des défaillances possibles ;
• définition soignée d’une interface utilisateur qui doit être très conviviale car les
utilisateurs sont les membres de l’équipe de maintenance qui intervient “ à chaud ” (au
départ des avions) sur les moteurs.
L’auteur n’est pas très précis sur la façon dont son système utilise les arbres de décision et le
CBR notamment en ce qui concerne la validation des résultats. Mais, ces techniques sont
dR
effectivement relativement classiques.
L’intérêt de son article réside surtout dans sa description du protocole de construction des cas
qu’il soumet finalement à son système d’aide au diagnostic. Il a essentiellement procédé par
expertise au lieu d’utiliser des outils exploratoires (comme l’analyse factorielle) pour
constituer sa base de données de cas qu’il va finalement utiliser pour construire son système.
De la sorte, il a sans doute mis le doigt sur un aspect important pour une bonne pratique des
techniques de data mining dans une problématique de maintenance. C’est un domaine, où il
existe une expertise importante et où les données objectives sont assez difficiles à extraire par
des moyens automatiques. Dans bien des cas, les traitements manuels et l’appel à l’expertise
des spécialistes maintenance est indispensable ou du moins très bénéfique.
En quelque sorte la phase non supervisée et exploratoire du data mining est remplacée par un
traitement plus ou moins manuel des opinions a priori d’experts.
IM
Mais cela représente un coût en temps humain très important. Ici, le soin apporté à cet aspect
des choses est très remarquable. Notons pour finir que bien souvent l’utilisation conjointe des
opinions d’experts et d’outils d’analyse exploratoire peut être profitable.
Page 71
de connaissances, le système REX construit des cartes synthétisant l’information des fiches.
Les proximités entre cartes sont évaluées par une procédure de type “ plus proche voisin ”.
Les auteurs soulignent les dangers de ce type de mesure de proximité et conseillent de les
contrôler par un expert ou d’utiliser une base d’apprentissage bien connue pour les définir.
Partant de là, ils utilisent des arbres de décision pour comparer le pouvoir discriminant des
descripteurs des cartes vis-à-vis des défaillances recensées. Une pratique de différents
programmes d’arbres de décision (ID3, CART,…) leur inspirent un certain nombre de
remarques. Ils préconisent notamment la distance de Mantara pour traiter ces ensembles
volumineux de données et ne trouvent pas que les arbres leur aient fourni des critères de
classification utilisables.
Ils proposent alors un CBR définissant des événements par une évaluation des voisinages à
l’intérieur du réseau des lexemes, puis d’un calcul de proximité entre ces événements vis-à-
vis des défaillances observées.
Ils concluent leur article en soulignant le fait que ce type d’approche pour être efficace se doit
de partir d’un objectif précis et volontairement limité. D’autres part, il souligne le fait que les
dR
données textuelles donnent naissance à des données codées très dispersées ce qui augmente
considérablement la difficulté d’analyse.
Cet article montre bien l’intérêt de la prise en compte de données textuelles et des difficultés
que cela induit (voir aussi Lannoy et al. 1996). Ainsi, la prise en compte de données textuelles
est actuellement limitée à la recherche de mots-clés pour constituer des tableaux de présence-
absence. Mais, à notre connaissance, il n’existe pas de logiciel opérationnel pour une prise en
compte d’une analyse syntaxique ou sémantique de ces données.
En tout cas, le codage et l’exploitation des données textuelles même élémentaire sont riches
d’information et constituent un domaine d’importance croissante en data mining (cf. par
exemple Lebart et Salem 1994, pour un livre complet sur l’analyse de données textuelles). Le
fait que de façon général les fiches de retour d’expérience sont écrites de manière très
stéréotypée laisse espérer que l’on puisse bientôt disposer de logiciels permettant d’en tirer
des facteurs discriminants pour décrire des situations à haut risque de défaillance.
IM
4.1.2 Gros plan sur un article
Comme nous l’avons annoncé, nous allons maintenant commenter un article qui nous semble
particulièrement riche d’enseignements dans le cadre de notre étude. Il est écrit de manière
soigné et précise et il analyse bon nombre des aspects que nous avons rencontrés, souvent de
manière rapide voire allusive, dans d’autres articles. Il est avant tout remarquable par sa
description des problèmes à résoudre, des pièges à éviter et des précautions à prendre pour un
bon usage du data mining dans un contexte de sûreté de fonctionnement. De plus, il met bien
en exergue des problèmes important souvent négligés par les autres auteurs comme
l’évaluation de la qualité des résultats, la prise en compte des coûts et de la composante
temporelle présente dans des problèmes de data mining. Le commentaire de cet article va
nous permettre de présenter des éléments importants pour une mise en œuvre profitable du
data mining à des problèmes de sûreté de fonctionnement.
Page 72
durant un vol. Il s’agit donc bien d’une problématique d’optimisation de maintenance.
L’objectif de l’article est de décrire comment ils ont résolu les difficultés essentielles
rencontrées lors du processus complet de data mining qu’ils ont mis en œuvre pour ce
problème. Dans le commentaire que nous en faisons, nous découpons l’exposé en paragraphes
traitant les différents aspects évoqués. Par ailleurs, pour des raisons de commodité, il nous
arrivera de désigner les auteurs par l’acronyme LFM.
Les données n’émanent pas d’essais recueillies lors de plans d’expérience comme dans
l’article de Van der Vliet J. et Masson A. (2000). On ne peut donc pas les traiter par des
techniques de type ANOVA. Elles sont recueillies lors de vols réguliers. Elle sont énormes,
diverses (descriptions textuelles de défaillance, données quantitatives recueillies par des
capteurs, …) et complexes. Elles concernent pas moins de 19 modes différents de
dR
fonctionnement des avions et pour chaque mode, de 20 à 150 caractéristiques sont récoltées.
Notons de plus l’une des originalités de ces données par rapport aux autres études présentées :
pour ce problème de maintenance préventive, la prise en compte de la composante temporelle
des données est essentielle.
La problématique est tellement complexe qu’il n’est pas possible de traiter un ensemble de
données représentatif de toutes les situations réalistes envisageables. Les auteurs récusent
l’emploi des techniques statistiques de sous-échantillonnage et préfèrent utiliser un procédé
de recueil favorisant les situations susceptibles d’induire un risque de défaillance important
que nous allons décrire.
Cependant, nous voudrions nous inscrire légèrement en faux avec ce point de vue des auteurs
IM
sur les techniques de sous-échantillonnage par tirages aléatoires. Ces techniques de sous-
échantillonnage (sondages) peuvent être sophistiquées et pertinentes, et permettent une
interpolation fiable des données négligées. Comme Friedman (1997) l’a noté, elles constituent
une réponse élégante et efficace aux difficultés qui peuvent être rencontrées dans le traitement
de très gros ensembles de données.
Cela étant, la technique de recueil préconisée par LFM est très pertinente. Partant du souci de
bien caractériser les situations de défaillance, ils procèdent ainsi :
2. ils utilisent un système d’extraction de phrases clés des fiches de description des
remplacements. (Cette phase sur les données textuelles est analogue au travail de Bouchet
et Eichenbaum-Voline 1996.) ;
Page 73
4. un expert est chargé de retrouver les remplacements à partir d’une sélection aléatoire des
rapports choisis par LFM pour s’assurer de la pertinence des phrases clés choisies ;
5. ils ajoutent à leur sélection toutes les données disponibles m jours avant un remplacement
et n jours après. De plus, ils ajoutent l’attribut “ temps avant une défaillance ” à leurs
données.
Dans cette procédure, se retrouvent presque tous les aspects pour la construction d’une base
pertinente de data mining à but décisionnel : prise en compte des données textuelles par
extraction de mots-clés significatifs, sélection manuelle des instances et contrôle de la
procédure par un expert, (ces deux derniers points sont sans doute ceux qui prennent le plus
de temps, mais il ne faut pas en faire l’économie dans notre domaine), sélection des données
en ayant en tête la problématique, (ce qui ici les incite à prendre en compte le temps avant les
remplacements).
dR
Étiquetage des données
Le choix de k est naturel. Mais dans toute la procédure décisionnelle de LFM, il s’agit de la
partie la plus fragile, car ce choix reste arbitraire. Conscients de ce fait, LFM ont réalisé leurs
analyses en faisant varier k pour juger de la sensibilité de ce paramètre crucial.
IM
Construction du modèle
Dans ce contexte de classification supervisée, LFM utilisent trois techniques souvent utilisées
en data mining. Il s’agit d’une :
• de la méthode des K plus proches voisins, avec en l’occurrence un seul voisin, ce qui
correspond à une méthode très locale,
• une méthode dite “ naive Bayes ” qui consiste simplement à utiliser la formule de Bayes
pour estimer les probabilités conditionnelles des deux groupes à séparer, les probabilités
étant estimées à partir des fréquences empiriques observées. Cette méthode part au
contraire d’un point de vue global.
Notons à ce propos que nous n’avons pas rencontré dans notre étude bibliographique sur
l’usage du data mining pour des données industrielles l’emploi de méthodes particulières, que
Page 74
ce soit dans un contexte exploratoire ou inferentiel. L’originalité des pratiques en ce domaine
est plutôt à rechercher dans les à-côtés de la pratique du data mining : préparation des
données, utilisation d’avis d’experts, évaluation des résultats.
LFM passent tout d’abord en revue les moyens classiques d’évaluation des performances d’un
classifieur. Cette évaluation peut se faire à l’aide d’un échantillon test, par validation croisée
ou par bootstrap. On trouvera une description précise de ces techniques de rééchantillonnage
dans Celeux et Nakache (1994).
Pour leurs données, LFM soulignent à juste titre qu’ils ne peuvent pas utiliser directement ces
techniques. En effet, les données sont issues d’une entité particulière, ici un avion, qui peut
avoir ses caractéristiques propres. Aussi, il fait construire une règle de classement qui soit
dR
indépendante de l’avion considéré. Ce problème est bien connu, par exemple, en
reconnaissance de la parole où il s’agit de construire un système capable de faire de la
reconnaissance indépendamment du locuteur. Il faut éviter de construire une règle qui se
fonderait sur les caractéristiques propres d’un avion et non sur des caractéristiques générales.
Cet aspect des choses est très important et est fréquent en sûreté de fonctionnement où l’on
étudie en général des systèmes complexes formés de différents composants et qui peuvent
avoir leur caractéristique propre dont il faut s’affranchir.
Dans ce but, LFM ont construit une adaptation des procédures d’échantillon test ou de
validation croisée où les entités homogènes (les batchs) servent soit entièrement à
l’apprentissage de la règle de classement, soit entièrement à sa validation.
Fonction d’évaluation
IM
Un autre aspect important considéré par LFM est le choix de la fonction d’évaluation des
performances du classifieur. En effet, ils font face à un problème de maintenance où il s’agit
de prévoir une défaillance suffisamment à l’avance pour pouvoir intervenir, mais bien sûr pas
trop tôt pour ne pas provoquer de fausse alarme. À cette fin, ils ont construit une fonction de
récompense de la décision prise qui dépend du temps. La fonction considérée est simple,
linéaire par morceaux, et est pilotée par deux paramètres arbitraires donnant à partir de quand
une décision de défaillance est soit une fausse alarme, soit intervient trop tard. Ils ne sont pas
très précis sur la façon expérimentale dont ils ont choisi ces deux paramètres, mais ils ont
procédé à une étude de sensibilité sérieuse. En tout cas, ils ne recommandent pas de
compliquer cette fonction de récompense, ce avec quoi nous sommes pleinement d’accord.
Fusion de modèles
La question de la fusion d’informations est souvent capitale dans le domaine du data mining,
où il s’agit de mettre en commun des bases de données de natures souvent très différentes.
LFM envisagent ce problème sous deux points de vue.
• La fusion des données d’entrée : c’est actuellement la pratique la plus répandue (cf. par
exemple Schön et al. 2000). Pourtant ce n’est pas la plus aisée, l’espace de données
Page 75
construit peut devenir énorme et très hétérogène et le traitement devient difficile à
maîtriser.
• La fusion des modèles (ici la fusion des classifieurs) : c ette approche est beaucoup plus
aisée et nous sommes d’accord avec LFM pour la privilégier par rapport à la précédente.
Cette fusion de classifieurs peut se faire de manière assez simple et, de plus en plus, des
auteurs s’intéressent à cette approche (voir par exemple les comités de méthodes proposés
par Bishop 1995).
dR
uniformément meilleure que les autres. Pour la suite LFM envisage de combiner les trois
classifieurs. Cela semble une bonne idée, car les trois méthodes partent de points de vue très
différents et les instances mal classés par les trois méthodes sont souvent différentes. Une
combinaison par un comité de méthodes devrait permettre d’améliorer encore les résultats.
Dans ce paysage, le projet européen NOEMIE qui a pour objectif de définir une méthodologie
et une plate-forme logicielle pour optimiser le retour d’expérience industriel par l’utilisation
des bases d’information de l’entreprise (cf. Chanchevier et al. - 1999) prend un intérêt
IM
particulier dans le cadre de notre étude.
• les auteurs présentent bien NOEMIE comme un système d’information intégré pour le
retour d’expérience industrielle, mais ils utilisent une définition très large et peu courante
du retour d’expérience. Pour eux, il s’agit de l'ensemble des moyens, concepts et outils
propres à garantir l'extraction optimale de la connaissance afférente à un processus ou
une organisation à partir de la mémoire de l'entreprise. Cette définition aux contours
assez vagues n’est pas, à notre sens, directement associée au retour d’expérience industriel
tel qu’on l’entend usuellement en sûreté de fonctionnement ;
• la description qu’ils font ensuite de l’enchaînement des outils est typique des descriptions
des logiciels de Data Mining (Data Warehouse , les techniques de Data Mining , le CBR
(Case Based Reasoning), le traitement du langage naturel). Elle est séduisante mais ne
relève pas particulièrement du retour d’expérience ;
Page 76
• les références qu’ils donnent sont assez hétéroclites, mélangeant quelques textes de
référence du domaine et des articles traitant des aspects assez spécifiques du domaine de
l’intelligence artificielle sans grand rapport avec le domaine industriel ;
• NOEMIE a surtout été appliqué à des problèmes de recherche pétrolière ;
• finalement, si NOEMIE apparaît comme un produit cohérent et intéressant, nous ne
sommes pas sûr qu’il soit d’un intérêt spécifique pour le retour d’expérience en sûreté de
fonctionnement. D’ailleurs, après cette étude bibliographique, nous ne pensons pas que la
sûreté de fonctionnement nécessite la définition et la réalisation d’outils spécifiques de data
mining. C’est plus dans la façon de piloter les analyses et leurs validations que les
ingénieurs fiabilistes construiront un savoir-faire particulier dans le domaine du data
mining dans un contexte de sûreté de fonctionnement, comme ont commencé à le faire
certains auteurs évoqués ici et notamment Létourneau, Famili et Matwin (1996),
4.3 SYNTHESE
dR
Le data mining est utilisé quel que soit le domaine d’activité d’une entreprise mais
essentiellement à des fins marketing. Néanmoins, toutes entreprises détennant des données
par exemple de suivi de matériel, peuvent les analyser et les exploiter. Jusqu’à pésent les
entreprises étaient peu ou pas conscience de l’informations contenues dans leur données.
Aujourd’hui, elles en prennent conscience et souhaitent savoir comment tirer avantages de ces
informations mais surtout comment dégager de l’information apportant une plus-value à leur
activité, quelles sont les techniques utilisables pour aboutir à des conclusions par des
méthodes plus soiphistiquées que de simples comptages. Elles ont à leur disposition les
techniques d’analyse statistiques mais qui demandent une expertise. Depuis quelques années
sont apparues les techniques de data mining qui permettent l’exploitation d’importants
volumes de données à l’aide de techniques fournissant des résultats explicites.
Le data mining répond aux besoins de toutes entreprises ayant d’importants volumes de
données et qui souhaite les valoriser par leur exploitation. Un ensemble d’articles explicite la
mise en œuvre de technique de data mining mais le nombre d’expériences reste cependant
limité dans le domaine de la sûreté de fonctionnement. Néanmoins, certaines expériences
IM
existent et montrent que ces méthodes sont applicables. Le milieu aéronautique en est
l’illustration comme l’a montrée l’analyse de l’article dans le chanpitre précédent.
La troisième phase de l’étude visera à déterminer des application potentielles du data mining à
partir de données de REX. Cette phase sera assortie d’un exemple illustratif réalisé à partir
des données fournies par un souscripteur.
L’étude consiste à déterminer quels sont les apports potentiels du data mining en matière de
sûreté de fonctionnement à partir de données issues de la base de retour d’expérience.
Après avoir défini le data mining (Cf. paragraphe 1), et fourni des exemples d’application
concrets (Cf. tâche 2), le présent document vise à présenter quelles sont les techniques
potentiellement utilisables dans ce domaine particulier ainsi que présenter un cas d’étude. Le
cas d‘étude est présenté à des fins illustratives sur la base de données fournie par l’un des
souscripteurs. Les données ont été maquillées afin de protéger l’information.
Page 77
Pour déterminer quelles méthodes sont potentiellement applicables d’une manière généraliste,
il est nécessaire de rappeler le contenu d’une base de données de retour d’expérience.
Nous aborderons ce point dans un première partie. A partir de ces informations, des
problématiques généralistes seront dégagées accompagnées de proposition de traitement. Ces
problématiques sont non-exhaustives et sont présentées par rapport aux attentes des
différentes entreprises ayant participé à la réalisation du projet.
Une troisième partie illustrera ces méthodes sur la base d’un exemple traité à partir de
données issues d’une entreprise.
Enfin, la dernière partie sera consacrée aux problématiques propres aux entreprises
souscriptrices accompagnées des propositions de traitement.
dR
Un REX n’est pas seulement constitué par une suite de dates de défaillance mais il contient
également des renseignements complémentaires tels que les caractéristiques générales, ...
Pour élaborer un REX, il est nécessaire de suivre des règles assez précises. La définition de
ces règles de collecte a fait l’objet de bien des études : on peut, par exemple, suivre les
principes généraux établis par le groupe de travail EUREDATA (EUropean REliability DATa
Association).
Il est important de noter que, dans la plupart des cas, le REX n’est jamais exhaustif. Tous les
champs qui sont cités ci-dessous ne sont pas forcément utiles pour l’analyse mais donnent des
informations complémentaires.
5.1.2 Identification
Les données d’identification sont par exemple :
• Code usine
• Code système
Page 78
• Type du composant par famille.
• N° d’ordre : pour distinguer les matériels d’une même famille.
Page 79
- Défaillance partielle : le matériel n’assure que partiellement sa fonction
- Dégradation : le matériel se détériore progressivement
- Défaillance complète : le matériel est indisponible
• Apparition de la défaillance : rapidité de l’évolution de la défaillance
- Défaillance soudaine : qui n’aurait pu être découverte par un examen antérieur
- Défaillance progressive : qui aurait pu être découverte par un examen antérieur
• Mode de défaillance
• Composant interne affecté
• Causes de défaillance
• Durée de réparation : en temps réel passé pour l’expertise, la réparation
• Durée de main d’œuvre cumulée
•
• dR
Durée d’indisponibilité : durée qui sépare le début de la défaillance de la fin de la
défaillance
Résumé de la défaillance : texte libre
On peut aussi ajouter le nom du rédacteur et du vérificateur, pour demander des
renseignements complémentaires.
Ces différentes informations constituent la trame du REX et peuvent être évidemment
enrichies et adaptées à l’entreprise et à son activité.
Page 80
Ces problématiques sont proposées à la suite des attentes exprimées par les entreprises ou par
rapport aux informations disponibles dans le REX.
Chaque problématique sera abordée dans les paragraphes suivants. Ils visent à répondre sur la
faisabilité de l’analyse par des techniques de datamining. Dans le cas d’une analyse possible,
nous préciserons quelles sont les techniques utilisables ainsi que les résultats attendus.
dR
compte des probabilités ainsi établies.
Toutefois, intégrer le seul facteur temps ne répond pas à la problématique du data mining qui
consiste, comme nous l’avons expliqué dans une première partie, à mettre en évidence des
relations cachées à partir d’un volume important de variables prises en compte. Or, dans le
cas présent, seule une variable est prise en compte : le temps. Le principe du data mining est
de forer les données et donc d’avoir un grand nombre de variables explicatives.
Pour effectuer une analyse de type data mining, il est nécessaire d’ajouter des variables
contextuelles qui permettent d’enrichir les explications potentielles. Le facteur temps sera
donc considéré comme une variable explicative parmi d’autres.
Cette problématique est abordée ci-après.
5.2.1.2 Les méthodes utilisées
Aucune des méthodes relevant du data mining ne répond à cette problématique. Il convient
alors d’avoir recours aux analyses classiques.
IM
5.2.2 Détermination des facteurs discriminants
5.2.2.1 Problématique
Les REX sont potentiellement une source d’information d’une grande richesse étant donné le
nombre de variables renseignées. Dans un premier temps, il s’agit donc de déterminer quelles
sont les variables ou les combinaisons d’évènements qui expliquent le mieux ces incidents. Le
facteur temps est alors intégré et proposé parmi les variables discriminantes. La méthode
permettra de mettre en évidence si cette variable est particulièrement discriminante ou non.
Cette problématique relève particulièrement du data mining dans la mesure où la recherche
des causes des incidents n’est pas limitée à un seul facteur explicatif mais à un ensemble de
facteurs qui, pris isolément, pourraient ne présenter aucun lien, mais dont la conjonction peut
provoquer des conséquences en termes de sûreté de fonctionnement. Il s’agit donc de dégager
de l’information à partir d’un ensemble de données disponibles.
Page 81
• les arbres de décision
• les réseaux de neurones : ils peuvent être utilisés mais ne constituent pas la meilleure
méthode. Leur usage est plutôt à des fins de prévision.
dR
nécessitent une nouvelle étude. Cette nouvelle étude permettra de mesurer l’apport et les
conséquences suite à la mise en œuvre de la nouvelle politique ou des mesures prises en
comparant les probabilités de survenance d’incident entre les différents modèles ainsi établis.
Page 82
5.2.3.3 Résultats escomptés
Comme précédemment, les résultats seront, soit des règles clairement explicitées, soit un
modèle non-explicité mais efficace en matière de prédiction.
Ces réflexions nous conduisent finalement à une problématique sur l’étude de survenance des
combinaisons d’incidents.
5.3.1.1 Problématique
Cette problématique vise à mettre en évidence une relation deux à deux entre les incidents par
rapport à un effet fixé.
dR
C’est-à-dire, pour les incidents (donc en mode défaillance), on cherche à cerner s’il existe un
lien entre la survenance de cet incident et le fait que certains facteurs surviennent plus
fréquemment simultanément.
Page 83
artificielle duquel est issu le, pour partie, le data mining, en particulier les réseaux de
neurones.
5.3.2.1 Problématique
Cette problématique d’aide au diagnostic a essentiellement été traitée dans le milieu médical
où la définition des règles décrivant les symptômes était effectuée par un expert.
L’exploitation de ces règles étaient effectuées à l’aide d’un système expert.
Aujourd’hui, le datamining nous permet de décrire ces règles traduisant les symptômes à
partir non seulement de la connaissance des experts mais également d’une manière objective à
partir de l’analyse des données par des techniques telles que le raisonnement à base de cas.
dR
La méthode utilisable est le raisonnement à base de cas qui va permettre de déduire à partir
des constatations existantes quel sont les facteurs explicatifs caractéristiques d’un phénomène
constaté.
Page 84
La sélection des variables à prendre en compte s’effectue par étape. Dans un premier temps, il
est nécessaire de s‘assurer que les variables prises en compte dans le modèle ne sont pas
corrélées entre elles ou qu’elles sont indépendantes. De plus, il peut s’avérer judicieux de
transformer les variables quantitatives en variables qualitatives par un processus de
discrétisation, c’est-à-dire en découpant la variable quantitative en différentes classes. Ce
découpage doit conduire à un nombre limité de modalités. Les effectifs présents dans chaque
classe doivent être approximativement identiques. Ce principe a été appliqué à nos données.
Dans le cadre du projet, nous allons comparer les résultats obtenus à l’aide d’une analyse
classique par la méthode de la régression de type GLM (modèle linéaire généralisé) et une
analyse de data mining à l’aide des arbres de décision et des réseaux de neurones.
dR
renseignements, se reporter à la partie 1.
5.4.1.3 Démarche
Page 85
Une phase préparatoire des données est nécessaire. Dans le cas étudié, les données avaient
déjà fait l’objet de préparations et d’études. Les données que nous avons traitées n’ont donc
fait l’objet que d’un recodage.
Une étape préparatoire consiste également à constituer différents échantillons à partir de la
population initiale. Les échantillons suivants ont été constitués aléatoirement :
• Un échantillon d’apprentissage qui représente 70% de la population initiale,
• Un échantillon de validation, constitué de 30% de la population initiale.
dR
variable prend alors les 3 valeurs suivantes : fort, moyen, faible selon les bornes des
intervalles définis par l’expert.
Les variables explicatives sont constituées de données de fabrication et de fonctionnement,
tant qualitatives que quantitatives.
5.4.1.5 Résultats
5.4.1.5.1 Les modèles linéaires généralisés
Les sorties obtenues à l’aide du logiciel SAS sont fournies en annexe (Cf. Annexe).
Deux modèles sont présentés pour lesquels la variable TRAIT fait ou non partie des variables
explicatives.Voici les résultats essentiels :
TYPE : AM
IM
POSITION : 1, 2, 3, 4
TRAIT : 0, 1
TPSFCT : [110000-130000] [130000-150000] [90000-110000]
AMPLINIT : [0-250] [1000-1250] [1250-1500] [1500-1750] [1750-2000] [2000-2250] [250-500] [500-750]
[750-1000]
HMARCHE : BCDE
PLAQUE : E1 E2 E3 E4 E5 E6 E7 E8
SITU2 : AB
FAB : ?? A B C D
Page 86
Total corrigé 83273 899673488,0
Il apparaît que toutes les variables sont explicatives (Pr >F faible) sauf la variable TRAIT qui
n’est pas-significative au sens statistique du terme (Pr>F = 0,7772). C’est pourquoi, le second
IM
modèle est généré sans cette variable et fournit les résultats suivants :
Page 87
FONCT5 1 90063,9 90063,9 11,63 0,0006
FONCT6 1 1736653,2 1736653,2 224,32 <,0001
FONCT7 1 1573378,2 1573378,2 203,23 <,0001
TYPE 1 6011446,3 6011446,3 776,49 <,0001
POSITION 3 477965,6 159321,9 20,58 <,0001
TPSFCT 2 480481,4 240240,7 31,03 <,0001
AMPLINIT 8 171424304,7 21428038,1 2767,82 <,0001
HMARCHE 3 14711492,9 4903831,0 633,42 <,0001
PLAQUE 7 787576,6 112510,9 14,53 <,0001
SITU2 1 163931,5 163931,5 21,17 <,0001
FAB 4 16431396,9 4107849,2 530,60 <,0001
•
•
•
•
•
•
•
Fab,
dR
Les variables les plus explicatives, dans l’ordre décroissant sont :
Amplinit,
Type,
Hmarche,
Fonct1,
Fonct6,
Fonct7.
Leur ordre est déterminé en fonction du poids du F-value qui est une statistique utilisée dans
ce type de modèle. Une variable est d’autant plus importante que son F-value est fort et ce,
dans la mesure où la variable est jugée statistiquement significative (Pr>F faible).
IM
Seules les variables les plus discriminantes sont citées ici. Pour avoir plus d’information sur
les modèles, se reporter à l’annexe correspondante (Cf. Annexe I).
Ce type d’analyse permet alors d’écrire un modèle de type y=f(x1, x2,….,xn) où x1, ….,xn sont
les variables explicatives et y est la variable à expliquer. Le poids associés aux variables
permet d’identifier les variables les plus explicatives et le modèle permet ensuite de réaliser
des prévisions par rapport à la variable à expliquer.
Page 88
identifiées par l’analyse précédente de type GLM, c’est-à-dire que la variable TRAIT ne fait
pas partie des variables explicatives retenues pour l’analyse.
La première étape permet le développement d’un arbre binaire.
dR
Cet écran interactif récapitule l'ensemble des résultats obtenus sur le modèle. Il est composé
IM
de quatre pavés :
• en bas à gauche : pour chaque feuille on dispose du pourcentage de personnes bien
classées par l'arbre.
• en bas à droite : sélection du nombre de feuilles composant l'arbre correspondant à la
sélection précédente
• en haut à droite: représentation graphique de l'arbre constitué du nombre de feuilles
sélectionné.
• en haut à gauche : tableau de statistiques; ici, la matrice de confusion.
La matrice de confusion compare le réel avec les prévisions effectuées par le modèle. On
obtient ainsi le pourcentage d'individus bien classés.
Parmi les résultats fournis, le graphique en haut à droite de l’écran précédent permet de
déterminer la taille optimale de l’arbre.
Page 89
dR
Ce graphique montre l’évolution du pourcentage de la population bien classée en fonction du
nombre de feuilles dont est composé l'arbre. Cette évolution porte sur l’échantillon
d’apprentissage ainsi que sur l’échantillon de validation.
L'arbre considéré peut-être réduit à un nombre inférieur de feuilles que le nombre maximum
ici visualisé. On choisira ici de limiter le développement de l'arbre à 9 feuilles. En effet, on
IM
constate qu'augmenter le nombre de feuilles ne permet pas de gagner significativement en
pourcentage d'individus bien classés par l'arbre.
La représentation graphique montre l'évolution du pourcentage de personnes bien classées
selon le nombre de feuilles de l'arbre sur l'échantillon d'apprentissage et sur l'échantillon de
validation. Il est normal de constater que le pourcentage de bien classé est légèrement
inférieur sur l'échantillon de validation. Dans le cas présent, l’arbre développé avec 9 feuilles
permet de classer correctement 74,92% de la population d’apprentissage et 74,6% de la
population de l’échantillon de validation.
Pour obtenir plus d'information sur la qualité du modèle, on peut observer la matrice de
confusion qui permet de comparer la réalité avec la prévision.
Page 90
Effectif Valeurs prévues
Pourcentage global
Pourcentage ligne Faible Fort Moyen TOTAL
Pourcentage colonne
dRMoyen
TOTAL
4716
22841
91.43
2.69
18.88
85.36
20.65
163
780
3.12
61.92
0.65
2.95
20.90
1361
5.45
646
18.44
2.59
11.69
47.47
5525
24982
100
22.12
Un bon modèle doit conduire à des effectifs élevés sur la diagonale et faibles hors-diagonale.
En effet, les individus qui se trouvent sur la diagonale sont ceux bien classés par le modèle,
c’est-à-dire que la prévision est identique à la réalité. Hors diagonale sont portés les effectifs
pour lesquels la prévision et la réalité sont différentes ; le modèle a alors effectué une erreur
de prévision.
IM
Par exemple, sur cette matrice, parmi les 24982 cas annlysés, l’évolution observées étaient
faible dans 18109 cas. Le modèle prévoit quant à lui, que sur ces 18109 cas, l’évolution sera
faible pour 17511 cas, soit 96,7% de bien classés, et pour 134 cas, le modèle prévoit une
évolution forte soit 0,74%, et pour 464 cas le modèle prévoit une évolution moyenne soit
2.56%. Pour une évolution faible du phénomène, le modèle prévoit correctement dans 96,7%
des cas et effectue une erreur de prévision dans 3,3% des cas.
De plus, on constate également en comparant la répartition du total que le modèle a tendance
à prévoir des évolutions faibles (91,43%) alors que dans la réalité l’évolution faible est
constatée sur 72,49% des cas . De plus, on constate le phénomène inverse pour une évolution
moyenne qui a tendance à être sous-estimée. Dans la réalité, 22,12% des cas montrent une
évolution moyenne du phénomène et le modèle n’en prévoit que 5,45% parmi lesquelles
seules 2,59% des cas sont corrects, c’est-à-dire, parmi tous les cas constatés, seuls 2,59% ont
une évolution myenne prédite et réelle.
Ici, on constate donc que le modèle tend à classer les individus en faible. Le problème peut
provenir d'un déséquilibre dans la répartition initiale. Il aurait fallu un échantillon stratifié par
rapport à la variable à expliquer.
Page 91
L'arbre peut être visualisé sous différentes formes :
• sous la forme d'un tronc comme le montre l'écran précédent ce qui est pratique pour une
visualisation sur écran car le descriptif du nœud peut être fourni interactivement,
• sous la forme plus classique d'un arbre ce qui est pratique pour la rédaction de rapports car
le descriptif est contenu dans le nœud.
dR
IM
Remarque :
La couleur des nœuds correspond à la prévision sur la variable à expliquer :
▪ rouge : évolution forte,
▪ vert :évolution faible,
▪ bleu : évolution moyenne.
Comme on peut le constater ici, une même variable apparaît deux fois successivement. Il
semble alors intéressant de partager le premier nœud, non en deux branches, mais en un
nombre plus important de branches.
Lorsqu’on réalise un développement plus important, mais néanmoins limité à un découpage
en 6 sous-classes maximum, on obtient alors un pourcentage de bien classés de 75.11% avec
un arbre composé de 31 feuilles. Les variables les plus discriminantes sont alors les
suivantes :
• Amplinit,
Page 92
• Fab,
• Hmarche,
• Fonct4,
• Fonct1.
Seules les premières variables discriminantes sont citées.
Remarques :
• ces règles ont été “ apprises ” sur la base d’un échantillon constitué de 70% de la
population alors que, pour estimer le modèle linéaire généralisé, l’ensemble de la
population a été utilisé,
• la variable à expliquer est discrétisée.
A partir de cet arbre sont générées des règles qui peermettent d’effectuer des prévisions sur la
variable à expliquer.
dR
Ces règles sont éditées automatiquement par l’outil et sont la traduction de la lecture de
l’arbre. Ainsi, voici un extrait des règles éditées par l’outil :
MOYEN : 14.1%
FORT : 0.6%
FAIBLE : 85.3%
Si AMPLINIT est compris entre 0 et 250, alors la variable evolchr aura pour modalité “ faible ”
dans 85.3% des cas. Si AMPLINIT est comprise entre 0 et 250 alors l’évolution du phénomène
sera faible avec une probabilité de 0,85. Les informations contenues sur le nœud (après le
“ Then ”) sont les suivantes :
IM
▪ Numéro du nœud
▪ L’effectif contenu dans le nœud
▪ La répartition par rapport aux modalités de la variable à expliquer, ici evolchr.
On obtient ainsi un ensemble de règles qui s’obtiennent en parcourant l’arbre du nœud racine
aux feuilles terminale.
IF HMARCHE EQUALS B
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE : 12
N : 121
Page 93
MOYEN : 26.4%
FORT : 70.2%
FAIBLE : 3.3%
IF HMARCHE EQUALS C
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE : 13
N : 490
MOYEN : 27.3%
FORT : 18.6%
FAIBLE : 54.1%
IF HMARCHE EQUALS D
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE : 14
N : 525
MOYEN : 32.4%
dR FORT : 39.8%
FAIBLE : 27.8%
IF HMARCHE EQUALS E
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE :
N : 66
15
MOYEN : 33.3%
FORT : 25.8%
FAIBLE : 40.9%
IF FAB EQUALS A
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 21
N : 246
MOYEN : 21.5%
IM
FORT : 5.3%
FAIBLE : 73.2%
IF FAB EQUALS B
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 22
N : 443
MOYEN : 40.4%
FORT : 4.7%
FAIBLE : 54.9%
L’ensemble des règles est fourni en annexe (Cf. Annexe F).
Ces règles vont permettre d’effectuer une pévision par rapport aux indications fournies en
entrée pour une observation.
Page 94
5.4.1.5.3 Les réseaux de neurones
Les spécifications suivantes ont été effectuées sur les réseaux de neurones :
▪ chaque variable explicative constitue un nœud d’entrée,
▪ la couche cachée est composée de 3 neurones.
Seuls certains résultats sont présentés ci-après. Certains autres résultats sont fournis en annexe
(Cf. Annexe G) en particulier, les équations permettant d’aboutir à la prévision.
dR
IM
Légende :
▪ en bleu ciel sont représentés les neurones d’entrée,
▪ en bleu foncé est représentée la couche cachée composée de trois neurones,
▪ en jaune est représenté le neurone de sortie qui constitue la variable à expliquer.
Certains résultats nous sont fournis, en particulier les poids associés aux différentes relations
entre les neurones, mais tous ne sont pas présentés et commentés dans ce document. Dans le
cas présent, il n’existe pas de connexion directe entre les neurones d’entrée et le neurone de
sortie.
Le graphique suivant représente les poids associés aux relations :
Page 95
dR
On constate à travers ce graphique quelles sont les relations les plus fortement pondérées,
donc celles qui participent le plus à la prévision.
H11, H12 et H13 sont les trois neurones qui constituent la couche cachée du réseau. La
relation avec les variables ne sont pas identiques.
IM
Remarque :
le graphique ici n’est centré que sur certaines relations du réseau de neurone mais ce
graphique peut être déroulé et reprend l’ensemble des relations entre neurones. Dans le
rapport, il n’est pas possible de présenter l’intégralité du graphique du fait de son
interactivité.
Cependant, il ressort de son analyse, complétée de l’analyse de la table correspondante, que
les variables ayant le plus de poids dans l’apprentissage du réseau sont les suivantes :
• Amplinit,
• Hmarche,
• Fab,
• Fonct7,
• Fonct1,
• Tpsf,
• Fonct4.
Page 96
Voici un extrait du tableau qui nous permet d’aboutir à ces conclusions :
dR
IM
Page 97
dR
Le graphique ci-dessus représente l’évolution de l’erreur moyenne par itération durant la
phase d’apprentissage. On constate que le modèle est relativement stable au-delà de la
cinquantième itération et que l’erreur moyenne pour l’échantillon d’apprentissage est de
l’ordre de 0,39 alors que sur l’échantillon de validation elle est de l’ordre 0,40. Les deux
courbes sont relativement proches ce qui montre que le modèle est relativement performant.
Les poids attribués aux neurones ont été réajustés à chaque itération.
IM
Page 98
La matrice de confusion est également disponible et présente les résultats suivants :
dRMoyen
TOTAL
4675
22711
90.91
34.87
2.07
18.71
84.62
20.58
197
840
3.36
40.36
64.76
0.79
3.57
23.45
653
1431
5.73
24.78
23.34
2.61
11.82
45.63
5525
22.12
24982
100
Remarque :
Il semble que le réseau ne soit pas à même de prédire les valeurs faibles pour la variable à
expliquer EVOLCH. Le classement est bien effectué mais on ne dispose pas de l’information.
IM
L’apprentissage d’un bon réseau demande du temps pour l’apprentissage.
Dans le cas présent, il est nécessaire d’attendre 30 minutes mais le nombre d’itérations et le
temps d’attente avaient été limités). Ici l’exemple est à caractère illustratif ; les résultats
pourraient probablement être améliorés. La découverte d’un bon réseau s’effectue par
ajustements successifs des différents paramètres et pas comparaison des résultats obtenus en
termes de pertinence et de qualité.
Grâce à l’outil utilisé, il est possible de comparer les modèles entre eux bien qu’ils ne soient
pas de même nature. Pour cela, nous avons à notre disposition le graphique suivant :
Page 99
dR
Le modèle neuronal semble avoir un léger avantage en termes de prédiction sur le modèle
obtenu par les arbres de décision pour 50% de l’échantillon de validation. Au-delà de cette
médiane, ils ont approximativement les mêmes performances.
De plus, si on compare les matrices de confusion, il apparaît que le modèle de réseau de
neurone conduit à une meilleure prévision que celle utilisée par les arbres de décision.
Néanmoins, les résultats sont relativement proches. Les modèles fournissent des résultats
similaires. Les problèmes de prévision concernent essentiellement les modalités fort et moyen.
IM
Ceci est lié à l’échantillon et à la différence de population entre les effectifs des modalités
faible, moyen et fort de la variable à expliquer.
5.4.1.5.5 Conclusion
Ce cas pratique montre que les méthodes utilisées conduisent à des résultats similaires, mais
que le choix de l’algorithme peut avoir des implications en termes de stabilité. En effet, ici
seuls sont présentés les résultats finaux, leur obtention a nécessité le recours à de nombreuses
étapes.
Il est reconnu dans le milieu du data mining que les résultats fournis par les arbres sont
instables et conduisent à une évolution des techniques et méthodes mises en œuvre pour
l’apprentissage. Ainsi, la tendance actuelle vise à stabiliser les résultats obtenus par les arbres
de décision, les recherches, quant à elles, tendent à développer une démarche et des
algorithmes dont les résultats sont de plus en plus robustes.
Néanmoins, ce cas pratique se révèle positif dans la mesure où il montre que ces techniques
peuvent s’appliquer aussi bien au marketing qu’à des données issues du domaine de la sûreté
de fonctionnement.
Page 100
Il permet également de contribuer à une démystification des réseaux de neurones. En effet, il
est possible de les lire, même s’ils n’ont pas une réelle interprétation physique. De plus, leurs
résultats sont cohérents par rapport aux arbres et peuvent être plus performants. Néanmoins,
ils restent plus usités dans le domaine de la prévision que dans la recherche de variables
discriminantes.
5.5.1 Société A
5.5.1.1 Problématique
dR
Il s’agit d’analyser à partir de l’historique de résolution des défauts ce qui peut expliquer la
non résolution finale de défauts.
Les données ont les caractéristiques suivantes. Chaque ligne décrit l’occurrence de défauts
constatés lors d’essais. Il peut y en avoir jusqu’à 60000.
Les données sur chaque ligne sont principalement constituées par un processus temporel
binaire t1, t2, …,t8. Ce processus est donc une suite de 0 et de 1. Un 0 signifie l’absence du
défaut au temps considéré et un 1 signifie la présence d’un défaut au temps considéré. La
variable à expliquer est la valeur de l’état binaire au temps t8. Un 1 à cette date signifie que le
défaut est non résolu en fin d’essais, et le but de la société A est de caractériser ces défauts
non résolus par rapport aux autres.
Par ailleurs, chaque ligne comporte un certain nombre de caractéristiques qualitatives, dont le
nombre peut varier et qui peuvent constituer des facteurs explicatifs de l’occurrence des
défauts. Pour fixer les idées, on suppose ici qu’il y en a six. On les note v1, v2, …, v6. Le
IM
nombre de modalités de ces variables qualitatives pouvant être très différent.
L’objectif est d’analyser si les défauts non résolus présentent des caractéristiques analogues
sur le processus binaire.
Le rôle des variables qualitatives v1, v2, …, v6 intéresse bien sûr le souscripteur mais semble
subordonné à cet objectif principal. De plus, le souscripteur est intéressé à une approche de
type Case Based Reasoning (CBR) ou raisonnement à base de cas. (Cf. tâche 1).
Si on adopte le point de vue plus exploratoire du data mining, et en particulier celui du CBR,
on peut envisager l’approche suivante : la suite de 0 et de 1 précédant le dernier instant (elle
est donc de longueur sept si on considère huit instants) ne serait pas vue comme la réalisation
d’un processus gouverné par une loi temporelle précise mais comme une forme (pattern en
Page 101
anglais…). Dans cette optique, il s’agirait de voir si l’occurrence de certaines formes ne serait
pas plutôt caractéristique des défauts non résolus que des autres. De ce point de vue “ CBR ”,
il suffirait, pour chaque forme, de compter le nombre de cas associés aux défauts non résolus
sur le nombre total d’occurrences de la forme. De la sorte, on aurait la liste des formes
significativement présentes sur les défauts non résolus. Du fait qu’il y a 27 = 128 formes, cela
semble facilement réalisable. Il s’agit typiquement d’une approche Naive Bayes telle qu’on en
a vu dans la deuxième partie bibliographique de cette étude. Elle pourrait être mise en
compétition avec les arbres de décision.
Partant de là, pour étudier le rôle des différents facteurs v1, v2, …, v6, il suffirait de reprendre
les mêmes calculs conditionnellement aux modalités de chaque facteur (par exemple le
modèle du système en essai) pour voir s’il permet de distinguer des formes particulières et de
voir si elles sont notablement différentes de celles sélectionnées en considérant globalement
toutes les lignes du tableau de données.
dR
Les difficultés de cette approche résideraient dans la sélection des formes significatives et
dans la sélection des modalités des facteurs qualitatifs discriminants.
On pourrait se concentrer sur l’obtention de règles du type CBR sur des situations
particulièrement intéressantes du point de vue du souscripteur. Enfin, le fait de travailler sur
un ensemble de données assez grand est souhaitable pour obtenir des résultats convaincants.
Page 102
5.5.2 Société B
5.5.2.1 Problématiques
Il s’agit d’analyser à partir d’un historique d’incidents la possibilité que d’autres facteurs que
ceux clairement identifiés dans la fiche d’incident interviennent., c’est-à-dire valider les
études AMDEC prévisionnelles.
Chaque ligne décrit un incident ainsi que les facteurs des causes identifiés. Des informations
contextuelles telles que la météo ou la température font également partie des variables
renseignées pour l’incident considéré.
Lors de cet entretien, d’autres problématiques ont été proposées mais qui ne relèvent pas du
domaine du data mining.
•
•
dR
rapport à certains indicateurs par la surveillance des données et la mesure de l’effet
temporel,
à analyser des champs libres (texte) : l’analyse des champs libres relève du text mining,
à aider à l’appréciation de la qualité des bases de données en termes de fiabilité de saisie :
évaluer la fiabilité de la saisie dans une base de données consiste en des tests de cohérence
qui sont réalisés préalablement à toute étude statistique classique ou à l’emploi de
techniques de data mining.
Les techniques alors mises en œuvre peuvent être les arbres de décision qui font apparaître
des règles et les variables les plus discriminantes dans le phénomène que nous cherchons à
mettre comprendre. Néanmoins, le recours à ces techniques est parfois limité car le délai
d’apprentissage peut s’avérer être long. Le choix de la méthode dépend de la nature des
variables ainsi que du volume à traiter. L’avantage reste néanmoins la clarté des résultats
obtenus.
Le CBR peut également faire partie des méthodes possibles. On obtient également des règles.
Cette méthode n’est cependant pas disponible sous l’ensemble des logiciels du marché.
Page 103
5.5.2.3 Résultats escomptés
Comme nous l’avons vu dans le cas pratique, le traitement par arbre de décision permet de
produire des règles qui peuvent être utilisées afin d’appréhender et de comprendre un
phénomène à un instant donné, et, en fonction des caractéristiques obtenues, les règles
peuvent être utilisées à des fins prédictives. De plus, des actions correctives peuvent être
mises en place. Afin d’évaluer l’impact de ces mesures, il sera nécessaire d’effectuer une
nouvelle analyse après un laps de temps suffisant pour que les mesures aient un impact
fonctionnel et que nous ayons à notre disposition suffisamment d’observations pour élaborer
de nouvelles règles.
5.5.3 Société C
5.5.3.1 Problématique
Cette société souhaite travailler sur le facteur humain. Il s’agit de déterminer s’il existe un
dR
profil des personnes récidivistes responsables d’incidents lors de la production. Il s’agit donc
de prévoir la défaillance, non dans le temps comme la plupart des problématiques de la sûreté
de fonctionnement, mais en fonction de caractéristiques telles que l’âge, le niveau de
formation, etc.
Page 104
6 CONCLUSION
.
A travers cette étude, nous avons cherché à définir les concepts du data mining et quelles sont
ses potentialités dans le domaine de la sûreté de fonctionnement.
Le premier chapitre nous a permis de définir ces concepts qui sont difficiles à distinguer de
l’analyse statistique classique. En effet, les deux domaines répondent aux mêmes attentes :
apporter de la connaissance. Les moyens peuvent cependant être différents. En effet, les
techniques de régression ou d’analyse multi-dimensionnelles relèvent de la statistique ou de
l’analyse des données alors que les arbres de décisions ou les réseaux de neurones sont plus
apparentés au data mining. Néanmoins, en se basant sur l’offre logicielle, on constate que les
techniques de régression sont rendues disponibles dans des outils tels que SAS Enterprise
Miner ou SPSS Clementine. Le Data Mining tend à recouvrir l’ensemble des méthodes
permettant de dégager de l’information à partir des données stockées par l’entreprise.
Néanmoins, le data mining fait appel aux techinques statistiques pour estimer les valeurs
dR
manquantes, pour effectuer certaines analyses préalables à la mise en œuvre d’une analyse de
data mining.
Néanmoins, de plus en plus d’entreprises s’interrogent sur ce qu’est le data mining et quel est
son apport potentiel dans son domaine particulier. C’est le cas pour notre étude dont l’élément
centrale est de savoir s’il est possible d’appliquer le data mining à la sûreté de fonctionnement
est le point essentiel de cette étude. Pour cela, il est apparu intéressant de réaliser une étude
bibliographique afin d’effectuer un état de l’art dans ce domaine particulier. Ces recherches
ont montré que finalement peu d’entreprises avaient réalisée une analyse par des techniques
de data mining. Certaines applications existent mais leur nombre reste limité.
Un certain nombre de problématiques générales ont pu être dégagées mais cela reste à un
niveau relativement élevé. Chaque entreprise doit adapter les propositions et pistes de
recherche à son activité, à ses particularités et ses priorités. Cependant, le traitement du cas
pratique montre que ce type d’analyse s’adapte parfaitement aux données desûreté de
fonctionnement ou de données issues d’une base de retour d’expérience. La simplicité des
résultats peut toutefois être trompeuse. En effet, un certain nombre d’étapes sont nécessaires
IM
avant l’obtention d’un résultat valide. Les données peuvent nécessiter des transformations
intermédiaires pour les rendre exploitables et dévoiler leur véritable richesse.
Sous le couvert d’une simplicité parfois trompeuse, le data mining nécessite un certain recul
dans son interprétation et une certaine prudence. Il est important de garder à l’esprit que le
data mining, tout comme les statistiques, constituent une réalité déformée ou simplifiée afin
d’être rendue exploitable et apporter de la connaissance.
Le data mining apporte de la connaissance et de précieuses informations sur le système de
production de l’entreprise. Sa force réside essentiellement dans la quantité de données
exploitables par les différentes méthodes et l’originalité de ses résultats.
Ces techniques sont actuellement essentiellement utilisées dans le domaine du marketing mais
vont faire l’objet d’un développement dans d’autres secteurs générateurs d’une grande
quantité de données qui souvent restent inexploitées.
Le data mining bien que peu utilisé dans le domaine de la sûreté de fonctionnement est
également capable de répondre aux problématiques de ce domaine particulier comme nous
l’avons constaté lors du traitement du cas pratique. Toutefois, pour le data mining comme
pour toute analyse statistique, il est important de cerner sa problématique, de connaître les
données à disposition et d’analyser les résultats avec un certain recul.
Page 105
dR
IM
Page 106
7 REFERENCES BIBLIOGRAPHIQUES
dR
BREIMAN, FRIEDMAN, OLSHEN, STONE, Classification And Regression Trees,
Chapman & Hall, 1984
• Cabarbaye A. et Séroi J. (2000) Optimisation dans le domaine de la Sûreté de
Fonctionnement. Actes de 12, Montpellier, pp. 309-318.
• Cazes P., Baumeder S., Bonnefous S. et Pages J.-P. (1977) Codage et analyse de tableaux
logiques ; introduction à la pratique des variables qualitatives. Cahiers du BURO 27.
• Gelmi V. (1999) Preventive Maintenance : Using Data Mining Systems. FITCE 99, 38th
European Telecommunication Congress, Networking the Future, Utrecht, pp. 50-54.
Page 107
• Heider R. (1996) “ Troubleshooting CFM 56-3 Engines for the Boeing 737 Using CBR
and Data Mining. ” Advances in Case-Based Reasoning, Third European worshop, EWCBR-
96, Lausanne, Lecture Notes in Computer Science 1168 pp. 512-518.
•
•
dR
• Lauritzen et Spigelhalter(1988) Local Computations with probabilities on graphical
structures and their application to expert systems (with discussion). Journal of the Royal
Satistical Association B, 50, 157-224.
• Schön, Odeh, Denoeux et Fotooh (2000) Maîtrise des risques dans le domaine de l’eau
potable. Actes de 12, Montpellier, pp. 695-701.
Page 108
• THURAISINGHAM, Data mining : technologies, techniques tools and trends, 1999
• Toscano R., Handi H. et Lyonnet P. (1999) – Détection d’usure par classification neuro-
floue à partir de signatures automatiques de surface. Actes de QUALITA99.
• Wang X. Z. et McGreavy C. (1997) Data Mining for Safety and Operability Studies in
Process Industries. PADD97, Proceedings of the First International Conference on the
Practical Application of Knowledge Discovery and Data Mining, pp. 271-292.
dR
IM
Page 109
dR ANNEXE A
QUESTIONNAIRE
IM
Annexe A 1
Nom :………………….………………… Prénom :……………………….
Date de rendez-vous :……………………
Société :…………………………………
Direction :……………………………….
Service :…………………………………
dR
Connaissance métier
…………………………………………………………………………………………………
La politique de maintenance
IM
Quelle est la politique de maintenance pratiquée ?……………………………………………
…………………………………………………………………………………………………
Quel est le champ d’application de la politique de maintenance ?……………………………
…………………………………………………………………………………………………
Quels sont les objectifs poursuivis ?………………………………………………………….
…………………………………………………………………………………………………
Quel est le type de matériel suivi ? est-il réparable ?....………………………………………
………………………………………………………………………………………………….
Quel est le type de défaillance ? ……………………..…………………………………………
………………………………………………………………………………………………….
Dans quelle phase se trouve le matériel (phase de jeunesse,…) ?……………………………..
………………………………………………………………………………………………….
Annexe A 2
Informations sur le matériel ?………………………………………………………………….
………………………………………………………………………………………………….
Est-ce du matériel de sécurité ?…………………………………………………………………
…………………………………………………………………………………………………...
Quel investissement représente le renouvellement du matériel ? ………………………………
…………………………………………………………………………………………………...
Aujourd’hui, comment s’effectue le renouvellement du matériel ou la maintenance du
matériel ? ……………………………………………………………………………………….
…………………………………………………………………………………………………...
dR
Les données et les méthodes utilisées
Les données
Quelle(s) est (sont) la (les) sources de données ?……………………………………………..
………………………………………………………………………………………………….
Quel est le volume de données dont vous disposez ?………………………………………….
………………………………………………………………………………………………….
Quel est l’historique dont vous disposez ?……………………………………………………..
…………………………………………………………………………………………………...
Quelle est la qualité de vos données ?…………………………………………………………..
IM
…………………………………………………………………………………………………...
De quel type de données disposez-vous ?……………………………………………………….
…………………………………………………………………………………………………...
Les méthodes :
Quelles sont les méthodes mises en œuvre ?……………………………………………………
…………………………………………………………………………………………………...
Faîtes-vous appel à l’avis d’expert ?…………………………………………………………….
…………………………………………………………………………………………………...
Quels sont les indicateurs calculés ?…………………………………………………………….
…………………………………………………………………………………………………...
Par qui ?…………………………………………………………………………………………
…………………………………………………………………………………………………...
Annexe A 3
Les attentes relatives au projet
dR
…………………………………………………………………………………………………...
Commentaires
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
IM
…………………………………………………………………………………………………
………………………………………………………………………………………………….
Annexe A 4
dR ANNEXE B
Annexe B 1
Les entretiens individuels se sont déroulés en suivant le fil conducteur qu’était le
questionnaire (Cf Annexe A). Néanmoins, les interlocuteurs étant issus de domaine d’activité
différents et occupant des postes différents, le questionnaire restait général et ne s’adaptait
pas à certains domaines d’activité. Nous nous en sommes donc écartés afin d’approfondir les
attentes de chacun.
Globalement, les entretiens visaient à :
• Identifier les postes et responsabilités ;
• Connaître les données disponibles dans la perspective de la phase 3 de l’étude qui consiste
à traiter un cas pratique à partir de données fournies par un souscripteur ;
• Obtenir des informations sur la connaissance d’applications existantes en matière
d’analyse de données de sûreté de fonctionnement et de REX par des techniques de data
mining ;
• Cerner les attentes des souscripteurs.
dR
La synthèse de ces entretiens est présentée dans les paragraphes suivants.
1. LES FONCTIONS OCCUPEES PAR LES SOUSCRIPTEURS
Elles sont relativement diverses. Parmi eux, certains réalisent le calcul d’indicateurs pour la
maintenance et la sûreté de fonctionnement qui sont communiqués aux décideurs de la mise
en œuvre et de l’orientation de la politique en matière de sûreté de fonctionnement.
2. LES DONNEES
L’ensemble des entreprises et souscripteurs disposent bien évidemment de données présentant
des caractéristiques différentes selon l’activité.
Ainsi, on peut distinguer trois catégories :
• Des données issues de l’exploitation et du suivi de l’entretien d’un matériel, les données
événementielles et des données de contrôle ;
• Des données issues d’enquêtes effectuées régulièrement auprès de la clientèle et d’essais
IM
en particulier dans le milieu des constructeur et industriel ;
• Des données issues de l’exploitation d’infrastructure.
Ces données peuvent être :
• Qualitatives
• Quantitatives
• Textuelles (champs libres).
Etant donné les entreprises considérées, les volumes de données sont relativement importants
mais ces données ne font pas l’objet d’une exploitation systématique.
Annexe B 2
Le choix de la mise en œuvre d’une politique s’effectue à partir d’indicateurs plus ou moins
complexes selon l’entreprise. L’ensemble des souscripteurs attend néanmoins de savoir si le
data mining peut leur fournir des critères ou indicateurs identiques ou différents leur
permettant de décider d’une politique correspondant à leur problématique. Il s’agit d’identifier
les apports potentiels du data mining, en particulier dans l’estimation des indicateurs
statistiques tels que des indicateurs de dangerosité ou de criticité.
Les données issues d’un REX présentent fréquemment la caractéristique de champs libres. En
effet, pour le suivi d’un matériel, des renseignements sont saisis à l’aide de codes prédéfinis
mais également de champs libres où les individus peuvent décrire leur intervention et leur
expertise. L’exploitation de ces champs libres constitue également une problématique. La data
mining permet-il d’exploiter les données textuelles contenues dans des champs libres ? Cette
dernière question relève cependant plus du text mining que du data mining à proprement
parler. Les attentes sont relativement concrètes. Par exemple, certains attendent de savoir,
d’un point de vue objectif, si le data mining permet concrètement de pallier aux limites liées à
l’AMDEC, de fournir une aide au diagnostic, en particulier en phase de développement.
dR
D’une façon plus générale, les souscripteurs attendent de l’étude qu’elle leur présente les
applications potentielles sur des données issues d’une base de données de retour d’expérience.
Actuellement, les bases de REX sont peu voire pas exploitées. Le data mining permet-il leur
exploitation en vue de déterminer la fiabilité d’un matériel ?
L’aspect applicatif de cette méthode est primordial. Les souscripteurs attendent des solutions
ou propositions pouvant être rapidement mise en œuvre. Il s’agit donc avant tout de cerner
objectivement les apports potentiels du data mining en matière de sûreté de fonctionnement et
d’analyse de données de REX. Néanmoins, les données, l’activité et les intérêts et donc les
problématiques de chacun étant différents, les méthodes envisageables seront alors également
différentes.
L’aspect sur les possibilités d’application des méthodes de data mining sur une base de retour
d’expérience – sûreté de fonctionnement - sera particulièrement traitée dans la troisième
phase de l’étude et complétée par un exemple basé sur un jeu de données fourni par les
souscripteurs.
IM
2. LES REFERENCES CITEES PAR LES SOUSCRIPTEURS
Les réseaux de neurones sont utilisés d’une façon régulière dans les entreprises industrielles,
en particulier, pour la commande de système.
Pour les autres techniques, elles n’ont jamais ou peu été mises en œuvre par les souscripteurs
du moins dans le domaine de la sûreté de fonctionnement. Certaines entreprises se sont déjà
intéressées à ce type de techniques d’analyse mais essentiellement dans le domaine
d’application le plus courant qu’est le marketing.
Des références ont également été citées, en particulier :
• le club SAS : une application par l’UTAC pour le contrôle des véhicules ;
• General Motors : étude data mining pour l’analyse des retours garantie – détection des
dérives.
Ces références ont été complétées dans une analyse bibliographiques présentée dans le
paragraphe suivant.
Annexe B 3
Les postes • Chercheur
• Responsable REX
• Direction Informatique
• Pôle Sûreté de fonctionnement
• Maîtrise des risques
La • Préventive
maintenance
• Corrective
dR
statistiques
Techniques de prévision
Modèles probabilistes
Indicateur de fiabilité
•
•
•
•
•
•
•
Modèles linéaires généralisés,
régression linéaire,
régression logistique
Modèle bayesien,
Modèle de Weibull,
Méthode de Monte-Carlo
, ,
• MTBF,
• MTTF
Statistiques descriptives et indicateurs • Fréquence,
IM
• moyenne,
• indicateur synthétique
Contrôle et maîtrise des processus
Autres • Réseau de neurones,
• technique de lissage par noyaux
Annexe B 4
Données Nature • Quantitatives
• Qualitatives
Sources • Exploitation,
• enquête,
• essais,
• maintenance
Le matériel Matériel de sécurité et composants
suivi sensible
Matériel roulant (train, bus, Incidents les + fréquents : fermeture des
voitures…) portes
dR
Les attentes
Matériel de production
Veille technologique
Confirmer l’existant
Contexte et problématique :
Annexe B 5
• Recherche –développement : conception de prototypes et de nouveaux produits en
améliorant leur fiabilité, en particulier, la fiabilité des éléments de sécurité.
• Exploitation : détecter les signes précurseurs de défaillance et définir des bornes et
indicateurs afin d’anticiper sur le renouvellement
• aide au choix de mise en œuvre d’un plan de maintenance
• Validation : établir des indicateurs d’objectifs en pondérant les causes des incidents et en
tenant compte du coût associé aux incidents – les valider par rapport aux indicateurs existants.
• Prévision : établir des règles afin de fournir des signes précurseurs de défaillance
dR
IM
Annexe B 6
dR
ANNEXE C
L’ENTROPIE
IM
Annexe C 1
L’entropie d’un phénomène X s’apprécie par la formule suivante :
H ( X ) = − P( X ) log P( X )
Cette entropie peut être appréciée comme une mesure d’incertitude a priori. L’information
mutuelle entre deux variables X et Y peut se mesurer au moyen du facteur de dépendance, de
la façon suivante :
dR I(X /Y) =
P( X / Y ) log P( X / Y )
P( X ) P(Y )
I(X /Y ) = H (X ) − H(X /Y )
Annexe C 2
dR ANNEXE D :
Annexe D 1
La BBC : prévision de l’audience des programmes T.V ;
Dans le paysage très concurrentiel de l’audiovisuel, les spécialistes de la B.B.C élaborant les
grilles de programmes doivent pouvoir estimer l’audience probable d’unprogramme et
déterminer la case horaire qui lui convient le mieux.
Par la mise en œuvre de techniques de data mining, il a été possible d’estimer des modèles
permettant l’estimation de l’audience. Les facteurs qui influent sur la part de marché d’un
programme ne sont pas uniquement les caractéristiques du programme lui-même mais aussi
celles des programmes concurrents, précédent et suivants.
Les modèles obtenus estiment les parts de marché avec une erreur moyenne d’environ 4
points.
dR
Halfords : choix des sites d’implantation des points de vente
Reuters est fournisseur de flux de données financières comme le taux de change, les cours de
la Bourse, etc. Le groupe “ Qualité des données ” a testé les techniques de data mining sur le
problème de la détection des erreurs dans le flux de taux de change.
L’approche choisie fut d’élaborer des modèles prédisant approximativement la valeur des taux
à partir d’un relevé de leurs récentes évolutions. Les nouvelles données qui devient de façon
importante de la prédiction réalisée par le modèle sont considérées comme erronées.
Le système de modélisation mis en place combinait les réseaux de neurones et un ensemble de
règles générées automatiquement. Cette approche leur a permis de détecter des erreurs que les
méthodes traditionnelles étaient incapables de détecter.
Annexe D 2
dR ANNEXE E :
Annexe E 1
Caractéristiques
générales
Constructeur
ces données peuvent
n° du modèle
être mises dans une
n° de série fiche spéciale.
Date de fabrication
Date de mise en service
Date de début de collecte
Date de retrait
d’exploitation du matériel
Date de mise à jour de la
fiche
Identification
Code usine
pour distinguer les
Code système matériels d’une même
Type du composant : par famille
famille.
n° d’ordre
dR
Circonstances de la
défaillance
Situation du matériel lors
de la défaillance ou de la
découverte de la
défaillance
Service normal
Test
Maintenance
Etat du matériel
Fonctionnement
Sollicitation
Arrêt
Il est important de décrire la
configuration du système et de
son environnement avant
l’apparition de la défaillance.
Situation du système
en charge nominale (% de la charge
en charge réduite nominale)
IM
à l’arrêt circuit conditionné
à l’arrêt pour maintenance
en Test spécifiques à chaque
type de système, par
Conditions physiques du exemple
système
pression
débit
température
Annexe E 2
Conditions extérieures du
système
température ambiante
hygrométrie
taux de pollution
dR
Défaillance progressive
Mode de défaillance
Composant interne affecté
Cause de défaillance
Durée de réparation
Durée de main d’œuvre
cumulée
Durée d’indisponibilité
Résumé de la défaillance
Qui aurait pu être
découverte par un
examen antérieur
Rapidité de l’évolution de
la défaillance
Texte libre
Annexe E 3
dR ANNEXE F :
Annexe G 1
IF AMPLINIT EQUALS [0-250]
THEN
NODE : 2
N : 14662
MOYEN : 14.1%
FORT : 0.6%
FAIBLE : 85.3%
IF HMARCHE EQUALS B
dR
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE
N
MOYEN
FORT
NODE
N
MOYEN
FORT
:
:
:
:
FAIBLE :
:
:
:
:
12
121
26.4%
70.2%
3.3%
IF HMARCHE EQUALS C
AND AMPLINIT EQUALS [1000-1250]
THEN
13
490
27.3%
18.6%
FAIBLE : 54.1%
IF HMARCHE EQUALS D
AND AMPLINIT EQUALS [1000-1250]
IM
THEN
NODE : 14
N : 525
MOYEN : 32.4%
FORT : 39.8%
FAIBLE : 27.8%
IF HMARCHE EQUALS E
AND AMPLINIT EQUALS [1000-1250]
THEN
NODE : 15
N : 66
MOYEN : 33.3%
FORT : 25.8%
FAIBLE : 40.9%
IF FAB EQUALS A
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 21
N : 246
MOYEN : 21.5%
FORT : 5.3%
FAIBLE : 73.2%
Annexe G 2
IF FAB EQUALS B
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 22
N : 443
MOYEN : 40.4%
FORT : 4.7%
FAIBLE : 54.9%
IF FAB EQUALS C
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 23
N : 1330
MOYEN : 35.0%
FORT : 15.4%
FAIBLE : 49.6%
dR
IF FAB EQUALS A
AND AMPLINIT EQUALS [500-750]
THEN
NODE
N
MOYEN
FORT
:
:
:
:
FAIBLE :
IF FAB EQUALS B
N
MOYEN
:
:
:
24
1169
17.3%
1.7%
81.0%
IF FAB EQUALS C
IM
AND AMPLINIT EQUALS [500-750]
THEN
NODE : 26
N : 3968
MOYEN : 30.1%
FORT : 5.5%
FAIBLE : 64.4%
IF HMARCHE EQUALS D
AND AMPLINIT EQUALS [250-500]
THEN
NODE : 30
N : 11482
MOYEN : 18.4%
FORT : 1.1%
FAIBLE : 80.5%
IF HMARCHE EQUALS E
AND AMPLINIT EQUALS [250-500]
THEN
NODE : 31
N : 2181
MOYEN : 27.0%
Annexe G 3
FORT : 0.9%
FAIBLE : 72.1%
IF HMARCHE EQUALS B
AND FAB IS ONE OF: ?? D
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 52
N : 204
MOYEN : 16.2%
FORT : 76.0%
FAIBLE : 7.8%
IF HMARCHE EQUALS C
AND FAB IS ONE OF: ?? D
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 53
N : 314
dRMOYEN
FORT
N
MOYEN
FORT
:
:
FAIBLE :
:
:
:
:
FAIBLE :
34.1%
17.8%
48.1%
IF HMARCHE EQUALS D
AND FAB IS ONE OF: ?? D
AND AMPLINIT EQUALS [750-1000]
THEN
NODE 54
697
37.9%
25.7%
36.4%
IF HMARCHE EQUALS E
AND FAB IS ONE OF: ?? D
AND AMPLINIT EQUALS [750-1000]
THEN
NODE : 55
IM
N : 41
MOYEN : 46.3%
FORT : 19.5%
FAIBLE : 34.1%
IF HMARCHE EQUALS B
AND FAB EQUALS D
AND AMPLINIT EQUALS [500-750]
THEN
NODE : 80
N : 600
MOYEN : 32.3%
FORT : 52.3%
FAIBLE : 15.3%
IF HMARCHE EQUALS C
AND FAB EQUALS D
AND AMPLINIT EQUALS [500-750]
THEN
NODE : 81
N : 1064
MOYEN : 32.5%
FORT : 6.1%
Annexe G 4
FAIBLE : 61.4%
IF HMARCHE EQUALS D
AND FAB EQUALS D
AND AMPLINIT EQUALS [500-750]
THEN
NODE : 82
N : 2395
MOYEN : 34.6%
FORT : 9.7%
FAIBLE : 55.7%
IF HMARCHE EQUALS E
AND FAB EQUALS D
AND AMPLINIT EQUALS [500-750]
THEN
NODE : 83
N : 280
MOYEN : 37.5%
dRFORT
N
MOYEN
FORT
:
FAIBLE :
IF FONCT1 EQUALS 2
:
:
:
FAIBLE :
5.4%
57.1%
IF FONCT1 EQUALS 3
AND HMARCHE EQUALS B
AND AMPLINIT EQUALS [250-500]
THEN
NODE : 85
N : 1376
IM
MOYEN : 50.9%
FORT : 20.2%
FAIBLE : 28.9%
Annexe G 5
IF 1.5 <= FONCT4 < 2.5
AND HMARCHE EQUALS C
AND AMPLINIT EQUALS [250-500]
THEN
NODE : 88
N : 2027
MOYEN : 7.2%
FORT : 0.3%
FAIBLE : 92.6%
IF
IF
dRFAIBLE :
MOYEN
FORT
FAIBLE :
:
:
78.1%
12.5
THEN
NODE : 91
N : 1293
MOYEN : 17.8%
IM
FORT : 0.6%
FAIBLE : 81.6%
Annexe G 6
dR ANNEXE G :
Annexe G 1
DROP _FATAL_ _EPS _NOCL_ _MAX_ _MAXP_ _SUM_ _NTRIALS;
_FATAL_ = 0;
_NOCL_ = .;
_MAX_ = .;
_MAXP_ = .;
_SUM_ = .;
_NTRIALS = .;
_EPS = 1E-10;
DROP F_AMPLIN;
DROP AMPL_0_2 AMPL_100 AMPL_125 AMPL_150
AMPL_175 AMPL_250 AMPL_500
AMPL_750 ;
DROP F_FAB;
DROP FAB__ FABA FABB FABC
FABD ;
DROP F_FONCT5;
DROP FONCT51 FONCT52 ;
DROP F_HMARCH;
DROP HMARCHEB HMARCHEC HMARCHED HMARCHEE
;
dR
DROP F_PLAQUE;
DROP PLAQUEE1 PLAQUEE2 PLAQUEE3 PLAQUEE4
PLAQUEE5 PLAQUEE6 PLAQUEE7
PLAQUEE8 ;
DROP F_SITU2;
DROP SITU2A SITU2B ;
DROP F_TPSFCT;
DROP TPSF_110 TPSF_130 TPSF_900 ;
DROP F_FONCT1;
DROP FONCT12 FONCT13 FONCT14 FONCT15
FONCT16 FONCT17 ;
DROP F_FONCT6;
DROP FONCT61 FONCT62 FONCT63 ;
DROP F_FONCT7;
DROP FONCT71 FONCT72 FONCT73 FONCT74
FONCT76 ;
DROP F_POSITI;
DROP POSITIO1 POSITIO2 POSITIO3 POSITIO4
IM
;
DROP F_TYPE;
DROP TYPEA TYPEM ;
DROP EVOMOY EVOFOR EVOFAI ;
LENGTH _WARN_ $4
F_AMPLIN $ 11
F_FAB $ 2
F_FONCT5 $ 12
F_HMARCH $ 1
F_PLAQUE $ 8
F_SITU2 $ 7
F_TPSFCT $ 15
F_FONCT1 $ 12
F_FONCT6 $ 12
F_FONCT7 $ 12
F_POSITI $ 12
F_TYPE $ 6
F_EVOLCH $ 6
I_EVOLCH $ 6
;
LABEL
AMPL_0_2 = "AMPL_0_250_"
AMPL_100 = "AMPL_1000_1250_"
Annexe G 2
AMPL_125 = "AMPL_1250_1500_"
AMPL_150 = "AMPL_1500_1750_"
AMPL_175 = "AMPL_1750_2000_"
AMPL_250 = "AMPL_250_500_"
AMPL_500 = "AMPL_500_750_"
FAB__ = "FAB__"
FABA = "FABA"
FABB = "FABB"
FABC = "FABC"
FONCT51 = "FONCT51"
HMARCHEB = "HMARCHEB"
HMARCHEC = "HMARCHEC"
HMARCHED = "HMARCHED"
PLAQUEE1 = "PLAQUEE1"
PLAQUEE2 = "PLAQUEE2"
PLAQUEE3 = "PLAQUEE3"
PLAQUEE4 = "PLAQUEE4"
PLAQUEE5 = "PLAQUEE5"
PLAQUEE6 = "PLAQUEE6"
dR PLAQUEE7 = "PLAQUEE7"
SITU2A = "SITU2A"
TPSF_110 = "TPSF_110000_130000_"
TPSF_130 = "TPSF_130000_150000_"
FONCT12 = "FONCT12"
FONCT13 = "FONCT13"
FONCT14 = "FONCT14"
FONCT15 = "FONCT15"
FONCT16 = "FONCT16"
FONCT61 = "FONCT61"
FONCT62 = "FONCT62"
FONCT71 = "FONCT71"
FONCT72 = "FONCT72"
FONCT73 = "FONCT73"
FONCT74 = "FONCT74"
POSITIO1 = "POSITIO1"
POSITIO2 = "POSITIO2"
POSITIO3 = "POSITIO3"
TYPEA = "TYPEA"
IM
S_FONCT4 = "Standard: FONCT4"
H11 = "Hidden: H11"
H12 = "Hidden: H12"
H13 = "Hidden: H13"
I_EVOLCH = "Into: EVOLCHR"
F_EVOLCH = "From: EVOLCHR"
P_EVOMOY = "Predicted: EVOLCHR=MOYEN"
R_EVOMOY = "Residual: EVOLCHR=MOYEN"
P_EVOFOR = "Predicted: EVOLCHR=FORT"
R_EVOFOR = "Residual: EVOLCHR=FORT"
P_EVOFAI = "Predicted: EVOLCHR=FAIBLE"
R_EVOFAI = "Residual: EVOLCHR=FAIBLE"
_WARN_ = "Warnings";
*** *************************;
*** Setting the class variable AMPLINIT;
*** *************************;
F_AMPLIN = PUT( AMPLINIT, $11. );
*** *************************;
*** Normalizing F_AMPLIN;
*** *************************;
%DMNORMIP( F_AMPLIN );
IF F_AMPLIN = '. ' THEN DO;
Annexe G 3
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
AMPL_0_2 = .;
AMPL_100 = .;
AMPL_125 = .;
AMPL_150 = .;
AMPL_175 = .;
AMPL_250 = .;
AMPL_500 = .;
AMPL_750 = .;
END;
ELSE IF F_AMPLIN = '[0-250] ' THEN DO;
AMPL_0_2 = 1;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 0;
dR
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1000-1250]'
AMPL_0_2 = 0;
AMPL_100 = 1;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1250-1500]'
AMPL_0_2 = 0;
AMPL_100 = 0;
THEN DO;
THEN DO;
AMPL_125 = 1;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
IM
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1500-1750]' THEN DO;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 1;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[1750-2000]' THEN DO;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 1;
AMPL_250 = 0;
AMPL_500 = 0;
AMPL_750 = 0;
END;
Annexe G 4
ELSE IF F_AMPLIN = '[250-500] ' THEN DO;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 1;
AMPL_500 = 0;
AMPL_750 = 0;
END;
ELSE IF F_AMPLIN = '[500-750] ' THEN DO;
AMPL_0_2 = 0;
AMPL_100 = 0;
AMPL_125 = 0;
AMPL_150 = 0;
AMPL_175 = 0;
AMPL_250 = 0;
AMPL_500 = 1;
AMPL_750 = 0;
dR
END;
ELSE IF F_AMPLIN = '[750-1000] ' THEN DO;
AMPL_0_2 = -1;
AMPL_100 = -1;
AMPL_125 = -1;
AMPL_150 = -1;
AMPL_175 = -1;
AMPL_250 = -1;
AMPL_500 = -1;
AMPL_750 = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
AMPL_0_2 = .;
AMPL_100 = .;
AMPL_125 = .;
AMPL_150 = .;
AMPL_175 = .;
IM
AMPL_250 = .;
AMPL_500 = .;
AMPL_750 = .;
END;
*** *************************;
*** Setting the class variable FAB;
*** *************************;
F_FAB = PUT( FAB, $2. );
*** *************************;
*** Normalizing F_FAB;
*** *************************;
%DMNORMIP( F_FAB );
IF F_FAB = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
FAB__ = .;
FABA = .;
FABB = .;
FABC = .;
FABD = .;
END;
Annexe G 5
ELSE IF F_FAB = '??' THEN DO;
FAB__ = 1;
FABA = 0;
FABB = 0;
FABC = 0;
FABD = 0;
END;
ELSE IF F_FAB = 'A ' THEN DO;
FAB__ = 0;
FABA = 1;
FABB = 0;
FABC = 0;
FABD = 0;
END;
ELSE IF F_FAB = 'B ' THEN DO;
FAB__ = 0;
FABA = 0;
FABB = 1;
FABC = 0;
dR
FABD = 0;
END;
ELSE IF F_FAB = 'C '
FAB__ = 0;
FABA = 0;
FABB = 0;
FABC = 1;
FABD = 0;
END;
ELSE IF F_FAB = 'D '
FAB__ = -1;
FABA = -1;
FABB = -1;
FABC = -1;
FABD = -1;
THEN DO;
THEN DO;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
IM
FAB__ = .;
FABA = .;
FABB = .;
FABC = .;
FABD = .;
END;
*** *************************;
*** Setting the class variable FONCT5;
*** *************************;
F_FONCT5 = PUT( FONCT5, BEST12. );
*** *************************;
*** Normalizing F_FONCT5;
*** *************************;
%DMNORMIP( F_FONCT5 );
IF F_FONCT5 = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
FONCT51 = .;
FONCT52 = .;
END;
ELSE IF F_FONCT5 = '1 ' THEN DO;
Annexe G 6
FONCT51 = 1;
FONCT52 = 0;
END;
ELSE IF F_FONCT5 = '2 ' THEN DO;
FONCT51 = -1;
FONCT52 = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
FONCT51 = .;
FONCT52 = .;
END;
*** *************************;
*** Setting the class variable HMARCHE;
*** *************************;
F_HMARCH = PUT( HMARCHE, $1. );
dR
*** *************************;
*** Normalizing F_HMARCH;
*** *************************;
%DMNORMIP( F_HMARCH );
IF F_HMARCH = '.' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
HMARCHEB = .;
HMARCHEC = .;
HMARCHED = .;
HMARCHEE = .;
END;
ELSE IF F_HMARCH = 'B' THEN DO;
HMARCHEB = 1;
HMARCHEC = 0;
HMARCHED = 0;
HMARCHEE = 0;
END;
ELSE IF F_HMARCH = 'C' THEN DO;
IM
HMARCHEB = 0;
HMARCHEC = 1;
HMARCHED = 0;
HMARCHEE = 0;
END;
ELSE IF F_HMARCH = 'D' THEN DO;
HMARCHEB = 0;
HMARCHEC = 0;
HMARCHED = 1;
HMARCHEE = 0;
END;
ELSE IF F_HMARCH = 'E' THEN DO;
HMARCHEB = -1;
HMARCHEC = -1;
HMARCHED = -1;
HMARCHEE = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
HMARCHEB = .;
HMARCHEC = .;
HMARCHED = .;
Annexe G 7
HMARCHEE = .;
END;
*** *************************;
*** Setting the class variable PLAQUE;
*** *************************;
F_PLAQUE = PUT( PLAQUE, $8. );
*** *************************;
*** Normalizing F_PLAQUE;
*** *************************;
%DMNORMIP( F_PLAQUE );
IF F_PLAQUE = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
PLAQUEE1 = .;
PLAQUEE2 = .;
PLAQUEE3 = .;
PLAQUEE4 = .;
dR
PLAQUEE5 = .;
PLAQUEE6 = .;
PLAQUEE7 = .;
PLAQUEE8 = .;
END;
ELSE IF F_PLAQUE = 'E1
PLAQUEE1 = 1;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
' THEN DO;
Annexe G 8
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
ELSE IF F_PLAQUE = 'E5 ' THEN DO;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 1;
PLAQUEE6 = 0;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
ELSE IF F_PLAQUE = 'E6 ' THEN DO;
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
dR
PLAQUEE6 = 1;
PLAQUEE7 = 0;
PLAQUEE8 = 0;
END;
ELSE IF F_PLAQUE = 'E7
PLAQUEE1 = 0;
PLAQUEE2 = 0;
PLAQUEE3 = 0;
PLAQUEE4 = 0;
PLAQUEE5 = 0;
PLAQUEE6 = 0;
PLAQUEE7 = 1;
PLAQUEE8 = 0;
END;
ELSE IF F_PLAQUE = 'E8
' THEN
' THEN
DO;
DO;
PLAQUEE1 = -1;
PLAQUEE2 = -1;
PLAQUEE3 = -1;
PLAQUEE4 = -1;
IM
PLAQUEE5 = -1;
PLAQUEE6 = -1;
PLAQUEE7 = -1;
PLAQUEE8 = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
PLAQUEE1 = .;
PLAQUEE2 = .;
PLAQUEE3 = .;
PLAQUEE4 = .;
PLAQUEE5 = .;
PLAQUEE6 = .;
PLAQUEE7 = .;
PLAQUEE8 = .;
END;
*** *************************;
*** Setting the class variable SITU2;
*** *************************;
F_SITU2 = PUT( SITU2, $7. );
Annexe G 9
*** *************************;
*** Normalizing F_SITU2;
*** *************************;
%DMNORMIP( F_SITU2 );
IF F_SITU2 = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
SITU2A = .;
SITU2B = .;
END;
ELSE IF F_SITU2 = 'A ' THEN DO;
SITU2A = 1;
SITU2B = 0;
END;
ELSE IF F_SITU2 = 'B ' THEN DO;
SITU2A = -1;
SITU2B = -1;
END;
ELSE DO;
dR
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
SITU2A = .;
SITU2B = .;
END;
*** *************************;
*** Setting the class variable TPSFCT;
*** *************************;
F_TPSFCT = PUT( TPSFCT, $15. );
*** *************************;
*** Normalizing F_TPSFCT;
*** *************************;
%DMNORMIP( F_TPSFCT );
IF F_TPSFCT = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
TPSF_110 = .;
IM
TPSF_130 = .;
TPSF_900 = .;
END;
ELSE IF F_TPSFCT = '[110000-130000]' THEN DO;
TPSF_110 = 1;
TPSF_130 = 0;
TPSF_900 = 0;
END;
ELSE IF F_TPSFCT = '[130000-150000]' THEN DO;
TPSF_110 = 0;
TPSF_130 = 1;
TPSF_900 = 0;
END;
ELSE IF F_TPSFCT = '[90000-110000] ' THEN DO;
TPSF_110 = -1;
TPSF_130 = -1;
TPSF_900 = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
TPSF_110 = .;
TPSF_130 = .;
Annexe G 10
TPSF_900 = .;
END;
*** *************************;
*** Setting the class variable FONCT1;
*** *************************;
F_FONCT1 = PUT( FONCT1, BEST12. );
*** *************************;
*** Normalizing F_FONCT1;
*** *************************;
%DMNORMIP( F_FONCT1 );
IF F_FONCT1 = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
FONCT12 = .;
FONCT13 = .;
FONCT14 = .;
FONCT15 = .;
dR
FONCT16 = .;
FONCT17 = .;
END;
ELSE IF F_FONCT1 = '2
FONCT12 = -0.507092553;
FONCT13 = -0.507092553;
FONCT14 = -0.507092553;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
ELSE IF F_FONCT1 = '3
FONCT12 = 0.5070925528;
FONCT13 = -0.507092553;
FONCT14 = -0.507092553;
' THEN
' THEN
DO;
DO;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
IM
ELSE IF F_FONCT1 = '4 ' THEN DO;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = -0.507092553;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
ELSE IF F_FONCT1 = '5 ' THEN DO;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = 0.5070925528;
FONCT15 = -0.507092553;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
END;
ELSE IF F_FONCT1 = '6 ' THEN DO;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = 0.5070925528;
FONCT15 = 0.5070925528;
FONCT16 = -0.507092553;
FONCT17 = -0.507092553;
Annexe G 11
END;
ELSE IF F_FONCT1 = '7 ' THEN DO;
FONCT12 = 0.5070925528;
FONCT13 = 0.5070925528;
FONCT14 = 0.5070925528;
FONCT15 = 0.5070925528;
FONCT16 = 0.5070925528;
FONCT17 = -0.507092553;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
FONCT12 = .;
FONCT13 = .;
FONCT14 = .;
FONCT15 = .;
FONCT16 = .;
FONCT17 = .;
END;
dR
*** *************************;
*** Setting the class variable FONCT6;
*** *************************;
F_FONCT6 = PUT( FONCT6, BEST12. );
*** *************************;
*** Normalizing F_FONCT6;
*** *************************;
%DMNORMIP( F_FONCT6 );
IF F_FONCT6 = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
FONCT61 = .;
FONCT62 = .;
FONCT63 = .;
END;
ELSE IF F_FONCT6 = '1 ' THEN DO;
FONCT61 = -0.75;
IM
FONCT62 = -0.75;
FONCT63 = -0.75;
END;
ELSE IF F_FONCT6 = '2 ' THEN DO;
FONCT61 = 0.75;
FONCT62 = -0.75;
FONCT63 = -0.75;
END;
ELSE IF F_FONCT6 = '3 ' THEN DO;
FONCT61 = 0.75;
FONCT62 = 0.75;
FONCT63 = -0.75;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
FONCT61 = .;
FONCT62 = .;
FONCT63 = .;
END;
*** *************************;
Annexe G 12
*** Setting the class variable FONCT7;
*** *************************;
F_FONCT7 = PUT( FONCT7, BEST12. );
*** *************************;
*** Normalizing F_FONCT7;
*** *************************;
%DMNORMIP( F_FONCT7 );
IF F_FONCT7 = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
FONCT71 = .;
FONCT72 = .;
FONCT73 = .;
FONCT74 = .;
FONCT76 = .;
END;
ELSE IF F_FONCT7 = '1 ' THEN DO;
FONCT71 = -0.559016994;
FONCT72 = -0.559016994;
dR
FONCT73 = -0.559016994;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
ELSE IF F_FONCT7 = '2
FONCT71 = 0.5590169944;
FONCT72 = -0.559016994;
FONCT73 = -0.559016994;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
ELSE IF F_FONCT7 = '3
FONCT71 = 0.5590169944;
FONCT72 = 0.5590169944;
FONCT73 = -0.559016994;
' THEN
' THEN
DO;
DO;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
ELSE IF F_FONCT7 = '4 ' THEN DO;
IM
FONCT71 = 0.5590169944;
FONCT72 = 0.5590169944;
FONCT73 = 0.5590169944;
FONCT74 = -0.559016994;
FONCT76 = -0.559016994;
END;
ELSE IF F_FONCT7 = '6 ' THEN DO;
FONCT71 = 0.5590169944;
FONCT72 = 0.5590169944;
FONCT73 = 0.5590169944;
FONCT74 = 0.5590169944;
FONCT76 = -0.559016994;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
FONCT71 = .;
FONCT72 = .;
FONCT73 = .;
FONCT74 = .;
FONCT76 = .;
END;
Annexe G 13
*** *************************;
*** Setting the class variable POSITION;
*** *************************;
F_POSITI = PUT( POSITION, BEST12. );
*** *************************;
*** Normalizing F_POSITI;
*** *************************;
%DMNORMIP( F_POSITI );
IF F_POSITI = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
POSITIO1 = .;
POSITIO2 = .;
POSITIO3 = .;
POSITIO4 = .;
END;
ELSE IF F_POSITI = '1 ' THEN DO;
POSITIO1 = -0.632455532;
dR
POSITIO2 = -0.632455532;
POSITIO3 = -0.632455532;
POSITIO4 = -0.632455532;
END;
ELSE IF F_POSITI = '2
POSITIO1 = 0.632455532;
POSITIO2 = -0.632455532;
POSITIO3 = -0.632455532;
POSITIO4 = -0.632455532;
END;
ELSE IF F_POSITI = '3
POSITIO1 = 0.632455532;
POSITIO2 = 0.632455532;
POSITIO3 = -0.632455532;
POSITIO4 = -0.632455532;
' THEN DO;
END;
ELSE IF F_POSITI = '4 ' THEN DO;
POSITIO1 = 0.632455532;
POSITIO2 = 0.632455532;
IM
POSITIO3 = 0.632455532;
POSITIO4 = -0.632455532;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
POSITIO1 = .;
POSITIO2 = .;
POSITIO3 = .;
POSITIO4 = .;
END;
*** *************************;
*** Setting the class variable TYPE;
*** *************************;
F_TYPE = PUT( TYPE, $6. );
*** *************************;
*** Normalizing F_TYPE;
*** *************************;
%DMNORMIP( F_TYPE );
IF F_TYPE = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
Annexe G 14
_FATAL_ = 1;
TYPEA = .;
TYPEM = .;
END;
ELSE IF F_TYPE = 'A ' THEN DO;
TYPEA = 1;
TYPEM = 0;
END;
ELSE IF F_TYPE = 'M ' THEN DO;
TYPEA = -1;
TYPEM = -1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
_FATAL_ = 1;
TYPEA = .;
TYPEM = .;
END;
dR
*** *************************;
*** Checking missing input Interval
*** *************************;
IF NMISS(
FONCT4 ) THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
_FATAL_ = 1;
END;
*** *************************;
*** Writing the Node AMPLINIT;
*** *************************;
*** *************************;
*** Writing the Node FAB;
*** *************************;
*** *************************;
*** Writing the Node FONCT5;
IM
*** *************************;
*** *************************;
*** Writing the Node HMARCHE;
*** *************************;
*** *************************;
*** Writing the Node PLAQUE;
*** *************************;
*** *************************;
*** Writing the Node SITU2;
*** *************************;
*** *************************;
*** Writing the Node TPSFCT;
*** *************************;
*** *************************;
*** Writing the Node FONCT1;
*** *************************;
*** *************************;
*** Writing the Node FONCT6;
*** *************************;
*** *************************;
*** Writing the Node FONCT7;
*** *************************;
*** *************************;
Annexe G 15
*** Writing the Node POSITION;
*** *************************;
*** *************************;
*** Writing the Node TYPE;
*** *************************;
*** *************************;
*** Writing the Node FONCT4;
*** *************************;
IF _FATAL_ EQ 0 THEN DO;
S_FONCT4 = -0.968584655 + 0.2631601019 * FONCT4;
END;
ELSE DO;
S_FONCT4 = .;
END;
*** *************************;
*** Writing the Node H1;
*** *************************;
IF _FATAL_ EQ 0 THEN DO;
H11 = 0.360014417 * AMPL_0_2 + 0.1567946106 * AMPL_100 + 0.2019029757
Annexe G 16
TPSF_130;
H12 = H12 + -0.153175915 * TPSF_110 + -0.238775254 *
TPSF_130;
H13 = H13 + -0.162962094 * TPSF_110 + -0.339351282 *
TPSF_130;
H11 = H11 + 0.0197679794 * FONCT12 + 0.2459929417 * FONCT13
+ 1E-10 * FONCT14 + 0.2479578765 * FONCT15 + 0.2536661252
* FONCT16;
H12 = H12 + 0.3475093125 * FONCT12 + 0.0010983801 * FONCT13
+ 0.5786225434 * FONCT14 + 0.038760434 * FONCT15 + 1E-10
* FONCT16;
H13 = H13 + 1E-10 * FONCT12 + 0.0072452858 * FONCT13
+ 1E-10 * FONCT14 + 1E-10 * FONCT15 + 0.3157548541
* FONCT16;
H11 = H11 + 1E-10 * FONCT61 + 0.3911592397 * FONCT62
;
H12 = H12 + 0.2932234607 * FONCT61 + 0.003872207 * FONCT62
;
H13 = H13 + 0.1275923242 * FONCT61 + 0.2350870845 * FONCT62
dR
;
H11 = H11 + 0.2042586386 * FONCT71 + 0.0791866176 * FONCT72
+ 0.5534920988 * FONCT73 + 0.1703946037 * FONCT74;
H12 = H12 +
+
1E-10 * FONCT71 + 0.0095846735 * FONCT72
1E-10 * FONCT73 + 0.5812445439 * FONCT74;
H13 = H13 + 0.5481568314 * FONCT71 + 0.0020636067 * FONCT72
+ 0.0327470478 * FONCT73 + 0.0025087044 * FONCT74;
H11 = H11 + 0.0171687198 * POSITIO1 + 0.1508942065 *
POSITIO2 + 0.2799252625 * POSITIO3;
H12 = H12 + 0.0332386056 * POSITIO1 +
POSITIO2 + 0.153214925 * POSITIO3;
1E-10 *
*** *************************;
*** Setting the class variable EVOLCHR;
*** *************************;
F_EVOLCH = PUT( EVOLCHR, $6. );
*** *************************;
*** Normalizing F_EVOLCH;
*** *************************;
Annexe G 17
%DMNORMIP( F_EVOLCH );
IF F_EVOLCH = '. ' THEN DO;
SUBSTR(_WARN_, 1, 1) = 'M';
EVOMOY = .;
EVOFOR = .;
EVOFAI = .;
END;
ELSE IF F_EVOLCH = 'MOYEN ' THEN DO;
EVOMOY = 1;
EVOFOR = 0;
EVOFAI = 0;
END;
ELSE IF F_EVOLCH = 'FORT ' THEN DO;
EVOMOY = 0;
EVOFOR = 1;
EVOFAI = 0;
END;
ELSE IF F_EVOLCH = 'FAIBLE' THEN DO;
EVOMOY = 0;
dR
EVOFOR = 0;
EVOFAI = 1;
END;
ELSE DO;
SUBSTR(_WARN_, 2, 1) = 'U';
EVOMOY = .;
EVOFOR = .;
EVOFAI = .;
END;
Annexe G 18
IF EVOMOY NE 0 AND EVOMOY NE 1 THEN DO;
R_EVOMOY = .;
END;
ELSE DO;
R_EVOMOY = EVOMOY - P_EVOMOY;
END;
END;
ELSE DO;
R_EVOMOY = .;
END;
IF EVOFOR NE . AND P_EVOFOR NE . THEN DO;
IF EVOFOR NE 0 AND EVOFOR NE 1 THEN DO;
R_EVOFOR = .;
END;
ELSE DO;
R_EVOFOR = EVOFOR - P_EVOFOR;
END;
END;
ELSE DO;
dR
R_EVOFOR = .;
END;
IF EVOFAI NE . AND P_EVOFAI NE . THEN
IF EVOFAI NE 0 AND EVOFAI NE 1
R_EVOFAI = .;
END;
ELSE DO;
END;
R_EVOFAI = EVOFAI - P_EVOFAI;
END;
ELSE DO;
R_EVOFAI = .;
END;
label
D_EVOLCH = 'Decision: EVOLCHR'
EP_EVOLC = 'Expected Profit: EVOLCHR'
BP_EVOLC = 'Best Profit: EVOLCHR'
IM
CP_EVOLC = 'Computed Profit: EVOLCHR'
;
length D_EVOLCH $ 6;
BP_EVOLC = .; CP_EVOLC = .;
D_EVOLCH = 'Moyen';
EP_EVOLC = P_EVOMOY * 1 + P_EVOFOR * 0 +
P_EVOFAI * 0;
drop _sum;
_sum = P_EVOMOY * 0 + P_EVOFOR * 1 +
P_EVOFAI * 0;
if _sum > EP_EVOLC + 4.547474E-13 then do;
EP_EVOLC = _sum; _decnum = 2;
D_EVOLCH = 'Fort';
end;
_sum = P_EVOMOY * 0 + P_EVOFOR * 0 +
P_EVOFAI * 1;
if _sum > EP_EVOLC + 4.547474E-13 then do;
Annexe G 19
EP_EVOLC = _sum; _decnum = 3;
D_EVOLCH = 'Faible';
end;
dR
*** Computed Consequence of Chosen Decision;
CP_EVOLC = _NNAdema[_tarnum,_decnum];
_NNAdeex:;
*** End Decision Processing;
*** *************************;
*** Writing the I_EVOLCH;
*** *************************;
_MAXP_ = P_EVOMOY;
I_EVOLCH = 'MOYEN ';
1 1 1);
Annexe G 20
dR
ANNEXE H :
GLOSSAIRE
IM
Annexe H 1
Arbre de décision Technique visuelle permettant de diviser des données en groupes basés
sur les valeurs des variables. Elle permet de déterminer les variables
significatives pour une variable à donnée.
Catégorie Valeur prise par une variable discrète
Classification Deux types de classification existent :
▪ Classement des éléments dans des classes connues (par exemple, les
bons et les mauvais clients)
▪ Regroupement des éléments ayant des comportements similaires
dans des classes inconnues au départ. On parlera alors de clustering,
de segmentation ou d’apprentissage non supervisé.
dR
Clustering
Data Mining
Cf. Classification
Continue (variable) Variable pouvant prendre un nombre illimté de valeurs (par exemple, un
réel
Différentes définitions :
▪
▪
Processus d’extraction de la connaissance à partir de données
contenues dans une base de données.
Ensemble des moyens pour détecter des associations entre des
informations contenues dans d’importantes bases de données.
Technique d’investigation des données qui permet de mettre en
évidence des propriétés ou corrélations de données non détectables
par simple consultation.
Data Mining Aussi connu sous le nom de KDD (Knowlegs Discovery Data), les outils
de datat mining permettent d’extraire de la connaissance des données en
IM
(outils de)
découvrant des modèles, des règles dans le colume d’information stocké
par les entreprises.
Découverte de Objectif de certaines analyses de data mining utilisées à des fins
règles prévisionnelles à l’aide de différents algorithmes. Ces règles permettent
de :
▪ Réaliser des prévisions
▪ Déterminier des variables discriminantes et dégager leur importance
relattive.
Dépendante Variable cible de l’analyse de Data Mining, notamment, pour les arbres
(variable) de décisions. On parle aussi de variable à expliquer.
Discrétisation Transformation d’une variable continue en une variable discrète.
Discrète Variable prenant ses valeurs (Cf. catégorie) dans un ensemble limité.
(variable)
Annexe H 2
Échantillon Ensemble de données tiré , aléatoirement ou non, de la source des
données afin d’effectuer des tests et des recherches sur des données.
Génétique Un algorithme génétique est un algorithme lent, représentant les modèles
(algorithme) commes des gènes et des opérateurs génétiques et les faisant évoluer
soit par mutation (un gène au hasard est remplacé), soit par cross-over
(la place de deux sous-arbres est échangéeà. Il est surtout utilisé pour
optimiser les paramètres associés à des outils de prédiction ou de
classification.
Indicateur Information permettant de mesurer la performance d’un modèle.
statistique
Modalité Cf. catégorie.
Réseau neuronal Processus opaque permettant d’estimer une valeur en sortie à partir de
dR
Segmentation
Statistiques
valeurs fournies en entrée.
Les réseaux neuronaux sont constitués de neurones, aussi appelés
nœuds, et d’interconnxions entre ces nœuds, liens permettant d’envoyer
des signaux de neurone à neurone. Un réseau de neurone a pour
caractéristique de pouvoir apprendre et mettre à profit sont expérience
pour ajuster le modèle trouvé en fonction, par exemple, de l’arrivée de
nouveaux éléments.
Cf. classification.
Les techniques statistiques sont des techniques mathématiques
permettant de récueillir et d’analyser des données.
Variable Les données se décomposent en lignes et en colones. Chaque colonne
représente une variable, une propriété des éléments considérés. Les
lignes constituent les individus (au sens statististique, un individu est
IM
une observation).
Annexe H 3
dR ANNEXE I :
Annexe I 1
Modèle 1 :
TYPE 2 A M
POSITION 4 1 2 3 4
TRAIT 2 0 1
HMARCHE 4 B C D E
PLAQUE
SITU2
FAB dR 8
5
E1 E2 E3 E4 E5 E6 E7 E8
A B
?? A B C D
Source
Model
Number of observations
DF
35
The GLM Procedure
Sum of
Squares
255250501.4
83274
Mean Square
7292871.5
F Value
942.00
Pr > F
<.0001
Annexe I 2
Standard
Parameter Estimate Error t Value Pr > |t|
dR
Dependent Variable: EVOLNUM
Parameter
TPSFCT
TPSFCT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
HMARCHE
HMARCHE
[130000-150000]
[90000-110000]
[0-250]
[1000-1250]
[1250-1500]
[1500-1750]
[1750-2000]
[2000-2250]
[250-500]
[500-750]
[750-1000]
B
C
Estimate
9.2934717
0.0000000
-65.1081576
68.2659194
179.3619576
318.2768203
465.2483036
92.9285279
-62.1104771
-40.1130966
0.0000000
40.4246795
-13.3232961
B
B
B
B
B
B
B
B
B
B
B
B
B
Standard
Error
1.48764336
.
1.46305846
2.49087435
3.52669555
4.91287040
6.41929436
88.00973241
1.38856423
1.45922977
.
1.74339255
1.33111967
t Value
6.25
.
-44.50
27.41
50.86
64.78
72.48
1.06
-44.73
-27.49
.
23.19
-10.01
Pr > |t|
<.0001
.
<.0001
<.0001
<.0001
<.0001
<.0001
0.2910
<.0001
<.0001
.
<.0001
<.0001
HMARCHE D -14.1233468 B 1.35271619 -10.44 <.0001
HMARCHE E 0.0000000 B . . .
PLAQUE E1 5.6237454 B 3.03866560 1.85 0.0642
PLAQUE E2 0.6837169 B 3.03971363 0.22 0.8220
PLAQUE E3 -0.4541825 B 3.09010724 -0.15 0.8831
PLAQUE E4 -1.5395695 B 3.14417630 -0.49 0.6244
IM
PLAQUE E5 -5.7557295 B 3.28961047 -1.75 0.0802
PLAQUE E6 0.8723357 B 3.38096687 0.26 0.7964
PLAQUE E7 -2.3933431 B 3.53993495 -0.68 0.4990
PLAQUE E8 0.0000000 B . . .
SITU2 A -4.9140536 B 1.22607117 -4.01 <.0001
SITU2 B 0.0000000 B . . .
FAB ?? -11.1094226 B 4.34149671 -2.56 0.0105
FAB A -57.9030608 B 1.32150154 -43.82 <.0001
FAB B -16.0451355 B 1.10292938 -14.55 <.0001
FAB C -7.1938947 B 0.84782478 -8.49 <.0001
FAB D 0.0000000 B . . .
Annexe I 3
Modèle 2 :
TYPE 2 A M
POSITION 4 1 2 3 4
HMARCHE 4 B C D E
PLAQUE
SITU2
FAB
dR 8
5
E1 E2 E3 E4 E5 E6 E7 E8
A B
?? A B C D
Source
Model
Number of observations
DF
34
The GLM Procedure
Sum of
Squares
255249881.6
83274
Mean Square
7507349.5
F Value
969.71
Pr > F
<.0001
Annexe I 4
Standard
Parameter Estimate Error t Value Pr > |t|
dR
Dependent Variable: EVOLNUM
Parameter
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
AMPLINIT
HMARCHE
HMARCHE
HMARCHE
HMARCHE
PLAQUE
[1000-1250]
[1250-1500]
[1500-1750]
[1750-2000]
[2000-2250]
[250-500]
[500-750]
[750-1000]
B
C
D
E
E1
Estimate
68.2587004
179.3536143
318.2675103
465.2448701
93.1518861
-62.1120421
-40.1095268
0.0000000
40.4097814
-13.3211716
-14.1005685
0.0000000
5.6200965
B
B
B
B
B
B
B
B
B
B
B
B
B
Standard
Error
2.49072991
3.52655279
4.91273306
6.41924741
88.00570562
1.38854554
1.45916716
.
1.74258759
1.33109114
1.35031100
.
3.03862144
t Value
27.41
50.86
64.78
72.48
1.06
-44.73
-27.49
.
23.19
-10.01
-10.44
.
1.85
Pr > |t|
<.0001
<.0001
<.0001
<.0001
0.2898
<.0001
<.0001
.
<.0001
<.0001
<.0001
.
0.0644
PLAQUE E2 0.6824159 B 3.03969336 0.22 0.8224
PLAQUE E3 -0.4594927 B 3.09003317 -0.15 0.8818
PLAQUE E4 -1.5413892 B 3.14415235 -0.49 0.6240
PLAQUE E5 -5.7594486 B 3.28956603 -1.75 0.0800
PLAQUE E6 0.8695419 B 3.38093376 0.26 0.7970
PLAQUE E7 -2.3981320 B 3.53987492 -0.68 0.4981
IM
PLAQUE E8 0.0000000 B . . .
SITU2 A -4.7244328 B 1.02669346 -4.60 <.0001
SITU2 B 0.0000000 B . . .
FAB ?? -11.1188265 B 4.34134549 -2.56 0.0104
FAB A -57.8828559 B 1.31956342 -43.87 <.0001
FAB B -16.0379117 B 1.10262775 -14.55 <.0001
FAB C -7.2114474 B 0.84554739 -8.53 <.0001
FAB D 0.0000000 B . . .
Annexe I 5