Vous êtes sur la page 1sur 36

Data Mining et Statistique

Philippe Besse , Caroline Le Gall , Nathalie Raimbault & Sophie Sarpy

R esum e Cet article propose une introduction au Data Mining. Celle-ci prend la forme dune r eexion sur les interactions entre deux disciplines, Informatique et Statistique, collaborant a ` lanalyse de grands jeux de donn ees dans une perspective daide a ` la d ecision. Sans pr etention dexhaustivit e, di erents exemples sont expos es issus du marketing bancaire, de la d etection de d efaillances dans un proc ed e industriel ainsi que des probl ematiques a eronautiques pour laide au pilotage. Ils permettent de tirer quelques enseignements sur les pratiques du data mining : choix dune m ethode, comp etences de lutilisateur, abilit e des r esultats. Mots clefs Data mining, mod elisation statistique, discrimination, arbres de d ecision, r eseaux de neurones. Abstract This article gives an introduction to Data Mining in the form of a reection about interactions between two disciplines, Data processing and Statistics, collaborating in the analysis of large sets of data. Without any claim to complete coverage, various examples are given, dealing with banking marketing, failure detection in an industrial process, and aeronautical issues on aircraft control. They allow us to draw several lessons about the practical experience of Data Mining : choice of the method, users skills and reliability of the results. Key words Data mining, statistical modeling, discrimination, decision trees, neural netwoks.
Laboratoire de Statistique et Probabilit es, UMR CNRS C5583 Universit e Paul Sabatier 31062 Toulouse cedex 4 besse@cict.fr Motorola Toulouse Airbus EADS Toulouse CARSO Informatique Balma

Introduction

Dans ses applications marketing ou de gestion de la relation client, le Data Mining, qui peut se traduire par la prospection ou la fouille de donn ees et qui sera plus pr ecis ement d eni en section 2.3, conna t un d eveloppement commercial tr` es important et ore de nombreuses opportunit es demplois pour les etudiants form es ` a la Statistique. La motivation principale de cette d emarche est la valorisation dune grande base ou entrep ot de donn ees (data warehouse) par la recherche dinformations pertinentes pour laide a ` la d ecision. Les applications les plus r epandues concernent la recherche dune typologie de la client` ele ou encore celle de scores mesurant lad equation des clients aux produits a ` promouvoir en vue, par exemple, dun publipostage. Dautres applications voient le jour dans un contexte industriel comme laide au diagnostic de d efaillances dans un proc ed e de fabrication complexe (Mieno et coll, 1999. ; Gardner et coll., 2000) ou encore dans des disciplines scientiques confront ees ` a la d etection de motifs ou formes (patterns) dans des volumes de donn ees consid erables : g enomique, astrophysique. . . Comme lanalyse des donn ees des ann ees 70/80, le data mining se pr esente principalement comme un assemblage de techniques au sein dun progiciel. Ces techniques sont issues de di erents domaines d ependant de la Statistique ou de lIntelligence Articielle. On y rencontre ainsi des outils de statistique el ementaire et multidimensionnelle pour lexploration et la classication mais egalement des techniques de mod elisation avec larsenal des g en eralisations de mod` ele lin eaire classique (r egression multiple, logistique) et de lanalyse discriminante. Ces derni` eres sont alors en concurrence avec dautres approches plus algorithmiques visant a ` la construction darbres de d ecision, de r` egles dinduction ou de r eseaux de neurones. Lobjectif principal est pr esent e comme une qu ete de sens : extraire linformation pertinente, ou p epite (nugget) de connaissance, en vue danalyses puis de prises de d ecision. Beaucoup de logiciels sont consacr es ` a la fouille de donn ees, une bonne es au sujet et compar es soixantaine sont r epertori es dans les sites1 consacr (Goebell & Le Gruenwald, 1999) ; la plupart mettent en avant des interfaces graphiques sophistiqu ees, un acc` es int egr e aux bases de donn ees et insistent sur une automatisation pouss ee des traitements. Laccroche publicitaire souvent cit ee est dailleurs : Comment trouver un diamant dans un tas de charbon sans se salir les mains ? Certains sont ax es sur des familles de techniques (par exemple les r eseaux neuronaux), dautres se veulent g en eralistes et orent un large choix, dautres encore se sp ecialisent sur un domaine particulier comme lanalyse de textes appliqu ee ` a la veille technologique. Lutilisation de ces logiciels suscite rapidement quelques questions : une technique de mod elisation est-elle pr ef erable ` a une autre ?
1

www.kdnuggets.com est un bon point dentr ee pour surfer sur ce th` eme.

quelle conance accorder aux proc edures automatiques et quelles comp etences sont n ecessaires au prospecteur ? quelle signicativit e accorder aux r esultats ? Il serait pr esomptueux de vouloir apporter des r eponses d enitives. Dans cet article, nous souhaitons simplement donner quelques eclairages ` a travers des exp eriences concr` etes et susciter une certaine prudence. Contrairement au prospecteur minier qui ne trouve pas de p epite dor l` a o` u il ny en a pas, le prospecteur de donn ees, en fouinant (data snooping) susamment, en sacharnant, nit par r ev eler une p epite de connaissance, cest-` a-dire une liaison ou un motif jug e signicatif sur les donn ees pr esentes, mais qui risque de se r ev eler sans capacit e de g en eralisation, donc sans int er et. Mal utilis e ou mal contr ol e, le data mining peut conduire le prospecteur dans des pi` eges grossiers. Friedman (1997) sugg` ere m eme quil pourrait, comme beaucoup de ru ees vers lor, enrichir principalement les fournisseurs doutils plus que les prospecteurs eux-m emes. La seconde section de cet article est consacr ee ` a une description plus d etaill ee des pratiques relevant de la fouille de donn ees, des relations quelles entretiennent avec les outils informatiques, des rapprochements et oppositions qui peuvent etre d ecel es avec la d emarche statistique en terme dobjectifs ou de m ethodes. Il sagit dalimenter le d ebat d ej` a amorc e par Elder & Pregibon (1996), Friedman (1997) ou Hand (1998, 1999). Le pr esent article privil egie les applications pour une approche comparative ; les techniques principales utilis ees (r egression, arbres, r eseaux de neurones) ne sont pas explicit ees, des d etails sont donc a ` rechercher dans la bibliographie cit ee en r ef erence ou dans des expos es plus syst ematiques (Besse, 2000 ; Jambu 2000 ; H ebrail & Lechevallier, 2002). Trois domaines dapplication sont abord es dans les sections 3 ` a 5. Le premier concerne une application etence de la traditionnelle en marketing bancaire : evaluer un score dapp carte Visa Premier an de mieux cibler une op eration promotionnelle ; le deuxi` eme a pour objectif laide a ` la d etection dune d efaillance dans un proc ed e industriel produisant des circuits int egr es ; le troisi` eme concerne des applications a eronautiques pour laide au pilotage. Enn une derni` ere section tire quelques enseignements de ces exemples quant ` a la pratique du data mining, sur les comparaisons et choix de m ethodes, les comp etences requises, les dicult es d evaluer la abilit e des r esultats, la n ecessaire implication des statisticiens dans un domaine en pleine expansion.

2
2.1

Data mining, Informatique et Statistique


Motivation

Historiquement, le d eveloppement du data mining suit logiquement celui des moyens informatiques de stockage et de calcul. Pour des raisons initialement comptables et de gestion des stocks, les entreprises archivent 3

des masses de donn ees consid erables. Il est alors naturel de vouloir valoriser ces donn ees comme support ` a une strat egie de marketing ou, plus g en eralement, en les int egrant au processus de prise de d ecision. Les gestionnaires des bases de donn ees ont multipli e par 103 puis 106 leur volume, ont complexi e leur architecture en passant dun chier unique a ` des bases r eparties dans des environnements h et erog` enes et en migrant des syst` emes relationnels vers des cubes multidimensionnels. Ils sont donc amen es ` a utiliser des proc edures de consultation plus sophistiqu ees. Apr` es la simple interrogation : Quelles sont les ventes de tels produits a ` telle p eriode ?, on peut chercher ` a conna tre les caract eristiques des acheteurs de ce produit, leurs autres pr ef erences dachat ou plus g en eralement rechercher des associations client-produits en emergence. Cette evolution n ecessite une adaptation des m ethodes sous-jacentes. Du langage dinterrogation logique (SQL) on passe aux techniques de recherche dassociations, de classication, de mod elisation puis de reconnaissance de formes. Di erentes strat egies ont alors et e mises en uvre pour r epondre a ` ces probl` emes. Techniquement, elles ont consist e a int ` egrer ou interfacer des outils statistiques et dintelligence articielle ` a des gestionnaires de bases de donn ees.

2.2

Entrep ots de donn ees

Plus pr ecis ement, le contexte informationnel du data mining est celui des data warehouses. Un entrep ot de donn ees, dont la mise en place est assur ee par un gestionnaire de donn ees (data manager) est un ensemble de bases relationnelles ou cubes multidimensionnels aliment e par des donn ees brutes et relatif ` a une probl ematique : gestion des stocks (ux tendu), pr evision des ventes an danticiper au mieux les tendances du march e, suivi des chiers clients dune banque, dune assurance, associ es ` a des donn ees socio- economiques, a ` lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des op erations de marketing ou des attributions de cr edit ; la gestion de la relation client vise a une individualisation ou personnalisation de la production et de la ` communication an d evacuer la notion de client moyen jug ee trop globalisante ; recherche, sp ecication, puis ciblage des niches de march e les plus protables ou au contraire les plus risqu ees (assurance) ; suivi en ligne des param` etres de production en contr ole de qualit e pour d etecter au plus vite lorigine dune d efaillance ; prospection textuelle (text mining) et veille technologique ; web mining et comportement des internautes ; d ecryptage dune image astrophysique, du g enome ; ...

Un entrep ot de donn ees se caract erise par un environnement informatique h et erog` ene pouvant faire intervenir des sites distants (Unix, Dos, NT, VM. . . ) a travers le r ` eseau de lentreprise (intranet) ou m eme des acc` es ext erieurs (internet). En eet, des contraintes decacit e (suivi en temps r eel), de abilit e ou de s ecurit e conduisent ` a r epartir et stocker linformation a ` la source plut ot qu` a la dupliquer syst ematiquement ou a ` la centraliser. Une autre caract eristique est la fr equente incompatibilit e logique des informations observ ees sur des echantillons di erents ne pr esentant pas les m emes strates, les m emes codications. Enn, ce sont des volumes, chir es en t eraoctets, et des ux consid erables de donn ees qui doivent dans certains cas etre pris en compte, surtout lorsque ces donn ees sont issues de saisies automatis ees.

2.3

KDD

Toute une terminologie sest d evelopp ee autour du data mining et de lintelligence daaires (business intelligence). On parle ainsi de Knowledge Discovery in Databases (KDD) qui se d ecompose (Fayyad, 1997) en di erentes etapes tr` es g en erales dont certaines sont classiques dans le m etier de statisticien : 1. Compr ehension du domaine dapplication : expliciter la connaissance a priori et les buts du commanditaire. 2. Cr eation dun sous-ensemble cible des donn ees (matrice) ` a partir de lentrep ot. 3. Nettoyage : erreurs, donn ees manquantes, valeurs atypiques (outliers). 4. Transformation des donn ees : normalisation, lin earisation, d ecoupage en classes, compression. 5. Explicitation de lobjectif et de la strat egie danalyse : exploration, association, classication, discrimination, recherche de formes. . . 6. Choix des m ethodes, des algorithmes, en privil egiant interpr etabilit e ou pr edictibilit e. Mise en uvre des outils informatiques appropri es. 7. Test : sur la base de crit` eres ` a pr eciser (qualit e dajustement, de pr evision, simplicit e, visualisations graphiques. . . ). 8. Exploitation. 9. Diusion des r esultats (intranet) pour prise de d ecision. De fa con plus pr ecise, le Data Mining concerne lex ecution des etapes 3 ` 8 ci-dessus. Il n a ecessite la mise en uvre, explicite ou non, de m ethodes statistiques classiques (graphiques, sondages, composantes principales, correspondances multiples, classication hi erarchique, nu ees dynamiques, discriminante, k plus proches voisins, segmentation, r egression lin eaire, logistique) ou moins classiques (arbres de classication et de r egression, mod` eles

graphiques dind ependance conditionnelle) ou dintelligence articielle (perceptron multicouche, r eseaux auto-associatif et bay esien, apprentissage et r` egles dinduction, reconnaissance de formes).

2.4

Convergences

Le d eveloppement du data mining implique lassociation de plusieurs disciplines ne partageant pas les m emes r` egles de fonctionnement ou usages. Il est important de faire la distinction entre deux types de points de vue. Les premiers, riches en compl ementarit es, permettent de confronter puis dam eliorer les techniques, de les adapter au mieux aux donn ees. Des antagonismes plus id eologiques que m ethodologiques alimentent les seconds. Citons lexemple des techniques qui visent a ` la recherche arborescente de ethodes CART (Breiman et coll., 1984) et C4.5 r` egles de d ecision2 . Les m (Quinlan, 1993) sont bas ees sur les m emes principes g en eraux (arbre, crit` ere dentropie) mais poursuivent des d eveloppements ind ependants. Cet exemple illustre aussi la remarque de Friedman (1997) : a ` partir dune id ee originale, un statisticien ecrit un article tandis quun informaticien cr ee une entreprise. Objectifs Il est clair que les techniques rapidement list ees dans la section pr ec edente poursuivent des objectifs similaires et peuvent appara tre comme concurrentes ou plut ot compl ementaires. Sch ematiquement, quatre objectifs non exclusifs sont la cible dune prospection. Exploration pour une premi` ere approche des donn ees, leur v erication par la recherche dincoh erences, de donn ees atypiques, manquantes ou erron ees, leur transformation pr ealable a ` dautres traitements. Classication (clustering) pour exhiber une typologie ou une segmentation des observations. Mod elisation par un ensemble de variables explicatives dune variable cible quantitative ou qualitative. Il sagit alors dune r egression ou dune discrimination (ou classement). Recherche de forme sans apprentissage. Il sagit de d eceler une conguration (pattern) originale se d emarquant des donn ees. Plus radical, Hand (1999) consid` ere la classication comme la recherche dun mod` ele et noppose donc que deux objectifs : model building ou pattern recognition. En poussant un peu plus loin la r eexion nous pourrions noter que la d ecouverte dune particularit e ou pattern des donn ees doit etre exprim ee, implicitement ou non, a ` travers une notion de d eviance par rapport a une norme, cest-` ` a-dire un mod` ele qui peut adopter des formes vari ees. Finalement, quel que soit lobjectif recherch e au del` a dune premi` ere exploration, la notion de mod` ele, quelle soit de nature statistique, probabiliste,
2

Consulter Zighed et Rakotomalala (2000) pour une vue densemble sur ces techniques.

logique. . . reste centrale. Choix de mod` ele Dans loptique fr equente de rechercher un mod` ele pr edictif, quelle que soit la m ethode utilis ee, celle-ci n ecessite doptimiser certains param` etres : la liste des variables explicatives retenues, d eventuelles interactions, le nombre de neurones dans une couche cach ee et le temps dapprentissage, le nombre k de plus proches voisins en analyse discriminante, le nombre de feuilles dun arbre de d ecision. . . Les crit` eres de comparaison employ es sont communs aux approches et bien connus en Statistique. Il sagit de toute fa con destimer et de minimiser des erreurs quadratiques de pr evision ou encore des taux de mal class es, eventuellement un risque bay esien si des informations a priori et des co uts de mauvais classement sont connus. Estimation sur un echantillon de validation (nayant pas particip e ` a lestimation), validation enalisation crois ee et crit` eres (Cp de Mallow, AIC, BIC. . . ) impliquant une p de la complexit e du mod` ele sont couramment propos es. Lobjectif central est la s election dun mod` ele parcimonieux r ealisant un meilleur compromis entre lajustement ` a l echantillon ou aux donn ees dites dapprentissage et la variance des estimations de ses param` etres pour aboutir a ` une am elioration des qualit es de pr ediction. Comparaison de m ethodes De nombreux travaux sont consacr es ` a la comparaison de m ethodes sur des donn ees simul ees ou r eelles. Chaque ann ee, des concours3 de fouilles de donn ees sont organis es. Le projet Statlog (Michie et coll., 1994) propose une comparaison syst ematique dune vingtaine de m ethodes de discrimination sur une vingtaine de jeux de donn ees issus de probl ematiques di erentes. Les crit` eres employ es ` a cette n sont a ` nouveau classiques puisquil sagit toujours destimer une erreur soit avec un echantillon test (qui na particip e ni a ` lestimation, ni a ` la proc edure de choix de mod` ele) soit, dans le cas dun echantillon r eduit, par validation crois ee ou r e echantillonnage (bootstrap). La le con de bon sens que lon peut tirer de ce travail m eticuleux est quil ny a pas de meilleure m ethode ; leurs propri et es intrins` eques et les hypoth` eses requises sadaptent plus ou moins bien au probl` eme pos e. Ainsi, dans un probl` eme de discrimination, les propri et es topologiques dune technique permettent ou non de s eparer des r egions par des fronti` eres lin eaires, quadratiques, convexes, ferm ees... En premier lieu, il appara t raisonnable de tester chaque grande famille de m ethodes par lun de ses repr esentants ; en eet, ` a lint erieur dune m eme famille (par exemple les arbres de classication), les di erences observ ees semblent, en premi` ere lecture, peu signicatives. Enn, il sagit de comparer les r esultats obtenus a ` travers la
3

www.kdnuggets.com/publications/kddcup.html.

mise en place dun protocole rigoureux. Les derni` eres propositions tendent m eme ` a proposer des combinaisons pond er ees de mod` eles ou bagging (bootstrap aggregating ; Breiman, 1996) pour saranchir dun eventuel manque de robustesse des m ethodes. Dans le cas des arbres, ` a la suite de travaux de Shlien (1990) et Ho (1998), Breiman (2001) propose la constitution de for ets al eatoires (voir aussi Ghattas, 2000) pour r eduire la variance dune pr evision. Chaque arbre est estim e sur un echantillon bootstrap. Le r esultat dune classication est alors celui du vote de chacun de ces mod` eles tandis quune simple moyenne fournit la pr evision dune variable quantitative.

2.5

Divergences

Plusieurs raisons essentielles, fondamentalement li ees aux donn ees, expliquent les di erences et ruptures m ethodologiques observ ees entre Statistique et Data Mining. Donn ees a priori Dans la plupart des probl` emes de data mining, les donn ees sont pr ealables ` l a etude ; elles sont m eme souvent recueillies ` a dautres ns. En revanche, la planication exp erimentale ou le sondage, cest-` a-dire la saisie organis ee des donn ees, sont partie int egrante dune d emarche statistique traditionnelle qui cherche ` a en optimiser les caract eristiques, par exemple en t achant de minimiser simultan ement co uts de mesure et variance des estimateurs. M eme en marketing, limpact dune campagne publicitaire pourrait etre pr ealablement test e sur des echantillons repr esentatifs des clients potentiels. Bien s ur une telle d emarche a un co ut quil faut mettre en balance avec la qualit e des donn ees recueillies et donc la pr ecision et la abilit e du contr ole de la d ecision qui en d ecoule. Nous touchons un sujet sensible, point dachoppement entre repr esentants de di erentes disciplines. Le statisticien traditionnel, d` ele aux proc ed es de la planication exp erimentale, sattachera a ` organiser lobservation de fa con a se mettre dans les conditions optimales le conduisant ` ` a des mod` eles ables, a des tests dhypoth` ` eses et donc ` a des d ecisions sous le contr ole des mod` eles ` probabilistes inf er es. A lautre extr emit e, la tentation est grande, compte tenu des possibilit es des moyens de stockage et de calcul, des co uts tr` es lourds engendr es par une d emarche exp erimentale, de vouloir pr etendre a ` e de lexploration, de vouloir tester toutes les relations ou une exhaustivit mod` eles possibles, mais sans contr ole de leur signicativit e. Taille des donn ees La principale di erence qui est mentionn ee entre Statistique et Data Mining concerne le volume ou le ux de donn ees qui sont analys ees. Il est evident que tous les algorithmes classiques ne sont pas a ` m eme de traiter 8

des millions dobservations d ecrites par des milliers de variables et la pratique du sondage est lobjet dun d ebat contradictoire. Techniquement, rien nemp eche de pratiquer un sondage dans lentrep ot de donn ees an de mettre en uvre des m ethodes manipulant des matrices de taille acceptable. Le risque est de laisser echapper a ` travers le crible la p epite dinformation pertinente : les groupes de faible eectif mais a ` fort impact economique, la s erie de transactions frauduleuses par carte bancaire, la cause dune d efaillance exceptionnelle. Cest largument avanc e pour justier dun traitement exhaustif mais il noppose pas Statistique et Data mining ` a condition davoir clairement d eni lobjectif : recherche de caract eristiques g en erales de la population ou de sp ecicit es. Ce serait faire un mauvais proc` es ` a la Statistique que de faire croire quelle se limite a ` la recherche de g en eralit es et n egliger ainsi, par exemple, toutes les proc edures de recherche de valeurs atypiques (outliers). N eanmoins, face aux contraintes g en er ees par le volume des donn ees, la r eexion portant sur les structures de donn ees ou les algorithmes utilis es, cest-` a-dire une r eexion de nature informatique, lemporte sur une r eexion plus statisticienne portant sur les mod` eles sous-jacents ou sur leur validit e. Ce point se renforce lorsque des r esultats doivent etre fournis au fur et a ` mesure dune saisie automatique des donn ees. Les propri et es adaptatives des m ethodes deviennent prioritaires. Il est important de noter qu` a travers la proc edure de choix de mod` ele, la taille des donn ees (nombre dobservations, nombre de variables) est un param` etre qui inue fortement sur le choix des m ethodes. Naturellement, plus le nombre dobservations, ou la taille de l echantillon, est grand et plus il est possible destimer pr ecis ement un grand nombre de param` etres dun mod` ele : plus de variables explicatives et dinteractions en r egression, plus de neurones dans un r eseau, plus de feuilles dans un arbre, estimation non param etrique des densit es en discrimination. En pratique (cf. lexemple de la section 5.1), on se rend compte quil est nalement plus simple et plus ecace eseau de neurones exible avec de nombreuses entr ees que de construire un r de vouloir s electionner les bonnes interactions pour un mod` ele polynomial dans un ensemble deectif explosif. Dans cet exemple, la l egitimit e des mod` eles connexionnistes cro t avec la taille des donn ees. Cest dautant plus vrai que le caract` ere explicatif dun mod` ele de r egression trop complexe se vide dint er et. Automatisation Les promoteurs de certains logiciels de fouille de donn ees insistent fortement sur les possibilit es dautomatisation des traitements : lintervention dun expert deviendrait inutile car le traitement peut etre op er e par le commanditaire pilotant les analyses a ` laide dune interface conviviale. Cette pr esentation irrite bien s ur tout statisticien qui a pu exp erimenter, dans des situations concr` etes, combien il est important de sassurer de lint egrit e et 9

de la coh erence des donn ees avant de se lancer dans une m ethodologie sophistiqu ee. Il sinqui` ete egalement devant la complexit e des m ethodes mises en jeu dont toutes les options, choisies souvent par d efaut, ainsi que leurs conditions dapplication et limites, restent opaques ` a lutilisateur non form e. Paradoxalement, lutilisation dune interface ergonomique rend trop facile ou trop rapide le lancement des analyses. Le temps n ecessaire ` a la r eexion sur le choix des options ou le bien fond e des r esultats obtenus peut sen trouver singuli` erement r eduit au prot dune apparente ecacit e. Cette logique dautomatisation est encore renforc ee avec le d eveloppement de programmes dits agents intelligents charg es, en t ache de fond, dinf erer des changements de mod` eles ou de m ethodes parall` element ` a la saisie des donn ees. Validation En Data Mining comme en Statistique limportance dexhiber des mod` eles parcimonieux fait lunanimit e et les strat egies pour y aboutir sont similaires. En revanche, seule une d emarche statistique traditionnelle dans le cadre dun syst` eme contraignant dhypoth` eses est susceptible dapporter directement des pr ecisions quand ` a une majoration de lerreur ou des intervalles de conance. Cette remarque na sans doute que peu dimportance dans une application de type marketing o` u la pr ecision sur le nombre de courriers envoy es nest pas un r eel enjeu. En revanche, dans dautres applications ce point m erite un d eveloppement sp ecique. En eet, dans certains contextes industriels (pharmaceutique, a eronautique...) soumis a ` une l egislation ` a travers des proc edures de certication, il faut pouvoir prouver que lerreur est bien inf erieure ` a la norme x ee. Il est alors dicile d eviter de sinterroger sur la repr esentativit e de l echantillon et sur les caract eristiques de la loi de lerreur. Cette derni` ere est obtenue de fa con th eorique comme r esultant dun corpus dhypoth` eses ou par simulation (Monte Carlo) ; une r eexion de nature statistique redevient n ecessaire. eme objectif tel quil est cit e dans la section pr ec edente (reLe quatri` cherche de forme), associ e` a des techniques issues de lIntelligence Articielle, marque principalement loriginalit e du data mining par rapport a ` la pratique statistique. Cest son plus fort argument commercial pour la recherche dune p epite de connaissance mais cest celui qui pose aussi le plus de probl` emes de validation : montrer quune forme, une relation, une s equence dobservations, est charg ee dinformation et r ev` ele une structure sous-jacente qui ne soit ni une erreur, ni un artefact de l echantillon. La collaboration entre plusieurs disciplines, pas seulement informatique et statistique, est sur ce point incontournable.

10

Statistique et Math ematiques Un dernier di erent est de nature plus acad emique. Ainsi, Hand (1998) sinterroge sur la place de la Statistique. Consid er ee comme branche des Math ematiques, elle est n ecessairement attach ee ` a la notion de preuve pour valider une m ethode en sassurant, par exemple, de ses propri et es et vitesses de convergence. En revanche, au sein de la mouvance informatique, le Data Mining echappe a ` cette contrainte. Il vise a ` lecacit e op erationnelle en admettant une approche empirique consistant a ` comparer performances et pr ecisions des algorithmes en concurrence. Dans le premier cas, une caricature de la d emarche conduit a ` des m ethodes th eoriquement performantes mais inutilisables ou inadapt ees et ne r epondant pas aux besoins des praticiens. Dans le deuxi` eme, on assiste ` a un foisonnement dadaptations ou de variantes incr ementales des algorithmes cens ees en am eliorer la vitesse ou la pr ecision. Bien s ur, ces deux extr emes ne sont pas exclusifs et constituent un sch ema simpliste mais la tendance est nette ` a travers les politiques editoriales des revues internationales de Statistique. Elles acceptent prioritairement la publication darticles d ecrivant des m ethodes n ecessairement etay ees par des preuves math ematiques de convergence ou doptimalit e. La tendance est renforc ee en France par la structure cloisonn ee du Comit e National des Universit es qui ltre les candidatures des Enseignants-Chercheurs avec la dicile t ache de d enir les fronti` eres entre Math ematiques appliqu ees, applications des Math ematiques et autres disciplines. Cela contribue au malaise de la Statistique en France4 en la coupant articiellement des domaines dapplication qui sont une source naturelle dinnovation.

Marketing bancaire

Cette section d ecrit un exemple typique de gestion individualis ee de la relation client.

3.1

Donn ees et objectif

Les donn ees sont issues de la CARSO Informatique charg ee des etudes pour les Banques Populaires du Sud-Ouest. Un ensemble de 48 variables d ecrivent les avoirs, les mouvements, les epargnes, les emprunts. . . dun echantillon de 1200 clients anonymes. Lobjectif principal est la d etermination dun score dapp etence de la carte Visa Premier. L etude a et e con ee ` a une vingtaine d etudiants (10 bin omes) equip es du module SAS Enterprise Miner (SEM, 2001). Chaque bin ome a eu pour consigne de mettre en uvre deux strat egies. La premi` ere a consist e en une exploration manuelle et guid ee
Consulter ` a ce sujet le rapport sur la Statistique de lAcad emie des Sciences (2000) dont on trouve une pr esentation par G. Saporta dans ce journal (140, 4).
4

11

an daboutir a ` un m eme sous-ensemble de variables recod ees en classes. Dans leur deuxi` eme tentative, les etudiants ont repris des donn ees initiales en etant libres dutiliser les outils automatiques (s election de variable, recodage) disponibles dans SEM (2001). Ces deux strat egies se sont conclues par la comparaison de trois mod elisations (r egression logistique, arbre de classication, r eseau de neurones) estim ees et test ees chacune sur plusieurs echantillons issus de tirages ind ependants : lun commun a ` tous les etudiants, tous les autres di erents.

3.2

R esultats pr eliminaires

Il serait fastidieux de lister les r esultats5 issus de lexploration de ces donn ees, etape tr` es el ementaire mais n ecessaire ` a leur compr ehension et leur v erication. L etude unidimensionnelle montre que la plupart des variables pr esentent des distributions tr` es dissym etriques. Cest un ph enom` ene classique avec des variables mesurant des revenus, de distribution voisine dune log-normale, illustrant la concentration des richesses. Des transformations sont indispensables. Deux strat egies ont et e test ees. La premi` ere utilise des transformations monotones (f (x) = log(a + x)) pour rendre les distributions plus sym etriques, la deuxi` eme transforme toutes les variables par d ecoupage en 2 ou plus rarement 3 classes. Cela r esume le fait que linformation importante est la pr esence ou labsence de tel produit nancier plut ot que le nombre ou le montant de ce produit. Nous pourrions penser que le choix de garder quantitative linformation est plus ecace : plus de degr es de libert e, information moins r esum ee ; n eanmoins la deuxi` eme strat egie (tout qualitatif) sest montr ee plus ecace en terme de qualit e pr edictive des mod` eles. Elle seule est mentionn ee dans la suite de cet article. L etude bidimensionnelle montre que m eme une gestion automatis ee des donn ees est source derreurs ou dincoh erences. Nous trouvons ainsi quelques clients ne poss edant globalement aucune carte de paiement mais titulaires dune carte Visa Premier, dautres plus jeunes que lanciennet e de leur relation avec la banque. Les coquilles rencontr ees sont principalement dues ` a lagr egation de chiers dorigines di erentes et qui ne se trouvent pas au m eme niveau de mise ` a jour. Touchant peu de clients, elles sont dimportance mineure sauf si, non d ecel ees, elles sont consid er ees dans une fouille automatique comme tr` es informatives car evidemment tr` es improbables. Ainsi, la recherche imprudente dune classication conduit aux r esultats du tableau 1. Une seule variable, mesurant lanciennet e du client dans la banque, explique la classication obtenue. Il sagit en fait dun artefact d ua ` un petit sous-ensemble de clients articiellement anciens. En se d emarquant erience des autres, ils conf` erent une variance importante a ` cette variable. Lexp
5

Certains sont explicit es ` a titre dillustration par Besse (2000).

12

Tab. 1 Statistiques relatives a ` une classication obtenue par r eallocation dynamique (proc edure FASTCLUST). La variable exprimant lanciennet e du client (RELAT, li ee a ` l age) explique a ` elle seule la classication obtenue. Toutes les autres ont des inuences n egligeables.
Variable Total STD Within STD R-Squared RSQ/(1-RSQ) -------------------------------------------------------------AGER 11.894403 10.526963 0.220380 0.282676 RELAT 156.2459 20.373673 0.983077 58.090326 OPGNBL 0.684994 0.684542 0.005993 0.006029 MOYRVL 1.470973 1.428200 0.061724 0.065784 TAVEPL 4.907649 4.732474 0.074468 0.080460 ENDETL 1.277375 1.266556 0.021471 0.021942 GAGETL 5.468386 5.434921 0.016827 0.017115 GAGECL 3.672788 3.671744 0.005247 0.005275 GAGEML 4.530790 4.508201 0.014582 0.014797 ... ... ... 0.0... 0.0...

montre que des etudiants apprentis prospecteurs tombent facilement dans ce pi` ege en se contentant dune typologie sans int er et.

3.3

Mod elisation

Il sagit de construire des mod` eles pr edictifs de la variable binaire : possession ou non de la carte Visa Premier. Quatre m ethodes sont en concurrence sur cet objectif. Lanalyse discriminante et ses variantes nont pas donn e de bons r esultats ; absente de la version basique de SEM (2001) elle est laiss ee de c ot e. La r egression logistique associ ee ` a un algorithme de choix de mod` ele pas a ` pas. Le perceptron multicouche qui, compte tenu du nombre de variables en entr ee et de la taille de l echantillon, sera limit e ` a 5 neurones sur la couche cach ee. Ils sont munis de fonctions de transfert sigmo dales. Les arbres de classication avec un crit` ere dhomog en eit e bas e sur lentropie. La d emarche de choix de mod` ele et de comparaison de m ethode adopt ee est celle implicitement propos ee par SEM (2001). L echantillon global est al eatoirement partag e en trois parties : apprentissage (60%), validation (20%) et test (20%). Pour chacune des trois m ethodes retenues (logistique, perceptron, arbre), le mod` ele est estim e sur l echantillon dapprentissage et optimis e sur celui de validation : choix des variables de la r egression logistique, limitation de lapprentissage du perceptron et elagage de larbre.

13

3.4

Comparaison

Finalement, les mod` eles optimaux de chacune des trois d emarches sont compar es en terme de taux de mal class es estim e sur le seul echantillon test (pr ecaution n ecessaire pour estimer sans biais). Le travail ainsi d ecrit a et e r ealis e par 10 bin omes d etudiants apr` es exploration manuelle ou s election et transformation automatique sur le m eme echantillon. Puis, pour tenir compte de la source de variation importante due a ` lestimation de lerreur sur l echantillon test, la proc edure a et e r ep et ee trois fois par chaque bin ome et sur des echantillons di erents. Cest tr` es simple avec SEM (2001) puisquil sut de modier linitialisation du g en erateur de nombres al eatoires dans le premier nud du diagramme de linterface sch ematisant lencha nement des outils. Une premi` ere analyse de variance el ementaire fournit les r esultats du tableau 2. Celui-ci montre labsence deet du facteur bin ome. Les etudiants, sans doute trop guid es, nont pas fait preuve de beaucoup dinitiatives. Nous ne pouvons donc malheureusement pas nous int eresser ` a la robustesse dune m ethode ou dune strat egie vis ` a vis de linexp erience de lutilisateur. Cette exp erience devra donc etre reconduite. En revanche, il est possible de sint eresser aux eets des autres facteurs ; Strat egie a deux niveaux : automatique (Aut) et manuel (Man) tandis que M ethode en a trois : arbre de classication (Arb), r egression logistique (Log) et r eseau de neurones (Res). Les diagrammes bo tes (gure 1) montrent limportance relative de la variance attach ee ` a lestimation du taux de mal class es. L echantillon test de taille modeste (# 200) est une source importante de variation. Le tableau 3 ethode moins marqu e montre le net eet de la strat egie et un eet de la m tandis que linteraction strat egie/m ethode est n egligeable. Ceci est repris dans la gure 2 qui montre la sup eriorit e uniforme de la proc edure manuelle et labsence dinteraction signicative m eme si la r egression logistique fait un peu mieux dans le cas automatique.

3.5

Commentaires

Les r esultats de cette exp erience sugg` erent quelques remarques : 1. la proc edure manuelle est certes artisanale et plus longue mais elle permet, dune part de d etecter quelques incoh erences dans les donn ees et dautre part de fournir des mod` eles signicativement meilleurs, ind ependamment de la technique utilis ee. Lexpertise humaine sav` ere, sur cet exemple, n ecessaire, voire incontournable. 2. P enalis es par un eectif r eduit de l echantillon dapprentissage, les r eseaux de neurones se montrent syst ematiquement moins performants que la r egression logistique (choix de mod` ele automatique par elimination) et surtout que les arbres de classication ( elagage par optimisation

14

Tab. 2 Tous les bin omes traitent le m eme echantillon. Analyse de variance (proc edure REG de SAS, 1989) montrant les eets de la strat egie (automatique et manuelle) et, a ` un moindre degr e, de la m ethode (r egression, arbre, r eseau), labsence deet du bin ome, sur le taux de mal class es obtenu sur l echantillon test.
Source BINOME STRATEG METHODE BINOME*STRATEG BINOME*METHODE STRATEG*METHODE Type III Tests DF Mean Square 7 2.8578 1 460.7222 2 6.8329 7 2.9880 14 2.0221 2 9.0747 F Stat 1.5425 248.6738 3.6880 1.6128 1.0914 4.8981 Prob > F 0.2319 0.0001 0.0517 0.2113 0.4362 0.0244

Tab. 3 Chaque bin ome traite trois echantilllons di erents. Analyse de variance (proc edure REG de SAS, 1989) montrant les eets de la strat egie (automatique et manuelle) et de la m ethode (r egression, arbre, r eseau) mais labsence dinteraction signicative.
Source STRATEG METHODE STRATEG*METHODE Type III Tests DF Mean Square 1 874.6242 2 23.9387 2 10.6399 F Stat 146.5821 4.0120 1.7832 Prob > F 0.0001 0.0197 0.1710

15

TAUXMC 28 26 24 22 20 18 16 14 12 10 8 6 ArbXAut ArbXMan LogXAut LogXMan ResXAut ResXMan Methode x Stategie


Fig. 1 Diagrames bo tes parall` eles pour chaque combinaison de m ethode et strat egie. Ceci montre limportance relative de la variance associ ee ` a lestimation du taux derreur sur un echantillon test de taille modeste (200).

moyenne des effets 20 18 16 14 12 10 Arbre STRATEG Logit Facteur Methode Automat. Manuelle ResNe

Fig. 2 Graphique comparant les eets moyens observ es pour chaque combinaison de facteurs : interaction non signicative et, globalement, meilleurs r esultats de la proc edure manuelle. Larbre de classication semble plus performant sur cet exemple. 16

Etape 1

Etape 2

Etape n

Etape

Recette

Equipement

Fig. 3 Sch ematisation du processus de fabrication qui re coit en entr ee des lots de plaquettes vierges de silicium sur lesquelles sont int egr es les circuits au cours de cent a ` deux cents etapes durant un temps de cycle dune dizaine de semaines.

sur un echantillon de validation). De plus, la grande facilit e dinterpr etation de ces derniers les font nettement pr ef erer sur cet exemple. 3. Attention, la strat egie qui consiste ` a comparer la qualit e des mod` eles par leur performance sur un echantillon test est associ ee ` a une variance importante. La variance inter test est m eme plus importante que la variance inter m ethode. Seul un jeu de donn ees beaucoup plus volumineux ou une proc edure de validation crois ee (pas pr evue dans SEM, 2001) permettrait dam eliorer la qualit e de lestimation des erreurs.

Proc ed e industriel

Le Contr ole Statistique des Proc ed es est largement utilis e dans lindustrie et int egr e aux normes de qualit e pour optimiser des r eglages (plans dexp erience) ou d etecter des d erives de proc ed es (cartes de contr ole). Dans le cas de la fabrication de circuits int egr es, le proc ed e est long et complexe, il requiert dautres outils pour d etecter d eventuelles d efaillances.

4.1

Donn ees et objectifs

Les circuits int egr es sont fabriqu es ` a partir de plaquettes de silicium, chacune contenant des centaines de circuits. Ces plaquettes sont regroup ees par lots passant sur des equipements ` a chaque etape du proc ed e (cf. sch ema de la gure 3). Une etape est compos ee de recettes au cours desquelles plusieurs equipements peuvent etre utilis es indi eremment. De mani` ere abusive mais pour simplier, les recettes sont confondues avec les etapes. Les technologies actuelles requi` erent plus dune centaine d etapes di erentes. En n 17

de fabrication, les circuits sont test es electriquement. Il existe deux grands types de test : les tests de contr ole de proc ed e v erient si celui-ci est conforme ` a la technologie. Ils permettent de d etecter des d erives du proc ed e mais ne servent g en eralement pas ` a rejeter des circuits. Selon la technologie, on en compte plusieurs centaines. Les test sous pointes, ou tests electriques, sont eectu es sur chaque circuit de chaque lot. Le test sous pointes consiste en un ensemble de mesures electriques (courants, fr equences, tensions) dont les sp ecications ont et e d etermin ees avec les clients. Tout circuit qui nest pas dans la sp ecication pour un test est rejet e. La proportion de circuits ayant pass e lensemble des tests est appel ee rendement. La pr esence dune d efaillance, cause dune chute de rendement, nest observable quen n de production. Compte tenu du temps de cycle qui peut etre de plusieurs mois, plus t ot la cause est trouv ee, plus t ot laction corrective peut etre mise en place et les plaquettes epargn ees. Dans ce contexte, le data mining est utilis e pour acc el erer le processus de recherche de d efaillance. Deux sortes danalyse sont exp eriment ees : une analyse qui consiste a ` trouver si les lots mauvais sont pass es par une m eme s equence d equipements au cours du proc ed e de fabrication et donc a ` suspecter ces equipemements ; une analyse qui consiste a ` caract eriser physiquement des rejets ` a des tests electriques a ` laide des tests de contr ole de proc ed e an de pr eciser lorigine de la d efaillance. Les donn ees se pr esentent sous la forme dun tableau dont les lignes sont les lots et les colonnes des variables pr ecisant : le rendement moyen, l equipement par lequel est pass e le lot pour chacune des etapes, les tests de contr ole. Pour ne pas bruiter les donn ees relatives au moment de la efaillance, il est n ecessaire de ne consid erer que les lots correspondant a ` d la p eriode incrimin ee. Ainsi, on travaille rarement sur les donn ees de plus dune centaine de lots. Pour les deux types danalyse, compte tenu du nombre d etapes du proc ed e de fabrication, ou du nombre de tests de contr ole, il y a plusieurs centaines de variables explicatives pour une seule variable a ` expliquer : un rendement moyen par lot ou une variable binaire le caract erisant (bon ou mauvais). Lobjectif semble a priori classique : expliquer une variable par un ensemble de variables qualitatives (les etapes du proc ed e) prenant diverses modalit es (les equipements) ou encore de variables quantitatives (tests de contr ole). La situation est n eanmoins tr` es particuli` ere par le nombre de variables explicatives ainsi que par lobjectif recherch e : la construction dun mod` ele ` a une variable d esignant l equipement ou le test de contr ole incrimin e, eventuellement un mod` ele ` a deux variables dans le cas, semble-t-il rare, dinteractions entre equipements.

18

-log(pvalue) 11 10 9 8 7 6 5 4 3 2 1 0 0 100 Numero des etapes


Fig. 4 Graphique de log10 (1/p) (p-valeurs : valeur de la statistique de test) des analyses de etapes du proc ed e. Compte tenu du nombre de dobtenir plusieurs valeurs sup erieures a ` 2 mais tement des autres. probabilit es de d epasser la variance pour chacune des tests r ealis es il est naturel une etape se distingue net-

200

Di erentes approches sont envisageables. Un outil est d ej` a install e en production (Bergeret & Chandon, 1999) sous la forme dun tableau de bord. Il calcule syst ematiquement, pour chaque etape, les analyses de variances permettant de tester linuence du facteur equipement sur la variable rendement. Autrement dit, le rendement moyen des lots pass es par un m eme equipement est-il signicativement di erent de ceux pass es par dautres equipements ` a une m eme etape. Les r esultats obtenus sont compar es avec ceux dautres approches, arbres ou r egression logistique. Compte tenu du faible nombre de lots au regard du nombre de variables en entr ee et ` a cause de leur dicult e dinterpr etation, les r eseaux de neurones sont dans ce cas inadapt es.

4.2

Recherche dune s equence d equipements d efaillants

Dans ce premier exemple, le probl` eme de rendement a et e caus e par lutilisation dun type d equipement plut ot quun autre a ` une etape du proc ed e de fabrication. Autrement dit, les lots mauvais sont majoritairement pass es par des equipements de type A alors que les lots bons ont et e trait es principalement par des equipements de type B. Il ny a pas dinteraction connue avec dautres equipements ` a dautres etapes. Le tableau de bord, comparant syst ematiquement les rendements moyens des equipements dune m eme etape par des analyses de variance, r ev` elent plusieurs tests signicatifs au 19

niveau de 1% (cf. gure 4). Un test se d etache nettement associ e` a une proetape point ee est alors analys ee avec babilit e de lordre de 1010 . Chaque les responsables du proc ed e de fabrication. Les comparaisons visuelles des histogrammes des rendements par equipement et de leurs s eries de taux de rejets en fonction de la date de passage des lots a ` l etape permettent de bien identier les equipements et d eliminer les fausses alarmes. Elles sont dues ` a des particularit es du proc ed e de fabrication ou a ` la pr esence de certaines valeurs qui peuvent inuencer lanalyse de variance ou encore au simple hasard compte tenu du nombre de tests r ealis es sur le m eme echantillon. Les investigations aux etapes retenues par ces analyses ont montr e que l etape nomm ee 10 equipements susIMPD, associ ee ` a la plus faible probabilit e (10 ), et les pect es (IMPL1) etaient responsables de la d efaillance. Pour information, le gain en rendement obtenu apr` es lutilisation exclusive des equipements de type IMPL2 est de lordre de 7,5 %. Pour faciliter la diusion des r esultats, un arbre de classication, plus simple ` a interpr eter, a egalement et e estim e` a laide du logiciel S-plus (1997). Dans ce cas, les lots sont class es en bon ou mauvais selon leur taux de rejet a un test ` electrique, ou plus simplement selon leur rendement. Larbre de classication obtenu (gure 5) est structur e en 3 niveaux. Chaque niveau met en cause une etape et des equipements. Le premier niveau s epare les lots selon deux branches : celle des bons ne contenant aucun lot mauvais et celle des mauvais ne contenant que 7 lots bons sur 78. Les deux autres niveaux permettent daner les r esultats sur les lots mauvais, n eanmoins ils semblent moins d eterminants dans la classication des lots. Un elagage par validation crois ee conrme cette observation puisque la premi` ere division est seule retenue (gure 6). Les r esultats sugg` erent donc que les lots mauvais sont pass es par les equipements de type IMPL1 a ` l etape IMPD, et quil ny a pas dinteraction avec dautres equipements ` a dautres etapes. Un arbre de r egression a egalement et e estim e sur les m emes donn ees. Larbre ainsi obtenu est structur e en quatre niveaux. Le premier niveau est aussi bas e sur l etape IMPD. Il distingue clairement les lots bons des lots mauvais selon lutilisation de l equipement. Les equipements de type IMPL1 semblent g en erer les lots qui ont en moyenne les rejets les plus importants (19,4 % de rejets en moyenne contre 0,13 % pour l equipement de type IMPL2). Les autres niveaux de larbre sont di erents de ceux de larbre de classication ; ils semblent eux aussi tr` es peu informatifs. Quant a ` l elagage par validation crois ee, il est encore plus favorable a ` la conservation du seul premier niveau. En comparant arbre de r egression et tableau de bord bas e sur le test de Fisher, il nest pas surprenant de constater que ces deux m ethodes d esignent la m eme variable. En eet, la statistique de test correspond au crit` ere dhomog en eit e maximale qui sexprime comme une d eviance dun mod` ele lin eaire election de la variable a ` utiliser. N eanmoins, ces deux a un facteur pour la s ` approches apportent quelques nuances. Dans lexemple pr esent e o` u un type 20

bon 21/194 IMPD:IMPL1 IMPD:,IMPL2

mauvais 7/28 GRAVAA2:6.1,6.10,6.3,6.4,6.5,6.8,6.9,6MTS1 GRAVAA2:6.12,6.13,6.15,6.17,6MTS4

bon 0/166

mauvais 0/18

bon 3/10 GRAVDS2:6.1,6.11,6MTS1 GRAVDS2:6.10,6.15,6.6,6MTS4

mauvais 2/5

bon 0/5

Fig. 5 Arbre de classication non elagu e pour la recherche dune ` chaque niveau, sont pr s equence d efaillante d equipements. A ecis es la variable (l etape) op erant la meilleure dichotomie entre les lots ainsi que les modalit es ( equipements concern es). On donne aussi pour chaque nud le rapport du nombre de mal class es sur leectif total.

21

100.0 140

19.0

5.5

-Inf

deviance

40 1.0

60

80

100

120

2.0 size

3.0

4.0

Fig. 6 Elagage par validation crois ee. Comportement de la d eviance du mod` ele en fonction du nombre de nuds retenus dans larbre. Un seul nud avec deux feuilles est retenu. d equipement est mis en cause, larbre met directement en avant cette information par une partition des modalit es, donc des equipements, par types. Dans le cas du tableau de bord, une etape compl ementaire de comparaison multiple est n ecessaire. De plus, un arbre est susceptible de prendre en compte naturellement d eventuelles interactions entre equipements, contrairement aux analyses de variance consid er ees. N eanmoins, le probl` eme des fausses alertes peut sav erer d elicat dans des situations moins contrast ees. Si la d efaillance dun equipement nest pas franche ou encore si l ecart entre les equipements d efaillants et les equipements corrects est faible, le choix des divisions de larbre est inuenc e par le nombre de modalit es. Autrement dit, entre deux etapes dont lune pr esente un equipement episodiquement d efaillant parmi trois et lautre compos ee de beaucoup d equipements, lalgorithme de choix de la variable la plus discriminante peut sarr eter sur celle pr esentant le plus de modalit es. Il nest donc pas possible de n egliger une analyse manuelle et d etaill ee des r esultats obtenus.

4.3

Caract erisation physique des rejets ` a un test electrique

Dans lexemple suivant, la strat egie d ecrite pr ec edemment ne permet pas de mettre en cause un equipement particulier. Une autre approche consiste a caract ` eriser la d efaillance par les tests de contr ole capables de d etecter une d erive du proc ed e de fabrication. Ici, la chute de rendement est caus ee par des rejets importants ` a un test electrique. Les arbres de r egression et de classication donnent des r esultats 22

di erents, et, dans les deux cas, le premier niveau est construit ` a partir dune etape utilisant de nombreux equipements. Lanalyse manuelle de chacune des etapes laisse supposer quon est dans le cas o` u la cause du probl` eme est plut ot marginale. Peu de cr edit peut etre accord e` a ces r esultats. Le tableau de bord, quant a ` lui, pointe trois etapes di erentes de celles des arbres. Deux dentre elles mettent en cause le m eme equipement (6203). Une analyse d etaill ee a montr e que ces r esultats etaient assez cr edibles. N eanmoins, ils ne satisfont pas compl etement ling enieur responsable du produit. Pour approfondir ses investigations, il souhaite caract eriser physiquement les rejets du test electrique. Cest pourquoi, di erents mod` eles sont estim es pour expliquer les rejets par les tests de contr ole de proc ed e. Avant elagage, larbre de r egression obtenu (gure 7) est structur e en deux niveaux. Le premier, bas e sur la variable quantitative P22351, s epare les lots en deux sous-populations. Clairement selon le nombre moyen de rejets de chaque sous-population, cet arbre s epare en deux branches les lots mauvais (moyenne elev ee donn ee dans les ellipses qui symbolisent le nud) des lots bons (moyenne faible). Les autres divisions de larbre anent ces r esultats mais elles ne semblent pas apporter dinformations suppl ementaires utiles. L elagage par validation crois ee conforte cette observation puisquil sarr ete au premier niveau. Le graphique donnant les rejets au test en fonction de la variable P22351 souligne la pr esence dun eet seuil (gure 8). En eet, ` a gauche du seuil donn e par larbre (-0.84), la proportion de lots mauvais est importante. ` partir de ces r A esultats, ling enieur responsable du produit a identi e trois etapes du proc ed e de fabrication dont deux mettant en cause l equipement 6203. En pratiquant des modications a ` ces etapes, il a pu augmenter le rendement du produit denviron 5 %. Lecacit e de cette approche est evalu ee par comparaison a ` une r egression logistique en classant les lots bons et mauvais selon leur taux de rejet au test electrique. La proc edure logit de SAS (1989) avec s election pas ` a pas automatique des variables les plus signicatives conduit aux r esultats du tableau 4. La variable P22351 est la premi` ere variable entr ee dans le mod` ele, trois autres variables sont consid er ees comme signicatives dans lexplication des rejets. Ces 4 variables ne sont pas corr el ees entre elles. Selon ling enieur, deux des nouvelles variables peuvent etre li ees au probl` eme, mais de mani` ere moins d eterminante. Quant a ` la derni` ere variable restante, aucun lien evident nest connu avec le probl` eme. Dans cet exemple, chaque technique pr esente des sp ecicit es qui montrent plus leur compl ementarit e que leurs oppositions pour atteindre lobjectif recherch e. Les analyses de variances pr ealables donnent d ej` a une indication sur l equipement mais les arbres ne parviennent pas a ` identier l etape concern ee. La caract erisation de la d efaillance est nalement obtenue par lidentication du ou des tests de proc ed e les plus li es. Arbres et r egression logistique indiquent bien le bon test mais di` erent sur les crit` eres et strat egies 23

58.160

P22351<-0.843498 P22351>-0.843498

241.100

30.830

P22138<107.714 P22138>107.714

P22001<14.335 P22001>14.335

82.800

340.000

100.600

21.770

P22113<14.7892 P22113>14.7892

P22187<43.0487 P22187>43.0487

45.200

156.000

92.200

16.870

P22954<8506.93 P22954>8506.93

11.970

56.120

P22021<4.73314 P22021>4.73314

36.090

6.962

Fig. 7 Arbre de r egression non elagu e pour la caract erisation de rejets a ` un test electrique. Seule la premi` ere division associ ee ` a la variable P22351 est conserv ee lors de l elagage.

24

Rejets au test

650 600 550 500 450 400 350 300 250 200 150 100 50 0 0 . 9 0 . 8 8 0 . 8 6 0 . 8 4 - - 0 0 0 . . . 8 8 7 2 8 P22351 0 . 7 6 0 . 7 4 0 . 7 2

Fig. 8 Graphique des nombres de rejets par plaquette au test electrique en fonction de la variable de contr ole P22351. La proportion de rejet est plus importante en dessous de la valeur seuil (-0,84) identif ee par larbre de r egression.

Tab. 4 R esultats de la r egression logistique.


Summary of Stepwise Procedure Variable Entered Removed P22351 P22954 P22011 P22194 P22044 P22044 Number In 1 2 3 4 5 4 Score Chi-Square 14.1106 16.4431 11.4519 11.8078 20.0683 . Wald Chi-Square . . . . . 1.3621 Pr > Chi-Square 0.0002 0.0001 0.0007 0.0006 0.0001 0.2432

Step 1 2 3 4 5 6

Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Estimate Error Chi-Square Chi-Square Estimate -82.3508 67.0387 0.000542 0.0002 -0.00062 0.000224 -52.5976 20.1700 -334.5 119.3 1.5090 7.3442 7.6379 6.8001 7.8690 0.2193 0.0067 0.0057 0.0091 0.0050 . 1.379020 -1.865285 -1.136925 -2.243490 Odds Ratio . 1.001 0.999 0.000 0.000

Variable DF INTERCPT P22954 P22011 P22194 P22351 1 1 1 1 1

25

60m

X tp

915m

Vz

12 ft/s -

Programme de Simulation de vol

Performances
6

Optimisation
6 

R eglage gains

R. Neurones

` partir dun comportement de PA d Fig. 9 A eni, on cherche les variations des gains qui permettent dobtenir les performances statistiques exig ees par la r eglementation. On construit dabord un mod` ele de pr evision des statistiques r esumant les variables de limpact en fonction des gains, puis on inverse le processus.

pour le choix dautres variables. Comme dans lexemple pr ec edent, un arbre pourrait d eceler une eventuelle interaction mais il serait int eressant de compl eter les r esultats en fournissant la liste des variables concurrentes (Ghattas, 1999) lors du premier niveau de segmentation de larbre. De son c ot e la r egression logistique, sur la base dun autre crit` ere, fournit une liste de variables pouvant etablir un faisceau de pr esomptions.

Applications a eronautiques

Deux exemples sont pr esent es dans cette section, chacun posant des probl` emes particuliers. Dans le premier, les variables ` a mod eliser sont quantitatives et issues de simulations. Elles peuvent donc etre g en er ees en fonction des besoins de l etude contrairement a ` la situation plus habituelle en data mining de donn ees provenant dun entrep ot souvent construit a ` dautres ns. Le deuxi` eme exemple est encore un cas de discrimination dune variable binaire mais, destin e` a etre embarqu e comme aide au pilotage, il doit valider les proc edures l egales de certication.

26

5.1

R eglage dun Pilote Automatique dAtterrissage

Objectifs Le contexte de l etude (Raimbault et coll., 2001) est le r eglage de la loi datterrissage automatique dun avion. Sch ematiquement, un tel syst` eme doit guider lavion selon une trajectoire sp ecique jusqu` a limpact sur la piste. Le guidage seectue ` a laide de gouvernes dont les mouvements sont calcul es par le pilote automatique (PA) datterrissage. Les ordres donn es aux gouvernes sont le r esultat d equations di erentielles (fonction de laltitude, de la vitesse, etc...) dont les param` etres doivent etre optimis es. En eet, le comportement de lavion doit etre satisfaisant quelles que soient les conditions de chargement (masse, centrage) et les conditions m et eorologiques. Les performances du pilote automatique sont evalu ees par la position de limpact sur la piste (XT P ) et la vitesse verticale (Vz ). La r eglementation a eronautique impose un p erim` etre de s ecurit e au milieu de la piste o` u lavion peut atterrir ainsi quune vitesse verticale raisonnable pr eservant le train datterrissage. On doit garantir que la probabilit e de ne 9 pas respecter ces contraintes de s ecurit e est inf erieure ` a 10 . Il sagit donc de trouver les meilleurs param` etres (ou gains) de la loi en fonction de la robustesse recherch ee. Cette robustesse sexprime en termes de statistiques (moyenne et ecart-type) des performances du pilote automatique es ainsi que les bonnes caract eristiques (XT P et Vz ). On utilise ces quantit gaussiennes des r esidus pour les d emonstrations de risque. Un logiciel de simulation datterrissage dun avion permet de faire ces calculs de robustesse et de bon comportement du PA. Mais cette simulation proc` ede par int egration d equations de la m ecanique du vol, ce qui rend le calcul trop lent pour son int egration dans une proc edure doptimisation. La simulation doit donc etre approch ee par un mod` ele susamment pr ecis pour rendre possible la recherche de gains optimaux. La m ethode globale est d ecrite dans la Figure 9. On dispose dune loi datterrissage bien d enie dont la robustesse en termes statistiques nest pas encore optimale. Dans un premier temps, il faut construire un mod` ele de pr evision des performances statistiques en fonction des variations que lon peut appliquer aux gains (param` etres). Le processus est ensuite invers e pour trouver les param` etres optimaux de la loi en fonction des performances recherch ees. Une nouvelle loi datterrissage est ainsi obtenue susamment robuste vis a ` vis des contraintes de la r eglementation si la stabilit e na pas et e perturb ee. Donn ees Chaque donn ee simul ee est une statistique (moyenne et ecart-type de etre de vol (masse, VZ et XT P ) sur 200 approches pour lesquelles un param` centrage, vent,..) est bloqu e` a une valeur critique (minimum ou maximum) 27

Tab. 5 Comparaisons des qualit es dajustement et de pr ediction (R2 ) des di erents mod` eles par resubstitution (sur l echantillon dapprentissge) et sur l echantillon test. Mod` ele r egression quad. r egression cub. R es. Neurones Apprentissage 0,49 0,57 0,92 Test 0,40 0,51 0,89

alors que les autres conditions de vol sont choisies al eatoires uniform ement dans leur domaine de variation. On dispose de 1200 donn ees soit 1200 200 atterrissages simul es que lon r epartit en donn ees dapprentissage (600), de validation (400) et de test (200). Les variables dentr ee sont les param` etres de la loi (gain) plus un code indiquant le param` etre de vol x e` a son extremum, soit 18 entr ees. En sortie, on calcule la moyenne et la variance des deux variables XT P et Vz , soit 4 sorties. Mod elisation Lobjectif est constitu e de mod` eles de pr evision de 4 variables expliqu ees par 18 autres reli ees par un ph enom` ene connu pour etre non-lin eaire. On sint eresse ici ` a la comparaison des performances des mod` eles polynomiaux vis ` a vis des r eseaux de neurones pour approcher ce mod` ele. En eet, compte tenu du nombre r eduit de donn ees, des mod` eles polynomiaux pourraient sav erer ecaces. Pour chacune des 4 variables de sortie, un polyn ome est ajust e sur les donn ees. Les mod` eles quadratiques donnant de tr` es mauvais r esultats, des polynomes dordre sav` erent n ecessaires. On obtient malgr e tout un mod` ele de qualit e m ediocre car la recherche dun bon mod` ele parmi toutes les interactions ne peut pas etre prise en compte par les algorithmes automatiques classiques de choix de mod` ele : 1957 param` etres ` a estimer pour 600 donn ees. Dans un deuxi` eme temps, un r eseau de neurones a et e estim e pour chaque variable. Il sagit dun perceptron a ` une seule couche cach ee compos ee de 12 ou 14 neurones suivant la variable a ` expliquer. Lapprentissage est conduit par r etro-propagation sur les 600 donn ees. Larchitecture est valid ee sur les donn ees de validation. Les donn ees de test servent de r ef erence pour l evaluation de la capacit e de g en eralisation et les comparaisons. Les r esultats des ajustements et qualit e de pr ediction des mod` eles sont compar es dans le tableau 5 qui montre un net avantage a ` lapproche neuronale. Les r eseaux de neurones pr esentent dans ce cas de tr` es bonnes performances de mod elisation malgr e leur complexit e relativement au faible

28

nombre de donn ees. Les mod` eles polynomiaux sont diciles ` a mettre en uvre a ` cause du grand nombre de variables et de la n ecessit e de faire intervenir de nombreuses interactions. Ils perdent m eme alors leur caract` ere explicatif et se trouvent surpass es par la exibilit e du perceptron. Les r esultats des ajustements des di erents mod` eles sont r esum es dans le tableau 5.

5.2

D etection de pompage pilot e

Objectif Le pompage pilot e (Pilot Induced Oscillations ou PIO) est un ph enom` ene critique pour la s ecurit e des avions. Il sagit dinteractions en boucle ferm ee entre le pilote, lavion et les lois de pilotage qui conduisent a ` des mouvements oscillatoires de lavion (cf. gure 10). Lorsque ces oscillations sont entretenues ou divergentes, leurs grandes amplitudes peuvent rendre lavion instable, mettant en cause la s ecurit e. De nombreux facteurs de d eclenchement du pompage pilot e ont et e mis en evidence : non-lin earit es dans les lois de pilotage, retards (calculateurs, visualisation). Ces constats ont donn e lieu a l ` elaboration de crit` eres sp eciques de conception des lois de pilotage dans le but d eradiquer la tendance au pompage. N eanmoins, le facteur humain (comportement du pilote) reste une composante incontournable du d eclenchement de ce ph enom` ene. Des cas de pompage pilot e peuvent ainsi appara tre de mani` ere inattendue pendant les phases de d eveloppement dun nouvel avion. Un mod` ele de d etection damorce de pompage pilot e en temps r eel associ e` a un dispositif de compensation sur les commandes de vol constitue une solution de secours. Lobjectif de l etude (Raimbault & Fabre 2001) est donc de d evelopper un algorithme evaluant en temps r eel la tendance au PIO. Le d etecteur doit etre con cu pour d etecter le PIO avec la m eme acuit e quun expert. Il vise en eet ` a reproduire de mani` ere automatique et able lexpertise dun ing enieur. Lanalyse du ph enom` ene de pompage pilot e permet de caract eriser le ph enom` ene PIO comme un couplage entre les signaux pilote (manche) et avion (assiette ou roulis) de type sinuso de de grande amplitude, de fr equence comprise entre 0.3 et 0.6 Hertz, associ e` a une saturation des gouvernes. Ce constat oriente donc l etude vers lutilisation dune d ecomposition fr equentielle des signaux pilote et avion et l evaluation de la saturation des gouvernes. Il sagit de concevoir un mod` ele permettant de synth etiser toutes ces donn ees pour evaluer, en temps r eel, la tendance au pompage. Mod elisation Un travail pr ealable de collecte de vols comportant ou non des phases etres. de pompage fournit une base de donn ees pour lestimation des param` Ces donn ees sont analys ees par un expert qui d etermine pr ecis ement quelles 29

q 10 0 10 0 8 6 4 2 10 0 10 20 30 1 0 2 4 0 2 4 6 2 4

10

12

10

12

14

Neural 6 PIO detector

10

12

0.5

10

12

Fig. 10 Les trois premiers graphiques (de haut en bas) repr esentent les param` etres de vol en fonction du temps : le manche, lavion (assiette), la gouverne (profondeur). Le quatri` eme est la r eponse du r eseau de neurones mod elisant la propension au PIO et donc susceptible de d eclencher une r eaction du syt` eme. Ces graphiques analysent le comportement longitudinal de lappareil mais les m emes r esultats sont disponibles pour le comportement lat eral en rempla cant assiette par roulis, et gouverne par aileron.

30

sont les zones de temps o` u un pompage appara t et quelle est sa s ev erit e. Ces informations permettent de r egler et de valider la capacit e de d etection des mod` eles. ` partir de lanalyse du ph A enom` ene de pompage et des donn ees disponibles, un r eseau de neurones est estim e. La m ethode est bas ee sur un traitement pr ealable des signaux (d ecomposition en s erie de Fourier, approximation polynomiale). Les r esultats de ces traitements constituent les entr ees du r eseau tandis que la sortie est associ ee ` a lindice de pompage pilot e. Il sut dun perceptron a ` une seule couche cach ee pour obtenir une tr` es bonne qualit e de d etection. Lapprentissage se fait a ` partir des donn ees pr ec edemment d ecrites par r etro-propagation. Un d etecteur de PIO able autant dans les phases calmes quagit ees a ainsi et e estim e avec succ` es (cf. gure 10). Certication Une telle application souligne lint er et des r eseaux de neurones dans leurs applications en traitement du signal, reconnaissance de forme ou de caract eristiques particuli` eres. Cette application ` a la eronautique, domaine a ` exigence s ecuritaire sil en est, soul` eve le probl` eme de la d emonstration des performances dun tel mod` ele. En eet, le d etecteur neuronal de PIO est pr evu pour d eclencher, soit une alarme, soit une compensation pour arr eter le ph enom` ene. Ce type de dispositif doit v erier des contraintes strictes de eclenchement abilit e ; par exemple une probabilit e plus petite que 105 de d de lalarme alors quil ny a pas de pompage pilot e. Pour d emontrer de telles performances, il faut pouvoir estimer un niveau de conance dans la capacit e de g en eralisation du r eseau de neurones, i.e. en son estimation du pompage pilot e sur des donn ees non apprises. Il faut pouvoir mesurer lerreur de g en eralisation et garantir avec un niveau donn e que lerreur ne d epasse pas lerreur maximum tol erable. Des utilisations de plans dexp eriences peuvent permettre de bien choisir les points dapprentissage et de validation pour le r eseau tandis que la validation crois ee (Efron, 1983) permet doptimiser a ` la fois le choix des points dapprentissage parmi les echantillons disponibles et la structure du r eseau. Il existe par ailleurs pour les perceptrons ` a une seule couche des r` egles de choix (Baum & Haussler, 1989) du nombre de donn ees dapprentissage en fonction de la pr ecision souhait ee et de la complexit e du r eseau (par exemple 10 fois plus de donn ees que de poids pour 10% des cas de validation mal mod elis es). Tous ces outils permettent dobtenir le meilleur mod` ele possible. Le bootstrap (Tibshirani, 1996) peut permettre destimer lerreur de g en eralisation. Il existe enn des m ethodes de construction dintervalles de conance (Hwang & Ding, 1997 ; De Veaux et coll., 1998) et des tests bas es sur la normalit e des erreurs permettant de contr oler le risque que lerreur d epasse le maximum tol er e. 31

Cette revue bibliographique permet de poser les bases dune application au probl` eme concret de lindustrialisation du d etecteur neuronal de pompage pilot e. Cette probl ematique est loin d etre propre a ` la eronautique et constitue actuellement un th` eme de r eexion int eressant et concret autour de lutilisation des r eseaux de neurones. Elle est de toute fa con incontournable pour esp erer voir en vol, dans un avenir proche, un dispositif neuronal.

Conclusion

Cet article propose un tour dhorizon partiel donc n ecessairement partial des techniques rencontr ees en data mining. Il pr esente principalement le point de vue de statisticiens et n eglige donc certains des apports de lIntelligence Articielle (machine learning). De plus les exemples pr esent es ne visent pas a ` lexhaustivit e des types de probl` emes rencontr es mais nous allons t acher den tirer quelques enseignements relativement aux questions soulev ees en introduction. Choix de m ethodes. Beaucoup de m ethodes dorigine et de conception tr` es di erentes poursuivent les m emes objectifs de mod elisation en vue dune pr evision. Dans les bons cas, donn ees bien structur ees, elles fournissent des r esultats tr` es similaires, dans dautres une m ethode peut se r ev eler plus ecace compte tenu de la taille de l echantillon ou g eom etriquement mieux adapt ee ` a la topologie des groupes ` a discriminer. Enn, ces m ethodes ne pr esentent pas toutes les m emes capacit es dinterpr etation. Il ny a donc pas de choix a priori meilleur, seuls lexp erience et un protocole de test soign e permettent de se d eterminer, a moins dopter pour une combinaison (bagging) de mod` ` eles. Les exemples pr esent es abondent en ce sens. Cest la raison pour laquelle des logiciels g en eralistes comme SAS (SEM, 2001) ne font pas de choix et orent ces m ethodes en parall` ele pour mieux sadapter aux donn ees, aux habitudes de chaque utilisateur ou client potentiel et a ` la mode. Automatisation et expertise. Au cours des ann ees 80 nous avons pu assister ` a lexpansion puis au d eclin et ` a la disparition des logiciels dits syst` emes experts charg es de simuler le travail dun expert humain statisticien par un moteur dinf erences op erant sur une base de connaissances. La plus grande prudence est encore requise face ` a des proc edures visant ` a remplacer ou automatiser une expertise dautant que lexploration manuelle est nalement la meilleure fa con de se familiariser avec des donn ees, de sassurer de leur coh erence ou de leur int egrit e. Des automatisations sont possibles et m eme souhaitables lorsque le volume des donn ees ou le temps r eel limpose, mais cela doit se faire dans un cadre tr` es strict suivant la probl ematique ainsi que les donn ees disponibles. Rien nest plus simple que de prendre un artefact trivial pour une p epite de connaissance. Lexemple de marketing ban32

caire ci-dessus, comme celui de la d etection de d efaillance, illustrent bien cet aspect. Ainsi, une expertise statistique reste importante car la m econnaissance des limites et pi` eges des m ethodes employ ees peut en eet conduire ` a des aberrations discr editant la d emarche et rendant caducs les investissements consentis. En cumulant les probl` emes de d enition, gestion des bases de donn ees, les probl` emes de r eseau,. . . , les m ethodes statistiques ou algorithmiques de mod elisation, le champ des comp etences requises pour pr etendre a ` une gestion ecace de linformation est dune etendue redoutable. Lutilisateur peut maintenant disposer doutils tr` es conviviaux avec lesquels il est facile et rapide dobtenir des r esultats. De fa con paradoxale, un petit quart dheure sut pour se familiariser avec une interface graphique qui ex ecute des m ethodes dont une compr ehension ne n ecessite plusieurs heures de cours ou r eexion ` a Bac+5. Fiabilit e des r esultats. Lestimation de la variabilit e ou dun taux derreur, que ce soit pour optimiser des mod` eles, comparer des m ethodes ou encore contr oler les capacit es de g en eralisation dun mod` ele, pose de r eels probl` emes. Dune part, une approche imprudente fournit des estimations biais ees (optimistes) a ` force de vouloir optimiser et r eestimer sur le m eme jeu de donn ees ; dautre part, lestimation sur un echantillon test est soumise ` a une forte variance. Lorsque la preuve math ematique fait d efaut du fait de la complexit e des m ethodes ou des algorithmes mis en jeu, lexp erience du statisticien peut sav erer utile dans le cadre de cette probl ematique et devient incontournable pour r epondre aux besoins dune l egislation comme dans le cas des applications a eronautiques. Les exemples trait es montrent bien quil serait illusoire de croire quune m ethode ou un logiciel est applicable a ` tout probl` eme de fouilles des donn ees. Comme cela a d ej` a et e mentionn e, la caract eristique essentielle du prospeceristiques des teur est dinitier une d emarche qui va d ependre des caract donn ees qui lui sont soumises. La recherche de fraudes parmi des millions de transactions journali` eres par carte bancaire ne fait pas appel aux m emes outils que lidentication de congurations particuli` eres dune image en astrophysique. Les m emes outils de discrimination peuvent eventuellement etre utilis es mais le traitement pr ealable des donn ees (d econvolution, Fourier, ondelettes. . .), souvent essentiel, sera, lui, tr` es sp ecique. Le Data Mining ne peut etre consid er e comme une discipline. Au l de cet article, il appara t plus comme le conuent dapproches statistiques et informatiques au service de la discipline ` a lorigine des donn ees et de leur probl ematique. De toute evidence, le champ des comp etences concern ees ne peut etre couvert que par une equipe pluridisciplinaire ayant d epass e ses querelles de chapelles. Mais, comme lassociation entre Information et Pouvoir se fait de plus en plus pr esente, on peut pr evoir, avec une bonne certitude, 33

que les blocages et retards de mise place des syst` emes dinformation publics ou priv es sont ou seront dordre hi erarchique, institutionnel, politique, nancier plus que technique. Cela nous interroge sur la place et le r ole du statisticien dans une d emarche en pleine expansion. Le march e de lemploi actuel montre quil y a de la place pour tous pour prospecter dans les entrep ots de donn ees ` a la fois eldorado des informaticiens et pays de cocagne des statisticiens. Comme le soulignent Friedman (1997) et Hand (1999), les statisticiens ont tout int er et ` a investir ce domaine ou tout du moins a ` ne pas le n egliger. Sur le plan acad emique, il serait vain et st erile de vouloir opposer les deux disciplines qui apparaissent clairement comme compl ementaires. Certes la Statistique a ses us et coutumes mais ils peuvent rapidement sadapter a ` condition de ne pas enfermer les statisticiens dans un certain conservatisme, celui des revues de Statistique Math ematique (qui ont leur r ole mais ne sont pas tout) ou, plus grave, celui de quelques institutions. Il serait pr ejudiciable de freiner ainsi la participation de jeunes chercheurs au d eveloppement de nouveaux th` emes de recherche. Remerciements Nous sommes reconnaissants ` a Henri Caussinus davoir, dans son r ole dEditeur, suscit e et critiqu e cet article. Merci egalement ` a Antoine de Falguerolles pour les ouvertures apport ees lors de nos discussions informelles.

R ef erences
Acad emie des Sciences. (2000). La statistique. Rapport sur la Science et la Technique . Technique & Documentation. Baum, E. and D. Haussler (1989). What size net gives valid generalization ? Neural Computation 1, 151160. Bergeret, F. and Y. Chandon (1999). Improving yield in ic manufacturing by statistical analysis of a large data base. Micro Magazine . www.micromagazine.com/archive/99/03/bergeret.html. Besse, P. (2000). Statistique & data mining. www.upstlse.fr/Besse/enseignement.html. Breiman, L. (1996). Bagging predictors. Machine learning 26 (2), 123140. Breiman, L. (2001). Random forests random features. Machine learning a ` para tre. Breiman, L., J. Friedman, R. Olshen, and C. Stone (1984). Classication and regression trees. Wadsworth & Brooks. De Veaux, R., J. Schumi, J. Schweinsberg, and L. Ungar (1998). Prediction intervals for neural networks via nonlinear regression. Technometrics 40 (4), 273282.

34

Efron, B. (1983). Estimating the error rate of a prediction rule : improvement on cross-validation. Journal of the American Statistical Association 78, 316331. Elder, J. and D. Pregibon (1996). A statistical perspective on knowledge discovery in databases. In U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy (Eds.), Advances in Knowledge Discovery and Data Mining, pp. 83113. AAAI Press/MIT Press. Fayyad, U. M. (1997). Editorial. Data mining and Knowledge discovery 1, 510. Friedman, J. H. (1997). Data mining and statistics. whats the connection ? In Proc. of the 29th Symposium on the Interface : Computing Science and Statistics. Gardner, R., J. Bieker, S. Elwell, R. Thalman, and E. Rivera (2000). Solving tough semiconductor manufacturing problems using data mining. In IEEE/SEMI Advanced semiconductor manufacturing conference. Ghattas, B. (1999). Importance des variables dans les m ethodes CART. La Revue de Modulad 24, 1728. Ghattas, B. (2000). Agr egation darbres de classication. Revue de Statistique Appliqu ee 48 (2), 8598. Goebel, M. and L. Gruenwald (1999). A survey of data mining and knowledge discovery software tools. In SIGKDD Explorations, pp. 2033. ACM SIGKDD. Hand, D., H. Mannila, and P. Smyth (2001). Principles of data mining. MIT Press. Hand, D. J. (1998). Data mining : Statistics and more ? The American Statistician 52 (2), 112118. Hand, D. J. (1999). Statistics and data mining : intersecting disciplines. In SIGKDD Explorations, Volume 1, pp. 1619. ACM SIGKDD. H ebrail, G. and Y. Lechevallier (2002). Data mining et analyse de donn ees symboliques. In Analyse de Donn ees. Hermes. Ho, T. K. (1998). The random subspace method for constructing decision forests. IEEE Transactions on Pattern Analysis and Machine Intelligence 20 (8), 832844. citeseer.nj.nec.com/ho98random.html. Hwang, J. and A. Ding (1997). Prediction intervals for articial neural networks. Journal of the American Statistical Association 92, 748 757. Jambu, M. (2000). Introduction au data mining. Eyrolles. Michie, D., D. Spiegelhalter, and C. Taylor (1994). Machine learning, neural and statistical classication. Harwood. Mieno, F., T. Sato, Y. Shibuya, K. Odagiri, H. Tsuda, and R. Take (1999). Yield improvement using data mining system. In Semiconductor Manufacturing Conference Proceedings, pp. 391 394. IEEE. 35

Quinlan, J. (1993). C4.5 Programs for machine learning. Morgan Kaufmann. Raimbault, N., C. Bes, and P. Fabre (2001). Neural aircraft autopilot gain adjuster. In 15th IFAC Symposium on Automatic Control in Aerospace. Raimbault, N. and P. Fabre (2001). Probabilistic neural detector of pilot-induced oscillations (pios). In AIAA Guidance, Navigation and Control conference. S-plus (1997). S-plus 4 Guide to statistics. MathSoft. SAS (1989). SAS/STAT Users Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6. SEM (2001). SAS/ Enterprise Miner Users Guide. Sas Institute Inc. version 8. Shlien, S. (1990). Multiple binary decision tree classiers. Pattern Recognition 23, 757763. Tibshirani, R. (1996). A comparison of some error estimates for neural network models. Neural Computation 8, 152163. Zighed, D. A. and R. Rakotomalala (2000). Graphes dinduction, apprentissage et data mining. Hermes.

36