Vous êtes sur la page 1sur 113

i

IBM SPSS Neural Networks 19

Note: Before using this information and the product it supports, read the general information under Notices sur p. 98. This document contains proprietary information of SPSS Inc, an IBM Company. It is provided under a license agreement and is protected by copyright law. The information contained in this publication does not include any product warranties, and any statements provided in this manual should not be interpreted as such. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you.
Copyright SPSS Inc. 1989, 2010.

Prface

IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire facultatif Rseaux neuronaux fournit les techniques danalyse supplmentaires dcrites dans ce manuel. Le module complmentaire Rseaux neuronaux doit tre utilis avec le systme central SPSS Statistics auquel il est entirement intgr.

A propos de SPSS Inc., an IBM Company


SPSS Inc., an IBM Company, est un des leaders dans le domaine des solutions logicielles danalyse prdictive. Le portfolio complet des produits de la socit Data collection, Statistics, Modeling et Deployment capture les opinions et les attitudes du public, prdit les rsultats des interactions futures des clients, et agit ensuite sur ces donnes en intgrant les analyses dans les processus commerciaux. Les solutions SPSS Inc. rpondent aux objectifs commerciaux interdpendants dune organisation dans sa totalit en se concentrant sur la convergence des analyses, de larchitecture informatique et des processus commerciaux. Des clients issus du milieu des affaires, du milieu gouvernemental ou du milieu acadmique, dans le monde entier, font conance la technologie SPSS Inc., et la considre comme un atout pour attirer et retenir leurs clients, ou encore augmenter leur nombre, tout en rduisant les fraudes et les risques. SPSS Inc. a t achet par IBM en octobre 2009. Pour plus dinformations, visitez le site http://www.spss.com.

Support technique
Un support technique est disponible pour les clients du service de maintenance. Les clients peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits SPSS Inc. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter lassistance technique, consultez le site Web SPSS Inc. ladresse http://support.spss.com, ou recherchez votre reprsentant local la page http://support.spss.com/default.asp?refpage=contactus.asp Votre nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands.

Service clients
Si vous avez des questions concernant votre envoi ou votre compte, contactez votre bureau local, dont les coordonnes gurent sur le site Web ladresse : http://www.spss.com/worldwide. Veuillez prparer et conserver votre numro de srie porte de main pour lidentication.

Copyright SPSS Inc. 1989, 2010

iii

Sminaires de formation
SPSS Inc. propose des sminaires de formation, publics et sur site. Tous les sminaires font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement dans les grandes villes. Pour plus dinformations sur ces sminaires, contactez votre bureau local dont les coordonnes sont indiques sur le site Web ladresse : http://www.spss.com/worldwide.

Documents supplmentaires
Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris le contenu des publications et des extraits de chapitres, visitez le site web de lauteur : http://www.norusis.com

iv

Contenu
Partie I: Guide de lutilisateur 1 Introduction aux rseaux neuronaux 1

Quest-ce quun rseau neuronal ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Structure dun rseau neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Perceptron multistrate

Partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Formations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Enregistrer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Exporter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Fonction base radiale

23

Partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Enregistrer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Exporter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Partie II: Exemples 4 Perceptron multi-couches


Prparation des donnes pour lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rcapitulatif de traitement des observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informations rseau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rcapitulatif des modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Correction du surapprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilisation dun perceptron multistrate permettant dvaluer les cots lis aux soins et les dures de sjour. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prparation des donnes pour lanalyse . . . . Excution de lanalyse . . . . . . . . . . . . . . . . . . Avertissements . . . . . . . . . . . . . . . . . . . . . . . Rcapitulatif de traitement des observations . Informations rseau. . . . . . . . . . . . . . . . . . . . Rcapitulatif des modles . . . . . . . . . . . . . . . Diagrammes estims/observs . . . . . . . . . . . Diagrammes rsiduels/estims . . . . . . . . . . . Importance des variables indpendantes. . . . Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

37
... ... ... ... ... ... ... ... 37 40 42 43 44 44 45 56

Utilisation du perceptron multistrate pour valuer le risque de crdit . . . . . . . . . . . . . . . . . . . . . . 37

. . . 56 ... ... ... ... ... ... ... ... ... ... ... 56 57 64 65 66 67 68 70 72 72 73

Fonction de base radiale

74

Utilisation de la procdure Fonction base radiale pour classer les clients dun service de tlcommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Prparation des donnes pour lanalyse . . . . Excution de lanalyse . . . . . . . . . . . . . . . . . . Rcapitulatif de traitement des observations . Informations rseau. . . . . . . . . . . . . . . . . . . . Rcapitulatif des modles . . . . . . . . . . . . . . . Classification. . . . . . . . . . . . . . . . . . . . . . . . . Diagramme estim/observ . . . . . . . . . . . . . . Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrammes de gains cumuls et de Levier . . Lectures recommandes . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 74 75 79 80 80 81 82 83 84 86

vi

Annexes A Fichiers dexemple B Notices Bibliographie Index 87 98 100 102

vii

Partie I: Guide de lutilisateur

Chapitre

Introduction aux rseaux neuronaux

Les rseaux neuronaux constituent loutil de prdilection dans de nombreuses applications prdictives dexploration de donnes en raison de leurs puissance, souplesse et convivialit. Les rseaux neuronaux prdictifs sont particulirement utiles dans les applications o le processus sous-jacent est complexe, comme dans les cas suivants : Prvision de la demande des consommateurs pour rationaliser les cots de production et de livraison. Prvision de la probabilit de rponse un publipostage pour dterminer les mnages dune liste de mailing auxquels envoyer une offre. Evaluation dun demandeur pour dterminer le risque de prolonger son crdit. Dtection des oprations frauduleuses dans une base de donnes de dclarations de sinistre. Les rseaux neuronaux utiliss dans les applications prdictives, tels que les rseaux de type perceptron multistrate (MLP, Multilayer Perceptron) et fonction base radiale (RBF, Radial Basis Function), sont superviss, en ce sens que les rsultats prvus par le modle peuvent tre compars aux valeurs connues des variables cible. Loption Rseaux neuronaux vous permet dajuster les rseaux MLP et RBF et denregistrer les modles obtenus des ns dvaluation.

Quest-ce quun rseau neuronal ?


Le terme rseau neuronal sapplique une famille de modles vaguement apparente, caractrise par un grand espace de paramtres et une structure exible, inspire des tudes sur le fonctionnement du cerveau. Au fur et mesure que la famille sest agrandie, la plupart des nouveaux modles ont t conus pour des applications non biologiques, bien que la majeure partie de la terminologie associe rete leur origine. Les dnitions spciques des rseaux neuronaux sont aussi varies que les domaines dans lesquels elles sont employes. Alors quaucune dnition ne couvre exactement lensemble de la famille de modles, pour linstant, examinons la description suivante(Haykin, 1998) : Un rseau neuronal est un processeur massivement distribu en parallle qui a une propension naturelle stocker des connaissances empiriques et les rendre disponibles en vue dune utilisation. Il ressemble au cerveau sur deux aspects : La connaissance est acquise par le rseau travers un processus dapprentissage. Les connexions entre les neurones, connues sous le nom de pondrations synaptiques, servent stocker les connaissances. Pour obtenir des dtails sur la raison pour laquelle cette dnition est peut-tre trop restrictive, reportez-vous (Ripley, 1996)
Copyright SPSS Inc. 1989, 2010 1

2 Chapitre 1

Pour diffrencier les rseaux neuronaux des mthodes statistiques traditionnelles laide de cette dnition, ce qui nest pas explicite est tout aussi important que le texte de la dnition lui-mme. Par exemple, le modle de rgression linaire traditionnel peut acqurir des connaissances via la mthode des moindres carrs et stocker cette connaissance dans les coefcients de rgression. En ce sens, il sagit dun rseau neuronal. En ralit, vous pouvez avancer que la rgression linaire est un cas particulier de certains rseaux neuronaux. Toutefois, la rgression linaire a une structure de modle stricte et un ensemble dhypothses qui sont imposs avant dacqurir des connaissances de ces donnes. En revanche, la dnition ci-dessus cre des contraintes minimes pour la structure du modle et les hypothses. Par consquent, un rseau neuronal peut se rapprocher dun grand nombre de modles statistiques sans que vous deviez imaginer lavance certaines relations entre les variables dpendantes et indpendantes. En fait, la forme de la relation est dtermin pendant le processus dapprentissage. Si une relation linaire entre les variables dpendantes et indpendantes est adapte, les rsultats du rseau neuronal devraient se rapprocher troitement de ceux du modle de rgression linaire. Si une relation non linaire est plus adapte, le rseau neuronal se rapproche automatiquement de la structure du modle correcte . Linconvnient de cette exibilit est que les pondrations synaptiques dun rseau neuronal ne sont pas facilement interprtables. Par consquent, si vous essayez dexpliquer un processus sous-jacent qui cre des relations entre les variables dpendantes et indpendantes, il serait prfrable dutiliser un modle statistique plus traditionnel. Toutefois, sil nest pas important de pouvoir interprter le modle, vous pouvez souvent obtenir plus rapidement des rsultats du modle satisfaisants en utilisant un rseau neuronal.

Structure dun rseau neuronal


Bien que les rseaux neuronaux imposent des contraintes minimes la structure du modle et aux hypothses, il est utile de comprendre leur architecture gnrale. Le rseau MLP ou RBF est une fonction de variables indpendantes (galement appeles entres) qui minimisent lerreur de prvision des variables cible (galement appeles sorties). Le produit comporte lensemble de donnes bankloan.sav, qui peut savrer utile pour lidentication des personnes susceptibles de manquer leurs engagements parmi un groupe de demandeurs de prt. Un rseau MLP ou RBF appliqu ce problme est une fonction des mesures qui minimise lerreur dans la prvision du manquement. La gure suivante permet de saisir la forme de cette fonction.

3 Introduction aux rseaux neuronaux Figure 1-1 Architecture danticipation avec une strate masque

Cette structure est appele architecture danticipation car le ux des connexions du rseau progresse de la strate dentre vers la strate de rsultat sans former de boucles de raction. Dans cette gure : La strate dentre contient les variables indpendantes. La strate masque contient les units ou noeuds non observables. La valeur de chaque unit masque constitue une fonction des variables indpendantes ; la forme exacte de la fonction dpend, pour une partie, du type de rseau et, pour une autre partie, des spcications contrlables par lutilisateur. La strate de rsultat contient les rponses. Dans la mesure o lhistorique du manquement est une variable qualitative comprenant deux modalits, celle-ci est recode en deux variables indicatrices. Chaque unit de rsultat constitue une fonction des units masques. La forme exacte de la fonction dpend, pour une partie, du type de rseau et, pour une autre partie, des spcications contrlables par lutilisateur. Le rseau MLP autorise une seconde strate masque ; dans ce cas, chaque unit de la seconde strate masque est une fonction des units dans la premire strate masque et chaque rponse est une fonction des units dans la seconde strate masque.

Chapitre

Perceptron multistrate

La procdure Perceptron multistrate produit un modle de prvision pour une ou plusieurs variables (cible) dpendantes en fonction de valeurs de variables prdites.
Exemples : Voici deux scnarios utilisant la procdure MLP :

Un responsable des prts dans une banque souhaite pouvoir identier les caractristiques qui indiquent les personnes susceptibles de manquer leurs engagements et dutiliser ces caractristiques pour identier les bons et les mauvais risques de crdit. A laide dun chantillon danciens clients, elle peut former un modle Perceptron multistrate, valider lanalyse grce un chantillon trait danciens clients, puis utiliser le rseau pour classer les clients ventuels entre bons et mauvais risques de crdit. Un hpital souhaite effectuer un suivi des cots et des dures de sjour des patients admis pour soigner un infarctus du myocarde (crise cardiaque). Des estimations prcises de ces mesures permettent ladministration de grer correctement le nombre de lits disponibles lors du traitement des patients. Grce lutilisation des archives sur les traitements dun chantillon de patients ayant t soigns pour un infarctus du myocarde, ladministration peut former un rseau pour prvoir le cot et la dure du sjour lhpital.
Variables dpendantes Les variables dpendantes peuvent tre : Nominal. Une variable peut tre traite comme tant nominale si ses valeurs reprsentent des

modalits sans classement intrinsque (par exemple, le service de la socit dans lequel travaille un employ). La rgion, le code postal ou lappartenance religieuse sont des exemples de variables nominales.
Ordinal. Une variable peut tre traite comme tant ordinale si ses valeurs reprsentent des

modalits associes un classement intrinsque (par exemple, des niveaux de satisfaction allant de Trs mcontent Trs satisfait). Exemples de variable ordinale : des scores dattitude reprsentant le degr de satisfaction ou de conance, et des scores de classement des prfrences.
Echelle. Une variable peut tre traite comme une variable dchelle (continue) si ses

valeurs reprsentent des modalits ordonnes avec une mesure signicative, de sorte que les comparaisons de distance entre les valeurs soient adquates. Lge en annes et le revenu en milliers de dollars sont des exemples de variable dchelle. La procdure considre que le niveau de mesure appropri a t assign toutes les variables dpendantes, bien que vous puissiez changer provisoirement le niveau de mesure dune variable en cliquant avec le bouton droit de la souris sur la variable dans la liste des variables source, puis en slectionnant un niveau de mesure dans le menu contextuel.
Copyright SPSS Inc. 1989, 2010 4

5 Perceptron multistrate

Dans la liste des variables, une icne indique le niveau de mesure et le type de donnes :
Niveau de mesure Numrique Echelle (continue). Ordinales Nominales Chane n/a Le type de donnes Date Heure

Variables prdites. Les variables prdites peuvent tre spcies en tant que facteurs (qualitatifs)

ou covariables (dchelle).
Codage des variables indicatrices. La procdure recode provisoirement les variables prdites qualitatives et les variables dpendantes via le codage un-de-c pour la dure de la procdure. Sil existe des modalits c dune variable, la variable est stocke comme vecteurs c, la premire modalit tant identie par (1,0,...,0), la suivante par (0,1,0,...,0), ... et la dernire par (0,0,...,0,1). Ce systme de codage augmente le nombre de pondrations synaptiques et peut rsulter en une formation plus lente, mais les mthodes de codage plus compactes aboutissent gnralement des rseaux neuronaux mal ajusts. Si la formation de votre rseau seffectue trs lentement, essayez de rduire le nombre de modalits dans vos variables prdites qualitatives en combinant des modalits similaires ou en supprimant les observations comportant des modalits extrmement rares. Les codage un-de-c repose entirement sur les donnes de formation, mme si un chantillon de test ou trait est dni (reportez-vous Partitions sur p. 9). Ainsi, si les chantillons de test ou traits contiennent des observations avec des modalits de variables prdites ne gurant pas dans les donnes de formation, ces observations ne sont pas utilises par la procdure ou dans lvaluation. Si les chantillons de test ou traits contiennent des observations avec des modalits de variables dpendantes ne gurant pas dans les donnes de formation, ces observations ne sont pas utilises par la procdure mais peuvent tre notes. Rchelonnement. Les variables dchelle dpendantes et les covariables sont rchelonnes par dfaut pour amliorer la formation du rseau. Le rchelonnement repose entirement sur les donnes de formation, mme si un chantillon de test ou trait est dni (reportez-vous Partitions sur p. 9). En dautres termes, en fonction du type de rchelonnement, la moyenne, lcart-type, la valeur minimale ou la valeur maximale dune covariable ou dune variable dpendante ne sont calcules qu laide des donnes de formation. Si vous spciez une variable pour dnir des partitions, il est important que ces covariables ou variables dpendantes prsentent des distributions similaires travers les chantillons de formation, de test et traits. Pondrations deffectif. Cette procdure ignore les pondrations deffectif. Rplication de rsultats. Si vous souhaitez rpliquer exactement vos rsultats, outre les mmes

paramtres de procdure, utilisez la mme valeur dinitialisation pour le gnrateur de nombres alatoires, le mme ordre de donnes et le mme ordre de variables. Vous trouverez ci-aprs plus de dtails sur cet aspect.

6 Chapitre 2

Gnration de nombres alatoires. La procdure utilise la gnration de nombres alatoires

pendant lattribution alatoire de partitions, le sous-chantillonnage alatoire pour linitialisation des pondrations synaptiques, le sous-chantillonnage alatoire pour la slection automatique de larchitecture et lalgorithme recuit simul utilis dans linitialisation de la pondration et la slection automatique de larchitecture. Pour reproduire les mmes rsultats alatoires lavenir, utilisez la mme valeur dinitialisation pour le gnrateur de nombres alatoires avant chaque excution de la procdure Perceptron multistrate. Reportez-vous Prparation des donnes pour lanalyse sur p. 37 pour des instructions dtailles.
Tri par observation. Les mthodes de formation en ligne et par mini-commande (reportez-vous

Formations sur p. 13) dpendent explicitement de lordre des observations. Toutefois, mme la formation par commande dpend de lordre des observations car linitialisation des pondrations synaptiques implique le sous-chantillonnage de lensemble de donnes. Pour rduire les effets de tri, classez les observations de manire alatoire. Pour vrier la stabilit dune solution donne, vous pouvez obtenir diffrentes solutions dans lesquelles les observations sont tries de diffrentes manires alatoires. Si les chiers sont trs volumineux, vous pouvez effectuer plusieurs fois lopration sur un chantillon des observations tries de diffrentes manires alatoires.
Ordre des variables. Les rsultats peuvent tre inuencs par lordre des variables dans

les listes des facteurs et des covariables en raison du schma diffrent de valeurs initiales affectes lorsque lon change lordre des variables. Comme avec les effets dordre des observations, vous pouvez essayer diffrents ordres de variables (il suft dutiliser la fonction glisser-dplacer dans les listes de facteurs et de covariables) pour valuer la stabilit dune solution donne.
Cration dun rseau Perceptron multistrate

A partir des menus, slectionnez :


Analyse > Rseaux neuronaux > Perceptron multistrate...

7 Perceptron multistrate Figure 2-1 Perceptron multistrate : longlet Variables

E Slectionnez au moins une variable dpendante. E Slectionnez au moins un facteur ou une covariable.

Dans longlet Variables, vous pouvez aussi changer la mthode de rchelonnement des covariables. Les choix sont les suivants :
Standardiss. Soustrayez la moyenne et divisez le rsultat par lcart-type, (xmoyenne)/s. Normalis. Soustrayez le minimum et divisez le rsultat par lintervalle, (xmin)/(maxmin).

Les valeurs normalises sont comprises entre 0 et 1.


Normalis ajust. Version ajuste de la soustraction du minimum et de la division du rsultat

par lintervalle, [2*(xmin)/(maxmin)]1. Les valeurs normalises ajustes sont comprises entre 1 et 1.
Aucune. Aucun rchelonnement des covariables.

8 Chapitre 2

Champs avec un niveau de mesure inconnu

Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables (champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure dni.
Figure 2-2 Alerte du niveau de mesure

Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau

de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de donnes est important, cette action peut prendre un certain temps.
Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un

niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans lafchage des variables de lditeur de donnes. Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de mesure dnis.

9 Perceptron multistrate

Partitions
Figure 2-3 Perceptron multistrate : Onglet Partitions

Ensemble de donnes de partition. Ce groupe indique la mthode de partitionnement de lensemble

de donnes actif en chantillons dapprentissage, de test et trait. Lchantillon dapprentissage comprend les enregistrements de donnes utiliss pour former le rseau neuronal. Un certain pourcentage dobservations contenues dans lensemble de donnes doit tre affect lchantillon dapprentissage pour lobtention dun modle. Lchantillon de test est un ensemble indpendant denregistrements de donnes utilis pour identier des erreurs au cours de la formation an dempcher une formation excessive. Nous vous conseillons fortement de crer un chantillon dapprentissage. Une formation de rseau sera en gnral plus efcace si lchantillon de test est plus petit que lchantillon de fonction. Lchantillon trait est un autre ensemble indpendant denregistrements de donnes utilis pour valuer le rseau neuronal nal ; lerreur pour lchantillon trait donne une estimation honnte de la capacit de prvision du modle parce que les observations traites nont pas t utilises pour construire le modle.
Affecter des observations de faon alatoire en fonction du nombre dobservations relatif.

Indiquez le nombre dobservations relatif (ratio) affect de faon alatoire chaque chantillon (dapprentissage, de test et trait). La colonne % rapporte le pourcentage dobservations qui seront affectes chaque chantillon en fonction des nombres relatifs que vous avez spcis. Par exemple, si vous spciez 7, 3 et 0 comme nombres relatifs pour les chantillons dapprentissage, de test et trait, ces valeurs correspondent 70 %, 30 % et 0 %. Si vous spciez 2, 1, 1 comme nombres relatifs, ces valeurs correspondent 50 %, 25 % et 25 %. 1,

10 Chapitre 2

1 et 1 correspond la division de lensemble de donnes en tiers gaux entre lapprentissage, le test et llment trait.
Utiliser une variable de partitionnement pour affecter des observations.Indiquez une variable

numrique qui affecte chaque observation de lensemble de donnes actif lchantillon dapprentissage, de test et trait. Les observations contenant une valeur positive sur la variable sont affectes lchantillon dapprentissage, celles contenant une valeur gale 0 sont affectes lchantillon de test, et celles contenant une valeur ngative sont affectes lchantillon trait. Les observations contenant des valeurs manquantes sont exclues de lanalyse. Les valeurs manquantes spcies par lutilisateur pour la variable de partitionnement sont toujours considres comme tant valides. Remarque : Lutilisation dune variable de partitionnement ne garantira pas des rsultats identiques dans les excutions successives de la procdure. Reportez-vous la section Rplication de rsultats de la rubrique principale Perceptron multistrate.

Architecture
Figure 2-4 Perceptron multistrate : Onglet Architecture.

Longlet Architecture permet de spcier la structure du rseau. La procdure peut slectionner la meilleure architecture automatiquement ou vous pouvez spcier une architecture personnalise.

11 Perceptron multistrate

La slection automatique de larchitecture construit un rseau avec une strate masque. Spciez le nombre minimal et maximal dunits autoris dans la strate masque pour que la slection automatique de larchitecture calcule le meilleur nombre dunits gurant dans la strate masque. La slection automatique de larchitecture utilise les fonctions dactivation par dfaut pour les strates masques et de rsultat. La slection personnalise de larchitecture vous permet de contrler trs prcisment les strates masques et de rsultat et peut tre trs utile lorsque vous savez lavance quelle architecture vous souhaitez ou lorsque vous devez modeler les rsultats de la slection automatique darchitecture.
Strates masques

La strate masque contient des noeuds (units) de rseau non observables. Chaque unit masques est une fonction de la somme pondre des entres. La fonction des la fonction dactivation et les valeurs des pondrations sont dtermines par lalgorithme destimation. Si le rseau contient une seconde strate masque, chaque unit masque de la seconde strate est une fonction de la somme pondre des units de la premire strate. La mme fonction dactivation est utilise dans les deux strates.
Nombre de strates masques. Le perceptron multicouche peut avoir une ou deux couches caches. Fonction dactivation. La fonction dactivation "lie" les sommes pondres des units dans une

couche aux valeurs des units dans la couche russie.


Tangente hyperbolique. Cette fonction observe la forme suivante : (c) = tanh(c) =

(ecec)/(ec+ec). Elle extrait les arguments de valeurs relles et les transforme en plage (1, 1). Lorsque la slection automatique de larchitecture est utilise, il sagit de la fonction dactivation de toutes les units dans les strates masques. arguments de valeurs relles et les transforme en plage (0, 1).

Ogive de Galton. Cette fonction observe la forme suivante : (c) = 1/(1+ec). Elle extrait les

Nombre dunits. Le nombre dunits dans chaque strate peut tre dni explicitement ou

dtermin automatiquement par lalgorithme destimation.


Strate de rsultat

La strate de rsultat contient les variables (dpendantes) cible.


Fonction dactivation. La fonction dactivation "lie" les sommes pondres des units dans une couche aux valeurs des units dans la couche russie. Identit : Cette fonction observe la forme suivante : (c) = c. Elle extrait les arguments de

valeurs relles et les renvoie inchangs. Lorsque la slection automatique de larchitecture est utilise, il sagit de la fonction dactivation des units de la strate de rsultat sil existe des variables dchelle dpendantes.
Softmax. Cette fonction observe la forme suivante : (ck) = exp(ck)/jexp(cj). Cette fonction

extrait un vecteur des arguments de valeur rels et le transforme en un vecteur dont les lments sont compris dans la plage (0, 1) et ont pour somme 1. La fonction Softmax nest disponible que si toutes les variables dpendantes sont des variables qualitatives. Lorsque la

12 Chapitre 2

slection automatique de larchitecture est utilise, il sagit de la fonction dactivation des units de la strate de rsultat si toutes les variables dpendantes sont des variables qualitatives.
Tangente hyperbolique. Cette fonction observe la forme suivante : (c) = tanh(c) =

(ecec)/(ec+ec). Elle extrait les arguments de valeurs relles et les transforme en plage (1, 1). arguments de valeurs relles et les transforme en plage (0, 1).

Ogive de Galton. Cette fonction observe la forme suivante : (c) = 1/(1+ec). Elle extrait les

Rchelonnement des variables dchelle dpendantes. Ces contrles ne sont disponibles que si

une variable dchelle dpendante au moins a t slectionne.


Standardiss. Soustrayez la moyenne et divisez le rsultat par lcart-type, (xmoyenne)/s. Normalis. Soustrayez le minimum et divisez le rsultat par lintervalle, (xmin)/(maxmin).

Les valeurs normalises sont comprises entre 0 et 1. Il sagit de la mthode de rchelonnement requise pour les variables dchelle dpendantes si la strate de rsultat utilise la fonction dactivation dogive de Galton. Loption de correction spcie un nombre qui est appliqu en tant que correction la formule de rchelonnement ; avec cette correction, toutes les valeurs de variable dpendante rchelonne se situeront dans la plage de la fonction dactivation. En particulier, les valeurs 0 et 1, qui sont prsentes dans la formule non corrige quand x prend sa valeur minimum et maximum, dnissent les limites de la plage de la fonction dogive de Galton, mais ne sont pas comprises dans cette plage. La formule corrige est [x(min)]/[(max+)(min)]. Spciez une valeur suprieure ou gale 0.
Normalis ajust. La version ajuste de la soustraction du minimum et de la division du

rsultat par lintervalle, , [2*(xmin)/(maxmin)]1. Les valeurs normalises ajustes sont comprises entre 1 et 1. Il sagit de la mthode de rchelonnement requise pour les variables dchelle dpendantes si la strate de rsultat utilise la fonction dactivation de tangente hyperbolique. Loption de correction spcie un nombre qui est appliqu en tant que correction la formule de rchelonnement ; avec cette correction, toutes les valeurs de variable dpendante rchelonne se situeront dans la plage de la fonction dactivation. En particulier, les valeurs 1 et 1, qui sont prsentes dans la formule non corrige quand x prend sa valeur minimum et maximum, dnissent les limites de la plage de la fonction de tangente hyperbolique, mais ne sont pas comprises dans cette plage. La formule corrige est {2*[(x(min))/((max+)(min))]}1. Spciez un nombre suprieur ou gal 0.
Aucune. Pas de rchelonnement des variables dchelle dpendantes.

13 Perceptron multistrate

Formations
Figure 2-5 Perceptron multistrate : Onglet formation

Longlet Formation permet de spcier la manire dont le rseau doit tre form. Le type de formation et lalgorithme doptimisation dterminent les options de formation disponibles.
Type de formation. Le type de formation dtermine la manire dont le rseau traite les

enregistrements. Choisissez lune des options de formation suivantes :


Commande. Met jour les pondrations synaptiques uniquement aprs avoir lu tous les

enregistrements de donnes de formation ; en dautres termes, la formation par commande utilise les informations issues de tous les enregistrements de lensemble de donnes de formation. La formation par commande est souvent prfre car elle minimise directement le nombre total derreurs ; cependant, elle peut ncessiter de mettre jour les pondrations de nombreuses fois jusqu ce que lune des rgles darrt soit observe, ce qui peut ncessiter de nombreuses lectures des donnes. Elle est trs utile pour les petits ensembles de donnes.
En ligne. Met jour les pondrations synaptiques aprs chaque enregistrement de donnes

de formation ; en dautres termes, la formation en ligne utilise les informations issues dun enregistrement la fois. La formation en ligne extrait en permanence un enregistrement et met jour les pondrations jusqu ce que lune des rgles darrt soit observe. Si tous les enregistrements sont utiliss une fois et quaucune des rgles darrt nest observe, le processus continue en recyclant les enregistrements de donnes. La formation en ligne est suprieure la formation par commande pour les ensembles de donnes volumineux associs des variables prdites ; en dautres termes, sil existe de nombreux enregistrements

14 Chapitre 2

et de nombreuses entres et que leurs valeurs ne sont pas indpendantes les unes des autres, la formation en ligne peut obtenir plus rapidement une rponse raisonnable que la formation par commande.
Mini-commande. Divise les enregistrements de donnes de formation en groupes de taille

approximativement gale, puis met jour les pondrations synaptiques aprs lecture dun groupe ; en dautres termes, la formation par mini-commande utilise les informations issues dun groupe denregistrements. Le processus recycle ensuite le groupe de donnes si ncessaire. La formation par mini-commande offre un compromis entre les formations par commande et en ligne et peut tre prfrable pour les ensembles de donnes de taille moyenne. La procdure peut automatiquement dterminer le nombre denregistrements de formation par mini-commande ou vous pouvez spcier un entier suprieur 1 ou infrieur ou gal au nombre maximal dobservations stocker en mmoire. Vous pouvez dnir le nombre maximum dobservations stocker en mmoire dans longlet Options.
Algorithme doptimisation. Il sagit de la mthode utilise pour estimer les pondrations

synaptiques.
Gradient conjugu chelonn. Les hypothses qui justient lutilisation des mthodes de

gradient conjugu ne sappliquant quaux types de formation par commande, cette mthode nest pas disponible pour la formation en ligne ou par mini-commande.
Descendant de gradient. Cette mthode doit tre utilise avec les formations en ligne et par

mini-commande ; elle peut galement tre utilise avec la formation par commande.
Options de formation. Les options de formation vous permettent dafner lalgorithme de

formation. Vous naurez normalement pas besoin de modier ces paramtres, sauf si le rseau rencontre des problmes destimation. Les options de formation de lalgorithme gradient conjugu redimensionn sont les suivantes :
Lambda initial. Valeur initiale du paramtre lambda de lalgorithme gradient conjugu

redimensionn. Spciez un nombre suprieur 0 et infrieur 0,000001.


Sigma initial. Valeur initiale du paramtre sigma de lalgorithme gradient conjugu

redimensionn. Spciez un nombre suprieur 0 et infrieur 0,0001.


Centre dintervalle et dcalage dintervalle. Le centre dintervalle (a0) et le dcalage

dintervalle (a) dene the interval [a0a, a0+a], dans lequel les vecteurs de pondration sont gnrs alatoirement lorsque lalgorithme recuit stimul est utilis. Lalgorithme recuit simul est utilis pour dcomposer un minimum local, dans le but didentier le minimum global, pendant lapplication de lalgorithme doptimisation. Cette approche est utilise dans linitialisation de pondration et la slection automatique de larchitecture. Spciez un nombre pour le centre dintervalle et un nombre suprieur 0 pour le dcalage dintervalle.

Les options de formation de lalgorithme descendant de gradient sont les suivantes :


Taux dapprentissage initial. Valeur initiale du taux dapprentissage de lalgorithme descendant

de gradient. Un taux dapprentissage plus lev signie que le rseau se formera plus rapidement, au risque de devenir instable. Spciez un nombre suprieur 0.

15 Perceptron multistrate

Limite infrieure du taux dapprentissage. Limite infrieure du taux dapprentissage de

lalgorithme descendant de gradient. Ce paramtre ne sapplique quaux formations en ligne et par mini-commande. Spciez un nombre suprieur 0 et infrieur au taux dapprentissage initial.
Vitesse. Paramtre de vitesse initial de lalgorithme descendant de gradient. Ce paramtre

permet dempcher les instabilits causes par un taux dapprentissage trop lev. Spciez un nombre suprieur 0.
Rduction du taux dapprentissage, par priode. Le nombre de priodes (p), ou lectures

des donnes de lchantillon de formation, pour rduire le taux dapprentissage initial la limite infrieure du taux dapprentissage lorsque lalgorithme descendant de gradient est utilis avec la formation en ligne ou par mini-commande. Vous pouvez ainsi contrler le facteur de diminution du taux dapprentissage = (1/pK)*ln(0/bas), 0 tant le taux dapprentissage initial, bas la limite infrieure du taux dapprentissage et K le nombre total de mini-commandes (ou le nombre denregistrements de formation, pour la formation en ligne) dans lensemble de donnes de formation. Entrez un entier suprieur 0.

Rsultats
Figure 2-6 Perceptron multistrate : Onglet Rsultats

Structure de rseau. Afche des informations rcapitulatives sur le rseau neuronal.

16 Chapitre 2

Description : Afche des informations sur le rseau neuronal, y compris les variables

dpendantes, le nombre dunits dentre et de sortie, le nombre de strates et dunits masques, ainsi que les fonctions dactivation.
Diagramme. Afche le diagramme de rseau sous forme de diagramme non modiable. A

mesure que le nombre de covariables et de niveaux de facteur augmente, le diagramme devient plus difcile interprter.
Pondrations synaptiques. Afche les estimations de coefcients qui indiquent la relation

existant entre les units dune strate donne et celles de la strate suivante. Les pondrations synaptiques sont bases sur lchantillon de formation mme si lensemble de donnes actif est partitionn en donnes de formation, de test et traites. Le nombre de pondrations synaptiques peut tre lev et ces pondrations ne sont gnralement pas utilises pour interprter les rsultats du rseau.
Performances rseau. Afche les rsultats utiliss pour dterminer si le modle est correct.

Remarque : Les diagrammes gurant dans ce groupe sont bass sur les chantillons de formation et de test combins, ou uniquement sur lchantillon de formation sil nexiste aucun chantillon de test.
Rcapitulatif du modle. Afche un rcapitulatif des rsultats du rseau neuronal par partition

et globalement, y compris les erreurs, les erreurs ou les pourcentages relatifs de prvisions incorrectes, la rgle darrt utilise pour arrter la formation et le temps de formation. Lerreur est lerreur de somme des carrs lorsque la fonction dactivation didentit, dogive de Galton ou de tangente hyperbolique est applique la strate de rsultat. Il sagit de lerreur dentropie croise lorsque la fonction dactivation de Softmax est applique la strate de rsultat. Les erreurs ou les pourcentages relatifs de prvisions incorrectes sont afchs en fonction des niveaux de mesure de variable dpendante. Si une variable dpendante comporte un niveau de mesure dchelle, lerreur relative globale moyenne (par rapport au modle moyen) est afche. Si toutes les variables dpendantes sont des variables qualitatives, le pourcentage moyen de prvisions incorrectes est afch. Les erreurs ou les pourcentages relatifs de prvisions incorrectes sont galement afchs pour les variables dpendantes individuelles.
Rsultats du classement. Afche un tableau de classement pour chaque variable dpendante

qualitative par partition et globalement. Chaque tableau indique le nombre dobservations classes correctement et incorrectement pour chaque modalit de variable dpendante. Le pourcentage dobservations totales ayant t correctement classes est galement indiqu.
Courbe ROC Afche une courbe ROC (Receiver Operating Characteristic) pour chaque variable

dpendante qualitative. Afche galement un tableau indiquant la zone au-dessous de chaque courbe. Pour une variable dpendante donne, le diagramme ROC afche une courbe pour chaque modalit. Si la variable dpendante comporte deux modalits, chaque courbe traite la modalit en question comme tant ltat positif par rapport lautre modalit. Si la variable dpendante comporte plus de deux modalits, chaque courbe traite la modalit en question comme tant ltat positif par rapport la somme de toutes les autres modalits.
Diagramme de gains cumuls. Afche un diagramme de gains cumuls pour chaque variable

dpendante qualitative. Lafchage dune courbe pour chaque modalit de variable dpendante est identique celui des courbes ROC.

17 Perceptron multistrate

Diagramme de Levier. Afche un diagramme de levier pour chaque variable dpendante

qualitative. Lafchage dune courbe pour chaque modalit de variable dpendante est identique celui des courbes ROC.
Diagramme estim/observ. Afche un diagramme estim/observ pour chaque variable

dpendante. Pour les variables dpendantes qualitatives, des botes moustaches juxtaposes des pseudo-probabilits prvues sont afches pour chaque modalit de rponse, avec la modalit de rponse observe comme variable de classe. Pour les variables dchelle dpendantes, un diagramme de dispersion est afch.
Diagramme rsiduel/estim. Afche un diagramme rsiduel/estim pour chaque variable

dchelle dpendante. Il ne doit exister aucun schma visible entre les rsidus et les prvisions. Ce diagramme nest gnr que pour les variables dchelle dpendantes.
Rcapitulatif du traitement des observations. Afche le tableau rcapitulatif de traitement des observations, qui rcapitule le nombre dobservations incluses et exclues dans lanalyse, au total et par chantillon de formation, de test et trait. Analyse de limportance des variables prdites. Effectue une analyse de sensibilit, qui calcule limportance de chaque variable prdite dans la dtermination du rseau neuronal. Lanalyse est base sur les chantillons de formation et de test combins, ou uniquement sur lchantillon de formation sil nexiste aucun chantillon de test. Ceci produit un tableau et un diagramme qui indiquent limportance et limportance normalise de chaque variable prdite. Lanalyse de sensibilit ncessite beaucoup de calculs et de temps si les variables prdites ou les observations sont nombreuses.

18 Chapitre 2

Enregistrer
Figure 2-7 Perceptron multistrate : Onglet Enregistrer

Longlet Enregistrer permet denregistrer les prvisions en tant que variables dans lensemble de donnes.
Enregistrer la valeur ou la modalit prvue pour chaque variable dpendante. Cette option

enregistre la valeur prvue pour les variables dchelle dpendantes et la modalit prvue pour les variables dpendantes qualitatives.
Enregistrer la pseudo-probabilit prvue ou la catgorie pour chaque variable dpendante. Cette

option enregistre les pseudo-probabilits prvues pour les variables dpendantes qualitatives. Une variable distincte est enregistre pour chacune des n premires modalits, n tant spci dans la colonne Modalits enregistrer.
Noms des variables enregistres. Grce la gnration automatique de nom, vous conservez lensemble de votre travail. Les noms personnaliss vous permettent de supprimer/remplacer les rsultats dexcutions prcdentes sans supprimer dabord les variables enregistres dans lditeur de donnes.

19 Perceptron multistrate

Probabilits et pseudo-probabilits

Les variables dpendantes qualitatives prsentant une erreur dactivation softmax et dentropie croise comporteront une valeur prvue pour chaque modalit, chaque valeur prvue tant la probabilit que lobservation appartienne la modalit. Les variables dpendantes qualitatives prsentant une erreur de somme des carrs comporteront une valeur prvue pour chaque modalit, mais les valeurs prvues ne peuvent pas tre interprtes comme probabilits. La procdure enregistre ces pseudo-probabilits prvues mme si certaines dentre elles sont infrieures zro ou suprieures 1, ou si la somme dune variable dpendante donne nest pas gale 1. Le diagramme de ROC, des gains cumuls et de Levier (reportez-vous Rsultats sur p. 15) sont crs en fonction des pseudo-probabilits. Si des pseudo-probabilits sont infrieures 0 ou suprieures 1 ou que la somme dune variable donne nest pas gale 1, elles sont dabord rchelonnes pour se situer entre 0 et 1, et avoir pour somme 1. Les pseudo-probabilits sont rchelonnes en tant divises par leur somme. Par exemple, si une observation comporte des pseudo-probabilits de 0,50, 0,60 et 0,40 pour une variable dpendante trois modalits, chaque pseudo-probabilit est alors divise par la somme 1,50 an dobtenir 0,33, 0,40 et 0.27. Si des pseudo-probabilits sont ngatives, la valeur absolue de la plus faible est ajoute toutes les pseudo-probabilits avant le rchelonnement ci-dessus. Par exemple, si les pseudo-probabilits sont -0,30, 0,50, et 1,30, ajoutez dabord 0,30 chaque valeur pour obtenir 0,00, 0,80 et 1,60. Divisez ensuite chaque nouvelle valeur par la somme 2,40 pour obtenir 0,00, 0,33 et 0,67.

20 Chapitre 2

Exporter
Figure 2-8 Perceptron multistrate : Onglet Exporter

Longlet Exporter permet denregistrer les estimations des pondrations synaptiques de chaque variable dpendante dans un chier XML (PMML). Vous pouvez utiliser ce chier de modle pour appliquer les informations du modle aux autres chiers de donnes des ns dvaluation. Cette option nest pas disponible si des chiers scinds ont t dnis.

21 Perceptron multistrate

Options
Figure 2-9 Perceptron multistrate : Onglet Options

Valeurs manquantes spcifies. Les facteurs doivent avoir des valeurs valides pour quune

observation puisse tre incluse dans lanalyse. Ces commandes vous permettent dindiquer si les valeurs manquantes spcies sont considres comme valides parmi les facteurs et les variables dpendantes qualitatives.
Rgles darrt. Ces rgles dterminent le moment o la formation du rseau neuronal doit tre

arrte. La formation se poursuit avec au moins une lecture des donnes. La formation peut tre arrte en fonction des critres suivants, qui sont slectionns dans lordre indiqu. Dans les dnitions de rgle darrt qui suivent, une tape correspond une lecture des donnes pour les mthodes en ligne et par mini-commande, ainsi qu une itration pour la mthode par commande.
Nombre maximal dtapes sans rduire le nombre derreurs. Nombre dtapes autoriser avant

de vrier une baisse du nombre derreurs. Si le nombre derreurs ne diminue pas aprs le nombre spci dtapes, la formation sarrte. Spciez un entier suprieur 0. Vous pouvez galement spcier lchantillon de donnes utilis pour calculer les erreurs. Loption Slectionner automatiquement utilise lchantillon de test sil existe et, dans le cas contraire, lchantillon de formation. La formation par commande garantit la rduction du nombre derreurs dchantillon de formation aprs chaque lecture des donnes. Par consquent, cette option ne sapplique qu la formation par commande sil existe un chantillon de test. Loption Donnes de formation et de test vrie les erreurs pour chacun de ces chantillons ; cette option ne sapplique que sil existe un chantillon de test.

22 Chapitre 2

Remarque : Aprs chaque lecture complte des donnes, les formations en ligne et par mini-commande ncessitent une lecture supplmentaire des donnes pour calculer lerreur de formation. Cette lecture supplmentaire des donnes pouvant ralentir considrablement la formation, il est gnralement recommand de fournir un chantillon de test et de slectionner Slectionner automatiquement dans tous les cas.
Dure maximale de formation. Choisissez de spcier ou non un nombre maximal de minutes

pour lexcution de lalgorithme. Spciez un nombre suprieur 0.


Nombre maximal de priodes de formation. Nombre maximal de priodes (lectures des donnes)

autoris. Si le nombre maximal de priodes est dpass, la formation sarrte. Entrez un entier suprieur 0.
Modification relative minimale de lerreur de formation. La formation sarrte si le changement

relatif dans les erreurs de formation par rapport ltape prcdente est infrieur la valeur de critre. Spciez un nombre suprieur 0. Pour les formations en ligne et par mini-commande, ce critre est ignor si les donnes de test sont les seules tre utilises pour calculer les erreurs.
Modification relative minimale du rapport derreur de formation. La formation sarrte si le

rapport entre erreurs de formation et erreurs du modle nul est infrieur la valeur de critre. Le modle nul prvoit la valeur moyenne de toutes les variables dpendantes. Spciez un nombre suprieur 0. Pour les formations en ligne et par mini-commande, ce critre est ignor si les donnes de test sont les seules tre utilises pour calculer les erreurs.
Nombre maximal dobservations stocker en mmoire. Cette option contrle les paramtres suivants

dans les algorithmes de perceptron multistrate. Entrez un entier suprieur 1. Lors de la slection automatique de larchitecture, la taille de lchantillon permet de dterminer si la taille de larchitecture rseau est min(1000,memsize), memsize reprsentant le nombre maximal dobservations stocker en mmoire. Lors de la formation par mini-commande avec calcul automatique du nombre de mini-commandes, le nombre de mini-commandes est min(max(M/10,2),memsize), M reprsentant le nombre dobservations de lchantillon de formation.

Chapitre

Fonction base radiale

La procdure de fonction base radiale (RBF) produit un modle de prvision pour une ou plusieurs variables dpendantes (cibles) en fonction des valeurs des variables prdites.
Exemple :Un fournisseur de services de tlcommunication a segment sa base de clients par type

dutilisation des services en catgorisant les clients en quatre groupes. Un rseau RBF utilisant des donnes dmographiques pour prvoir les groupes daffectations permet lentreprise de personnaliser les offres pour chaque client ventuel.
Variables dpendantes Les variables dpendantes peuvent tre : Nominal. Une variable peut tre traite comme tant nominale si ses valeurs reprsentent des

modalits sans classement intrinsque (par exemple, le service de la socit dans lequel travaille un employ). La rgion, le code postal ou lappartenance religieuse sont des exemples de variables nominales.
Ordinal. Une variable peut tre traite comme tant ordinale si ses valeurs reprsentent des

modalits associes un classement intrinsque (par exemple, des niveaux de satisfaction allant de Trs mcontent Trs satisfait). Exemples de variable ordinale : des scores dattitude reprsentant le degr de satisfaction ou de conance, et des scores de classement des prfrences.
Echelle. Une variable peut tre traite comme une variable dchelle (continue) si ses

valeurs reprsentent des modalits ordonnes avec une mesure signicative, de sorte que les comparaisons de distance entre les valeurs soient adquates. Lge en annes et le revenu en milliers de dollars sont des exemples de variable dchelle. La procdure considre que le niveau de mesure appropri a t assign toutes les variables dpendantes, bien que vous puissiez changer provisoirement le niveau de mesure dune variable en cliquant avec le bouton droit de la souris sur la variable dans la liste des variables source, puis en slectionnant un niveau de mesure dans le menu contextuel. Dans la liste des variables, une icne indique le niveau de mesure et le type de donnes :
Niveau de mesure Numrique Echelle (continue). Chane n/a Le type de donnes Date Heure

Copyright SPSS Inc. 1989, 2010

23

24 Chapitre 3

Ordinales Nominales

Variables prdites. Les variables prdites peuvent tre spcies en tant que facteurs (qualitatifs)

ou covariables (dchelle).
Codage des variables indicatrices. La procdure recode provisoirement les variables prdites

qualitatives et les variables dpendantes via le codage un-de-c pour la dure de la procdure. Sil existe des modalits c dune variable, la variable est stocke comme vecteurs c, la premire modalit tant identie par (1,0,...,0), la suivante par (0,1,0,...,0), ... et la dernire par (0,0,...,0,1). Ce systme de codage augmente le nombre de pondrations synaptiques et peut rsulter en une formation plus lente, mais les mthodes de codage plus compactes aboutissent gnralement des rseaux neuronaux mal ajusts. Si la formation de votre rseau seffectue trs lentement, essayez de rduire le nombre de modalits dans vos variables prdites qualitatives en combinant des modalits similaires ou en supprimant les observations comportant des modalits extrmement rares. Les codage un-de-c repose entirement sur les donnes de formation, mme si un chantillon de test ou trait est dni (reportez-vous Partitions sur p. 27). Ainsi, si les chantillons de test ou traits contiennent des observations avec des modalits de variables prdites ne gurant pas dans les donnes de formation, ces observations ne sont pas utilises par la procdure ou dans lvaluation. Si les chantillons de test ou traits contiennent des observations avec des modalits de variables dpendantes ne gurant pas dans les donnes de formation, ces observations ne sont pas utilises par la procdure mais peuvent tre notes.
Rchelonnement. Les variables dchelle dpendantes et les covariables sont rchelonnes par dfaut pour amliorer la formation du rseau. Le rchelonnement repose entirement sur les donnes de formation, mme si un chantillon de test ou trait est dni (reportez-vous Partitions sur p. 27). En dautres termes, en fonction du type de rchelonnement, la moyenne, lcart-type, la valeur minimale ou la valeur maximale dune covariable ou dune variable dpendante ne sont calcules qu laide des donnes de formation. Si vous spciez une variable pour dnir des partitions, il est important que ces covariables ou variables dpendantes prsentent des distributions similaires travers les chantillons de formation, de test et traits. Pondrations deffectif. Cette procdure ignore les pondrations deffectif. Rplication de rsultats. Si vous souhaitez rpliquer vos rsultats exactement, outre les mmes

paramtres de procdure, utilisez la mme valeur dinitialisation pour le gnrateur de nombres alatoires et le mme ordre de donnes. Vous trouverez ci-aprs plus de dtails sur cet aspect.
Gnration de nombres alatoires. La procdure utilise la gnration de nombres alatoires

pendant lattribution alatoire des partitions. Pour reproduire les mmes rsultats alatoires lavenir, utilisez la mme valeur dinitialisation pour le gnrateur de nombres alatoires avant

25 Fonction base radiale

chaque excution de la procdure de fonction base radiale. Reportez-vous Prparation des donnes pour lanalyse sur p. 74 pour des instructions dtailles.
Tri par observation. Les rsultats dpendent galement de lordre des donnes, car lalgorithme

de classication en deux tapes intervient dans la dtermination des fonctions base radiale. Pour rduire les effets de tri, classez les observations de manire alatoire. Pour vrier la stabilit dune solution donne, vous pouvez obtenir diffrentes solutions dans lesquelles les observations sont tries de diffrentes manires alatoires. Si les chiers sont trs volumineux, vous pouvez effectuer plusieurs fois lopration sur un chantillon des observations tries de diffrentes manires alatoires.
Cration dun rseau de fonction base radiale

A partir des menus, slectionnez :


Analyse > Rseaux neuronaux > Fonction base radiale... Figure 3-1 Fonction base radiale : longlet Variables

E Slectionnez au moins une variable dpendante. E Slectionnez au moins un facteur ou une covariable.

Dans longlet Variables, vous pouvez aussi changer la mthode de rchelonnement des covariables. Les choix sont les suivants :
Standardiss. Soustrayez la moyenne et divisez le rsultat par lcart-type, (xmoyenne)/s.

26 Chapitre 3

Normalis. Soustrayez le minimum et divisez le rsultat par lintervalle, (xmin)/(maxmin).

Les valeurs normalises sont comprises entre 0 et 1.


Normalis ajust. Version ajuste de la soustraction du minimum et de la division du rsultat

par lintervalle, [2*(xmin)/(maxmin)]1. Les valeurs normalises ajustes sont comprises entre 1 et 1.
Aucune. Aucun rchelonnement des covariables. Champs avec un niveau de mesure inconnu

Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables (champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure dni.
Figure 3-2 Alerte du niveau de mesure

Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau

de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de donnes est important, cette action peut prendre un certain temps.
Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un

niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans lafchage des variables de lditeur de donnes. Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de mesure dnis.

27 Fonction base radiale

Partitions
Figure 3-3 Fonction base radiale : Onglet Partitions

Ensemble de donnes de partition. Ce groupe indique la mthode de partitionnement de lensemble

de donnes actif en chantillons dapprentissage, de test et trait. Lchantillon dapprentissage comprend les enregistrements de donnes utiliss pour former le rseau neuronal. Un certain pourcentage dobservations contenues dans lensemble de donnes doit tre affect lchantillon dapprentissage pour lobtention dun modle. Lchantillon de test est un ensemble indpendant denregistrements de donnes utilis pour identier des erreurs au cours de la formation an dempcher une formation excessive. Nous vous conseillons fortement de crer un chantillon dapprentissage. Une formation de rseau sera en gnral plus efcace si lchantillon de test est plus petit que lchantillon de fonction. Lchantillon trait est un autre ensemble indpendant denregistrements de donnes utilis pour valuer le rseau neuronal nal ; lerreur pour lchantillon trait donne une estimation honnte de la capacit de prvision du modle parce que les observations traites nont pas t utilises pour construire le modle.
Affecter des observations de faon alatoire en fonction du nombre dobservations relatif.

Indiquez le nombre dobservations relatif (ratio) affect de faon alatoire chaque chantillon (dapprentissage, de test et trait). La colonne % rapporte le pourcentage dobservations qui seront affectes chaque chantillon en fonction des nombres relatifs que vous avez spcis. Par exemple, si vous spciez 7, 3 et 0 comme nombres relatifs pour les chantillons dapprentissage, de test et trait, ces valeurs correspondent 70 %, 30 % et 0 %. Si vous spciez 2, 1, 1 comme nombres relatifs, ces valeurs correspondent 50 %, 25 % et 25 %. 1,

28 Chapitre 3

1 et 1 correspond la division de lensemble de donnes en tiers gaux entre lapprentissage, le test et llment trait.
Utiliser une variable de partitionnement pour affecter des observations.Indiquez une variable

numrique qui affecte chaque observation de lensemble de donnes actif lchantillon dapprentissage, de test et trait. Les observations contenant une valeur positive sur la variable sont affectes lchantillon dapprentissage, celles contenant une valeur gale 0 sont affectes lchantillon de test, et celles contenant une valeur ngative sont affectes lchantillon trait. Les observations contenant des valeurs manquantes sont exclues de lanalyse. Les valeurs manquantes spcies par lutilisateur pour la variable de partitionnement sont toujours considres comme tant valides.

Architecture
Figure 3-4 Fonction base radiale : Onglet Architecture.

Longlet Architecture permet de spcier la structure du rseau. La procdure cre un rseau neuronal avec une strate de fonction base radiale masque ; en gnral, il nest pas ncessaire de modier ces paramtres.
Nombre dunits de la strate masque. Vous pouvez choisir le nombre dunits masques de trois

faons.

29 Fonction base radiale

1. Rechercher le nombre optimal dunits dans une plage calcule automatiquement. La procdure calcule automatiquement les valeurs minimale et maximale de la plage et recherche le nombre optimal dunits masques lintrieur de la plage. Si un chantillon de test est dni, la procdure utilise le critre de donnes de test : Le nombre optimal dunits masques est celui qui gnre la plus petite erreur dans les donnes de test. Si aucun chantillon de test nest dni, la procdure utilise le critre dinformation baysien (BIC) : Le nombre optimal dunits masques est celui qui gnre le plus petit critre dinformation baysien dans les donnes de formation. 2. Rechercher le nombre optimal dunits dans une plage spcifique. Vous pouvez indiquer la plage de votre choix an que la procdure y recherche le nombre optimal dunits masques. Comme dans la mthode prcdente, le nombre optimal dunits masques dans la plage est dtermin laide du critre de donnes de test ou du critre dinformation baysien. 3. Utiliser le nombre dunits indiqu. Vous pouvez passer outre lutilisation dune plage et indiquer directement un nombre dunits spcique.
Fonction dactivation pour la strate masque. La fonction dactivation pour la strate masque est la fonction base radiale, qui lie les units dune strate aux valeurs des units de la suivante. Pour la strate de rsultat, la fonction dactivation est la fonction didentit ; les units de rsultat sont donc simplement les sommes pondres des units masques. Fonction base radiale normalise. Utilise la fonction dactivation softmax an que les

activations de toutes les units masques soient normalises pour tre gales un.
Fonction base radiale ordinaire. Utilise la fonction dactivation exponentielle an que

lactivation de lunit masque soit une bosse gaussienne en guise de fonction des entres.
Chevaucher les units masques. Le facteur de chevauchement est un multiplicateur appliqu

la largeur des fonctions base radiale. Valeur automatiquement calcule du facteur de chevauchement 1+0,1d, o d reprsente le nombre dunits dentre (somme du nombre de modalits dans tous les facteurs et du nombre de covariables).

30 Chapitre 3

Rsultat
Figure 3-5 Fonction base radiale : Onglet Rsultats

Structure de rseau. Afche des informations rcapitulatives sur le rseau neuronal. Description : Afche des informations sur le rseau neuronal, y compris les variables

dpendantes, le nombre dunits dentre et de sortie, le nombre de strates et dunits masques, ainsi que les fonctions dactivation.
Diagramme. Afche le diagramme de rseau sous forme de diagramme non modiable. A

mesure que le nombre de covariables et de niveaux de facteur augmente, le diagramme devient plus difcile interprter.
Pondrations synaptiques. Afche les estimations de coefcients qui indiquent la relation

existant entre les units dune strate donne et celles de la strate suivante. Les pondrations synaptiques sont bases sur lchantillon de formation mme si lensemble de donnes actif est partitionn en donnes de formation, de test et traites. Le nombre de pondrations synaptiques peut tre lev et ces pondrations ne sont gnralement pas utilises pour interprter les rsultats du rseau.

31 Fonction base radiale

Performances rseau. Afche les rsultats utiliss pour dterminer si le modle est correct.

Remarque : Les diagrammes gurant dans ce groupe sont bass sur les chantillons de formation et de test combins, ou uniquement sur lchantillon de formation sil nexiste aucun chantillon de test.
Rcapitulatif du modle. Afche un rcapitulatif des rsultats du rseau neuronal par

partition et globalement, y compris lerreur, lerreur relative ou le pourcentage de prvisions incorrectes, ainsi que la dure de formation. Lerreur est lerreur de la somme des carrs. Apparaissent galement les erreurs relatives ou les pourcentages de prvisions incorrectes, suivant les niveaux de mesure des variables dpendantes. Si une variable dpendante comporte un niveau de mesure dchelle, lerreur relative globale moyenne (par rapport au modle moyen) est afche. Si toutes les variables dpendantes sont des variables qualitatives, le pourcentage moyen de prvisions incorrectes est afch. Les erreurs ou les pourcentages relatifs de prvisions incorrectes sont galement afchs pour les variables dpendantes individuelles.
Rsultats du classement. Afche un tableau de classement pour chaque variable dpendante

qualitative. Chaque tableau indique le nombre dobservations classes correctement et incorrectement pour chaque modalit de variable dpendante. Le pourcentage dobservations totales ayant t correctement classes est galement indiqu.
Courbe ROC Afche une courbe ROC (Receiver Operating Characteristic) pour chaque variable

dpendante qualitative. Afche galement un tableau indiquant la zone au-dessous de chaque courbe. Pour une variable dpendante donne, le diagramme ROC afche une courbe pour chaque modalit. Si la variable dpendante comporte deux modalits, chaque courbe traite la modalit en question comme tant ltat positif par rapport lautre modalit. Si la variable dpendante comporte plus de deux modalits, chaque courbe traite la modalit en question comme tant ltat positif par rapport la somme de toutes les autres modalits.
Diagramme de gains cumuls. Afche un diagramme de gains cumuls pour chaque variable

dpendante qualitative. Lafchage dune courbe pour chaque modalit de variable dpendante est identique celui des courbes ROC.
Diagramme de Levier. Afche un diagramme de levier pour chaque variable dpendante

qualitative. Lafchage dune courbe pour chaque modalit de variable dpendante est identique celui des courbes ROC.
Diagramme estim/observ. Afche un diagramme estim/observ pour chaque variable

dpendante. Pour les variables dpendantes qualitatives, des botes moustaches juxtaposes des pseudo-probabilits prvues sont afches pour chaque modalit de rponse, avec la modalit de rponse observe comme variable de classe. Pour les variables dchelle dpendantes, un diagramme de dispersion est afch.
Diagramme rsiduel/estim. Afche un diagramme rsiduel/estim pour chaque variable

dchelle dpendante. Il ne doit exister aucun schma visible entre les rsidus et les prvisions. Ce diagramme nest gnr que pour les variables dchelle dpendantes.
Rcapitulatif du traitement des observations. Afche le tableau rcapitulatif de traitement des

observations, qui rcapitule le nombre dobservations incluses et exclues dans lanalyse, au total et par chantillon de formation, de test et trait.

32 Chapitre 3

Analyse de limportance des variables prdites. Effectue une analyse de sensibilit, qui calcule limportance de chaque variable prdite dans la dtermination du rseau neuronal. Lanalyse est base sur les chantillons de formation et de test combins, ou uniquement sur lchantillon de formation sil nexiste aucun chantillon de test. Ceci produit un tableau et un diagramme qui indiquent limportance et limportance normalise de chaque variable prdite. Lanalyse de sensibilit ncessite beaucoup de calculs et de temps si les variables prdites ou les observations sont nombreuses.

Enregistrer
Figure 3-6 Fonction base radiale : Onglet Enregistrer

Longlet Enregistrer permet denregistrer les prvisions en tant que variables dans lensemble de donnes.
Enregistrer la valeur ou la modalit prvue pour chaque variable dpendante. Cette option

enregistre la valeur prvue pour les variables dchelle dpendantes et la modalit prvue pour les variables dpendantes qualitatives.
Enregistrer la pseudo-probabilit prvue pour chaque variable dpendante. Cette option

enregistre les pseudo-probabilits prvues pour les variables dpendantes qualitatives. Une variable distincte est enregistre pour chacune des n premires modalits, n tant spci dans la colonne Modalits enregistrer.

33 Fonction base radiale

Noms des variables enregistres. Grce la gnration automatique de nom, vous conservez lensemble de votre travail. Les noms personnaliss vous permettent de supprimer ou de remplacer les rsultats dexcutions prcdentes sans supprimer dabord les variables enregistres dans lditeur de donnes. Probabilits et pseudo-probabilits

Les pseudo-probabilits prvues ne peuvent pas tre interprtes comme des probabilits, car la procdure de fonction base radiale utilise lerreur de la somme des carrs et la fonction dactivation didentit pour la strate de rsultat. La procdure enregistre ces pseudo-probabilits prvues mme si certaines dentre elles sont infrieures 0 ou suprieures 1, ou si la somme dune variable dpendante donne nest pas gale 1. Le diagramme de ROC, des gains cumuls et de Levier (reportez-vous Rsultat sur p. 30) sont crs en fonction des pseudo-probabilits. Si des pseudo-probabilits sont infrieures 0 ou suprieures 1 ou que la somme dune variable donne nest pas gale 1, elles sont dabord rchelonnes pour se situer entre 0 et 1, et avoir pour somme 1. Les pseudo-probabilits sont rchelonnes en tant divises par leur somme. Par exemple, si une observation comporte des pseudo-probabilits de 0,50, 0,60 et 0,40 pour une variable dpendante trois modalits, chaque pseudo-probabilit est alors divise par la somme 1,50 an dobtenir 0,33, 0,40 et 0.27. Si des pseudo-probabilits sont ngatives, la valeur absolue de la plus faible est ajoute toutes les pseudo-probabilits avant le rchelonnement ci-dessus. Par exemple, si les pseudo-probabilits sont -0.30, 0,50, et 1,30, ajoutez dabord 0,30 chaque valeur pour obtenir 0,00, 0,80 et 1,60. Divisez ensuite chaque nouvelle valeur par la somme 2,40 pour obtenir 0,00, 0,33 et 0,67.

34 Chapitre 3

Exporter
Figure 3-7 Fonction base radiale : Onglet Exporter

Longlet Exporter permet denregistrer les estimations des pondrations synaptiques de chaque variable dpendante dans un chier XML (PMML). Vous pouvez utiliser ce chier de modle pour appliquer les informations du modle aux autres chiers de donnes des ns dvaluation. Cette option nest pas disponible si des chiers scinds ont t dnis.

35 Fonction base radiale

Options
Figure 3-8 Fonction base radiale : Onglet Options

Valeurs manquantes spcifies. Les facteurs doivent avoir des valeurs valides pour quune

observation puisse tre incluse dans lanalyse. Ces commandes vous permettent dindiquer si les valeurs manquantes spcies sont considres comme valides parmi les facteurs et les variables dpendantes qualitatives.

Partie II: Exemples

Chapitre

Perceptron multi-couches

La procdure Perceptron multistrate produit un modle de prvision pour une ou plusieurs variables (cible) dpendantes en fonction de valeurs de variables explicatives.

Utilisation du perceptron multistrate pour valuer le risque de crdit


Un responsable des prts dans une banque souhaite pouvoir identier les caractristiques qui indiquent les personnes susceptibles de manquer leurs engagements et dutiliser ces caractristiques pour identier les bons et les mauvais risques de crdit. Supposez que les informations sur les 850 clients prcdents et ventuels soient contenues dans le chier bankloan.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A sur p. 87.Les premires 700 observations concernent des clients auxquels des prts ont t octroys. Utilisez un chantillon alatoire de ces 700 clients pour crer un perceptron multistrate, en laissant le reste des clients de ct pour valider lanalyse. Utilisez ensuite le modle pour classer les 150 clients ventuels entre bon et mauvais risques de crdit. Par ailleurs, le responsable des prts a auparavant analys les donnes en utilisant une rgression logistique (dans loption Rgression) et se demande dans quelle mesure le perceptron multistrate peut-il tre compar en tant quoutil de classement.

Prparation des donnes pour lanalyse


Dnir le gnrateur alatoire vous permet de reproduire lanalyse exactement.
E Pour dnir le gnrateur alatoire, partir des menus, slectionnez : Transformer > Gnrateurs de nombres alatoires

Copyright SPSS Inc. 1989, 2010

37

38 Chapitre 4 Figure 4-1 Bote de dialogue Gnrateurs de nombres alatoires

E Slectionnez Dfinir un point de dpart. E Slectionnez Valeur fixe et tapez la valeur 9 191 972. E Cliquez sur OK.

Dans lanalyse de rgression logistique prcdente, environ 70 % des clients passs taient attribus lchantillon dapprentissage et 30 % un chantillon trait. Vous devez recourir une variable de partitionnement pour recrer exactement les chantillons utiliss dans ces analyses.
E Pour crer la variable de partition, dans les menus, choisissez : Transformer > Calculer la variable...

39 Perceptron multi-couches Figure 4-2 Bote de dialogue Calculer la variable

E Saisissez partition dans la zone de texte Variable cible. E Tapez 2*rv.bernoulli(0,7)-1 dans la zone Expression numrique.

Vous dnissez ainsi les valeurs de validation comme variables de Bernoulli gnres alatoirement avec un paramtre de probabilit de 0,7, modies de manire prendre la valeur 1 ou 1, au lieu de 1 ou 0. Noubliez pas que les observations contenant des valeurs positives sur la variable de partitionnement sont affectes lchantillon de formation, celles avec des valeurs ngatives sont affectes lchantillon trait et celles avec une valeur gale 0 sont affectes lchantillon de test. Nous nallons pas indiquer dchantillon de test pour linstant.
E Cliquez sur OK dans la bote de dialogue Calculer la variable.

Environ 70 % des clients ayant prcdemment bnci dun prt auront 1 comme valeur pour la variable partition. Ces clients sont utiliss pour crer le modle. Les autres clients ayant prcdemment bnci dun prt auront une valeur de partition gale 1, et seront utiliss pour valider les rsultats du modle.

40 Chapitre 4

Excution de lanalyse
E Pour lancer une analyse Perceptron multistrate, choisissez les options suivantes dans les menus : Analyse > Rseaux neuronaux : > Perceptron multistrate... Figure 4-3 Perceptron multistrate : longlet Variables

E Slectionnez Manquement prcdent [dfaut] comme variable dpendante. E Slectionnez Niveau dducation [ne] comme facteur. E Slectionnez les options de Age en annes [age] Autres dettes en milliers [autrdettes] comme

covariables.
E Cliquez sur longlet Partitions.

41 Perceptron multi-couches Figure 4-4 Perceptron multistrate : Onglet Partitions

E Slectionnez loption Utiliser une variable de partitionnement pour affecter des observations. E Slectionnez loption partition comme variable de ligne. E Cliquez sur longlet Rsultats.

42 Chapitre 4 Figure 4-5 Perceptron multistrate : Onglet Rsultats

E Dslectionnez loption Diagramme dans le groupe Structure de rseau. E Slectionnez les options Courbe ROC, Diagramme de gains cumuls, Diagramme de Levier et Diagramme estim/observ dans le groupe Performances rseau. Le diagramme Valeurs rsiduelles

par prvisions nest pas disponible, car la variable dpendante nest pas une variable dchelle.
E Slectionnez loption Analyse de limportance des variables indpendantes. E Cliquez sur OK.

Rcapitulatif de traitement des observations


Figure 4-6 Rcapitulatif du traitement des observations

43 Perceptron multi-couches

Le rcapitulatif du traitement des observations montre que 499 observations ont t attribues lchantillon dapprentissage et 201 lchantillon trait. Les 150 observations exclues de lanalyse correspondent aux clients potentiels.

Informations rseau
Figure 4-7 Informations sur le rseau

Le tableau dinformations sur le rseau afche des informations sur le rseau neuronal et permet de vrier que les spcications sont correctes. En loccurrence, notez les points suivants : Le nombre dunits dans la strate dentre correspond au nombre de covariables plus le nombre total de niveaux de facteur ; une unit spcique est cre pour chaque modalit de niveau dducation et aucune des modalits nest considre comme une unit redondante , comme cela est courant dans de nombreuses procdures de modlisation. De mme, une unit de rsultat spcique est cre pour chaque modalit de manquement prcdent, pour un total de 2 units dans la strate de rsultat. La slection automatique de larchitecture a choisi 4 units dans la strate masque. Toutes les autres informations sur le rseau correspondent aux valeurs par dfaut pour la procdure.

44 Chapitre 4

Rcapitulatif des modles


Figure 4-8 Rcapitulatif du modle

Le rcapitulatif du modle afche des informations sur les rsultats de lapprentissage du rseau nal et de son application lchantillon trait. Une erreur dentropie croise apparat, car la strate de rsultat utilise la fonction dactivation softmax. Il sagit de la fonction derreur que le rseau essaie de minimiser pendant lapprentissage. Le pourcentage de prvisions incorrectes provient du tableau de classement et sera abord plus loin dans cette section. Lalgorithme destimation sest arrt, car le nombre maximum de priodes a t atteint. Normalement, lapprentissage sarrte lorsque lerreur a converg. Cela soulve des questions quant un dysfonctionnement ventuel pendant lapprentissage et doit tre pris en compte lors de lexamen du rsultat.

Classification
Figure 4-9 Classification

Le tableau de classement afche les rsultats pratiques de lutilisation du rseau. Pour chaque observation, la rponse prvue est Oui si la pseudo-probabilit prvue de cette observation est suprieure 0,5. Pour chaque chantillon : Les cellules situes sur la diagonale de la classication croise des observations sont des prvisions correctes. Les cellules hors de la diagonale de la classication croise des observations sont des prvisions incorrectes.

45 Perceptron multi-couches

Des observations utilises pour crer le modle, 74 des 124 personnes qui ont prcdemment manqu leurs engagements ont t classes correctement. 347 des 375 personnes nayant pas manqu leurs engagements ont t classes correctement. Au total, 84,4 % des observations dapprentissage ont t classes correctement, ce qui correspond la proportion de 15,6 % indique dans le tableau rcapitulatif des modles. Un meilleur modle doit correctement identier un pourcentage suprieur des observations. Les classements bass sur les observations utilises pour crer le modle tendent tre trop optimistes dans le sens o leur taux de classication est augment. Lchantillon trait permet de valider le modle ; en loccurrence, le modle a correctement class 74.6% de ces observations. Ceci suggre quen gnral votre modle est en fait correct environ trois fois sur quatre.

Correction du surapprentissage
En repensant lanalyse de rgression logistique prcdemment ralise, le responsable des prts se souvient que lchantillon dapprentissage et lchantillon trait ont correctement prvu un pourcentage similaire dobservations, environ 80 %. En revanche, le rseau neuronal avait un pourcentage dobservations correctes plus lev dans lchantillon dapprentissage, lchantillon trait ayant beaucoup moins bien prvu les clients ayant effectivement manqu leurs engagements (correct 45,8 % pour lchantillon trait et 59,7 % pour lchantillon dapprentissage). Compte tenu de la rgle darrt indique dans le tableau rcapitulatif des modles, vous tes amen penser que le rseau est peut-tre soumis un surapprentissage ; cest--dire quil recherche les modles faux apparaissant dans les donnes dapprentissage par variation alatoire. Heureusement, la solution est relativement simple : indiquez un chantillon de test pour aider le rseau rester sur la bonne voie . Nous avons cr la variable de partitionnement de manire rcrer exactement lchantillon dapprentissage et lchantillon trait utiliss dans lanalyse de rgression logistique ; toutefois, le concept dchantillon de test est tranger la rgression logistique. Prenons une partie de lchantillon dapprentissage et raffectons-la un chantillon de test.

46 Chapitre 4

Cration de lchantillon de test


Figure 4-10 Bote de dialogue Calculer la variable

E Rappelez la bote de dialogue Calculer la variable. E Tapez partition - rv.bernoulli(0,2) dans la zone Expression numrique. E Cliquez sur Si.

47 Perceptron multi-couches Figure 4-11 Calculer la variable : Bote de dialogue Calculer la variable : si les observations

E Slectionnez Inclure si lobservation remplit la condition : E Saisissez partition>0 dans la zone de texte. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Calculer la variable.

Au terme de cette opration, les valeurs de partition qui taient suprieures 0 sont rednies si bien quenviron 20 % ont pour valeur 0 et 80 % conservent la valeur 1. Au total, environ 100*(0,7*0,8)=56 % des clients ayant prcdemment bnci dun prt gureront dans lchantillon dapprentissage et 14 % dans lchantillon de test. Les clients initialement attribus lchantillon trait y demeurent.

Excution de lanalyse
E Dans la bote de dialogue Perceptron multistrate, cliquez sur longlet Enregistrer. E Slectionnez loption Enregistrer la pseudo-probabilit prvue pour chaque variable dpendante. E Cliquez sur OK.

48 Chapitre 4

Rcapitulatif de traitement des observations


Figure 4-12 Rcapitulatif du traitement des observations pour un modle avec chantillon de test

Parmi les 499 observations initialement attribues lchantillon dapprentissage, 101 ont t raffectes lchantillon de test.

Informations rseau
Figure 4-13 Informations sur le rseau

La seule modication apporte au tableau dinformations sur le rseau est le fait que la slection automatique de larchitecture ait choisi 7 units dans la strate masque.

49 Perceptron multi-couches

Rcapitulatif des modles


Figure 4-14 Rcapitulatif du modle

Le rcapitulatif du modle montre quelques signes positifs : Le pourcentage de prvisions incorrectes est approximativement gal dans les chantillons dapprentissage, de test et trait. Lalgorithme destimation sest arrt, car lerreur na pas diminu aprs un pas dans lalgorithme. Cela renforce lhypothse dun surapprentissage du modle dorigine et le problme a t rsolu par lajout dun chantillon de test. Bien sr, les tailles des chantillons sont relativement petites et peut-tre serait-il prfrable de ne pas tirer de conclusion htive de la variation de quelques points de pourcentage.

Classification
Figure 4-15 Classification

Le tableau de classement montre que, avec 0,5 comme csure de pseudo-probabilit pour le classement, le rseau effectue des prvisions nettement meilleures pour les personnes ne manquant pas leurs engagements que pour celles manquant leurs engagements. Malheureusement, comme la valeur de csure unique donne un aperu trs limit de la capacit de prvision du

50 Chapitre 4

rseau, elle nest pas ncessairement trs utile pour la comparaison de rseaux concurrents. Observez plutt la courbe ROC.

Courbe ROC
Figure 4-16 Courbe ROC

La courbe ROC prsente un afchage visuel de sensibilit et spcicit pour toutes les csures possibles dans un diagramme unique, ce qui constitue un outil plus clair et plus puissant quune srie de tableaux. Le diagramme propos ici afche deux courbes, lune pour la modalit Non, lautre pour la modalit Oui. Dans la mesure o il ny a que deux modalits, les courbes sont symtriques par rapport une ligne incline 45 degrs (non afche) allant de langle suprieur gauche du diagramme langle infrieur droit. Ce diagramme repose sur la combinaison de lchantillon dapprentissage et de lchantillon de test. Pour obtenir un diagramme ROC pour lchantillon trait, scindez le chier au niveau de la variable de partitionnement, puis excutez la procdure Courbe ROC sur les pseudo-probabilits prvues enregistres.

51 Perceptron multi-couches Figure 4-17 Zone infrieure la courbe

La zone infrieure la courbe est un rcapitulatif numrique de la courbe ROC, tandis que les valeurs du tableau reprsentent, pour chaque modalit, la probabilit que la prsence de la pseudo-probabilit prvue dans cette modalit soit suprieure pour une observation choisie alatoirement appartenant cette modalit que pour une observation choisie alatoirement nappartenant pas cette modalit. Par exemple, pour une personne manquant ses engagements slectionne alatoirement et une personne ne manquant pas ses engagements slectionne alatoirement, il existe une probabilit de 0,853 que la pseudo-probabilit de manquement prvue par le modle soit plus leve pour la personne manquant ses engagements que pour la personne ne manquant pas ses engagements. Bien que la zone infrieure la courbe constitue un rcapitulatif statistique unique utile de la prcision du rseau, vous devez tre en mesure de choisir un critre spcique pour classer les clients. Pour ce faire, vous pouvez vous appuyer sur le diagramme estim/observ.

Diagramme estim/observ
Figure 4-18 Diagramme estim/observ

52 Chapitre 4

Dans le cas des variables dpendantes qualitatives, le diagramme estim/observ afche des botes moustaches juxtaposes de pseudo-probabilits prvues pour les chantillons dapprentissage et de test combins. Laxe des X correspond aux modalits de rponses observes, et la lgende aux modalits estimes. La bote moustaches le plus gauche montre, pour les observations ayant comme modalit observe Non, la pseudo-probabilit prvue de la modalit Non. La partie de la bote moustaches au-dessus du repre 0,5 sur laxe des Y reprsente les prvisions correctes montres dans le tableau de classement. La partie au-dessous du repre 0,5 reprsente les prvisions incorrectes. Daprs le tableau de classement, le rseau est trs performant pour la prvision des observations ayant pour modalit Non avec la csure 0,5 ; par consquent, seule une partie de la moustache infrieure et certaines observations loignes sont mal classes. La bote moustaches suivante vers la droite montre, pour les observations ayant comme modalit observe Non, la pseudo-probabilit prvue de la modalit Oui. Dans la mesure o la variable cible ne comporte que deux modalits, les deux premires botes moustaches sont symtriques par rapport la ligne horizontale au niveau de 0,5. La troisime bote moustaches montre, pour les observations ayant comme modalit observe Oui, la pseudo-probabilit prvue de la modalit Non. Cette bote moustaches et la dernire sont symtriques par rapport la ligne horizontale au niveau de 0,5. La dernire bote moustaches montre, pour les observations ayant comme modalit observe Oui, la pseudo-probabilit prvue de la modalit Oui. La partie de la bote moustaches au-dessus du repre 0,5 sur laxe des Y reprsente les prvisions correctes montres dans le tableau de classement. La partie au-dessous du repre 0,5 reprsente les prvisions incorrectes. Daprs le tableau de classement, le rseau prvoit lgrement plus de la moiti des observations ayant pour modalit Oui avec la csure 0,5 ; par consquent, une bonne partie de la bote est mal classe. Le diagramme indique que le fait dabaisser la csure de classement dune observation de modalit Oui de 0,5 approximativement 0.3qui reprsente plus ou moins la valeur laquelle se trouvent le sommet de la deuxime bote et la base de la quatrime, augmente la probabilit de reprer correctement les personnes susceptibles de manquer leurs engagements sans perdre de nombreux bons clients potentiels. En dautres termes, le passage de 0,5 0,3 dans la deuxime bote aboutit au classement incorrect de relativement peu de clients ne manquant pas leurs engagements le long de la moustache en tant que personnes manquant leurs engagements prvues, tandis que dans la quatrime bote, ce passage aboutit au classement correct de nombreux clients manquant leurs engagements dans la bote en tant que personnes manquant leurs engagements prvues.

53 Perceptron multi-couches

Diagrammes de gains cumuls et de Levier


Figure 4-19 Diagramme de gains cumuls

Le diagramme de gains cumuls montre le pourcentage du nombre total dobservations dans une modalit donne obtenu en ciblant un pourcentage du nombre total dobservations. Par exemple, le premier point de la courbe pour la modalit Oui se situe (10 %, 30 %), ce qui signie que si vous valuez un ensemble de donnes avec le rseau et que vous triez toutes les observations en fonction de la pseudo-probabilit prvue de la modalit Oui, vous pouvez vous attendre ce que la tranche suprieure de 10 % contienne approximativement 30 % de la totalit des observations qui ont vritablement la modalit Oui (personnes manquant leurs engagements). De mme, la tranche suprieure de 20 % contiendrait approximativement 50 % des personnes manquant leurs engagements, la tranche suprieure de 30 % des observations comporterait 70 % des personnes manquant leurs engagements, et ainsi de suite. Si vous slectionnez 100 % de lensemble de donnes valu, vous obtenez la totalit des personnes manquant leurs engagements dans lensemble de donnes. La diagonale correspond la courbe de rfrence ; si vous slectionnez alatoirement 10 % des observations dans lensemble de donnes valu, vous pouvez esprer obtenir approximativement 10 % de la totalit des observations qui ont vritablement la modalit Oui. Plus une courbe se situe au-dessus de la ligne de base, plus le gain est lev. Vous pouvez utiliser le diagramme de gains cumuls pour slectionner une csure de classement en choisissant un pourcentage correspondant un gain souhaitable, puis en associant ce pourcentage la valeur de csure approprie.

54 Chapitre 4

Ce qui constitue un gain souhaitable dpend du cot des erreurs de type I et de type II. En fait, quel est le cot du classement dune personne manquant ses engagements dans la catgorie des personnes ne manquant pas leurs engagements (type I) ? Quel est le cot du classement dune personne ne manquant pas ses engagements dans la catgorie des personnes manquant leurs engagements (type II) ? Si les mauvaises dettes sont votre proccupation principale, alors minimisez votre erreur de type I ; dans le diagramme de gains cumuls, cela peut correspondre au rejet des prts pour les demandeurs dans la tranche suprieure de 40 % de la pseudo-probabilit prvue de la modalit Oui, avec pour consquence la capture de presque 90 % des personnes susceptibles de manquer leurs engagements, mais la suppression de pratiquement la moiti de votre groupe de demandeurs. Si le dveloppement de votre base client est la priorit, abaissez alors votre erreur de type II. Dans le diagramme, cela peut correspondre au rejet de la tranche suprieure de 10 %, avec pour consquence la capture de 30 % des personnes manquant leurs engagements et la conservation de votre groupe de demandeurs pratiquement tel quel. Habituellement, les deux sont des proccupations majeures, vous devez donc choisir une rgle de dcision optimisant la fois la sensibilit et la spcicit pour classer les clients.
Figure 4-20 Diagramme de Levier

Le diagramme de Levier est issu du diagramme de gains cumuls ; les valeurs de laxe des Y correspondent au ratio du gain cumul pour chaque courbe par rapport la ligne de base. Par consquent, le levier 10 % pour la modalit Oui est 30 %/10 % = 3,0. Il permet dobserver diffremment les informations du diagramme de gains cumuls. Remarque : Le diagramme de gains cumuls et le diagramme de Levier reposent sur la combinaison de lchantillon dapprentissage et de lchantillon de test.

55 Perceptron multi-couches

Importance des variables indpendantes


Figure 4-21 Importance de la variable indpendante

Limportance dune variable indpendante mesure lvolution de la valeur du rseau prvue par le modle pour diffrentes valeurs de la variable indpendante. Limportance normalise correspond simplement aux valeurs dimportance divises par les valeurs dimportance les plus leves et exprimes en pourcentages.
Figure 4-22 Diagramme de limportance de la variable indpendante

Le diagramme dimportance est simplement un diagramme en btons des valeurs du tableau dimportance, tries par ordre dcroissant de la valeur dimportance. Il apparat que les variables lies la stabilit (emploi, adresse) et aux dettes (dettcred, dettrev) dun client ont la plus forte incidence sur la faon dont le rseau classe les clients ; toutefois, vous ne pouvez pas dterminer la direction de la relation entre ces variables et la probabilit de manquement prvue. Il vous semblerait que plus les dettes sont leves, plus la probabilit de manquement est forte, mais vous devriez utiliser un modle avec des paramtres plus faciles interprter pour conrmer cette impression.

56 Chapitre 4

Rcapitulatif
A laide de la procdure de perceptron multistrate, vous avez construit un rseau pour prvoir la probabilit quun client donn manque son prt. Les rsultats du modle tant comparables ceux obtenus laide de la rgression logistique ou de lanalyse discriminante, vous pouvez tre raisonnablement assur que les donnes ne contiennent pas de relations ne pouvant pas tre captures par ces modles et, par consquent, vous pouvez les utiliser pour dterminer avec prcision la nature de la relation entre les variables dpendantes et indpendantes.

Utilisation dun perceptron multistrate permettant dvaluer les cots lis aux soins et les dures de sjour
Un hpital souhaite effectuer un suivi des cots et des dures de sjour des patients admis pour soigner un infarctus du myocarde (crise cardiaque). Des estimations prcises de ces mesures permettent ladministration de grer correctement le nombre de lits disponibles lors du traitement des patients. Le chier de donnes patient_los.sav contient les donnes de traitement dun chantillon de patients qui ont reu un traitement pour linfarctus du myocarde.Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A sur p. 87. Utilisez la procdure du perceptron multistrate an de mettre en place un rseau permettant de prvoir les cots et la dure du sjour.

Prparation des donnes pour lanalyse


Dnir le gnrateur alatoire vous permet de reproduire lanalyse exactement.
E Pour dnir le gnrateur alatoire, partir des menus, slectionnez : Transformer > Gnrateurs de nombres alatoires

57 Perceptron multi-couches Figure 4-23 Bote de dialogue Gnrateurs de nombres alatoires

E Slectionnez Dfinir un point de dpart. E Slectionnez Valeur fixe et tapez la valeur 9 191 972. E Cliquez sur OK.

Excution de lanalyse
E Pour lancer une analyse Perceptron multistrate, choisissez les options suivantes dans les menus : Analyse > Rseaux neuronaux : > Perceptron multistrate...

58 Chapitre 4 Figure 4-24 Perceptron multistrate : Onglet Variables - Menu contextuel pour la dure du sjour

Dure du sjour [los] a un niveau de mesure ordinal, mais vous voulez que le rseau la traite en tant quchelle.
E Cliquez avec le bouton droit de la souris sur Dure du sjour [dds] et slectionnez Echelle dans

le menu contextuel.

59 Perceptron multi-couches Figure 4-25 Perceptron multistrate : Onglet Variables avec variables dpendantes et facteurs slectionns

E Slectionnez Dure du sjour [los] et Cots du traitement [cost] en tant que variables dpendantes. E Slectionnez Tranche dge [agecat] dans la catgorie Prise de mdicaments anti-coagulation

[anticlot] et Dure de lhospitalisation [time] dans la catgorie Complications chirurgicales [comp] en tant que facteurs. An de vous assurer une reproduction exacte des rsultats du modle ci-dessous, conservez bien lordre des variables dans la liste de facteurs. A cette n, vous pouvez trouver utile de slectionner chaque ensemble de variables indpendantes et dutiliser le bouton pour les insrer dans la liste de facteurs, plutt que de les oublier et les mettre de ct. Changer lordre des variables vous aide galement valuer la stabilit de la solution.
E Cliquez sur longlet Partitions.

60 Chapitre 4 Figure 4-26 Perceptron multistrate : Onglet Partitions

E Tapez 2 en tant que nombre de cas relatif assigner lchantillon test. E Tapez 1 en tant que nombre de cas relatif assigner lchantillon trait. E Cliquez sur longlet Architecture.

61 Perceptron multi-couches Figure 4-27 Perceptron multistrate : Onglet Architecture.

E Slectionnez Architecture personnalise. E Slectionnez Deux pour le nombre de strates masques. E Slectionnez Tangente hyperbolique en tant que fonction dactivation de la strate de

rsultats. Veuillez remarquer que cette opration dclenche automatiquement la mthode de rchelonnement des variables dpendantes en les dnissant sur Normalis ajust.
E Cliquez sur longlet Formation.

62 Chapitre 4 Figure 4-28 Perceptron multistrate : Onglet formation

E Slectionnez En ligne en tant que type de formation. On suppose que la formation en ligne

fonctionne bien sur des ensembles de donnes plus vastes avec des variables indpendantes corrles. Notez que cela dnit Descendant de gradient comme lalgorithme doptimisation avec les options de dfaut correspondantes.
E Cliquez sur longlet Rsultats.

63 Perceptron multi-couches Figure 4-29 Perceptron multistrate : Onglet Rsultats

E Dslectionnez Diagramme. De nombreuses donnes apparaissent et le diagramme obtenu est

peu pratique.
E Slectionnez Diagramme estim/observ et Valeurs rsiduelles par prvisions dans le groupe de

performances rseau. Les rsultats de classication, les courbes ROC, le diagramme de gains cumuls et le diagramme de Levier ne sont pas disponibles parce quaucune des variables dpendantes nest traite en tant que catgorie (nominale ou ordinale).
E Slectionnez loption Analyse de limportance des variables indpendantes. E Cliquez sur longlet Options.

64 Chapitre 4 Figure 4-30 Onglet Options

E Choisissez dinclure les variables manquantes spcies par lutilisateur. Les patients qui nont

pas subi de chirurgie ont des valeurs manquantes spcies par lutilisateur dans la variable Complications chirurgicales. On a donc la conrmation que ces patients sont bien compris dans lanalyse.
E Cliquez sur OK.

Avertissements
Figure 4-31 Avertissements

Le tableau des avertissements indique que les variables doa et der sont constantes dans lchantillon de formation. Les patients dcds au moment de larrive ou qui sont dcds au service des urgences ont des valeurs manquantes dnies par lutilisateur pour la variable Dure du sjour. Etant donn que lon traite la variable Dure de sjour comme variable dchelle pour cette analyse et que les cas prsentant des valeurs manquantes dnies par lutilisateur sur les variables dchelle sont exclus, seuls sont inclus les patients encore vivants aprs tre sortis du service des urgences.

65 Perceptron multi-couches

Rcapitulatif de traitement des observations


Figure 4-32 Rcapitulatif du traitement des observations

Le rcapitulatif du traitement des observations montre que 5 647 observations ont reu lchantillon de formation, 1 570 lchantillon test et 781 lchantillon trait. Les 2 002 observations exclues de lanalyse concernent des patients dcds sur le chemin de lhpital ou au service des urgences.

66 Chapitre 4

Informations rseau
Figure 4-33 Informations sur le rseau

Le tableau dinformations sur le rseau afche des informations sur le rseau neuronal et permet de vrier que les spcications sont correctes. En loccurrence, notez les points suivants : Le nombre dunits dans la strate dentre correspond au nombre total de niveaux de facteur (il ny a pas de covariables).

67 Perceptron multi-couches

Deux strates masques ont t sollicites, la procdure a choisi 12 units dans la premire strate masque et 9 dans la seconde. Une unit de rsultat spare est cre pour chacune des variables dchelle dpendantes. Elles sont rchelonnes par la mthode normalise ajuste, ce qui ncessite lemploi de la fonction dactivation de la tangente hyperbolique pour la strate de rsultats. Lerreur de la somme des carrs est signale car les variables dpendantes sont des variables dchelle.

Rcapitulatif des modles


Figure 4-34 Rcapitulatif du modle

Le rcapitulatif du modle afche des informations sur les rsultats de lapprentissage du rseau nal et de son application lchantillon trait. Lerreur de la somme des carrs apparat car la strate de rsultat comporte des variables dchelle dpendantes. Il sagit de la fonction derreur que le rseau essaie de minimiser pendant lapprentissage. Notez que les sommes des carrs et toutes les valeurs derreur qui en dcoulent sont calcules pour les valeurs rchelonnes des variables dpendantes. Lerreur relative pour chaque variable dchelle dpendante est le ratio de lerreur de la somme des carrs pour la variable dpendante ajout lerreur de la somme des carrs pour le modle nul dans lequel on utilise la valeur moyenne de la variable dpendante en tant que valeur de prdiction pour chaque observation. Il semble quil y ait davantage derreurs pour les prdictions de dure de sjour que pour les cots de traitement. Lerreur densemble moyenne reprsente le ratio de lerreur de la somme des carrs pour toutes les variables dpendantes ajout lerreur de la somme des carrs pour le modle nul dans lequel on utilise les valeurs moyennes des variables dpendantes en tant que valeurs de prdiction pour chaque observation. Dans cet exemple, il se trouve que lerreur globale moyenne est proche de la moyenne des erreurs relatives, mais cela ne sera pas toujours le cas.

68 Chapitre 4

Lerreur relative globale moyenne et les erreurs relatives sont assez constantes lors de la formation, des tests et des chantillons traits, ce qui garantit que le modle nest pas surentran et qu lavenir, lerreur indique par le rseau sera proche de lerreur mentionne dans ce tableau. Lalgorithme destimation sest arrt, car lerreur na pas diminu aprs un pas dans lalgorithme.

Diagrammes estims/observs
Figure 4-35 Diagramme estim/observ pour la dure de sjour

Pour les variables dchelle dpendantes, le diagramme estim/observ afche un diagramme de dispersion de valeurs de prdiction sur laxe yet des valeurs observes sur laxe x, pour les chantillons de formation et de test. Dans lidal, les valeurs devraient se trouver plus ou moins le long dune ligne de 45 degrs, qui part du point dorigine. Les points situs sur ce graphique forment des lignes verticales sur lesquelles on trouve le nombre de jours correspondant la variable Dure du sjour. En regardant le graphique, on remarque que la prvision effectue par le rseau concernant la dure du sjour est plutt efcace. La tendance gnrale du graphique se situe en dehors de la ligne idale de 45 degrs dans la mesure o les prdictions pour les dures de sjour observes infrieures 5 jours ont tendance surestimer la dure de sjour, alors que les prdictions pour les dures de sjour observes suprieures 6 jours ont tendance sous-estimer cette dure.

69 Perceptron multi-couches

La catgorie de patients dans la partie situe en bas gauche du graphique est susceptible de reprsenter les patients qui nont pas subi dintervention chirurgicale. On trouve aussi une catgorie de patients dans la partie situe en haut gauche du graphique, pour lesquels la dure de sjour observe est de 1 3 jours et les valeurs de prdiction sont bien suprieures. Il est probable que ces observations reprsentent des patients dcds dans lhpital, aprs une intervention chirurgicale.
Figure 4-36 Diagramme estim/observ pour les cots de traitement

Le rseau semble aussi tre raisonnablement efcace pour prdire les cots de traitement. Trois catgories de patients semblent se distinguer : Dans la partie situe en en bas gauche gurent les patients qui nont pas subi dintervention chirurgicale. Leurs cots sont relativement faibles et diffrencis par le type danticoagulants [anti-coagulation] administrs au service des urgences. Le cot des traitements administrs la catgorie de patients suivante est denviron 30 000 dollars. Il sagit de patients qui ont subi une angiosplastie coronaire transluminale percutane (ACTP). Le cot des traitements administrs la dernire catgorie de patients dpasse les 40 000 dollars. Il sagit de patients qui ont subi un pontage aortocoronarien (PAC). Cette opration chirurgicale est un peu plus chre que lACTP et la priode de rtablissement chez les patients est plus longue (ce qui augmente encore un peu plus les cots). Il existe aussi un nombre de cas entranant des surcots de 50 000 dollars qui ne sont pas bien prvus par le rseau. Il sagit de patients qui ont connu des complications lors de lopration chirurgicale, ce qui peut augmenter les cots et la dure de sjour.

70 Chapitre 4

Diagrammes rsiduels/estims
Figure 4-37 Diagramme rsiduel/estim pour la dure de sjour

Le diagramme rsiduel/estim afche un diagramme de dispersion des rsidus (valeur observe moins valeur de prdiction) sur laxe y et la valeur de prdiction sur laxe x. Chaque ligne diagonale du graphique correspond une ligne verticale du diagramme estim/observ et vous pouvez davantage vous rendre compte de la progression de la surprdiction la sous-prdiction de la dure de sjour au fur et mesure que la dure de sjour observe augmente.

71 Perceptron multi-couches Figure 4-38 Diagramme rsiduel/estim pour les cots de traitement

En outre, pour chacune des trois catgories de patients observs dans le diagramme estim/observ pour la variable Cots de traitement, le diagramme estim/observ montre une progression partant dune surprdiction une sous-prdiction des cots au fur et mesure que les cots augmentent. Les patients qui subissent des complications lors du PAC sont encore trs visibles, mais il est encore plus facile de visualiser les patients qui ont subi des complications lors de lACTP ; ils apparaissent sous la forme dun sous-groupe lgrement en haut droite du groupe principal des patients qui ont subi une ACTP aux alentours de la marque des 30 000 dollars sur laxe x.

72 Chapitre 4

Importance des variables indpendantes


Figure 4-39 Diagramme de limportance de la variable indpendante

Le diagramme dimportance montre que les rsultats sont dtermins par la procdure chirurgicale employe, suivie de lapparition (ou non) de complications, puis par dautres variables indpendantes. Limportance de la procdure chirurgicale est clairement visible dans les graphiques pour les cots de traitement, un peu moins pour la dure de sjour, bien que leffet des complications sur la dure de sjour soit visible chez les patients prsentant les plus longues dures de sjour observes.

Rcapitulatif
Le rseau semble bien fonctionner lorsquil prvoit des valeurs pour des patients typiques , mais ne prend pas en compte les patients dcds aprs lopration chirurgicale. Il serait possible de traiter cela en crant plusieurs rseaux. Un rseau pourrait prvoir le rsultat du patient, peut-tre juste pour avancer si le patient va survivre ou non. Ensuite, des rseaux spars pourraient prvoir les cots de traitement et la dure de sjour condition que le patient survive. Vous pourrez ensuite combiner les rsultats des rseaux et obtenir de meilleures prdictions. Vous pourrez aborder de la mme manire le problme de la sous-prdiction des cots et des dures de sjour pour les patients qui ont subi des complications lors dune opration chirurgicale.

73 Perceptron multi-couches

Lectures recommandes
Pour plus dinformations sur les rseaux neuronaux et sur les perceptrons multistrates, reportez-vous aux textes suivants : Bishop, C. M. 1995. Neural Networks for Pattern Recognition, 3rd d. Oxford: Oxford University Press. Fine, T. L. 1999. Feedforward Neural Network Methodology, 3rd d. New York: Springer-Verlag. Haykin, S. 1998. Neural Networks: A Comprehensive Foundation, 2nd d. New York: Macmillan College Publishing. Ripley, B. D. 1996. Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press.

Chapitre

Fonction de base radiale

La procdure de fonction base radiale (RBF) produit un modle de prvision pour une ou plusieurs variables dpendantes (cibles) en fonction des valeurs des variables indpendantes.

Utilisation de la procdure Fonction base radiale pour classer les clients dun service de tlcommunications
Un fournisseur de services de tlcommunication a segment sa base de clients par type dutilisation des services en catgorisant les clients en quatre groupes. Si les donnes dmographiques peuvent tre utilises pour prvoir les groupes daffectation, vous pouvez personnaliser les offres pour chaque client ventuel. Supposez que des informations sur les clients actuels sont contenues dans le chier telco.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A sur p. 87. Utilisez la procdure Fonction base radiale pour classer les clients.

Prparation des donnes pour lanalyse


Dnir le gnrateur alatoire vous permet de reproduire lanalyse exactement.
E Pour dnir le gnrateur alatoire, partir des menus, slectionnez : Transformer > Gnrateurs de nombres alatoires

Copyright SPSS Inc. 1989, 2010

74

75 Fonction de base radiale Figure 5-1 Bote de dialogue Gnrateurs de nombres alatoires

E Slectionnez Dfinir un point de dpart. E Slectionnez Valeur fixe et tapez la valeur 9 191 972. E Cliquez sur OK.

Excution de lanalyse
E Pour excuter une analyse Fonction base radiale, partir des menus, slectionnez : Analyse > Rseaux neuronaux : > Fonction base radiale...

76 Chapitre 5 Figure 5-2 Fonction base radiale : longlet Variables

E Slectionnez Catgorie de client [catclient] comme variable dpendante. E Slectionnez Marital status [marital], Level of education [ed], Retired [retire] et Gender comme

facteurs.
E Slectionnez Age in years [age] et Number of people in household [reside] comme covariables. E Slectionnez Adjusted Normalized comme mthode pour redimensionner les covariables. E Cliquez sur longlet Partitions.

77 Fonction de base radiale Figure 5-3 Fonction base radiale : Onglet Partitions

En indiquant le nombre dobservations relatif, il est facile de crer des partitions fractionnelles pour lesquelles il serait difcile dindiquer des pourcentages. Supposons que vous voulez attribuer les 2/3 de lensemble de donnes lchantillon de formation, et les 2/3 des observations restantes aux tests.
E Tapez 6 comme nombre relatif pour lchantillon dapprentissage. E Tapez 2 comme nombre relatif pour lchantillon de test. E Tapez 1 comme nombre relatif pour lchantillon trait.

Un total de 9 observations relatives a t indiqu. 6/9 = 2/3, ou environ 66,67 %, sont attribus lchantillon dapprentissage ; 2/9, ou environ 22,22 %, sont attribus lchantillon de test ; 1/9, ou environ 11,11 % sont attribus lchantillon trait.
E Cliquez sur longlet Rsultats.

78 Chapitre 5 Figure 5-4 Fonction base radiale : Onglet Rsultats

E Dslectionnez loption Diagramme dans le groupe Structure de rseau. E Slectionnez les options Courbe ROC, Diagramme de gains cumuls, Diagramme de Levier et Diagramme estim/observ dans le groupe Performances rseau. E Cliquez sur longlet Enregistrer.

79 Fonction de base radiale Figure 5-5 Fonction base radiale : Onglet Enregistrer

E Slectionnez Save predicted value or category for each dependent variable et Save predicted pseudo-probability for each dependent variable. E Cliquez sur OK.

Rcapitulatif de traitement des observations


Figure 5-6 Rcapitulatif du traitement des observations

Le rcapitulatif du traitement des observations montre que 665 observations ont reu lchantillon de formation, 224 lchantillon test et 111 lchantillon trait. Ces observations sont exclues de lanalyse.

80 Chapitre 5

Informations rseau
Figure 5-7 Informations sur le rseau

Le tableau dinformations sur le rseau afche des informations sur le rseau neuronal et permet de vrier que les spcications sont correctes. En loccurrence, notez les points suivants : Le nombre dunits dans la strate dentre correspond au nombre de covariables plus le nombre total de niveaux de facteur ; une unit spcique est cre pour chaque modalit de Marital status, Level of education, Retired et Gender et aucune des modalits nest considre comme une unit redondante , comme cela est courant dans de nombreuses procdures de modlisation. De mme, une unit de rsultat spcique est cre pour chaque modalit de client, pour un total de 4 units dans la strate de rsultat. Les covariables sont rchelonnes grce la mthode normalise ajuste. La slection automatique de larchitecture a choisi 9 units dans la strate masque. Toutes les autres informations sur le rseau correspondent aux valeurs par dfaut pour la procdure.

Rcapitulatif des modles


Figure 5-8 Rcapitulatif du modle

81 Fonction de base radiale

Le rcapitulatif du modle afche des informations sur les rsultats de lapprentissage du rseau nal, des tests et de son application lchantillon trait. Lerreur de la somme des carrs apparat car elle est toujours utilise pour les rseaux RBF. Il sagit de la fonction derreur que le rseau essaie de rduire pendant lapprentissage et les tests. Le pourcentage de prvisions incorrectes provient du tableau de classement et sera abord plus loin dans cette section.

Classification
Figure 5-9 Classification

Le tableau de classement afche les rsultats pratiques de lutilisation du rseau. Pour chaque observation, la rponse prvue est la modalit dote de la pseudo-probabilit prvue la plus leve du modle. Les cellules de la diagonale sont des prvisions correctes. Les cellules hors de la diagonale sont des prvisions incorrectes. Etant donn les donnes observes, le modle nul (qui est un modle sans variable indpendante) classerait tous les clients dans le groupe modal Service plus. Ainsi, le modle nul serait correct pour 281/1000 = 28,1 % des observations. Le rseau RBF obtient 10,1 % de plus, ou 38,2 % des clients. Votre modle excelle particulirement dans lidentication des clients Plus service et Total service. Cependant, il nest pas trs adapt au classement des clients E-service. Vous devez peut-tre trouver une autre variable indpendante an de distinguer ces clients ; ou bien, tant donn que ces clients sont la plupart du temps classs tort comme clients Plus service et Total service, la socit pourrait simplement essayer de surclasser les clients potentiels qui appartiennent normalement la modalit E-service. Les classements bass sur les observations utilises pour crer le modle tendent tre trop optimistes dans le sens o leur taux de classication est augment. Lchantillon trait permet de valider le modle ; en loccurrence, le modle a correctement class 40,2 % de ces

82 Chapitre 5

observations. Bien que lchantillon trait soit plutt rduit, il suggre que votre modle est en fait correct environ deux fois sur cinq.

Diagramme estim/observ
Figure 5-10 Diagramme estim/observ

Dans le cas des variables dpendantes qualitatives, le diagramme estim/observ afche des botes moustaches juxtaposes de pseudo-probabilits prvues pour les chantillons dapprentissage et de test combins. Laxe des X correspond aux modalits de rponses observes, et la lgende aux modalits estimes. Ainsi : La bote moustaches le plus gauche montre, pour les observations ayant comme modalit observe Basic service, la pseudo-probabilit prvue de la modalit Basic service. La bote moustaches suivante vers la droite montre, pour les observations ayant comme modalit observe Basic service, la pseudo-probabilit prvue de la modalit E-service. La troisime bote moustaches montre, pour les observations ayant comme modalit observe Basic service, la pseudo-probabilit prvue de la modalit Plus service. Daprs le tableau de classement, presque autant de clients Service de base taient classs de manire errone comme clients Service Plus que correctement classs comme clients Service de base ; par consquent, cette bote moustaches est presque quivalente celle le plus gauche. La quatrime bote moustaches montre, pour les observations ayant comme modalit observe Basic service, la pseudo-probabilit prvue de la modalit Total service.

83 Fonction de base radiale

Puisquil existe plus de deux modalits dans la variable cible, les quatre premires botes moustaches ne sont pas symtriques par rapport la ligne horizontale au niveau de 0,5, ni dune quelconque autre faon. Par consquent, linterprtation de ce diagramme pour des cibles comportant plus de deux modalits peut savrer difcile car il est impossible de dterminer, partir de lobservation dune partie des observations dans une bote moustaches, lemplacement correspondant de ces observations dans une autre bote moustaches.

Courbe ROC
Figure 5-11 Courbe ROC

La courbe ROC prsente un afchage visuel de sensibilit par spcicit pour toutes les csures de classement possibles. Le diagramme prsent ci-aprs prsente quatre courbes, une pour chaque modalit de la variable cible. Ce diagramme repose sur la combinaison de lchantillon dapprentissage et de lchantillon de test. Pour obtenir un diagramme ROC pour lchantillon trait, scindez le chier au niveau de la variable de partitionnement, puis excutez la procdure Courbe ROC sur les pseudo-probabilits prvues.

84 Chapitre 5 Figure 5-12 Zone infrieure la courbe

La zone infrieure la courbe est un rcapitulatif numrique de la courbe ROC, tandis que les valeurs du tableau reprsentent, pour chaque modalit, la probabilit que la prsence de la pseudo-probabilit prvue dans cette modalit soit suprieure pour une observation choisie alatoirement appartenant cette modalit que pour une observation choisie alatoirement nappartenant pas cette modalit. Par exemple, pour un client slectionn alatoirement dans Service Plus et un client slectionn alatoirement dans Service de base, Service en ligne ou Service Total, il existe une probabilit de 0,668 que la pseudo-probabilit de manquement prvue par le modle soit plus leve pour le client dans Service Plus.

Diagrammes de gains cumuls et de Levier


Figure 5-13 Diagramme de gains cumuls

Le diagramme de gains cumuls montre le pourcentage du nombre total dobservations dans une modalit donne obtenu en ciblant un pourcentage du nombre total dobservations. Par exemple, le premier point de la courbe pour la modalit Service Total se situe approximativement (10 %, 20 %), ce qui signie que si vous valuez un ensemble de donnes avec le rseau et que vous triez toutes les observations en fonction de la pseudo-probabilit prvue de la modalit Service Total, vous pouvez vous attendre ce que la tranche suprieure de 10 % contienne approximativement

85 Fonction de base radiale

20 % de la totalit des observations qui ont vritablement la modalit Service Total. De mme, la tranche suprieure de 20 % contiendrait approximativement 30 % des personnes manquant leurs engagements, la tranche suprieure de 30 % des observations comporterait 50 % des personnes manquant leurs engagements, et ainsi de suite. Si vous slectionnez 100 % de lensemble de donnes valu, vous obtenez la totalit des personnes manquant leurs engagements dans lensemble de donnes. La diagonale correspond la courbe de rfrence ; si vous slectionnez alatoirement 10 % des observations dans lensemble de donnes valu, vous pouvez esprer obtenir approximativement 10 % de la totalit des observations qui ont vritablement une modalit donne. Plus une courbe se situe au-dessus de la ligne de base, plus le gain est lev.
Figure 5-14 Diagramme de Levier

Le diagramme de Levier est issu du diagramme de gains cumuls ; les valeurs de laxe des Y correspondent au ratio du gain cumul pour chaque courbe par rapport la ligne de base. Par consquent, le levier 10 % pour la modalit Total service est 20 %/10 % = 2,0. Il permet dobserver diffremment les informations du diagramme de gains cumuls. Remarque : Le diagramme de gains cumuls et le diagramme de Levier reposent sur la combinaison de lchantillon dapprentissage et de lchantillon de test.

86 Chapitre 5

Lectures recommandes
Pour plus dinformations sur la fonction base radiale, reportez-vous aux textes suivants : Bishop, C. M. 1995. Neural Networks for Pattern Recognition, 3rd d. Oxford: Oxford University Press. Fine, T. L. 1999. Feedforward Neural Network Methodology, 3rd d. New York: Springer-Verlag. Haykin, S. 1998. Neural Networks: A Comprehensive Foundation, 2nd d. New York: Macmillan College Publishing. Ripley, B. D. 1996. Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. Tao, K. K. 1993. A closer look at the radial basis function (RBF) networks. Dans : Conference Record of the Twenty-Seventh Asilomar Conference on Signals, Systems, and Computers, A. Singh, d. Los Alamitos, CA: IEEE Comput. Soc. Press. Uykan, Z., C. Guzelis, M. E. Celebi, et H. N. Koivo. 2000. Analysis of input-output clustering for determining centers of RBFN. IEEE Transactions on Neural Networks, 11, .

Annexe

Fichiers dexemple

Les chiers dexemple installs avec le produit gurent dans le sous-rpertoire Echantillons du rpertoire dinstallation. Il existe un dossier distinct au sein du sous-rpertoire Echantillons pour chacune des langues suivantes : Anglais, Franais, Allemand, Italien, Japonais, Coren, Polonais, Russe, Chinois simpli, Espangol et Chinois traditionnel. Seuls quelques chiers dexemples sont disponibles dans toutes les langues. Si un chier dexemple nest pas disponible dans une langue, le dossier de langue contient la version anglaise du chier dexemple.
Descriptions

Voici de brves descriptions des chiers dexemple utiliss dans divers exemples travers la documentation.
accidents.sav.Ce chier de donnes dhypothse concerne une socit dassurance qui tudie

les facteurs de risque lis lge et au sexe dans les accidents de la route survenant dans une rgion donne. Chaque observation correspond une classication croise de la catgorie dge et du sexe.
adl.sav. Ce chier de donnes dhypothse concerne les mesures entreprises pour identier les

avantages dun type de thrapie propos aux patients qui ont subi une attaque cardiaque. Les mdecins ont assign de manire alatoire les patients du sexe fminin ayant subi une attaque cardiaque un groupe parmi deux groupes possibles. Le premier groupe a fait lobjet de la thrapie standard tandis que le second a bnci en plus dune thrapie motionnelle. Trois mois aprs les traitements, les capacits de chaque patient effectuer les tches ordinaires de la vie quotidienne ont t notes en tant que variables ordinales.
advert.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

dtaillant pour examiner la relation existant entre largent dpens dans la publicit et les ventes rsultantes. Pour ce faire, il collecte les chiffres des ventes passes et les cots associs la publicit.
aflatoxin.sav. Ce chier de donnes dhypothse concerne le test de laatoxine dans des

rcoltes de mas. La concentration de ce poison varie largement dune rcolte lautre et au sein de chaque rcolte. Un processeur de grain a reu 16 chantillons issus de 8 rcoltes de mas et a mesur les niveaux dalfatoxine en parties par milliard (PPB).
aflatoxin20.sav. Ce chier de donnes contient les mesures daatoxine de chacun des

16 chantillons des rcoltes 4 et 8 du chier de donnes aatoxin.sav.


anorectic.sav. En cherchant dvelopper une symptomatologie standardise du comportement

anorexique/boulimique, des chercheurs(Van der Ham, Meulman, Van Strien, et Van Engeland, 1997) ont examin 55 adolescents souffrant de troubles alimentaires. Chaque patient a t
Copyright SPSS Inc. 1989, 2010 87

88 Annexe A

observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des 16 symptmes. En raison de labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217.
autoaccidents.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

un analyste en assurances pour modliser le nombre daccidents de la route par conducteur tout en prenant en compte lge et le sexe du conducteur. Chaque observation reprsente un conducteur distinct et enregistre son sexe, son ge et le nombre daccidents de la route au cours des cinq dernires annes.
band.sav. Ce chier de donnes contient les chiffres de ventes hebdomadaires hypothtiques

de CD musicaux dun groupe. Les donnes relatives trois variables explicatives possibles sont galement incluses.
bankloan.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une

banque pour rduire le taux de dfaut de paiement. Il contient des informations nancires et dmographiques sur 850 clients existants et ventuels. Les premires 700 observations concernent des clients auxquels des prts ont t octroys. Les 150 dernires observations correspondant aux clients ventuels que la banque doit classer comme bons ou mauvais risques de crdit.
bankloan_binning.sav. Ce chier de donnes dhypothse concerne des informations

nancires et dmographiques sur 5 000 clients existants.


behavior.sav. Dans un exemple classique (Price et Bouffard, 1974), on a demand

52 tudiants de noter les combinaisons tablies partir de 15 situations et de 15 comportements sur une chelle de 0 9, o 0 = extrmement appropri et 9 = extrmement inappropri . En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine diffrence entre les valeurs.
behavior_ini.sav. Ce chier de donnes contient la conguration initiale dune solution

bidimensionnelle pour behavior.sav.


brakes.sav. Ce chier de donnes dhypothse concerne le contrle qualit effectu dans

une usine qui fabrique des freins disque pour des voitures haut de gamme. Le chier de donnes contient les mesures de diamtre de 16 disques de 8 machines de production. Le diamtre cible des freins est de 322 millimtres.
breakfast.sav. Au cours dune tude classique (Green et Rao, 1972), on a demand

21 tudiants en MBA (Master of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins apprci . Leurs prfrences ont t enregistres dans six scnarios diffrents, allant de Prfrence gnrale En-cas avec boisson uniquement .
breakfast-overall.sav. Ce chier de donnes contient les prfrences de petit-djeuner du

premier scnario uniquement, Prfrence gnrale .


broadband_1.sav. Ce chier de donnes dhypothse concerne le nombre dabonns, par

rgion, un service haut dbit. Le chier de donnes contient le nombre dabonns mensuels de 85 rgions sur une priode de quatre ans.
broadband_2.sav. Ce chier de donnes est identique au chier broadband_1.sav mais contient

les donnes relatives trois mois supplmentaires.

89 Fichiers dexemple

car_insurance_claims.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs

(McCullagh et Nelder, 1989) qui concerne des actions en indemnisation pour des voitures. Le montant daction en indemnisation moyen peut tre model comme prsentant une distribution gamma, laide dune fonction de lien inverse pour associer la moyenne de la variable dpendante une combinaison linaire de lge de lassur, du type de vhicule et de lge du vhicule. Le nombre dactions entreprises peut tre utilis comme pondration de positionnement.
car_sales.sav. Ce chier de donnes contient des estimations de ventes hypothtiques, des

barmes de prix et des spcications physiques concernant divers modles et marques de vhicule. Les barmes de prix et les spcications physiques proviennent tour tour de edmunds.com et des sites des constructeurs.
car_sales_uprepared.sav. Il sagit dune version modie de car_sales.sav qui ninclut aucune

version transforme des champs.


carpet.sav. Dans un exemple courant (Green et Wind, 1973), une socit intresse par la

commercialisation dun nouveau nettoyeur de tapis souhaite examiner linuence de cinq critres sur la prfrence du consommateur : la conception du conditionnement, la marque, le prix, une tiquette Economique et une garantie satisfait ou rembours. Il existe trois niveaux de critre pour la conception du conditionnement, suivant lemplacement de lapplicateur, trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour chacun des deux derniers critres. Dix consommateurs classent 22 prols dnis par ces critres. La variable Prfrence indique le classement des rangs moyens de chaque prol. Un rang faible correspond une prfrence leve. Cette variable rete une mesure globale de prfrence pour chaque prol.
carpet_prefs.sav. Ce chier de donnes repose sur le mme exemple que celui dcrit pour

carpet.sav, mais contient les classements rels issus de chacun des 10 clients. On a demand aux consommateurs de classer les 22 prols de produits, du prfr au moins intressant. Les variables PREF1 PREF22 contiennent les identicateurs des prols associs, tels quils sont dnis dans carpet_plan.sav.
catalog.sav. Ce chier de donnes contient des chiffres de ventes mensuelles hypothtiques

relatifs trois produits vendus par une entreprise de vente par correspondance. Les donnes relatives cinq variables explicatives possibles sont galement incluses.
catalog_seasfac.sav. Ce chier de donnes est identique catalog.sav mais contient en plus

un ensemble de facteurs saisonniers calculs partir de la procdure de dsaisonnalisation, ainsi que les variables de date correspondantes.
cellular.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

oprateur tlphonique pour rduire les taux de dsabonnement. Des scores de propension au dsabonnement sont attribus aux comptes, de 0 100. Les comptes ayant une note gale ou suprieure 50 sont susceptibles de changer de fournisseur.
ceramics.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

fabricant pour dterminer si un nouvel alliage haute qualit rsiste mieux la chaleur quun alliage standard. Chaque observation reprsente un test spar de lun des deux alliages ; le degr de chaleur auquel lalliage ne rsiste pas est enregistr.

90 Annexe A

cereal.sav. Ce chier de donnes dhypothse concerne un sondage de 880 personnes

interroges sur leurs prfrences de petit-djeuner et sur leur ge, leur sexe, leur situation familiale et leur mode de vie (actif ou non actif, selon quelles pratiquent une activit physique au moins deux fois par semaine). Chaque observation correspond un rpondant distinct.
clothing_defects.sav. Ce chier de donnes dhypothse concerne le processus de contrle

qualit observ dans une usine de textile. Dans chaque lot produit lusine, les inspecteurs prlvent un chantillon de vtements et comptent le nombre de vtements qui ne sont pas acceptables.
coffee.sav. Ce chier de donnes concerne limage perue de six marques de caf frapp

(Kennedy, Riquier, et Sharp, 1996). Pour chacun des 23 attributs dimage de caf frapp, les personnes sollicites ont slectionn toutes les marques dcrites par lattribut. Les six marques sont appeles AA, BB, CC, DD, EE et FF des ns de condentialit.
contacts.sav. Ce chier de donnes dhypothse concerne les listes de contacts dun groupe

de reprsentants en informatique dentreprise. Chaque contact est class selon le service de lentreprise o il travaille et le classement de son entreprise. Sont galement enregistrs le montant de la dernire vente effectue, le temps pass depuis la dernire vente et la taille de lentreprise du contact.
creditpromo.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

grand magasin pour valuer lefcacit dune promotion rcente de carte de crdit. A cette n, 500 dtenteurs de carte ont t slectionns au hasard. La moiti a reu une publicit faisant la promotion dun taux dintrt rduit sur les achats effectus dans les trois mois venir. Lautre moiti a reu une publicit saisonnire standard.
customer_dbase.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

une socit pour utiliser les informations gurant dans sa banque de donnes et proposer des offres spciales aux clients susceptibles dtre intresss. Un sous-groupe de la base de clients a t slectionn au hasard et a reu des offres spciales. Les rponses des clients ont t enregistres.
customer_information.sav. Un chier de donnes dhypothse qui contient les informations

postales du client, telles que le nom et ladresse.


customer_subset.sav. Un sous-ensemble de 80 observations de customer_dbase.sav. customers_model.sav. Ce chier de donnes dhypothse concerne les personnes cibles par

une campagne de marketing. Ces donnes incluent des informations dmographiques, un rcapitulatif de lhistorique dachat et indiquent si chaque personne a rpondu ou non la campagne. Chaque observation reprsente une personne distincte.
customers_new.sav. Ce chier de donnes dhypothse concerne les personnes constituant des

cibles potentielles pour une campagne de marketing. Ces donnes incluent des informations dmographiques et un rcapitulatif de lhistorique dachat pour chaque personne. Chaque observation reprsente une personne distincte.
debate.sav. Ce chier de donnes dhypothse concerne des rponses apparies une enqute

donne aux participants un dbat politique avant et aprs le dbat. Chaque observation reprsente un rpondant distinct.
debate_aggregate.sav. Il sagit dun chier de donnes dhypothse qui rassemble les rponses

dans le chier debate.sav. Chaque observation correspond une classication croise de prfrence avant et aprs le dbat.

91 Fichiers dexemple

demo.sav. Ce chier de donnes dhypothse concerne une base de donnes clients achete en

vue de diffuser des offres mensuelles. Les donnes indiquent si le client a rpondu ou non loffre et contiennent diverses informations dmographiques.
demo_cs_1.sav. Ce chier de donnes dhypothse concerne la premire mesure entreprise

par une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond une ville diffrente. La rgion, la province, le quartier et la ville sont enregistrs.
demo_cs_2.sav. Ce chier de donnes dhypothse concerne la seconde mesure entreprise par

une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond un mnage diffrent issu des villes slectionnes la premire tape. La rgion, la province, le quartier, la ville, la sous-division et lidentication sont enregistrs. Les informations dchantillonnage des deux premires tapes de la conception sont galement incluses.
demo_cs.sav. Ce chier de donnes dhypothse concerne des informations denqute

collectes via une mthode complexe dchantillonnage. Chaque observation correspond un mnage diffrent et diverses informations gographiques et dchantillonnage sont enregistres.
dmdata.sav. Ceci est un chier de donnes dhypothse qui contient des informations

dmographiques et des informations concernant les achats pour une entreprise de marketing direct. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reu un envoi dessai, et dmdata3.sav contient des informations sur les contacts restants qui nont pas reu lenvoi dessai.
dietstudy.sav. Ce chier de donnes dhypothse contient les rsultats dune tude portant sur

le rgime de Stillman(Rickman, Mitchell, Dingman, et Dalen, 1974). Chaque observation correspond un sujet distinct et enregistre son poids en livres avant et aprs le rgime, ainsi que ses niveaux de triglycrides en mg/100 ml.
dvdplayer.sav. Ce chier de donnes dhypothse concerne le dveloppement dun nouveau

lecteur DVD. A laide dun prototype, lquipe de marketing a collect des donnes de groupes spciques. Chaque observation correspond un utilisateur interrog et enregistre des informations dmographiques sur cet utilisateur, ainsi que ses rponses aux questions portant sur le prototype.
german_credit.sav. Ce chier de donnes provient de lensemble de donnes German

credit gurant dans le rfrentiel Machine Learning Databases (Blake et Merz, 1998) de luniversit de Californie, Irvine.
grocery_1month.sav. Ce chier de donnes dhypothse est le chier de donnes

grocery_coupons.sav dans lequel les achats hebdomadaires sont organiss par client distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montant dpens enregistr est prsent la somme des montants dpenss au cours des quatre semaines de lenqute.
grocery_coupons.sav. Il sagit dun chier de donnes dhypothse qui contient des donnes

denqute collectes par une chane de magasins dalimentation qui chercher dterminer les habitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaines et chaque observation correspond une semaine distincte. Les informations enregistres concernent les endroits o le client effectue ses achats, la manire dont il les effectue, ainsi que les sommes dpenses en provisions au cours de cette semaine.

92 Annexe A

guttman.sav. Bell (Bell, 1961) a prsent un tableau pour illustrer les groupes sociaux

possibles. Guttman (Guttman, 1968) a utilis une partie de ce tableau, dans lequel cinq variables dcrivant des lments tels que linteraction sociale, le sentiment dappartenance un groupe, la proximit physique des membres et la formalit de la relation, ont t croises avec sept groupes sociaux thoriques, dont les foules (par exemple, le public dun match de football), laudience (par exemple, au cinma ou dans une salle de classe), le public (par exemple, les journaux ou la tlvision), les bandes (proche dune foule, mais qui serait caractrise par une interaction beaucoup plus intense), les groupes primaires (intimes), les groupes secondaires (volontaires) et la communaut moderne (groupement lche issu dune forte proximit physique et dun besoin de services spcialiss).
health_funding.sav. Ce chier de donnes dhypothse concerne des donnes sur le

nancement des soins de sant (montant par groupe de 100 individus), les taux de maladie (taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de sant (taux par groupe de 10 000 individus). Chaque observation reprsente une ville diffrente.
hivassay.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

laboratoire pharmaceutique pour dvelopper une analyse rapide de dtection dinfection HIV. Lanalyse a pour rsultat huit nuances de rouge, les nuances les plus marques indiquant une plus forte probabilit dinfection. Un test en laboratoire a t effectu sur 2 000 chantillons de sang, la moiti de ces chantillons tant infecte par le virus HIV et lautre moiti tant saine.
hourlywagedata.sav. Ce chier de donnes dhypothse concerne les salaires horaires

dinrmires occupant des postes administratifs et dans les services de soins, et afchant divers niveaux dexprience.
insurance_claims.sav. Il sagit dun chier de donnes hypothtiques qui concerne une

compagnie dassurance souhaitant dvelopper un modle pour signaler des rclamations suspectes, potentiellement frauduleuses. Chaque observation correspond une rclamation distincte.
insure.sav. Ce chier de donnes dhypothse concerne une compagnie dassurance qui tudie

les facteurs de risque indiquant si un client sera amen dclarer un incident au cours dun contrat dassurance vie dune dure de 10 ans. Chaque observation gurant dans le chier de donnes reprsente deux contrats, lun ayant enregistr une rclamation et lautre non, apparis par ge et sexe.
judges.sav. Ce chier de donnes dhypothse concerne les scores attribus par des juges

expriments (plus un juge enthousiaste) 300 performances de gymnastique. Chaque ligne reprsente une performance distincte ; les juges ont examin les mmes performances.
kinship_dat.sav. Rosenberg et Kim (Rosenberg et Kim, 1975) se sont lancs dans lanalyse

de 15 termes de parent (cousin/cousine, lle, ls, frre, grand-mre, grand-pre, mre, neveu, nice, oncle, pre, petite-lle, petit-ls, sur, tante). Ils ont demand quatre groupes dtudiants (deux groupes de femmes et deux groupes dhommes) de trier ces termes en fonction des similarits. Deux groupes (un groupe de femmes et un groupe dhommes) ont t invits effectuer deux tris, en basant le second sur un autre critre que le premier. Ainsi, un total de six sources a t obtenu. Chaque source correspond une matrice de proximit , dont le nombre de cellules est gal au nombre de personnes dans une source moins le nombre de fois o les objets ont t partitionns dans cette source.
kinship_ini.sav. Ce chier de donnes contient une conguration initiale dune solution

tridimensionnelle pour kinship_dat.sav.

93 Fichiers dexemple

kinship_var.sav. Ce chier de donnes contient les variables indpendantes sexe, gnr(ation)

et degr (de sparation) permettant dinterprter les dimensions dune solution pour kinship_dat.sav. Elles permettent en particulier de rduire lespace de la solution une combinaison linaire de ces variables.
marketvalues.sav. Ce chier de donnes concerne les ventes de maisons dans un nouvel

ensemble Algonquin (Illinois) au cours des annes 19992000. Ces ventes relvent des archives publiques.
nhis2000_subset.sav.Le NHIS (National Health Interview Survey) est une enqute de

grande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avec un chantillon de mnages reprsentatifs de la population amricaine. Des informations dmographiques et des observations sur ltat de sant et le comportement sanitaire sont recueillies auprs des membres de chaque mnage. Ce chier de donnes contient un sous-groupe dinformations issues de lenqute de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Fichier de donnes et documentation dusage public. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accs en 2003.
ozone.sav. Les donnes incluent 330 observations portant sur six variables mtorologiques

pour prvoir la concentration dozone partir des variables restantes. Des chercheurs prcdents (Breiman et Friedman, 1985), (Hastie et Tibshirani, 1990), ont dcel parmi ces variables des non-linarits qui pnalisent les approches standard de la rgression.
pain_medication.sav. Ce chier de donnes dhypothse contient les rsultats dun essai

clinique dun remde anti-inammatoire traitant les douleurs de larthrite chronique. On cherche notamment dterminer le temps ncessaire au mdicament pour agir et les rsultats quil permet dobtenir par rapport un mdicament existant.
patient_los.sav. Ce chier de donnes dhypothse contient les dossiers mdicaux de patients

admis lhpital pour suspicion dinfarctus du myocarde suspect (ou attaque cardiaque ). Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.
patlos_sample.sav. Ce chier de donnes dhypothse contient les dossiers mdicaux dun

chantillon de patients sous traitement thrombolytique aprs un infarctus du myocarde. Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.
polishing.sav. Il sagit du chier de donnes du Nambeware Polishing Times de la Data

and Story Library. Il concerne les mesures quentreprend un fabricant de vaisselle en mtal (Nambe Mills, Santa Fe, Nouveau-Mexique) pour planier sa production. Chaque observation reprsente un article diffrent de la gamme de produits. Le diamtre, le temps de polissage, le prix et le type de produit sont enregistrs pour chaque article.
poll_cs.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

enquteur pour dterminer le niveau de soutien du public pour un projet de loi avant lgislature. Les observations correspondent des lecteurs enregistrs. Chaque observation enregistre le comt, la ville et le quartier o habite llecteur.
poll_cs_sample.sav. Ce chier de donnes dhypothse contient un chantillon des lecteurs

rpertoris dans le chier poll_cs.sav. Lchantillon a t prlev selon le plan spci dans le chier de plan poll.csplan et ce chier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. Toutefois, ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS Probability-Proportional-to-Size), il existe

94 Annexe A

galement un chier contenant les probabilits de slection conjointes (poll_jointprob.sav). Les variables supplmentaires correspondant la rpartition dmographique des lecteurs et leur opinion sur le projet de loi propos ont t collectes et ajoutes au chier de donnes une fois lchantillon prlev.
property_assess.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

un contrleur au niveau du comt pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits vendues dans le comt au cours de lanne prcdente. Chaque observation du chier de donnes enregistre la ville o se trouve la proprit, lvaluateur ayant visit la proprit pour la dernire fois, le temps coul depuis cette valuation, lvaluation effectue ce moment-l et la valeur de vente de la proprit.
property_assess_cs.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

un contrleur du gouvernement pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits de ltat. Chaque observation du chier de donnes enregistre le comt, la ville et le quartier o se trouve la proprit, le temps coul depuis la dernire valuation et lvaluation alors effectue.
property_assess_cs_sample.sav. Ce chier de donnes dhypothse contient un chantillon

des proprits rpertories dans le chier property_assess_cs.sav. Lchantillon a t prlev selon le plan spci dans le chier de plan property_assess.csplan et ce chier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. La variable supplmentaire Valeur courante a t collecte et ajoute au chier de donnes une fois lchantillon prlev.
recidivism.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une

agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis, ainsi que le temps coul jusqu la seconde arrestation si elle sest produite dans les deux annes suivant la premire.
recidivism_cs_sample.sav. Ce chier de donnes dhypothse concerne les mesures

quentreprend une agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste libr suite la premire arrestation en juin 2003 et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis et les donnes relatives la seconde arrestation, si elle a eu lieu avant n juin 2006. Les rcidivistes ont t choisis dans plusieurs dpartements chantillonns conformment au plan dchantillonnage spci dans recidivism_cs.csplan. Ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS - Probability proportional to size), il existe galement un chier contenant les probabilits de slection conjointes (recidivism_cs_jointprob.sav).
rfm_transactions.sav.Un chier de donnes dhypothse qui contient les donnes de transaction

dachat, y compris la date dachat, le/les lment(s) achet(s) et le montant montaire pour chaque transaction.
salesperformance.sav. Ce chier de donnes dhypothse concerne lvaluation de deux

nouveaux cours de formation en vente. Soixante employs, diviss en trois groupes, reoivent chacun une formation standard. En outre, le groupe 2 suit une formation technique et le groupe 3 un didacticiel pratique. A lissue du cours de formation, chaque employ est test et

95 Fichiers dexemple

sa note enregistre. Chaque observation du chier de donnes reprsente un stagiaire distinct et enregistre le groupe auquel il a t assign et la note quil a obtenue au test.
satisf.sav. Il sagit dun chier de donnes dhypothse portant sur une enqute de satisfaction

effectue par une socit de vente au dtail au niveau de quatre magasins. Un total de 582 clients ont t interrogs et chaque observation reprsente la rponse dun seul client.
screws.sav.Ce chier de donnes contient des informations sur les descriptives des vis, des

boulons, des crous et des clous.(Hartigan, 1975).


shampoo_ph.sav. Ce chier de donnes dhypothse concerne le processus de contrle qualit

observ dans une usine de produits capillaires. A intervalles rguliers, six lots de sortie distincts sont mesurs et leur pH enregistr. La plage cible est 4,55,5.
ships.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs (McCullagh et

al., 1989) et concernant les dommages causs des cargos par les vagues. Les effectifs dincidents peuvent tre modliss comme des incidents se produisant selon un taux de Poisson en fonction du type de navire, de la priode de construction et de la priode de service. Les mois de service totaliss pour chaque cellule du tableau form par la classication croise des facteurs fournissent les valeurs dexposition au risque.
site.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une socit

pour choisir de nouveaux sites pour le dveloppement de ses activits. Lentreprise a fait appel deux consultants pour valuer sparment les sites. Ces consultants, en plus de fournir un rapport approfondi, ont class chaque site comme constituant une ventualit bonne , moyenne ou faible .
smokers.sav. Ce chier de donnes est extrait de ltude National Household Survey of

Drug Abuse de 1998 et constitue un chantillon de probabilit des mnages amricains. (http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la premire tape dans lanalyse de ce chier doit consister pondrer les donnes pour reter les tendances de population.
stroke_clean.sav. Ce chier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois celle-ci purge via des procdures de loption Validation de donnes.
stroke_invalid.sav. Ce chier de donnes dhypothse concerne ltat initial dune base de

donnes mdicales et comporte plusieurs erreurs de saisie de donnes.


stroke_survival. Ce chier de donnes dhypothse concerne les temps de survie de patients

qui quittent un programme de rducation la suite dun accident ischmique et rencontrent un certain nombre de problmes. Aprs lattaque, loccurrence dinfarctus du myocarde, daccidents ischmiques ou hmorragiques est signale, et le moment de lvnement enregistr. Lchantillon est tronqu gauche car il ninclut que les patients ayant survcu durant le programme de rducation mis en place suite une attaque.
stroke_valid.sav. Ce chier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois les valeurs vries via la procdure Validation de donnes. Elle contient encore des observations anormales potentielles.
survey_sample.sav. Ce chier de donnes concerne des informations denqute dont des

donnes dmographiques et des mesures comportementales. Il est bas sur un sous-ensemble de variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnes aient t modies et que des variables supplmentaires ctives aient t ajoutes titre de dmonstration.

96 Annexe A

telco.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une socit

de tlcommunications pour rduire les taux de dsabonnement de sa base de clients. Chaque observation correspond un client distinct et enregistre diverses informations dmographiques et dutilisation de service.
telco_extra.sav. Ce chier de donnes est semblable au chier de donnes telco.sav mais

les variables de permanence et de dpenses des consommateurs transformes log ont t supprimes et remplaces par des variables de dpenses des consommateurs transformes log standardises.
telco_missing.sav. Ce chier de donnes est un sous-ensemble du chier de donnes telco.sav

mais certaines des valeurs de donnes dmographiques ont t remplaces par des valeurs manquantes.
testmarket.sav. Ce chier de donnes dhypothse concerne une chane de fast foods et ses

plans marketing visant ajouter un nouveau plat son menu. Trois campagnes tant possibles pour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieurs marchs slectionns au hasard. Une promotion diffrente est effectue sur chaque site et les ventes hebdomadaires du nouveau plat sont enregistres pour les quatre premires semaines. Chaque observation correspond un site-semaine distinct.
testmarket_1month.sav. Ce chier de donnes dhypothse est le chier de donnes

testmarket.sav dans lequel les ventes hebdomadaires sont organises par site distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes enregistres sont prsent la somme des ventes ralises au cours des quatre semaines de lenqute.
tree_car.sav. Ce chier de donnes dhypothse concerne des donnes dmographiques et de

prix dachat de vhicule.


tree_credit.sav. Ce chier de donnes dhypothse concerne des donnes dmographiques

et dhistorique de prt bancaire.


tree_missing_data.sav Ce chier de donnes dhypothse concerne des donnes

dmographiques et dhistorique de prt bancaire avec un grand nombre de valeurs manquantes.


tree_score_car.sav. Ce chier de donnes dhypothse concerne des donnes dmographiques

et de prix dachat de vhicule.


tree_textdata.sav. Ce chier de donnes simples ne comporte que deux variables et vise

essentiellement indiquer ltat par dfaut des variables avant affectation du niveau de mesure et des tiquettes de valeurs.
tv-survey.sav. Ce chier de donnes dhypothse concerne une enqute mene par un studio

de tlvision qui envisage de prolonger la diffusion dun programme ou de larrter. On a demand 906 personnes si elles regarderaient le programme dans diverses situations. Chaque ligne reprsente un rpondant distinct et chaque colonne une situation distincte.
ulcer_recurrence.sav. Ce chier contient des informations partielles dune enqute visant

comparer lefcacit de deux thrapies de prvention de la rcurrence des ulcres. Il fournit un bon exemple de donnes censures par intervalle et a t prsent et analys ailleurs (Collett, 2003).

97 Fichiers dexemple

ulcer_recurrence_recoded.sav. Ce chier rorganise les informations gurant dans le chier

ulcer_recurrence.sav pour que vous puissiez modliser la probabilit dvnement pour chaque intervalle de lenqute plutt que la probabilit dvnement de n denqute. Il a t prsent et analys ailleurs (Collett et al., 2003).
verd1985.sav. Ce chier de donnes concerne une enqute (Verdegaal, 1985). Les rponses de

15 sujets 8 variables ont t enregistres. Les variables prsentant un intrt sont divises en trois ensembles. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les autres variables ont un codage nominal simple.
virus.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

fournisseur de services Internet pour dterminer les effets dun virus sur ses rseaux. Il a suivi le pourcentage (approximatif) de trac de messages lectroniques infects par un virus sur ses rseaux sur la dure, de la dcouverte la circonscription de la menace.
wheeze_steubenville.sav. Il sagit dun sous-ensemble dune enqute longitudinale des effets

de la pollution de lair sur la sant des enfants (Ware, Dockery, Spiro III, Speizer, et Ferris Jr., 1984). Les donnes contiennent des mesures binaires rptes de ltat asthmatique denfants de la ville de Steubenville (Ohio), gs de 7, 8, 9 et 10 ans, et indiquent si la mre fumait au cours de la premire anne de lenqute.
workprog.sav. Ce chier de donnes dhypothse concerne un programme de ladministration

visant proposer de meilleurs postes aux personnes dfavorises. Un chantillon de participants potentiels au programme a ensuite t prlev. Certains de ces participants ont t slectionns au hasard pour participer au programme. Chaque observation reprsente un participant au programme distinct.

Annexe

Notices

Licensed Materials Property of SPSS Inc., an IBM Company. Copyright SPSS Inc. 1989, 2010. Patent No. 7,023,453
The following paragraph does not apply to the United Kingdom or any other country where such provisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THIS

PUBLICATION AS IS WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Some states do not allow disclaimer of express or implied warranties in certain transactions, therefore, this statement may not apply to you. This information could include technical inaccuracies or typographical errors. Changes are periodically made to the information herein; these changes will be incorporated in new editions of the publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or the program(s) described in this publication at any time without notice. Any references in this information to non-SPSS and non-IBM Web sites are provided for convenience only and do not in any manner serve as an endorsement of those Web sites. The materials at those Web sites are not part of the materials for this SPSS Inc. product and use of those Web sites is at your own risk. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you. Information concerning non-SPSS products was obtained from the suppliers of those products, their published announcements or other publicly available sources. SPSS has not tested those products and cannot conrm the accuracy of performance, compatibility or any other claims related to non-SPSS products. Questions on the capabilities of non-SPSS products should be addressed to the suppliers of those products. This information contains examples of data and reports used in daily business operations. To illustrate them as completely as possible, the examples include the names of individuals, companies, brands, and products. All of these names are ctitious and any similarity to the names and addresses used by an actual business enterprise is entirely coincidental. COPYRIGHT LICENSE: This information contains sample application programs in source language, which illustrate programming techniques on various operating platforms. You may copy, modify, and distribute these sample programs in any form without payment to SPSS Inc., for the purposes of developing,
Copyright SPSS Inc. 1989, 2010 98

99 Notices

using, marketing or distributing application programs conforming to the application programming interface for the operating platform for which the sample programs are written. These examples have not been thoroughly tested under all conditions. SPSS Inc., therefore, cannot guarantee or imply reliability, serviceability, or function of these programs. The sample programs are provided AS IS, without warranty of any kind. SPSS Inc. shall not be liable for any damages arising out of your use of the sample programs.
Trademarks

IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in many jurisdictions worldwide. A current list of IBM trademarks is available on the Web at http://www.ibm.com/legal/copytrade.shmtl. SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide. Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft Corporation in the United States, other countries, or both. UNIX is a registered trademark of The Open Group in the United States and other countries. Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in the United States, other countries, or both. This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com. Other product and service names might be trademarks of IBM, SPSS, or other companies. Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated. Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.

Bibliographie

Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. New York: Harper & Row. Bishop, C. M. 1995. Neural Networks for Pattern Recognition, 3rd d. Oxford: Oxford University Press. Blake, C. L., et C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html. Breiman, L., et J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, . Collett, D. 2003. Modelling survival data in medical research, 2 d. Boca Raton: Chapman & Hall/CRC. Fine, T. L. 1999. Feedforward Neural Network Methodology, 3rd d. New York: Springer-Verlag. Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Green, P. E., et Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press. Guttman, L. 1968. A general nonmetric technique for nding the smallest coordinate space for congurations of points. Psychometrika, 33, . Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons. Hastie, T., et R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall. Haykin, S. 1998. Neural Networks: A Comprehensive Foundation, 2nd d. New York: Macmillan College Publishing. Kennedy, R., C. Riquier, et B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, . McCullagh, P., et J. A. Nelder. 1989. Generalized Linear Models, 2nd d. Londres: Chapman & Hall. Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, . Rickman, R., N. Mitchell, J. Dingman, et J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228, . Ripley, B. D. 1996. Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. Rosenberg, S., et M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, . Tao, K. K. 1993. A closer look at the radial basis function (RBF) networks. Dans : Conference Record of the Twenty-Seventh Asilomar Conference on Signals, Systems, and Computers, A. Singh, d. Los Alamitos, CA: IEEE Comput. Soc. Press.

Copyright SPSS Inc. 1989, 2010

100

101 Bibliographie

Uykan, Z., C. Guzelis, M. E. Celebi, et H. N. Koivo. 2000. Analysis of input-output clustering for determining centers of RBFN. IEEE Transactions on Neural Networks, 11, . Van der Ham, T., J. J. Meulman, D. C. Van Strien, et H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, . Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en nerlandais). Leiden: Department of Data Theory, University of Leiden. Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, et B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, .

Index
architecture rseaux neuronaux, 2 architecture du rseau dans la fonction base radiale, 28 dans Perceptron multistrate, 10 avertissements dans Perceptron multistrate, 64 Classication dans la fonction base radiale, 81 dans Perceptron multistrate, 44, 49 Courbe ROC dans la fonction base radiale, 30, 83 dans Perceptron multistrate, 15, 50 diagramme de gains cumuls dans la fonction base radiale, 84 dans Perceptron multistrate, 53 diagramme de levier dans la fonction base radiale, 30, 84 dans Perceptron multistrate, 15, 53 diagramme de rseau dans la fonction base radiale, 30 dans Perceptron multistrate, 15 diagramme des gains dans la fonction base radiale, 30 dans Perceptron multistrate, 15 diagramme estim/observ dans la fonction base radiale, 82 chantillon dapprentissage dans la fonction base radiale, 27 dans Perceptron multistrate, 9 chantillon de test dans la fonction base radiale, 27 dans Perceptron multistrate, 9 chantillon trait dans la fonction base radiale, 27 dans Perceptron multistrate, 9 chiers dexemple emplacement, 87 Fonction base radiale, 23 architecture du rseau, 28 enregistrement des variables dans le chier de travail, 32 export de modle, 34 Options, 35 partitions, 27 Rsultats, 30 fonction dactivation dans la fonction base radiale, 28 dans Perceptron multistrate, 10 Fonction de base radiale, 74 Classication, 81 Courbe ROC, 83 diagramme de gains cumuls, 84 diagramme de levier, 84 diagramme estim/observ, 82 informations sur le rseau, 80 quelque chose, 74 rcapitulatif de traitement des observations, 79 rcapitulatif du modle, 80 formation du rseau dans Perceptron multistrate, 13 formation en ligne dans Perceptron multistrate, 13 formation par commande dans Perceptron multistrate, 13 formation par mini-commande dans Perceptron multistrate, 13 importance dans Perceptron multistrate, 55, 72 informations sur le rseau dans la fonction base radiale, 80 dans Perceptron multistrate, 43, 48, 66 legal notices, 98 Perceptron multi-couches, 37 avertissements, 64 Classication, 44, 49 Courbe ROC, 50 diagramme de gains cumuls, 53 diagramme de levier, 53 diagramme estim/observ, 51, 68 diagramme rsiduel/estim, 70 importance de la variable indpendante, 55, 72 informations sur le rseau, 43, 48, 66 rcapitulatif de traitement des observations, 42, 48, 65 rcapitulatif du modle, 44, 49, 67 surapprentissage, 45 variable de partitionnement, 38 Perceptron multistrate, 4 architecture du rseau, 10 enregistrement des variables dans le chier de travail, 18 export de modle, 20 formation, 13 Options, 21

102

103 Index

partitions, 9 Rsultats, 15 quelque chose dans la fonction base radiale, 74 rcapitulatif de traitement des observations dans la fonction base radiale, 79 dans Perceptron multistrate, 42, 48, 65 rgles darrt dans Perceptron multistrate, 21 rseaux neuronaux architecture, 2 dans fentre contextuelle, 1 strate de rsultat dans la fonction base radiale, 28 dans Perceptron multistrate, 10 strate masque dans la fonction base radiale, 28 dans Perceptron multistrate, 10 surapprentissage dans Perceptron multistrate, 45 trademarks, 99 Valeurs manquantes dans Perceptron multistrate, 21 variable de partitionnement dans Perceptron multistrate, 38