Vous êtes sur la page 1sur 128

i

IBM SPSS Decision Trees 20

Remarque : Avant dutiliser ces informations et le produit quelles concernent, lisez les informations gnrales sous Remarques sur p. 114. Cette version sapplique IBM SPSS Statistics 20 et toutes les publications et modifications ultrieures jusqu mention contraire dans les nouvelles versions. Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems Incorporated. Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft Corporation. Matriel sous licence - Proprit dIBM
Copyright IBM Corporation 1989, 2011.

Droits limits pour les utilisateurs au sein dadministrations amricaines : utilisation, copie ou divulgation soumise au GSA ADP Schedule Contract avec IBM Corp.

Prface
IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire facultatif Decision Trees fournit les techniques danalyse supplmentaires dcrites dans ce manuel. Le module complmentaire Decision Trees doit tre utilis avec le systme central SPSS Statistics auquel il est entirement intgr.

A propos de IBM Business Analytics


Le logiciel IBM Business Analytics offre des informations compltes, cohrentes et prcises permettant aux preneurs de dcision damliorer leurs performances professionnelles. Un portefeuille complet de solutions de business intelligence, danalyses prdictives, de performance financire et de gestion de la stratgie, et dapplications analytiques permet une connaissance claire et immdiate et offre des possibilits dactions sur les performances actuelles et la capacit de prdire les rsultats futurs. En combinant des solutions du secteur, des pratiques prouves et des services professionnels, les entreprises de toute taille peuvent gnrer la plus grande productivit, automatiser les dcisions en toute confiance et apporter de meilleurs rsultats. Dans le cadre de ce portefeuille, le logiciel IBM SPSS Predictive Analytics aide les entreprises prdire des vnements futurs et agir de manire proactive en fonction de ces prdictions pour apporter de meilleurs rsultats. Des clients dans les domaines commerciaux, gouvernementaux et acadmiques se servent de la technologie IBM SPSS comme dun avantage concurrentiel pour attirer ou retenir des clients, tout en rduisant les risques lis lincertitude et la fraude. En intgrant le logiciel IBM SPSS leurs oprations quotidiennes, les entreprises peuvent effectuer des prvisions, et sont capables de diriger et dautomatiser leurs dcisions afin datteindre leurs objectifs commerciaux et dobtenir des avantages concurrentiels mesurables. Pour plus dinformations ou pour contacter un reprsentant, visitez le site http://www.ibm.com/spss.

Support technique
Un support technique est disponible pour les clients du service de maintenance. Les clients peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits IBM Corp. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter lassistance technique, visitez le site IBM Corp. ladresse http://www.ibm.com/support. Votre nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands.

Support technique pour les tudiants


Si vous tes un tudiant qui utilise la version pour tudiant, personnel de lducation ou diplm dun produit logiciel IBM SPSS, veuillez consulter les pages Solutions pour lducation (http://www.ibm.com/spss/rd/students/) consacres aux tudiants. Si vous tes un tudiant utilisant une copie du logiciel IBM SPSS fournie par votre universit, veuillez contacter le coordinateur des produits IBM SPSS de votre universit.
Copyright IBM Corporation 1989, 2011. iii

Service clients
Si vous avez des questions concernant votre livraison ou votre compte, contactez votre bureau local. Veuillez prparer et conserver votre numro de srie porte de main pour lidentification.

Sminaires de formation
IBM Corp. propose des sminaires de formation, publics et sur site. Tous les sminaires font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement dans les grandes villes. Pour plus dinformations sur ces sminaires, accdez au site http://www.ibm.com/software/analytics/spss/training.

Documents supplmentaires
Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris le contenu des publications et des extraits de chapitres, visitez le site web de lauteur : http://www.norusis.com

iv

Contenu
Partie I: Guide de l'utilisateur 1 Cration darbres dcision 1

Slection de modalits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Critres de croissance de larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Limites de croissance . . . Critres CHAID . . . . . . . . Critres CRT . . . . . . . . . . Critres QUEST . . . . . . . . Elagage des arbres . . . . . Valeurs de substitution . . Options. . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 9 10 13 14 15 16 16 17 18 20 21 23 24 26 28 32 38

Cots de classification errone . . . . . . . . Bnfices . . . . . . . . . . . . . . . . . . . . . . . . Probabilits a priori . . . . . . . . . . . . . . . . . Scores. . . . . . . . . . . . . . . . . . . . . . . . . . . Valeurs manquantes . . . . . . . . . . . . . . . . Enregistrement des informations du modle . . Affichage des arbres . . . . . . . . . . Statistiques . . . . . . . . . . . . . . . . . Diagrammes . . . . . . . . . . . . . . . . Rgles de slection et danalyse . ... ... ... ... ... ... ... ...

Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Editeur darbre
Carte darbre . . . . . . . . . . . . . . . . . . . . . . . . . Mise lchelle de laffichage de larbre . . . . Fentre Rcapitulatif des noeuds. . . . . . . . . . Contrle des informations affiches dans larbre . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

41
... ... ... ... 43 44 44 45

Manipulation de grands arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Modification des couleurs et des polices de caractres du texte des arbres. . . . . . . . . . . . . . . . . 46 Rgles de slection et danalyse des observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Filtrage des observations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Enregistrement des rgles de slection et danalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Partie II: Exemples 3 Hypothses et exigences concernant les donnes 53

Effets du niveau de mesure sur les modles darbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Affectation permanente du niveau de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Variables avec niveau de mesure inconnu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Effets des tiquettes de valeur sur les modles darbre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Affectation dtiquettes de valeur toutes les valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Utilisation des arbres de dcision pour valuer le risque de crdit 61


Cration du modle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Construction du modle darbre CHAID . . . . . . . . . . . Slection des modalits cible . . . . . . . . . . . . . . . . . . Spcification des critres de croissance de larbre . . Slection de types de sortie supplmentaires . . . . . . Enregistrement de prvisions. . . . . . . . . . . . . . . . . . . Evaluation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau rcapitulatif des modles . . . Diagramme de larbre . . . . . . . . . . . . Tableau de larbre . . . . . . . . . . . . . . . Gains pour les noeuds . . . . . . . . . . . . Diagramme des gains . . . . . . . . . . . . Diagramme des index . . . . . . . . . . . . Estimation du risque et classification . Prvisions . . . . . . . . . . . . . . . . . . . . . Amlioration du modle . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 61 62 63 64 66 67 68 69 70 72 73 73 74 75 76 76 77 79 83

Slection dobservations dans les noeuds . . . Examen des observations slectionnes . . . . Affectation de cots aux rsultats . . . . . . . . . Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Construction dun modle danalyse

84

Construction du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

vi

Evaluation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Rcapitulatif des modles . . . . . . . . . . . . . . . . . . Diagramme de modle darbre . . . . . . . . . . . . . . . Estimation du risque . . . . . . . . . . . . . . . . . . . . . . Application du modle un autre fichier de donnes . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 86 87 88 89

Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Valeurs manquantes dans les modles darbre

93

Valeurs manquantes avec CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Rsultats CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Valeurs manquantes avec CRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Rsultats CRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Annexes A Fichiers dexemple B Remarques Index 103 114 117

vii

Partie I: Guide de l'utilisateur

Chapitre

Cration darbres dcision


Figure 1-1 Arbre dcision

La procdure Arbre de dcision cre un modle de segmentation base sur un arbre. Elle classe les observations en groupes ou estime les valeurs dune variable (cible) dpendante partir des valeurs de variables (prdites) indpendantes. Cette procdure fournit des outils de validation pour les analyses de classification dexploration et de confirmation. Vous pouvez utiliser cette procdure pour les oprations suivantes :
Segmentation. Identifie les personnes susceptibles dappartenir une catgorie. Stratification : Attribue des observations lintrieur dune des modalits telles que les groupes

risques lev, moyen ou faible.


Prdiction. Elabore des rgles et les utilise pour prdire des vnements futurs, tels que la

probabilit quune personne manque ses engagements loccasion dun prt ou la valeur de revente possible dun vhicule ou dune maison.
Copyright IBM Corporation 1989, 2011. 1

2 Chapitre 1

Rduction des donnes et analyse des variables. Slectionne partir dun ensemble tendu de

variables un sous-ensemble exploitable de variables explicatives utilis pour construire un modle paramtrique formel.
Identification des interactions. Identifie les relations relatives uniquement certains sous-groupes

particuliers et spcifie ces relations dans un modle paramtrique formel.


Fusion des modalits et discrtisation des variables continues. Etablit un nouveau code de

regroupement des modalits de variable explicative et des variables continues avec une perte dinformations minimum.
Exemple : Les banques cherchent classer les demandeurs de crdit selon le risque de crdit, raisonnable ou pas, quils reprsentent. A partir de plusieurs facteurs, dont la cote de solvabilit connue des anciens clients, vous pouvez construire un modle estimant les futurs clients susceptibles de manquer leurs engagements de remboursement de leur prt.

Une analyse sous forme darbre prsente des avantages intressants :


Elle vous permet didentifier des groupes homognes prsentant un risque lev ou faible. Cela facilite llaboration de rgles de prdiction pour chaque observation.

Analyse des donnes Donnes.Les variables dpendantes et indpendantes peuvent tre les suivantes :

Nominal. Une variable peut tre traite comme tant nominale si ses valeurs reprsentent des

modalits sans classement intrinsque (par exemple, le service de la socit dans lequel travaille un employ). La rgion, le code postal ou l'appartenance religieuse sont des exemples de variables nominales.

Ordinal. Une variable peut tre traite comme tant ordinale si ses valeurs reprsentent des

modalits associes un classement intrinsque (par exemple, des niveaux de satisfaction allant de Trs mcontent Trs satisfait). Exemples de variable ordinale : des scores d'attitude reprsentant le degr de satisfaction ou de confiance, et des scores de classement des prfrences.

Echelle. Une variable peut tre traite comme une variable d'chelle (continue) si ses valeurs

reprsentent des modalits ordonnes avec une mesure significative, de sorte que les comparaisons de distance entre les valeurs soient adquates. L'ge en annes et le revenu en milliers de dollars sont des exemples de variable d'chelle.
Pondration des effectifs Si le calcul des pondrations est activ, les pondrations fractionnelles

sont arrondies lentier le plus proche ; ainsi, les observations ayant une valeur de pondration infrieure 0,5 ont un pondration de 0 et sont donc exclues de lanalyse.
Hypothses : Cette procdure considre quun niveau de mesure adquat a t attribu toutes

les variables danalyse, et certaines fonctions considrent que toutes les valeurs de la variable dpendante incluses dans lanalyse ont des tiquettes de valeur dfinies.

Niveau de mesure. Le niveau de mesure a une influence sur les trois calculs ; le bon niveau de

mesure doit donc tre attribu chaque variable. Par dfaut, on considre que les variables numriques sont des variables dchelle et que les variables de chane sont nominales, ce qui

3 Cration darbres dcision

risque de ne pas reflter correctement les niveaux de mesure. Dans la liste des variables, une icne indique le type de chaque variable.
Echelle Nominales Ordinales

Pour modifier de manire temporaire le niveau de mesure dune variable, cliquez sur la variable dans la liste des variables source avec le bouton droit de la souris et slectionnez un niveau de mesure dans le menu contextuel.

Les tiquettes de valeurs. Linterface de la bote de dialogue de cette procdure considre soit

que toutes les valeurs non manquantes dune variable dpendante qualitative (nominale, ordinale) ont des tiquettes de valeur dfinies, soit quaucune dentre elles nen dispose. Certaines fonctions ne sont disponibles que si deux valeurs non manquantes au moins de la variable dpendante qualitative disposent dtiquettes de valeur. Si au moins deux valeurs non manquantes disposent dtiquettes de valeur dfinies, toutes les observations contenant dautres valeurs ne disposant pas dtiquettes de valeur seront exclues de lanalyse.
Pour obtenir des arbres de dcision
E A partir des menus, slectionnez : Analyse > Classification > Arbre...

4 Chapitre 1 Figure 1-2 Bote de dialogue Arbre de dcision

E Slectionnez une variable dpendante. E Slectionnez une ou plusieurs variables indpendantes. E Slectionnez une mthode de croissance.

Sinon, vous pouvez :


Modifiez le niveau de mesure de toutes les variables de la liste source. Introduisez de force la premire variable de la liste des variables indpendantes dans le modle en tant que premire variable de scission. Slectionnez une variable dinfluence dfinissant le degr dinfluence dune observation sur le processus de croissance de larbre. Les observations ayant des valeurs dinfluence faibles ont le moins dinfluence ; les observations ayant des valeurs leves en ont le plus. Les valeurs de variables dinfluence doivent tre positives. Validez larbre. Personnalisez les critres de croissance de larbre. Enregistrez les numros des noeuds terminaux, les prvisions et les probabilits prvues en tant que variables. Enregistrez le modle au format XML (PMML).

5 Cration darbres dcision

Champs avec un niveau de mesure inconnu

Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables (champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure dfini.
Figure 1-3 Alerte du niveau de mesure

Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau

de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de donnes est important, cette action peut prendre un certain temps.

Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un

niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans laffichage des variables de lditeur de donnes. Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de mesure dfinis.
Modification des niveaux de mesure
E Cliquez avec le bouton droit sur la variable dans la liste source. E Dans le menu contextuel, slectionnez un niveau de mesure.

Le niveau de mesure est alors modifi de manire temporaire pour tre utilis dans la procdure Arbre de dcision.
Mthodes de croissance

Les mthodes de croissance disponibles sont :


CHAID. Chi-squared Automatic Interaction Detection. A chaque tape, CHAID choisit la

variable indpendante (prdite) dont l'interaction avec la variable dpendante est la plus forte. Les modalits de chaque valeur prdite sont fusionnes si elles ne prsentent pas de diffrences significatives avec la variable dpendante.
Exhaustive CHAID. Une version modifie de CHAID qui examine toutes les scissions possibles pour chaque valeur prdite.

6 Chapitre 1

CRT. Classification and Regression Trees (arbres de segmentation et de rgression). CRT divise

les donnes en segments aussi homognes que possible par rapport la variable dpendante. Un noeud terminal dans lequel toutes les observations ont la mme valeur de variable dpendante est un noeud homogne et pur .
QUEST. Quick, Unbiased, Efficient Statistical Tree (arbre statistique rapide, impartial et efficace).

Mthode rapide qui favorise les variables prdites avec de nombreuses modalits par rapport au biais des autres mthodes. La mthode QUEST ne peut tre spcifie que si la variable dpendante est nominale. Chaque mthode prsente des avantages et des limites, qui sont les suivantes :
Calcul partir du khi-deux** Variables (prdites) indpendantes de substitution Elagage des arbres Scission de noeud multiple Scission de noeud binaire Variables dinfluence Probabilits a priori Cots de classification errone Calcul rapide CHAID* X CRT X X X X X X X X X X X X X X QUEST X X

*Inclut Exhaustive CHAID. **QUEST utilise galement une mesure du Khi-deux pour les variables indpendantes nominales.

Slection de modalits
Figure 1-4 Bote de dialogue Modalits

7 Cration darbres dcision

Pour les variables dpendantes qualitatives (nominales, ordinales), vous pouvez effectuer les oprations suivantes :

Contrler les modalits inclure dans lanalyse. Identifier les modalits cible qui vous intressent.

Inclure/Exclure des modalits

Vous pouvez limiter lanalyse certaines modalits de la variable dpendante.


Les observations dont les valeurs de la variable dpendante figurent dans la liste Exclure ne sont pas incluses dans lanalyse. Pour les variables dpendantes nominales, vous pouvez galement inclure des modalits manquantes spcifies par lutilisateur dans lanalyse. (Par dfaut, les modalits manquantes spcifies par lutilisateur saffichent dans la liste Exclure.)

Modalits cible

Les modalits slectionnes (qui sont coches) sont traites comme les modalits ayant le plus grand intrt dans lanalyse. Par exemple, si lidentification des personnes les plus susceptibles de manquer leurs engagements envers un prt est la modalit qui vous intresse le plus, slectionnez la modalit mauvaise cote de solvabilit en tant que modalit cible.

Aucune modalit cible na t dfinie. Si aucune modalit nest slectionne, certaines options de rgle de classification et certains rsultats lis aux gains ne sont pas disponibles. Si plusieurs modalits sont slectionnes, vous obtenez des tableaux et des diagrammes de gains spars pour chaque modalit cible. La dsignation de plusieurs modalits en tant que modalits cible na aucun effet sur le modle de larbre, sur lestimation des risques ou sur les rsultats de classification errone.

Modalits et tiquettes de valeurs

Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies.
Pour inclure/exclure des modalits et slectionner des modalits cible
E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante

qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies.
E Cliquez sur Modalits.

8 Chapitre 1

Validation
Figure 1-5 Bote de dialogue Validation

La validation vous permet dvaluer si votre arbre est gnralisable une plus grande population. Deux mthodes de validation sont disponibles : la validation croise et la validation par partition.
La validation croise

La validation croise consiste fractionner lchantillon en plusieurs sous-chantillons ou niveaux. Les arbres sont gnrs en excluant tour de rle les donnes de chaque sous-chantillon. Le premier arbre est bas sur toutes les observations except celles du premier sous-chantillon, le deuxime arbre est bas sur toutes les observations except celles du deuxime sous-chantillon, etc. Le risque de mauvaise raffectation est estim pour chaque arbre en appliquant larbre au sous-chantillon exclu lors de la gnration de larbre.

Vous pouvez indiquer un maximum de 25 niveaux dchantillon. Plus la valeur est leve, moins les observations exclues de chaque modle darbre sont nombreuses. La validation croise obtient un modle darbre final unique. Lestimateur de risque en validation croise pour lensemble de larbre est calcul en faisant la moyenne des risques de tous les arbres.

9 Cration darbres dcision

Validation par partition

Pour la validation par partition, le modle est cr partir dun chantillon dapprentissage et est test sur un chantillon trait.

Vous pouvez indiquer une taille dchantillon dapprentissage, exprime sous forme de pourcentage de la taille dchantillon totale, ou une variable de scission de lchantillon en chantillons dapprentissage et de test. Si vous utilisez une variable pour dfinir les chantillons dapprentissage et de test, les observations ayant la valeur 1 pour la variable sont attribues lchantillon dapprentissage et toutes les autres observations sont attribues lchantillon de test. Il ne peut pas sagir dune variable dpendante, de pondration, dinfluence ou dune variable indpendante force. Vous pouvez afficher les rsultats pour lchantillon dapprentissage et pour lchantillon de test, ou uniquement pour lchantillon de test. La validation par partition doit tre utilise avec prcaution sur les petits fichiers de donnes (les fichiers de donnes comportant un petit nombre dobservations). Des chantillons dapprentissage de petite taille risquent de former des modles errons, puisque certaines modalits peuvent ne pas comporter suffisamment dobservations pour construire correctement larbre.

Critres de croissance de larbre


Les critres de croissance disponibles peuvent dpendre de la mthode de croissance, du niveau de mesure de la variable dpendante ou de la combinaison des deux.

Limites de croissance
Figure 1-6 Bote de dialogue Critres, onglet Limites de croissance

10 Chapitre 1

Longlet Limites de croissance vous permet de limiter le nombre de niveaux de larbre et de contrler le nombre minimal dobservations des noeuds parent et enfant.
Profondeur maximum de larborescence : Contrle le nombre maximal de niveaux de croissance

en dessous du noeud racine. Le paramtre Automatique limite larbre trois niveaux en dessous du noeud racine pour les mthodes CHAID et Exhaustive CHAID, et cinq niveaux pour les mthodes CRT et QUEST.
Nombre minimum dobservations. Contrle le nombre minimum dobservations des noeuds. Les noeuds ne respectant pas ces critres ne sont pas scinds.

Si vous augmentez les valeurs minimum, les arbres construits ont tendance comporter moins de noeuds. Si vous diminuez les valeurs minimum, les arbres construits ont plus de noeuds.

Pour les fichiers de donnes comportant un petit nombre dobservations, les valeurs par dfaut dfinissant 100 observations pour les noeuds parent et 50 pour les noeuds enfant peuvent crer des arbres sans noeud en dessous du noeud racine ; dans ce cas, vous obtiendrez des rsultats plus utiles en abaissant les valeurs minimales.

Critres CHAID
Figure 1-7 Bote de dialogue Critres, onglet CHAID

Pour les mthodes CHAID et Exhaustive CHAID, vous pouvez contrler les lments suivants :
Seuil de signification. Vous pouvez contrler la valeur de signification pour scinder des noeuds et

fusionner des modalits. Pour ces deux critres, le niveau de signification par dfaut est 0,05.

11 Cration darbres dcision

Pour scinder des noeuds, cette valeur doit tre suprieure 0 et infrieure 1. Les valeurs les plus basses produisent des arbres avec moins de noeuds. Pour la fusion des modalits, cette valeur doit tre suprieure 0 et infrieure ou gale 1. Pour que les modalits ne fusionnent pas, indiquez la valeur 1. Pour une variable dchelle indpendante, cela signifie que le nombre de modalits de la variable dans larbre final correspond au nombre dintervalles indiqu (leur nombre par dfaut est 10). Pour plus d'informations, reportez-vous la section Intervalles dchelle pour lanalyse CHAID sur p. 12.

Statistique du Khi-deux. Pour les variables dpendantes ordinales, le Khi-deux dterminant

la scission des noeuds et la fusion des modalits est calcul via la mthode du rapport de vraisemblance. Pour les variables dpendantes nominales, vous avez le choix entre plusieurs mthodes :

Pearson. Cette mthode fournit des calculs plus rapides mais doit tre utilise avec prcaution

sur les petits chantillons. Il sagit de la mthode par dfaut.


Rapport de vraisemblance. Cette mthode est plus fiable que Pearson mais son temps de calcul

est plus long. Cest la mthode la plus adapte aux petits chantillons.
Estimation du modle. Pour les variables dpendantes nominales ou ordinales, vous pouvez

indiquer :

le nombre maximum des itrations. La valeur par dfaut est 100. Si larbre cesse de crotre

parce que le nombre maximum ditrations a t atteint, vous pouvez augmenter ce maximum ou modifier dautres critres contrlant la croissance de larbre.

Changement minimum dans les effectifs thoriques de cellule. Cette valeur doit tre suprieure

0 et infrieure 1. La valeur par dfaut est 0,05. Les valeurs faibles gnrent des arbres comportant moins de noeuds.
Ajustement des valeurs de signification laide de la mthode Bonferroni. Pour les comparaisons

multiples, les valeurs de signification des critres de fusion et de scission sont ajustes laide de la mthode Bonferroni. Il sagit de la valeur par dfaut.
Autoriser la scission des modalits fusionnes lintrieur dun noeud. A moins que vous nempchiez explicitement la fusion des modalits, la procdure tente de fusionner les modalits des variables indpendantes (prdites) pour produire larbre dcrivant le modle le plus simple. Cette option autorise la procdure scinder des modalits fusionnes pour amliorer la solution obtenue.

12 Chapitre 1

Intervalles dchelle pour lanalyse CHAID


Figure 1-8 Bote de dialogue Critres, onglet Intervalles

Dans lanalyse CHAID, les variables indpendantes (prdites) dchelle sont toujours regroupes en modalits indpendantes (par exemple, de 0 10, de 11 20, de 21 30, etc.) avant dtre analyses. Vous pouvez contrler le nombre initial/maximum de groupes (mme si la procdure peut fusionner des groupes contigus aprs la scission initiale) :

Nombre fixe. Toutes les variables dchelle indpendantes sont groupes lorigine dans le

mme nombre de groupes. La valeur par dfaut est 10.


Personnalise. Chaque variable dchelle indpendante est rpartie lorigine dans le nombre

de groupes dtermin pour cette variable.


Pour dterminer les intervalles des variables dchelle indpendantes
E Dans la bote de dialogue principale Arbre de dcision, slectionnez des variables dchelle

indpendantes.
E Pour la mthode de croissance, slectionnez CHAID ou Exhaustive CHAID. E Cliquez sur Critres. E Cliquez sur longlet Intervalles.

Dans les analyses CRT et QUEST, toutes les scissions sont binaires et les variables dchelle indpendantes ou ordinales sont traites de la mme manire ; par consquent, vous ne pouvez pas indiquer un nombre dintervalles pour les variables dchelle indpendantes.

13 Cration darbres dcision

Critres CRT
Figure 1-9 Bote de dialogue Critres, onglet CRT

La mthode de croissance CRT tente doptimiser lhomognit des noeuds. La limite laquelle un noeud ne reprsente pas un sous-ensemble homogne dobservations est un indicateur dimpuret. Par exemple, un noeud terminal dans lequel toutes les observations ont la mme valeur pour la variable dpendante est un noeud homogne qui na pas besoin dtre scind davantage car il est pur . Vous pouvez slectionner la mthode utilise pour mesurer limpuret et la diminution minimum de limpuret pour scinder les noeuds.
Mesure dimpuret. Pour les variables dchelle dpendantes, cest la mesure dimpuret

des moindres carrs des carts (LSD) qui est utilise. Elle est calcule en tant que variance intra-noeud, ajuste selon les pondrations deffectif ou les valeurs dinfluence. Pour les variables dpendantes (nominales, ordinales) qualitatives, vous pouvez slectionner la mesure dimpuret parmi les suivantes :

Gini. Des scissions sont effectues pour optimiser lhomognit des noeuds enfant par

rapport la valeur de la variable dpendante. La mthode Gini est base sur les carrs des probabilits dappartenance chaque modalit de la variable dpendante. Elle atteint son minimum (zro) lorsque toutes les observations du noeud entrent dans une seule modalit. Il sagit de la mesure par dfaut.

Twoing. Les modalits de la variable dpendante sont regroupes en deux sous-classes. Des

scissions amliorant la sparation des deux groupes sont ralises.


Twoing ordonn. Identique au twoing, avec la contrainte supplmentaire que seules les

modalits adjacentes peuvent tre regroupes. Cette mesure est uniquement disponible pour les variables dpendantes ordinales.

14 Chapitre 1

Nombre minimum de substituts damlioration. Il sagit de la diminution minimum de limpuret

requise pour scinder un noeud. La valeur par dfaut est 0.0001. Les valeurs leves gnrent des arbres comportant moins de noeuds.

Critres QUEST
Figure 1-10 Bote de dialogue Critres, onglet QUEST

Pour la mthode QUEST, vous pouvez dterminer le niveau de signification pour scinder les noeuds. Une variable indpendante ne peut pas tre utilise pour scinder des noeuds moins que le niveau de signification ne soit infrieur ou gal la valeur indique. Cette valeur doit tre suprieure 0 et infrieure 1. La valeur par dfaut est 0,05. Les valeurs faibles auront tendance exclure plus de variables indpendantes du modle final.
Pour dterminer les critres QUEST
E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante

nominale.
E Pour la mthode de croissance, slectionnez QUEST. E Cliquez sur Critres. E Cliquez sur longlet QUEST.

15 Cration darbres dcision

Elagage des arbres


Figure 1-11 Bote de dialogue Critres, onglet Elagage

Avec les mthodes CRT et QUEST, vous pouvez faire en sorte que le modle ne soit pas trop rempli en laguant larbre : larbre crot jusqu atteindre les critres darrt ; il est ensuite automatiquement taill jusquau sous-arbre le plus petit, selon la diffrence maximum de risque indique. La valeur de risque est exprime en erreurs standard. La valeur par dfaut est 1. Elle ne doit pas tre ngative. Pour obtenir un sous-arbre qui possde le risque minimum, indiquez 0.
Elagage et masquage des noeuds

Lorsque vous crez un arbre lagu, tous les noeuds ayant t lagus de larbre ne sont pas disponibles dans larbre final. Vous pouvez masquer et afficher de manire interactive les noeuds enfant slectionns dans larbre final, mais vous ne pouvez pas afficher les noeuds lagus lors du processus de cration de larbre. Pour plus d'informations, reportez-vous la section Editeur darbre dans le chapitre 2 sur p. 41.

16 Chapitre 1

Valeurs de substitution
Figure 1-12 Bote de dialogue Critres, onglet Valeurs de substitution

Les mthodes CRT et QUEST peuvent utiliser des valeurs de substitution pour les variables indpendantes (prdites). Pour les observations dans lesquelles la valeur de cette variable est manquante, dautres variables indpendantes ayant un fort degr dassociation avec la variable dorigine sont utilises pour la classification. Ces variables prdites de rechange sont appeles valeurs de substitution. Vous pouvez dterminer le nombre maximum de valeurs de substitution pouvant tre utilis dans le modle.

Par dfaut, le nombre maximum de valeurs de substitution correspond une unit de moins que le nombre de variables prdites. Autrement dit, pour chaque variable indpendante, toutes les autres variables indpendantes peuvent tre utilises comme valeurs de substitution. Si vous ne souhaitez pas que le modle utilise des valeurs de substitution, indiquez 0 comme nombre de valeurs de substitution.

Options
Les options disponibles dpendent de la mthode de croissance, du niveau de mesure de la variable dpendante et/ou de lexistence dtiquettes de valeur dfinies pour les valeurs de la variable dpendante.

17 Cration darbres dcision

Cots de classification errone


Figure 1-13 Bote de dialogue Options, onglet Cots de classification errone

Pour les variables dpendantes qualitatives (nominales, ordinales), les cots de classification errone permettent dinclure des informations sur les pnalits relatives associes aux classements incorrects de larbre. Par exemple :

Le cot engendr par le refus dun crdit un client solvable sera vraisemblablement diffrent du cot engendr par la prolongation du crdit dun client dj en dfaut de paiement. Le cot occasionn pas le classement incorrect dune personne prsentant un risque lev de cardiopathie dans la modalit de risque faible sera probablement beaucoup plus lev que le cot occasionn par le classement erron dune personne risque faible dans la modalit de risque lev. Le cot du publipostage dune personne qui ne rpondra srement pas est relativement faible, alors que le cot engendr par le non-publipostage dune personne susceptible de rpondre est plus lev (en recettes perdues).

Cots de classification errone et tiquettes de valeur

Cette bote de dialogue nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies.
Pour dterminer les cots de classification errone
E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante

qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies.
E Cliquez sur Options.

18 Chapitre 1 E Cliquez sur longlet Cots de classification errone. E Cliquez sur Personnalis. E Saisissez des cots de classification errone dans la grille. Les valeurs ne doivent pas tre

ngatives. (les affectations correctes, reprsentes sur la diagonale, ont toujours la valeur 0.)
Rendre la matrice symtrique. La plupart du temps, vous voudrez que les cots soient symtriques ;

en dautres termes, que le cot occasionn par la mauvaise raffectation de A comme B soit identique au cot occasionn par la mauvaise raffectation de B comme A. Les commandes suivantes vous aident spcifier une matrice de cots symtrique :

Copier moiti infrieure. Permet de copier les valeurs comprises dans le triangle infrieur de

la matrice (situ en dessous de la diagonale) dans les cellules correspondantes du triangle suprieur.

Copier moiti suprieure. Permet de copier les valeurs comprises dans le triangle suprieur

de la matrice (situ au-dessus de la diagonale) dans les cellules correspondantes du triangle infrieur.

Utiliser les moyennes de cellules. Cette option calcule la moyenne des deux valeurs de cellule

situes chacune dans une moiti diffrente (lune dans le triangle infrieur et lautre dans le triangle suprieur) et remplace ces deux valeurs par la moyenne ainsi obtenue. Par exemple, si le cot occasionn par la mauvaise raffectation de A comme B est 1, et le cot occasionn par la mauvaise raffectation de B comme A est 3, ces deux valeurs sont alors remplaces par leur moyenne : (1+3)/2 = 2.

Bnfices
Figure 1-14 Bote de dialogue Options, onglet Bnfices

19 Cration darbres dcision

Pour les variables dpendantes qualitatives, vous pouvez attribuer des valeurs de recette et de dpense aux niveaux de la variable dpendante.

Les bnfices sont obtenus avec le calcul suivant : recettes moins dpenses. Les valeurs de bnfice ont un effet sur les valeurs de la moyenne des bnfices et du ROI (retour sur investissement) dans les tableaux de gains. Elles nont pas deffet sur la structure de base du modle darbre. Les valeurs des recettes et des dpenses doivent tre numriques et propres toutes les modalits de la variable dpendante affiche dans la grille.

Bnfices et tiquettes de valeur

Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies.
Pour dterminer des bnfices
E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante

qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies.
E Cliquez sur Options. E Cliquez sur longlet Bnfices. E Cliquez sur Personnalis. E Saisissez les valeurs de recette et de dpense de toutes les modalits de variable dpendante

rpertories dans la grille.

20 Chapitre 1

Probabilits a priori
Figure 1-15 Bote de dialogue Options, onglet Probabilits a priori

Pour les arbres CRT et QUEST comportant des variables dpendantes qualitatives, vous pouvez dterminer des probabilits a priori pour les groupes daffectation. Les probabilits a priori sont des estimations de la frquence relative globale de chaque modalit de la variable dpendante, effectues avant la prise de connaissance des valeurs des variables indpendantes (prdites). Les probabilits a priori aident corriger les croissances darbre gnres par les donnes de lchantillon non reprsentatif de lintgralit de la population.
Obtenue partir dchantillons dapprentissage (probabilits a priori empiriques). Utilisez ce

paramtre si laffectation des valeurs de la variable dpendante dans le fichier de donnes est reprsentative de la distribution de la population. Si vous utilisez la validation par partition, cest la distribution des observations dans lchantillon dapprentissage qui est utilise. Remarque : Etant donn que, pour la validation par partition, les observations sont attribues de manire alatoire lchantillon dapprentissage, vous ne connatrez pas lavance la distribution relle des observations lintrieur de lchantillon dapprentissage. Pour plus d'informations, reportez-vous la section Validation sur p. 8.
Egale pour toutes les classes. Utilisez ce paramtre si les modalits de la variable dpendante sont distribues dans des proportions gales entre toutes les catgories de population. Par exemple, sil existe quatre modalits, environ 25 % des observations doivent se trouver dans chaque modalit. Personnalise. Saisissez une valeur non ngative pour chacune des modalits de la variable

dpendante rpertories dans la grille. Ces valeurs peuvent tre des proportions, des pourcentages, des effectifs ou toute autre valeur reprsentant la distribution de valeurs entre les modalits.

21 Cration darbres dcision

Ajuster les probabilits a priori en utilisant les cots de mauvaise raffectation. Si vous dfinissez

des cots de mauvaise raffectation, vous pouvez ajuster les probabilits a priori en fonction de ces cots. Pour plus d'informations, reportez-vous la section Cots de classification errone sur p. 17.
Bnfices et tiquettes de valeur

Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies.
Pour dterminer des probabilits a priori
E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante

qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies.
E Pour la mthode de croissance, slectionnez CRT ou QUEST. E Cliquez sur Options. E Cliquez sur longlet Probabilits a priori.

Scores
Figure 1-16 Bote de dialogue Options, onglet Scores

Dans CHAID et Exhaustive CHAID avec une variable dpendante ordinale, vous pouvez attribuer des scores personnaliss chaque modalit de la variable dpendante. Les scores dfinissent la distance entre les modalits de la variable dpendante ainsi que lordre de ces modalits. Les

22 Chapitre 1

scores peuvent tre utiliss pour augmenter ou rduire la distance relative entre des valeurs ordinales ou pour changer lordre de ces valeurs.

Utiliser le rang ordinal de chaque modalit. Le score de 1 est attribu la modalit la plus

basse de la variable dpendante, le score de 2 est attribu la modalit suprieure suivante, etc. Il sagit de la valeur par dfaut.

Personnalise. Saisissez une valeur de score numrique pour chacune des modalits de la

variable dpendante rpertories dans la grille.


Exemple
Etiquette de valeur Valeur dorigine 1 Ouvrier spcialis 2 Ouvrier qualifi 3 Employ de bureau 4 Professionnels 5 Direction

Score 1 4 4.5 7 6

Les scores augmentent la distance relative entre les ouvriers spcialiss et les ouvriers qualifis et rduit la distance relative entre les ouvriers qualifis et les employs de bureau. Les scores inversent lordre de la direction et des professionnels.

Scores et tiquettes de valeur

Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies.
Pour dterminer des scores
E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante

ordinale disposant dau moins deux tiquettes de valeur dfinies.


E Pour la mthode de croissance, slectionnez CHAID ou Exhaustive CHAID. E Cliquez sur Options. E Cliquez sur longlet Scores.

23 Cration darbres dcision

Valeurs manquantes
Figure 1-17 Bote de dialogue Options, onglet Valeurs manquantes

Longlet Valeurs manquantes commande la gestion des valeurs nominales, des valeurs manquantes spcifies par lutilisateur et des valeurs de variable indpendante (prdite).

La gestion des valeurs de variable indpendante manquantes spcifies par lutilisateur, dchelle et ordinales, varie en fonction de la mthode de croissance. La gestion des variables dpendantes nominales est indique dans la bote de dialogue Modalits. Pour plus d'informations, reportez-vous la section Slection de modalits sur p. 6. Pour les variables dchelle dpendantes et ordinales, les observations comportant des valeurs de variable dpendante manquantes par dfaut ou spcifies par lutilisateur sont toujours exclues.

Traiter en tant que valeurs manquantes. Les valeurs manquantes spcifies par lutilisateur sont traites comme des valeurs manquantes par dfaut. La gestion des valeurs manquantes par dfaut varie selon les mthodes de croissance. Traiter en tant que valeurs valides. Les valeurs manquantes spcifies par lutilisateur des variables

indpendantes nominales sont traites comme des valeurs classiques pour la construction de larbre et la classification.

24 Chapitre 1

Rgles dpendant de la mthode

Si certaines valeurs de variable indpendante, mais pas toutes, sont manquantes par dfaut ou spcifies par lutilisateur :

Pour CHAID et Exhaustive CHAID, les valeurs de variable indpendante manquantes par dfaut ou spcifies par lutilisateur sont incluses dans lanalyse en tant que modalit unique combine. Pour les variables dchelle indpendantes ou ordinales, les algorithmes gnrent dabord les modalits en utilisant des valeurs valides, puis choisissent de fusionner la modalit manquante avec la modalit (valide) la plus ressemblante ou de la conserver part. Pour CRT et QUEST, les observations comportant des valeurs de variable indpendante manquantes sont exclues du processus de construction de larbre mais sont classes laide de valeurs de substitution, si la mthode inclut les valeurs de substitution. Si les valeurs manquantes nominales spcifies par lutilisateur sont traites comme manquantes, elles seront galement gres comme telles. Pour plus d'informations, reportez-vous la section Valeurs de substitution sur p. 16.

Pour dterminer le traitement des valeurs manquantes indpendantes nominales spcifies par lutilisateur
E Dans la bote de dialogue principale Arbre de dcision, slectionnez au moins une variable

indpendante nominale.
E Cliquez sur Options. E Cliquez sur longlet Valeurs manquantes.

Enregistrement des informations du modle


Figure 1-18 Bote de dialogue Enregistrer

25 Cration darbres dcision

Vous pouvez enregistrer les informations du modle sous forme de variables dans le fichier de travail et enregistrer galement lintgralit du modle au format XML (PMML) vers un fichier externe.
Variables enregistres Nombre de noeuds terminaux. Noeud terminal auquel chaque observation est affecte. La valeur est le nombre de noeuds de larbre. Prvision. Classe (groupe) ou valeur de la variable dpendante prvue par le modle. Probabilits prvues. Probabilit associe aux prvisions du modle. Une variable est enregistre

pour chaque modalit de la variable dpendante. Nest pas disponible pour les variables dchelle dpendantes.
Affectation des chantillons (de formation/de test). Pour la validation par partition, cette variable indique si lobservation a t utilise dans lchantillon dapprentissage ou lchantillon de test. Sa valeur est 1 pour lchantillon dapprentissage et 0 pour lchantillon de test. Nest pas disponible sauf si vous avez slectionn la validation par partition. Pour plus d'informations, reportez-vous la section Validation sur p. 8. Exporter le modle darbre au format XML

Vous pouvez enregistrer lintgralit du modle darbre au format XML (PMML). Vous pouvez utiliser ce fichier de modle pour appliquer les informations du modle aux autres fichiers de donnes des fins dvaluation.
Echantillon de formation. Ecrit le modle sur le fichier indiqu. Pour les arbres valids par

partition, il sagit du modle de lchantillon dapprentissage.


Echantillon de test. Ecrit le modle de lchantillon de test sur le fichier indiqu. Nest pas disponible sauf si vous avez slectionn la validation par partition.

Rsultats
Les options des rsultats disponibles dpendent de la mthode de croissance, du niveau de mesure de la variable dpendante et dautres paramtres.

26 Chapitre 1

Affichage des arbres


Figure 1-19 Bote de dialogue Rsultats, onglet Arbre

Vous pouvez rgler lapparence initiale de larbre ou supprimer compltement laffichage de larbre.
Arbre. Par dfaut, le diagramme darbre est inclus dans les rsultats affichs dans le Viewer.

Dslectionnez cette option (supprimez la coche) pour exclure le diagramme darbre des rsultats.
Afficher : Ces options contrlent lapparence initiale du diagramme darbre dans le Viewer. Vous

pouvez galement modifier tous ces attributs en modifiant larbre cr.


Orientation : Vous pouvez afficher larbre de haut en bas avec le noeud racine en haut, de

gauche droite ou de droite gauche.


Contenu des noeuds. Les noeuds peuvent afficher des tableaux, des graphiques ou les

deux. Pour les variables dpendantes qualitatives, les tableaux affichent les effectifs et les pourcentages, et les graphiques sont des diagrammes en btons. Pour les variables dchelle dpendantes, les tableaux affichent les moyennes, les carts-types, le nombre dobservations et les prvisions. Les graphiques sont des histogrammes.

Echelle. Par dfaut, les arbres volumineux sont automatiquement rduits avec conservation

des proportions pour que larbre tienne dans la page. Vous pouvez indiquer un pourcentage dchelle personnalis allant jusqu 200 %.

27 Cration darbres dcision

Statistiques des variables indpendantes. Pour CHAID et Exhaustive CHAID, les statistiques

comprennent la valeur F (pour les variables dchelle dpendantes) ou la valeur Khi-deux (pour les variables dpendantes qualitatives) ainsi que la valeur de signification et les degrs de libert. Pour CRT, la valeur damlioration est affiche. Pour QUEST, la valeur F, la valeur de signification et les degrs de libert sont affichs pour les variables indpendantes ordinales et dchelle ; pour les variables indpendantes nominales, la valeur Khi-deux, la valeur de signification et les degrs de libert sont affichs.

Dfinitions des noeuds. Les dfinitions de noeud affichent les valeurs de la variable

indpendante utilise chaque scission des noeuds.


Arbre sous forme de tableau. Informations rcapitulatives de chaque noeud de larbre, dont le

nombre de noeuds parent, les statistiques de variable indpendante, les valeurs de variable indpendante pour le noeud, la moyenne et lcart-type pour les variables dchelle dpendantes, ou les effectifs et les pourcentages pour les variables dpendantes qualitatives.
Figure 1-20 Arbre sous forme de tableau

28 Chapitre 1

Statistiques
Figure 1-21 Bote de dialogue Rsultat, onglet Statistiques

Les tableaux de statistiques disponibles dpendent du niveau de mesure de la variable dpendante, de la mthode de croissance et dautres paramtres.
Modle Rcapitulatif. Le rcapitulatif comprend la mthode utilise, les variables incluses dans le modle

et les variables indiques mais non incluses dans le modle.

29 Cration darbres dcision Figure 1-22 Tableau rcapitulatif des modles

Risque. Estimation du risque et de lerreur standard. Mesure de lexactitude des prvisions de

larbre.

Pour les variables dpendantes qualitatives, lestimation du risque correspond la proportion dobservations mal classes aprs ajustement aux probabilits a priori et aux cots de mauvaise raffectation. Pour les variables dchelle dpendantes, lestimation du risque correspond la variance intra-noeud.

Tableau de classement : Pour les variables dpendantes qualitatives (nominales, ordinales), ce

tableau comporte le nombre dobservations classes correctement et incorrectement pour chaque modalit de la variable dpendante. Nest pas disponible pour les variables dchelle dpendantes.
Figure 1-23 Tableaux de risque et de classement

30 Chapitre 1

Valeurs de cot, de probabilit a priori, de score et de bnfice. Pour les variables dpendantes qualitatives, ce tableau comporte les valeurs de cot, de probabilit a priori, de score et de bnfice utilises pour lanalyse. Nest pas disponible pour les variables dchelle dpendantes. Variables indpendantes Importance par rapport au modle. Pour la mthode de croissance CRT, classe chaque variable

indpendante (prdite) selon son importance dans le modle. Nest pas disponible pour les mthodes QUEST ou CHAID.
Valeurs de substitution par partition. Pour les mthodes de croissance CRT et QUEST, si le modle inclut les valeurs de substitution, rpertorie les valeurs de substitution de chaque partition de larbre. Nest pas disponible pour les mthodes CHAID. Pour plus d'informations, reportez-vous la section Valeurs de substitution sur p. 16. Rsultats des noeuds Rcapitulatif. Pour les variables dchelle dpendantes, le tableau comporte le nombre de noeuds,

le nombre dobservations et la valeur moyenne de la variable dpendante. Pour les variables dpendantes qualitatives dont les bnfices sont dfinis, le tableau comporte le nombre de noeuds, le nombre dobservations, la moyenne des bnfices et les valeurs du ROI (retour sur investissement). Nest pas disponible pour les variables dpendantes qualitatives dont les bnfices ne sont pas dfinis. Pour plus d'informations, reportez-vous la section Bnfices sur p. 18.
Figure 1-24 Tableaux rcapitulatifs des gains pour les noeuds et les centiles

Par modalit cible. Pour les variables dpendantes qualitatives dont les modalits cible sont

dfinies, le tableau comporte le pourcentage de gains, le pourcentage de rponses et le pourcentage dindex par noeud ou groupe de centiles. Un tableau distinct est produit pour chaque modalit

31 Cration darbres dcision

cible. Nest pas disponible pour les variables dchelle dpendantes ou qualitatives dont les modalits cible ne sont pas dfinies. Pour plus d'informations, reportez-vous la section Slection de modalits sur p. 6.
Figure 1-25 Gains des modalits cible pour les noeuds et les centiles

Lignes. Les tableaux de rsultats des noeuds peuvent afficher les rsultats par noeuds terminaux, par centiles ou les deux. Si vous slectionnez les deux, vous obtenez deux tableaux, un pour chaque modalit cible. Les tableaux utilisant des centiles comportent des valeurs cumulatives pour chaque centile, dans lordre du tri. Incrment de centile. Pour les tableaux utilisant des centiles, vous pouvez slectionner lincrment de centiles suivant : 1, 2, 5, 10, 20 ou 25. Afficher les statistiques cumules. Pour les tableaux utilisant des noeuds terminaux, ajoute une

colonne comportant les rsultats cumuls.

32 Chapitre 1

Diagrammes
Figure 1-26 Bote de dialogue Rsultat, onglet Diagrammes

Les diagrammes disponibles dpendent du niveau de mesure de la variable dpendante, de la mthode de croissance et dautres paramtres.
Importance de la variable indpendante dans le modle. Diagramme en btons reprsentant

limportance dans le modle de chaque variable indpendante (prdite). Valable uniquement pour la mthode de croissance CRT.
Rsultats des noeuds Gain. Le gain est le pourcentage dobservations totales de la modalit cible dans chaque noeud, calcul de la manire suivante : (cibles des noeuds n/nombre total de cibles n) x 100. Le diagramme des gains est un diagramme curviligne reprsentant les gains cumuls en centiles, calcul de la manire suivante : (cibles des centiles cumuls n/nombre total de cibles n) x 100. Un diagramme curviligne distinct est cr pour chaque modalit cible. Est uniquement disponible pour les variables dpendantes qualitatives dont les modalits cible sont dfinies. Pour plus d'informations, reportez-vous la section Slection de modalits sur p. 6.

Le diagramme des gains trace point par point les valeurs de la colonne Pourcentage de gain du tableau Gains pour les centiles, qui comporte galement les valeurs cumules.

33 Cration darbres dcision Figure 1-27 Tableau Gains pour les centiles et diagramme des gains

Index. L'index correspond au ratio du pourcentage de rponses du nud pour la catgorie cible

compar au pourcentage de rponses global pour la catgorie cible de l'ensemble de l'chantillon. Le diagramme des index est un diagramme curviligne reprsentant les valeurs de lindex des centiles cumuls. Est uniquement disponible pour les variables dpendantes qualitatives. Lindex des centiles cumuls est calcul de la manire suivante : (pourcentage de rponse des centiles cumuls/pourcentage total de rponses) x 100. Un diagramme distinct est cr pour chaque modalit cible, et les modalits cible doivent tre dfinies. Le diagramme dindex trace point par point les valeurs de la colonne Index du tableau Gains pour les centiles.

34 Chapitre 1 Figure 1-28 Tableau Gains pour les centiles et diagramme dindex

Rponse. Le pourcentage d'observations dans le noeud dans la modalit cible spcifie; Le diagramme de rponse est un diagramme curviligne reprsentant les rponses des centiles cumules, calcul de la manire suivante : (cibles des centiles cumuls n/nombre total de centiles cumuls n) x 100. Est uniquement disponible pour les variables dpendantes qualitatives dont les modalits cible sont dfinies.

Le diagramme de rponse trace point par point les valeurs de la colonne Rponse du tableau Gains pour les centiles.

35 Cration darbres dcision Figure 1-29 Tableau Gains pour les centiles et diagramme de rponse

Moyenne. Diagramme curviligne reprsentant les valeurs moyennes des centiles cumuls pour la variable dpendante. Est uniquement disponible pour les variables dchelle dpendantes. Bnfice moyen. Diagramme curviligne reprsentant les profits moyens cumuls. Disponible uniquement pour les variables dpendantes qualitatives dont les bnfices sont dfinis. Pour plus d'informations, reportez-vous la section Bnfices sur p. 18.

Le diagramme des profits moyens trace point par point les valeurs de la colonne Bnfices du tableau Rcapitulatif des gains pour les centiles.

36 Chapitre 1 Figure 1-30 Tableau rcapitulatif des gains pour les centiles et profit moyen

Retour sur investissement (ROI). Diagramme curviligne du ROI (retour sur investissement) cumul. ROI est le ratio recettes/dpenses. Disponible uniquement pour les variables dpendantes qualitatives dont les bnfices sont dfinis.

Le diagramme du ROI trace point par point les valeurs de la colonne ROI du tableau Rcapitulatif des gains pour les centiles.

37 Cration darbres dcision Figure 1-31 Tableau rcapitulatif des gains pour les centiles et diagramme du ROI

Incrment de centile. Pour tous les diagrammes utilisant des centiles, ce paramtre contrle laffichage des incrments des centiles sur le diagramme : 1, 2, 5, 10, 20 ou 25.

38 Chapitre 1

Rgles de slection et danalyse


Figure 1-32 Bote de dialogue Rsultat, onglet Rgles

Longlet Rgles permet de gnrer des rgles de slection ou de classification/prvision sous la forme de syntaxe de commande, au format SQL ou sous forme de texte simple (standard). Vous pouvez afficher ces rgles dans le Viewer et/ou les enregistrer dans un fichier externe.
Syntaxe. Contrle la forme des rgles de slection des rsultats affichs dans le Viewer et des

rgles de slection enregistres dans un fichier externe.

Langage de syntaxe de commande IBM SPSS Statistics.. Les rgles sont exprimes sous la forme dun ensemble de commandes dfinissant une condition de filtre pouvant tre utilise pour slectionner des sous-ensembles dobservations ou sous la forme dinstructions COMPUTE pouvant tre utilises pour analyser les observations.
SQL. Les rgles SQL standard sont gnres pour slectionner des enregistrements dans la

base de donnes, pour les extraire ou pour attribuer des valeurs ces enregistrements. Les rgles SQL gnres ne comportent aucun nom de tableau ou aucune autre information de source de donnes.

Texte simple. Pseudo-code pour la langue standard. Les rgles sont exprimes sous forme

dinstructions logiques si...alors dcrivant les classifications et les prvisions du modle pour chaque noeud. Sous cette forme, les rgles peuvent utiliser des tiquettes de valeur ou de variable dfinies, ou des noms de variables et des valeurs de donnes.

39 Cration darbres dcision

Type. Pour SPSS Statistics et les rgles SQL, commande le type de rgles affich : rgles de slection ou danalyse.

Attribuer des valeurs aux observations. Les rgles peuvent tre utilises pour attribuer les

prvisions du modle aux observations respectant les critres dappartenance aux noeuds. Une rgle distincte est cre pour chaque observation respectant les critres dappartenance aux noeuds.

Slectionner des observations. Les rgles peuvent tre utilises pour slectionner les

observations respectant les critres dappartenance aux noeuds. Pour les rgles SPSS Statistics et SQL, une rgle unique est cre pour slectionner toutes les observations respectant les critres de slection.
Inclure des valeurs de substitution dans SPSS Statistics et les rgles SQL. Pour CRT et QUEST, vous pouvez inclure des variables prdites de substitution provenant du modle dans les rgles. Les rgles comportant des valeurs de substitution peuvent tre relativement complexes. En gnral, si vous souhaitez simplement dgager des informations conceptuelles sur votre arbre, excluez les valeurs de substitution. Si certaines observations comportent des donnes de variable indpendante (prdite) incompltes et que vous souhaitez que les rgles reproduisent votre arbre, incluez les valeurs de substitution. Pour plus d'informations, reportez-vous la section Valeurs de substitution sur p. 16. Noeuds. Commande le champ dapplication des rgles cres. Une rgle distincte est cre pour

chaque noeud inclus dans le champ dapplication.


Tous les noeuds terminaux. Gnre des rgles pour chaque noeud terminal. Meilleurs noeuds terminaux. Gnre des rgles pour les n noeuds terminaux les plus hauts

selon les valeurs dindex. Si le nombre dpasse le nombre de noeuds terminaux de larbre, les rgles sont cres pour tous les noeuds terminaux. (Voir la remarque ci-aprs.)

Meilleurs noeuds terminaux jusqu un pourcentage spcifi dobservations. Gnre des rgles

pour les noeuds terminaux pour les n pourcentages dobservations les plus hauts selon les valeurs dindex. (Voir la remarque ci-aprs.)

Noeuds terminaux dont la valeur dindex est gale ou suprieure une valeur de csure. Gnre

des rgles pour tous les noeuds terminaux dont la valeur dindex est suprieure ou gale la valeur spcifie. Une valeur dindex suprieure 100 signifie que le pourcentage dobservations dans la modalit cible de ce noeud dpasse le pourcentage du noeud racine. (Voir la remarque ci-aprs.)

Tous les noeuds. Gnre des rgles pour tous les noeuds.

Remarque 1 : La slection des noeuds base sur les valeurs dindex est uniquement disponible pour les variables dpendantes qualitatives comportant des modalits cible dfinies. Si vous avez indiqu plusieurs modalits cible, un jeu de rgles distinct est cr pour chaque modalit cible. Remarque 2 : Pour SPSS Statistics et les rgles SQL de slection des observations (et non les rgles daffectation des valeurs), Tous les noeuds et Tous les noeuds terminaux gnrent efficacement une rgle slectionnant toutes les observations utilises dans lanalyse.
Exporter les rgles dans un fichier. Enregistre les rgles dans un fichier texte externe.

40 Chapitre 1

Vous pouvez galement gnrer et enregistrer les rgles de slection ou danalyse de manire interactive, en fonction des noeuds slectionns dans le modle darbre final. Pour plus d'informations, reportez-vous la section Rgles de slection et danalyse des observations dans le chapitre 2 sur p. 49. Remarque : Si vous appliquez des rgles sous forme de syntaxe de commande un autre fichier de donnes, ce fichier de donnes doit contenir des variables portant les mmes noms que les variables indpendantes incluses dans le modle final, mesures avec la mme unit, comportant les mmes valeurs manquantes spcifies par lutilisateur (sil en existe).

Chapitre

Editeur darbre
Avec lditeur darbre, vous pouvez :

Masquer et afficher des branches darbre slectionnes. Contrler laffichage du contenu des noeuds, des statistiques lendroit de la scission des noeuds, ainsi que dautres informations. Modifier les noeuds, les arrire-plans, les bordures, les diagrammes et les couleurs de police. Modifier le style et la taille de police. Modifier lalignement des arbres. Slectionner des sous-ensembles dobservations pour une analyse plus approfondie base sur les noeuds slectionns. Crer et enregistrer des rgles de slection ou danalyse des observations bases sur les noeuds slectionns.

Pour modifier un modle darbre :


E Double-cliquez sur le modle darbre dans la fentre du Viewer.

ou
E Dans le menu Edition ou le menu contextuel, choisissez : Modifier le contenu > Dans une fentre distincte

Affichage/Masquage des noeuds

Pour masquer (rduire) tous les noeuds enfant dans une branche situe en dessous dun noeud parent :
E Cliquez sur le signe moins () dans la petite case situe sous le coin infrieur droit du noeud parent.

Tous les noeuds en dessous du noeud parent de cette branche seront masqus. Pour afficher (dvelopper) tous les noeuds enfant dans une branche situe en dessous dun noeud parent :
E Cliquez sur le signe plus (+) dans la petite case situe sous le coin infrieur droit du noeud parent.

Remarque : Masquer les noeuds enfant dune branche ne revient pas laguer un arbre. Si vous souhaiter laguer votre arbre, vous devez demander un lagage avant de crer larbre ; ainsi, les branches lagues ne sont pas incluses dans larbre final. Pour plus d'informations, reportez-vous la section Elagage des arbres dans le chapitre 1 sur p. 15.
Copyright IBM Corporation 1989, 2011. 41

42 Chapitre 2 Figure 2-1 Arbre dvelopp et rduit

Slection de plusieurs noeuds

Vous pouvez slectionner des observations, gnrer des rgles danalyse et de slection, et raliser dautres actions bases sur les noeuds slectionns. Pour slectionner plusieurs noeuds :
E Cliquez sur le noeud que vous voulez slectionner. E Cliquez sur les autres noeuds que vous voulez slectionner en maintenant la touche Ctrl enfonce.

Vous pouvez slectionner des noeuds enfant et/ou des noeuds parent dans une branche et des noeuds enfant dans une autre branche. Cependant, il est impossible dutiliser la slection multiple sur un noeud parent et un noeud enfant de la mme branche.

Manipulation de grands arbres


Il peut arriver que les modles darbre contiennent tellement de noeuds et de branches quil est difficile, voire impossible dafficher lintgralit de larbre en taille normale. Les fonctions suivantes peuvent vous tre utiles lorsque vous manipulez de grands arbres :

Carte darbre. Vous pouvez utiliser la carte darbre, une version beaucoup plus petite et

simplifie de larbre, pour vous dplacer dans larbre et slectionner des noeuds. Pour plus d'informations, reportez-vous la section Carte darbre sur p. 43.

43 Editeur darbre

Echelle. Vous pouvez effectuer des zooms arrire et avant en modifiant le pourcentage

dchelle utilis pour laffichage de larbre. Pour plus d'informations, reportez-vous la section Mise lchelle de laffichage de larbre sur p. 44.

Affichage des noeuds et des branches. Vous pouvez rendre larbre plus compact en affichant

uniquement les tableaux ou uniquement les diagrammes dans les noeuds, et/ou en supprimant laffichage des tiquettes de noeud ou des informations sur les variables indpendantes. Pour plus d'informations, reportez-vous la section Contrle des informations affiches dans larbre sur p. 45.

Carte darbre
La carte darbre fournit une vue compacte et simplifie de larbre pouvant tre utilise pour se dplacer dans larbre et slectionner des noeuds. Pour utiliser la fentre de la carte darbre :
E A partir des menus de lditeur darbre, slectionnez : Affichage > Carte darbre Figure 2-2 Fentre Carte darbre

Le noeud slectionn est mis en vidence dans lditeur de modle darbre et dans la fentre de la carte darbre. La portion de larbre figurant actuellement dans la zone daffichage de lditeur de modle darbre est indique par un rectangle rouge dans la carte darbre. Cliquez avec le bouton droit et faites glisser le rectangle pour modifier la section de larbre affiche dans la zone daffichage. Si vous slectionnez un noeud de la carte darbre ne figurant pas dans la zone daffichage de lditeur, laffichage change pour inclure le noeud slectionn. La slection de plusieurs noeuds fonctionne de la mme manire dans la carte darbre que dans lditeur darbre : Tout en maintenant la touche Ctrl enfonce, cliquez sur les noeuds pour les slectionner. Il est impossible dutiliser la slection multiple sur un noeud parent et un noeud enfant de la mme branche.

44 Chapitre 2

Mise lchelle de laffichage de larbre


Par dfaut, lchelle des arbres est automatiquement ajuste la fentre du Viewer, ce qui risque de rendre trs difficile la lecture de certains arbres. Vous pouvez slectionner un paramtre dchelle prdfini ou saisir votre propre valeur personnalise situe entre 5 et 200 %. Pour modifier lchelle de larbre :
E Slectionnez un pourcentage dchelle dans la liste droulante de la barre doutils ou saisissez un

pourcentage personnalis. ou
E A partir des menus de lditeur darbre, slectionnez : Affichage > Echelle... Figure 2-3 Bote de dialogue Echelle

Vous pouvez galement indiquer une valeur dchelle avant de crer le modle darbre. Pour plus d'informations, reportez-vous la section Rsultats dans le chapitre 1 sur p. 25.

Fentre Rcapitulatif des noeuds


La fentre Rcapitulatif des noeuds offre une plus grande vue des noeuds slectionns. Vous pouvez galement utiliser la fentre rcapitulative pour afficher, appliquer ou enregistrer des rgles de slection ou danalyse bases sur les noeuds slectionns.

Utilisez le menu Affichage de la fentre Rcapitulatif des noeuds pour changer laffichage dun tableau rcapitulatif, dun diagramme ou de rgles. Utilisez le menu Rgles de la fentre Rcapitulatif des noeuds pour slectionner le type de rgles que vous voulez afficher. Pour plus d'informations, reportez-vous la section Rgles de slection et danalyse des observations sur p. 49. Tous les affichages de la fentre Rcapitulatif des noeuds refltent un rcapitulatif combin de tous les noeuds slectionns.

45 Editeur darbre

Pour utiliser la fentre Rcapitulatif des noeuds :


E Slectionnez les noeuds dans lditeur darbre. Tout en maintenant la touche Ctrl enfonce,

cliquez sur les noeuds pour les slectionner.


E A partir des menus, slectionnez : Affichage > Rcapitulatif Figure 2-4 Fentre rcapitulative

Contrle des informations affiches dans larbre


Le menu Options de lditeur darbre permet de contrler laffichage du contenu des noeuds, des noms et des statistiques des variables indpendantes (explicatives), des dfinitions de noeud, etc. La majeure partie de ces paramtres peut galement tre contrle depuis la barre doutils.
Paramtre Slectionner la modalit prvue (variable dpendante qualitative) Tableaux et/ou diagrammes dans les noeuds Valeurs des tests de signification et valeurs p Slection du menu Options Slectionner les prvisions Contenu du noeud Statistiques des variables indpendantes

46 Chapitre 2

Paramtre Nom des variables indpendantes (explicatives) Valeurs indpendantes (explicatives) des noeuds Alignement (de haut en bas, de gauche droite, de droite gauche) Lgende de diagramme
Figure 2-5 Elments darbre

Slection du menu Options Variables indpendantes Dfinitions de noeud Orientation Lgende

Modification des couleurs et des polices de caractres du texte des arbres


Vous pouvez modifier les couleurs de larbre suivantes :

Couleur de la bordure de noeud, de larrire-plan et du texte Couleur des branches et du texte des branches Couleur de larrire-plan de larbre Couleur de mise en vidence des modalits prvues (variables dpendantes qualitatives) Couleurs des diagrammes de noeud

Vous pouvez galement modifier le type, le style et la taille de la police pour lintgralit des textes de larbre. Remarque : Il est impossible de modifier la couleur ou les attributs de police de noeuds ou de branches individuellement. Les modifications apportes la couleur sappliquent tous les lments dun mme type et les modifications de police ( lexception de la couleur) sappliquent tous les lments du diagramme.

47 Editeur darbre

Pour modifier les couleurs et les attributs de police de caractre :


E Utilisez la barre doutils pour modifier les attributs de police pour lintgralit de larbre ou les

couleurs des divers lments darbre. (Les info-bulles dcrivent chaque commande de la barre doutils lorsque vous placez le pointeur de la souris sur la commande.) ou
E Double-cliquez nimporte o dans lditeur darbre pour ouvrir la fentre Proprits ou choisissez

dans les menus :


Affichage > Proprits E Pour les bordures, les branches, larrire-plan des noeuds, les modalits prvues et larrire-plan de larbre, cliquez sur longlet Couleur. E Pour les couleurs et les attributs de police, cliquez sur longlet Texte. E Pour les couleurs des diagrammes de noeud, cliquez sur longlet Graphiques de noeud. Figure 2-6 Fentre Proprits, onglet Couleur

48 Chapitre 2 Figure 2-7 Fentre Proprits, onglet Texte

Figure 2-8 Fentre Proprits, onglet Graphiques de noeud

49 Editeur darbre

Rgles de slection et danalyse des observations


Vous pouvez utiliser lditeur darbre pour :

Slectionner des sous-ensembles dobservations bass sur les noeuds slectionns. Pour plus d'informations, reportez-vous la section Filtrage des observations sur p. 49. Gnrer des rgles de slection des observations ou des rgles danalyse au format syntaxe de commande IBM SPSS Statistics ou au format SQL. Pour plus d'informations, reportez-vous la section Enregistrement des rgles de slection et danalyse sur p. 49.

Vous pouvez galement enregistrer automatiquement des rgles bases sur plusieurs critres lors du lancement de la procdure Arbre de dcision de cration du modle darbre. Pour plus d'informations, reportez-vous la section Rgles de slection et danalyse dans le chapitre 1 sur p. 38.

Filtrage des observations


Si vous souhaitez en savoir plus sur les observations dun noeud ou dun groupe de noeuds prcis, vous pouvez slectionner un sous-ensemble dobservations pour quil soit analys de manire plus approfondie sur la base des noeuds slectionns.
E Slectionnez les noeuds dans lditeur darbre. Tout en maintenant la touche Ctrl enfonce,

cliquez sur les noeuds pour les slectionner.


E A partir des menus, slectionnez : Rgles > Filtrer les observations... E Entrez le nom dune variable de filtre. Les observations des noeuds slectionns recevront la

valeur 1 pour cette variable. Toutes les autres observations recevront la valeur 0 et seront exclues de lanalyse suivante jusqu modification de ltat du filtre.
E Cliquez sur OK. Figure 2-9 Bote de dialogue Filtrer les observations

Enregistrement des rgles de slection et danalyse


Vous pouvez enregistrer les rgles danalyse et de slection des observations dans un fichier externe, puis les appliquer une autre source de donnes. Les rgles sont bases sur les noeuds slectionns dans lditeur darbre.

50 Chapitre 2

Syntaxe. Contrle la forme des rgles de slection des rsultats affichs dans le Viewer et des

rgles de slection enregistres dans un fichier externe.

IBM SPSS Statistics. Langage de syntaxe de commande. Les rgles sont exprimes sous

la forme dun ensemble de commandes dfinissant une condition de filtre pouvant tre utilise pour slectionner des sous-ensembles dobservations ou sous la forme dinstructions COMPUTE pouvant tre utilises pour analyser les observations.

SQL. Les rgles SQL standard sont gnres pour slectionner/extraire des enregistrements

dans la base de donnes, ou pour attribuer des valeurs ces enregistrements. Les rgles SQL gnres ne comportent aucun nom de tableau ou aucune autre information de source de donnes.
Type. Vous pouvez crer des rgles danalyse ou de slection.

Slectionner des observations. Les rgles peuvent tre utilises pour slectionner les

observations respectant les critres dappartenance aux noeuds. Pour les rgles SPSS Statistics et SQL, une rgle unique est cre pour slectionner toutes les observations respectant les critres de slection.

Attribuer des valeurs aux observations. Les rgles peuvent tre utilises pour attribuer les

prvisions du modle aux observations respectant les critres dappartenance aux noeuds. Une rgle distincte est cre pour chaque observation respectant les critres dappartenance aux noeuds.
Inclure les lments auxiliaires. Pour CRT et QUEST, vous pouvez inclure des variables indpendantes de substitution provenant du modle dans les rgles. Les rgles comportant des valeurs de substitution peuvent tre relativement complexes. En gnral, si vous souhaitez simplement dgager des informations conceptuelles sur votre arbre, excluez les valeurs de substitution. Si certaines observations comportent des donnes de variable indpendante (explicative) incompltes et que vous souhaitez que les rgles reproduisent votre arbre, incluez les valeurs de substitution. Pour plus d'informations, reportez-vous la section Valeurs de substitution dans le chapitre 1 sur p. 16.

Pour enregistrer des rgles danalyse ou de slection des observations :


E Slectionnez les noeuds dans lditeur darbre. Tout en maintenant la touche Ctrl enfonce,

cliquez sur les noeuds pour les slectionner.


E A partir des menus, slectionnez : Rgles > Exporter... E Slectionnez le type de rgles voulu et entrez un nom de fichier.

51 Editeur darbre Figure 2-10 Bote de dialogue Exporter les rgles

Remarque : Si vous appliquez des rgles sous forme de syntaxe de commande un autre fichier de donnes, ce fichier de donnes doit contenir des variables portant les mmes noms que les variables indpendantes incluses dans le modle final, mesures avec la mme unit, comportant les mmes valeurs manquantes spcifies par lutilisateur (sil en existe).

Partie II: Exemples

Chapitre

Hypothses et exigences concernant les donnes


La procdure Arbre de dcision suppose que :

Le niveau de mesure appropri a t attribu toutes les variables danalyse. Pour les valeurs dpendantes qualitatives (nominales et ordinales), les tiquettes de valeur ont t dfinies pour toutes les modalits devant tre incluses dans lanalyse.

Nous utiliserons le fichier tree_textdata.sav pour illustrer limportance de ces deux exigences. Ce fichier de donnes reflte ltat par dfaut des donnes lues ou entres avant que des attributs, tels que le niveau de mesure ou les tiquettes de valeur, aient t dfinis. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans l'annexe A dans IBM SPSS Decision Trees 20.

Effets du niveau de mesure sur les modles darbre


Les deux variables de ce fichier de donnes sont numriques et elles ont toutes deux un niveau de mesure dchelle. Cependant (comme nous le verrons plus tard), ces deux variables sont vritablement des variables qualitatives reposant sur des codes numriques qui font office de valeurs de modalit.
E Pour lancer une analyse darbre de dcision, choisissez les options suivantes dans les menus : Analyse > Classification > Arbre...

Copyright IBM Corporation 1989, 2011.

53

54 Chapitre 3

Les icnes situes en regard des deux variables dans la liste de variables source indiquent quelles seront traites comme des variables dchelle.
Figure 3-1 Bote de dialogue principale Arbre de dcision comportant deux variables dchelle

E Slectionnez la variable dpendante dpendante. E Slectionnez la variable indpendante indpendante. E Cliquez sur OK pour excuter la procdure. E Ouvrez nouveau la bote de dialogue Arbre de dcision et cliquez sur Rinitialiser. E Cliquez avec le bouton droit sur dpendante dans la liste source et slectionnez Nominal dans

le menu contextuel.
E Procdez de la mme faon pour la variable indpendante de la liste source.

55 Hypothses et exigences concernant les donnes

Les icnes en regard de chaque variable indiquent quelles seront traites comme des variables nominales.
Figure 3-2 Icnes nominales de la liste source

E Slectionnez dpendante pour la variable dpendante et indpendante pour la variable indpendante, et cliquez sur OK pour relancer la procdure.

Comparons prsent les deux arbres obtenus. Tout dabord, observons larbre dans lequel les deux variables numriques sont traites en tant que variables dchelle.
Figure 3-3 Arbre dont les deux variables sont traites comme des variables dchelle

56 Chapitre 3

Chaque noeud darbre montre la valeur prvue , qui est la valeur moyenne de la variable dpendante de ce noeud. Pour une variable qui est rellement qualitative, la moyenne ne sera peut-tre pas une statistique reprsentative. Larbre comporte quatre noeuds enfant, un pour chaque valeur de la variable indpendante.

Les modles darbre fusionnent souvent des noeuds similaires, mais pour une variable dchelle, seules les valeurs attenantes peuvent tre fusionnes. Dans cet exemple, aucune valeur attenante ntait suffisamment identique pour que des noeuds aient pu fusionner. Larbre dans lequel les deux variables sont traites comme des variables nominales est lgrement diffrent plusieurs gards.
Figure 3-4 Arbre dont les deux variables sont traites comme des variables nominales

Au lieu dune prvision, chaque noeud contient un tableau deffectifs indiquant le nombre dobservations (effectif et pourcentage) de chaque modalit de la variable dpendante. La modalit prvue , correspondant la modalit comportant leffectif le plus lev dans chaque noeud, est slectionne. Par exemple, la modalit prvue pour le noeud 2 est la modalit 3. Au lieu de quatre noeuds enfant, il nen existe que trois, avec deux valeurs de la variable indpendante fusionnes en un seul noeud.

Les deux valeurs indpendantes fusionnes en un mme nud sont 1 et 4. Etant donn que, par dfinition, les valeurs nominales ne suivent aucun ordre inhrent, la fusion des valeurs non attenantes est autorise.

Affectation permanente du niveau de mesure


Lorsque vous modifiez le niveau de mesure dune variable dans la bote de dialogue Arbre de dcision, cette modification est temporaire et nest pas enregistre dans le fichier de donnes. De plus, vous ne connatrez peut-tre pas toujours le niveau de mesure correct de toutes les variables.

57 Hypothses et exigences concernant les donnes

Loption Dfinir les proprits de variable peut vous aider dterminer le niveau de mesure correct de chaque variable et de modifier de manire permanente le niveau de mesure affect. Pour utiliser loption Dfinir les proprits de variable :
E A partir des menus, slectionnez : Donnes > Dfinir les proprits de variables

Variables avec niveau de mesure inconnu


Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables (champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure dfini.
Figure 3-5 Alerte du niveau de mesure

Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau

de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de donnes est important, cette action peut prendre un certain temps.

Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un

niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans laffichage des variables de lditeur de donnes. Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de mesure dfinis.

Effets des tiquettes de valeur sur les modles darbre


Linterface de la bote de dialogue Arbre de dcision suppose que, soit toutes les valeurs non manquantes dune variable dpendante qualitative (nominale, ordinale) disposent dtiquettes de valeurs dfinies, soit quaucune nen dispose. Certaines fonctions ne sont disponibles que si au moins deux valeurs non manquantes de la variable dpendante qualitative disposent dtiquettes de valeur. Si au moins deux valeurs non manquantes disposent dtiquettes de valeur dfinies,

58 Chapitre 3

toutes les observations contenant dautres valeurs ne disposant pas dtiquettes de valeur seront exclues de lanalyse. Dans cet exemple, le fichier de donnes dorigine ne contient aucune tiquette de valeur dfinie, et lorsque la variable dpendante est traite comme une variable nominale, le modle darbre utilise toutes les valeurs non manquantes dans lanalyse. Dans cet exemple, ces valeurs sont 1, 2 et 3. Quarrive-t-il lorsque certaines variables dpendantes disposent dtiquettes de valeur dfinies, mais pas toutes ?
E Dans la fentre de lditeur de donnes, cliquez sur longlet Affichage des variables. E Cliquez sur la cellule Valeurs pour la variable dpendante. Figure 3-6 Dfinition dtiquettes de valeurs pour une variable dpendante

E Tout dabord, saisissez 1 pour Valeur et Oui pour Etiquette de valeur, puis cliquez sur Ajouter. E Saisissez ensuite 2 pour Valeur et Non pour Etiquette de valeur, puis cliquez nouveau sur Ajouter. E Cliquez ensuite sur OK. E Ouvrez nouveau la bote de dialogue Arbre de dcision. Dans la bote de dialogue, loption

dpendante doit encore tre slectionne en tant que variable dpendante, ainsi quun niveau de mesure nominal.
E Cliquez sur OK pour excuter nouveau la procdure.

59 Hypothses et exigences concernant les donnes Figure 3-7 Arbre de variable dpendante nominale avec tiquettes de valeur partielles

A prsent, seules les deux valeurs de variable dpendante comportant des tiquettes de valeur dfinies sont incluses dans le modle darbre. Toutes les observations ayant la valeur 3 pour la variable dpendante ont t exclues, mme si cela nest peut tre pas vident si vous ne connaissez pas bien les donnes.

Affectation dtiquettes de valeur toutes les valeurs


Pour viter doublier par accident les valeurs qualitatives valides dans lanalyse, utilisez Dfinir les proprits de variable pour affecter des tiquettes de valeur toutes les valeurs de variable dpendante des donnes.

60 Chapitre 3

Lorsque les informations du dictionnaire de donnes sont affiches pour le nom de variable dans la bote de dialogue Dfinir les proprits de variable, vous pouvez voir que, mme si plus de 300 observations ont la valeur 3 pour cette variable, aucune tiquette de valeur na t dfinie pour cette valeur.
Figure 3-8 Variable avec tiquettes de valeur partielles dans la bote de dialogue Dfinir les proprits de variable

Chapitre

Utilisation des arbres de dcision pour valuer le risque de crdit

Une banque tient jour une base de donnes contenant des informations chronologiques sur les clients ayant emprunt de largent, indiquant sils ont rembours la somme emprunte ou manqu leurs engagements. Vous pouvez utiliser un modle darbre pour analyser les caractristiques de ces deux groupes de clients et pour construire des modles afin de prdire la probabilit selon laquelle les demandeurs de prt risquent de ne pas parvenir rembourser leur emprunt. Les donnes de crdit se trouvent dans le fichier tree_credit.sav. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans l'annexe A dans IBM SPSS Decision Trees 20.

Cration du modle
La procdure Arbre de dcision propose diffrentes mthodes de cration de modles darbre. Dans cet exemple, nous utiliserons la mthode par dfaut :
CHAID. Chi-squared Automatic Interaction Detection. A chaque tape, CHAID choisit la variable indpendante (prdite) dont l'interaction avec la variable dpendante est la plus forte. Les modalits de chaque valeur prdite sont fusionnes si elles ne prsentent pas de diffrences significatives avec la variable dpendante.

Construction du modle darbre CHAID


E Pour lancer une analyse darbre de dcision, choisissez les options suivantes dans les menus : Analyse > Classification > Arbre...

Copyright IBM Corporation 1989, 2011.

61

62 Chapitre 4 Figure 4-1 Bote de dialogue Arbre de dcision

E Slectionnez la variable dpendante Cote de solvabilit. E Slectionnez toutes les variables restantes en tant que variables indpendantes. (La procdure

exclut automatiquement les variables qui napportent rien au modle final.) A ce stade, vous pourriez dj excuter la procdure et produire un modle darbre de base, mais nous allons slectionner quelques types de sortie supplmentaires et apporter de petits ajustements aux critres utiliss pour gnrer le modle.

Slection des modalits cible


E Cliquez sur le bouton Modalits qui figure sous la variable dpendante slectionne.

63 Utilisation des arbres de dcision pour valuer le risque de crdit

Dans la bote de dialogue Modalits qui apparat, vous pouvez indiquer les modalits cible de variable dpendante souhaites. Les modalits cible nont pas dimpact direct sur le modle darbre, mais certains types de sortie et options ne sont disponibles que si vous en avez slectionn.
Figure 4-2 Bote de dialogue Modalits

E Cochez la case Cible de la modalit Mauvaise. Les clients avec une mauvaise cote de solvabilit

(qui ne parviennent pas rembourser leur emprunt) sont alors considrs comme la modalit cible tudier.
E Cliquez sur Poursuivre.

Spcification des critres de croissance de larbre


Pour cet exemple, nous avons voulu prsenter un arbre relativement simple ; nous limiterons donc la croissance de larbre en augmentant le nombre minimum dobservations pour les noeuds parent et enfant.
E Dans la bote de dialogue Arbre de dcision principale, cliquez sur Critres.

64 Chapitre 4 Figure 4-3 Bote de dialogue Critres, onglet Limites de croissance

E Dans le groupe Nombre minimal dobservations, saisissez 400 pour loption Noeud parent et 200

pour loption Noeud enfant.


E Cliquez sur Poursuivre.

Slection de types de sortie supplmentaires


E Dans la bote de dialogue Arbre de dcision principale, cliquez sur Rsultat.

65 Utilisation des arbres de dcision pour valuer le risque de crdit

Dans la bote de dialogue onglets qui apparat, vous pouvez slectionner divers types de sortie supplmentaires.
Figure 4-4 Bote de dialogue Rsultats, onglet Arbre

E Dans longlet Arbre, cochez la case Arbre au format tableau. E Cliquez ensuite sur longlet Diagrammes.

66 Chapitre 4 Figure 4-5 Bote de dialogue Rsultat, onglet Diagrammes

E Cochez Gain et Index.

Remarque : Ces diagrammes requirent une modalit cible pour la variable dpendante. Dans cet exemple, longlet Diagrammes nest accessible que lorsque vous avez indiqu une ou plusieurs modalits cible.
E Cliquez sur Poursuivre.

Enregistrement de prvisions
Vous pouvez enregistrer des variables contenant des informations sur les prvisions de modle. Par exemple, vous pouvez enregistrer la cote de solvabilit prvue pour chaque observation et la comparer la cote de solvabilit relle.
E Dans la bote de dialogue Arbre de dcision principale, cliquez sur Enregistrer.

67 Utilisation des arbres de dcision pour valuer le risque de crdit Figure 4-6 Enregistrer

E Cochez les cases Nombre de noeuds terminaux, Prvisions et Probabilits prvues. E Cliquez sur Poursuivre. E Dans la bote de dialogue Arbre de dcision principale, cliquez sur OK pour lancer la procdure.

Evaluation du modle
Dans notre exemple, les rsultats du modle comprennent :

Des tableaux fournissant des informations sur le modle. Un diagramme darbre. Des diagrammes fournissant des indications sur les performances du modle. Des variables de prvision de modle ajoutes lensemble de donnes actif.

68 Chapitre 4

Tableau rcapitulatif des modles


Figure 4-7 Rcapitulatif du modle

Le tableau rcapitulatif des modles fournit des informations trs gnrales sur les spcifications utilises pour construire le modle et sur le modle obtenu.

La section Spcifications donne des informations sur les paramtres utiliss pour gnrer le modle darbre, dont les variables utilises lors de lanalyse. La section Rsultats contient des informations sur le nombre total de noeuds et le nombre de noeuds terminaux, la profondeur de larbre (nombre de niveaux en dessous du noeud racine) et les variables indpendantes incluses dans le modle final.

Cinq variables indpendantes ont t indiques, mais seulement trois incluses dans le modle final. Les variables concernant le niveau dtudes et le nombre de prts auto en cours napportaient rien au modle et ont donc t supprimes du modle final.

69 Utilisation des arbres de dcision pour valuer le risque de crdit

Diagramme de larbre
Figure 4-8 Diagramme darbre du modle de la cote de solvabilit

Le diagramme darbre est une reprsentation graphique du modle darbre. Il montre les lments suivants :

Dans le cadre de la mthode CHAID, le niveau de revenu est la meilleure variable indpendante de la cote de solvabilit. Pour la modalit des revenus faibles, le niveau de revenu est mme la seule variable indpendante significative de la cote de solvabilit. Parmi les clients de la banque appartenant cette modalit, 82 % ont manqu leurs engagements. Etant donn quaucun noeud enfant ne figure sous cet lment, il est considr comme un noeud terminal. Pour les modalits de revenus moyens et levs, la meilleure variable indpendante suivante est le nombre de cartes de crdit. Pour les clients disposant de revenus moyens et dtenteurs dau moins cinq cartes de crdit, le modle inclut une variable indpendante supplmentaire : lge. En effet, plus de 80 % des clients gs de 28 ans ou moins ont une mauvaise cte de solvabilit, alors que, pour les plus de 28 ans, la mauvaise cte de solvabilit ne concerne plus quun peu moins de la moiti des personnes.

70 Chapitre 4

Vous pouvez utiliser lditeur darbre pour masquer et afficher les branches slectionnes, modifier les couleurs et les polices, et slectionner des sous-ensembles dobservations en fonction des noeuds slectionns. Pour plus d'informations, reportez-vous la section Slection dobservations dans les noeuds sur p. 76.

Tableau de larbre
Figure 4-9 Tableau darbre de la cote de solvabilit

Comme son nom lindique, le tableau darbre reprend dans un tableau la plupart des informations essentielles du diagramme darbre. Le tableau affiche les informations suivantes pour chaque noeud :

Nombre et pourcentage dobservations dans chaque modalit de la variable dpendante. Modalit prvue de la variable dpendante. Dans cet exemple, il sagit de la modalit de la cote de solvabilit, avec plus de 50 % des observations dans ce noeud, les cotes de solvabilit possibles tant au nombre de deux. Noeud parent de chaque noeud de larbre. Notez que le noeud 1, celui du niveau de revenu faible, nest parent daucun noeud. En effet, il sagit dun noeud terminal qui na donc pas de noeuds enfant.

71 Utilisation des arbres de dcision pour valuer le risque de crdit Figure 4-10 Tableau darbre de la cote de solvabilit (suite)

Variable indpendante utilise pour scinder le noeud. Valeur Khi-deux (larbre ayant t gnr laide de la mthode CHAID), degrs de libert (ddl) et seuil de signification (Sig.) de la scission. Dans la plupart des applications pratiques, vous ne serez certainement intress que par le seuil de signification, infrieur 0,0001 pour toutes les scissions de ce modle. Valeurs de la variable indpendante du noeud.

Remarque : Pour les variables indpendantes ordinales et dchelle, les intervalles de larbre et du tableau darbre sont gnralement exprims sous la forme (valeur1, valeur2], ce qui signifie suprieur valeur1 et infrieur ou gal valeur2. Dans notre exemple, le niveau de revenu na que trois valeurs possibles : faible, moyen et lev. (faible, moyen] signifie donc tout simplement moyen. De mme, >moyen signifie >lev.

72 Chapitre 4

Gains pour les noeuds


Figure 4-11 Gains pour les noeuds

Le tableau de gains pour les noeuds rcapitule les informations ayant trait aux noeuds terminaux du modle.

Seuls les noeuds terminaux, noeuds au niveau desquels larbre arrte de se dvelopper, sont rpertoris dans ce tableau. La plupart du temps, seuls ces noeuds, qui reprsentent les meilleures prvisions de classification du modle, vous intressent. Les valeurs de gain fournissant des informations sur les modalits cible, ce tableau nest disponible que si vous avez indiqu une ou plusieurs modalits cible. Dans notre exemple, il nexiste quune modalit cible. Un seul tableau de gains pour les noeuds est donc gnr. Noeud N reprsente le nombre dobservations dans chaque noeud terminal et Pourcentage de noeud le pourcentage dobservations dans chaque noeud par rapport au nombre total dobservations. Gain N reprsente le nombre dobservations dans chaque noeud terminal de la modalit cible et Pourcentage de gain le pourcentage dobservations dans la modalit cible par rapport au nombre total dobservations de cette modalit, savoir le nombre et le pourcentage dobservations affichant une mauvaise cte de solvabilit dans lexemple qui nous occupe. Pour les variables dpendantes qualitatives, loption Rponse correspond au pourcentage dobservations dans le noeud de la modalit cible spcifie. Dans cet exemple, il sagit des mmes pourcentages que ceux affichs pour la modalit Mauvaise dans le diagramme darbre. Pour les variables dpendantes qualitatives, loption Index correspond au rapport entre le pourcentage de rponses de la modalit cible et le pourcentage de rponses de lintgralit de lchantillon.

Valeurs dindex

La valeur dindex indique limportance de la diffrence existant entre le pourcentage de modalit cible observ pour le nud et le pourcentage attendu. Le pourcentage de modalit cible du nud racine reprsente le pourcentage attendu, avant prise en compte de limpact des variables indpendantes. Une valeur dindex suprieure 100 % signifie quil existe plus dobservations dans la modalit cible que le pourcentage global de la modalit cible. Inversement, une valeur dindex infrieure 100 % signifie quil existe moins dobservations dans la modalit cible que le pourcentage global.

73 Utilisation des arbres de dcision pour valuer le risque de crdit

Diagramme des gains


Figure 4-12 Diagramme des gains de la modalit cible de mauvaise cote de solvabilit

Le diagramme des gains indique que le modle est assez bon. Les diagrammes de gains cumuls commencent 0 % et finissent 100 %. Les diagrammes de gains des bons modles prsentent une hausse rapide en direction de la valeur 100 %, puis se stabilisent. Les modles ne fournissant pas dinformations suivent la diagonale de rfrence.

Diagramme des index


Figure 4-13 Diagramme des index de la modalit cible de mauvaise cote de solvabilit

74 Chapitre 4

Le diagramme des index indique galement que le modle est bon. Les diagrammes dindex cumuls commencent gnralement au-dessus de 100 % pour descendre ensuite progressivement jusqu 100 %. Les valeurs dindex des bons modles dbutent bien au-dessus de 100 %, restent un niveau lev pendant un certain temps, puis diminuent rapidement en direction de la valeur 100 %. Dans les modles ne fournissant pas dinformations, la ligne reste aux alentours de 100 % dans lintgralit du diagramme.

Estimation du risque et classification


Figure 4-14 Tableaux de risque et de classement

Les tableaux de risques et de classement permettent dvaluer rapidement lefficacit du modle.

Lestimation du risque (qui slve 0,205) indique que la modalit prvue par le modle (bonne ou mauvaise cte de solvabilit) est fausse dans 20,5 % des observations. Le risque de classification errone dun client est donc denviron 21 %. Les rsultats du tableau de classement confirment les informations donnes par lestimation du risque. Le tableau indique que le modle classe correctement environ 79,5 % des clients.

Le tableau de classement indique nanmoins que le modle pose un problme potentiel : le modle ne prdit une mauvaise cote de solvabilit que pour 65 % des clients rellement concerns. Autrement dit, 35 % de ces clients sont placs tort dans les bons clients.

75 Utilisation des arbres de dcision pour valuer le risque de crdit

Prvisions
Figure 4-15 Nouvelles variables pour les prvisions et les probabilits

Quatre nouvelles variables ont t cres dans lensemble de donnes actif :


IDNoeud. Nombre de noeuds terminaux pour chaque observation. ValeurPrvue. Prvision de la variable dpendante pour chaque observation. La variable dpendante est code de la manire suivante : 0 = Mauvais et 1 = Bon. Une prvision de 0 indique donc que lobservation obtiendra une mauvaise cote de solvabilit. ProbabilitPrvue. Probabilit selon laquelle lobservation appartient chaque modalit de la variable dpendante. tant donn que la variable dpendante ne peut recevoir que deux valeurs, deux variables sont cres :

ProbabilitPrvue_1. Probabilit selon laquelle lobservation appartient la modalit de

mauvaise cote de solvabilit.


ProbabilitPrvue_2. Probabilit selon laquelle lobservation appartient la modalit de bonne

cote de solvabilit. La probabilit prvue correspond simplement la proportion dobservations dans chaque modalit de la variable dpendante, pour le noeud terminal contenant chaque observation. Par exemple, dans le noeud 1, 82 % des observations appartiennent la modalit de mauvaise cote de solvabilit et 18 % celle de bonne cote de solvabilit, do des probabilits prvues de 0,82 et de 0,18, respectivement. Dans les variables dpendantes qualitatives, la prvision est la modalit correspondant la proportion la plus leve dobservations dans le noeud terminal de chaque observation. Par exemple, la prvision de la premire observation est de 1 (bonne cote de solvabilit), car environ 56 % des observations de son noeud terminal ont une bonne cote de solvabilit. Inversement, la prvision de la seconde observation est de 0 (mauvaise cote de solvabilit), car environ 81 % des observations de son nud terminal ont une mauvaise cote de solvabilit.

76 Chapitre 4

Toutefois, si vous dfinissez des cots, la relation entre la modalit prvue et les probabilits prvues nest pas toujours aussi vidente. Pour plus d'informations, reportez-vous la section Affectation de cots aux rsultats sur p. 79.

Amlioration du modle
Globalement, le modle prsente un taux de classification correcte lgrement infrieur 80 %. Cette constatation se reflte dans la plupart des noeuds terminaux, o la modalit estime (la modalit slectionne dans le noeud) est identique la modalit relle pour au moins 80 % des observations. Cependant, un nud terminal prsente des observations rparties quitablement entre bonne et mauvaise cote de solvabilit. La cote de solvabilit prvue pour le noeud 9 est de type bonne . Pourtant, seulement 56 % des observations du noeud ont rellement une bonne cote de solvabilit. Autrement dit, presque la moiti des observations de ce nud (44 %) ont une modalit prvue incorrecte. Or, si lobjectif principal est didentifier les risques de mauvaise cote de solvabilit, ce noeud nest pas trs efficace.

Slection dobservations dans les noeuds


tudions les observations du noeud 9 pour voir si les donnes nous apportent des informations supplmentaires utiles.
E Dans le Viewer, double-cliquez sur larbre pour ouvrir lditeur darbre. E Cliquez sur le noeud 9 pour le slectionner. (Pour slectionner plusieurs noeuds, appuyez sur la

touche Ctrl tout en cliquant sur les noeuds souhaits.)


E A partir des menus de lditeur darbre, slectionnez : Rgles > Filtrer les observations... Figure 4-16 Bote de dialogue Filtrer les observations

La bote de dialogue Filtrer les observations cre une variable de filtre et applique un paramtre de filtre bas sur les valeurs de cette variable. Le nom par dfaut de la variable de filtre est filter_$.

Les observations des noeuds slectionns reoivent une valeur de 1 pour la variable de filtre. Toutes les autres observations recevront la valeur 0 et seront exclues des analyses suivantes jusqu modification de ltat du filtre.

77 Utilisation des arbres de dcision pour valuer le risque de crdit

Dans notre exemple, les observations nappartenant pas au noeud 9 seront donc limines pour linstant (mais pas supprimes).
E Cliquez sur OK pour crer la variable de filtre et appliquer la condition correspondante. Figure 4-17 Observations filtres dans lditeur de donnes

Dans lditeur de donnes, les observations limines sont signales par un trait en diagonale barrant le numro de la ligne. Les observations nappartenant pas au noeud 9 sont limines. En revanche, les observations du nud 9 ne sont pas exclues. Les analyses effectues par la suite nintgreront donc que ces observations.

Examen des observations slectionnes


Pour commencer lexamen des observations du nud 9, vous pouvez tudier les variables non utilises par le modle. Dans cet exemple, toutes les variables du fichier de donnes ont t incluses dans lanalyse, mais deux dentre elles nont pas t intgres au modle final : le niveau dtudes et le nombre de prts auto. Si la procdure les a omises du modle final, cest certainement quelles ne sont pas trs significatives, mais jetons-y tout de mme un oeil.
E A partir des menus, slectionnez : Analyse > Statistiques descriptives > Tableaux croiss

78 Chapitre 4 Figure 4-18 Bote de dialogue Tableaux croiss

E Slectionnez la variable de ligne Cote de solvabilit. E Slectionnez les variables de colonne Annes dtude et Prts auto. E Cliquez sur Cells. Figure 4-19 Bote de dialogue Tableaux croiss : Contenu des cases (cellules)

E Dans le groupe Pourcentages, cochez la case Ligne.

79 Utilisation des arbres de dcision pour valuer le risque de crdit E Cliquez ensuite sur Continuer, puis, dans la bote de dialogue Tableaux croiss principale, cliquez sur OK pour lancer la procdure.

En examinant les tableaux croiss, vous constatez que, pour les deux variables exclues du modle, les observations des modalits de bonne et de mauvaise cote de solvabilit diffrent peu.
Figure 4-20 Tableaux croiss des observations du noeud slectionn

En ce qui concerne le niveau dtudes, un peu plus de la moiti des observations dnotant une mauvaise cote de solvabilit correspondent des personnes ayant seulement un niveau bac, tandis quun peu plus de la moiti des observations dnotant une bonne cote de solvabilit correspondent des personnes ayant poursuivi des tudes suprieures. Cette diffrence nest pas significative sur le plan statistique. En ce qui concerne les prts auto, le pourcentage dobservations dotes dune bonne cote de solvabilit et correspondant des personnes nayant contract aucun prt-auto ou un seul est suprieur au pourcentage dobservations dotes dune mauvaise cote de solvabilit. Toutefois, la grande majorit des observations des deux groupes correspond des personnes ayant contract plusieurs prts auto.

Nous savons maintenant pourquoi ces variables nont pas t incluses dans le modle final, mais nous navons toujours pas trouv le moyen damliorer les prvisions du noeud 9. Si dautres variables nont pas t retenues pour lanalyse, vous pouvez les examiner avant de poursuivre.

Affectation de cots aux rsultats


Comme nous lavons constat prcdemment, les observations du noeud 9 se rpartissent quitablement dans les deux modalits de cote de solvabilit. En outre, la modalit prvue est de type bonne ce qui est problmatique si votre objectif principal est de construire un modle identifiant correctement les risques de mauvaise cote de solvabilit. Bien quil soit

80 Chapitre 4

peut-tre impossible damliorer les performances du nud 9, vous pouvez affiner le modle afin daccrotre le taux de classification correcte des observations dnotant une mauvaise cote de solvabilit (mme si cette opration entranera un taux de classification errone plus lev pour les observations dnotant une bonne cote de solvabilit). En premier lieu, dsactivez le filtrage de sorte utiliser toutes les observations dans lanalyse.
E A partir des menus, slectionnez : Donnes > Slectionner des observations E Dans la bote de dialogue Slectionner des observations, slectionnez Toutes les observations, puis cliquez sur OK. Figure 4-21 Bote de dialogue Slectionner des observations

E Ouvrez de nouveau la bote de dialogue Arbre de dcision et cliquez sur Options.

81 Utilisation des arbres de dcision pour valuer le risque de crdit E Cliquez sur longlet Cots de classification errone. Figure 4-22 Bote de dialogue Options, onglet Cots de classification errone

E Slectionnez Personnalis, et saisissez la valeur 2 pour la modalit relle Mauvaise / modalit

prvue Bonne. Vous indiquez ainsi la procdure que le cot de la classification errone dune mauvaise cote de solvabilit potentielle dans le type bonne cote de solvabilit est deux fois plus lev que celui de la classification errone dune bonne cote de solvabilit potentielle dans le type mauvaise cote de solvabilit.
E Cliquez sur Poursuivre, puis sur OK dans la bote de dialogue principale pour excuter la procdure.

82 Chapitre 4 Figure 4-23 Modle darbre avec valeurs de cot ajustes

Au premier abord, larbre gnr par la procdure ressemble larbre initial. En examinant plus attentivement larbre, vous constatez toutefois que certaines modalits prvues ont chang, mme si la distribution des observations dans chaque noeud est identique. La modalit prvue reste identique dans lensemble des noeuds terminaux lexception dun seul : le noeud 9. La modalit prvue est dsormais de type mauvaise, mme si un peu plus de la moiti des observations appartiennent la modalit bonne. Etant donn que nous avons indiqu la procdure que le cot de la classification errone dune mauvaise cote de solvabilit potentielle dans le type bonne cote de solvabilit tait plus lev, tous les noeuds o les observations taient rparties quitablement entre les deux modalits prsentent dsormais une modalit prvue de type mauvaise, mme si une petite majorit des observations appartient la modalit de type bonne.

83 Utilisation des arbres de dcision pour valuer le risque de crdit

Ce changement au niveau de la modalit prvue est reflt par le tableau de classement.


Figure 4-24 Tableaux de risques et de classement bass sur les cots ajusts

Prs de 86 % des risques de mauvaise cote de solvabilit sont dsormais correctement classs, contre seulement 65 % auparavant. En revanche, le taux de classification correcte des bonnes cotes de solvabilit potentielles est pass de 90 % 71 %, et le taux de classification correcte global de 79,5 % 77,1 %.

Notez galement que lestimation du risque et le taux de classification correcte global ne vont plus dans le mme sens. Avec un taux de classification correcte global de 77,1 %, vous attendez une estimation du risque de 0,229. Or, laugmentation du cot de la classification errone des mauvaises cotes de solvabilit potentielles a, dans cet exemple, accru la valeur du risque, ce qui rend linterprtation moins vidente.

Rcapitulatif
Les modles darbre permettent de classer les observations dans des groupes identifis par des caractristiques spcifiques, comme celles associes aux clients ayant des antcdents de bonne ou de mauvaise cote de solvabilit auprs de la banque. Si un rsultat prvu particulier est plus important que tous les autres rsultats possibles, vous pouvez affiner le modle pour associer ce rsultat un cot de classification errone plus lev. Notez nanmoins quen rduisant le taux de classification errone dun rsultat, vous augmentez ceux des autres rsultats.

Chapitre

Construction dun modle danalyse

Lune des fonctions les plus puissantes et utiles de la procdure Arbre de dcision rside dans la possibilit de construire des modles pouvant ensuite tre appliqus dautres fichiers de donnes pour prvoir des rsultats. Par exemple, partir dun fichier de donnes contenant la fois des informations dmographiques et des informations sur le prix dachat de vhicules, nous pouvons laborer un modle pouvant tre utilis pour prvoir le nombre de personnes prsentant les mmes caractristiques dmographiques qui sont susceptibles de dpenser pour lachat dune nouvelle voiture, puis appliquer ce modle dautres fichiers de donnes dans lesquels figurent des informations dmographiques, mais pas dinformations sur lachat du prcdent vhicule. Pour cet exemple, nous utiliserons le fichier de donnes tree_car.sav. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans l'annexe A dans IBM SPSS Decision Trees 20.

Construction du modle
E Pour lancer une analyse darbre de dcision, choisissez les options suivantes dans les menus : Analyse > Classification > Arbre... Figure 5-1 Bote de dialogue Arbre de dcision

E Slectionnez Prix du vhicule principal en tant que variable dpendante. Copyright IBM Corporation 1989, 2011. 84

85 Construction dun modle danalyse E Slectionnez toutes les variables restantes en tant que variables indpendantes. (La procdure

exclut automatiquement les variables qui napportent rien au modle final.)


E Pour la mthode de croissance, slectionnez CRT. E Cliquez sur Rsultat. Figure 5-2 Bote de dialogue Rsultat, onglet Rgles

E Cliquez sur longlet Rgles. E Slectionnez (cochez) Gnrer des rgles de classification. E Pour Syntaxe, slectionnez IBM SPSS Statistics. E Pour Type, slectionnez Attribuer des valeurs aux observations. E Slectionnez (cochez) Exporter les rgles dans un fichier et saisissez un nom de fichier et

lemplacement dun rpertoire. Mmorisez ce nom de fichier et cet emplacement ou notez-les car vous allez en avoir besoin plus tard. Si vous navez pas saisi de chemin de rpertoire, vous ne savez peut-tre pas o le fichier a t enregistr. Vous pouvez utiliser le bouton Parcourir pour parcourir les rpertoires et accder un emplacement spcifique (et valide).
E Cliquez sur Continuer, puis sur OK pour lancer la procdure et construire le modle darbre.

86 Chapitre 5

Evaluation du modle
Avant dappliquer le modle dautres fichiers de donnes, vous voudrez peut-tre vous assurer que le modle fonctionne relativement bien avec les donnes dorigine utilises pour sa construction.

Rcapitulatif des modles


Figure 5-3 Tableau rcapitulatif des modles

Le tableau rcapitulatif des modles indique que seulement trois des variables indpendantes slectionnes ont apport une contribution suffisamment significative pour tre incluses dans le modle final : les revenus, lge et la formation. Ces informations sont essentielles pour savoir si vous allez appliquer ce modle dautres fichiers de donnes, tant donn que les variables indpendantes utilises dans le modle doivent tre prsentes dans tous les fichiers de donnes auxquels vous souhaitez appliquer le modle. Le tableau rcapitulatif indique galement que le modle darbre nest peut-tre pas trs simple car il comporte 29 noeuds et 15 noeuds terminaux. Cela ne pose pas de problme si vous avez besoin dun modle fiable et facile appliquer plutt que dun modle simple et facile dcrire ou expliquer. Bien sr, pour des raisons pratiques, vous souhaitez probablement un modle ne reposant pas sur de trop nombreuses variables indpendantes (qualitatives). Dans ce cas, ce nest pas un problme car seulement trois variables indpendantes sont incluses dans le modle final.

87 Construction dun modle danalyse

Diagramme de modle darbre


Figure 5-4 Diagramme de modle darbre dans lditeur darbre

Le diagramme du modle darbre comporte tellement de noeuds que laffichage de lintgralit du modle risque dtre difficile. Il sera tellement petit que vous ne pourrez pas lire les informations contenues dans les noeuds. Vous pouvez utiliser la carte darbre pour voir lintgralit de larbre :
E Dans le Viewer, double-cliquez sur larbre pour ouvrir lditeur darbre. E A partir des menus de lditeur darbre, slectionnez : Affichage > Carte darbre

88 Chapitre 5 Figure 5-5 Carte darbre

La carte darbre affiche lintgralit de larbre. Si vous modifiez la taille de la fentre de la carte darbre, laffichage de la carte sera agrandi ou rduit pour que larbre tienne dans la fentre. La zone slectionne dans la carte darbre est la zone de larbre affiche dans lditeur darbre. Vous pouvez utiliser la carte darbre pour parcourir larbre et slectionner des noeuds.

Pour plus d'informations, reportez-vous la section Carte darbre dans le chapitre 2 sur p. 43. Pour les variables dchelle dpendantes, chaque noeud indique la moyenne et lcart-type de la variable dpendante. Le noeud 0 affiche le prix dachat moyen global dun vhicule denviron 29,9 (en milliers), avec un cart-type denviron 21,6.

Le noeud 1, reprsentant les observations dont les revenus sont infrieurs 75 (en milliers), dispose dun prix moyen de vhicule de seulement 18,7. Au contraire, le noeud 2, reprsentant les observations dont les revenus sont suprieurs ou gaux 75, dispose dun prix moyen de vhicule de 60,9.

Un examen plus approfondi de larbre montrerait que lge et la formation ont galement une relation avec le prix dachat dun vhicule, mais nous nous intresserons pour linstant lapplication pratique du modle, plutt qu lexamen dtaill de ses composants.

Estimation du risque
Figure 5-6 Tableau Risque

Aucun des rsultats considrs jusqu prsent nindique sil sagit dun modle particulirement bon. Lun des indicateurs des performances du modle est lestimation du risque. Pour une variable dchelle dpendante, lestimation du risque est la mesure de la variance intra-noeud, qui nest pas forcment significative en elle-mme. Une variance faible indique un modle plus

89 Construction dun modle danalyse

adquat, mais la variance est relative lunit de mesure. Si, par exemple, le prix a t enregistr lunit, et non en milliers, lestimation du risque est mille fois suprieure. Une interprtation correcte de lestimation du risque avec une variable dchelle dpendante demande un certain effort :

La variance totale est gale la variance intra-noeud (variance de lerreur) plus la variance inter-noeuds (variance explique). La variance intra-noeud est la valeur de lestimation du risque : 68.485. La variance totale est la variance des variables dpendantes avant la prise en considration des variables indpendantes, ce qui revient la variance au niveau du noeud racine. Lcart-type indiqu au niveau du noeud racine est de 21,576 ; la variance totale correspond donc cette valeur leve au carr : 465.524. La proportion de la variance due lerreur (variance rsiduelle) est de 68,485/465,524 = 0,147. La proportion de la variance explique par le modle est 10,147 = 0,853, soit 85,3 %, ce qui indique que le modle est relativement bon. (Il sagit dune interprtation similaire au taux de classification correct global dune variable dpendante qualitative.)

Application du modle un autre fichier de donnes


Maintenant que le modle a t jug bon, nous pouvons lappliquer dautres fichiers de donnes contenant des variables ge, revenus et formation similaires, et gnrer une nouvelle variable reprsentant le prix dachat du vhicule prvu pour chaque observation du fichier. Ce processus est souvent appel analyse. Lorsque nous avons gnr le modle, nous avons prcis que les rgles dattribution des valeurs aux observations doivent tre enregistres dans un fichier texte, sous forme de syntaxe de commande. Nous allons prsent utiliser les commandes dans ce fichier pour gnrer des scores dans un autre fichier de donnes.
E Ouvrez le fichier de donnes tree_score_car.sav. Pour plus d'informations, reportez-vous la

section Fichiers dexemple dans l'annexe A dans IBM SPSS Decision Trees 20.
E Ensuite, partir des menus, slectionnez : Fichier > Nouveau > Syntaxe E Dans la fentre de syntaxe de commande, entrez : INSERT FILE= '/temp/car_scores.sps'.

90 Chapitre 5

Si vous avez utilis un nom de fichier ou un emplacement diffrent, apportez les modifications ncessaires.
Figure 5-7 Fentre Syntaxe comportant la commande INSERT permettant dexcuter un fichier de commande

La commande INSERT excute les commandes dans le fichier indiqu, cest--dire le fichier rgles gnr au moment de la cration du modle.
E A partir des menus de la fentre de syntaxe de commande, slectionnez : Excuter > Tous Figure 5-8 Prvisions ajoutes au fichier de donnes

Deux nouvelles variables sont ainsi ajoutes au fichier de donnes :


nod_001 contient le nombre de noeuds terminaux prvus par le modle pour chaque observation. pre_001 contient les prvisions du prix dachat dun vhicule pour chaque observation.

91 Construction dun modle danalyse

tant donn que nous avons demand des rgles pour lattribution de valeurs aux nuds terminaux, le nombre de valeurs attendues possibles est identique au nombre de nuds terminaux (15 dans ce cas). Par exemple, chaque observation disposant dun nombre de nuds prvus de 10 auront le mme prix dachat de vhicule prvu : 30.56. Il sagit (non par hasard) de la valeur moyenne reporte pour le noeud terminal 10 dans le modle dorigine. Bien que le modle soit normalement appliqu aux donnes pour lesquelles la valeur de la variable dpendante est inconnue, dans cet exemple, le fichier de donnes auquel le modle est appliqu contient dj ces informations ; vous pouvez ainsi comparer les prvisions du modle aux valeurs relles.
E A partir des menus, slectionnez : Analyse > Corrlation > Bivarie E Slectionnez Prix du vhicule principal et pre_001. Figure 5-9 Bote de dialogue Corrlations bivaries

E Cliquez sur OK pour excuter la procdure.

92 Chapitre 5 Figure 5-10 Corrlation entre le prix prvu et le prix rel du vhicule

La corrlation de 0,92 indique une corrlation positive trs leve entre le prix prvu et le prix rel du vhicule, signifiant que le modle fonctionne bien.

Rcapitulatif
Vous pouvez utiliser la procdure Arbre de segmentation pour construire des modles pouvant ensuite tre appliqus dautres fichiers de donnes, afin de prvoir des rsultats. Le fichier de donnes cible doit contenir des variables portant le mme nom que les variables indpendantes incluses dans le modle final, mesures dans la mme unit et avec les mmes valeurs manquantes ventuelles spcifies par lutilisateur. Cependant, la variable dpendante et les variables indpendantes exclues du modle final ne doivent pas obligatoirement tre prsentes dans le fichier de donnes cible.

Chapitre

Valeurs manquantes dans les modles darbre

Les diverses mthodes de croissance traitent les valeurs manquantes des variables indpendantes (explicatives) de diffrentes manires : CHAID et Exhaustive CHAID traitent toutes les valeurs manquantes par dfaut et spcifies par lutilisateur pour chaque variable indpendante en tant que modalit unique. Pour les variables dchelle indpendantes ou ordinales et en fonction des critres de croissance, cette modalit peut tre fusionne par la suite avec dautres modalits de cette variable indpendante. CRT et QUEST utilisent des valeurs de substitution pour les variables indpendantes (explicatives). Pour les observations dans lesquelles la valeur de cette variable est manquante, dautres variables indpendantes ayant un fort degr dassociation avec la variable dorigine sont utilises pour la classification. Ces variables indpendantes de rechange sont appeles valeurs de substitution.

Lexemple suivant montre la diffrence existant entre CHAID et CRT lorsque des valeurs manquantes de variables indpendantes sont utilises dans le modle. Pour cet exemple, nous utiliserons le fichier de donnes tree_missing_data.sav. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans l'annexe A dans IBM SPSS Decision Trees 20. Remarque : Pour les variables indpendantes et dpendantes nominales, vous pouvez choisir de traiter les valeurs manquantes spcifies comme des valeurs valides, auquel cas elles sont traites comme nimporte quelle autre valeur non manquante. Pour plus d'informations, reportez-vous la section Valeurs manquantes dans le chapitre 1 sur p. 23.

Copyright IBM Corporation 1989, 2011.

93

94 Chapitre 6

Valeurs manquantes avec CHAID


Figure 6-1 Donnes de crdit avec des valeurs manquantes

A linstar de lexemple du risque de crdit (pour plus dinformations, reportez-vous au le chapitre 4), cet exemple tente de construire un modle permettant de classer les bons et les mauvais risques de crdit. La diffrence principale rside dans le fait que ce fichier de donnes contient des valeurs manquantes pour certaines variables indpendantes utilises dans le modle.
E Pour lancer une analyse darbre de dcision, choisissez les options suivantes dans les menus : Analyse > Classification > Arbre...

95 Valeurs manquantes dans les modles darbre Figure 6-2 Bote de dialogue Arbre de dcision

E Slectionnez la variable dpendante Cote de solvabilit. E Slectionnez toutes les variables restantes en tant que variables indpendantes. (La procdure

exclut automatiquement les variables qui napportent rien au modle final.)


E Pour la mthode de croissance, slectionnez CHAID.

Pour cet exemple, nous avons voulu prsenter un arbre relativement simple ; nous limiterons donc la croissance de larbre en augmentant le nombre minimum dobservations dans les noeuds parent et enfant.
E Dans la bote de dialogue Arbre de dcision principale, cliquez sur Critres.

96 Chapitre 6 Figure 6-3 Bote de dialogue Critres, onglet Limites de croissance

E Pour Nombre minimal dobservations, saisissez 400 pour Noeud parent et 200 pour Noeud enfant. E Cliquez sur Continuer, puis sur OK pour lancer la procdure.

Rsultats CHAID
Figure 6-4 Arbre CHAID avec valeurs de variable indpendante manquantes

97 Valeurs manquantes dans les modles darbre

Pour le noeud n3, la valeur du niveau de revenu saffiche de la manire suivante : >Moyen;<manquant>. Cela signifie que le noeud contient des observations dans la modalit de revenus levs et des observations avec valeurs manquantes pour le niveau de revenu. Le noeud terminal n10 contient des observations avec valeurs manquantes pour le nombre de cartes de crdit. Si vous cherchez dterminer les bons risques de crdit, il sagit du deuxime meilleur noeud terminal, ce qui risque dtre problmatique si vous voulez utiliser ce modle pour prvoir les bons risques de crdit. Vous ne voudrez certainement pas quun modle prvoie une bonne cote de solvabilit simplement parce que vous ne savez pas de combien de cartes de crdit une observation dispose, et parce que certaines des observations ont des informations sur leur niveau de revenu manquantes.
Figure 6-5 Tableaux de classement et de risques pour le modle CHAID

Les tableaux de classement et de risques indiquent que le modle CHAID classe correctement environ 75 % des observations. Ce rsultat nest pas mauvais, mais il nest pas suffisant. De plus, nous pouvons raisonnablement suspecter que le taux de classifications correctes pour les bonnes observations de crdit est trop optimiste, car il est en partie bas sur la supposition que le manque dinformations concernant deux variables indpendantes (niveau de revenu et nombre de cartes de crdit) est le signe de bonnes conditions de crdit.

Valeurs manquantes avec CRT


Nous allons dployer la mme analyse de base, sauf que la mthode de croissance utilise est CRT.
E Dans la bote de dialogue principale Arbre de dcision sur la mthode de croissance, slectionnez CRT. E Cliquez sur Critres. E Vrifiez que le nombre minimum dobservations est toujours de 400 pour les noeuds parent

et de 200 pour les noeuds enfant.

98 Chapitre 6 E Cliquez sur longlet Valeurs de substitution.

Remarque : Longlet Valeurs de substitution ne saffiche pas tant que vous navez pas slectionn
CRT ou QUEST comme mthode de croissance. Figure 6-6 Bote de dialogue Critres, onglet Valeurs de substitution

Pour chaque scission de noeud de variable indpendante, le paramtre Automatique considre toutes les autres variables indpendantes indiques comme des valeurs de substitution possibles pour le modle. Etant donn que cet exemple ne comporte pas beaucoup de variables indpendantes, le paramtre Automatique convient tout fait.
E Cliquez sur Poursuivre. E Dans la bote de dialogue Arbre de dcision principale, cliquez sur Rsultat.

99 Valeurs manquantes dans les modles darbre Figure 6-7 Bote de dialogue Rsultat, onglet Statistiques

E Cliquez sur longlet Statistiques. E Slectionnez Valeurs de substitution par division. E Cliquez sur Continuer, puis sur OK pour lancer la procdure.

100 Chapitre 6

Rsultats CRT
Figure 6-8 Arbre CRT avec valeurs de variable indpendante manquantes

Vous remarquerez immdiatement que cet arbre ne ressemble pas beaucoup larbre CHAID. Mais cela nest pas significatif en soi. Dans un modle darbre CRT, toutes les scissions sont binaires, cest--dire que chaque noeud parent est scind en seulement deux noeuds enfant. Dans un modle CHAID, les noeuds parent peuvent tre scinds en de nombreux noeuds enfant. Ainsi, les arbres auront souvent une apparence diffrente bien quils reprsentent le mme modle sous-jacent. Il existe cependant un certain nombre de diffrences significatives :

La variable indpendante (explicative) la plus importante dans le modle CRT est le nombre de cartes de crdit, alors que dans le modle CHAID, il sagissait du niveau de revenu. Pour les observations comportant moins de cinq cartes de crdit, le nombre de cartes de crdit est la seule variable indpendante significative de la cote de solvabilit, et le noeud n2 est un noeud terminal. Comme dans le modle CHAID, le niveau de revenu et lge sont inclus dans le modle, mme si le niveau de revenu est dsormais la deuxime variable indpendante, et non la premire.

101 Valeurs manquantes dans les modles darbre

Aucun noeud ne comporte de modalit <manquante> car la mthode CRT utilise des variables indpendantes de substitution plutt que des valeurs manquantes dans le modle.

Figure 6-9 Tableaux de classement et de risques pour le modle CRT

Les tableaux de risques et de classification montrent un taux de classifications correctes global denviron 78 %, lgrement suprieur au modle CHAID (75 %). Le taux de classifications correctes des observations de mauvais crdit est bien suprieur pour le modle CRT (81,6 %) que pour le modle CHAID (64,3 %). Le taux de classifications correctes des observations de bon crdit, lui, est pass de 82,8 % pour CHAID 74,8 % pour CRT.

Valeurs de substitution
Les diffrences entre les modles CHAID et CRT sont dues en partie lutilisation de valeurs de substitution dans le modle CRT. Le tableau des valeurs de substitution indique comment les valeurs de substitution ont t utilises dans le modle.
Figure 6-10 Tableau des valeurs de substitution

Au niveau du noeud racine (noeud 0), la meilleure variable indpendante (explicative) est le nombre de cartes de crdit.

102 Chapitre 6

Pour toutes les observations avec valeurs manquantes pour le nombre de cartes de crdit, les prts auto sont utiliss en tant que variable indpendante de substitution, puisque cette variable a un degr dassociation relativement lev (0,643) avec le nombre de cartes de crdit. Si une observation comporte galement une valeur manquante pour les prts auto, cest lge qui est utilis en tant que valeur de substitution (bien que cette variable nait quune valeur dassociation de 0,004). Lge est galement la valeur de substitution du niveau de revenu pour les noeuds 1 et 5.

Rcapitulatif
Les diffrentes mthodes de croissance nont pas la mme manire de grer les donnes manquantes. Si les donnes utilises pour crer le modle contiennent plusieurs valeurs manquantes ou si vous souhaitez appliquer ce modle dautres fichiers de donnes comportant des valeurs manquantes, vous devez valuer les effets des valeurs manquantes sur les diffrents modles. Si vous souhaitez utiliser des valeurs de substitution dans le modle pour compenser les valeurs manquantes, utilisez la mthode CRT ou QUEST.

Annexe

Fichiers dexemple

Les fichiers dexemple installs avec le produit figurent dans le sous-rpertoire Echantillons du rpertoire dinstallation. Il existe un dossier distinct au sein du sous-rpertoire Echantillons pour chacune des langues suivantes : Anglais, Franais, Allemand, Italien, Japonais, Coren, Polonais, Russe, Chinois simplifi, Espangol et Chinois traditionnel. Seuls quelques fichiers dexemples sont disponibles dans toutes les langues. Si un fichier dexemple nest pas disponible dans une langue, le dossier de langue contient la version anglaise du fichier dexemple.
Descriptions

Voici de brves descriptions des fichiers dexemple utiliss dans divers exemples travers la documentation.

accidents.sav.Ce fichier de donnes dhypothse concerne une socit dassurance qui tudie

les facteurs de risque lis lge et au sexe dans les accidents de la route survenant dans une rgion donne. Chaque observation correspond une classification croise de la catgorie dge et du sexe.

adl.sav. Ce fichier de donnes dhypothse concerne les mesures entreprises pour identifier les

avantages dun type de thrapie propos aux patients qui ont subi une attaque cardiaque. Les mdecins ont assign de manire alatoire les patients du sexe fminin ayant subi une attaque cardiaque un groupe parmi deux groupes possibles. Le premier groupe a fait lobjet de la thrapie standard tandis que le second a bnfici en plus dune thrapie motionnelle. Trois mois aprs les traitements, les capacits de chaque patient effectuer les tches ordinaires de la vie quotidienne ont t notes en tant que variables ordinales.

advert.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

dtaillant pour examiner la relation existant entre largent dpens dans la publicit et les ventes rsultantes. Pour ce faire, il collecte les chiffres des ventes passes et les cots associs la publicit.

aflatoxin.sav. Ce fichier de donnes dhypothse concerne le test de laflatoxine dans des

rcoltes de mas. La concentration de ce poison varie largement dune rcolte lautre et au sein de chaque rcolte. Un processeur de grain a reu 16 chantillons issus de 8 rcoltes de mas et a mesur les niveaux dalfatoxine en parties par milliard (PPB).

anorectic.sav. En cherchant dvelopper une symptomatologie standardise du comportement

anorexique/boulimique, des chercheurs ont examin 55 adolescents souffrant de troubles alimentaires. Chaque patient a t observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des 16 symptmes. En raison de labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217.

Copyright IBM Corporation 1989, 2011.

103

104 Annexe A

bankloan.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une

banque pour rduire le taux de dfaut de paiement. Il contient des informations financires et dmographiques sur 850 clients existants et ventuels. Les premires 700 observations concernent des clients auxquels des prts ont t octroys. Les 150 dernires observations correspondant aux clients ventuels que la banque doit classer comme bons ou mauvais risques de crdit.

bankloan_binning.sav. Ce fichier de donnes dhypothse concerne des informations

financires et dmographiques sur 5 000 clients existants.


behavior.sav. Dans un exemple classique , on a demand 52 tudiants de noter les

combinaisons tablies partir de 15 situations et de 15 comportements sur une chelle de 0 9, o 0 = extrmement appropri et 9 = extrmement inappropri . En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine diffrence entre les valeurs.

behavior_ini.sav. Ce fichier de donnes contient la configuration initiale dune solution

bidimensionnelle pour behavior.sav.


brakes.sav. Ce fichier de donnes dhypothse concerne le contrle qualit effectu dans

une usine qui fabrique des freins disque pour des voitures haut de gamme. Le fichier de donnes contient les mesures de diamtre de 16 disques de 8 machines de production. Le diamtre cible des freins est de 322 millimtres.

breakfast.sav. Au cours dune tude classique , on a demand 21 tudiants en MBA (Master

of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins apprci . Leurs prfrences ont t enregistres dans six scnarios diffrents, allant de Prfrence gnrale En-cas avec boisson uniquement .

breakfast-overall.sav. Ce fichier de donnes contient les prfrences de petit-djeuner du

premier scnario uniquement, Prfrence gnrale .


broadband_1.sav. Ce fichier de donnes dhypothse concerne le nombre dabonns, par

rgion, un service haut dbit. Le fichier de donnes contient le nombre dabonns mensuels de 85 rgions sur une priode de quatre ans.

broadband_2.sav. Ce fichier de donnes est identique au fichier broadband_1.sav mais contient

les donnes relatives trois mois supplmentaires.


car_insurance_claims.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs

qui concerne des actions en indemnisation pour des voitures. Le montant daction en indemnisation moyen peut tre model comme prsentant une distribution gamma, laide dune fonction de lien inverse pour associer la moyenne de la variable dpendante une combinaison linaire de lge de lassur, du type de vhicule et de lge du vhicule. Le nombre dactions entreprises peut tre utilis comme pondration de positionnement.

car_sales.sav. Ce fichier de donnes contient des estimations de ventes hypothtiques, des

barmes de prix et des spcifications physiques concernant divers modles et marques de vhicule. Les barmes de prix et les spcifications physiques proviennent tour tour de edmunds.com et des sites des constructeurs.

car_sales_uprepared.sav. Il sagit dune version modifie de car_sales.sav qui ninclut aucune

version transforme des champs.

105 Fichiers dexemple

carpet.sav. Dans un exemple courant , une socit intresse par la commercialisation dun

nouveau nettoyeur de tapis souhaite examiner linfluence de cinq critres sur la prfrence du consommateur : la conception du conditionnement, la marque, le prix, une tiquette Economique et une garantie satisfait ou rembours. Il existe trois niveaux de critre pour la conception du conditionnement, suivant lemplacement de lapplicateur, trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour chacun des deux derniers critres. Dix consommateurs classent 22 profils dfinis par ces critres. La variable Prfrence indique le classement des rangs moyens de chaque profil. Un rang faible correspond une prfrence leve. Cette variable reflte une mesure globale de prfrence pour chaque profil.

carpet_prefs.sav. Ce fichier de donnes repose sur le mme exemple que celui dcrit pour

carpet.sav, mais contient les classements rels issus de chacun des 10 clients. On a demand aux consommateurs de classer les 22 profils de produits, du prfr au moins intressant. Les variables PREF1 PREF22 contiennent les identificateurs des profils associs, tels quils sont dfinis dans carpet_plan.sav.

catalog.sav. Ce fichier de donnes contient des chiffres de ventes mensuelles hypothtiques

relatifs trois produits vendus par une entreprise de vente par correspondance. Les donnes relatives cinq variables explicatives possibles sont galement incluses.

catalog_seasfac.sav. Ce fichier de donnes est identique catalog.sav mais contient en plus

un ensemble de facteurs saisonniers calculs partir de la procdure de dsaisonnalisation, ainsi que les variables de date correspondantes.

cellular.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

oprateur tlphonique pour rduire les taux de dsabonnement. Des scores de propension au dsabonnement sont attribus aux comptes, de 0 100. Les comptes ayant une note gale ou suprieure 50 sont susceptibles de changer de fournisseur.

ceramics.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

fabricant pour dterminer si un nouvel alliage haute qualit rsiste mieux la chaleur quun alliage standard. Chaque observation reprsente un test spar de lun des deux alliages ; le degr de chaleur auquel lalliage ne rsiste pas est enregistr.

cereal.sav. Ce fichier de donnes dhypothse concerne un sondage de 880 personnes

interroges sur leurs prfrences de petit-djeuner et sur leur ge, leur sexe, leur situation familiale et leur mode de vie (actif ou non actif, selon quelles pratiquent une activit physique au moins deux fois par semaine). Chaque observation correspond un rpondant distinct.

clothing_defects.sav. Ce fichier de donnes dhypothse concerne le processus de contrle

qualit observ dans une usine de textile. Dans chaque lot produit lusine, les inspecteurs prlvent un chantillon de vtements et comptent le nombre de vtements qui ne sont pas acceptables.

coffee.sav. Ce fichier de donnes concerne limage perue de six marques de caf frapp .

Pour chacun des 23 attributs dimage de caf frapp, les personnes sollicites ont slectionn toutes les marques dcrites par lattribut. Les six marques sont appeles AA, BB, CC, DD, EE et FF des fins de confidentialit.

contacts.sav. Ce fichier de donnes dhypothse concerne les listes de contacts dun groupe

de reprsentants en informatique dentreprise. Chaque contact est class selon le service de lentreprise o il travaille et le classement de son entreprise. Sont galement enregistrs le

106 Annexe A

montant de la dernire vente effectue, le temps pass depuis la dernire vente et la taille de lentreprise du contact.

creditpromo.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

grand magasin pour valuer lefficacit dune promotion rcente de carte de crdit. A cette fin, 500 dtenteurs de carte ont t slectionns au hasard. La moiti a reu une publicit faisant la promotion dun taux dintrt rduit sur les achats effectus dans les trois mois venir. Lautre moiti a reu une publicit saisonnire standard.

customer_dbase.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend

une socit pour utiliser les informations figurant dans sa banque de donnes et proposer des offres spciales aux clients susceptibles dtre intresss. Un sous-groupe de la base de clients a t slectionn au hasard et a reu des offres spciales. Les rponses des clients ont t enregistres.

customer_information.sav. Un fichier de donnes dhypothse qui contient les informations

postales du client, telles que le nom et ladresse.


customer_subset.sav. Un sous-ensemble de 80 observations de customer_dbase.sav. debate.sav. Ce fichier de donnes dhypothse concerne des rponses apparies une enqute

donne aux participants un dbat politique avant et aprs le dbat. Chaque observation reprsente un rpondant distinct.

debate_aggregate.sav. Il sagit dun fichier de donnes dhypothse qui rassemble les rponses

dans le fichier debate.sav. Chaque observation correspond une classification croise de prfrence avant et aprs le dbat.

demo.sav. Ce fichier de donnes dhypothse concerne une base de donnes clients achete en

vue de diffuser des offres mensuelles. Les donnes indiquent si le client a rpondu ou non loffre et contiennent diverses informations dmographiques.

demo_cs_1.sav. Ce fichier de donnes dhypothse concerne la premire mesure entreprise

par une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond une ville diffrente. La rgion, la province, le quartier et la ville sont enregistrs.

demo_cs_2.sav. Ce fichier de donnes dhypothse concerne la seconde mesure entreprise par

une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond un mnage diffrent issu des villes slectionnes la premire tape. La rgion, la province, le quartier, la ville, la sous-division et lidentification sont enregistrs. Les informations dchantillonnage des deux premires tapes de la conception sont galement incluses.

demo_cs.sav. Ce fichier de donnes dhypothse concerne des informations denqute

collectes via une mthode complexe dchantillonnage. Chaque observation correspond un mnage diffrent et diverses informations gographiques et dchantillonnage sont enregistres.

dmdata.sav. Ceci est un fichier de donnes dhypothse qui contient des informations

dmographiques et des informations concernant les achats pour une entreprise de marketing direct. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reu un envoi dessai, et dmdata3.sav contient des informations sur les contacts restants qui nont pas reu lenvoi dessai.

107 Fichiers dexemple

dietstudy.sav. Ce fichier de donnes dhypothse contient les rsultats dune tude portant sur

le rgime de Stillman. Chaque observation correspond un sujet distinct et enregistre son poids en livres avant et aprs le rgime, ainsi que ses niveaux de triglycrides en mg/100 ml.

dvdplayer.sav. Ce fichier de donnes dhypothse concerne le dveloppement dun nouveau

lecteur DVD. A laide dun prototype, lquipe de marketing a collect des donnes de groupes spcifiques. Chaque observation correspond un utilisateur interrog et enregistre des informations dmographiques sur cet utilisateur, ainsi que ses rponses aux questions portant sur le prototype.

german_credit.sav. Ce fichier de donnes provient de lensemble de donnes German credit

figurant dans le rfrentiel Machine Learning Databases de luniversit de Californie, Irvine.


grocery_1month.sav. Ce fichier de donnes dhypothse est le fichier de donnes

grocery_coupons.sav dans lequel les achats hebdomadaires sont organiss par client distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montant dpens enregistr est prsent la somme des montants dpenss au cours des quatre semaines de lenqute.

grocery_coupons.sav. Il sagit dun fichier de donnes dhypothse qui contient des donnes

denqute collectes par une chane de magasins dalimentation qui chercher dterminer les habitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaines et chaque observation correspond une semaine distincte. Les informations enregistres concernent les endroits o le client effectue ses achats, la manire dont il les effectue, ainsi que les sommes dpenses en provisions au cours de cette semaine.

guttman.sav. Bell a prsent un tableau pour illustrer les groupes sociaux possibles. Guttman a

utilis une partie de ce tableau, dans lequel cinq variables dcrivant des lments tels que linteraction sociale, le sentiment dappartenance un groupe, la proximit physique des membres et la formalit de la relation, ont t croises avec sept groupes sociaux thoriques, dont les foules (par exemple, le public dun match de football), laudience (par exemple, au cinma ou dans une salle de classe), le public (par exemple, les journaux ou la tlvision), les bandes (proche dune foule, mais qui serait caractrise par une interaction beaucoup plus intense), les groupes primaires (intimes), les groupes secondaires (volontaires) et la communaut moderne (groupement lche issu dune forte proximit physique et dun besoin de services spcialiss).

health_funding.sav. Ce fichier de donnes dhypothse concerne des donnes sur le

financement des soins de sant (montant par groupe de 100 individus), les taux de maladie (taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de sant (taux par groupe de 10 000 individus). Chaque observation reprsente une ville diffrente.

hivassay.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

laboratoire pharmaceutique pour dvelopper une analyse rapide de dtection dinfection HIV. Lanalyse a pour rsultat huit nuances de rouge, les nuances les plus marques indiquant une plus forte probabilit dinfection. Un test en laboratoire a t effectu sur 2 000 chantillons de sang, la moiti de ces chantillons tant infecte par le virus HIV et lautre moiti tant saine.

hourlywagedata.sav. Ce fichier de donnes dhypothse concerne les salaires horaires

dinfirmires occupant des postes administratifs et dans les services de soins, et affichant divers niveaux dexprience.

108 Annexe A

insurance_claims.sav. Il sagit dun fichier de donnes hypothtiques qui concerne une

compagnie dassurance souhaitant dvelopper un modle pour signaler des rclamations suspectes, potentiellement frauduleuses. Chaque observation correspond une rclamation distincte.

insure.sav. Ce fichier de donnes dhypothse concerne une compagnie dassurance qui tudie

les facteurs de risque indiquant si un client sera amen dclarer un incident au cours dun contrat dassurance vie dune dure de 10 ans. Chaque observation figurant dans le fichier de donnes reprsente deux contrats, lun ayant enregistr une rclamation et lautre non, apparis par ge et sexe.

judges.sav. Ce fichier de donnes dhypothse concerne les scores attribus par des juges

expriments (plus un juge enthousiaste) 300 performances de gymnastique. Chaque ligne reprsente une performance distincte ; les juges ont examin les mmes performances.

kinship_dat.sav. Rosenberg et Kim se sont lancs dans lanalyse de 15 termes de parent

(cousin/cousine, fille, fils, frre, grand-mre, grand-pre, mre, neveu, nice, oncle, pre, petite-fille, petit-fils, sur, tante). Ils ont demand quatre groupes dtudiants (deux groupes de femmes et deux groupes dhommes) de trier ces termes en fonction des similarits. Deux groupes (un groupe de femmes et un groupe dhommes) ont t invits effectuer deux tris, en basant le second sur un autre critre que le premier. Ainsi, un total de six sources a t , dont le nombre de obtenu. Chaque source correspond une matrice de proximit cellules est gal au nombre de personnes dans une source moins le nombre de fois o les objets ont t partitionns dans cette source.

kinship_ini.sav. Ce fichier de donnes contient une configuration initiale dune solution

tridimensionnelle pour kinship_dat.sav.


kinship_var.sav. Ce fichier de donnes contient les variables indpendantes sexe, gnr(ation)

et degr (de sparation) permettant dinterprter les dimensions dune solution pour kinship_dat.sav. Elles permettent en particulier de rduire lespace de la solution une combinaison linaire de ces variables.

marketvalues.sav. Ce fichier de donnes concerne les ventes de maisons dans un nouvel

ensemble Algonquin (Illinois) au cours des annes 19992000. Ces ventes relvent des archives publiques.

nhis2000_subset.sav.Le NHIS (National Health Interview Survey) est une enqute de

grande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avec un chantillon de mnages reprsentatifs de la population amricaine. Des informations dmographiques et des observations sur ltat de sant et le comportement sanitaire sont recueillies auprs des membres de chaque mnage. Ce fichier de donnes contient un sous-groupe dinformations issues de lenqute de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Fichier de donnes et documentation dusage public. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accs en 2003.

ozone.sav. Les donnes incluent 330 observations portant sur six variables mtorologiques

pour prvoir la concentration dozone partir des variables restantes. Des chercheurs prcdents , , ont dcel parmi ces variables des non-linarits qui pnalisent les approches standard de la rgression.

109 Fichiers dexemple

pain_medication.sav. Ce fichier de donnes dhypothse contient les rsultats dun essai

clinique dun remde anti-inflammatoire traitant les douleurs de larthrite chronique. On cherche notamment dterminer le temps ncessaire au mdicament pour agir et les rsultats quil permet dobtenir par rapport un mdicament existant.

patient_los.sav. Ce fichier de donnes dhypothse contient les dossiers mdicaux de patients

admis lhpital pour suspicion dinfarctus du myocarde suspect (ou attaque cardiaque ). Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.

patlos_sample.sav. Ce fichier de donnes dhypothse contient les dossiers mdicaux dun

chantillon de patients sous traitement thrombolytique aprs un infarctus du myocarde. Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.

poll_cs.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

enquteur pour dterminer le niveau de soutien du public pour un projet de loi avant lgislature. Les observations correspondent des lecteurs enregistrs. Chaque observation enregistre le comt, la ville et le quartier o habite llecteur.

poll_cs_sample.sav. Ce fichier de donnes dhypothse contient un chantillon des lecteurs

rpertoris dans le fichier poll_cs.sav. Lchantillon a t prlev selon le plan spcifi dans le fichier de plan poll.csplan et ce fichier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. Toutefois, ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS Probability-Proportional-to-Size), il existe galement un fichier contenant les probabilits de slection conjointes (poll_jointprob.sav). Les variables supplmentaires correspondant la rpartition dmographique des lecteurs et leur opinion sur le projet de loi propos ont t collectes et ajoutes au fichier de donnes une fois lchantillon prlev.

property_assess.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend

un contrleur au niveau du comt pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits vendues dans le comt au cours de lanne prcdente. Chaque observation du fichier de donnes enregistre la ville o se trouve la proprit, lvaluateur ayant visit la proprit pour la dernire fois, le temps coul depuis cette valuation, lvaluation effectue ce moment-l et la valeur de vente de la proprit.

property_assess_cs.sav. Ce fichier de donnes dhypothse concerne les mesures

quentreprend un contrleur du gouvernement pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits de ltat. Chaque observation du fichier de donnes enregistre le comt, la ville et le quartier o se trouve la proprit, le temps coul depuis la dernire valuation et lvaluation alors effectue.

property_assess_cs_sample.sav. Ce fichier de donnes dhypothse contient un chantillon

des proprits rpertories dans le fichier property_assess_cs.sav. Lchantillon a t prlev selon le plan spcifi dans le fichier de plan property_assess.csplan et ce fichier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. La variable supplmentaire Valeur courante a t collecte et ajoute au fichier de donnes une fois lchantillon prlev.

110 Annexe A

recidivism.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une

agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis, ainsi que le temps coul jusqu la seconde arrestation si elle sest produite dans les deux annes suivant la premire.

recidivism_cs_sample.sav. Ce fichier de donnes dhypothse concerne les mesures

quentreprend une agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste libr suite la premire arrestation en juin 2003 et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis et les donnes relatives la seconde arrestation, si elle a eu lieu avant fin juin 2006. Les rcidivistes ont t choisis dans plusieurs dpartements chantillonns conformment au plan dchantillonnage spcifi dans recidivism_cs.csplan. Ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS - Probability proportional to size), il existe galement un fichier contenant les probabilits de slection conjointes (recidivism_cs_jointprob.sav).

rfm_transactions.sav.Un fichier de donnes dhypothse qui contient les donnes de transaction

dachat, y compris la date dachat, le/les lment(s) achet(s) et le montant montaire pour chaque transaction.

salesperformance.sav. Ce fichier de donnes dhypothse concerne lvaluation de deux

nouveaux cours de formation en vente. Soixante employs, diviss en trois groupes, reoivent chacun une formation standard. En outre, le groupe 2 suit une formation technique et le groupe 3 un didacticiel pratique. A lissue du cours de formation, chaque employ est test et sa note enregistre. Chaque observation du fichier de donnes reprsente un stagiaire distinct et enregistre le groupe auquel il a t assign et la note quil a obtenue au test.

satisf.sav. Il sagit dun fichier de donnes dhypothse portant sur une enqute de satisfaction

effectue par une socit de vente au dtail au niveau de quatre magasins. Un total de 582 clients ont t interrogs et chaque observation reprsente la rponse dun seul client.

screws.sav.Ce fichier de donnes contient des informations sur les descriptives des vis, des

boulons, des crous et des clous..


shampoo_ph.sav. Ce fichier de donnes dhypothse concerne le processus de contrle qualit

observ dans une usine de produits capillaires. A intervalles rguliers, six lots de sortie distincts sont mesurs et leur pH enregistr. La plage cible est 4,55,5.

ships.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs et concernant

les dommages causs des cargos par les vagues. Les effectifs dincidents peuvent tre modliss comme des incidents se produisant selon un taux de Poisson en fonction du type de navire, de la priode de construction et de la priode de service. Les mois de service totaliss pour chaque cellule du tableau form par la classification croise des facteurs fournissent les valeurs dexposition au risque.

site.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une socit

pour choisir de nouveaux sites pour le dveloppement de ses activits. Lentreprise a fait appel deux consultants pour valuer sparment les sites. Ces consultants, en plus de fournir un rapport approfondi, ont class chaque site comme constituant une ventualit bonne , moyenne ou faible .

111 Fichiers dexemple

smokers.sav. Ce fichier de donnes est extrait de ltude National Household Survey of

Drug Abuse de 1998 et constitue un chantillon de probabilit des mnages amricains. (http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la premire tape dans lanalyse de ce fichier doit consister pondrer les donnes pour reflter les tendances de population.

stocks.sav Ce fichier de donnes hypothtiques contient le cours et le volume des actions

pour un an.
stroke_clean.sav. Ce fichier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois celle-ci purge via des procdures de loption Validation de donnes.
stroke_invalid.sav. Ce fichier de donnes dhypothse concerne ltat initial dune base de

donnes mdicales et comporte plusieurs erreurs de saisie de donnes.


stroke_survival. Ce fichier de donnes dhypothse concerne les temps de survie de patients

qui quittent un programme de rducation la suite dun accident ischmique et rencontrent un certain nombre de problmes. Aprs lattaque, loccurrence dinfarctus du myocarde, daccidents ischmiques ou hmorragiques est signale, et le moment de lvnement enregistr. Lchantillon est tronqu gauche car il ninclut que les patients ayant survcu durant le programme de rducation mis en place suite une attaque.

stroke_valid.sav. Ce fichier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois les valeurs vrifies via la procdure Validation de donnes. Elle contient encore des observations anormales potentielles.

survey_sample.sav. Ce fichier de donnes concerne des informations denqute dont des

donnes dmographiques et des mesures comportementales. Il est bas sur un sous-ensemble de variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnes aient t modifies et que des variables supplmentaires fictives aient t ajoutes titre de dmonstration.

telco.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une socit

de tlcommunications pour rduire les taux de dsabonnement de sa base de clients. Chaque observation correspond un client distinct et enregistre diverses informations dmographiques et dutilisation de service.

telco_extra.sav. Ce fichier de donnes est semblable au fichier de donnes telco.sav mais

les variables de permanence et de dpenses des consommateurs transformes log ont t supprimes et remplaces par des variables de dpenses des consommateurs transformes log standardises.

telco_missing.sav. Ce fichier de donnes est un sous-ensemble du fichier de donnes telco.sav

mais certaines des valeurs de donnes dmographiques ont t remplaces par des valeurs manquantes.

testmarket.sav. Ce fichier de donnes dhypothse concerne une chane de fast foods et ses

plans marketing visant ajouter un nouveau plat son menu. Trois campagnes tant possibles pour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieurs marchs slectionns au hasard. Une promotion diffrente est effectue sur chaque site et les ventes hebdomadaires du nouveau plat sont enregistres pour les quatre premires semaines. Chaque observation correspond un site-semaine distinct.

testmarket_1month.sav. Ce fichier de donnes dhypothse est le fichier de donnes

testmarket.sav dans lequel les ventes hebdomadaires sont organises par site distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes

112 Annexe A

enregistres sont prsent la somme des ventes ralises au cours des quatre semaines de lenqute.

tree_car.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques et de

prix dachat de vhicule.


tree_credit.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques

et dhistorique de prt bancaire.


tree_missing_data.sav Ce fichier de donnes dhypothse concerne des donnes

dmographiques et dhistorique de prt bancaire avec un grand nombre de valeurs manquantes.


tree_score_car.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques

et de prix dachat de vhicule.


tree_textdata.sav. Ce fichier de donnes simples ne comporte que deux variables et vise

essentiellement indiquer ltat par dfaut des variables avant affectation du niveau de mesure et des tiquettes de valeurs.

tv-survey.sav. Ce fichier de donnes dhypothse concerne une enqute mene par un studio

de tlvision qui envisage de prolonger la diffusion dun programme ou de larrter. On a demand 906 personnes si elles regarderaient le programme dans diverses situations. Chaque ligne reprsente un rpondant distinct et chaque colonne une situation distincte.

ulcer_recurrence.sav. Ce fichier contient des informations partielles dune enqute visant

comparer lefficacit de deux thrapies de prvention de la rcurrence des ulcres. Il fournit un bon exemple de donnes censures par intervalle et a t prsent et analys ailleurs .

ulcer_recurrence_recoded.sav. Ce fichier rorganise les informations figurant dans le fichier

ulcer_recurrence.sav pour que vous puissiez modliser la probabilit dvnement pour chaque intervalle de lenqute plutt que la probabilit dvnement de fin denqute. Il a t prsent et analys ailleurs .

verd1985.sav. Ce fichier de donnes concerne une enqute . Les rponses de 15 sujets 8

variables ont t enregistres. Les variables prsentant un intrt sont divises en trois ensembles. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les autres variables ont un codage nominal simple.

virus.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

fournisseur de services Internet pour dterminer les effets dun virus sur ses rseaux. Il a suivi le pourcentage (approximatif) de trafic de messages lectroniques infects par un virus sur ses rseaux sur la dure, de la dcouverte la circonscription de la menace.

wheeze_steubenville.sav. Il sagit dun sous-ensemble dune enqute longitudinale des effets

de la pollution de lair sur la sant des enfants . Les donnes contiennent des mesures binaires rptes de ltat asthmatique denfants de la ville de Steubenville (Ohio), gs de 7, 8, 9 et 10 ans, et indiquent si la mre fumait au cours de la premire anne de lenqute.

workprog.sav. Ce fichier de donnes dhypothse concerne un programme de ladministration

visant proposer de meilleurs postes aux personnes dfavorises. Un chantillon de participants potentiels au programme a ensuite t prlev. Certains de ces participants ont

113 Fichiers dexemple

t slectionns au hasard pour participer au programme. Chaque observation reprsente un participant au programme distinct.

worldsales.sav Ce fichier de donnes hypothtiques contient les revenus des ventes par

continent et par produit.

Annexe

Remarques
Ces informations ont t dveloppes pour les produits et services offerts dans le monde.

Il est possible quIBM noffre pas dans les autres pays les produits, services et fonctionnalits dcrits dans ce document. Contactez votre reprsentant local IBM pour obtenir des informations sur les produits et services actuellement disponibles dans votre rgion. Toute rfrence un produit, programme ou service IBM nimplique pas que les seuls les produits, programmes ou services IBM peuvent tre utiliss. Tout produit, programme ou service de fonctionnalit quivalente qui ne viole pas la proprit intellectuelle IBM peut tre utilis la place. Cependant lutilisateur doit valuer et vrifier lutilisation dun produit, programme ou service non IBM. IBM peut possder des brevets ou des applications de brevet en attente qui couvrent les sujets dcrits dans ce document. Loctroi de ce document nquivaut aucunement celui dune licence pour ces brevets. Vous pouvez envoyer par crit des questions concernant la licence : IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785, tats-Unis Pour obtenir des informations de licence concernant la configuration de caractres cods sur deux octets (DBCS), veuillez contacter dans votre pays le dpartement charg de la proprit intellectuelle chez IBM ou envoyez vos commentaires par crit : Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14, Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japon.
Le paragraphe suivant ne sapplique pas au Royaume-Uni ni aucun pays dans lequel ces dispositions sont contraires au droit local : INTERNATIONAL BUSINESS MACHINES FOURNIT CETTE

PUBLICATION EN LETAT SANS GARANTIE DAUCUNE SORTE, IMPLICITE OU EXPLICITE, Y COMPRIS, MAIS SANS ETRE LIMITE AUX GARANTIES IMPLICITES DE NON VIOLATION, DE QUALITE MARCHANDE OU DADAPTATION POUR UN USAGE PARTICULIER. Certains tats nautorisent pas lexclusion de garanties explicites ou implicites lors de certaines transactions, par consquent, il est possible que cet nonc ne vous concerne pas. Ces informations peuvent contenir des erreurs techniques ou des erreurs typographiques. Ces informations sont modifies de temps en temps ; ces modifications seront intgres aux nouvelles versions de la publication. IBM peut apporter des amliorations et/ou modifications des produits et/ou des programmes dcrits dans cette publications tout moment sans avertissement pralable. Toute rfrence dans ces informations des sites Web autres quIBM est fournie dans un but pratique uniquement et ne sert en aucun cas de recommandation pour ces sites Web. Le matriel contenu sur ces sites Web ne fait pas partie du matriel de ce produit IBM et lutilisation de ces sites Web se fait vos propres risques. IBM peut utiliser ou distribuer les informations que vous lui fournissez, de la faon dont il le souhaite, sans encourir aucune obligation envers vous.
Copyright IBM Corporation 1989, 2011. 114

115 Remarques

Les personnes disposant dune licence pour ce programme et qui souhaitent obtenir des informations sur celui-ci pour activer : (i) lchange dinformations entre des programmes crs de manire indpendante et dautres programmes (notamment celui-ci) et (ii) lutilisation mutuelle des informations qui ont t changes, doivent contacter : IBM Software Group, Attention: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, tats-Unis. Ces informations peuvent tre disponibles, soumises des conditions gnrales, et dans certains cas payantes. Le programme sous licence dcrit dans ce document et toute la documentation sous licence disponible pour ce programme sont fournis par IBM en conformit avec les conditions de laccord du client IBM, avec laccord de licence du programme international IBM et avec tout accord quivalent entre nous. les informations concernant les produits autres quIBM ont t obtenues auprs des fabricants de ces produits, leurs annonces publiques ou dautres sources publiques disponibles. IBM na pas test ces produits et ne peut confirmer lexactitude de leurs performances, leur compatibilit ou toute autre fonctionnalit associe des produits autres quIBM. Les questions sur les capacits de produits autres quIBM doivent tre adresses aux fabricants de ces produits. Ces informations contiennent des exemples de donnes et de rapports utiliss au cours doprations quotidiennes standard. Pour les illustrer le mieux possible, ces exemples contiennent des noms dindividus, dentreprises, de marques et de produits. Tous ces noms sont fictifs et toute ressemblance avec des noms et des adresses utiliss par une entreprise relle ne serait que pure concidence. Si vous consultez la version papier de ces informations, il est possible que certaines photographies et illustrations en couleurs napparaissent pas.
Marques commerciales

IBM, le logo IBM, ibm.com et SPSS sont des marques commerciales dIBM Corporation, dposes dans de nombreuses juridictions du monde entier. Une liste jour des marques IBM est disponible sur Internet ladresse http://www.ibm.com/legal/copytrade.shtml. Adobe, le logo Adobe, PostScript et le logo PostScript sont des marques dposes ou des marques commerciales de Adobe Systems Incorporated aux Etats-Unis et/ou dans dautres pays. Intel, le logo Intel, Intel Inside, le logo Intel Inside, Intel Centrino, le logo Intel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium, et Pentium sont des marques commerciales ou des marques dposes de Intel Corporation ou de ses filiales aux Etats-Unis et dans dautres pays. Java et toutes les marques et logos Java sont des marques commerciales de Sun Microsystems, Inc. aux Etats-Unis et/ou dans dautres pays. Linux est une marque dpose de Linus Torvalds aux Etats-Unis et/ou dans dautres pays. Microsoft, Windows, Windows NT et le logo Windows sont des marques commerciales de Microsoft Corporation aux Etats-Unis et/ou dans dautres pays. UNIX est une marque dpose de The Open Group aux Etats-Unis et dans dautres pays. Ce produit utilise WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com/.

116 Annexe B

Les autres noms de produits et de services peuvent tre des marques dIBM ou dautres socits. Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems Incorporated. Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft Corporation.

Index
arbres, 1 affichage et masquage des statistiques de branche, 26 application de modles, 84 arbre sous forme de tableau, 70 attribut de texte, 46 bnfices, 18 carte darbre, 43 contenu des arbres dans un tableau, 26 contrle de la taille de noeud, 9 contrle de laffichage des arbres, 26, 45 Couleurs, 46 couleurs des diagrammes de noeud, 46 cots de classification errone, 17 cots personnaliss, 79 Critres de croissance CHAID, 10 diagrammes, 32 effets des tiquettes de valeur, 57 effets du niveau de mesure, 53 lagage, 15 Enregistrement de prvisions, 75 enregistrement des variables du modle, 24 estimations du risque, 28 estimations du risque pour les variables dchelle dpendantes, 88 gnration des rgles, 38, 49 importance des valeurs prdites, 28 intervalles des variables dchelle indpendantes, 12 limitation du nombre de niveaux, 9 manipulation de grands arbres, 42 masquage de branches et de noeuds, 41 Mthode CRT, 13 mise lchelle de laffichage de larbre, 44 modification, 41 notation, 84 orientation de larbre, 26 Polices, 46 Probabilit a priori, 20 scores, 21 slection de plusieurs noeuds, 41 slection dobservations dans les noeuds, 76 statistiques des noeuds terminaux, 28 tableau de gains pour les noeuds, 72 tableau des mauvaises raffectations, 28 tableau rcapitulatif des modles, 68 valeurs de substitution, 93, 100 valeurs dindex, 28 Valeurs manquantes, 23, 93 validation croise, 8 validation par partition, 8 variables dchelle dpendantes, 84 arbres de dcision , 1 introduction force de la premire variable dans le modle, 1 Mthode CHAID, 1 Mthode CRT, 1 Mthode Exhaustive CHAID, 1 Mthode QUEST, 1, 14 niveau de mesure, 1 bnfices arbres, 18, 28 Probabilit a priori, 20 CHAID, 1 ajustement de Bonferroni, 10 critres de scission et de fusion, 10 intervalles des variables dchelle indpendantes, 12 nombre maximum ditrations, 10 scission des modalits fusionnes, 10 classification errone arbres, 28 cots, 17 taux, 74 cots classification errone, 17 modles darbre, 79 CRT, 1 lagage, 15 mesures dimpuret, 13 diagramme des gains, 73 diagramme des index, 73 lagage darbres dcision et masquage des noeuds, 15 estimations du risque arbres, 28 pour les variables dpendantes dans la procdure Arbre de dcision, 88 variables dpendantes qualitatives, 74 Etiquettes de valeurs arbres, 57 fichiers dexemple emplacement, 103 fusion de branches darbre, 41 gain, 72 Gnration de nombres alatoires validation darbre de dcision, 8 Gini, 13 impuret Arbres CRT, 13 index modles darbre, 72

117

118 Index

marques commerciales, 115 masquage de branches darbre, 41 masquage des noeuds et lagage, 15 mentions lgales, 114 modles darbre, 72 niveau de mesure arbres de dcision, 1 dans les modles darbre, 53 niveau de signification pour scinder les noeuds, 14 noeuds slection de plusieurs noeuds darbre, 41 nombre de noeuds enregistrement en tant que variable partir des arbres de dcision, 24 notation modles darbre, 84 Pondration dobservations pondrations fractionnelles dans les arbres de dcision, 1 Prvisions enregistrement en tant que variable partir des arbres de dcision, 24 enregistrement pour les modles darbre, 75 probabilit prdite enregistrement en tant que variable partir des arbres de dcision, 24 QUEST, 1, 14 lagage, 15 rgles cration dune syntaxe de slection et danalyse pour les arbres de dcision, 38, 49 rponse modles darbre, 72 scores arbres, 21 slection de plusieurs noeuds darbre, 41 SQL cration de la syntaxe SQL pour la slection et lanalyse, 38, 49 Syntaxe cration dune syntaxe de slection et danalyse pour les arbres de dcision, 38, 49 Syntaxe de commande cration dune syntaxe de slection et danalyse pour les arbres de dcision, 38, 49 tableau de classement, 74 tableau rcapitulatif des modles modles darbre, 68

twoing, 13 twoing ordonn, 13 valeurs de substitution dans les modles darbre, 93, 100 valeurs dindex arbres, 28 Valeurs manquantes arbres, 23 dans les modles darbre, 93 validation arbres, 8 validation croise arbres, 8 validation par partition arbres, 8 Variables dchelle variables dpendantes dans la procdure Arbre de dcision, 84