Vous êtes sur la page 1sur 343

i

IBM SPSS Categories 19


Jacqueline J. Meulman Willem J. Heiser SPSS Inc.

Note: Before using this information and the product it supports, read the general information under Notices sur p. 318. This document contains proprietary information of SPSS Inc, an IBM Company. It is provided under a license agreement and is protected by copyright law. The information contained in this publication does not include any product warranties, and any statements provided in this manual should not be interpreted as such. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you.
Copyright SPSS Inc. 1989, 2010.

Prface

IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire facultatif Modalits fournit les techniques danalyse supplmentaires dcrites dans ce manuel. Le module complmentaire Modalits doit tre utilis avec le systme central SPSS Statistics auquel il est entirement intgr.

A propos de SPSS Inc., an IBM Company


SPSS Inc., an IBM Company, est un des leaders dans le domaine des solutions logicielles danalyse prdictive. Le portfolio complet des produits de la socit Data collection, Statistics, Modeling et Deployment capture les opinions et les attitudes du public, prdit les rsultats des interactions futures des clients, et agit ensuite sur ces donnes en intgrant les analyses dans les processus commerciaux. Les solutions SPSS Inc. rpondent aux objectifs commerciaux interdpendants dune organisation dans sa totalit en se concentrant sur la convergence des analyses, de larchitecture informatique et des processus commerciaux. Des clients issus du milieu des affaires, du milieu gouvernemental ou du milieu acadmique, dans le monde entier, font conance la technologie SPSS Inc., et la considre comme un atout pour attirer et retenir leurs clients, ou encore augmenter leur nombre, tout en rduisant les fraudes et les risques. SPSS Inc. a t achet par IBM en octobre 2009. Pour plus dinformations, visitez le site http://www.spss.com.

Support technique
Un support technique est disponible pour les clients du service de maintenance. Les clients peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits SPSS Inc. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter lassistance technique, consultez le site Web SPSS Inc. ladresse http://support.spss.com, ou recherchez votre reprsentant local la page http://support.spss.com/default.asp?refpage=contactus.asp Votre nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands.

Service clients
Si vous avez des questions concernant votre envoi ou votre compte, contactez votre bureau local, dont les coordonnes gurent sur le site Web ladresse : http://www.spss.com/worldwide. Veuillez prparer et conserver votre numro de srie porte de main pour lidentication.

Copyright SPSS Inc. 1989, 2010

iii

Sminaires de formation
SPSS Inc. propose des sminaires de formation, publics et sur site. Tous les sminaires font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement dans les grandes villes. Pour plus dinformations sur ces sminaires, contactez votre bureau local dont les coordonnes sont indiques sur le site Web ladresse : http://www.spss.com/worldwide.

Documents supplmentaires
Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris le contenu des publications et des extraits de chapitres, visitez le site web de lauteur : http://www.norusis.com

Remerciements
Les procdures de codage optimal et leur mise en oeuvre dans IBM SPSS Statistics ont t dveloppes par le groupe DTSS (Data Theory Scaling System Group), compos de membres des dpartements denseignement et de psychologie de la Facult des sciences sociales et du comportement de lUniversit de Leyde (Pays-Bas). Willem Heiser, Jacqueline Meulman, Gerda van den Berg et Patrick Groenen ont apport leur contribution la cration des procdures initiales, en 1990. Jacqueline Meulman et Peter Neufeglise ont particip au dveloppement des procdures de rgression nominale, danalyse des correspondances, danalyse en composantes principales qualitatives et de positionnement multidimensionnel. En outre, Anita van der Kooij a spcialement contribu aux procdures CATREG, CORRESPONDENCE et CATPCA. Willem Heiser, Jacques Commandeur, Frank Busing, Gerda van den Berg et Patrick Groenen ont particip au dveloppement de la procdure PROXSCAL. Frank Busing, Willem Heiser, Patrick Groenen et Peter Neufeglise ont particip au dveloppement de la procdure PREFSCAL.

iv

Contenu
Partie I: Guide de lutilisateur 1 Introduction aux procdures de codage optimal pour les donnes qualitatives

Dfinition du codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Raisons de lutilisation du codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Niveau de codage optimal et niveau de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Slection du niveau de codage optimal . . . . . . . . . . . . . . Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . Codes de modalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilisation de la procdure la plus adapte votre application Rgression nominale . . . . . . . . . . . . . . . . . . . . . Analyse en composantes principales qualitatives Analyse de corrlation canonique non linaire . . Analyse des correspondances . . . . . . . . . . . . . . Analyse de correspondance multiple . . . . . . . . . Positionnement multidimensionnel. . . . . . . . . . . . Dpliage multidimensionnel . . . . . . . . . . . . . . . . . Ratio daspect des diagrammes de codage optimal . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3 3 4 6 7 8 9 10 11 12 13 13

Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Rgression nominale (CATREG)

16

Dfinir une chelle dans la rgression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Rgression nominale : Discrtisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Rgression nominale : Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Rgression nominale : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Rgularisation de rgression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Rgression nominale : Rsultat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Rgression nominale : Enregistrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Rgression nominale des diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Fonctionnalits supplmentaires de la commande CATREG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Analyse en composantes principales qualitatives (CATPCA) 28


Dfinir lchelle et la pondration dans CATPCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Composantes principales qualitatives : Discrtisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Composantes principales qualitatives : Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Composantes principales qualitatives : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Composantes principales qualitatives : Rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Composantes principales qualitatives : Enregistrer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Composantes principales qualitatives : Diagrammes dobjets et de variables . . . . . . . . . . . . . . . . 39 Composantes principales qualitatives : Diagrammes de modalits . . . . . . . . . . . . . . . . . . . . . . . . 40 Analyse des composantes principales qualitatives:Cartes factorielles . . . . . . . . . . . . . . . . . . . . . 41 Fonctionnalits supplmentaires de la commande CATPCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Analyse canonique non linaire (OVERALS)

43

Dfinir intervalle et chelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Dfinir une plage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Analyse de corrlation canonique non linaire Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Fonctionnalits supplmentaires de la commande OVERALS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Analyse des correspondances

50

Dfinition de la plage de ligne dans lanalyse des correspondances . . . . . . . . . . . . . . . . . . . . . . . 52 Dfinition de la plage de colonne dans lanalyse des correspondances. . . . . . . . . . . . . . . . . . . . . 52 Modle danalyse des correspondances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Statistiques de lanalyse des correspondances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Diagrammes de lanalyse des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Fonctionnalits supplmentaires de la commande CORRESPONDENCE . . . . . . . . . . . . . . . . . . . . 58

Analyse de correspondance multiple

59

Dfinition dune pondration de variable dans une analyse de correspondance multiple. . . . . . . . 61 Analyse des correspondances multiples : Discrtisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Analyse des correspondances multiples : Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Analyse des correspondances multiples : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

vi

Analyse des correspondances multiples : Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Analyse des correspondances multiples : Enregistrer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Analyse des correspondances multiples : Diagrammes dobjets . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Analyse des correspondances multiples : Diagrammes de variables. . . . . . . . . . . . . . . . . . . . . . . 69 Commande MULTIPLE CORRESPONDENCE - Caractristiques additionnelles . . . . . . . . . . . . . . . . 71

Positionnement multidimensionnel (PROXSCAL)

72

Proximits dans des matrices sur plusieurs colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Proximits sur plusieurs colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Proximits dans une colonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Crer des proximits partir des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Crer une mesure partir des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Dfinir un modle de positionnement multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Positionnement multidimensionnel : Restrictions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Positionnement multidimensionnel : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Positionnement multidimensionnel : Diagrammes, Version 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Positionnement multidimensionnel : Diagrammes, Version 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Positionnement multidimensionnel : Rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Fonctionnalits supplmentaires de la commande PROXSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Dpliage multidimensionnel (PREFSCAL)

87

Dfinir un modle de dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Restrictions du dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Options de dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Diagrammes de dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Rsultat du dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Fonctionnalits supplmentaires de la commande PREFSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

vii

Partie II: Exemples 9 Rgression nominale 99

Exemple : Donnes relatives la shampouineuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Analyse de rgression linaire standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Analyse de rgression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Exemple : Donnes dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Discrtisation des variables. . . . . . . . Slection du type de transformation. . Optimisation des quantifications . . . . Effets des transformations . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. 119 119 132 134 143

10 Analyse en composantes principales qualitatives


Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nombre de dimensions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coordonnes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dimensions supplmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple : Symptomatologie des troubles du comportement alimentaire . . Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . Diagrammes de transformation . . . . . . . . . . . . . . . . . Rcapitulatif des modles . . . . . . . . . . . . . . . . . . . . . Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coordonnes principales . . . . . . . . . . . . . . . . . . . . . . Examen de la structure de lvolution de la maladie . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

145
.. .. .. .. .. .. .. .. .. .. .. .. .. .. 146 150 151 153 154 156 158 159 171 174 175 176 178 194

Exemple : Examen des relations entre systmes sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

11 Analyse de corrlation canonique non linaire

196

Exemple \: Analyse des rsultats denqute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Examen des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Similarits entre les groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

viii

Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coordonnes de modalits simples et coordonnes de modalits multiples . . Barycentres et barycentres projets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Autre analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Suggestions dordre gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

.. .. .. .. .. ..

208 210 211 214 220 221

12 Analyse des correspondances

222

Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Exemple : Perceptions des marques de caf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Excution de lanalyse . . . Nombre de dimensions . . Contributions . . . . . . . . . . Diagrammes . . . . . . . . . . Normalisation symtrique Lectures recommandes . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. 224 228 229 230 232 233

13 Analyse de correspondance multiple


Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . Rcapitulatif des modles . . . . . . . . . . . . . . . . . . Coordonnes principales . . . . . . . . . . . . . . . . . . . Mesures de discrimination . . . . . . . . . . . . . . . . . Valeurs affectes aux modalits . . . . . . . . . . . . . Etude plus dtaille des coordonnes des objets . Omission des valeurs loignes . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

234
.. .. .. .. .. .. .. .. 235 238 239 240 241 243 246 250

Exemple : Descriptives du matriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

14 Positionnement multidimensionnel
Choix du nombre de dimensions. . . . . . . . . . . . . . . . . . . . . . . . . . Solution tridimensionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Solution tridimensionnelle avec transformations personnalises . Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

252
.. .. .. .. .. 253 259 266 269 269

Exemple \: Examen des termes de parent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252

ix

15 Dpliage multidimensionnel

271
271 274 275 276 277 278 278 279 283 284 285 288 290 291 292 294 294 300 301 302 302 304 305 306 306

Exemple \: Prfrences alimentaires du petit-djeuner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Cration dune solution dgnre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Excution dune analyse non dgnre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple \: Dpliage tridimensionnel des prfrences relatives aux aliments du petit-djeuner . . Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espaces individuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilisation dune configuration initiale diffrente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espaces individuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple \: Examen de la justesse de la relation comportement-situation . . . . . . . . . . . . . . . . . . Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformations de proximit. . . . . . . . . . . . . . . . . . . . . . . . . Modification de la transformation des proximits (ordinale) . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformations de proximit. . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. .. .. ..

Annexes A Fichiers dexemple B Notices Bibliographie Index 307 318 320 326

xi

Partie I: Guide de lutilisateur

Chapitre

Introduction aux procdures de codage optimal pour les donnes qualitatives

Les procdures de modalit font appel au codage optimal pour analyser les donnes dont lanalyse, par le biais des procdures statistiques standard, est complexe, voire impossible. Ce chapitre dcrit le fonctionnement de chacune des procdures, les circonstances dans lesquelles leur utilisation est la plus favorable, les relations entre les diffrentes procdures et les relations de ces dernires avec les procdures statistiques standard. Remarque : Ces procdures et leur mise en oeuvre IBM SPSS Statistics ont t dveloppes par le groupe DTSS (Data Theory Scaling System), compos de membres des dpartements denseignement et de psychologie de la Facult des sciences sociales et du comportement de lUniversit de Leyde (Pays-Bas).

Dfinition du codage optimal


Le codage optimal consiste associer des quantications numriques aux modalits de chaque variable. Ainsi, les procdures standard peuvent tre utilises pour obtenir une solution portant sur les variables quanties. Les valeurs dchelle optimale sont attribues aux modalits de chaque variable selon le critre doptimisation de la procdure utilise. A la diffrence des tiquettes dorigine des variables nominales ou ordinales de lanalyse, ces valeurs dchelle ont des proprits mtriques. Dans la plupart des procdures de modalit, la quantication optimale de chaque variable code est obtenue via une mthode itrative appele moindres carrs alterns. Dans cette mthode, les quantications actuelles, une fois utilises pour chercher une solution, sont mises jour laide de cette solution. Les quantications mises jour permettent alors de chercher une autre solution, utilise pour mettre jour ces quantications, jusqu ce que le critre signalant la n du processus soit satisfait.

Raisons de lutilisation du codage optimal


En gnral, les donnes qualitatives sont utilises dans le cadre dune recherche commerciale, dun sondage ou dune recherche lie aux sciences sociales et du comportement. En fait, nombreux sont les chercheurs qui travaillent exclusivement avec ce type de donnes.
Copyright SPSS Inc. 1989, 2010 1

2 Chapitre 1

Alors que les adaptations de la plupart des modles standard sont disponibles notamment pour lanalyse des donnes qualitatives, leur utilisation ne convient pas aux ensembles de donnes contenant :

Un nombre dobservations insufsant Un nombre de variables excessif Un nombre de valeurs par variable excessif

En quantiant les modalits, les mthodes de codage optimal vitent tout problme dans ces cas-l. En outre, elles savrent utiles mme si des mthodes spciques sont appropries. Habituellement, linterprtation de rsultats de codage optimal repose sur des graphiques, plutt que sur des estimations de paramtres. Les mthodes de codage optimal fournissent dexcellentes analyses exploratoires qui compltent bien les autres modles IBM SPSS Statistics. Si vous afnez votre recherche, la visualisation des donnes codes de faon optimale peut servir de base une analyse centre sur linterprtation de paramtres de modle.

Niveau de codage optimal et niveau de mesure


Ce concept peut fortement prter confusion lorsque vous utilisez les procdures de modalit pour la premire fois. Si vous spciez le niveau, il ne sagit pas du niveau de mesure des variables, mais de leur niveau de codage. Lide est la suivante : les variables quantier peuvent avoir des relations non linaires, quelle que soit la manire dont elles sont mesures. On distingue trois niveaux de mesure de base pour les modalits :

Le niveau nominal signie que les valeurs dune variable reprsentent des modalits non classes. Voici quelques exemples de variables pouvant tre considres comme nominales : les modalits de rgion, de code postal, dappartenance religieuse et choix multiples. Le niveau ordinal signie que les valeurs dune variable reprsentent des modalits classes. En voici quelques exemples : les chelles dattitude reprsentant le degr de satisfaction ou de conance, et les chelles dvaluation des prfrences. Le niveau numrique signie que les valeurs dune variable reprsentent des modalits classes avec une mesure signicative, de sorte que les comparaisons de distance entre les modalits soient adquates. Lge en annes et le revenu en milliers de dollars constituent des exemples.

Par exemple, supposons que les variables rgion, travail et ge sont codes comme lindique le tableau suivant.
Table 1-1 Systme de codage de la rgion, du travail et de lge

Rgion 1 2 3 4 Nord Sud Est Ouest 1 2 3

Travail stagiaire reprsentant Gestionnaire 20 22 25 27 vingt ans

age vingt-deux ans vingt-cinq ans vingt-sept ans

3 Introduction aux procdures de codage optimal pour les donnes qualitatives

Les valeurs mentionnes reprsentent les modalits de chaque variable. Rgion est une variable nominale. On distingue quatre modalits de rgion sans ordre intrinsque. Les valeurs 1 4 reprsentent simplement ces quatre modalits. Le systme de codage est totalement arbitraire. En revanche, la variable travail peut tre considre comme une variable ordinale. Les modalits dorigine reprsentent une progression du statut de stagiaire celui de responsable. Plus les codes sont levs, plus ils font rfrence fonction leve dans la hirarchie de lentreprise. Toutefois, seules les informations relatives lordre sont connues, mais aucun lment dinformation ne peut tre fourni concernant la distance entre les modalits adjacentes. En revanche, la variable ge peut tre considre comme une variable numrique. Dans le cas de la variable ge, les distances entre les valeurs sont intrinsquement explicites. La distance entre 20 et 22 est identique celle entre 25 et 27, alors que la distance entre 22 et 25 est suprieure ces deux distances.

Slection du niveau de codage optimal


Il est important de comprendre quaucune proprit intrinsque de variable ne prdnit automatiquement le niveau de codage optimal que vous devez indiquer. Vous pouvez explorer les donnes de manire cohrente et simpliant linterprtation. En analysant une variable numrique au niveau ordinal, par exemple, une transformation non linaire autorise une solution dans un nombre infrieur de dimensions. Les deux exemples suivants illustrent le fait que le niveau de mesure vident nest peut-tre pas le niveau de codage optimal. Supposez quune variable rpartit les objets dans les diffrents groupes dge. Bien que la variable ge puisse tre code en tant que variable numrique, il savre parfois que, pour les jeunes de moins de 25 ans, la scurit a un rapport positif avec lge alors que, pour les personnes de plus de 60 ans, ce rapport est ngatif. Dans ce cas, mieux vaut peut-tre considrer ge comme une variable nominale. Autre exemple : une variable triant les personnes par prfrence politique semble avant tout tre nominale. Toutefois, si vous triez les partis politiques de gauche droite, il se peut que leur quantication doive respecter cet ordre. Dans ce cas, vous devrez utiliser un niveau danalyse ordinal. Mme sil nexiste aucune proprit prdnie de variable la transformant exclusivement en tel ou tel niveau, lutilisateur dbutant peut saider des rgles gnrales suivantes. Dans la quantication nominale simple, vous ne connaissez pas en gnral lordre des modalits, mais lanalyse doit en imposer un. Si lordre des modalits est connu, vous devez faire appel la quantication ordinale. Si les modalits ne peuvent pas tre classes, vous pouvez utiliser la quantication nominale multiple.

Diagrammes de transformation
Les diffrents niveaux auxquels chaque variable peut tre code imposent plusieurs restrictions dans les quantications. Les diagrammes de transformation illustrent la relation entre les quantications et les modalits dorigine rsultant du niveau de codage optimal slectionn. Par exemple, un diagramme de transformation linaire est obtenu lorsquune variable est considre comme numrique. Les variables considres comme ordinales entranent la cration dun diagramme de transformation non dcroissant. Les diagrammes de transformation de variables considres comme nominales, en forme de U (ou linverse), afchent une relation quadratique. Ces variables peuvent galement crer des diagrammes de transformation sans tendance apparente

4 Chapitre 1

en changeant compltement lordre des modalits. La gure suivante reprsente un exemple de diagramme de transformation. Les diagrammes de transformation conviennent particulirement la dnition du mode de fonctionnement du niveau de codage optimal slectionn. Si plusieurs modalits reoivent des quantications similaires, la fusion de ces modalits en une seule modalit peut tre garantie. Si une variable considre comme nominale reoit des quantications afchant une tendance croissante, une transformation ordinale peut galement entraner un ajustement similaire. Si cette tendance est linaire, il peut tre appropri de considrer la variable comme numrique. Toutefois, si la fusion des modalits ou la modication des niveaux de codage est garantie, lanalyse ne varie pas de faon signicative.
Figure 1-1 Diagramme de transformation de prix (numrique)

Codes de modalit
Soyez vigilant lorsque vous codez des variables qualitatives, car certains systmes de codage peuvent gnrer des rsultats indsirables ou des analyses incompltes. Les systmes de codage applicables la variable travail sont rpertoris dans le tableau suivant.
Table 1-2 Autres systmes de codage de la variable travail

Systme de codage Modalit stagiaire reprsentant Gestionnaire A 1 2 3 A 1 2 7 C 5 6 7 D 1 5 3

Certaines procdures de modalit exigent que la plage de valeurs de chaque variable soit dnie. Toute valeur en dehors de cette plage est considre comme manquante. La valeur minimale de modalit est toujours gale 1. La valeur maximale de modalit, quant elle, est fournie par lutilisateur. Cette valeur ne reprsente pas le nombre de modalits dune variable. Il sagit de la valeur maximale de modalit. Par exemple, dans ce tableau, le systme de codage A est dot dune

5 Introduction aux procdures de codage optimal pour les donnes qualitatives

modalit maximale gale 3, et le systme de codage B, dune valeur maximale de modalit gale 7. Toutefois, ces deux systmes codent les trois mmes modalits. La plage de variables dtermine les modalits qui sont omises de lanalyse. Les modalits ayant des codes en dehors de la plage dnie sont galement omises de cette analyse. Cette mthode est certes simple pour omettre des modalits, mais elle peut entraner des analyses indsirables. Une modalit mal dnie peut omettre des modalits valides de lanalyse. Par exemple, pour le systme de codage B, dnir la valeur maximale de modalit sur 3 signie que la variable travail possde des modalits codes de 1 3. La modalit de responsable est considre comme manquante. Aucune modalit nayant t rellement code 3, la troisime modalit de lanalyse ne contient aucune observation. Si vous souhaitez omettre toutes les modalits de responsable, cette analyse est tout fait approprie. Toutefois, si des responsables doivent tre ajouts, la modalit maximale doit tre dnie sur 7 et les valeurs manquantes doivent tre codes avec des valeurs suprieures 7 ou infrieures 1. Pour les variables considres comme nominales ou ordinales, la plage des modalits na aucune incidence sur les rsultats. Pour les valeurs nominales, seule ltiquette, et non la valeur qui lui est associe, est dterminante. Pour les variables ordinales, lordre des modalits est conserv dans les quantications. Les valeurs de modalit proprement dites ne sont pas importantes. Tous les systmes de codage aboutissant au mme classement des modalits auront des rsultats identiques. Par exemple, les trois premiers systmes de codage du tableau sont fonctionnellement quivalents si la variable travail est analyse un niveau ordinal. Lordre des modalits est identique dans ces systmes. En revanche, le systme de codage D inverse les deuxime et troisime modalits, et gnre des rsultats diffrents de ceux des autres systmes. Bien que de nombreux systmes de codage de variable soient fonctionnellement quivalents, on leur prfre lutilisation dautres systmes prsentant de lgres diffrences entre les codes, car ces derniers inuent sur le nombre de rsultats gnrs par une procdure. Toutes les modalits codes dotes de valeurs comprises entre 1 et la valeur maximale dnie par lutilisateur sont valides. Si lune de ces modalits est vide, les quantications correspondantes seront manquantes par dfaut ou nulles, selon la procdure utilise. Bien quaucune de ces affectations nait dincidence sur les analyses, des rsultats sont crs pour ces modalits. Par consquent, pour le systme de codage B, la variable travail possde quatre modalits recevant des valeurs manquantes par dfaut. Pour le systme de codage C, on distingue galement quatre modalits recevant des indicateurs manquants par dfaut. En revanche, pour le systme de codage A, il nexiste aucune quantication manquante par dfaut. Utiliser des entiers conscutifs en tant que codes pour les variables traites comme des variables nominales ou ordinales gnre beaucoup moins de rsultats sans affecter pour autant les autres rsultats. Les systmes de codage des variables considres comme numriques sont plus restreints que lobservation ordinale. Pour ces variables, les diffrences entre les modalits conscutives sont signicatives. Le tableau suivant rpertorie trois systmes de codage pour la variable ge.
Table 1-3 Autres systmes de codage dge

Systme de codage Modalit 20 22 A 20 22 A 1 3 C 1 2

6 Chapitre 1

Systme de codage Modalit 25 27 A 25 27 A 6 8 C 3 4

Tout recodage des variables numriques doit conserver les diffrences entre les modalits. Une mthode garantissant leur conservation consiste utiliser les valeurs dorigine. Toutefois, nombreuses sont les modalits qui risquent davoir au nal des indicateurs manquants par dfaut. Par exemple, le systme de codage A emploie les valeurs observes dorigine. Pour les procdures de modalit, lexception de lAnalyse des correspondances, la valeur maximale de modalit est gale 27, et la valeur minimale de modalit est dnie sur 1. Les 19 premires modalits sont vides et reoivent des indicateurs manquants par dfaut. Le nombre de rsultats peut devenir rapidement consquent si la modalit maximale est nettement suprieure 1 et quil existe de nombreuses modalits vides comprises entre 1 et la valeur maximale. Pour rduire le nombre de rsultats, vous pouvez procder un recodage. Nanmoins, pour les variables numriques, vous ne devez pas utiliser la fonction de recodage automatique. Le codage appliqu aux entiers conscutifs gnre des diffrences de 1 entre toutes les modalits conscutives et, par consquent, lensemble des quantications est espac de la mme manire. Les caractristiques mtriques juges primordiales lorsquune variable est considre comme numrique sont supprimes par lapplication dun recodage aux entiers conscutifs. Par exemple, le systme de codage C du tableau correspond au recodage automatique de la variable ge. La diffrence entre les modalits 22 et 25 passe de trois un. Les quantications retent ce changement. Un autre systme de recodage conservant les diffrences entre les modalits consiste dduire de chaque modalit la plus petite valeur de la modalit et ajouter 1 chaque diffrence. Le systme B constitue laboutissement de cette transformation. La plus petite valeur de modalit, 20, a t dduite de chaque modalit, et 1 a t ajout chaque rsultat. Les codes transforms possdent une valeur minimale, 1, et lensemble des diffrences est identique aux donnes dorigine. La valeur maximale de modalit est dsormais gale 8. En outre, les quantications nulles prcdant la premire quantication non nulle sont toutes supprimes. Toutefois, les quantications non nulles qui correspondent chaque modalit issue du systme B sont identiques aux quantications du systme A.

Utilisation de la procdure la plus adapte votre application


Les mthodes contenues dans quatre de ces procdures (analyse des correspondances, analyse de correspondance multiple, analyse en composantes principales qualitatives et analyse de corrlation canonique non linaire) font partie du processus gnral danalyse des donnes multivaries, appel rduction des dimensions. En termes plus prcis, les relations entre les variables sont reprsentes dans plusieurs dimensions deux ou trois aussi souvent que possible. Vous pouvez ainsi dcrire les structures ou les motifs des relations quil serait trop difcile de comprendre dans leur richesse et leur complexit originales. Dans les applications dtude de march, ces mthodes peuvent reprsenter un type de conguration perceptuelle. Ces procdures prsentent un avantage majeur : elles adaptent les donnes diffrents niveaux de codage optimal.

7 Introduction aux procdures de codage optimal pour les donnes qualitatives

La rgression nominale dcrit la relation entre une variable de rponse qualitative et une combinaison de variables indpendantes qualitatives. Linuence de chaque variable indpendante sur la variable de rponse est signale par la pondration de rgression correspondante. Comme dans les autres procdures, les donnes peuvent tre analyses avec plusieurs niveaux de codage optimal. Le positionnement et le dpliage multidimensionnels dcrivent les relations entre les objets dans un espace de petite dimension laide des proximits entre les objets. Voici quelques rgles applicables chaque procdure :

Utilisez la rgression nominale pour prvoir les valeurs dune variable dpendante qualitative issue dune combinaison de variables indpendantes qualitatives. Utilisez lanalyse en composantes principales qualitatives pour reprsenter les motifs de variation dun ensemble de variables de niveaux de codage optimal mixtes. Utilisez lanalyse de corrlation canonique non linaire pour valuer limportance de la corrlation de plusieurs ensembles de variables de niveaux de codage optimal mixtes. Utilisez lanalyse des correspondances pour analyser les tableaux de contingence deux entres ou les donnes pouvant tre fournies en tant que tableau deux entres, comme les donnes de prfrence de marque ou de choix sociomtrique. Utilisez lanalyse de correspondance multiple pour analyser une matrice de donnes multivaries qualitatives si vous souhaitez simplement que les variables soient analyses au niveau nominal. Utilisez le positionnement multidimensionnel pour analyser des donnes de proximit. Lobjectif est de trouver une reprsentation moindres carrs dun seul ensemble dobjets dans un espace de petite dimension. Utilisez le dpliage multidimensionnel pour analyser des donnes de proximit. Lobjectif est de trouver une reprsentation moindres carrs de deux ensembles dobjets dans un espace de petite dimension.

Rgression nominale
La rgression nominale convient le mieux si votre analyse a pour but de prvoir une variable (de rponse) dpendante issue dun ensemble de variables indpendantes. Comme pour toutes les procdures de codage optimal, des valeurs dchelle sont attribues chaque modalit de chaque variable, an que ces valeurs soient optimales par rapport la rgression. La solution dune rgression nominale optimise la corrlation carre entre la rponse transforme et la combinaison pondre de variables explicatives transformes.
Relation avec les autres procdures de modalit. La rgression nominale avec codage optimal est

comparable lanalyse de corrlation canonique avec codage optimal utilisant deux ensembles, dont lun contient uniquement la variable dpendante. Dans la dernire mthode, la similitude des ensembles est calcule par comparaison de chaque ensemble une variable inconnue situe entre tous les ensembles. Dans la rgression nominale, la similitude de la rponse transforme et de la combinaison linaire de variables explicatives transformes est value directement.

8 Chapitre 1

Relation avec les mthodes standard. Dans la rgression linaire standard, les variables qualitatives

peuvent tre soit recodes en tant que variables indicatrices, soit traites de la mme manire que les variables de niveau dintervalle. Dans la premire approche, le modle inclut une constante et une pente diffrentes pour chaque combinaison de niveaux des variables qualitatives. Un grand nombre de paramtres interprter est ainsi gnr. Dans la seconde approche, un seul paramtre est estim pour chaque variable. Toutefois, la nature arbitraire des codages de modalit rend toute gnralisation impossible. Si une partie des variables nest pas continue, dautres types danalyse sont disponibles. Si la rponse est continue et les variables explicatives qualitatives, lanalyse des variances est gnralement utilise. Si la rponse est qualitative et les variables explicatives continues, la rgression logistique ou lanalyse discriminante peut convenir. Si la rponse et les variables explicatives sont qualitatives, les modles log-linaires sont gnralement utiliss. La rgression avec codage optimal fournit trois niveaux de codage pour chaque variable. Les combinaisons de ces niveaux peuvent reprsenter des relations non linaires trs diverses auxquelles une mthode standard nest pas du tout adapte. Par consquent, le codage optimal savre une solution beaucoup plus souple que les approches standard un peu plus complexes. En outre, les transformations non linaires des variables explicatives rduisent habituellement les dpendances des uns par rapport aux autres. Si vous comparez les valeurs propres de la matrice de corrlation des variables explicatives avec celles de la matrice de corrlation des variables explicatives codes de faon optimale, ces dernires sont gnralement moins variables que les autres. En dautres termes, dans la rgression nominale, le codage optimal rduit les valeurs propres suprieures de la matrice de corrlation des variables explicatives et incrmente les valeurs propres infrieures.

Analyse en composantes principales qualitatives


Lutilisation de lanalyse en composantes principales qualitatives convient le mieux pour reprsenter les motifs de variation dun ensemble de variables de niveaux de codage optimal mixtes. Cette mthode tente de rduire le nombre de dimensions dun ensemble de variables et de reprsenter cette variation dans la mesure du possible. Des valeurs dchelle sont attribues chaque modalit des variables an que ces valeurs soient optimales par rapport la solution en composantes principales. Les objets utiliss pour lanalyse reoivent les coordonnes des composantes bases sur les donnes quanties. Les diagrammes de coordonnes des composantes rvlent les motifs gurant parmi les objets de lanalyse, ainsi que les objets inhabituels contenus dans les donnes. La solution dune analyse des composantes principales qualitatives optimise les corrlations de coordonnes des objets avec chaque variable quantie pour le nombre de composantes (dimensions) indiqu. Une fonction importante des composantes principales qualitatives consiste vrier les donnes de prfrence, o les rpondants classent ou valuent un nombre dlments par rapport la prfrence. Dans la conguration habituelle des donnes IBM SPSS Statistics, les lignes correspondent aux individus, les colonnes, aux mesures des lments et les scores gurant sur les lignes, aux scores de prfrence (sur une chelle de 0 10, par exemple), ce qui rend les donnes dpendantes des lignes. Pour les donnes de prfrence, vous pouvez considrer les individus comme des variables. Grce la procdure de transposition, vous pouvez transposer ces donnes. Les indicateurs sont les variables et toutes les variables sont dclares ordinales. Si vous le souhaitez, vous pouvez utiliser plus de variables que dobjets pour la procdure CATPCA.

9 Introduction aux procdures de codage optimal pour les donnes qualitatives

Relation avec les autres procdures de modalit. Si toutes les variables sont dclares nominales

multiples, lanalyse en composantes principales qualitatives gnre une analyse quivalant une analyse de correspondance multiple excute sur les mmes variables. Par consquent, lanalyse en composantes principales qualitatives peut tre considre comme un type danalyse de correspondance multiple dans lequel certaines variables sont dclares ordinales ou numriques.
Relation avec les mthodes standard. Si toutes les variables sont codes au niveau numrique,

lanalyse en composantes principales qualitatives quivaut lanalyse en composantes principales standard. Plus gnralement, lanalyse en composantes principales qualitatives reprsente un autre moyen de calculer les corrlations entre les chelles non numriques, et de leur appliquer une analyse factorielle ou en composantes principales standard. Toute utilisation simpliste du coefcient de corrlation de Pearson habituel comme mesure dassociation de donnes ordinales peut avoir une incidence signicative sur lestimation des corrlations.

Analyse de corrlation canonique non linaire


LAnalyse de corrlation canonique non linaire est une procdure trs gnrale comportant de nombreuses tches. Ce type danalyse a pour but danalyser les relations entre plusieurs ensembles de variables, au lieu des variables proprement dites, comme dans lanalyse en composantes principales. Par exemple, vous pouvez utiliser deux ensembles de variables : lun peut inclure des lments dordre dmographique concernant un groupe de rpondants, alors que lautre peut contenir les rponses un ensemble dlments dattitude. Les niveaux de codage de lanalyse peuvent reprsenter une combinaison de niveaux nominal, ordinal et numrique. Lanalyse de corrlation canonique avec codage optimal dtermine la similitude entre les ensembles en comparant simultanment les variables canoniques de chaque ensemble un groupe de coordonnes de compromis associ aux objets.
Relation avec les autres procdures de modalit. Si plusieurs ensembles de variables contiennent

chacun une seule variable, lanalyse de corrlation canonique avec codage optimal quivaut lanalyse en composantes principales avec codage optimal. Si toutes les variables dune analyse de type une variable par ensemble sont nominales multiples, lanalyse de corrlation canonique avec codage optimal quivaut lanalyse de correspondance multiple. Dans le cas de deux ensembles de variables, dont lun comprend une seule variable, lanalyse de corrlation canonique avec codage optimal quivaut la rgression nominale avec codage optimal.
Relation avec les mthodes standard. Lanalyse de corrlation canonique standard est une mthode

statistique qui recherche une combinaison linaire dun premier ensemble de variables et celle dun second ensemble de variables corrles de faon optimale. Du fait de ces combinaisons linaires, lanalyse de corrlation canonique peut rechercher les ensembles indpendants de combinaisons linaires suivants, appels variables canoniques. Le nombre maximal densembles doit tre gal au nombre de variables contenues dans le plus petit ensemble. Si deux ensembles de variables sont utiliss dans lanalyse et toutes les variables dnies comme tant numriques, lanalyse de corrlation canonique avec codage optimal quivaut une analyse de corrlation canonique standard. Bien que IBM SPSS Statistics ne propose aucune procdure danalyse de corrlation canonique, vous pouvez obtenir une bonne partie des statistiques concernes par le biais de lanalyse multivarie des variances.

10 Chapitre 1

Lanalyse de corrlation canonique avec codage optimal fournit de nombreuses fonctions. Si vous utilisez deux ensembles de variables et que lun deux contient une variable nominale dclare nominale simple, les rsultats de lanalyse de corrlation canonique avec codage optimal peuvent tre interprts dune manire similaire ceux de lanalyse de rgression. Si vous considrez que cette variable est nominale multiple, lanalyse avec codage multiple constitue une alternative lanalyse discriminante. Regrouper les variables dans plus de deux ensembles vous permet danalyser les donnes de diffrentes manires.

Analyse des correspondances


Lanalyse des correspondances a pour but de crer des diagrammes doubles pour les tableaux de correspondances. Dans un tableau de correspondances, les variables de ligne et de colonne sont supposes reprsenter les modalits non classes. Par consquent, le niveau de codage optimal nominal est systmatiquement utilis. Seules les donnes nominales sont recherches dans ces deux types de variable. Il sagit en ralit de tenir compte du fait que certains objets se trouvent dans la mme modalit, alors que ce nest pas le cas pour dautres. Aucune hypothse nest avance concernant la distance ou lordre entre les modalits de la mme variable. Lanalyse des correspondances peut notamment servir analyser les tableaux de contingence deux entres. Si un tableau possde r lignes actives et c colonnes actives, le nombre de dimensions de la solution danalyse des correspondances correspond au nombre minimal de r moins 1 ou de c moins 1, selon la valeur la plus faible. En dautres termes, vous pouvez parfaitement reprsenter les modalits de ligne ou de colonne dun tableau de contingence dans un espace de dimensions. En pratique, vous pouvez nanmoins reprsenter les modalits de ligne et de colonne dun tableau deux entres dans un espace comportant peu de dimensions, plus prcisment deux, pour la simple raison que la comprhension des diagrammes bidimensionnels est bien plus facile que celle des reprsentations spatiales multidimensionnelles. Lorsquun nombre de dimensions infrieur au nombre maximal de dimensions possibles est utilis, les statistiques cres lors de lanalyse dcrivent la manire dont les modalits de ligne et de colonne sont reproduites dans la reprsentation comportant peu de dimensions. Si la qualit de la reprsentation de la solution bidimensionnelle est satisfaisante, vous pouvez vrier les diagrammes des points de ligne et de colonne pour dterminer les modalits similaires de la variable de ligne et de la variable de colonne, et les modalits de ligne et de colonne similaires les unes aux autres.
Relation avec les autres procdures de modalit. Lanalyse simple des correspondances se limite aux tableaux deux entres. Si plusieurs variables vous intressent, vous pouvez en combiner certaines pour crer des variables dinteraction. Par exemple, pour les variables rgion, travail et ge, vous pouvez combiner rgion et travail an de crer une variable rtrav possdant les 12 modalits rpertories dans le tableau suivant. Cette variable cre un tableau deux entres avec la variable ge (12 lignes, 4 colonnes), qui peut faire lobjet dune analyse de correspondances.
Table 1-4 Combinaisons des variables rgion et travail

Code de modalit 1 2 3

Dnition de modalit Nord, stagiaire Nord, reprsentant Nord, responsable

Code de modalit 7 8 9

Dnition de modalit Est, stagiaire Est, reprsentant Est, responsable

11 Introduction aux procdures de codage optimal pour les donnes qualitatives

Code de modalit 4 5 6

Dnition de modalit Sud, stagiaire Sud, reprsentant Sud, responsable

Code de modalit 10 11 12

Dnition de modalit Ouest, stagiaire Ouest, reprsentant Ouest, responsable

Cette approche prsente un dfaut, savoir que toute paire de variables peut tre combine. Nous pouvons combiner travail et ge, et ainsi obtenir une autre variable de 12 modalits. Nous pouvons galement combiner rgion et ge, ce qui entrane la cration dune variable de 16 modalits. Chacune de ces variables dinteraction gnre un tableau deux entres avec lautre variable. Les analyses des correspondances de ces trois tableaux donnent des rsultats diffrents, mme si chaque rsultat est valide. En outre, dans le cas de quatre variables au moins, vous pouvez crer des tableaux deux entres comparant une variable dinteraction avec une autre. Le nombre de tableaux possibles analyser peut devenir trs important, mme pour quelques variables seulement. Vous pouvez combiner lun de ces tableaux pour lanalyse ou les analyser tous. Vous pouvez galement utiliser la procdure danalyse de correspondance multiple pour vrier toutes les variables la fois sans avoir crer de variables dinteraction.
Relation avec les mthodes standard. En outre, la procdure de tableau crois permet danalyser les tableaux de contingence, avec lindpendance comme valeur commune aux diffrentes analyses. Toutefois, mme dans les petits tableaux, dterminer lorigine dun dpart partir de la valeur dindpendance peut savrer complexe. Lanalyse des correspondances est utile car elle analyse ces motifs pour les tableaux deux entres, quelle que soit leur taille. En cas dassociation entre les variables de ligne et de colonne (cest--dire si la valeur Khi-deux est signicative), lanalyse des correspondances peut contribuer rvler la nature de la relation.

Analyse de correspondance multiple


LAnalyse de correspondance multiple tente de crer une solution dans laquelle les objets faisant partie de la mme modalit sont reprsents proches les uns des autres, et les objets de modalits diffrentes, loigns les uns des autres. Chaque objet se trouve aussi prs que possible des points de modalit qui sappliquent. Ainsi, les modalits divisent les objets en sous-groupes homognes. Les variables sont considres comme homognes lorsquelles classent les objets des mmes modalits dans les mmes sous-groupes. Pour une solution en une dimension, lanalyse de correspondance multiple attribue des valeurs dchelle optimale (quantications de modalit) chaque modalit de chaque variable si bien que, dans lensemble, les modalits ont en moyenne une tendue maximale. Pour une solution en deux dimensions, lanalyse de correspondance multiple recherche un second ensemble de quantications des modalits de chaque variable non li au premier ensemble, en ressayant doptimiser ltendue, etc. Les modalits recevant autant de coordonnes quil existe de dimensions, les variables de lanalyse sont censes tre nominales multiples au niveau de codage optimal. Lanalyse de correspondance multiple affecte galement des coordonnes aux objets de lanalyse, an que les quantications de modalit reprsentent les moyennes, ou barycentres, des coordonnes des objets de la modalit.

12 Chapitre 1

Relation avec les autres procdures de modalit. Lanalyse de correspondance multiple est galement appele analyse dhomognit ou double codage. Elle fournit des rsultats, certes comparables mais pas identiques, ceux de lanalyse des correspondances lorsque seules deux variables sont utilises. Lanalyse des correspondances gnre des rsultats uniques rcapitulant lajustement et la qualit de la reprsentation de la solution, y compris les informations de stabilit. Par consquent, dans le cas de deux variables, il vaut mieux gnralement prfrer lanalyse des correspondances lanalyse de correspondance multiple. Ces deux procdures prsentent une autre diffrence : le point de dpart de lanalyse de correspondance multiple est une matrice de donnes, dans laquelle les lignes sont des objets et les colonnes sont des variables. Quant au point de dpart de lanalyse des correspondances, il peut tre la mme matrice de donnes, une matrice de proximit gnrale ou un tableau de contingence joint, qui est une matrice rcapitulative o les lignes et les colonnes reprsentent des modalits de variables. Lanalyse de correspondance multiple peut galement tre assimile lanalyse en composantes principales de donnes codes au niveau nominal multiple. Relation avec les mthodes standard. Lanalyse de correspondance multiple peut tre considre comme tant lanalyse dun tableau de contingence entres multiples. Un tableau de contingence entres multiples peut galement tre analys avec la procdure de tableaux croiss, mais celle-ci fournit des statistiques rcapitulatives distinctes pour chaque modalit de chaque variable de contrle. Grce lanalyse de correspondance multiple, il est gnralement possible de rcapituler la relation entre toutes les variables laide dun diagramme bidimensionnel. Un mode dutilisation avanc de ce type danalyse consiste remplacer les valeurs de modalit dorigine par les valeurs dchelle optimale de la premire dimension, puis effectuer une analyse multivarie secondaire. Puisque lanalyse de correspondance multiple remplace les tiquettes de modalit par des valeurs dchelle numrique, de nombreuses procdures ncessitant des donnes numriques peuvent tre appliques lorsquelle est termine. Par exemple, la procdure danalyse factorielle cre une premire composante principale quivalant la premire dimension de lanalyse de correspondance multiple. Les coordonnes des composantes de la premire dimension sont identiques celles des objets et les corrlations entre composantes, aux mesures de discrimination. Nanmoins, la deuxime dimension de lanalyse de correspondance multiple est diffrente de celle de lanalyse factorielle.

Positionnement multidimensionnel
Le positionnement multidimensionnel convient le mieux si votre analyse a pour but de rechercher une structure dans un ensemble de mesures de distance entre un ensemble dobjets ou dobservations unique. Pour cela, il affecte les observations des positions particulires dans un espace conceptuel de petite dimension de telle sorte que les distances entre les points dans lespace correspondent le mieux possible aux dissimilarits donnes. Le rsultat est une reprsentation moindres carrs des objets dans cet espace de petite dimension, qui vous aidera, dans certains cas, mieux comprendre vos donnes.
Relation avec les autres procdures de modalit. Lorsque vous utilisez des donnes multivaries

partir desquelles vous crez des distances et que vous analysez ensuite avec le positionnement multidimensionnel, les rsultats savrent similaires ceux de lanalyse des donnes utilisant une analyse des composantes principales qualitatives, impliquant la standardisation principale

13 Introduction aux procdures de codage optimal pour les donnes qualitatives

des objets. Ce type danalyse en composantes principales est galement appel analyse des coordonnes principales.
Relation avec les mthodes standard. La procdure de positionnement multidimensionnel qualitatif

(PROXSCAL) apporte des amliorations la procdure de codage disponible dans loption Statistiques de base (ALSCAL). PROXSCAL fournit un algorithme acclr pour certains modles et vous permet dappliquer des restrictions lespace commun. En outre, PROXSCAL tente de minimiser le stress brut normalis plutt que le stress S (galement appel pression). En gnral, on dnote une certaine prfrence pour le stress brut normalis, car cette mesure est base sur les distances, alors que le stress S est bas sur leur carr.

Dpliage multidimensionnel
Le Dpliage multidimensionnel convient mieux si votre analyse a pour but de rechercher une structure dans un ensemble de mesures de distance entre deux ensembles dobjets (appels objets de ligne et de colonne). Pour cela, il affecte les observations des positions particulires dans un espace conceptuel de petite dimension de telle sorte que les distances entre les points dans lespace correspondent le mieux possible aux dissimilarits donnes. Le rsultat est une reprsentation moindres carrs des objets de ligne et de colonne dans cet espace de petite dimension, qui vous aidera, dans certains cas, mieux comprendre vos donnes.
Relation avec les autres procdures de modalit. Si vos donnes sont constitues de distances entre un ensemble unique dobjets (une matrice carre, symtrique), utilisez Positionnement multidimensionnel. Relation avec les mthodes standard. La procdure de dpliage multidimensionnel des modalits (PREFSCAL) apporte des amliorations la fonctionnalit de dpliage disponible dans loption Statistiques de base (avec ALSCAL). PREFSCAL vous permet dinstaurer des restrictions sur lespace commun. En outre, PREFSCAL tente de minimiser une mesure de stress pnalise, laidant ainsi viter de dgnrer des solutions (auxquels les algorithmes prcdents sont enclins).

Ratio daspect des diagrammes de codage optimal


Le ratio daspect des diagrammes de codage optimal est isotrope. Dans un diagramme bidimensionnel, la distance reprsentant une unit de la dimension 1 est gale celle reprsentant une unit de la dimension 2. Si, dans ce type de diagramme, vous modiez ltendue dune dimension, le systme modie la taille de lautre dimension pour que les distances physiques restent gales. Il est impossible de remplacer un ratio daspect isotrope pour les procdures de codage optimal.

Lectures recommandes
Reportez-vous aux documents suivants pour obtenir des informations gnrales sur les mthodes de codage optimal. Barlow, R. E., D. J. Bartholomew, D. J. Bremner, et H. D. Brunk. 1972. Statistical inference under order restrictions. New York: John Wiley and Sons.

14 Chapitre 1

Benzcri, J. P. 1969. Statistical analysis as a tool to make patterns emerge from data. Dans : Methodologies of Pattern Recognition, S. Watanabe, d. New York: Academic Press. Bishop, Y. M., S. E. Feinberg, et P. W. Holland. 1975. Discrete multivariate analysis: Theory and practice. Cambridge, Massachusetts: MIT Press. De Leeuw, J. 1984. The Gi system of nonlinear multivariate analysis. Dans : Data Analysis and Informatics III, E. Diday, et al., d.. De Leeuw, J. 1990. Multivariate analysis with optimal scaling. Dans : Progress in Multivariate Analysis, S. Das Gupta, et J. Sethuraman, ds. Calcutta: Indian Statistical Institute. De Leeuw, J., et J. Van Rijckevorsel. 1980. HOMALS and PRINCALSSome generalizations of principal components analysis. Dans : Data Analysis and Informatics, E. Diday, et al., d. Amsterdam: North-Holland. De Leeuw, J., F. W. Young, et Y. Takane. 1976. Additive structure in qualitative data: An alternating least squares method with optimal scaling features. Psychometrika, 41, . Gi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons. Heiser, W. J., et J. J. Meulman. 1995. Nonlinear methods for the analysis of homogeneity and heterogeneity. Dans : Recent Advances in Descriptive Multivariate Analysis, W. J. Krzanowski, d. Oxford: Oxford University Press. Israls, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press. Krzanowski, W. J., et F. H. C. Marriott. 1994. Multivariate analysis: Part I, distributions, ordination and inference. Londres: Edward Arnold. Lebart, L., A. Morineau, et K. M. Warwick. 1984. Multivariate descriptive statistical analysis. New York: John Wiley and Sons. Max, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (Information Theory), 6, . Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO Press. Meulman, J. J. 1992. The integration of multidimensional scaling and multivariate analysis with optimal transformations of the variables. Psychometrika, 57, . Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University of Toronto Press. Nishisato, S. 1994. Elements of dual scaling: An introduction to practical data analysis. Hillsdale, New Jersey: Lawrence Erlbaum Associates, Inc. Rao, C. R. 1973. Linear statistical inference and its applications, 2nd d. New York: John Wiley and Sons. Rao, C. R. 1980. Matrix approximations and reduction of dimensionality in multivariate statistical analysis. Dans : Multivariate Analysis, Vol. 5, P. R. Krishnaiah, d. Amsterdam: North-Holland. Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten: VAM. Shepard, R. N. 1966. Metric structures in ordinal data. Journal of Mathematical Psychology, 3, .

15 Introduction aux procdures de codage optimal pour les donnes qualitatives

Wolter, K. M. 1985. Introduction to variance estimation. Berlin: Springer-Verlag. Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46, .

Chapitre

Rgression nominale (CATREG)

La rgression nominale quantie les donnes qualitatives en affectant des valeurs numriques aux modalits ; une quation de rgression linaire optimale est ainsi cre pour les variables transformes. La rgression nominale est galement appele CATREG, acronyme de categorical regression. Lanalyse de la rgression linaire standard implique la rduction des diffrences de sommes des carrs entre une variable de rponse (dpendante) et une combinaison pondre des prdicteurs (variables indpendantes). Les variables sont habituellement quantitatives, les donnes nominales tant recodes en variables binaires ou de contraste. En consquence, les variables qualitatives servent sparer les groupes dobservations et cette technique estime des sries de paramtres distinctes pour chaque groupe. Les coefcients estims retent le mode daffectation de la rponse due aux modications des prdicteurs. Il est possible de prvoir la rponse pour nimporte quelle combinaison de valeurs de variables indpendantes. Une autre approche consiste effectuer la rgression de la rponse sur les valeurs des variables indpendantes nominales proprement dites. Dans ce cas, un seul coefcient est estim pour chaque variable. Toutefois, pour les variables qualitatives, les valeurs des modalits sont arbitraires. Le codage des modalits selon plusieurs mthodes produit diffrents coefcients, ce qui complique les comparaisons danalyses portant sur les mmes variables. CATREG constitue une extension de lapproche standard en codant simultanment les variables qualitatives, ordinales et numriques. Cette procdure quantie les variables qualitatives an que les valeurs affectes retent les caractristiques des modalits dorigine. La procdure traite les variables qualitatives quanties de la mme faon que les variables numriques. Lutilisation de transformations non linaires permet danalyser les variables diffrents niveaux an de dterminer le modle correspondant au meilleur ajustement possible.
Exemple : La rgression nominale peut tre utilise pour dcrire dans quelle mesure la satisfaction

professionnelle dpend de la modalit demploi, de la rgion et de la dure du transport. Vous pourriez ainsi dterminer que les plus hauts niveaux de satisfaction professionnelle correspondent aux postes de direction et aux temps de transport les plus faibles. Vous avez ainsi la possibilit dutiliser lquation de rgression rsultante pour prvoir la satisfaction professionnelle relative nimporte quelle combinaison de ces trois variables indpendantes.
Diagrammes et statistiques : Frquences, coefcients de rgression, tableau ANOVA, historique des itrations, valeurs affectes aux modalits, corrlations entre variables indpendantes non transformes, corrlations entre variables indpendantes transformes, les diagrammes de rsidus et de transformation. Donnes. CATREG traite les variables indicatrices de modalits. Les indicateurs de modalits

doivent tre des nombres entiers positifs. Vous pouvez utiliser la bote de dialogue Discrtisation pour convertir les variables fractionnes et les variables chane en nombres entiers positifs.
Copyright SPSS Inc. 1989, 2010 16

17 Rgression nominale (CATREG)

Hypothses : Une seule variable de rponse est autorise, mais le nombre maximal de variables explicatives est de 200. Les donnes doivent comporter au moins trois observations valides, le nombre dobservations valides ne devant pas dpasser le nombre de variables indpendantes plus un. Procdures apparentes : La procdure CATREG quivaut la procdure danalyse de corrlation

canonique nominale avec codage optimal (OVERALS) avec deux groupes, dont lun ne comporte quune seule variable. Le codage de toutes les variables au niveau numrique correspond lanalyse de rgression multiple standard.
Pour obtenir une rgression nominale
E A partir des menus, slectionnez : Analyse > Rgression > Codage optimal (CATREG)... Figure 2-1 Bote de dialogue Rgression nominale

E Slectionnez la variable dpendante, ainsi que la ou les variables indpendantes. E Cliquez sur OK.

Sinon, modiez le niveau de codage de chaque variable.

Dfinir une chelle dans la rgression nominale


Vous pouvez dnir le niveau de codage optimal des variables dpendantes et indpendantes. Par dfaut, elles sont codes comme des splines monotones de second degr (ordinales) avec deux points critiques intrieurs. En outre, vous pouvez galement dnir la pondration pour les variables danalyse.

18 Chapitre 2 Figure 2-2 Bote de dialogue Dfinir lchelle

Niveau du codage optimal : Vous pouvez galement slectionner le niveau de codage pour la quantication de chaque variable.

Spline ordinale : Lordre des modalits de la variable observe est conserv dans la variable

code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial monotone liss du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.

Spline nominale : La seule information de la variable observe qui est conserve dans la

variable code de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial liss, peut-tre non monotone, du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.

Ordinal. Lordre des modalits de la variable observe est conserv dans la variable code de

faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation ordinale spline, mais savre moins lisse.

Nominal. La seule information de la variable observe qui est conserve dans la variable code

de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation nominale spline mais savre moins lisse.

Numrique. Les modalits sont considres comme tries et espaces rgulirement (niveau

dintervalle). Lordre des modalits ainsi que les distances gales entre les nombres de modalits de la variable sont conserves dans la variable code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. Lorsque toutes les variables sont au niveau numrique, lanalyse est analogue celle en composantes principales standard.

19 Rgression nominale (CATREG)

Rgression nominale : Discrtisation


La bote de dialogue Discrtisation vous permet de choisir une mthode de recodage des variables. Les valeurs fractionnes sont regroupes en sept modalits (ou en nombre de valeurs distinctes de variables si le nombre est infrieur sept) avec une distribution normale approximative, moins quune autre conguration ne soit spcie. Les variables chane sont toujours converties en nombres entiers positifs en affectant des indicateurs de modalits selon lordre croissant alphanumrique. La discrtisation des variables chane sapplique ces nombres entiers. Par dfaut, dautres variables sont laisses inutilises. Les variables discrtises sont ensuite utilises dans lanalyse.
Figure 2-3 Discrtisation

Mthode. Choisissez entre Regroupement, Rang et Multiplier.


Regroupement : Recodez en un nombre spci de modalits ou par intervalle. Classement. La variable est discrtise via le classement des observations. Multiplier : Les valeurs courantes de la variable sont standardises, multiplies par 10 et

arrondies, et possdent une constante ajoute de sorte que la valeur discrtise la plus faible soit gale 1.

20 Chapitre 2

Regroupement : Les options suivantes sont disponibles lorsque vous discrtisez des variables

par groupe :

Nombre de modalits : Indiquez un nombre de modalits et dnissez si les valeurs de la

variable doivent faire lobjet dune distribution approximativement gaussienne ou uniforme entre ces modalits.

Intervalles gaux : Les variables sont recodes en modalits dnies par ces intervalles de

taille gale. Noubliez pas de spcier la longueur des intervalles.

Rgression nominale : Valeurs manquantes


La bote de dialogue Valeurs manquantes vous permet de choisir la stratgie de gestion des valeurs manquantes pour les variables de lanalyse et supplmentaires.
Figure 2-4 Bote de dialogue Valeurs manquantes

Stratgie : Vous pouvez exclure des objets contenant des valeurs manquantes (suppression par liste) ou inclure des valeurs manquantes (traitement actif).

Exclure les objets contenant des valeurs manquantes sur cette variable. Les objets contenant des

valeurs manquantes dans la variable slectionne sont retirs de lanalyse. Cette option nest pas disponible pour les variables supplmentaires.

Imputer les valeurs manquantes. Des valeurs sont prises en compte pour les objets contenant

des valeurs manquantes sur la variable slectionne. Vous pouvez choisir la mthode dimputation. Slectionnez Mode pour remplacer les valeurs manquantes par la modalit la plus frquente. Sil existe plusieurs modes, utilisez celui dont lindicateur de modalits est le plus petit. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant

21 Rgression nominale (CATREG)

une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).

Rgression nominale : Options


La bote de dialogue Options permet de slectionner le style de conguration initiale, de spcier les critres ditration et de convergence, de slectionner les objets supplmentaires et de dnir ltiquetage des diagrammes.
Figure 2-5 Options

Objets supplmentaires : Cette option permet de dnir les objets traiter comme objets supplmentaires. Entrez simplement le numro dun objet supplmentaire (ou spciez un intervalle dobservations), puis cliquez sur Ajouter. Vous ne pouvez pas pondrer des objets supplmentaires (les pondrations indiques sont ignores). Configuration initiale : Si aucune variable nest considre comme nominale, slectionnez la

conguration Numrique. Si une variable au moins est considre comme nominale, choisissez la conguration Alatoire. Si au moins une variable a un niveau dchelle ordinal ou Spline ordinal, lalgorithme habituel pour les modles peut galement gnrer une solution moins optimale. Choisir les Dparts multiples systmatiques avec tous les types de signes possibles permettra toujours de trouver la

22 Chapitre 2

solution optimale, mais la dure dexcution requise augmente rapidement en mme temps que le nombre de variables ordinales et Spline ordinales dans lensemble de donnes. Vous pouvez rduire le nombre de types de test en spciant un pourcentage de perte de seuil de variance, pour lequel plus le seuil est lev, plus le nombre de types de signes exclus augmente. Cette option ne permet pas de garantir lobtention de la solution optimale, mais elle rduit le risque dobtenir une solution moins optimale. De plus, si la solution optimale nest pas trouve, il y a moins de chances que la solution moins optimale soit trs diffrente de la solution optimale. Lorque des dparts multiples systmatiques sont demands, les signes des coefcients de rgression pour chaque dpart sont crits dans un chier de donnes IBM SPSS Statistics externe ou dans un ensemble de donnes de la session en cours. Pour plus dinformations, reportez-vous la section Rgression nominale : Enregistrement sur p. 26. Les rsultats dune excution prcdente avec dparts multiples systmatiques vous permettent d
Utiliser des signes fixes pour les coefficients de rgression. Les signes (indiqus par 1 et 1) doivent

se trouver dans une ligne de lensemble de donnes ou du chier spcis. Le chiffre de dpart valeur entire est le numro dobservation de la ligne de ce chier qui contient les signes utiliser.
Critres. Vous pouvez spcier le nombre maximal ditrations que la rgression peut prendre

en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. La rgression interrompt son itration ds que la diffrence du total ajust entre les deux dernires itrations est infrieur la valeur de la convergence, ou ds que le nombre maximal ditrations est atteint.
Etiqueter les diagrammes par : Vous permet de prciser si les tiquettes de variable et de valeurs

ou les noms ou valeurs de variables sont utiliss dans les diagrammes. Vous pouvez galement spcier une longueur maximale pour les tiquettes.

23 Rgression nominale (CATREG)

Rgularisation de rgression nominale


Figure 2-6 Bote de dialogue Rgularisation

Mthode. Les mthodes de rgularisation peuvent amliorer lerreur de prdiction du modle en rduisant la variabilit des estimations du coefcient de rgression laide dune rduction des estimations tendant vers 0. Le Lasso et Elastic Net rduiront certaines estimations de coefcient 0 exactement, permettant ainsi une forme de slection de variables. Lorsquune mthode de rgularisation est demande, le modle et les coefcients rgulariss pour chaque valeur de coefcient de pnalit sont crits dans un chier de donnes IBM SPSS Statistics externe ou un ensemble de donnes de la session en cours. Pour plus dinformations, reportez-vous la section Rgression nominale : Enregistrement sur p. 26.

Rgression de crte. La rgression de crte rduit les coefcients en introduisant un terme de

pnalit gal la somme des coefcients au carr multiple par un coefcient de pnalit. Ce coefcient peut tre compris entre 0 (aucune pnalit) et 1 ; cette procdure recherchera la meilleure valeur de pnalit si vous spciez un intervalle et un incrment.

Lasso. Le terme de pnalit de Lasso est bas sur la somme des coefcients absolus

et la spcication dun coefcient de pnalit est semblable celle dune rgression pseudo-orthogonale. Nanmoins, le Lasso ncessite beaucoup plus de calculs.

Elastic net. Elastic Net regroupe simplement les pnalits de rgression Lasso et de crte et

effectuera une recherche dans la grille des valeurs spcies pour trouver les meilleurs coefcients de pnalit de rgression Lasso et de crte. Pour une paire de pnalits de rgression Lasso et de crte donne, Elastic Net ne ncessite pas plus de calculs que le Lasso.

24 Chapitre 2

Afficher les diagrammes de rgularisation. Il sagit de diagrammes comparant les coefcients de rgression et la pnalit de rgularisation. Pendant que ce diagramme recherche un intervalle de valeurs pour le meilleur coefcient de pnalit, il afche les modications des coefcients de rgression dans cet intervalle. Diagrammes Elastic Net. Pour la mthode Elastic Net, des diagrammes de rgularisation spars

sont gnrs par les valeurs de la pnalit de rgression de crte. La fonction Tous les diagrammes possibles utilise chaque valeur de lintervalle dtermin par les valeurs minimum et maximum de pnalit de rgression de crte spcies. La fonction Pour certaines pnalits de crte permet de spcier un sous-ensemble des valeurs dans lintervalle dtermin par le minimum et le maximum. Entrez simplement le chiffre dune valeur de pnalit (ou spciez un intervalle de valeurs), puis cliquez sur Ajouter.

Rgression nominale : Rsultat


La bote de dialogue Rsultats permet de slectionner les statistiques afcher dans le rsultat.
Figure 2-7 Rsultat

Tableaux. Gnre des tableaux pour :

R multiple. Comprend R2 et R2 ajust, R2 ajust prend en compte le codage optimal.

25 Rgression nominale (CATREG)

ANOVA : Cette option prsente les sommes des carrs de rgression et des rsidus, le moyenne

des carrs ainsi quun test-F. Deux tableaux ANOVA sont afchs : Lun avec des degrs de libert pour la rgression gaux au nombre de variables explicatives, et lautre avec les degrs de libert pour la rgression prenant en compte le codage optimal.

Coefficients. Cette option propose trois tableaux. Le tableau Coefcients : il comporte

des btas, lerreur standard des btas, des valeurs t et la signication ; le tableau Coefcients : Codage optimal qui contient lerreur standard des btas prenant en compte les degrs de libert du codage optimal ; le tableau des corrlations simples et partielles, qui comporte les mesures dimportance relative de Pratt pour les variables indpendantes transformes, ainsi que la tolrance avant et aprs transformation.

Historique ditration. Pour chaque itration, y comprises les valeurs de dpart de lalgorithme,

le R multiple et lerreur de rgression apparaissent. Laugmentation dans le R multiple est rpertorie en commenant partir de la premire itration.

Corrlations des variables dorigine : Une matrice afchant les corrlations entre les variables

sans transformation apparat.


Corrlations des variables transformes : Une matrice afchant les corrlations entre les

variables transformes apparat.


Modles et coefficients rgulariss. Afche les valeurs de pnalit, le R-deux et les coefcients

de rgression pour chaque modle rgularis. Si une mthode de rchantillonnage est spcie ou si des objets supplmentaires (observations de test) sont spcis, lerreur de prvision ou la MSE de test sont galement afches.
Rchantillonnage. Les mthodes de rchantillonnage offrent une estimation de lerreur de prdiction du modle.

Validation croise. La validation croise divise lchantillon en plusieurs sous-chantillons

ou niveaux. Les modles de rgression nominale sont gnrs en excluant tour de rle les donnes de chaque sous-chantillon. Le premier modle est bas sur toutes les observations exceptes celles du premier sous-chantillon, le deuxime modle est bas sur toutes les observations exceptes celles du deuxime sous-chantillon, etc. Pour chaque modle, lerreur de prdiction est estime en appliquant le modle au sous-chantillon exclu lors de sa gnration.

Bootstrap .632 Avec le bootstrap, les observations sont extraites alatoirement partir des

donnes avec remplacement. Ce processus se rpte autant de fois que ncessaire pour obtenir un nombre dchantillons du bootstrap. Un modle est adapt chaque chantillon du bootstrap et lerreur de prdiction de chaque modle est estime par ce modle et est ensuite applique aux observations ne se trouvant pas dans lchantillon du bootstrap.
Valeurs affectes aux modalits : Les tableaux des valeurs transformes des variables slectionnes

apparaissent.
Statistiques descriptives : Les tableaux afchant les frquences, les valeurs manquantes et les

modes des variables slectionnes apparaissent.

26 Chapitre 2

Rgression nominale : Enregistrement


La bote de dialogue Enregistrer vous permet denregistrer des prvisions, des rsidus et des valeurs transformes dans lensemble de donnes actif et/ou denregistrer les donnes discrtises, les valeurs transformes, les modles et coefcients rgulariss ainsi que les signes des coefcients de rgression dans un chier de donnes externe IBM SPSS Statistics ou un ensemble de donnes de la session en cours.

Les ensembles de donnes sont disponibles lors de la session en cours mais ne sont pas disponibles lors des sessions suivantes, sauf si vous les enregistrez clairement comme chiers de donnes. Les noms des ensembles de donnes doivent tre conformes aux rgles de dnomination de variables. Les noms de chiers ou les noms de lensemble de donnes doivent tre diffrents pour chaque type de donnes enregistres.

Figure 2-8 Enregistrer

Les modles et coefcients rgulariss sont enregistrs chaque fois quune mthode de rgularisation est slectionne dans la bote de dialogue Rgularisation. Par dfaut, la procdure cre un nouvel ensemble de donnes avec un nom unique, mais vous pouvez spcier le nom de votre choix ou crire dans un chier externe. Les signes des coefcients de rgression sont enregistrs chaque fois que des dparts multiples systmatiques sont utiliss comme conguration initiale dans la bote de dialogue Options . Par dfaut, la procdure cre un nouvel ensemble de donnes avec un nom unique, mais vous pouvez spcier le nom de votre choix ou crire dans un chier externe.

27 Rgression nominale (CATREG)

Rgression nominale des diagrammes de transformation


La bote de dialogue Diagrammes vous permet de dnir les variables qui produiront des diagrammes de rsidus et de transformation.
Figure 2-9 Bote de dialogue Diagrammes

Diagrammes de transformation : Pour chacune de ces variables, les valeurs affectes aux

modalits sont reprsentes par rapport aux valeurs des modalits dorigine. Les modalits vides apparaissent sur laxe horizontal mais naffectent pas les calculs. Ces modalits sont identies par des interruptions dans la courbe reliant les valeurs affectes.
Diagrammes de rsidus : Pour chacune de ces variables, les rsidus (calculs pour la variable dpendante partir de toutes les variables explicatives excepte la variable explicative en question) sont appliqus aux indicateurs de modalits et aux valeurs affectes aux modalits optimales multiplies par bta par rapport aux indicateurs de modalits.

Fonctionnalits supplmentaires de la commande CATREG


Vous pouvez personnaliser la rgression nominale en collant vos slections dans une fentre de syntaxe et en modiant la syntaxe de commande CATREG. Le langage de syntaxe de commande vous permet aussi de :

Spcier les noms de racine des variables transformes lorsque vous les enregistrez dans lensemble de donnes actif (avec la sous-commande SAVE).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Chapitre

Analyse en composantes principales qualitatives (CATPCA)

Cette procdure quantie simultanment des variables qualitatives en rduisant le nombre de dimensions des donnes. Lanalyse en composantes principales qualitatives est galement appele CATPCA, acronyme de CATegorical Principal Components Analysis. Le but dune telle analyse est de rduire un groupe original de variables en un groupe plus petit de composantes non corrles reprsentant la plupart des informations rencontres dans les variables dorigine. Cette technique est dune grande utilit lorsquun grand nombre de variables empche dinterprter efcacement les relations entre les objets (sous-objets et units). En rduisant le nombre de dimensions, vous pouvez interprter plusieurs composantes et non plus un grand nombre de variables. Lanalyse en composantes principales standard comporte des relations linaires entre les variables numriques. Dun autre ct, lapproche du codage optimal permet aux variables dtre codes diffrents niveaux. Les variables qualitatives sont quanties de faon optimale par rapport au nombre de dimensions spci. En consquence, des relations non linaires entre les variables peuvent tre spcies.
Exemple : Lanalyse en composantes principales qualitatives peut tre utilise an de reprsenter

sur un diagramme les relations entre la modalit demploi, la rgion, le temps de transport (lev, moyen ou faible), et la satisfaction professionnelle. Vous constatez peut-tre que deux dimensions reprsentent une part importante de la variance. La premire dimension peut sparer les modalits demploi par rgion, alors que la seconde spare les modalits socioprofessionnelles en fonction du temps de transport. Notez galement que la satisfaction professionnelle est lie au temps moyen de transport.
Diagrammes et statistiques : Effectifs, valeurs manquantes, niveau de codage optimal, mode,

variance reprsente par les coordonnes du barycentre, coordonnes vectorielles, total par variable et par dimension, corrlations entre composantes et variables initiales pour variables quanties par vecteur, valeurs affectes aux modalits et coordonnes, historique des itrations, corrlations des variables transformes et des valeurs propres de la matrice de corrlation, corrlations des variables dorigine et des valeurs propres de la matrice de corrlation, coordonnes des objets, diagrammes de modalits, diagrammes de modalits joints, diagrammes de transformation, diagrammes rsiduels, diagrammes de reprsentation des barycentres projets, diagrammes dobjets, diagrammes doubles, diagrammes triples et diagrammes des corrlations entre composantes et variables initiales.
Donnes : Les variables chane sont toujours converties en nombres entiers positifs par ordre

croissant alphanumrique. Les valeurs manquantes dnies par lutilisateur, les valeurs manquantes par dfaut et les valeurs infrieures 1 sont considres comme manquantes ; vous
Copyright SPSS Inc. 1989, 2010 28

29 Analyse en composantes principales qualitatives (CATPCA)

pouvez donc recoder ou ajouter une constante aux variables contenant des valeurs infrieures 1 pour les dnir comme non manquantes.
Hypothses : Les donnes doivent contenir au moins trois observations valides. Lanalyse repose sur des donnes sous forme de nombres entiers positifs. Loption de discrtisation classe automatiquement une variable fractionne en regroupant ses valeurs en modalits avec une distribution normale et convertit automatiquement les valeurs des variables chane en nombre entiers positifs. Vous pouvez en outre, spcier dautres schmas de discrtisation. Procdures apparentes : Le codage de toutes les variables au niveau numrique correspond lanalyse en composantes principales standard. Les fonctionnalits de reprsentation alterne sont disponibles en utilisant les variables transformes dans une analyse en composantes principales linaires standard. Si toutes les variables possdent des niveaux de codage nominal multiple, lanalyse en composantes principales qualitatives est identique lanalyse des correspondances. Si des groupes de variables sont intressants, vous devez utiliser une analyse des corrlations canoniques nominales (non linaires).

Obtenir une analyse en composantes principales catgorielles


E A partir des menus, slectionnez : Analyse > Rduction des dimensions > Codage optimal Figure 3-1 Bote de dialogue Niveau du codage optimal

E Slectionnez Certaines variables non nominales multiples. E Slectionnez Un groupe. E Cliquez sur Dfinir.

30 Chapitre 3 Figure 3-2 Bote de dialogue Composantes principales qualitatives

E Slectionnez au moins deux variables danalyse et spciez le nombre de dimensions de la

solution.
E Cliquez sur OK.

Vous pouvez peut-tre spcier des variables supplmentaires qui sont ajustes la solution trouve, ou des variables dtiquettes pour les diagrammes.

Dfinir lchelle et la pondration dans CATPCA


Vous pouvez dnir le niveau de codage optimal des variables danalyse et des variables supplmentaires. Par dfaut, elles sont codes comme des splines monotones de second degr (ordinales) avec deux points critiques intrieurs. En outre, vous pouvez galement dnir la pondration pour les variables danalyse.

31 Analyse en composantes principales qualitatives (CATPCA) Figure 3-3 Dfinir lchelle et la pondration

Pondration de la variable : Vous pouvez choisir une pondration pour chaque variable. La valeur

spcie doit tre un nombre entier positif. La valeur par dfaut est 1.
Niveau du codage optimal : Vous pouvez galement slectionner le niveau de codage utiliser pour

quantier chaque variable.

Spline ordinale : Lordre des modalits de la variable observe est conserv dans la variable

code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial monotone liss du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.

Spline nominale : La seule information de la variable observe qui est conserve dans la

variable code de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial liss, peut-tre non monotone, du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.

Nominal multiple : La seule information de la variable observe qui est conserve dans la

variable code de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur les barycentres des objets dans les modalits particulires. Loption Multiple indique que divers groupes de valeurs affectes sont obtenus pour chaque dimension.

Ordinal :Lordre des modalits de la variable observe est conserv dans la variable code de

faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation ordinale spline, mais savre moins lisse.

Nominal :La seule information de la variable observe qui est conserve dans la variable code

de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne

32 Chapitre 3

droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation nominale spline mais savre moins lisse.

Numrique. Les modalits sont considres comme tries et espaces rgulirement (niveau

dintervalle). Lordre des modalits ainsi que les distances gales entre les nombres de modalits de la variable sont conserves dans la variable code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. Lorsque toutes les variables sont au niveau numrique, lanalyse est analogue celle en composantes principales standard.

Composantes principales qualitatives : Discrtisation


La bote de dialogue Discrtisation vous permet de choisir une mthode de recodage des variables. Les valeurs fractionnes sont regroupes en sept modalits (ou en nombre de valeurs distinctes de variables si le nombre est infrieur sept) avec une distribution normale approximative, moins quune autre conguration ne soit spcie. Les variables chane sont toujours converties en nombres entiers positifs en affectant des indicateurs de modalits selon lordre croissant alphanumrique. La discrtisation des variables chane sapplique ces nombres entiers. Par dfaut, dautres variables sont laisses inutilises. Les variables discrtises sont ensuite utilises dans lanalyse.
Figure 3-4 Discrtisation

Mthode : Choisissez entre Regroupement, Rang et Multiplier.

Regroupement : Recodez en un nombre spci de modalits ou par intervalle.

33 Analyse en composantes principales qualitatives (CATPCA)

Rang : La variable est discrtise via le classement des observations. Multiplier : Les valeurs courantes de la variable sont standardises, multiplies par 10 et

arrondies, et possdent une constante ajoute de sorte que la valeur discrtise la plus faible soit gale 1.
Regroupement : Les options suivantes sont disponibles lorsque vous discrtisez des variables

par groupe :

Nombre de modalits : Indiquez un nombre de modalits et dnissez si les valeurs de la

variable doivent faire lobjet dune distribution approximativement gaussienne ou uniforme entre ces modalits.

Intervalles gaux : Les variables sont recodes en modalits dnies par ces intervalles de

taille gale. Noubliez pas de spcier la longueur des intervalles.

Composantes principales qualitatives : Valeurs manquantes


La bote de dialogue Valeurs manquantes vous permet de choisir la stratgie de gestion des valeurs manquantes pour les variables de lanalyse et supplmentaires.
Figure 3-5 Bote de dialogue Valeurs manquantes

34 Chapitre 3

Stratgie : Choisissez dexclure les valeurs manquantes (traitement passif), daffecter des valeurs (traitement actif) ou dexclure les objets contenant des valeurs manquantes (suppression des observations incompltes).

Exclure les valeurs manquantes pour affectation de corrlations aprs quantification. Les objets

contenant des valeurs manquantes sur la variable slectionne ne contribuent pas lanalyse de cette variable. Si un traitement passif est effectu sur toutes les variables, les objets dont les variables comportent des valeurs manquantes sont traits comme tant supplmentaires. Si les corrlations sont spcies dans la bote de dialogue Rsultat, les valeurs manquantes aprs analyse sont alors prises en compte avec la modalit la plus frquente ou le mode de la variable pour les corrlations des variables dorigine. Pour corrler des variables codes de faon optimale, vous devez choisir une mthode dimputation. Slectionnez Mode pour remplacer les valeurs manquantes par le mode de la variable code de faon optimale. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).

Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objets contenant

des valeurs manquantes sur la variable slectionne. Vous pouvez choisir la mthode dimputation : Slectionnez Mode pour remplacer les valeurs manquantes par la modalit la plus frquente. Sil existe plusieurs modes, utilisez celui dont lindicateur de modalits est le plus petit. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).

Exclure les objets contenant des valeurs manquantes sur cette variable. Les objets contenant des

valeurs manquantes dans la variable slectionne sont retirs de lanalyse. Cette option nest pas disponible pour les variables supplmentaires.

Composantes principales qualitatives : Options


La bote de dialogue Options vous permet de slectionner la conguration initiale, de spcier les itrations et les critres de convergence, de slectionner une mthode de standardisation, de slectionner une mthode dtiquetage des diagrammes et, enn, de spcier des objets supplmentaires.

35 Analyse en composantes principales qualitatives (CATPCA) Figure 3-6 Options

Objets supplmentaires : Indiquez le numro dobservation de lobjet, ou les premier et

dernier numros dobservation dune plage dobjets que vous souhaitez dnir comme objet supplmentaire, puis cliquez sur Ajouter. Poursuivez jusqu ce que vous ayez indiqu tous les objets supplmentaires. Si un objet est spci comme supplmentaire, alors les pondrations dobservation est ignore pour cet objet.
Mthode de standardisation : Vous pouvez spcier lune des cinq options de standardisation des

coordonnes des objets et des variables. Une seule mthode de standardisation peut tre utilise dans une analyse donne.

Variable principale : Cette option optimise lassociation entre les variables. Les coordonnes

des variables dans lespace objet correspondent aux corrlations entre composants et variables initiales (corrlations comportant des composantes principales telles que des dimensions et des coordonnes dobjets). Cela est utile si vous tes avant tout intress par les corrlations entre variables.

Objet principal : Cette option optimise les distances entre les objets. Cela est utile si vous tes

avant tout intress par les diffrences ou similitudes entre objets.


Symtrique : Utilisez cette option de standardisation si vous tes avant tout intress par

la relation entre les objets et les variables.

36 Chapitre 3

Indpendant : Utilisez cette option de standardisation si vous souhaitez examiner les distances

entre les objets ainsi que les corrlations entre variables sparment.
Personnalise : Vous pouvez spcier toute valeur relle comprise dans lintervalle [1, 1].

Une valeur de 1 correspond la mthode Objet principal, une valeur de 0 correspond la mthode Symtrique, et une valeur de 1 la mthode Variable principale. En spciant une valeur comprise entre 1 et 1, la valeur propre peut comprendre la fois les objets et les variables. Cette mthode est utile pour effectuer des diagrammes doubles ou triples.
Critres : Vous pouvez spcier le nombre maximum ditrations que la procdure peut prendre

en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. Lalgorithme interrompt son itration ds que la diffrence du total ajust entre les deux dernires itrations est infrieur la valeur de la convergence ou ds que le nombre maximum ditrations est atteint.
Etiqueter les diagrammes par : Vous permet de prciser si les tiquettes de variable et de valeurs

ou les noms ou valeurs de variables sont utiliss dans les diagrammes. Vous pouvez galement spcier une longueur maximale pour les tiquettes.
Dimensions du diagramme. Permet de contrler les dimensions contenues dans le rsultat.

Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solution

apparaissent dans une matrice de diagramme de dispersion.


Limiter le nombre de dimensions. Les dimensions afches sont limites des paires de

dimensions reprsentes. Si vous restreignez ces dimensions, vous devez slectionner la plus petite et la plus grande tracer. La plus petite dimension peut tre comprise entre 1 et le nombre de dimensions contenues dans la solution moins 1. En outre, elle est reprsente par rapport aux dimensions plus grandes. La valeur de dimension la plus leve peut tre comprise entre 2 et le nombre de dimensions contenues dans la solution. Par ailleurs, elle indique la plus grande dimension utiliser pour le traage des paires de dimensions. Cette spcication sapplique lensemble des reprsentations multidimensionnelles demandes.
Configuration : Vous pouvez lire les donnes dun chier contenant les coordonnes de la

conguration. La premire variable du chier doit contenir les coordonnes de la premire dimension, la deuxime variable, celles de la deuxime dimension, et ainsi de suite.

Initiale : La conguration du chier spci sera utilise comme point de dpart de lanalyse. Fixe : La conguration du chier spci sera utilise pour ajuster les variables. Les variables

ainsi ajustes doivent tre slectionnes comme des variables danalyse, mais la conguration tant xe, elles doivent tre considres comme des variables supplmentaires (il est donc inutile de les slectionner comme telles).

Composantes principales qualitatives : Rsultat


La bote de dialogue Rsultat vous permet de produire des tableaux afchant les coordonnes des objets, les corrlations entre composantes et variables initiales, un historique des itrations, les corrlations des variables dorigine et transformes, la variance reprsente par variable et par dimension, les valeurs affectes aux modalits pour les variables slectionnes et les statistiques descriptives pour les variables slectionnes.

37 Analyse en composantes principales qualitatives (CATPCA) Figure 3-7 Rsultat

Coordonnes des objets : Afche les coordonnes des objets avec les options suivantes :

Inclure les modalits de : Prsente les indicateurs de modalits des variables danalyse

slectionnes.
Etiqueter les objets du diagramme par : Vous pouvez slectionner lune des variables spcies

dans la liste de variables dtiquetage pour tiqueter les objets.


Corrlations entre composantes et variables initiales : Afche les corrlations entre composants et

variables initiales pour toutes les variables nayant pas reu de niveau de codage nominal multiple.
Historique des itrations : Pour chaque itration, la variance reprsente, la perte et laugmentation

de la variance reprsente sont afches.


Corrlations des variables dorigine : Afche la matrice de corrlation des variables dorigine ainsi que les valeurs propres de cette matrice. Corrlations des variables transformes : Afche la matrice de corrlation des variables

transformes (codes de faon optimale) ainsi que les valeurs propres de cette matrice.
Variance explique par : Afche le nombre de variances reprsentes par les coordonnes du

barycentre, les coordonnes vectorielles et le total (coordonnes du barycentre et vectorielles combines) par variable et par dimension.
Valeurs affectes aux modalits : Indique les valeurs affectes aux modalits et les coordonnes

pour chaque dimension de la ou des variables slectionnes.

38 Chapitre 3

Statistiques descriptives : Afche les effectifs, le nombre de valeurs manquantes et le mode

de la ou des variables slectionnes.

Composantes principales qualitatives : Enregistrer


La bote de dialogue Enregistrer vous permet denregistrer les donnes discrtises, les coordonnes des objets, les valeurs transformes et les approximations dans un chier de donnes externe IBM SPSS Statistics ou un ensemble de donnes dans la session en cours. Vous pouvez galement enregistrer les valeurs transformes, les coordonnes des objets et les approximations dans lensemble de donnes actif.

Les ensembles de donnes sont disponibles lors de la session en cours mais ne sont pas disponibles lors des sessions suivantes, sauf si vous les enregistrez clairement comme chiers de donnes. Les noms des ensembles de donnes doivent tre conformes aux rgles de dnomination de variables. Les noms de chiers ou les noms de lensemble de donnes doivent tre diffrents pour chaque type de donnes enregistres. Si vous enregistrez les coordonnes des objets ou les valeurs transformes dans lensemble de donnes actif, vous pouvez indiquer le nombre des dimensions nominales multiples.

Figure 3-8 Enregistrer

39 Analyse en composantes principales qualitatives (CATPCA)

Composantes principales qualitatives : Diagrammes dobjets et de variables


La bote de dialogue Diagrammes dobjets et de variables vous permet de spcier les types de diagrammes souhaits ainsi que les variables pour lesquels des diagrammes sont reprsents.
Figure 3-9 Diagrammes dobjets et de variables

Points des objets. Un diagramme des points des objets safche. Objets et variables (biplot) : Les points des objets sont reprsents avec les coordonnes de variables

de votre choix : corrlations entre composants et variables initiales ou barycentres de variables.


Objets, corrlations et barycentres (triplot). Les points des objets sont reprsents avec les

barycentres des variables de niveau de codage nominal multiple et avec les corrlations entre composants et variables initiales des autres variables.
Variables des biplots et triplots : Vous pouvez choisir dutiliser toutes les variables des diagrammes doubles et triples ou de slectionner un sous-groupe.

40 Chapitre 3

Etiqueter objets : Vous pouvez choisir dtiqueter des objets avec les modalits des variables

slectionnes (choisissez les valeurs des indicateurs de modalits ou les tiquettes de valeurs dans la bote de dialogue Options) ou avec le nombre dobservations. Si vous avez slectionn Variables, un seul diagramme est cr par variable.

Composantes principales qualitatives : Diagrammes de modalits


La bote de dialogue Diagrammes de modalits vous permet de spcier les types de diagrammes souhaits ainsi que les variables pour lesquelles des diagrammes seront reprsents.
Figure 3-10 Bote de dialogue Diagrammes de modalits

Diagrammes de modalits : Pour chaque variable slectionne, un diagramme des coordonnes du barycentre et vectorielles est reprsent. Pour les variables contenant des niveaux de codage nominal multiple, les modalits gurent dans les barycentres des objets des modalits particulires. Pour les autres niveaux de codage, les modalits gurent dans un vecteur passant par lorigine. Joindre les diagrammes de modalits : Il sagit dun diagramme simple reprsentant les

coordonnes du barycentre et les coordonnes vectorielles de chaque variable slectionne.

41 Analyse en composantes principales qualitatives (CATPCA)

Diagrammes de transformation : Afche un diagramme des valeurs affectes aux modalits optimales contre les indicateurs de modalits. Vous pouvez spcier le nombre de dimensions souhait pour les variables contenant des niveaux de codage nominal multiple. Un diagramme sera alors gnr pour chaque dimension. Il vous est galement possible de choisir dafcher des diagrammes rsiduels pour chaque variable slectionne. Projeter les barycentres de : Vous pouvez choisir une variable et projeter ses barycentres sur les variables slectionnes. Les variables comportant un niveau de codage nominal multiple ne peuvent pas tre slectionnes pour tre projetes. Lorsque vous lancez ce diagramme, un tableau dot des coordonnes des barycentres projets est galement afch.

Analyse des composantes principales qualitatives:Cartes factorielles


La bote de dialogue Cartes factorielles permet de dnir les variables inclure dans le diagramme et dindiquer si les barycentres seront galement inclus.
Figure 3-11 Bote de dialogue Cartes factorielles

Afficher les corrlations entre composants. Si cette option est slectionne, un diagramme des

corrlations entre composants apparat.


Variables de corrlation. Vous pouvez choisir dutiliser toutes les variables dun diagramme des corrlations entre composants ou de slectionner un sous-groupe.

42 Chapitre 3

Inclure les barycentres. Les variables de niveau de codage nominal multiple ne possdent pas de corrlation mais vous pouvez choisir dinclure leurs barycentres dans le diagramme. Vous pouvez utiliser toutes les variables qualitatives multiples ou slectionner un sous-groupe.

Fonctionnalits supplmentaires de la commande CATPCA


Vous pouvez personnaliser lanalyse des composantes principales qualitatives si vous collez vos slections dans une fentre de syntaxe et modiez la syntaxe de commande CATPCA. Le langage de syntaxe de commande vous permet aussi de :

Spciez les noms de racine des variables transformes, les coordonnes des objets et les approximations lorsque vous les enregistrez dans lensemble de donnes actif (avec la sous-commande SAVE). Spcier la longueur maximale pour les tiquettes de chaque diagramme sparment (avec la sous-commande PLOT). Spcier une liste de variables distincte pour les diagrammes rsiduels (avec la sous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Chapitre

Analyse canonique non linaire (OVERALS)

Lanalyse de corrlation canonique non linaire correspond lanalyse de corrlation canonique nominale avec codage optimal. Le but de cette procdure est de dterminer la similitude entre les groupes de variables qualitatives et les autres. Cette analyse est galement connue sous lacronyme OVERALS. Lanalyse de corrlation canonique standard est une extension de la rgression multiple, dans laquelle le second groupe ne contient pas de variable de rponse unique, mais contient des variables de rponses multiples la place. Elle sert expliquer autant que possible la variance tire des relations entre deux groupes de variables numriques dans un espace de petite dimension. Initialement, les variables de chaque groupe sont combines de faon linaire de sorte que les combinaisons comportent une corrlation maximale. Compte tenu de ces combinaisons, celles qui sont linaires sont dtermines par celles qui ne le sont pas avec les combinaisons prcdentes et par celles ayant la plus importante corrlation. Lapproche de codage optimal dveloppe lanalyse standard de trois faons diffrentes. Dabord, OVERALS vous permet davoir plus de deux groupes de variables. Deuximement, les variables peuvent tre codes soit de faon nominale, soit ordinale, soit numrique. En consquence, des relations non linaires entre les variables peuvent tre analyses. Enn, au lieu doptimiser les corrlations entre les groupes de variable, ceux-ci sont compars un groupe de compromis inconnu dni par les coordonnes des objets.
Exemple : Lanalyse de corrlation canonique nominale avec codage optimal peut tre utilise pour

afcher graphiquement la relation entre un groupe de variables contenant une modalit demploi et les annes dtude, et un autre groupe de variables contenant la zone de rsidence et le sexe. Il est possible que vous trouviez que les annes dtude et la zone de rsidence tablissent une diffrence plus importante que les autres variables. Mais, vous pouvez considrer que les annes dtude tablissent une diffrence fondamentale sur la premire dimension.
Diagrammes et statistiques : Effectifs, barycentres, historique des itrations, coordonnes des

objets, valeurs affectes aux modalits, pondrations et corrlations entre composantes et variables initiales, ajustement unique et multiple, diagramme de coordonnes des objets, diagrammes de coordonnes des modalits, diagrammes de corrlations entre composantes et variables initiales, diagrammes de centres de classes et diagrammes de transformation.
Donnes : Utilisez des entiers pour coder les variables qualitatives (niveau de codage nominal ou ordinal). Pour rduire le nombre de rsultats, utilisez des entiers conscutifs commenant par 1 pour coder les variables. Les variables codes un niveau numrique ne doivent pas tre recodes en entiers conscutifs. Pour rduire le nombre de rsultats, pour chaque variable code

Copyright SPSS Inc. 1989, 2010

43

44 Chapitre 4

un niveau numrique, soustrayez la plus petite valeur observe de chaque valeur et ajoutez-lui 1. Les valeurs fractionnelles sont tronques aprs la dcimale.
Hypothses : Les variables peuvent tre classes en deux groupes ou plus. Les variables dans lanalyse sont codes sous forme nominale multiple, nominale simple, ordinale ou numrique. Le nombre maximum de dimensions utilises dans la procdure dpend du niveau de codage optimal des variables. Si toutes les variables sont indiques comme tant ordinales, nominales simples ou numriques, le nombre maximum de dimensions est le plus petit des deux valeurs suivantes : le nombre dobservations moins 1 ou le nombre total des variables. Cependant, si seuls les deux groupes de variables sont dnis, le nombre maximum de dimensions correspond au nombre de variables du plus petit groupe. Si plusieurs variables sont nominales multiples, le nombre maximum de dimensions correspond au nombre total de modalits nominales multiples plus le nombre de variables qualitatives non multiples et moins le nombre de variables qualitatives multiples. Par exemple, si lanalyse implique cinq variables et si lune delles est nominale multiple avec quatre modalits, le nombre maximum de dimensions est (4 + 4 1) ou 7. Si vous spciez un nombre suprieur au maximum, la valeur maximale est alors utilise. Procdures apparentes : Si chaque groupe contient une variable, lanalyse de corrlation

canonique non linaire quivaut lanalyse des composantes principales avec codage optimal. Si chacune de ces variables est nominale multiple, lanalyse correspond lanalyse de correspondance multiple. Si deux groupes de variables sont impliqus et que lun deux contient une seule variable, lanalyse correspond une rgression nominale avec codage optimal.
Obtenir une analyse de corrlation canonique non linaire
E A partir des menus, slectionnez : Analyse > Rduction des dimensions > Codage optimal Figure 4-1 Bote de dialogue Niveau du codage optimal

E Slectionnez soit Toutes les variables qualitatives multiples, soit Certaines variables non nominales multiples. E Slectionnez Plusieurs groupes.

45 Analyse canonique non linaire (OVERALS) E Cliquez sur Dfinir. Figure 4-2 Bote de dialogue Analyse canonique non linaire (OVERALS)

E Dnissez au moins deux groupes de variables. Slectionnez les variables que vous souhaitez inclure dans le premier groupe. Pour atteindre le dernier groupe, cliquez sur Suivant et slectionnez

les variables inclure dans le second. Vous pouvez galement, si vous le souhaitez, ajouter des groupes supplmentaires. Cliquez sur Prcdent pour revenir au groupe de variables dni prcdemment.
E Dnissez la plage de valeurs et lchelle de mesure (niveau de codage optimal) pour chaque

variable slectionne.
E Cliquez sur OK. E Eventuellement :

Slectionner une ou plusieurs variables pour fournir les tiquettes de point aux diagrammes de coordonnes des objets. Chaque variable produit un diagramme spar, avec les points tiquets par ses valeurs. Vous devez dnir une plage pour chacune de ces variables dtiquettes de diagrammes. Lorsque vous utilisez la bote de dialogue, une variable unique ne peut pas tre utilise la fois dans lanalyse et sous forme de variable dtiquette. Si vous souhaitez tiqueter un diagramme de coordonnes des objets avec une variable utilise dans lanalyse, utilisez le sous-menu Calculer (disponible depuis le menu Transformer) pour crer

46 Chapitre 4

une copie de cette variable. Utilisez la nouvelle variable pour tiqueter le diagramme. Il vous est galement possible dutiliser la syntaxe de commande.

Indiquez le nombre de dimensions souhaites dans la solution. En gnral, choisissez autant de dimensions que ncessaires pour expliquer le maximum de la variation. Si lanalyse implique plusieurs dimensions, des diagrammes 3D des trois premires dimensions sont crs. Dautres dimensions peuvent galement tre afches en ditant le diagramme.

Dfinir intervalle et chelle


Figure 4-3 Bote de dialogue Dfinir intervalle et chelle

Vous devez dnir une plage pour chaque variable. La valeur maximale indique doit tre un nombre entier. Les valeurs des donnes fractionnelles sont tronques dans lanalyse. Une valeur de modalit situe en dehors de la plage spcie est ignore dans lanalyse. Pour rduire le nombre de rsultats, utilisez le sous-menu Recoder automatiquement (disponible depuis le menu Transformer) pour crer des modalits conscutives commenant par 1 pour des variables considres comme nominales ou ordinales. Recoder en entiers conscutifs nest pas recommand pour les variables codes un niveau numrique. Pour rduire le nombre de rsultats pour les variables traites comme numriques, pour chaque variable, soustrayez la valeur minimale de chaque valeur et ajoutez-lui 1. Vous pouvez galement slectionner le codage utiliser pour quantier chaque variable.

Ordinal : Lordre des modalits de la variable observe est conserv dans la variable quantie. Nominal simple : Dans la variable quantie, les objets dune mme modalit reoivent les

mmes coordonnes.
Nominal multiple : Les quantications peuvent diffrer pour chaque dimension. Numrique discret : Les modalits sont considres comme tries et espaces rgulirement.

Les diffrences entre le nombre des modalits et lordre de celles de la variable observe sont conserves dans la variable quantie.

47 Analyse canonique non linaire (OVERALS)

Dfinir une plage


Figure 4-4 Bote de dialogue Dfinir intervalle

Vous devez dnir une plage pour chaque variable. La valeur maximale indique doit tre un nombre entier. Les valeurs des donnes fractionnelles sont tronques dans lanalyse. Une valeur de modalit situe en dehors de la plage spcie est ignore dans lanalyse. Pour rduire le nombre de rsultats, utilisez le sous-menu Recoder automatiquement (disponible depuis le menu Transformer) pour crer des modalits conscutives commenant par 1. Vous devez galement dnir un intervalle pour chaque variable utilise pour tiqueter les diagrammes de coordonnes des objets. Cependant, les tiquettes des modalits comportant des valeurs de donnes situes en dehors de la plage dnie pour la variable apparaissent sur les diagrammes.

Analyse de corrlation canonique non linaire Options


La bote de dialogue Options vous permet de slectionner des statistiques et des diagrammes facultatifs, denregistrer les coordonnes des objets en tant que nouvelles variables dans lensemble de donnes actif, de spcier les critres ditrations et de convergence et dindiquer une conguration initiale pour lanalyse.

48 Chapitre 4 Figure 4-5 Options

Afficher : Les statistiques disponibles incluent les effectifs marginaux, les barycentres, lhistorique des itrations, les pondrations et corrlations entre composantes et variables initiales, les valeurs affectes aux modalits, les coordonnes des objets et lajustement unique et multiple.

Barycentres. Quantications des catgories, et moyennes projetes et relles des coordonnes

des objets (observations) inclus dans chaque ensemble pour ceux qui appartiennent la mme catgorie de la variable.

Poids et contributions (Corrlations entre composants et variables initiales). Coefcients

de rgression dans chaque dimension pour chaque variable quantie dun groupe. Les coordonnes des objets sont rgresses sur les variables quanties et la projection de la variable est quantie dans lespace dobjet. Fournit une indication de la contribution que chaque variable apporte la dimension dans chaque classe.

Ajustement simple et multiple. Mesure la qualit de lajustement des coordonnes simple et

multiple/quantications de modalits par rapport aux objets.


Quantifications des modalits. Affectation de coordonnes principales optimales aux modalits

dune variable.
Coordonnes des objets. Quantication optimale affecte un objet (observation) dans une

dimension particulire.
Diagramme : Vous pouvez gnrer des diagrammes de coordonnes des modalits, de coordonnes

des objets, de corrlations entre composantes et variables initiales, de centres de classes et de transformation.
Enregistrer les coordonnes des objets : Il est possible denregistrer les coordonnes des objets en

tant que nouvelles variables dans lensemble de donnes actif. Ces coordonnes sont enregistres en fonction du nombre de dimensions spcies dans la bote de dialogue principale.

49 Analyse canonique non linaire (OVERALS)

Utiliser configuration initiale alatoire : Une conguration initiale alatoire doit tre utilise si

une partie ou la totalit des variables est nominale simple. Si cette case nest pas coche, une conguration initiale embote est utilise.
Critres : Vous pouvez spcier le nombre maximum ditrations que lanalyse canonique non

linaire peut prendre en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. Lanalyse interrompt son itration ds que la diffrence de lajustement total entre les deux dernires itrations est infrieure la valeur de la convergence, ou ds que le nombre maximum ditrations est atteint.

Fonctionnalits supplmentaires de la commande OVERALS


Vous pouvez personnaliser lanalyse canonique non linaire en collant vos slections dans une fentre de syntaxe et en modiant la syntaxe de commande OVERALS. Le langage de syntaxe de commande vous permet aussi de :

Spcier les paires de dimensions reprsenter, plutt que reprsenter toutes les dimensions extraites ( laide du mot-cl NDIM de la sous-commande PLOT). Indiquer le nombre de caractres composant les tiquettes de valeurs utiliss pour tiqueter des points sur les diagrammes (avec la sous-commande PLOT). Dsigner plus de cinq variables sous forme de variables dtiquettes pour les diagrammes de coordonnes des objets (avec la sous-commande PLOT). Slectionner les variables utilises dans lanalyse en tant que variables dtiquettes pour les diagrammes de coordonnes des objets (avec la sous-commande PLOT). Slectionner les variables fournir aux tiquettes de points pour le diagramme de coordonnes de quantication (avec la sous-commande PLOT). Indiquer le nombre dobservations inclure dans lanalyse si vous ne souhaitez pas utiliser toutes les observations dans lensemble de donnes actif (avec la sous-commande NOBSERVATIONS). Spcier les noms de racine des variables cres en enregistrant les coordonnes des objets (avec la sous-commande SAVE). Spcier le nombre de dimensions enregistrer, plutt que de sauvegarder toutes les dimensions extraites (avec la sous-commande SAVE). Ecrire les valeurs affectes aux modalits dans un chier de matrice (avec la sous-commande MATRIX). Produire des diagrammes faible rsolution pouvant tre plus faciles lire que des diagrammes haute rsolution (avec la sous-commande SET). Produire des diagrammes de barycentres et de transformations uniquement pour les variables spcies (avec la sous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Chapitre

Analyse des correspondances

Lune des fonctions de lanalyse des correspondances consiste dcrire les relations existant entre deux variables qualitatives dans un tableau de correspondances pour un espace comportant peu de dimensions, tout en dcrivant simultanment les relations entre les modalits de chaque variable. Pour chacune des variables, les distances sparant les points des modalits dun diagramme retent les relations existant entre ces modalits : plus les modalits sont similaires, plus elles sont proches les unes des autres. Les points de projection dune variable du vecteur situs entre lorigine et lun des points de modalit de lautre variable dcrivent les relations entre les deux variables. Une analyse des tableaux de contingence implique frquemment lexamen des prols des lignes et des colonnes ainsi quun test dindpendance au moyen de la statistique Khi-deux. Toutefois, le nombre de prols peut savrer assez lev et le test du Khi-deux nindique pas la structure des dpendances. La procdure Tableaux croiss offre plusieurs mesures dassociation et tests dassociation mais ne permet pas de reprsenter graphiquement les relations existant entre les variables. Lanalyse factorielle constitue une technique standard de description des relations entre les variables dun espace comportant peu de dimensions. Toutefois, lanalyse factorielle ncessite des donnes dintervalle et le nombre dobservations doit tre gal au nombre de variables multipli par cinq. Lanalyse des correspondances, en revanche, met en jeu des variables qualitatives et peut dcrire les relations entre les modalits de chaque variable, ainsi que les relations entre les variables. En outre, lanalyse des correspondances permet danalyser nimporte quel tableau de mesures de correspondances positives.
Exemple : Lanalyse des correspondances peut tre utilise pour reprsenter graphiquement les

relations existant entre la modalit socioprofessionnelle et le nombre de cigarettes consommes. Vous pourriez ainsi dterminer que la consommation de tabac diffre entre les jeunes cadres et les secrtaires, mais est similaire entre les secrtaires et les cadres suprieurs. Il vous serait galement possible de dduire que les grands fumeurs sont principalement de jeunes cadres, alors que les fumeurs occasionnels sont gnralement des secrtaires.
Diagrammes et statistiques : Mesures de correspondances, prols de lignes et de colonnes,

valeurs singulires, scores de lignes et de colonnes, inertie, masse, statistiques de conance des scores de lignes et de colonnes, statistiques de conance des valeurs singulires, diagrammes de transformation, diagrammes de point de ligne, diagrammes de point de colonne et diagrammes doubles.
Donnes : Les variables qualitatives analyser sont codes de faon nominale. Pour les donnes

agrges ou pour les mesures de correspondances autres que les effectifs, utilisez une variable de pondration prsentant des valeurs de similarit positives. Pour les donnes de tableau, utilisez la syntaxe pour lire le tableau.
Copyright SPSS Inc. 1989, 2010 50

51 Analyse des correspondances

Hypothses : Le nombre maximal de dimensions utilis dans la procdure dpend du nombre

de modalits de ligne et de colonne actives et du nombre de contraintes dgalit. Si aucune contrainte dgalit nest applique et que toutes les modalits sont actives, le nombre de dimensions maximal est infrieur de un au nombre de modalits de la variable prsentant le plus petit nombre de modalits. Par exemple, si lune des variables comporte cinq modalits et lautre quatre, le nombre maximal de dimensions sera de trois. Les modalits supplmentaires ne sont pas actives. Par exemple, si une variable comporte cinq modalits, dont deux supplmentaires, et que lautre variable possde quatre modalits, le nombre maximal de dimensions sera gal deux. Tous les groupes de modalits faisant lobjet dune contrainte dgalit doivent tre considrs comme une seule modalit. Ainsi, si une variable comporte cinq modalits, dont trois doivent tre gales, vous devrez considrer cette variable comme ne possdant que trois modalits pour dterminer le nombre maximal de dimensions. Deux de ces modalits sont non contraintes, et la troisime correspond aux trois modalits contraintes. Si vous dnissez un nombre de dimensions suprieur au nombre maximal autoris, la valeur maximale sera applique par dfaut.
Procdures apparentes : Si vous travaillez avec plus de deux variables, procdez une analyse de correspondance multiple. Si les variables doivent tre codes de faon ordinale, utilisez lanalyse des composantes principales qualitatives. Pour obtenir une analyse des correspondances
E A partir des menus, slectionnez : Analyse > Rduction des dimensions > Analyse des correspondances... Figure 5-1 Bote de dialogue Analyse des correspondances

E Slectionnez une variable de ligne. E Slectionnez une variable de colonne. E Dnir les plages des variables. E Cliquez sur OK.

52 Chapitre 5

Dfinition de la plage de ligne dans lanalyse des correspondances


Vous devez dnir une plage pour la variable en ligne. Les valeurs minimale et maximale spcies doivent tre des nombres entiers. Les valeurs des donnes fractionnelles sont tronques dans lanalyse. Une valeur de modalit situe en dehors de la plage spcie est ignore dans lanalyse.
Figure 5-2 Bote de dialogue Dfinir lintervalle de la variable en ligne

A lorigine, toutes les modalits sont non contraintes et actives. Vous pouvez par la suite contraindre certaines modalits de ligne tre gales dautres modalits de ligne, ou dnir une modalit de ligne comme supplmentaire.

Les modalits doivent tre gales : Les modalits doivent prsenter des scores identiques.

Appliquez des contraintes dgalit si lordre obtenu pour les modalits nest pas souhaitable ou est contraire lintuition. Le nombre maximal de modalits de ligne pouvant faire lobjet dune contrainte dgalit correspond au nombre total de modalits de ligne actives moins 1. Pour imposer diffrentes contraintes dgalit aux groupes de modalits, utilisez la syntaxe. Par exemple, utilisez la syntaxe pour contraindre les modalits 1 et 2 tre gales, puis pour appliquer la mme contrainte aux modalits 3 et 4.

La modalit est un supplment : Les modalits supplmentaires ninuencent pas lanalyse,

mais sont reprsentes dans lespace dni par les modalits actives. Les modalits supplmentaires ne jouent aucun rle dans la dnition des dimensions. Le nombre maximal de modalits de ligne supplmentaires correspond au nombre total de modalits de ligne moins 2.

Dfinition de la plage de colonne dans lanalyse des correspondances


Vous devez dnir une plage pour la variable en colonne. Les valeurs minimale et maximale spcies doivent tre des nombres entiers. Les valeurs des donnes fractionnelles sont tronques dans lanalyse. Une valeur de modalit situe en dehors de la plage spcie est ignore dans lanalyse.

53 Analyse des correspondances Figure 5-3 Bote de dialogue Dfinir lintervalle de la variable en colonne

A lorigine, toutes les modalits sont non contraintes et actives. Vous pouvez par la suite contraindre certaines modalits de colonne tre gales dautres modalits de colonne ou dnir une modalit de colonne comme supplmentaire.

Les modalits doivent tre gales : Les modalits doivent prsenter des scores identiques.

Appliquez des contraintes dgalit si lordre obtenu pour les modalits nest pas souhaitable ou est contraire lintuition. Le nombre maximal de modalits de colonne pouvant faire lobjet dune contrainte dgalit correspond au nombre total de modalits de colonne actives moins 1. Pour imposer diffrentes contraintes dgalit aux groupes de modalits, utilisez la syntaxe. Par exemple, utilisez la syntaxe pour contraindre les modalits 1 et 2 tre gales, puis pour appliquer la mme contrainte aux modalits 3 et 4.

La modalit est un supplment : Les modalits supplmentaires ninuencent pas lanalyse,

mais sont reprsentes dans lespace dni par les modalits actives. Les modalits supplmentaires ne jouent aucun rle dans la dnition des dimensions. Le nombre maximal de modalits de colonne supplmentaires correspond au nombre total de modalits de colonne moins 2.

Modle danalyse des correspondances


La bote de dialogue Modle vous permet de dnir le nombre de dimensions, la mesure de distance, la mthode de standardisation et la mthode de standardisation.

54 Chapitre 5 Figure 5-4 Bote de dialogue Modle

Dimensions de la solution : Spciez le nombre de dimensions. En gnral, choisissez autant de dimensions que ncessaires pour expliquer le maximum de la variation. Le nombre maximal de dimensions dpend du nombre de modalits actives utilis dans lanalyse et des contraintes dgalit. Le nombre maximal de dimensions est gal au plus petit dentre ces deux nombres :

Le nombre de modalits de ligne actives moins le nombre de modalits de ligne faisant lobjet dune contrainte dgalit, plus le nombre de groupes de modalits de ligne avec contrainte ; Le nombre de modalits de colonne actives moins le nombre de modalits de colonne faisant lobjet dune contrainte dgalit, plus le nombre de groupes de modalits de colonne avec contrainte.

Mesure de distance : Vous pouvez slectionner la mesure de la distance entre les lignes et les

colonnes du tableau des correspondances. Choisissez lune des options suivantes :


Khi-deux : Utilisez une distance de prol pondre, la pondration correspondant la masse des

lignes ou des colonnes. Cette mesure est requise pour lanalyse des correspondances standard.
Euclidienne : Utilisez la racine carre de la somme des diffrences entre paires de lignes et

paires de colonnes leves au carr.


Mthode de standardisation : Choisissez lune des options suivantes :

Moyennes de lignes et de colonnes limines : Les lignes et les colonnes sont centres. Cette

mthode est requise pour lanalyse des correspondances standard.


Moyennes de lignes limines : Seules les lignes sont centres. Moyennes de colonnes limines : Seules les colonnes sont centres.

55 Analyse des correspondances

Les Totaux de lignes sont galiss et les moyennes limines : Les marges des lignes sont

galises avant que les lignes ne soient centres.


Les totaux de colonnes sont galiss et les moyennes limines : Les marges des colonnes sont

galises avant que les colonnes soient centres.


Mthode de standardisation :Choisissez lune des options suivantes :

Symtrique : Pour chaque dimension, les scores des lignes reprsentent la moyenne pondre

des scores des colonnes, divise par la valeur singulire correspondante ; les scores des colonnes reprsentent la moyenne pondre des scores des lignes, divise par la valeur singulire correspondante. Utilisez cette mthode si vous souhaitez examiner les diffrences ou les similitudes existant entre les modalits des deux variables.

Principale : Les distances entre les points des lignes et des colonnes sont des approximations

des distances du tableau des correspondances en fonction de la mesure de distance slectionne. Appliquez cette mthode si vous souhaitez examiner les diffrences existant entre les modalits de lune ou des deux variables, plutt que les diffrences entre ces deux variables.

Principale en ligne : Les distances entre les points des lignes sont des approximations des

distances du tableau des correspondances en fonction de la mesure de distance slectionne. Les scores des lignes correspondent la moyenne pondre des scores des colonnes. Utilisez cette mthode si vous souhaitez examiner les diffrences ou les similitudes existant entre les modalits de la variable de ligne.

Principale en colonne : Les distances entre les points des colonnes sont des approximations des

distances du tableau des correspondances en fonction de la mesure de distance slectionne. Les scores des colonnes correspondent la moyenne pondre des scores des lignes. Utilisez cette mthode si vous souhaitez examiner les diffrences ou les similitudes existant entre les modalits de la variable en colonne.

Personnalise : Vous devez dnir une valeur comprise entre 1 et 1. La valeur 1 correspond

la mthode de standardisation principale en colonne. La valeur 1 correspond la mthode de standardisation principale en ligne. La valeur 0 correspond la mthode de standardisation symtrique. Toutes les autres valeurs dispersent linertie sur les scores des lignes et des colonnes diffrents degrs. Cette mthode savre utile pour la cration de diagrammes doubles adapts vos besoins.

Statistiques de lanalyse des correspondances


La bote de dialogue Statistiques vous permet de dnir les rsultats numriques que vous souhaitez obtenir.

56 Chapitre 5 Figure 5-5 Bote de dialogue Statistiques

Tableau des correspondances : Tableau crois des variables dentre incluant les totaux marginaux

de ligne et de colonne.
Descriptives des points lignes : Pour chaque modalit de ligne, indique les scores, la masse,

linertie, la contribution du point linertie de la dimension ainsi que la contribution de la dimension linertie du point.
Descriptives des points colonnes : Pour chaque modalit de colonne, indique les scores, la masse,

linertie, la contribution du point linertie de la dimension ainsi que la contribution de la dimension linertie du point.
Profils lignes : Pour chaque modalit de ligne, indique la distribution entre les modalits de la variable en colonne. Profils colonnes : Pour chaque modalit de colonne, indique la distribution entre les modalits de

la variable en ligne.
Permutations du tableau des correspondances : Rorganisation du tableau des correspondances an que les lignes et les colonnes apparaissent dans lordre croissant en fonction des scores de la premire dimension. Une option vous permet de dnir le nombre maximal de dimensions pour lequel vous souhaitez crer des tableaux permuts. Un tableau permut sera alors gnr pour chaque dimension comprise entre 1 et le nombre dni par vous. Statistiques de confiance pour points lignes : Ecart type et corrlations de tous les points de ligne

non supplmentaires.
Statistiques de confiance pour points colonnes : Ecart type et corrlations de tous les points de

colonne non supplmentaires.

Diagrammes de lanalyse des correspondances


La bote de dialogue Diagrammes vous permet de dnir les diagrammes que vous souhaitez crer.

57 Analyse des correspondances Figure 5-6 Bote de dialogue Diagrammes

Diagrammes de dispersion : Gnre une matrice de tous les diagrammes prsentant les dimensions

par paire. Les diagrammes de dispersion disponibles sont les suivants :

Diagramme double : Cre une matrice des diagrammes joints reprsentant les points des lignes

et des colonnes. Si vous avez slectionn la mthode de standardisation principale, loption Diagramme double ne sera pas disponible.

Points lignes : Cre une matrice des diagrammes reprsentant les points des lignes. Points colonnes : Cre une matrice des diagrammes reprsentant les points des colonnes.

Une option vous permet de dnir le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage des points. Cette valeur doit tre un nombre entier positif infrieur ou gal 20.
Courbes. Cre un diagramme pour chaque dimension de la variable slectionne. Les courbes

disponibles sont les suivantes :


Modalits de lignes transformes : Produit un diagramme reprsentant les valeurs des modalits

de ligne dorigine par rapport aux scores des lignes qui leur correspondent.
Modalits de colonnes transformes : Produit un diagramme reprsentant les valeurs des

modalits de colonne dorigine par rapport aux scores des colonnes qui leur correspondent.

58 Chapitre 5

Une option vous permet de dnir le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage de laxe des modalits. Cette valeur doit tre un nombre entier positif infrieur ou gal 20.
Dimensions du diagramme. Permet de contrler les dimensions contenues dans le rsultat.

Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solution

apparaissent dans une matrice de diagramme de dispersion.


Limiter le nombre de dimensions. Les dimensions afches sont limites des paires de

dimensions reprsentes. Si vous restreignez ces dimensions, vous devez slectionner la plus petite et la plus grande tracer. La plus petite dimension peut tre comprise entre 1 et le nombre de dimensions contenues dans la solution moins 1. En outre, elle est reprsente par rapport aux dimensions plus grandes. La valeur de dimension la plus leve peut tre comprise entre 2 et le nombre de dimensions contenues dans la solution. Par ailleurs, elle indique la plus grande dimension utiliser pour le traage des paires de dimensions. Cette spcication sapplique lensemble des reprsentations multidimensionnelles demandes.

Fonctionnalits supplmentaires de la commande CORRESPONDENCE


Vous pouvez personnaliser votre analyse des correspondances en collant vos slections dans une fentre de syntaxe, puis en modiant la syntaxe de la commande CORRESPONDENCE. Le langage de syntaxe de commande vous permet aussi de :

Indiquer les donnes des tableaux comme entres au lieu dutiliser les donnes dobservation (au moyen de la sous-commande TABLE = ALL). Spcier le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage des points de chaque type de matrice de diagramme de dispersion ou de diagramme double (au moyen de la sous-commande PLOT). Indiquer le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage des points de chaque type de courbe (au moyen de la sous-commande PLOT). Crer une matrice des scores des lignes et des colonnes dans un chier de donnes de matrice (avec la sous-commande OUTFILE). Crer une matrice des statistiques de conance (variances et covariances) pour les valeurs singulires et les scores dans un chier de donnes de matrice (avec la sous-commande OUTFILE). Appliquer une contrainte dgalit plusieurs groupes de modalits (au moyen de la sous-commande EQUAL).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Chapitre

Analyse de correspondance multiple

Lanalyse de correspondance multiple quantie les donnes (qualitatives) nominales en attribuant des valeurs numriques aux observations (objets) et aux modalits, pour que les objets faisant partie de la mme modalit soient proches les uns des autres et ceux de diffrentes modalits, loigns les uns des autres. Chaque objet se trouve aussi prs que possible des points de modalit qui sappliquent. Ainsi, les modalits divisent les objets en sous-groupes homognes. Les variables sont considres comme homognes lorsquelles classent les objets des mmes modalits dans les mmes sous-groupes.
Exemple : Lanalyse de correspondance multiple peut tre utilise pour afcher graphiquement la

relation entre la modalit demploi, la classication des minorits et le sexe. Vous pouvez trouver que la classication par minorits et le sexe sont discriminant pour les personnes, mais que la modalit demploi ne lest pas. Vous avez galement la possibilit de constater que les modalits Latino et Afro-Amricaines sont similaires les unes des autres.
Diagrammes et statistiques. Coordonnes des objets, mesures de discrimination, historique des

itrations, corrlations des variables dorigine et des variables transformes, quantications des modalits, statistiques descriptives, diagrammes de points des objets, diagrammes doubles, diagrammes de modalits, diagrammes de modalits joints, diagrammes de transformation et diagrammes de mesures de discrimination.
Donnes. Les variables chane sont toujours converties en nombres entiers positifs par ordre

croissant alphanumrique. Les valeurs manquantes dnies par lutilisateur, les valeurs manquantes par dfaut et les valeurs infrieures 1 sont considres comme manquantes ; vous pouvez donc recoder ou ajouter une constante aux variables contenant des valeurs infrieures 1 pour les dnir comme non manquantes.
Hypothses : Toutes les variables contiennent le niveau de codage nominal multiple. Les donnes

doivent contenir au moins trois observations valides. Lanalyse repose sur des donnes sous forme de nombres entiers positifs. Loption de discrtisation classe automatiquement une variable fractionne en regroupant ses valeurs en modalits avec une distribution quasi normale et convertit automatiquement les valeurs des variables chane en nombre entiers positifs. Vous pouvez en outre, spcier dautres schmas de discrtisation.
Procdures apparentes : Pour deux variables, lanalyse de correspondance multiple est identique

lanalyse des correspondances. Si vous pensez que ces variables possdent des proprits ordinales ou numriques, vous devez utiliser lanalyse des composantes principales qualitatives. Si des groupes de variables sont intressants, vous devez utiliser une analyse des corrlations canoniques (non linaires).

Copyright SPSS Inc. 1989, 2010

59

60 Chapitre 6

Pour obtenir une analyse de correspondance multiple


E A partir des menus, slectionnez : Analyse > Rduction des dimensions > Codage optimal Figure 6-1 Bote de dialogue Niveau du codage optimal

E Slectionnez Toutes les variables nominales multiples. E Slectionnez Un groupe. E Cliquez sur Dfinir.

61 Analyse de correspondance multiple Figure 6-2 Bote de dialogue Analyse des correspondances multiples

E Slectionnez au moins deux variables danalyse et spciez le nombre de dimensions de la

solution.
E Cliquez sur OK.

Vous pouvez peut-tre spcier des variables supplmentaires qui sont ajustes la solution trouve, ou des variables dtiquettes pour les diagrammes.

Dfinition dune pondration de variable dans une analyse de correspondance multiple


Vous pouvez dnir la pondration pour les variables danalyse.
Figure 6-3 Bote de dialogue Dfinir la pondration de la variable

Pondration de la variable : Vous pouvez choisir une pondration pour chaque variable. La valeur

spcie doit tre un nombre entier positif. La valeur par dfaut est 1.

62 Chapitre 6

Analyse des correspondances multiples : Discrtisation


La bote de dialogue Discrtisation vous permet de choisir une mthode de recodage des variables. Les valeurs fractionnes sont regroupes en sept modalits (ou en nombre de valeurs distinctes de variables si le nombre est infrieur sept) avec une distribution normale approximative, moins quune autre conguration ne soit spcie. Les variables chane sont toujours converties en nombres entiers positifs en affectant des indicateurs de modalits selon lordre croissant alphanumrique. La discrtisation des variables chane sapplique ces nombres entiers. Par dfaut, dautres variables sont laisses inutilises. Les variables discrtises sont ensuite utilises dans lanalyse.
Figure 6-4 Discrtisation

Mthode : Choisissez entre Regroupement, Rang et Multiplier.


Regroupement : Recodez en un nombre spci de modalits ou par intervalle. Rang : La variable est discrtise via le classement des observations. Multiplier : Les valeurs courantes de la variable sont standardises, multiplies par 10 et

arrondies, et possdent une constante ajoute de sorte que la valeur discrtise la plus faible soit gale 1.
Regroupement : Les options suivantes sont disponibles lorsque vous discrtisez des variables

par groupe :

Nombre de modalits : Indiquez un nombre de modalits et dnissez si les valeurs de la

variable doivent faire lobjet dune distribution approximativement gaussienne ou uniforme entre ces modalits.

Intervalles gaux : Les variables sont recodes en modalits dnies par ces intervalles de

taille gale. Noubliez pas de spcier la longueur des intervalles.

63 Analyse de correspondance multiple

Analyse des correspondances multiples : Valeurs manquantes


La bote de dialogue Valeurs manquantes vous permet de choisir la stratgie de gestion des valeurs manquantes pour les variables de lanalyse et supplmentaires.
Figure 6-5 Bote de dialogue Valeurs manquantes

Stratgie de la valeur manquante. Choisissez dexclure les valeurs manquantes (traitement passif),

daffecter des valeurs (traitement actif) ou dexclure les objets contenant des valeurs manquantes (suppression des observations incompltes).

Exclure les valeurs manquantes pour affectation de corrlations aprs quantification. Les objets

contenant des valeurs manquantes sur la variable slectionne ne contribuent pas lanalyse de cette variable. Si un traitement passif est effectu sur toutes les variables, les objets dont les variables comportent des valeurs manquantes sont traits comme tant supplmentaires. Si les corrlations sont spcies dans la bote de dialogue Rsultat, les valeurs manquantes aprs analyse sont alors prises en compte avec la modalit la plus frquente ou le mode de la variable pour les corrlations des variables dorigine. Pour corrler des variables codes de faon optimale, vous devez choisir une mthode dimputation. Slectionnez Mode pour remplacer les valeurs manquantes par le mode de la variable code de faon optimale. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une

64 Chapitre 6

modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).

Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objets contenant

des valeurs manquantes sur la variable slectionne. Vous pouvez choisir la mthode de calcul : Slectionnez Mode pour remplacer les valeurs manquantes par la modalit la plus frquente. Sil existe plusieurs modes, utilisez celui dont lindicateur de modalits est le plus petit. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).

Exclure les objets contenant des valeurs manquantes sur cette variable. Les objets contenant des

valeurs manquantes dans la variable slectionne sont retirs de lanalyse. Cette option nest pas disponible pour les variables supplmentaires.

Analyse des correspondances multiples : Options


La bote de dialogue Options vous permet de slectionner la conguration initiale, de spcier les itrations et les critres de convergence, de slectionner une mthode de standardisation, de slectionner une mthode dtiquetage des diagrammes et, enn, de spcier des objets supplmentaires.

65 Analyse de correspondance multiple Figure 6-6 Options

Objets supplmentaires : Indiquez le numro dobservation de lobjet (ou les premier et

dernier numros dobservation dune plage dobjets) que vous souhaitez dnir comme objet supplmentaire, puis cliquez sur Ajouter. Poursuivez jusqu ce que vous ayez indiqu tous les objets supplmentaires. Si un objet est spci comme supplmentaire, alors les pondrations dobservation est ignore pour cet objet.
Mthode de standardisation : Vous pouvez spcier lune des cinq options de standardisation des

coordonnes des objets et des variables. Une seule mthode de standardisation peut tre utilise dans une analyse donne.

Variable principale : Cette option optimise lassociation entre les variables. Les coordonnes

des variables dans lespace objet correspondent aux corrlations entre composants et variables initiales (corrlations comportant des composantes principales telles que des dimensions et des coordonnes dobjets). Cela est utile si vous tes avant tout intress par les corrlations entre variables.

Objet principal : Cette option optimise les distances entre les objets. Cela est utile si vous tes

avant tout intress par les diffrences ou similitudes entre objets.


Symtrique : Utilisez cette option de standardisation si vous tes avant tout intress par

la relation entre les objets et les variables.

66 Chapitre 6

Indpendant : Utilisez cette option de standardisation si vous souhaitez examiner les distances

entre les objets ainsi que les corrlations entre variables sparment.
Personnalise : Vous pouvez spcier toute valeur relle comprise dans lintervalle [1, 1].

Une valeur de 1 correspond la mthode Objet principal, une valeur de 0 correspond la mthode Symtrique, et une valeur de 1 la mthode Variable principale. En spciant une valeur comprise entre 1 et 1, la valeur propre peut comprendre la fois les objets et les variables. Cette mthode est utile pour effectuer des diagrammes doubles ou triples.
Critres : Vous pouvez spcier le nombre maximum ditrations que la procdure peut prendre

en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. Lalgorithme interrompt son itration ds que la diffrence du total ajust entre les deux dernires itrations est infrieur la valeur de la convergence ou ds que le nombre maximum ditrations est atteint.
Etiqueter les diagrammes par : Vous permet de prciser si les tiquettes de variable et de valeurs

ou les noms ou valeurs de variables sont utiliss dans les diagrammes. Vous pouvez galement spcier une longueur maximale pour les tiquettes.
Dimensions du diagramme. Permet de contrler les dimensions contenues dans le rsultat.

Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solution

apparaissent dans une matrice de diagramme de dispersion.


Limiter le nombre de dimensions. Les dimensions afches sont limites des paires de

dimensions reprsentes. Si vous restreignez ces dimensions, vous devez slectionner la plus petite et la plus grande tracer. La plus petite dimension peut tre comprise entre 1 et le nombre de dimensions contenues dans la solution moins 1. En outre, elle est reprsente par rapport aux dimensions plus grandes. La valeur de dimension la plus leve peut tre comprise entre 2 et le nombre de dimensions contenues dans la solution. Par ailleurs, elle indique la plus grande dimension utiliser pour le traage des paires de dimensions. Cette spcication sapplique lensemble des reprsentations multidimensionnelles demandes.
Configuration : Vous pouvez lire les donnes dun chier contenant les coordonnes de la conguration. La premire variable du chier doit contenir les coordonnes de la premire dimension, la deuxime variable, celles de la deuxime dimension, et ainsi de suite.

Initiale : La conguration du chier spci sera utilise comme point de dpart de lanalyse. Fixe : La conguration du chier spci sera utilise pour ajuster les variables. Les variables

ainsi ajustes doivent tre slectionnes comme des variables danalyse, mais la conguration tant xe, elles doivent tre considres comme des variables supplmentaires (il est donc inutile de les slectionner comme telles).

Analyse des correspondances multiples : Rsultats


La bote de dialogue Rsultat vous permet de crer des tableaux pour les coordonnes des objets, les mesures de discrimination, lhistorique des itrations, les corrlations des variables dorigine et des variables transformes, ainsi que les quantications des modalits et statistiques descriptives des variables slectionnes.

67 Analyse de correspondance multiple Figure 6-7 Rsultat

Coordonnes des objets : Afche les coordonnes des objets, y compris la masse, linertie et les

contributions, ainsi que les options suivantes :


Inclure les modalits de : Prsente les indicateurs de modalits des variables danalyse

slectionnes.
Etiqueter les objets du diagramme par : Vous pouvez slectionner lune des variables spcies

dans la liste de variables dtiquetage pour tiqueter les objets.


Mesures de discrimination. Afche les mesures de discrimination par variable et par dimension. Historique des itrations : Pour chaque itration, la variance reprsente, la perte et laugmentation

de la variance reprsente sont afches.


Corrlations des variables dorigine : Afche la matrice de corrlation des variables dorigine ainsi que les valeurs propres de cette matrice. Corrlations des variables transformes : Afche la matrice de corrlation des variables

transformes (codes de faon optimale) ainsi que les valeurs propres de cette matrice.
Valeurs affectes aux modalits et contributions. Indique les valeurs affectes aux modalits

(coordonnes), y compris la masse, linertie et les contributions pour chaque dimension de la ou des variables slectionnes.

68 Chapitre 6

Remarque : les coordonnes et les contributions (dont la masse et linertie) sont afches dans des strates distinctes des rsultats du tableau pivotant, les coordonnes tant afches par dfaut. Pour afcher les contributions, double-cliquez sur le tableau et slectionnez Contributions dans la liste droulante Strate.
Statistiques descriptives : Afche les effectifs, le nombre de valeurs manquantes et le mode

de la ou des variables slectionnes.

Analyse des correspondances multiples : Enregistrer


La bote de dialogue Enregistrer vous permet denregistrer les donnes discrtises, les coordonnes des objets et les valeurs transformes dans un chier de donnes externe IBM SPSS Statistics ou un ensemble de donnes dans la session en cours. Vous pouvez galement enregistrer les valeurs transformes et les coordonnes des objets dans lensemble de donnes actif.

Les ensembles de donnes sont disponibles lors de la session en cours mais ne sont pas disponibles lors des sessions suivantes, sauf si vous les enregistrez clairement comme chiers de donnes. Les noms des ensembles de donnes doivent tre conformes aux rgles de dnomination de variables. Les noms de chiers ou les noms de lensemble de donnes doivent tre diffrents pour chaque type de donnes enregistres. Si vous enregistrez les coordonnes des objets ou les valeurs transformes dans lensemble de donnes actif, vous pouvez indiquer le nombre des dimensions nominales multiples.

Figure 6-8 Enregistrer

69 Analyse de correspondance multiple

Analyse des correspondances multiples : Diagrammes dobjets


La bote de dialogue Diagrammes dobjets vous permet dindiquer les types de diagrammes souhaits ainsi que les variables reprsenter.
Figure 6-9 Bote de dialogue Diagrammes dobjets

Points des objets. Un diagramme des points des objets safche. Objets et barycentres (diagrammes doubles) : Les points des objets sont reprsents avec les

barycentres de variable.
Variables de diagramme double. Vous pouvez choisir dutiliser toutes les variables des diagrammes

doubles ou de slectionner un sous-groupe.


Etiqueter objets : Vous pouvez choisir dtiqueter des objets avec les modalits des variables

slectionnes (choisissez les valeurs des indicateurs de modalits ou les tiquettes de valeurs dans la bote de dialogue Options) ou avec le nombre dobservations. Si vous avez slectionn Variables, un seul diagramme est cr par variable.

Analyse des correspondances multiples : Diagrammes de variables


La bote de dialogue Diagrammes de variables vous permet dindiquer les types de diagrammes souhaits ainsi que les variables reprsenter.

70 Chapitre 6 Figure 6-10 Bote de dialogue Diagrammes de variables

Diagrammes de modalits : Pour chaque variable slectionne, un diagramme des coordonnes du barycentre est reprsent. Les modalits se trouvent dans les barycentres des objets des modalits concernes. Joindre les diagrammes de modalits : Il sagit dun diagramme simple reprsentant les

coordonnes du barycentre de chaque variable slectionne.


Diagrammes de transformation : Afche un diagramme des valeurs affectes aux modalits

optimales contre les indicateurs de modalits. Vous pouvez spcier le nombre de dimensions souhait. Un diagramme sera cr pour chaque dimension. Il vous est galement possible de choisir dafcher des diagrammes rsiduels pour chaque variable slectionne.
Mesures de discrimination. Cre un diagramme des mesures de discrimination pour les variables

slectionnes.

71 Analyse de correspondance multiple

Commande MULTIPLE CORRESPONDENCE - Caractristiques additionnelles


Vous pouvez personnaliser votre analyse de correspondance multiple en collant vos slections dans une fentre de syntaxe, puis en modiant la syntaxe de la commande MULTIPLE CORRESPONDENCE. Le langage de syntaxe de commande vous permet aussi de :

Spciez les noms de racine des variables transformes, les coordonnes des objets et les approximations lorsque vous les enregistrez dans lensemble de donnes actif (avec la sous-commande SAVE). Spcier la longueur maximale pour les tiquettes de chaque diagramme sparment (avec la sous-commande PLOT). Spcier une liste de variables distincte pour les diagrammes rsiduels (avec la sous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Chapitre

Positionnement multidimensionnel (PROXSCAL)

Le positionnement multidimensionnel tente de dterminer la structure dun groupe de mesures de proximit entre les objets. Ce procd est effectu en affectant des observations des positions particulires dans un espace conceptuel de petite dimension de telle sorte que les distances entre les points dans lespace correspondent le mieux possible aux (dis)similarits donnes. Le rsultat est une reprsentation moindres carrs des objets dans cet espace de petite dimension, qui vous aidera, dans certains cas, mieux comprendre vos donnes.
Exemple : Le positionnement multidimensionnel peut tre trs utile pour dterminer les relations

perceptuelles. Par exemple, en considrant limage de votre produit, vous pouvez mener une enqute en vue dobtenir un chier de donnes dcrivant la similarit distingue (ou proximit) de votre produit compare celle de vos concurrents. En utilisant ces variables de proximit et indpendantes (un prix, par exemple), vous pouvez essayer de dterminer quelles variables sont importantes suivant le mode dafchage de ces produits et vous pouvez ajuster votre image en fonction.
Diagrammes et statistiques : Historique des itrations, mesures de stress, dcomposition du stress, coordonnes de lespace commun, distances des objets dans la conguration nale, pondrations des espaces individuels, espaces individuels, proximits transformes, variables indpendantes transformes, diagrammes de stress, diagrammes de dispersion des espaces communs, diagrammes de dispersion de pondration des espaces individuels, diagrammes de dispersion des espaces individuels, diagrammes de transformation, diagrammes rsiduels de Shepard et diagrammes de transformation des variables explicatives. Donnes : Les donnes peuvent tre indiques dans le formulaire des matrices de proximit ou des variables qui sont converties en matrice de proximit. Les matrices peuvent tre formates en colonnes ou entre les colonnes. Les proximits peuvent tre traites par niveaux de codage rapport, intervalle, ordinal ou spline. Hypothses : Trois variables au moins doivent tre spcies. Le nombre de dimensions ne doit

pas dpasser le nombre dobjets moins un. La rduction du nombre de dimensions est omise si elle est combine aux dparts alatoires multiples. Si vous indiquez une source seulement, tous les modles quivalent au modle didentit, puis lanalyse slectionne par dfaut le modle didentit.
Procdures apparentes : Le codage de toutes les variables un niveau numrique correspond au positionnement multidimensionnel standard.

Copyright SPSS Inc. 1989, 2010

72

73 Positionnement multidimensionnel (PROXSCAL)

Obtenir un positionnement multidimensionnel


E A partir des menus, slectionnez : Analyse > Echelle > Positionnement multidimensionnel (PROXSCAL)

Cette opration ouvre la bote de dialogue Format des donnes.


Figure 7-1 Bote de dialogue Format des donnes

E Spciez le format des donnes :

Format des donnes : Indiquez si vos donnes constituent des mesures de proximit ou si vous souhaitez crer des proximits partir des donnes. Nombre de sources : Si vos donnes sont des proximits, spciez si vous avez des sources uniques

ou multiples de mesures de proximit.


Une source : Sil existe une source de proximit, spciez si votre chier de donnes est format

avec les proximits dune matrice sur des colonnes ou sur une colonne unique avec deux variables spares pour identier les lignes et colonnes de chaque proximit.

Les proximits sont dans une matrices dans des colonnes. La matrice de proximit stend

des colonnes dont le nombre est gal au nombre dobjets. Vous accdez ensuite la bote de dialogue Proximits sur plusieurs colonnes de matrices.

Les proximits sont dans une seule colonne. Les matrices de proximit sont rduites dans une

seule colonne, ou variable. Deux variables supplmentaires identiant la ligne et la colonne de chaque cellule sont ncessaires. Vous accdez ensuite la bote de dialogue Proximits sur une seule colonne.
Plusieurs sources : Sil existe plusieurs sources de proximits, spciez si le chier de donnes

est format avec les proximits des matrices empiles sur plusieurs colonnes, sur des colonnes multiples contenant une source par colonne ou sur une colonne simple.

74 Chapitre 7

Les proximits sont dans des matrices empiles dans des colonnes. Les matrices de proximit

stalent sur un nombre de colonnes quivalent au nombre dobjets et sont empiles les unes sur les autres sur un nombre de lignes quivalent au produit du nombre dobjets et du nombre de sources. Vous accdez ensuite la bote de dialogue Proximits sur plusieurs colonnes de matrices.

Les proximits sont dans des colonnes, une source par colonne. Les matrices de proximit sont

rduites dans plusieurs colonnes, ou variables. Deux variables supplmentaires identiant la ligne et la colonne de chaque cellule sont ncessaires. Vous accdez ensuite la bote de dialogue Proximits sur des colonnes.

Les proximits sont empiles dans une seule colonne. Les matrices de proximit sont rduites

dans une seule colonne, ou variable. Trois variables supplmentaires identiant la ligne, la colonne et la source de chaque cellule, sont ncessaires. Vous accdez ensuite la bote de dialogue Proximits sur une seule colonne.
E Cliquez sur Dfinir.

Proximits dans des matrices sur plusieurs colonnes


Si vous slectionnez les proximits dans un modle de matrice des donnes pour une ou plusieurs sources dans la bote de dialogue Format des donnes, la bote de dialogue principale safche comme ci-dessous :
Figure 7-2 Bote de dialogue Proximits dans des matrices sur plusieurs colonnes

E Slectionnez deux ou plusieurs variables de proximit. (Veuillez vous assurer que lordre des

variables dans la liste correspond lordre des colonnes des proximits.)


E Slectionnez ventuellement un nombre de variables de pondration gal au nombre des variables

de proximit. (Veuillez vous assurer que lordre des pondrations correspond celui des proximits quelles pondrent.)

75 Positionnement multidimensionnel (PROXSCAL) E Sil existe plusieurs sources, vous pouvez galement slectionner une variable de sources. (Le

nombre dobservations dans chaque variable de proximit doit tre gal au nombre de variables de proximit multipli par le nombre de sources.) De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.

Proximits sur plusieurs colonnes


Si vous slectionnez le modle de colonnes multiples pour plusieurs sources dans la bote de dialogue Format des donnes, la bote de dialogue principale safche comme ci-dessous :
Figure 7-3 Bote de dialogue Proximits sur plusieurs colonnes

E Slectionnez deux ou plusieurs variables. (Chaque variable est considre comme tant une

matrice de proximit provenant dune source distincte.)


E Slectionnez une variable de lignes pour dnir les positions de lignes pour les proximits dans

chaque variable de proximits.


E Slectionnez une variable de colonnes pour dnir les positions de colonnes pour les proximits

dans la variable des proximits. (Les cellules de la matrice de proximit nayant pas de dsignation lignes/colonnes sont considres comme manquantes.)
E Slectionnez ventuellement un nombre de variables de pondration gal au nombre des variables

de proximit. De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.

76 Chapitre 7

Proximits dans une colonne


Si vous slectionnez le modle de colonne unique pour une ou plusieurs sources dans la bote de dialogue Format des donnes, la bote de dialogue principale safche comme ci-dessous :
Figure 7-4 Bote de dialogue Proximits dans une colonne

E Slectionnez une variable de proximit. (On considre quil existe une ou plusieurs matrices

des proximits.)
E Slectionnez une variable de lignes pour dnir les positions de lignes pour les proximits dans

la variable des proximits.


E Slectionnez une variable de colonnes pour dnir les positions de colonnes pour les proximits

dans la variable des proximits.


E Sil existe plusieurs sources, slectionnez une variable de sources. (Pour chaque source, les

cellules de la matrice de proximit nayant pas de dsignation lignes/colonnes sont considres comme manquantes.)
E Eventuellement, choisissez une variable de pondration.

De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.

77 Positionnement multidimensionnel (PROXSCAL)

Crer des proximits partir des donnes


Si vous slectionnez de crer des proximits dans la bote de dialogue Format des donnes, la bote de dialogue principale safche comme ci-dessous :
Figure 7-5 Bote de dialogue Crer des proximits partir des donnes

E Si vous crez des distances entre les variables (voir la bote de dialogue Crer une mesure partir

des donnes), slectionnez au moins trois variables. Ces variables seront utilises pour crer la matrice de proximit (ou les matrices, sil existe plusieurs sources). Si vous crez des distances entre les observations, seule une variable est requise.
E Sil existe plusieurs sources, slectionnez une variable de sources. E Choisissez ventuellement une mesure de cration de proximits.

De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.

78 Chapitre 7

Crer une mesure partir des donnes


Figure 7-6 Bote de dialogue Crer une mesure partir des donnes

Le positionnement multidimensionnel utilise les donnes de dissimilarit pour crer une solution de codage. Si vos donnes sont multivaries (valeurs des variables mesures), vous devez crer des donnes de dissimilarit an de calculer une solution de positionnement multidimensionnel. Vous pouvez spcier les dtails de cration de mesures de dissimilarit partir de vos donnes.
Mesure : Vous permet de spcier la mesure de dissimilarit adapte votre analyse. Slectionnez

une possibilit dans le groupe Mesure correspondant votre type de donnes, puis slectionnez lune des mesures dans la liste droulante correspondant ce type de mesure. Les possibilits sont :

Intervalle : Distance Euclidienne, Carr de la distance Euclidienne, Distance de Tchebycheff,

Distance de Manhattan, Distance de Minkowski ou Autre.


Effectif : Distance du Khi-deux ou Distance du phi-deux. Binaire : Distance Euclidienne, Carr de la distance Euclidienne, Ecart de taille, Diffrence

de motif, Variance ou Lance et Williams.


Crer une matrice de distances : Vous permet de choisir lunit danalyse. Les possibilits sont

Par variables ou Par observations.


Transformer les valeurs : Dans certains cas, comme lorsque les variables sont mesures selon des

chelles trs diffrentes, vous voudrez standardiser des valeurs avant de calculer les proximits (ne sapplique pas aux donnes binaires). Slectionnez une mthode de standardisation dans la liste droulante Standardiser (si la standardisation nest pas ncessaire, slectionnez Aucune).

79 Positionnement multidimensionnel (PROXSCAL)

Dfinir un modle de positionnement multidimensionnel


La bote de dialogue Modle vous permet dindiquer un modle de positionnement, son nombre minimum et maximum de dimensions, la structure de la matrice de proximit, la transformation utiliser sur les proximits, et de dterminer si les proximits sont transformes dans chaque source sparment ou sans condition sur la source.
Figure 7-7 Bote de dialogue Modle

Modle de positionnement. Choisissez parmi les options suivantes :


Identit : Toutes les sources ont la mme conguration. Euclidien pondr : Ce modle est un modle des diffrences individuelles. Chaque source

comporte un espace individuel dans lequel chaque dimension de lespace commun est pondre de faon diffrentielle.

Euclidien gnralis : Ce modle est un modle des diffrences individuelles. Chaque source

comporte un espace individuel qui est gal une rotation de lespace commun, suivie dune pondration diffrencie des dimensions.

Rang rduit : Il sagit dun modle euclidien gnralis pour lequel vous pouvez spcier le

rang de lespace individuel. Vous devez spcier un rang suprieur ou gal 1 et infrieur au nombre maximum de dimensions.
Forme : Spciez si les proximits doivent tre extraites des parties triangulaires infrieure ou

suprieure de la matrice de proximit. Vous pouvez indiquer que la totalit de la matrice est utilise, auquel cas la somme pondre des parties triangulaires suprieure et infrieure sera analyse. Dans tous les cas, la matrice complte doit tre spcie, y compris la diagonale, mme si les parties spcies seront les seules tre utilises.

80 Chapitre 7

Proximits : Spciez si votre matrice de proximit contient des mesures de similarit ou de

dissimilarit.
Transformations de proximit : Choisissez parmi les options suivantes :

Rapport : Les proximits transformes sont proportionnelles aux proximits originales.

Uniquement disponible pour les proximits valeurs positives.


Intervalle : Les proximits transformes sont proportionnelles aux proximits originales et

une constante. Cette constante fait en sorte que les proximits transformes soient positives.
Ordinal : Les proximits transformes ont le mme ordre que les originales. Vous spciez si

les proximits lies doivent tre gardes lies ou autorises ne plus ltre.
Spline. Les proximits transformes reprsentent une transformation polynomiale non

dcroissante lisse des proximits originales. Vous spciez le degr de la fonction polynomiale ainsi que le nombre de points critiques.
Appliquer les transformations : Spciez si seules les proximits de chaque source sont compares

entre elles ou si les comparaisons sont sans condition sur la source.


Dimensions : Par dfaut, une solution est calcule dans deux dimensions (minimum =2, maximum =2). Vous choisissez un entier minimum et maximum depuis 1 jusquau nombre dobjets moins 1 (tant que le minimum reste infrieur ou gal au maximum.) La procdure calcule une solution des dimensions maximales, puis rduit le nombre de dimensions en matire dtapes, jusqu ce que la plus petite soit atteinte.

Positionnement multidimensionnel : Restrictions


La bote de dialogue Restrictions vous permet de placer les restrictions sur lespace commun.

81 Positionnement multidimensionnel (PROXSCAL) Figure 7-8 Bote de dialogue Restrictions

Restrictions sur lespace commun : Spciez le type de restriction souhait.


Pas de restrictions : Aucune restriction nest place sur lespace commun. Certaines coordonnes fixes : La premire variable slectionne contient les coordonnes des

objets sur la premire dimension ; la seconde correspond aux coordonnes des objets sur la deuxime dimension, et ainsi de suite. Une valeur manquante indique quune coordonne sur une dimension est libre. Le nombre de variables slectionnes doit tre gal au nombre maximum de dimensions requis.

Combinaison linaire de variables indpendantes : Lespace commun se rduit une

combinaison linaire des variables slectionnes.


Variables de restriction : Slectionnez les variables qui dnissent les restrictions sur lespace

commun. Si vous spciez une combinaison linaire, vous spciez une transformation dintervalle, nominale, ordinale ou spline pour des variables de restriction. Dans tous les cas, le nombre dobservations pour chaque variable doit tre gal au nombre dobjets.

Positionnement multidimensionnel : Options


La bote de dialogue Options vous permet de slectionner le style de conguration initiale, de spcier les critres ditration et de convergence, et de slectionner des mises jour standard ou relaxes.

82 Chapitre 7 Figure 7-9 Options

Configuration initiale :Choisissez lune des options suivantes :

Simplex . Les objets sont placs la mme distance les uns des autres dans la dimension

maximale. Une itration est prise pour amliorer cette conguration haute dimension, suivie dune rduction de dimension en vue dobtenir une conguration initiale comportant le nombre maximum de dimensions spci dans la bote de dialogue Modle.

Torgerson : Une solution de codage classique est utilise comme conguration initiale. Dpart alatoire unique : Une conguration est choisie de faon alatoire. Dparts alatoires multiples : Plusieurs congurations sont choisies de faon alatoire, et celle

ayant le stress brut le moins standardis est utilise comme conguration initiale.
Personnalis : Vous slectionnez les variables contenant les coordonnes de votre conguration

initiale. Le nombre de variables slectionnes doit tre gal au nombre de dimensions spci, la premire variable correspondant aux coordonnes sur la dimension 1, la seconde correspondant aux coordonnes sur la dimension 2, etc. Le nombre dobservations dans chaque variable doit tre gal au nombre dobjets.
Critres ditration : Spciez les valeurs des critres ditration.

Convergence du stress : Lalgorithme interrompt son itration lorsque la diffrence des valeurs

du stress brut standardis conscutif est infrieure au nombre spci ici, lequel doit tre compris entre 0,0 et 1,0.

Stress minimum : Lalgorithme sinterrompt lorsque le stress brut standardis tombe en dessous

du nombre spci ici, lequel doit tre compris entre 0,0 et 1,0.

83 Positionnement multidimensionnel (PROXSCAL)

Nombre maximum ditrations : Lalgorithme excute le nombre ditrations spcies ici,

moins que lun des critres ci-dessus ne soit dj satisfait.


Utiliser mises jour relaxes : Ces mises jour acclrent lalgorithme ; elles ne peuvent tre

utilises ni avec les modles autres que le modle didentit, ni avec des restrictions.

Positionnement multidimensionnel : Diagrammes, Version 1


La bote de dialogue Diagrammes vous permet de spcier quels diagrammes doivent tre produits. Si vous avez le format de donnes Proximits sur plusieurs colonnes, la bote de dialogue Diagrammes suivante safche. Pour les diagrammes Pondrations des espaces individuels, Proximits originales contre transformes et Proximits contre distances transformes, il vous est possible de spcier les sources pour lesquelles les diagrammes doivent tre gnrs. La liste des sources disponibles constitue la liste des variables de proximit dans la bote de dialogue principale.
Figure 7-10 Bote de dialogue Diagrammes, version 1

Stress : Un diagramme est produit partir du stress brut standardis par opposition aux

dimensions. Ce diagramme est uniquement gnr si le nombre maximum de dimensions est suprieur au nombre minimum.
Espace commun : Une matrice de diagramme de dispersion des coordonnes de lespace commun

est afch.
Espaces individuels : Pour chaque source, les coordonnes des espaces individuels sont afches

dans les matrices de diagramme de dispersion. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle.

84 Chapitre 7

Pondrations des espaces individuels : Un diagramme de dispersion est produit partir des pondrations des espaces individuels. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle. Pour le modle Euclidien pondr, les pondrations sont imprimes dans des diagrammes dont une dimension sur chaque axe. Pour le modle Euclidien gnralis, un diagramme est produit par dimension, indiquant la fois la rotation et sa pondration. Le modle Rang rduit gnre le mme diagramme que le modle Euclidien gnralis, mais rduit le nombre de dimensions des espaces individuels. Proximits originales contre transformes : Les diagrammes sont gnrs partir des proximits originales par opposition aux proximits transformes. Proximits et distances transformes. Les proximits et distances transformes sont reprsentes

sous la forme dun diagramme.


Variables indpendantes transformes : Les diagrammes de transformation sont produits pour

les variables indpendantes.


Corrlations de variables et dimensions : Un diagramme de corrlation entre les variables

indpendantes et les dimensions de lespace commun safche.

Positionnement multidimensionnel : Diagrammes, Version 2


La bote de dialogue Diagrammes vous permet de spcier quels diagrammes doivent tre produits. Si votre format des donnes est autre que Proximits sur plusieurs colonnes, la bote de dialogue Diagrammes suivante safche. Pour les diagrammes Pondrations des espaces individuels, Proximits originales contre transformes et Proximits contre distances transformes, il vous est possible de spcier les sources pour lesquelles les diagrammes doivent tre gnrs. Les numros de source entrs doivent tre des valeurs de la variable de sources spcie dans la bote de dialogue principale et tre classs de 1 jusquau nombre de sources.
Figure 7-11 Bote de dialogue Diagrammes, version 2

85 Positionnement multidimensionnel (PROXSCAL)

Positionnement multidimensionnel : Rsultat


La bote de dialogue Rsultat vous permet de contrler les rsultats afchs et den enregistrer certains pour sparer des chiers.
Figure 7-12 Rsultat

Afficher : Slectionnez lun des items suivants afcher :


Coordonnes de lespace commun : Afche les coordonnes de lespace commun. Coordonnes de lespace individuel : Les coordonnes de lespace individuel sont afches

uniquement si le modle nest pas le modle didentit.


Pondrations des espaces individuels : Afche les pondrations des espaces individuels,

uniquement si lun des modles de diffrences individuelles est spci. En fonction du modle, les pondrations des espaces sont dcomposes en pondrations de rotation et de dimension, lesquelles sont galement afches.

Distances : Afche les distances entre les objets de la conguration. Transformations transformes : Afche les proximits transformes entre les objets de la

conguration.
Donnes de saisie : Inclut les proximits originales, et si elles existent, les pondrations de

donnes, la conguration initiale et les coordonnes xes des variables indpendantes.


Stress pour les dparts alatoires : Afche le gnrateur de nombre alatoire et la valeur du

stress brut standardis de chaque dpart alatoire.


Historique des itrations : Afche lhistorique des itrations de lalgorithme principal.

86 Chapitre 7

Mesures de stress multiples : Afche les diffrentes valeurs de stress. Le tableau contient

des valeurs pour le stress brut standardis, le stress-I, le stress-II, le stress-S, la dispersion reprsente (DAF) et enn le coefcient de congruence de Tucker.

Dcomposition du stress : Afche la dcomposition par objet et par source du stress brut nal

standardis, notamment la moyenne par objet et par source.


Variables indpendantes transformes : Si une restriction de combinaisons linaires a t

slectionne, les variables indpendantes transformes et les pondrations de rgression correspondantes sont afches.

Corrlations de variables et dimensions : Si une restriction de combinaisons linaires a t

slectionne, les corrlations entre les variables indpendantes et les dimensions de lespace commun sont afches.
Enregistrer dans nouveau fichier : Vous pouvez enregistrer les coordonnes de lespace commun,

les pondrations des espaces individuels, les distances, les proximits transformes et les variables indpendantes transformes pour sparer les chiers de donnes IBM SPSS Statistics.

Fonctionnalits supplmentaires de la commande PROXSCAL


Vous pouvez personnaliser lanalyse de votre positionnement multidimensionnel de proximit en collant vos slections dans une fentre de syntaxe et en modiant la syntaxe de commande PROXSCAL. Le langage de syntaxe de commande vous permet aussi de :

Spcier des listes de variables distinctes pour les diagrammes de transformation et rsiduels (avec la sous-commande PLOT). Spcier des listes de sources distinctes pour les diagrammes de pondration des espaces individuels, de transformation et rsiduels (avec la sous-commande PLOT). Spcier un sous-groupe des diagrammes de transformation de variables indpendantes afcher (avec la sous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Chapitre

Dpliage multidimensionnel (PREFSCAL)

La procdure de dpliage multidimensionnel tente de trouver une chelle quantitative commune vous permettant dexaminer les relations entre deux ensembles dobjets de manire visuelle.
Exemples : Vous demandez 21 personnes de classer 15 aliments constituant un petit-djeuner selon leurs prfrences, de 1 15. Le dpliage multidimensionnel vous permet de dterminer que la logique discriminatoire des individus suit deux schmas primaires : entre les pains mous et les pains durs et entre les aliments gras et allgs.

Autre exemple : vous demandez un groupe de conducteurs de noter 26 modles de voitures sur 10 critres selon une chelle de 6 points, allant de 1= pas vrai du tout 6= tout fait vrai . En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine similarit des valeurs. Le dpliage multidimensionnel vous permet cependant de distinguer des regroupements de modles similaires et les critres avec lesquels ils sont le plus souvent associs.
Diagrammes et statistiques : La procdure de dpliage multidimensionnel permet de produire un historique des itrations, les mesures de stress, la dcomposition du stress, les coordonnes de lespace commun, les distances des objets dans la conguration nale, les pondrations des espaces individuels, les espaces individuels, les proximits transformes, les diagrammes de stress, les diagrammes de dispersion des espaces communs, les diagrammes de dispersion de pondration des espaces individuels, les diagrammes de dispersion des espaces individuels, les diagrammes de transformation et les diagrammes rsiduels de Shepard. Donnes : Les donnes sont fournies sous forme de matrices de proximit rectangulaires. Chaque

colonne est considre comme un objet de colonne distinct. Chaque ligne dune matrice de proximit est considre comme un objet de ligne distinct. Lorsquil existe plusieurs sources de proximits, les matrices sont empiles.
Hypothses : Deux variables au moins doivent tre spcies. Le nombre de dimensions de

la solution ne doit pas dpasser le nombre dobjets moins un. Si vous indiquez une source seulement, tous les modles quivalent au modle didentit, puis lanalyse slectionne par dfaut le modle didentit.
Obtenir un dpliage multidimensionnel
E A partir des menus, slectionnez : Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)... Copyright SPSS Inc. 1989, 2010 87

88 Chapitre 8 Figure 8-1 Bote de dialogue principale Dpliage multidimensionnel

E Slectionnez deux variables ou plus identiant les colonnes dans la matrice de proximit

rectangulaire. Chaque variable reprsente un objet de colonne distinct.


E Slectionnez ventuellement un nombre de variables de pondration gal au nombre de variables

dobjets de colonnes. Lordre des variables de pondration doit tre le mme que celui des objets de colonnes quelles pondrent.
E Eventuellement, choisissez une variable de ligne. Les valeurs (ou tiquettes de valeur) de cette

variable sont utilises pour tiqueter les objets de lignes du rsultat.


E Sil existe plusieurs sources, slectionnez ventuellement une variable de sources. Le nombre

dobservations dans chaque chier de donnes doit tre gal au nombre dobjets de lignes multipli par le nombre de sources. De plus, vous pouvez dnir un modle pour un dpliage multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.

Dfinir un modle de dpliage multidimensionnel


La bote de dialogue Modle vous permet de spcier un modle de positionnement, un nombre minimum et maximum de dimensions, la structure de la matrice de proximit, la transformation utiliser sur les proximits, et de dterminer si les proximits sont transformes avec condition sur la ligne, avec condition sur la source ou sans condition sur la source.

89 Dpliage multidimensionnel (PREFSCAL) Figure 8-2 Bote de dialogue Modle

Modle de positionnement. Choisissez parmi les options suivantes :


Identit : Toutes les sources ont la mme conguration. Euclidien pondr : Ce modle est un modle des diffrences individuelles. Chaque source

comporte un espace individuel dans lequel chaque dimension de lespace commun est pondre de faon diffrentielle.

Euclidien gnralis : Ce modle est un modle des diffrences individuelles. Chaque source

comporte un espace individuel qui est gal une rotation de lespace commun, suivie dune pondration diffrencie des dimensions.
Proximits : Spciez si votre matrice de proximit contient des mesures de similarit ou de

dissimilarit.
Dimensions : Par dfaut, une solution est calcule dans deux dimensions (minimum =2,

maximum =2). Vous pouvez choisir un entier minimum et maximum depuis 1 jusquau nombre dobjets moins 1, tant que le minimum reste infrieur ou gal au maximum. La procdure calcule une solution des dimensions maximales, puis rduit le nombre de dimensions en matire dtapes, jusqu ce que la plus petite soit atteinte.
Transformations de proximit : Choisissez parmi les options suivantes :

Aucune. Les proximits ne sont pas transformes. Vous pouvez ventuellement slectionner
Inclure une constante an de dcaler les proximits dune constante dnie.

90 Chapitre 8

Linaire : Les proximits transformes sont proportionnelles aux proximits dorigine : la

fonction de transformation estime une pente et la constante est dnie sur 0. Cest ce quon appelle une transformation de ratio. Vous pouvez ventuellement slectionner Inclure une constante an de dcaler les proximits dune constante dnie. Ce procd est galement appel transformation dintervalle.

Spline. Les proximits transformes reprsentent une transformation polynomiale non

dcroissante lisse des proximits originales. Vous spciez le degr de la fonction polynomiale ainsi que le nombre de points critiques. Vous pouvez ventuellement slectionner Inclure une constante an de dcaler les proximits dune constante dnie.

Liss. Les proximits transformes prsentent le mme ordre que les proximits dorigine, y

compris la restriction qui prend en compte les diffrences entre les valeurs successives. Il en rsulte une transformation ordinale lisse . Vous pouvez spcier si les proximits lies doivent tre gardes lies ou autorises ne plus ltre.

Ordinal : Les proximits transformes ont le mme ordre que les originales. Vous pouvez

spcier si les proximits lies doivent tre gardes lies ou autorises ne plus ltre.
Appliquer les transformations : Spciez si les proximits sont compares lune lautre dans

chaque ligne ou dans chaque source ou si les comparaisons sont sans condition sur la ligne ou sur la source, cest dire si les transformations sont effectues par ligne, par source ou sur toutes les proximits en une fois.

Restrictions du dpliage multidimensionnel


La bote de dialogue Restrictions vous permet de placer les restrictions sur lespace commun.

91 Dpliage multidimensionnel (PREFSCAL) Figure 8-3 Bote de dialogue Restrictions

Restrictions sur lespace commun : Vous pouvez choisir de xer les coordonnes des objets de

lignes et/ou de colonnes dans lespace commun.


Variables de restriction des lignes/colonnes. Slectionnez le chier contenant les restrictions et slectionnez les variables dnissant les restrictions de lespace commun. La premire variable slectionne contient les coordonnes des objets sur la premire dimension ; la seconde correspond aux coordonnes des objets sur la deuxime dimension, et ainsi de suite. Une valeur manquante indique quune coordonne sur une dimension est libre. Le nombre de variables slectionnes doit tre gal au nombre maximum de dimensions requis. Le nombre dobservations dans chaque variable doit tre gal au nombre dobjets.

Options de dpliage multidimensionnel


La bote de dialogue Options vous permet de slectionner le style de conguration initiale, de spcier les critres ditration et de convergence et de congurer le terme de pnalit pour le stress.

92 Chapitre 8 Figure 8-4 Options

Configuration initiale :Choisissez lune des options suivantes :

Classique. La matrice de proximit rectangulaire est utilise pour complter les valeurs

intrablocs (valeurs entre les lignes et entre les colonnes) de la matrice MDS symtrique complte. Une fois la matrice complte forme, une solution de positionnement classique est utilise pour la conguration initiale. Les valeurs intrablocs peuvent tre calcules laide de lingalit triangulaire ou des distances de Spearman.

Ross-Cliff. Le dpart de Ross-Cliff utilise les rsultats de la dcomposition dune valeur

singulire sur une matrice de proximit double centre carre comme valeurs initiales pour les objets de lignes et de colonnes.

Correspondance. Le dpart par correspondance utilise les rsultats dune analyse de

correspondance sur les donnes inverses (similitudes au lieu des diffrences) avec une normalisation symtrique des carts des lignes et des colonnes.

Barycentres. La procdure dmarre avec le positionnement des objets de lignes dans la

conguration laide de la dcomposition de la valeur propre. Les objets de colonnes sont ensuite positionns dans le barycentre des choix spcis. Pour le nombre de choix, spciez un entier positif entre 1 et le nombre de variables de proximit.

93 Dpliage multidimensionnel (PREFSCAL)

Dparts alatoires multiples : Les solutions sont calcules pour plusieurs congurations

initiales slectionnes de manire alatoire et celle prsentant la mesure de stress pnalise la plus basse reprsente la meilleure.

Personnalis : Vous slectionnez les variables contenant les coordonnes de votre

conguration initiale. Le nombre de variables slectionnes doit tre gal au nombre de dimensions spci, la premire variable correspondant aux coordonnes sur la dimension 1, la seconde correspondant aux coordonnes sur la dimension 2, etc. Le nombre dobservations dans chaque variable doit tre gal au nombre combin dobjets de lignes et de colonnes. Les coordonnes des lignes et des colonnes doivent tre empiles, avec les coordonnes des colonnes la suite des coordonnes des lignes.
Critres ditration : Spciez les valeurs des critres ditration.

Convergence du stress : Lalgorithme interrompt son itration lorsque la diffrence relative

des valeurs des mesures de stress pnalis conscutives est infrieure au nombre spci ici, lequel ne peut pas tre ngatif.

Stress minimum : Lalgorithme sarrte lorsque la mesure de stress pnalis est infrieure au

nombre spci ici, qui ne peut pas tre ngatif.


Nombre maximum ditrations : Lalgorithme excute le nombre ditrations spci ici,

moins que lun des critres ci-dessus ne soit dj satisfait.


Terme de pnalit. Lalgorithme tente de minimiser la mesure de stress pnalis, qui est une mesure de la qualit dajustement gale au produit du Stress-I de Kruskal par un terme de pnalit bas sur le coefcient de variation des proximits transformes. Ces contrles vous permettent de dnir lintensit et lintervalle du terme du pnalit.

Intensit. Plus la valeur du paramtre dintensit est petite, plus la pnalit est intense.

Spciez une valeur comprise entre 0,0 et 1,0.


Intervalle : Ce paramtres dnit le moment auquel la pnalit devient active. Si vous le

dnissez sur 0,0, la pnalit est inactive. Laugmentation de la valeur entrane la recherche par lalgorithme dune solution prsentant une plus grande variation parmis les proximits transformes. Spciez une valeur non ngative.

Diagrammes de dpliage multidimensionnel


La bote de dialogue Diagrammes vous permet de spcier quels diagrammes doivent tre produits.

94 Chapitre 8 Figure 8-5 Bote de dialogue Diagrammes

Diagrammes : Les diagrammes suivants sont disponibles :


Dparts multiples. Afche un histogramme empil de la mesure de stress pnalis, afchant

la fois le stress et la pnalit.


Espace commun initial. Afche une matrice de diagramme de dispersion des coordonnes de

lespace commun initial.


Stress par dimension. Produit un diagramme en lignes de la mesure du stress pnalis en

fonction des dimensions. Ce diagramme est uniquement gnr si le nombre maximum de dimensions est suprieur au nombre minimum.

Espace commun final. Une matrice de diagramme de dispersion des coordonnes de lespace

commun est afch.

95 Dpliage multidimensionnel (PREFSCAL)

Pondration de lespace. Un diagramme de dispersion est produit partir des pondrations

des espaces individuels. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle. Pour le modle Euclidien pondr, les pondrations de toutes les sources sont afches dans un diagramme avec une dimension sur chaque axe. Pour le modle Euclidien gnralis, un diagramme est produit par dimension, indiquant la fois la rotation et sa pondration pour chaque source.

Espaces individuels : Une matrice de diagramme de dispersion des coordonnes de lespace

individuel de chaque source est afche. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle.

Diagrammes de transformation : Un diagramme de dispersion est gnr partir des

proximits dorigine par opposition aux proximits transformes. Selon lapplication des transformations, une couleur distincte est assigne chaque ligne ou source. Une transformation inconditionnelle gnre une seule couleur.

Diagrammes de Shepard. Les proximits dorigine en fonction des proximits transformes et

des distances. Les distances sont reprsentes par des points et les proximits transformes par une ligne. Selon lapplication des transformations, une ligne distincte est gnre pour chaque ligne ou source. Une transformation inconditionnelle gnre une seule ligne.

Diagramme de dispersion de lajustement. Un diagramme de dispersion des proximits

transformes en fonction des distances est afch. Une couleur distincte est assigne chaque source lorsque plusieurs sources sont spcies.

Diagrammes des rsidus. Un diagramme de dispersion des proximits transformes en fonction

des rsidus (proximits transformes moins les distances) est afch. Une couleur distincte est assigne chaque source lorsque plusieurs sources sont spcies.
Styles dobjets de lignes. Les styles vous apportent un contrle supplmentaire pour lafchage

des objets de lignes dans les diagrammes. Les valeurs des variables de couleurs facultatives sont utilises pour passer en revue toutes les couleurs. Les valeurs des variables de marques facultatives sont utilises pour passer en revue toutes les marques possibles.
Diagrammes sources. Pour les espaces individuels, diagrammes de dispersion de lajustement et
Diagrammes des rsidus, ainsi que pour les diagrammes de transformations et diagrammes de Shepard, si les transformations sont appliques par la source, vous pouvez spcier les sources

pour lesquelles les diagrammes doivent tre gnrs. Les numros de source entrs doivent tre des valeurs de la variable de sources spcie dans la bote de dialogue principale et tre classs de 1 jusquau nombre de sources.
Diagrammes des lignes. Si des transformations sont appliques par lignes, vous pouvez spcier la

ligne pour laquelle les diagrammes doivent tre gnrs pour les Diagrammes de transformations et les Diagrammes de Shepard. Les numros de lignes doivent tre compris entre 1 et le nombre de lignes.

Rsultat du dpliage multidimensionnel


La bote de dialogue Rsultat vous permet de contrler les rsultats afchs et den enregistrer certains pour sparer des chiers.

96 Chapitre 8 Figure 8-6 Rsultat

Afficher : Slectionnez lun des lments suivants afcher :


Donnes de saisie : Inclut les proximits dorigine et, si elles existent, les pondrations de

donnes, la conguration initiale et les coordonnes xes.


Dparts multiples. Afche le gnrateur de nombre alatoire et la valeur du stress pnalis

de chaque dpart alatoire.


Donnes initiales. Afche les coordonnes de lespace commun initial. Historique des itrations : Afche lhistorique des itrations de lalgorithme principal. Mesures dajustement.Afche diffrentes mesures. Le tableau contient plusieurs mesures

de qualit de lajustement, de dfaut de lajustement, de corrlation, de variation et de non-dgnrescence.

Dcomposition du stress : Afche la mesure du stress pnalis de la dcomposition dun objet,

dune ligne ou dune source, y compris les moyennes et les carts-types de la ligne, de la colonne ou de la source.

Transformations transformes : Afche les proximits transformes. Espace commun final. Afche les coordonnes de lespace commun. Pondration de lespace. Afche les pondrations de lespace individuel. Cette option est

uniquement disponible lorsque lun des modles de diffrences individuelles est spci. En fonction du modle, les pondrations des espaces sont dcomposes en pondrations de rotation et de dimension, lesquelles sont galement afches.

Espaces individuels : Les coordonnes de lespace individuel sont afches. Cette option est

uniquement disponible lorsque lun des modles de diffrences individuelles est spci.
Distances ajustes. Afche les distances entre les objets de la conguration.

97 Dpliage multidimensionnel (PREFSCAL)

Enregistrer dans nouveau fichier : Vous pouvez enregistrer les coordonnes de lespace commun,

les pondrations des espaces individuels, les distances et les proximits transformes dans des chiers de donnes IBM SPSS Statistics distincts.

Fonctionnalits supplmentaires de la commande PREFSCAL


Vous pouvez personnaliser lanalyse des proximits du dpliage multidimensionnel en collant vos slections dans une fentre de syntaxe et en modiant la syntaxe de commande PROXSCAL rsultante. Le langage de syntaxe de commande vous permet aussi de :

Spciez plusieurs listes sources pour les Espaces individuels, les Diagrammes de dispersion de lajustement et les Diagrammes des rsidus, ainsi que pour les Diagrammes de transformations et les Diagrammes de Shepard dans le cas de transformations conditionnelles dune matrice, lorsque plusieurs sources sont disponibles (avec la sous-commande PLOT). Spciez plusieurs listes de lignes pour les Diagrammes de transformations et les Diagrammes de Shepard dans le cas de transformations conditionnelles par lignes (avec la sous-commande PLOT). Spciez un nombre de colonnes au lieu dune variable ID de colonne (avec la commande INPUT). Spciez un nombre de sources au lieu dune variable ID de source (avec la commande INPUT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.

Partie II: Exemples

Chapitre

Rgression nominale

Lobjectif de la rgression nominale avec codage optimal est de dcrire la relation entre une variable de rponse et un groupe de variables prdites. La quantication de cette relation permet de prvoir les valeurs de la rponse pour nimporte quelle combinaison de variables prdites. Dans ce chapitre, deux exemples illustrent les analyses impliques dans la rgression avec codage optimal. Le premier exemple utilise un ensemble de donnes rduit pour illustrer les concepts de base. Le second exemple utilise un ensemble plus vaste de variables et dobservations dans une application pratique.

Exemple : Donnes relatives la shampouineuse


Dans un exemple courant (Green et Wind, 1973), une socit intresse par la commercialisation dune nouvelle shampouineuse souhaite examiner linuence de cinq critres sur la prfrence du consommateur : la conception du conditionnement, la marque, le prix, une tiquette Economique et une garantie Satisfait ou rembours. Il existe trois niveaux de critre pour la conception du conditionnement, suivant lemplacement de lapplicateur, trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour chacun des deux derniers critres. Le tableau suivant indique les variables utilises dans ltude sur la shampouineuse, ainsi que les valeurs et tiquettes correspondantes.
Table 9-1 Variables explicatives de ltude sur la shampouineuse

Nom de variable conditionnement marque prix tiquette argent

ltiquette Variable Conception du conditionnement Nom de la marque Prix Etiquette Economique Garantie Satisfait ou rembours

Etiquette de valeur A*, B*, C* K2R, Glory, Bissell $1.19, $1.39, $1.59 Non, oui Non, oui

Dix consommateurs classent 22 prols dnis par ces critres. La variable Prfrence indique le classement des rangs moyens de chaque prol. Un rang faible correspond une prfrence leve. Cette variable rete une mesure globale de prfrence pour chaque prol. A laide de la rgression nominale, vous allez examiner le rapport entre la prfrence et les cinq critres. Cet ensemble de donnes est disponible dans carpet.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
Copyright SPSS Inc. 1989, 2010 99

100 Chapitre 9

Analyse de rgression linaire standard


E Pour gnrer le rsultat dune rgression linaire standard, dans les menus, choisissez : Analyse > Rgression > Linaire

Remarque : Cette fonction ncessite loption Statistiques de base.


Figure 9-1 Bote de dialogue Rgression linaire

E Slectionnez loption Prfrence comme variable dpendante. E Slectionnez comme variables indpendantes les options allant de Conception du conditionnement

Garantie satisfait ou rembours.


E Cliquez sur Diagrammes.

101 Rgression nominale Figure 9-2 Bote de dialogue Diagrammes

E Slectionnez loption *ZRESID comme variable de laxe y. E Slectionnez loption *ZPRED comme variable de laxe x. E Cliquez sur Poursuivre. E Cliquez sur le bouton Enregistrer dans la bote de dialogue Rgression linaire.

102 Chapitre 9 Figure 9-3 Bote de dialogue Enregistrer

E Slectionnez loption Standardiss dans le groupe Rsidus. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression linaire.

103 Rgression nominale

Rcapitulatif des modles


Figure 9-4 Rcapitulatif du modle de la rgression linaire standard

Lapproche standard de la description des relations dans ce cas de gure est la rgression linaire. La mesure la plus courante de lajustement dun modle de rgression aux donnes est R2. Cette statistique indique la quantit de variance, dans la rponse, explicable par la combinaison pondre des variables prdites. Plus la mesure R2 tend vers 1, meilleur est lajustement du modle. La rgression de la variable Prfrence sur les cinq variables prdites aboutit une mesure R2 de 0,707, ce qui indique quenviron 71 % de la variance dans les rangs de prfrence sont explicables par les variables prdites dans la rgression linaire.

Coefficients
Le tableau rpertorie les coefcients standardiss. Le signe du coefcient indique si la rponse prvue augmente ou diminue lorsque la variable prdite augmente, toutes les autres variables prdites tant constantes. Dans le cas des donnes qualitatives, le codage des modalits dtermine la signication de laugmentation dune variable prdite. Par exemple, une augmentation de la variable Garantie satisfait ou rembours, Conception du conditionnement ou Etiquette Economique provoque une diminution du rang de prfrence prvue. La variable Garantie satisfait ou rembours a le code 1 pour aucune garantie Satisfait ou rembours et 2 pour la garantie Satisfait ou rembours. Une augmentation de la variable Garantie satisfait ou rembours correspond lajout dune garantie Satisfait ou rembours. Par consquent, lajout dune garantie Satisfait ou rembours rduit le rang de prfrence prvue, ce qui correspond une augmentation de la prfrence prvue.
Figure 9-5 Coefficients de rgression

La valeur du coefcient rete la quantit de modications survenues dans le rang de prfrence prvue. A partir de coefcients standardiss, les interprtations sont bases sur les carts-types des variables. Chaque coefcient indique le nombre dcarts-types que la rponse prvue remplace par un cart-type de 1 dans une variable prdite, toutes les autres variables prdites demeurant constantes. Par exemple, une modication dcart-type de 1 dans la variable Nom de marque provoque une augmentation dcart-type de 0,056 dans la prfrence prvue. Lcart-type de la

104 Chapitre 9

variable Prfrence tant 6,44, la variable Prfrence augmente de . Les modications de la variable Conception du conditionnement provoquent les changements les plus importants dans la prfrence prvue.

Diagrammes de dispersion des rsidus


Figure 9-6 Rsidus et prvisions

Les rsidus standardiss sont reprsents par rapport aux prvisions standardises. Aucun motif ne doit tre prsent si le modle sajuste correctement. Ici, vous pouvez constater une forme en U dans laquelle les prvisions standardises basses et leves possdent des rsidus positifs. Les prvisions standardises proches de 0 tendent dtenir des rsidus ngatifs.
E Pour gnrer un diagramme de dispersion des rsidus partir de la variable prdite Conception du

conditionnement, choisissez les options suivantes dans les menus :


Graphes > Gnrateur de diagrammes...

105 Rgression nominale Figure 9-7 Gnrateur de diagrammes

E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Rsidus standardiss comme variable de laxe y et loption Conception du

conditionnement comme variable de laxe x.


E Cliquez sur OK.

106 Chapitre 9 Figure 9-8 Rsidus et conception du conditionnement

La forme en U est davantage prononce dans le diagramme des rsidus standardiss tabli par rapport au conditionnement. Chaque rsidu de la conception B* est ngatif, tandis que tous les rsidus, lexception dun seul, sont positifs pour les deux autres conceptions. Etant donn que le modle de rgression linaire ajuste un paramtre par variable, la relation ne peut pas tre capture par lapproche standard.

Analyse de rgression nominale


La nature qualitative des variables et la relation non linaire entre les variables Prfrence et Conception du conditionnement laissent supposer que la rgression sur des quantications optimales peut savrer meilleure que la rgression standard. La forme en U des diagrammes rsiduels indique la ncessit de recourir un traitement nominal de la variable Conception du conditionnement. Toutes les autres variables prdites seront traites au niveau du codage numrique. La variable de rponse garantit une considration particulire. Vous souhaitez prvoir les valeurs de la variable Prfrence. Par consquent, il est souhaitable de rcuprer autant de proprits que possible de ses modalits. Lutilisation dun niveau de codage ordinal ou nominal ignore les diffrences entre les modalits de rponse. Toutefois, la transformation linaire des modalits de rponse prserve les diffrences de modalit. Par consquent, le codage numrique de la rponse est gnralement privilgi et sera employ ici.

107 Rgression nominale

Excution de lanalyse
E Pour excuter une analyse de rgression nominale, choisissez les options suivantes dans les menus : Analyse > Rgression > Codage optimal (CATREG) Figure 9-9 Bote de dialogue Rgression nominale

E Slectionnez loption Prfrence comme variable dpendante. E Slectionnez comme variables indpendantes les options allant de Conception du conditionnement

Garantie satisfait ou rembours.


E Slectionnez loption Prfrence, puis cliquez sur Dfinir lchelle. Figure 9-10 Bote de dialogue Dfinir lchelle

E Slectionnez loption Numrique comme niveau de codage optimal. E Cliquez sur Poursuivre.

108 Chapitre 9 E Slectionnez loption Conception du conditionnement, puis cliquez sur Dfinir lchelle dans la

bote de dialogue Rgression nominale.


Figure 9-11 Bote de dialogue Dfinir lchelle

E Slectionnez loption Nominal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Slectionnez les options allant de Nom de marque Garantie satisfait ou rembours, puis cliquez sur Dfinir lchelle dans la bote de dialogue Rgression nominale. Figure 9-12 Bote de dialogue Dfinir lchelle

E Slectionnez loption Numrique comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur Rsultat dans la bote de dialogue Rgression nominale.

109 Rgression nominale Figure 9-13 Rsultat

E Slectionnez les options Corrlations des variables dorigine et Corrlations des variables transformes. E Dslectionnez loption ANOVA. E Cliquez sur Poursuivre. E Cliquez sur le bouton Enregistrer dans la bote de dialogue Rgression nominale.

110 Chapitre 9 Figure 9-14 Bote de dialogue Enregistrer

E Slectionnez Enregistrer les rsidus dans lensemble de donnes actif. E Slectionnez Enregistrer les variables transformes dans lensemble de donnes actif dans le groupe

Variables transformes.
E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Rgression nominale.

111 Rgression nominale Figure 9-15 Bote de dialogue Diagrammes

E Appliquez la cration de diagrammes de transformation au conditionnement (conditionnement) et

au prix (prix).
E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression nominale.

Intercorrlations
Les intercorrlations existant entre les variables prdites permettent didentier la multicolinarit dans la rgression. Les variables en troite corrlation aboutissent des estimations de rgression instables. Toutefois, en raison de leur corrlation leve, lomission de lune delles dans le modle naffecte que trs lgrement la prvision. Dans la rponse, la variance explicable par la variable omise est explique par la variable corrle restante. Toutefois, les corrlations simples sont sensibles aux valeurs loignes et, en outre, ne peuvent pas identier la multicolinarit en raison dune corrlation leve entre une variable prdite et une combinaison dautres variables prdites.
Figure 9-16 Corrlations des variables prdites initiales

112 Chapitre 9 Figure 9-17 Corrlations des variables prdites transformes

Les intercorrlations des variables prdites pour les variables prdites non transformes et transformes sont afches. Toutes les valeurs sont proches de 0, ce qui indique que la multicolinarit entre les diffrentes variables nest pas proccupante. Les seules corrlations qui changent concernent la variable Conception du conditionnement. Etant donn que toutes les autres variables prdites sont traites de manire numrique, les diffrences entre les modalits et leur ordre sont conserves pour ces variables. Par consquent, les corrlations ne peuvent pas changer.

Qualit de lajustement et coefficients


La procdure de rgression nominale gnre une mesure R2 de 0,948, indiquant que prs de 95 % de la variance dans les rangs de prfrence transforme sont explicables par la rgression sur les variables prdites transformes de manire optimale. La transformation des variables prdites amliore lajustement par rapport lapproche standard.
Figure 9-18 Rcapitulatif du modle de la rgression nominale

Le tableau suivant rpertorie les coefcients de rgression standardiss. Etant donn que la rgression nominale standardise les variables, seuls les coefcients standardiss sont indiqus. Ces valeurs sont divises par les erreurs standard correspondantes, aboutissant un test F pour chaque variable. Toutefois, le test de chaque variable dpend des autres variables iprdites prsentes dans le modle. En dautres termes, le test dtermine si lomission dune variable prdite dans le modle, alors que toutes les autres y sont prsentes, dtriore sensiblement les capacits prvisionnelles de celui-ci. Ces valeurs ne doivent pas tre utilises pour omettre simultanment

113 Rgression nominale

plusieurs variables dans un modle ultrieur. En outre, lutilisation de moindres carrs alterns optimise les quantications, ce qui implique que ces tests doivent tre interprts avec prudence.
Figure 9-19 Coefficients standardiss des variables prdites transformes

Le coefcient le plus lev concerne la variable Conception du conditionnement. Une augmentation dcart-type de 1 dans la variable Conception du conditionnement provoque une diminution dcart-type de 0,748 dans le rang de prfrence prvue. Toutefois, la variable Conception du conditionnement tant traite de manire nominale, il nest pas ncessaire quune augmentation des quantications corresponde une augmentation des codes de modalit initiaux. Les coefcients standardiss sont souvent interprts comme rvlateurs de limportance de chaque variable prdite. Toutefois, les coefcients de rgression ne peuvent pas dcrire entirement limpact dune variable prdite ou les relations entre les variables prdites. Vous devez recourir dautres statistiques, conjointement aux coefcients standardiss, pour explorer compltement les effets des variables prdites.

Corrlations et importance
Le seul examen des coefcients de rgression est insufsant pour interprter les contributions des variables prdites la rgression. En outre, les corrlations, les corrlations partielles et les mesures doivent tre examines. Le tableau suivant illustre les mesures de corrlation pour chaque variable. La corrlation simple est la corrlation existant entre la variable prdite et la rponse transformes. Pour ces donnes, la corrlation la plus leve concerne la variable Conception du conditionnement. Toutefois, si vous pouvez expliquer une partie de la variation dans la variable prdite ou dans la rponse, vous obtenez une meilleure reprsentation de la qualit de la variable prdite.
Figure 9-20 Corrlations simples, mesures et corrlations partielles (variables transformes)

114 Chapitre 9

Dautres variables du modle peuvent fausser leffet dune variable prdite donne lors de la prvision de la rponse. Le coefcient de corrlation partielle supprime les effets linaires des autres variables prdites de la rponse et de la variable prdite. Cette mesure quivaut la corrlation entre les rsidus issus de la rgression de la variable prdite sur les autres variables prdites et ceux issus de la rgression de la rponse sur les autres variables prdites. La corrlation partielle carre correspond la proportion de la variance explique par rapport la variance rsiduelle de la rponse, aprs suppression des effets des autres variables. Par exemple, la corrlation partielle de la variable Conception du conditionnement est gale 0,955. Une fois les effets des autres variables supprims, la variable Conception du conditionnement explique 91 % (0,955)2 = 0,91) de la variation des rangs de prfrence. Les variables Prix et Etiquette Economique expliquent galement une large partie de la variance si les effets des autres variables sont supprims. Au lieu de supprimer les effets de variables de la rponse et dune variable prdite, vous pouvez vous contenter de les supprimer de la variable prdite. La corrlation entre la rponse et les rsidus issus de la rgression dune variable prdite sur les autres variables prdites est la mesure. Llvation au carr de cette valeur donne une mesure de la proportion de variance explique par rapport la variance totale de la rponse. Si vous supprimez les effets des variables Nom de marque, Etiquette Economique, Garantie satisfait ou rembours et Prix de la variable Conception du conditionnement, la partie restante de cette dernire explique 54 % (0,733)2 = 0,54) de la variation des rangs de prfrence.
Importance

Outre les coefcients de rgression et les corrlations, la mesure dimportance relative de Pratt(Pratt, 1987) facilite linterprtation des contributions des variables prdites la rgression. Des importances leves par rapport aux autres importances correspondent des variables prdites cruciales pour la rgression. De mme, la prsence de variables suppressives est signale par une importance faible dans le cas dune variable dont la taille du coefcient est similaire celle du coefcient des variables prdites importantes. Par opposition aux coefcients de rgression, cette mesure dnit limportance des variables prdites de manire additive, cest--dire que limportance dun groupe de variables prdites est la somme de limportance de chacune de ces variables. La mesure de Pratt quivaut au produit du coefcient de rgression et de la corrlation simple dune variable prdite. Ces produits sajoutent R2, ils sont donc diviss par R2, ce qui gnre une somme gale 1. Le groupe de variables prdites Conception du conditionnement et Nom de la marque, par exemple, ont une importance de 0,654. Limportance la plus leve correspond la variable Conception du conditionnement, les variables Conception du conditionnement, Prix et Etiquette Economique reprsentant 95 % de limportance de cette combinaison de variables prdites.
Multicolinarit

Les corrlations leves entre variables prdites rduisent sensiblement la stabilit dun modle de rgression. Les variables prdites corrles aboutissent des estimations de paramtre instables. La tolrance rete le degr de linarit de la relation entre les variables indpendantes. Cette mesure constitue la proportion de la variance dune variable qui nest pas explique par dautres variables indpendantes de lquation. Si les autres variables prdites peuvent expliquer une large partie de la variance dune variable prdite, celle-ci nest pas requise dans le modle. Une

115 Rgression nominale

valeur de tolrance proche de 1 indique que la variable ne peut pas tre prvue trs correctement partir des autres variables prdites. En revanche, une variable trs faible tolrance apporte peu dinformations un modle et peut entraner des problmes de calcul. En outre, des valeurs ngatives leves de la mesure dimportance de Pratt indiquent une multicolinarit. Toutes les mesures de tolrance sont trs leves. Aucune des variables prdites nest prvue trs correctement par les autres variables prdites et il ny a pas de multicolinarit.

Diagrammes de transformation
La reprsentation des valeurs de modalit initiales par rapport aux quantications correspondantes peut mettre en vidence des tendances quune liste de quantications ne laisse pas forcment transparatre. Ces types de diagramme sont communment appels Diagrammes de transformation. Vous devez prter une attention particulire aux modalits qui reoivent des quantications similaires. Ces modalits affectent la rponse prvue de la mme manire. Toutefois, le type de transformation dtermine laspect de base du diagramme. Les variables traites en tant que donnes numriques aboutissent une relation linaire entre les quantications et les modalits initiales, qui apparat sous la forme dune ligne droite dans le diagramme de transformation. Lordre des modalits initiales et leurs diffrences sont conservs dans les quantications. Lordre des quantications des variables traites en tant que donnes ordinales correspond lordre des modalits initiales. Toutefois, les diffrences entre les modalits ne sont pas conserves. Par consquent, le diagramme de transformation est non dcroissant, mais nest pas ncessairement une ligne droite. Si des modalits conscutives correspondent des quantications similaires, la distinction entre elles peut savrer superue et les modalits peuvent tre combines. Ces modalits se traduisent par un palier dans le diagramme de transformation. Toutefois, ce motif peut galement rsulter de lapplication dune structure ordinale une variable traiter comme donne nominale. Si un traitement nominal ultrieur de la variable met en vidence le mme motif, la combinaison des modalits est garantie. En outre, si les quantications dune variable traite en tant que donne ordinale salignent sur une ligne droite, une transformation numrique peut savrer plus approprie. Dans le cas des variables traites en tant que donnes nominales, lordre des modalits le long de laxe horizontal correspond lordre des codes utiliss pour les reprsenter. Les interprtations de lordre des modalits ou de la distance les sparant sont sans fondement. Le diagramme peut prendre toute forme non linaire ou linaire. En prsence dune tendance ascendante, un traitement ordinal doit tre tent. Si le diagramme de transformation nominale montre une tendance linaire, une transformation numrique peut savrer plus approprie. Le schma ci-aprs illustre le diagramme de transformation de la variable Prix, qui a t traite en tant que donne numrique. Lordre des modalits le long de la ligne droite correspond lordre des modalits dorigine. En outre, la diffrence entre les quantications de 1,19 $ et 1,39 $ (1,173 et 0) est la mme que celle entre les quantications de 1,39 $ et 1,59 $ (0 et 1,173). Le fait que les modalits 1 et 3 soient gale distance de la modalit 2 est conserv dans les quantications.

116 Chapitre 9 Figure 9-21 Diagramme de transformation de prix (numrique)

La transformation nominale de la variable Conception du conditionnement gnre le diagramme de transformation ci-aprs. Notez la forme non linaire distincte sous laquelle la deuxime modalit dtient la quantication la plus leve. En matire de rgression, la deuxime modalit diminue le rang de prfrence prvue, tandis que les premire et troisime modalits ont leffet inverse.
Figure 9-22 Diagramme de transformation de conception du conditionnement (nominal)

Analyse des rsidus


A laide des donnes transformes et des rsidus que vous avez enregistrs dans lensemble de donnes actif, vous pouvez crer un diagramme de dispersion des prvisions partir des valeurs transformes de la variable Conception du conditionnement.

117 Rgression nominale

Pour obtenir ce type de diagramme de dispersion, rappelez le Gnrateur de diagrammes, puis cliquez sur le bouton Rinitialiser pour effacer vos slections prcdentes et restaurer les options par dfaut.
Figure 9-23 Gnrateur de diagrammes

E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Rsidus comme variable de laxe y. E Slectionnez loption Conception du conditionnement - Quantication comme variable de laxe x. E Cliquez sur OK.

Le diagramme de dispersion reprsente les rsidus standardiss par rapport aux quantications optimales de la variable Conception du conditionnement. Tous les rsidus gurent dans deux carts-types de valeur 0. Une dispersion alatoire de points remplace la forme en U prsente dans le diagramme de dispersion issu de la rgression linaire standard. La quantication optimale des modalits amliore les capacits prvisionnelles.

118 Chapitre 9 Figure 9-24 Rsidus de la rgression nominale

Exemple : Donnes dozone


Dans cet exemple, vous allez utiliser un plus grand ensemble de donnes pour illustrer la slection et les effets des transformations de codage optimal. Les donnes comprennent 330 observations sur six variables mtorologiques prcdemment analyses par Breiman et Friedman(Breiman et Friedman, 1985), ainsi que par Hastie et Tibshirani(Hastie et Tibshirani, 1990), entre autres. Le tableau ci-aprs dcrit les variables initiales. Votre rgression nominale essaie de prvoir la concentration dozone partir des autres variables. Les chercheurs prcdents ont dcel parmi ces variables des non-linarits qui pnalisent les approches standard de la rgression.
Table 9-2 Variables initiales

Variable ozon h base inv gr press vis temp jour anne

Description niveau quotidien dozone ; class dans lune des 38 modalits hauteur de base dinversion gradient de pression (mm Hg) visibilit (miles) temprature (degrs F) jour de lanne

Cet ensemble de donnes est disponible dans le chier ozone.sav.Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.

119 Rgression nominale

Discrtisation des variables


Si une variable dtient une quantit excessive de modalits rendant difcile leur interprtation, vous devez modier les modalits laide de la bote de dialogue Discrtisation de manire rduire lintervalle des modalits et obtenir ainsi une quantit plus facile grer. La variable Jour de lanne possde la valeur minimale 3 et la valeur maximale 365. Le recours cette variable dans une rgression nominale correspond lutilisation dune variable avec 365 modalits. De mme, lintervalle de valeurs de la variable Visibilit (miles) est compris entre 0 et 350. Pour simplier linterprtation des analyses, discrtisez ces variables en intervalles gaux de longueur 10. Lintervalle de valeurs de la variable Hauteur de base dinversion est compris entre 111 et 5 000. Une variable dote dautant de modalits aboutit des relations trs complexes. Toutefois, la discrtisation de cette variable en intervalles gaux de longueur 100 gnre approximativement 50 modalits. Lutilisation dune variable de 50 modalits plutt que dune variable de 5 000 modalits simplie sensiblement les interprtations. Lintervalle de valeurs de la variable Gradient de pression (mm Hg) est compris entre 69 et 107. La procdure retire de lanalyse toutes les modalits codes avec des nombres ngatifs, mais la discrtisation de cette variable en intervalles gaux de longueur 10 gnre approximativement 19 modalits. Lintervalle de valeurs de la variable Temprature (degrs F) est compris entre 25 et 93 sur lchelle Fahrenheit. Pour analyser les donnes comme si elles guraient sur lchelle Celsius, discrtisez cette variable en intervalles gaux de longueur 1,8. Une discrtisation diffrente des variables peut tre souhaitable. Les choix que vous faites ici sont totalement subjectifs. Pour obtenir moins de modalits, choisissez des intervalles plus grands. Par exemple, la variable Jour de lanne aurait pu tre divise en mois de lanne ou en saisons.

Slection du type de transformation


Diffrents niveaux danalyse sont disponibles pour chaque variable. Toutefois, lobjectif tant la prvision de la rponse, vous devez coder celle-ci en ltat en utilisant le niveau de codage numrique optimal. Par consquent, lordre des modalits et leurs diffrences seront conservs dans la variable transforme.
E Pour excuter une analyse de rgression nominale, choisissez les options suivantes dans les menus : Analyse > Rgression > Codage optimal (CATREG)

120 Chapitre 9 Figure 9-25 Bote de dialogue Rgression nominale

E Slectionnez loption Niveau quotidien dozone comme variable dpendante. E Slectionnez les options allant de Hauteur de base dinversion Jour de lanne comme variables

indpendantes.
E Slectionnez loption Niveau quotidien dozone, puis cliquez sur Dfinir lchelle. Figure 9-26 Bote de dialogue Dfinir lchelle

E Slectionnez loption Numrique comme niveau de codage optimal. E Cliquez sur Poursuivre. E Slectionnez les options allant de Hauteur de base dinversion Jour de lanne, puis cliquez sur Dfinir lchelle dans la bote de dialogue Rgression nominale.

121 Rgression nominale Figure 9-27 Bote de dialogue Dfinir lchelle

E Slectionnez loption Nominal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur Discrtiser dans la bote de dialogue Rgression nominale. Figure 9-28 Discrtisation

E Slectionnez loption h base inv. E Slectionnez loption Intervalles gaux, puis tapez 100 comme longueur de lintervalle. E Cliquez sur Changer.

122 Chapitre 9 E Slectionnez les options gr press, vis et jour anne. E Tapez 10 comme longueur de lintervalle. E Cliquez sur Changer. E Slectionnez loption temp. E Tapez 1.8 comme longueur de lintervalle. E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Rgression nominale. Figure 9-29 Bote de dialogue Diagrammes

E Slectionnez les diagrammes de transformation pour la variable Hauteur de base dinversion dans

la variable Jour de lanne.


E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression nominale.

123 Rgression nominale Figure 9-30 Rcapitulatif du modle

Le traitement de toutes les variables prdites en tant que donnes nominales gnre une mesure R2 gale 0,880. Cette quantit leve de variance reprsente nest pas surprenante dans la mesure o le traitement nominal nimpose aucune restriction sur les quantications. Toutefois, linterprtation des rsultats peut savrer assez difcile.
Figure 9-31 Coefficients de rgression (toutes les variables prdites traites en tant que donnes nominales)

Ce tableau indique les coefcients de rgression standardiss des variables prdites. Une erreur frquente lors de linterprtation de ces valeurs consiste se concentrer sur les coefcients au dtriment des quantications. Vous ne pouvez pas simplement afrmer quune valeur positive de Hauteur de base dinversion, implique que lorsque la variable prdite augmente, lOzone prvu augmente. Toutes les interprtations doivent tre en rapport avec les variables transformes. Par consquent, lorsque les quantications de Hauteur de base dinversion augmentent, lOzone prvu augmente. Pour examiner les effets des variables initiales, vous devez dnir les relations entre les modalits et les quantications.

124 Chapitre 9 Figure 9-32 Diagramme de transformation de la variable Hauteur de base dinversion (nominal)

Le diagramme de transformation de la variable Hauteur de base dinversion ne montre aucun motif apparent. Comme latteste la nature irrgulire du diagramme, le passage des modalits infrieures aux modalits suprieures gnre des uctuations des quantications dans les deux sens. Par consquent, la description des effets de cette variable requiert une analyse des diffrentes modalits. Le fait dimposer des restrictions ordinales ou linaires aux quantications de cette variable peut sensiblement rduire lajustement.

125 Rgression nominale Figure 9-33 Diagramme de transformation de la variable Gradient de pression (nominal)

Ce schma illustre le diagramme de transformation de la variable Gradient de pression. Les modalits discrtises initiales (1 6) reoivent des quantications rduites, si bien quelles contribuent de faon minimale la rponse prvue. Les trois modalits suivantes reoivent des valeurs positives un peu plus leves, gnrant une augmentation modre de lozone prvu. Les quantications diminuent jusqu la modalit 16, o la variable Gradient de pression produit son effet de diminution le plus important sur lozone prvu. Bien que la courbe remonte aprs cette modalit, lutilisation dun niveau de codage ordinal pour la variable Gradient de pression risque de ne pas beaucoup rduire lajustement, tout en simpliant les interprtations des effets. Toutefois, la mesure dimportance 0,04 et le coefcient de rgression de la variable Gradient de pression indiquent que cette variable nest pas trs utile dans la rgression.

126 Chapitre 9 Figure 9-34 Diagramme de transformation de la variable Visibilit (nominal)

Le diagramme de transformation de la variable Visibilit, linstar de celui de la variable Hauteur de base dinversion, ne montre aucun motif apparent. Le fait dimposer des restrictions ordinales ou linaires aux quantications de cette variable peut sensiblement rduire lajustement.

127 Rgression nominale Figure 9-35 Diagramme de transformation de la variable Temprature (nominal)

Le diagramme de transformation de la variable Temprature montre un autre motif. A mesure que les modalits augmentent, les quantications tendent saccrotre. Par consquent, mesure que la variable Temprature augmente, lozone prvu tend saccrotre. Ce motif suggre le codage de la variable Temprature au niveau ordinal.

128 Chapitre 9 Figure 9-36 Diagramme de transformation de la variable Jour de lanne (nominal)

Ce schma illustre le diagramme de transformation de la variable Jour de lanne. Les quantications tendent augmenter jusquau centre du graphique, point partir duquel elles tendent diminuer, gnrant une forme en U invers. Daprs le signe du coefcient de rgression de la variable Jour de lanne, les modalits initiales reoivent des quantications ayant un effet rducteur sur lozone prvu. Pour les modalits intermdiaires, leffet des quantications sur lozone prdit augmente, atteignant son maximum autour du centre du graphique. Au-del de ce point, les quantications tendent diminuer lozone prvu. Bien que la courbe soit assez irrgulire, la forme gnrale reste identiable. Par consquent, les diagrammes de transformation suggrent le codage de la variable Temprature au niveau ordinal avec conservation du codage nominal pour toutes les autres variables prdites.

129 Rgression nominale

Pour calculer de nouveau la rgression en codant la variable Temprature au niveau ordinal, rappelez la bote de dialogue Rgression nominale.
Figure 9-37 Bote de dialogue Dfinir lchelle

E Slectionnez loption Temprature, puis cliquez sur Dfinir lchelle. E Slectionnez loption Ordinal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur le bouton Enregistrer dans la bote de dialogue Rgression nominale. Figure 9-38 Bote de dialogue Enregistrer

E Slectionnez Enregistrer les variables transformes dans lensemble de donnes actif dans le groupe

Variables transformes.
E Cliquez sur Poursuivre.

130 Chapitre 9 E Cliquez sur OK dans la bote de dialogue Rgression nominale. Figure 9-39 Rcapitulatif du modle de la rgression, avec traitement de la variable Temprature en tant que donne ordinale

Ce modle gnre une mesure R2 gale 0.872, si bien que la variance reprsente diminue de faon ngligeable lorsque les quantications de la variable Temprature sont limites tre ordonnes.
Figure 9-40 Coefficients de rgression avec traitement de la variable Temprature en tant que donne ordinale

Ce tableau rpertorie les coefcients du modle dans lequel la variable Temprature est soumise un codage ordinal. La comparaison des coefcients ceux du modle dans lequel la variable Temprature est soumise un codage nominal ne laisse pas apparatre de diffrences signicatives.

131 Rgression nominale Figure 9-41 Corrlations, importance et tolrance

En outre, les mesures dimportance suggrent que la variable Temprature reste beaucoup plus importante pour la rgression que les autres variables. Toutefois, en raison du niveau de codage ordinal de la variable Temprature et du coefcient de rgression positif, vous pouvez dsormais afrmer que lozone prvu augmente mesure que la variable Temprature saccrot.
Figure 9-42 Diagramme de transformation de la variable Temprature (ordinal)

Le diagramme de transformation illustre la restriction ordinale applique aux quantications de la variable Temprature. La courbe irrgulire issue de la transformation nominale est remplace ici par une courbe ascendante douce. En outre, labsence de longs paliers indique que la fusion des modalits nest pas ncessaire.

132 Chapitre 9

Optimisation des quantifications


Les variables transformes issues dune rgression nominale peuvent tre utilises dans une rgression linaire standard et aboutir des rsultats identiques. Toutefois, les quantications ne sont optimales que pour le modle qui les a gnres. Lutilisation dun sous-ensemble de variables prdites dans une rgression linaire ne correspond pas une rgression avec codage optimal sur le mme sous-ensemble. Par exemple, la rgression nominale que vous avez calcule prsente une mesure R2 gale 0,875. Vous avez enregistr les variables transformes. Par consquent, pour ajuster une rgression linaire uniquement laide des options Temprature, Gradient de pression et Hauteur de base dinversion comme variables prdites, dans les menus, choisissez :
Analyse > Rgression > Linaire Figure 9-43 Bote de dialogue Rgression linaire

E Slectionnez loption Niveau quotidien dozone - Quantication comme variable dpendante. E Slectionnez les options Hauteur de base dinversion - Quantication, Gradient de pression (mm

Hg) - Quantication et Temprature (degrs F) Quantication comme variables prdites.


E Cliquez sur OK.

133 Rgression nominale Figure 9-44 Rcapitulatif du modle de rgression avec un sous-ensemble de variables prdites codes de faon optimale

Grce lutilisation des quantications pour la rponse, les variables Temprature, Gradient de pression et Hauteur de base dinversion dans une rgression linaire standard gnrent un ajustement gal 0.732. Pour comparer ce dernier lajustement dune rgression nominale en utilisant uniquement ces trois variables prdites, rappelez la bote de dialogue Rgression nominale.
Figure 9-45 Bote de dialogue Rgression nominale

E Dslectionnez les options Visibilit (miles) et Jour de lanne comme variables prdites. E Cliquez sur OK.

134 Chapitre 9 Figure 9-46 Rcapitulatif du modle de rgression nominale sur trois variables prdites

Lanalyse de rgression nominale possde un ajustement gal 0.796, meilleur que lajustement de 0.732. Cela dmontre la proprit des codages selon laquelle les quantications obtenues dans la rgression initiale ne sont optimales que lorsque les cinq variables sont incluses dans le modle.

Effets des transformations


La transformation dune srie de variables rend linaire, pour celles-ci, une relation non linaire entre la rponse initiale et le groupe initial de variables prdites. Toutefois, en prsence de plusieurs variables prdites, les relations par paire sont confondues par les autres variables du modle. Pour focaliser votre analyse sur la relation entre les variables Niveau quotidien dozone et Jour de lanne, commencez par observer un diagramme de dispersion. A partir des menus, slectionnez :
Graphes > Gnrateur de diagrammes...

135 Rgression nominale Figure 9-47 Bote de dialogue Gnrateur de diagrammes

E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Niveau quotidien dozone comme variable de laxe y et loption Jour de

lanne comme variable de laxe x.


E Cliquez sur OK.

136 Chapitre 9 Figure 9-48 Diagramme de dispersion du niveau dozone quotidien par jour de lanne

Ce schma illustre la relation entre les variables Niveau quotidien dozone et Jour de lanne. A mesure que la variable Jour de lanne augmente jusqu environ 200, la variable Niveau quotidien dozone saccrot. Toutefois, pour les valeurs de la variable Jour de lanne suprieures 200, la variable Niveau quotidien dozone diminue. Ce motif en U invers suggre une relation quadratique entre les deux variables. Une rgression linaire ne peut pas capturer cette relation.
E Pour quune courbe optimise relie les points du diagramme de dispersion, activez le graphique

en double-cliquant dessus.
E Slectionnez un point dans lditeur de diagrammes. E Cliquez sur loutil Ajouter une courbe dajustement au total, puis fermez Chart Editor.

137 Rgression nominale Figure 9-49 Diagramme de dispersion contenant la courbe dajustement la plus approprie

Une rgression linaire de la variable Niveau quotidien dozone sur la variable Jour de lanne gnre une mesure R2 gale 0,004. Cet ajustement suggre que la variable Jour de lanne ne possde aucune valeur prvisionnelle pour la variable Niveau quotidien dozone. Cela nest pas surprenant, au vu du motif du schma. Toutefois, vous pouvez recourir au codage optimal pour linariser la relation quadratique et utiliser la variable Jour de lanne transforme pour prvoir la rponse.

138 Chapitre 9 Figure 9-50 Bote de dialogue Rgression nominale

Pour obtenir une rgression nominale de la variable Niveau quotidien dozone sur la variable Jour de lanne, rappelez la bote de dialogue Rgression nominale.
E Dslectionnez les options allant de Hauteur de base dinversion Temprature (degrs F)

comme variables indpendantes.


E Slectionnez loption Jour de lanne comme variable indpendante. E Cliquez sur Dfinir lchelle. Figure 9-51 Bote de dialogue Dfinir lchelle

E Slectionnez loption Nominal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur Discrtiser dans la bote de dialogue Rgression nominale.

139 Rgression nominale Figure 9-52 Discrtisation

E Slectionnez loption jour anne. E Slectionnez loption Intervalles gaux. E Tapez 10 comme longueur de lintervalle. E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Rgression nominale.

140 Chapitre 9 Figure 9-53 Bote de dialogue Diagrammes

E Slectionnez loption jour anne pour les diagrammes de transformation. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression nominale. Figure 9-54 Rcapitulatif du modle de rgression nominale de la variable Niveau quotidien dozone sur la variable Jour de lanne

La rgression avec codage optimal traite la variable Niveau quotidien dozone en tant que donne numrique et la variable Jour de lanne en tant que donne nominale. Cette opration gnre une mesure R2 gale 0,549. Bien que seulement 55 % de la variation de la variable Niveau quotidien dozone soient reprsents par la rgression nominale, cela constitue une amlioration signicative par rapport la rgression initiale. La transformation de la variable Jour de lanne permet de prvoir la variable Niveau quotidien dozone.

141 Rgression nominale Figure 9-55 Diagramme de transformation de la variable Jour de lanne (nominal)

Ce schma afche le diagramme de transformation de la variable Jour de lanne. Les deux extrmes de la variable Jour de lanne reoivent des quantications ngatives, tandis que les valeurs centrales possdent des quantications positives. Une fois cette transformation applique, les valeurs basse et haute de la variable Jour de lanne ont des effets similaires sur la variable Niveau quotidien dozone prvue.

142 Chapitre 9 Figure 9-56 Gnrateur de diagrammes

Pour obtenir un diagramme de dispersion des variables transformes, rappelez le Gnrateur de diagrammes, puis cliquez sur le bouton Rinitialiser an deffacer vos slections antrieures.
E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Niveau quotidien dozone - Quantication [TRA1_3] comme variable de

laxe y et loption Jour de lanne Quantication [TRA2_3] comme variable de laxe x.


E Cliquez sur OK.

143 Rgression nominale Figure 9-57 Diagramme de dispersion des variables transformes

Ce schma dcrit la relation entre les variables transformes. Une tendance laugmentation remplace la forme en U inverse. La ligne de rgression possde une pente positive, ce qui indique que le Niveau dozone quotidien prvu augmente mesure que la variable Jour de lanne transforme saccrot. Lutilisation du codage optimal linarise la relation et autorise des interprtations qui seraient passes inaperues.

Lectures recommandes
Pour plus dinformations sur la rgression nominale, reportez-vous aux documents suivants : Buja, A. 1990. Remarks on functional canonical variates, alternating least squares methods and ACE. Annals of Statistics, 18, . Hastie, T., R. Tibshirani, et A. Buja. 1994. Flexible discriminant analysis. Journal of the American Statistical Association, 89, . Hayashi, C. 1952. On the prediction of phenomena from qualitative data and the quantication of qualitative data from the mathematico-statistical point of view. Annals of the Institute of Statitical Mathematics, 2, . Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotone transformations of the data. Journal of the Royal Statistical Society Series B, 27, . Meulman, J. J. 2003. Prediction and classication in nonlinear data analysis: Something old, something new, something borrowed, something blue. Psychometrika, 4, . Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4, .

144 Chapitre 9

Van der Kooij, A. J., et J. J. Meulman. 1997. MURALS: Multiple regression and optimal scaling using alternating least squares. Dans : Softstat 97, F. Faulbaum, et W. Bandilla, ds. Stuttgart: Gustav Fisher. Winsberg, S., et J. O. Ramsay. 1980. Monotonic transformations to additivity using splines. Biometrika, 67, . Winsberg, S., et J. O. Ramsay. 1983. Monotone spline transformations for dimension reduction. Psychometrika, 48, . Young, F. W., J. De Leeuw, et Y. Takane. 1976. Regression with qualitative and quantitative variables: An alternating least squares method with optimal scaling features. Psychometrika, 41, .

Analyse en composantes principales qualitatives

10

Chapitre

Lanalyse en composantes principales qualitatives peut tre considre comme une mthode de rduction des dimensions. Un ensemble de variables est analys de manire mettre en vidence les principales dimensions de variation. Lensemble de donnes initial peut ensuite tre remplac par un nouvel ensemble plus petit avec une perte dinformations minimale. La mthode met en vidence les relations entre les variables, entre les observations et entre les variables et les observations. Le critre utilis par lanalyse en composantes principales qualitatives pour la quantication des donnes observes est le suivant : les coordonnes principales (scores des composantes) doivent avoir des corrlations leves avec chacune des variables quanties. Une solution est approprie dans la mesure o ce critre est respect. Deux exemples danalyse en composantes principales qualitatives seront prsents. Le premier emploie un ensemble de donnes plutt rduit permettant dillustrer les concepts de base et les interprtations associes la procdure. Le second exemple examine une application pratique.

Exemple : Examen des relations entre systmes sociaux


Cet exemple tudie ladaptation dun tableau de Guttman (Guttman, 1968) par Bell (Bell, 1961). Les donnes sont galement prsentes par Lingoes (Lingoes, 1968). Bell a prsent un tableau pour illustrer les groupes sociaux possibles. Guttman a utilis une partie de ce tableau, dans lequel cinq variables dcrivant des lments tels que linteraction sociale, le sentiment dappartenance un groupe, la proximit physique des membres et la formalit de la relation, ont t croises avec sept groupes sociaux thoriques, dont les foules (par exemple, le public dun match de football), laudience (par exemple, au cinma ou dans une salle de classe), le public (par exemple, les journaux ou la tlvision), les bandes (proche dune foule, mais qui serait caractrise par une interaction beaucoup plus intense), les groupes primaires (intimes), les groupes secondaires (volontaires) et la communaut moderne (groupement lche issu dune forte proximit physique et dun besoin de services spcialiss). Le tableau suivant indique les variables de lensemble de donnes rsultant de la classication en sept groupes sociaux utiliss dans les donnes Guttman-Bell, ainsi que les tiquettes de variable correspondantes et les tiquettes de valeur (modalits) associes aux niveaux de chaque variable. Cet ensemble de donnes est disponible dans le chier guttman.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Outre les variables inclure dans le calcul de lanalyse des composantes principales qualitatives, vous pouvez slectionner celles utilises pour tiqueter les objets sur les diagrammes. Dans
Copyright SPSS Inc. 1989, 2010 145

146 Chapitre 10

cet exemple, les cinq premires variables des donnes sont incluses dans lanalyse, tandis que la classe est exclusivement utilise comme variable dtiquetage. Lorsque vous spciez une analyse des composantes principales qualitatives, vous devez dnir le niveau de codage optimal de chaque variable danalyse. Dans cet exemple, un niveau ordinal est spci pour toutes les variables danalyse.
Table 10-1 Variables de lensemble de donnes Guttman-Bell

Nom de variable intensit frquence appartenance proximit formalit classe

ltiquette Variable Intensit de linteraction Frquence de linteraction Sentiment dappartenance Proximit physique Formalit de la relation

Etiquette de valeur lgre, faible, modre, leve Lgre, non rcurrente, rare, frquente Aucun, lger, variable, lev Distante, proche aucune relation, formelle, informelle Foules, audience, public, modle dobjets, groupes primaires, groupes secondaires, communaut moderne

Excution de lanalyse
E Pour gnrer un rsultat de composants principaux qualitatifs pour cet ensemble de donnes,

choisissez dans les menus :


Analyse > Rduction des dimensions > Codage optimal Figure 10-1 Bote de dialogue Niveau du codage optimal

E Slectionnez loption Certaines variables non nominales multiples dans le groupe Niveau du codage

optimal.
E Cliquez sur Dfinir.

147 Analyse en composantes principales qualitatives Figure 10-2 Bote de dialogue Composantes principales qualitatives

E Slectionnez les options allant de Intensit de linteraction Formalit de la relation comme

variables danalyse.
E Cliquez sur Dfinir lchelle et la pondration. Figure 10-3 Dfinir lchelle et la pondration

E Slectionnez loption Ordinal dans le groupe Niveau du codage optimal. E Cliquez sur Poursuivre.

148 Chapitre 10 E Slectionnez grappe comme variable dtiquetage dans la bote de dialogue Composantes

principales qualitatives.
E Cliquez sur Rsultat. Figure 10-4 Rsultat

E Slectionnez loption Coordonnes principales et dslectionnez loption Corrlations des variables transformes dans le groupe Tableaux. E Appliquez la gnration de quantications de modalits aux options allant de intnsit (Intensit de

linteraction) formlit (Formalit de la relation).


E Choisissez dtiqueter les coordonnes des objets par grappe. E Cliquez sur Poursuivre. E Cliquez sur Objet dans le groupe Diagrammes de la bote de dialogue Composantes principales

qualitatives.

149 Analyse en composantes principales qualitatives Figure 10-5 Diagrammes dobjets et de variables

E Slectionnez loption Objets et variables (diagramme double) dans le groupe Diagrammes. E Dans le groupe Objets dtiquetage, choisissez loption dtiquetage des objets par Variable, puis

slectionnez loption Grappe comme variable dtiquetage des objets.


E Cliquez sur Poursuivre. E Cliquez sur Modalit dans le groupe Diagrammes de la bote de dialogue Composantes principales

qualitatives.

150 Chapitre 10 Figure 10-6 Bote de dialogue Diagrammes de modalits

E Appliquez lopration Joindre les diagrammes de modalits aux options allant de intnsit (Intensit

de linteraction) formlit (Formalit de la relation).


E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Composantes principales qualitatives.

Nombre de dimensions.
Ces donnes montrent une partie du rsultat initial de lanalyse en composantes principales nominales. Aprs lhistorique des itrations de lalgorithme, le rcapitulatif du modle, y compris les valeurs propres de chaque dimension, apparat. Ces valeurs propres sont quivalentes celles de lanalyse en composantes principales classique. Elles permettent de mesurer la quantit de variance reprsente par chaque dimension.

151 Analyse en composantes principales qualitatives Figure 10-7 Historique des itrations

Figure 10-8 Rcapitulatif du modle

Les valeurs propres permettent de dterminer le nombre de dimensions requises. Cet exemple utilise le nombre de dimensions par dfaut (2). Ce nombre est-il correct ? En rgle gnrale, lorsque toutes les variables sont nominales simples, ordinales ou numriques, la valeur propre dune dimension doit tre suprieure 1. Dans la mesure o la solution bidimensionnelle reprsente 94,52 % de la variance, une troisime dimension napporterait probablement pas beaucoup plus dinformations. Dans le cas des variables nominales multiples, il nexiste pas de principe de base simple permettant de dterminer le nombre de dimensions appropri. Si le nombre de variables est remplac par le nombre total de modalits moins le nombre de variables, la rgle ci-dessus demeure valable. Cependant, cette rgle seule autoriserait probablement davantage de dimensions que le nombre requis. Lors du choix du nombre de dimensions, la conduite la plus utile consiste dnir un nombre sufsamment faible de manire ce que des interprtations signicatives soient possibles. En outre, le tableau rcapitulatif du modle indique lalpha de Cronbach (mesure de abilit), qui est optimis par la procdure.

Quantifications
Pour chaque variable, les quantications, les coordonnes vectorielles et celles des centres de gravit de chaque dimension sont prsentes. Les quantications sont les valeurs affectes chaque modalit. Les coordonnes des centres de gravit reprsentent la moyenne des coordonnes principales des objets dune mme modalit. Les coordonnes vectorielles sont les coordonnes des modalits qui gurent sur une ligne, an de reprsenter la variable dans lespace de lobjet. Ce dispositif est requis pour les variables dont le niveau de codage est ordinal ou numrique.

152 Chapitre 10 Figure 10-9 Quantifications de lintensit de linteraction

Les quantications du diagramme joint des points de modalits indiquent que des modalits de certaines variables nont pas t aussi nettement spares par lanalyse des composantes principales nominales que si lopration avait eu recours un niveau rellement ordinal. Les variables Intensit de linteraction et Frquence dinteraction, par exemple, prsentent des quantications gales ou pratiquement gales pour leurs deux modalits intermdiaires. Ce type de rsultat peut amener essayer dautres analyses en composantes principales qualitatives, ventuellement en fusionnant certaines modalits ou en utilisant un autre niveau danalyse, par exemple nominal (multiple).
Figure 10-10 Points de modalits du diagramme joint

Le diagramme joint des points de modalit ressemble au diagramme des contributions des facteurs, mais il indique galement la position des extrema correspondant aux quantications les plus faibles (par exemple, Lgre pour Intensit de linteraction et aucun pour Sentiment dappartenance). Les deux variables mesurant linteraction, Intensit de linteraction et Effectif

153 Analyse en composantes principales qualitatives

dinteractions, sont trs proches lune de lautre et reprsentent une grande partie de la variance de la dimension 1. La valeur Formalit de la relation se trouve galement prs de Proximit physique. Les points de modalit permettent de discerner les relations plus clairement. Non seulement les variables Intensit de linteraction et Frquence dinteraction sont proches, mais les directions de leurs chelles sont similaires ; en dautres termes, une intensit lgre est proche dune frquence lgre et une interaction frquente est proche dune intensit dinteraction leve. Vous pouvez galement constater que la forte proximit physique semble aller de pair avec un type informel de relation et que la distance physique est lie labsence de relation.

Coordonnes principales
En outre, vous pouvez demander une liste et un diagramme des coordonnes principales. Le diagramme des coordonnes principales peut tre utile pour dtecter des valeurs loignes, reprer des groupes typiques dobjets ou mettre en vidence des modles particuliers. Le tableau des coordonnes principales rpertorie les coordonnes principales tiquetes par groupe social pour les donnes Guttman-Bell. En examinant les valeurs des points des objets, vous pouvez identier des objets spciques dans le diagramme.
Figure 10-11 Coordonnes des objets

La premire dimension spare FOULES et PUBLIC, qui ont des scores ngatifs relativement levs, de BANDES et GROUPES PRIMAIRES, qui ont des scores positifs relativement levs. La deuxime dimension possde trois groupes : PUBLIC et GROUPES SECONDAIRES avec des valeurs ngatives leves, FOULES avec des valeurs positives leves, puis les autres groupes sociaux intermdiaires. Linspection du diagramme des coordonnes principales met en vidence cette organisation.

154 Chapitre 10 Figure 10-12 Diagramme des coordonnes principales

Dans le diagramme, PUBLIC et GROUPES SECONDAIRES apparaissent en bas, FOULES en haut et les autres groupes sociaux au milieu. Lexamen des modles parmi les diffrents objets dpend des informations supplmentaires disponibles pour les units de lanalyse. Dans ce cas, vous connaissez la classication des objets. Dans dautres cas, vous pouvez utiliser des variables supplmentaires pour tiqueter les objets. Vous pouvez galement constater que lanalyse en composantes principales nominales ne spare pas BANDES de GROUPES PRIMAIRES. Bien que la plupart des personnes ne considrent gnralement pas leurs familles comme des bandes, ces deux groupes obtiennent le mme score sur quatre des cinq variables utilises. Il va de soi que vous pouvez explorer les points faibles ventuels des variables et des modalits utilises. Par exemple, une intensit dinteraction leve et des relations informelles nont probablement pas la mme signication pour ces deux groupes. Par ailleurs, vous pouvez envisager une solution impliquant davantage de dimensions.

Saturations
Ce schma illustre le diagramme des corrlations entre composantes. Les vecteurs (lignes) sont relativement longs, ce qui est une nouvelle indication du fait que les deux premires dimensions reprsentent la majeure partie de la variance de toutes les variables quanties. Sur la premire dimension, toutes les variables possdent des corrlations entre composantes leves (positives). La deuxime dimension est principalement corrle avec les variables quanties Sentiment dappartenance et Proximit physique, dans des sens opposs. Cela signie que les objets ayant un score ngatif lev dans la dimension 2 auront un score lev pour le sentiment dappartenance et un score faible pour la proximit physique. Par consquent, la deuxime dimension met en vidence un contraste entre ces deux variables tout en ayant peu de rapport avec les variables quanties Intensit de linteraction et Frquence dinteraction.

155 Analyse en composantes principales qualitatives Figure 10-13 Corrlations entre composantes et variables initiales

Pour examiner la relation entre les objets et les variables, observez le diagramme double des objets et des saturations. Le vecteur dune variable pointe en direction de la modalit la plus leve de la variable. Par exemple, pour les variables Proximit physique et Sentiment dappartenance, les modalits les plus leves sont forte et fort, respectivement. Par consquent, une forte proximit physique et labsence de sentiment dappartenance caractrisent les foules (FOULES), tandis quune proximit physique distante et un fort sentiment dappartenance identient les groupes secondaires (GROUPES SECONDAIRES).
Figure 10-14 Diagramme double

156 Chapitre 10

Dimensions supplmentaires
Laugmentation du nombre de dimensions accrot la quantit de variation prise en compte et peut mettre en vidence des diffrences masques dans les solutions possdant un nombre rduit de dimensions. Comme indiqu prcdemment, dans une solution bidimensionnelle, les groupes BANDES et GROUPES PRIMAIRES ne peuvent pas tre spars. Toutefois, vous pouvez augmenter le nombre de dimensions de manire diffrencier les deux groupes.

Excution de lanalyse
E Pour obtenir une solution tridimensionnelle, afchez de nouveau la bote de dialogue Composantes

principales nominales.
E Tapez 3 comme nombre de dimensions comprises dans la solution. E Cliquez sur OK dans la bote de dialogue Composantes principales qualitatives.

Rcapitulatif des modles


Figure 10-15 Rcapitulatif du modle

Une solution tridimensionnelle possde les valeurs propres 3,424, 0,844 et 0,732, qui reprsentent la quasi-totalit de la variance.

Coordonnes principales
Les coordonnes principales de la solution tridimensionnelle sont reprsentes dans une matrice de diagramme de dispersion. Dans une matrice de diagramme de dispersion, chaque dimension est reprsente par rapport chacune des autres dimensions dune srie de diagrammes de dispersion bidimensionnelles. Les deux premires valeurs propres des trois dimensions diffrent des valeurs propres de la solution bidimensionnelle ; en dautres termes, les solutions ne sont pas embotes. Etant donn que les valeurs propres des dimensions 2 et 3 sont dsormais infrieures 1 (aboutissant un alpha de Cronbach ngatif), vous devez privilgier la solution bidimensionnelle. La solution tridimensionnelle est propose titre dillustration.

157 Analyse en composantes principales qualitatives Figure 10-16 Matrice de diagramme de dispersion des coordonnes principales tridimensionnelle

La ligne suprieure des diagrammes indique que la premire dimension spare les groupes GROUPES PRIMAIRES et BANDES des autres groupes. Lordre des objets le long de laxe vertical demeure inchang dun diagramme lautre dans la ligne suprieure ; chacun de ces diagrammes utilise la dimension 1 comme axe y. La ligne intermdiaire des diagrammes permet dinterprter la dimension 2. La deuxime dimension a lgrement volu par rapport la solution bidimensionnelle. Prcdemment, la deuxime dimension possdait trois groupes distincts mais les objets sont dsormais davantage rpartis le long de laxe. La troisime dimension permet de sparer le groupe BANDES du groupe GROUPES PRIMAIRES, ce qui ntait pas le cas dans la solution bidimensionnelle. Observez plus attentivement les diagrammes des dimensions 2 et 3 et ceux des dimensions 1 et 2. Dans le plan dni par les dimensions 2 et 3, les objets forment un rectangle approximatif ayant pour sommets FOULES, COMMUNAUTE MODERNE, GROUPES SECONDAIRES et PUBLIC. Dans ce plan, BANDES et GROUPES PRIMAIRES apparaissent comme des combinaisons convexes de PUBLIC-FOULES et de GROUPES SECONDAIRES-COMMUNAUTE MODERNE, respectivement. Toutefois, comme indiqu prcdemment, ils sont spars des autres groupes le long de la dimension 1. Le groupe AUDIENCES nest pas spar des autres groupes le long de la dimension 1 et apparat sous la forme dune combinaison des groupes FOULES et COMMUNAUTE MODERNE.

158 Chapitre 10

Saturations
Figure 10-17 Corrlations entre composantes tridimensionnelles

Le fait de savoir comment les objets sont spars ne permet pas de connatre la correspondance entre variables et dimensions. Pour ce faire, vous devez recourir aux corrlations entre composantes. La premire dimension correspond essentiellement aux groupes Sentiment dappartenance, Intensit de linteraction et Formalit de la relation ; la deuxime spare les groupes Frquence dinteraction et Proximit physique; la troisime dimension spare ceux-ci des autres groupes.

Exemple : Symptomatologie des troubles du comportement alimentaire


Les troubles du comportement alimentaire sont des maux dbilitants associs un mauvais comportement alimentaire, une grave dformation de limage du corps et une obsession du poids affectant simultanment lesprit et le corps. Des millions de personnes, notamment les adolescents, sont affectes chaque anne. Des traitements sont disponibles et la plupart dentre eux sont efcaces si le trouble est identi tt. Un mdecin peut essayer de diagnostiquer un trouble du comportement alimentaire par le biais dune valuation psychologique et mdicale. Toutefois, il peut savrer difcile de cataloguer un patient dans lune des diffrentes classes de troubles du comportement alimentaire car il nexiste pas de symptomatologie standardise du comportement anorexique/boulimique. Existe-t-il des symptmes qui permettent de classer facilement les patients dans lun des quatre groupes ? Quels symptmes ont-ils en commun ? Pour tenter de rpondre ces questions, des chercheurs (Van der Ham, Meulman, Van Strien, et Van Engeland, 1997) ont ralis une tude sur 55 adolescents souffrant de troubles du comportement alimentaire connus (tableau ci-dessous).
Table 10-2 Diagnostics des patients

Diagnostic Anorexie mentale Anorexie avec boulimie mentale Boulimie mentale aprs anorexie Trouble atypique du comportement alimentaire Total

Nombre de patients 25 9 14 7 55

159 Analyse en composantes principales qualitatives

Chaque patient a t observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des 16 symptmes prsents dans le tableau ci-aprs. En raison de labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217. Les donnes sont disponibles dans anorectic.sav.Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
Table 10-3 Sous-chelles Morgan-Russell modifies mesurant le bien-tre

Nom de variable poids mens inapptance frnsie alimentaire vomissement laxatifs hyperactivit famille man amis cole atts comps humeur pro corps

ltiquette Variable Poids corporel Menstruation Perte de lapptit (inapptance) Frnsie alimentaire Vomissement Laxatifs Hyperactivit Relations familiales Emancipation par rapport la famille Relations amicales Antcdents scolaires/professionnels Attitude sexuelle Comportement sexuel Etat mental (humeur) Proccupation nourriture et poids Perception du corps

Limite infrieure (score 1) Limite suprieure (score 3 ou 4) Hors de lintervalle de poids Normale normal Amnorrhe Rgles rgulires Moins de 1 200 calories Repas normaux/rguliers

Plus dune fois par semaine Aucune frnsie alimentaire Plus dune fois par semaine Pas de vomissement Plus dune fois par semaine Pas de laxatifs Ne peut pas demeurer inactif Mauvaises Forte dpendance Pas de bons amis A quitt lcole/le travail Inadquate Inadquate Trs dprim Totale Perturbe Pas dhyperactivit Bonnes Sufsante Au moins deux bons amis Antcdents moyens bons Sufsante Apprcie les rapports sexuels Normale Aucune proccupation Normale

Lanalyse en composantes principales est idale pour cette situation, dans la mesure o la nalit de ltude est dtablir les relations entre les symptmes et les diffrentes classes de troubles du comportement alimentaire. En outre, lanalyse en composantes principales qualitatives est susceptible dtre plus utile que lanalyse en composantes principales classique car les symptmes sont nots sur une chelle ordinale.

Excution de lanalyse
An dexaminer correctement la structure de lvolution de la maladie pour chaque diagnostic, vous pouvez faire en sorte que les rsultats du tableau des centres de gravit projets soient disponibles en tant que donnes pour les diagrammes de dispersion. Pour ce faire, utilisez le systme de gestion des rsultats (OMS).

160 Chapitre 10 E Pour dmarrer une requte OMS, dans les menus, choisissez : Utilitaires > Panneau de configuration du systme de gestion des rsultats... Figure 10-18 Panneau de configuration du systme de gestion des rsultats

E Slectionnez loption Tableaux comme type de rsultat. E Slectionnez loption CATPCA comme commande. E Slectionnez loption Centres de gravit projets comme type de tableau. E Slectionnez loption Fichier dans le groupe Destinations de sortie, puis tapez

projected_centroids.sav comme nom de chier.


E Cliquez sur Options.

161 Analyse en composantes principales qualitatives Figure 10-19 Bote de dialogue Options

E Slectionnez loption Fichier de donnes IBM SPSS Statistics comme format de rsultat. E Tapez TableNumber_1 comme variable de numro de tableau. E Cliquez sur Poursuivre.

162 Chapitre 10 Figure 10-20 Panneau de configuration du systme de gestion des rsultats

E Cliquez sur Ajouter. E Cliquez sur OK, puis de nouveau sur OK pour conrmer la session OMS.

Le systme de gestion des rsultats est dsormais congur pour crire les rsultats du tableau des centres de gravit projets dans le chier projected_centroids.sav.
E Pour gnrer un rsultat de composants principaux qualitatifs pour cet ensemble de donnes,

choisissez dans les menus :


Analyse > Rduction des dimensions > Codage optimal

163 Analyse en composantes principales qualitatives Figure 10-21 Bote de dialogue Niveau du codage optimal

E Slectionnez loption Certaines variables non nominales multiples dans le groupe Niveau du codage

optimal.
E Cliquez sur Dfinir. Figure 10-22 Bote de dialogue Composantes principales qualitatives

E Slectionnez les options allant de Poids corporel Perception du corps comme variables danalyse.

164 Chapitre 10 E Cliquez sur Dfinir lchelle et la pondration. Figure 10-23 Dfinir lchelle et la pondration

E Slectionnez loption Ordinal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Slectionnez loption Interaction moment/diagnostic comme variable supplmentaire, puis cliquez sur Dfinir lchelle dans la bote de dialogue Composantes principales qualitatives. Figure 10-24 Bote de dialogue Dfinir lchelle

E Slectionnez loption Variables nominales multiples comme niveau de codage optimal. E Cliquez sur Poursuivre.

165 Analyse en composantes principales qualitatives Figure 10-25 Bote de dialogue Composantes principales qualitatives

E Slectionnez les options allant de Moment de lentrevue Numro de patient comme variables

dtiquetage.
E Cliquez sur Options.

166 Chapitre 10 Figure 10-26 Bote de dialogue Options

E Choisissez la mthode dtiquetage des diagrammes Noms ou valeurs de variable. E Cliquez sur Poursuivre. E Cliquez sur Rsultat dans la bote de dialogue Composantes principales qualitatives.

167 Analyse en composantes principales qualitatives Figure 10-27 Rsultat

E Slectionnez loption Coordonnes principales dans le groupe Tableaux. E Indiquez que vous souhaitez obtenir les valeurs affectes aux modalits pour la variable

moment/diagnostic.
E Incluez les modalits moment, diag et nombre. E Cliquez sur Poursuivre. E Cliquez sur Enregistrer dans la bote de dialogue Composantes principales qualitatives.

168 Chapitre 10 Figure 10-28 Bote de dialogue Enregistrer

E Dans le groupe des variables transformes, slectionnez Enregistrer dans lensemble de donnes actif. E Cliquez sur Poursuivre. E Cliquez sur Objet dans la bote de dialogue Composantes principales qualitatives.

169 Analyse en composantes principales qualitatives Figure 10-29 Diagrammes dobjets et de variables

E Choisissez loption dtiquetage des objets Variable. E Slectionnez les options moment et diag comme variables dtiquetage des objets. E Cliquez sur Poursuivre. E Cliquez sur Modalit dans la bote de dialogue Composantes principales qualitatives.

170 Chapitre 10 Figure 10-30 Bote de dialogue Diagrammes de modalits

E Indiquez que vous souhaitez obtenir les diagrammes de modalit pour la variable

moment/diagnostic.
E Indiquez que vous souhaitez obtenir les diagrammes de transformation pour les variables allant de

poids corps.
E Projetez les centres de moment/diagnostic sur frnsie alimentaire, atts et pro. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Composantes principales qualitatives.

La procdure aboutit des scores pour les sujets (de moyenne 0 et de variance unitaire) et des valeurs affectes aux modalits qui maximisent la corrlation des carrs des moyennes des scores de sujet et les variables transformes. Dans lanalyse actuelle, les valeurs affectes aux modalits ont t contraintes de manire reter les informations ordinales.

171 Analyse en composantes principales qualitatives

En dernier lieu, pour crire les informations du tableau des centres de gravit projets dans le chier projected_centroids.sav, vous devez mettre n la requte OMS. Afchez de nouveau le panneau de conguration du systme de gestion des rsultats.
Figure 10-31 Panneau de configuration du systme de gestion des rsultats

E Cliquez sur Fin. E Cliquez sur OK, puis de nouveau sur OK pour conrmer.

Diagrammes de transformation
Les diagrammes de transformation afchent le numro de modalit initial sur les axes horizontaux ; les axes verticaux donnent les quantications optimales.

172 Chapitre 10 Figure 10-32 Diagramme de transformation pour les menstruations

Certaines variables, telles que Menstruation, ayant obtenu des transformations presque linaires, vous pouvez, dans cette analyse, les interprter comme des donnes numriques.

173 Analyse en composantes principales qualitatives Figure 10-33 Diagramme de transformation des antcdents scolaires/professionnels

Les quantications des autres variables, telles que Antcdents scolaires/professionnels, nont pas obtenu de transformations linaires et doivent tre interprtes au niveau de codage ordinal. La diffrence entre les deuxime et troisime modalits est beaucoup plus importante que celle entre les premire et deuxime modalits.

174 Chapitre 10 Figure 10-34 Diagramme de transformation de la frnsie alimentaire

Une situation intressante se prsente dans les quantications de la frnsie alimentaire. La transformation obtenue est linaire pour les modalits 1 3, mais les valeurs quanties pour les modalits 3 et 4 sont gales. Ce rsultat montre que les scores 3 et 4 ne font pas de diffrences entre les patients et suggre que vous pouvez utiliser le niveau de codage numrique dans une solution deux composantes en recodant les scores 4 en 3.

Rcapitulatif des modles


Figure 10-35 Rcapitulatif du modle

Pour valuer ladquation du modle par rapport aux donnes, consultez le rcapitulatif du modle. Environ 47 % de la variance totale est explique par le modle deux composantes, raison de 35 % par la premire dimension et de 12 % par la deuxime. Par consquent, presque la moiti de la variabilit au niveau des diffrents objets est explique par le modle deux composantes.

175 Analyse en composantes principales qualitatives

Saturations
Pour dmarrer linterprtation des deux dimensions de votre solution, observez les corrlations entre composantes. Toutes les variables possdent une corrlation entre composantes positives dans la premire dimension, ce qui signie quil existe un facteur commun corrl positivement avec toutes les variables.
Figure 10-36 Diagramme des corrlations entre composantes

La deuxime dimension spare les variables. Les variables Frnsie alimentaire, Vomissement et Laxatifs forment un groupe possdant des corrlations entre composantes positives leves dans la deuxime dimension. Ces symptmes sont gnralement considrs comme reprsentatifs dun comportement boulimique. Les variables Emancipation par rapport la famille, Antcdents scolaires/professionnels, Attitude sexuelle, Poids corporel et Menstruations forment un autre groupe, dans lequel vous pouvez inclure les variables Perte de lapptit (inapptance) et Relations familiales car leurs vecteurs sont proches de la classe principale, et ces variables sont considres comme tant des symptmes de lanorexie (inapptance, poids, menstruation) ou de nature psychosociale (mancipation, antcdents scolaires/professionnels, attitude sexuelle, relations familiales). Les vecteurs de ce groupe sont orthogonaux (perpendiculaires) aux vecteurs de la frnsie alimentaire, du vomissement et des laxatifs, ce qui signie que cet ensemble de variables nest pas corrl avec lensemble des variables de la boulimie. Les variables Relations amicales, Etat mental (humeur) et Hyperactivit ne semblent pas sadapter correctement la solution. Vous pouvez le constater dans le diagramme en observant les longueurs de chaque vecteur. La longueur du vecteur dune variable donne correspond son ajustement, et ces variables possdent les vecteurs les plus courts. Dans le cadre dune solution deux composantes, vous retireriez probablement ces variables de lbauche dune symptomatologie des troubles du comportement alimentaire. Toutefois, elles peuvent mieux sintgrer dans une solution impliquant davantage de dimensions.

176 Chapitre 10

Les variables Comportement sexuel, Proccupation nourriture et poids et Perception du corps forment un autre groupe thorique de symptmes, lis la perception que le patient a de son corps. Tout en tant corrles avec les deux groupes de variables orthogonaux, ces variables possdent des vecteurs assez longs et sont troitement associes la premire dimension ; par consquent, elles peuvent fournir certaines informations utiles sur le facteur commun.

Coordonnes principales
Le schma suivant illustre un diagramme des coordonnes principales, dans lequel les sujets sont tiquets daprs leur modalit de diagnostic.
Figure 10-37 Diagramme des coordonnes principales tiquet en fonction du diagnostic

Ce diagramme ne permet pas dinterprter la premire dimension car les patients ne sont pas spars par diagnostic le long de celle-ci. Toutefois, il comprend certaines informations sur la deuxime dimension. Les sujets anorexiques (1) et les patients prsentant un trouble atypique du comportement alimentaire (4) forment un groupe, situ au-dessus des sujets souffrant dune forme de boulimie (2 et 3). Par consquent, la deuxime dimension spare les patients boulimiques des autres, comme la galement indiqu la section prcdente (les variables du groupe boulimique possdent des corrlations entre composantes positives leves dans la deuxime dimension). Cela est cohrent dans la mesure o les saturations des symptmes traditionnellement associs la boulimie possdent des valeurs leves dans la deuxime dimension.

177 Analyse en composantes principales qualitatives

Le schma suivant illustre un diagramme des coordonnes principales, dans lequel les sujets sont tiquets daprs le moment de leur diagnostic.
Figure 10-38 Coordonnes principales tiquetes en fonction du moment de lentrevue

Ltiquetage des coordonnes principales daprs le moment met en vidence que la premire dimension possde une relation au moment, car il semble y avoir une progression des moments de diagnostic entre les 1 essentiellement vers la gauche et les autres vers la droite. Vous pouvez lier les points dans le temps au sein de ce diagramme ; pour ce faire, enregistrez les coordonnes principales et crez un diagramme de dispersion en utilisant les scores de la dimension 1 sur laxe des x, les scores de la dimension 2 sur laxe des y et en dnissant des marques partir des numros de patient. La comparaison du diagramme des coordonnes principales tiquet en fonction du moment celui tiquet daprs le diagnostic peut vous donner une ide des objets inhabituels. Par exemple, dans le diagramme tiquet en fonction du moment, il existe un patient dont le diagnostic au moment 4 gure gauche de tous les autres points du diagramme. Cela est peu courant car, daprs la tendance gnrale des points, les moments les plus rcents gurent plus droite. Il est intressant de constater que ce point, dont le moment semble mal positionn, possde galement un diagnostic inhabituel, en ce sens que le patient est un anorexique dont les scores le placent dans le groupe des boulimiques. Le tableau des coordonnes principales indique quil sagit du patient 43, chez qui a t diagnostique une anorexie mentale, et dont les coordonnes principales sont indiques dans le tableau ci-aprs.
Table 10-4 Coordonnes principales du patient 43

Heure 1 2 3 4

Dimension 1 2.031 2.067 1.575 2.405

Dimension 2 1.250 0.131 1.467 1.807

178 Chapitre 10

Les scores du patient au moment 1 sont prototypiques des anorexiques : le score ngatif lev dans la dimension 1 correspond une mauvaise image du corps et le score positif dans la dimension 2 correspond des symptmes danorexie ou un comportement psychosocial perturb. Toutefois, la diffrence de la majorit des patients, la progression est faible ou nulle dans la dimension 1. Dans la dimension 2, il semble y avoir une certaine progression vers la normale (autour de 0, entre un comportement anorexique et boulimique), mais ensuite le patient prsente des symptmes de boulimie.

Examen de la structure de lvolution de la maladie


Pour que vous puissiez mieux comprendre les liens unissant les deux dimensions aux quatre modalits de diagnostic et aux quatre points dans le temps, une variable supplmentaire Interaction moment/diagnostic a t cre par une classication croise des quatre modalits de Diagnostics des patients et des quatre modalits de Moment de lentrevue. Par consquent, la variable Interaction moment/diagnostic possde 16 modalits, dont la premire reprsente les patients atteints danorexie mentale leur premire visite. La cinquime modalit reprsente les patients atteints danorexie mentale au point 2 dans le temps, et ainsi de suite jusqu la seizime modalit, qui reprsente les patients souffrant dun trouble atypique du comportement alimentaire au point 4 dans le temps. Lutilisation de la variable supplmentaire Interaction moment/diagnostic permet dtudier lvolution dans le temps des maladies affectant les diffrents groupes. La variable possde un niveau de codage nominal multiple et le schma ci-aprs illustre les points de modalit.
Figure 10-39 Points de modalit de linteraction moment/diagnostic

Une partie de la structure apparat dans ce diagramme : les modalits de diagnostic au point 1 dans le temps sparent nettement lanorexie mentale et le trouble atypique du comportement alimentaire de lanorexie mentale avec boulimie mentale et de la boulimie mentale aprs anorexie mentale dans la deuxime dimension. Au-del, il est un peu plus difcile de discerner les modles.

179 Analyse en composantes principales qualitatives

Toutefois, vous pouvez faciliter la lisibilit des modles en crant un diagramme de dispersion bas sur les quantications. Pour ce faire, dans les menus, choisissez :
Graphes > Gnrateur de diagrammes... Figure 10-40 Galerie Dispersion/Points

E Slectionnez la galerie Dispersion/Points et choisissez Diagramme de dispersion regroup.

180 Chapitre 10 Figure 10-41 Gnrateur de diagrammes

E Slectionnez Interaction moment/diagnostic Quantication dimension 2 comme variable de laxe

y et Interaction moment/diagnostic Quantication dimension 1 comme variable de laxe x.


E Pour la dnition des couleurs, choisissez loption Diagnostics des patients. E Cliquez sur OK.

181 Analyse en composantes principales qualitatives Figure 10-42 Structures de lvolution des maladies

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.

182 Chapitre 10 Figure 10-43 Structures de lvolution des maladies

Une fois que vous avez reli les points de chaque modalit de diagnostic dans le temps, les motifs suggrent que la premire dimension est associe au moment et la deuxime au diagnostic, comme vous lavez prcdemment dtermin partir des diagrammes des coordonnes principales. Toutefois, ce diagramme indique aussi que, sur la dure, les maladies ont tendance se ressembler. En outre, pour tous les groupes, la progression est la plus forte entre les points 1 et 2 dans le temps ; les patients anorexiques prsentent un peu plus de progression entre les points 2 et 3, mais les autres groupes afchent peu de progression.

Dveloppement diffrentiel de variables spcifiques


Une variable de chaque groupe de symptmes identi par les corrlations entre composantes a t slectionne comme tant reprsentative du groupe. La frnsie alimentaire a t slectionne dans le groupe boulimique, lattitude sexuelle dans le groupe anorexique/psychosocial et la proccupation du corps dans le troisime groupe.

183 Analyse en composantes principales qualitatives

Pour que vous puissiez examiner les ventuelles volutions diffrentielles des maladies, les projections de Interaction moment/diagnostic sur Frnsie alimentaire, Attitude sexuelle et Proccupation nourriture et poids ont t calcules et reprsentes dans le schma ci-aprs.
Figure 10-44 Centres de gravit projets de Interaction moment/diagnostic sur Frnsie alimentaire, Attitude sexuelle et Proccupation nourriture et poids

Ce diagramme indique quau premier point dans le temps, la frnsie alimentaire symptomatique spare les patients boulimiques (2 et 3) des autres patients (1 et 4), que lattitude sexuelle spare les patients anorexiques et atypiques (1 et 4) des autres patients (2 et 3), et que la proccupation du corps ne spare pas vritablement les patients. Dans de nombreuses applications, ce diagramme sufrait pour dcrire la relation entre les symptmes et le diagnostic mais, en raison du caractre multiple des points dans le temps, limage perd de sa nettet.

184 Chapitre 10

Pour visualiser ces projections sur la dure, vous devez tre en mesure de reprsenter le contenu du tableau des centres de gravit projets. Cette opration est possible grce la requte OMS ayant enregistr ces informations dans le chier projected_centroids.sav.
Figure 10-45 Projected_centroids.sav

Les variables FrnsieAlimentaire, AttitudeSexuelle et ProccupationAlimentationPoids contiennent les valeurs des barycentres projets sur chacun des symptmes dintrt. Le numro dobservation (1 16) correspond linteraction moment/diagnostic. Vous devrez calculer de nouvelles variables permettant de distinguer les valeurs des moments de celles des diagnostics.
E A partir des menus, slectionnez : Transformer > Calculer la variable...

185 Analyse en composantes principales qualitatives Figure 10-46 Bote de dialogue Calculer la variable

E Tapez moment comme variable de destination. E

Tapez trunc( ($casenum-1)/4 ) + 1 comme expression numrique.

E Cliquez sur OK.

186 Chapitre 10 Figure 10-47 Bote de dialogue Calculer la variable

E Rappelez la bote de dialogue Calculer la variable. E Tapez diagnostic comme variable de destination. E

Tapez mod($casenum-1, 4) + 1 comme expression numrique.

E Cliquez sur OK.

187 Analyse en composantes principales qualitatives Figure 10-48 Projected_centroids.sav

Dans la vue des variables, changez la mesure du diagnostic de Positionnement en Nominal.

188 Chapitre 10 Figure 10-49 Gnrateur de diagrammes

E En dernier lieu, pour visualiser dans le temps les barycentres des moments de diagnostic projets

sur la frnsie alimentaire, afchez de nouveau le Gnrateur de diagrammes, puis cliquez sur le bouton Rinitialiser pour effacer les slections antrieures.
E Slectionnez la galerie Dispersion/Points et choisissez Diagramme de dispersion regroup. E

Slectionnez loption Barycentres projets sur Frnsie alimentaire comme variable de laxe y et loption moment comme variable de laxe x.

E Pour la dnition des couleurs, choisissez loption diagnostic. E Cliquez sur OK.

189 Analyse en composantes principales qualitatives Figure 10-50 Projection dans le temps des barycentres des moments de diagnostic sur la frnsie alimentaire

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.

Concernant la frnsie alimentaire, il est manifeste que les groupes anorexiques prsentent des valeurs initiales diffrentes de celles des groupes boulimiques. Cette diffrence sestompe au l du temps, car les groupes anorexiques voluent trs peu tandis que les groupes boulimiques afchent une progression.

190 Chapitre 10 Figure 10-51 Gnrateur de diagrammes

E Afchez de nouveau le Gnrateur de diagrammes. E Dslectionnez loption Barycentres projets sur Frnsie alimentaire comme variable de laxe y

et slectionnez loption Barycentres projets sur Attitude sexuelle la place.


E Cliquez sur OK.

191 Analyse en composantes principales qualitatives Figure 10-52 Projection dans le temps des barycentres des moments de diagnostic sur lattitude sexuelle

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.

En ce qui concerne lattitude sexuelle, les quatre trajectoires sont plus ou moins parallles sur la dure et tous les groupes prsentent une progression. Toutefois, les scores des groupes boulimiques sont plus levs (meilleurs) que ceux du groupe anorexique.

192 Chapitre 10 Figure 10-53 Gnrateur de diagrammes

E Afchez de nouveau le Gnrateur de diagrammes. E Dslectionnez loption Barycentres projets sur Attitude sexuelle comme variable de laxe y et

slectionnez loption Barycentres projets sur Proccupation nourriture et poids la place.


E Cliquez sur OK.

193 Analyse en composantes principales qualitatives Figure 10-54 Projection dans le temps des barycentres des moments de diagnostic sur la proccupation du corps

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.

La proccupation du corps est une variable qui reprsente les symptmes fondamentaux, partags par les quatre groupes. En dehors des patients atteints de troubles atypiques du comportement alimentaire, le groupe anorexique et les deux groupes boulimiques prsentent des niveaux trs similaires au dbut comme la n.

194 Chapitre 10

Lectures recommandes
Pour plus dinformations sur lanalyse des composantes principales qualitatives, reportez-vous aux documents suivants : De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, et J. J. Meulman. 2000. Macro and micro goal setting: In search of coherence. Applied Psychology, 49, . De Leeuw, J. 1982. Nonlinear principal components analysis. Dans : COMPSTAT Proceedings in Computational Statistics, Vienne: Physica Verlag. Eckart, C., et G. Young. 1936. The approximation of one matrix by another one of lower rank. Psychometrika, 1, . Gabriel, K. R. 1971. The biplot graphic display of matrices with application to principal components analysis. Biometrika, 58, . Gi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of Data Theory, University of Leiden. Gower, J. C., et J. J. Meulman. 1993. The treatment of categorical information in physical anthropology. International Journal of Anthropology, 8, . Heiser, W. J., et J. J. Meulman. 1994. Homogeneity analysis: Exploring the distribution of variables and their nonlinear relationships. Dans : Correspondence Analysis in the Social Sciences: Recent Developments and Applications, M. Greenacre, et J. Blasius, ds. New York: Academic Press. Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinear methods. Dans : International Encyclopedia of Statistics, W. H. Kruskal, et J. M. Tanur, ds. New York: The Free Press. Kruskal, J. B., et R. N. Shepard. 1974. A nonmetric variety of linear factor analysis. Psychometrika, 39, . Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations of the variables: Minimizing the sum of squares of the smallest eigenvalues. British Journal of Mathematical and Statistical Psychology, 46, . Meulman, J. J., et P. Verboon. 1993. Points of view analysis revisited: Fitting multidimensional structures to optimal distance components with cluster restrictions on the variables. Psychometrika, 58, . Meulman, J. J., A. J. Van der Kooij, et A. Babinec. 2000. New features of categorical principal components analysis for complicated data sets, including data mining. Dans : Classication, Automation and New Media, W. Gaul, et G. Ritter, ds. Berlin: Springer-Verlag. Meulman, J. J., A. J. Van der Kooij, et W. J. Heiser. 2004. Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc..

195 Analyse en composantes principales qualitatives

Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H. Verrips, S. P. Verloove-Vanhorick, et J. M. Wit. 2003. Changes can be studied when the measurement instrument is different at different time points. Health Services and Outcomes Research Methodology, 4, . Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. Dans : Psychological Scaling: Theory & Applications, H. Gulliksen, et S. Messick, ds. New York: John Wiley and Sons. Vlek, C., et P. J. Stallen. 1981. Judging risks and benets in the small and in the large. Organizational Behavior and Human Performance, 28, . Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. Londres: Lawrence Erlbaum Associates, Inc. Young, F. W., Y. Takane, et J. De Leeuw. 1978. The principal components of mixed measurement level multivariate data: An alternating least squares method with optimal scaling features. Psychometrika, 43, . Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, et J. J. Meulman. 2000. The role of parents and peers in the leisure activities of young adolescents. Journal of Leisure Research, 32, .

Analyse de corrlation canonique non linaire

11

Chapitre

Lanalyse de corrlation canonique non linaire a pour but de dterminer le degr de ressemblance entre plusieurs groupes de variables. Comme dans lanalyse de corrlation canonique linaire, lobjectif est dvaluer autant que possible la variance dans les relations entre les groupes dans un espace comportant peu de dimensions. En revanche, contrairement lanalyse de corrlation canonique linaire, lanalyse de corrlation canonique non linaire ne suppose pas quun niveau dintervalle de mesure soit dni ou que les relations soient linaires. Autre diffrence importante : lanalyse de corrlation canonique non linaire tablit la similarit qui existe entre les groupes en comparant simultanment des combinaisons linaires des variables de chaque groupe avec un groupe inconnu, les coordonnes des objets.

Exemple \: Analyse des rsultats denqute


Lexemple utilis dans ce chapitre est tir dune enqute (Verdegaal, 1985). Les rponses de 15 sujets 8 variables ont t enregistres. Les variables, les tiquettes de variable et les tiquettes de valeur (modalits) de lensemble de donnes sont indiques dans le tableau suivant.
Table 11-1 Donnes de lenqute

Nom de variable ge

Etiquette de variable Age en annes

Etiquette de valeur 2025, 2630, 3135, 3640, 4145, 4650, 5155, 5660, 6165, 6670 Clibataire, Mari, Autre Aucun, Chat(s), Chien(s), Autre que chien ou chat, Plusieurs animaux domestiques Aucun, Telegraaf, Volkskrant, NRC, Autre Classique, New wave, Pop, Varit, Naime pas la musique Ville, Village, Campagne 05, 610, 1115 05, 610, 1115, 1620

situation familiale animal domestique presse musique habitat maths Langage

Situation familiale Animaux domestiques possds Journal lu le plus souvent Musique prfre Voisinage prfr Rsultat du test mathmatique Rsultat du test linguistique

Copyright SPSS Inc. 1989, 2010

196

197 Analyse de corrlation canonique non linaire

Cet ensemble de donnes est disponible dans le chier verd1985.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Les variables qui nous intressent ici sont les six premires ; elles sont rparties en trois groupes. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les autres variables ont un codage nominal simple. Pour cette analyse, il est ncessaire dutiliser une conguration initiale alatoire. Par dfaut, la conguration initiale est numrique. Toutefois, lorsque certaines variables sont traites comme des valeurs nominales simples sans possibilit de tri, il est prfrable dutiliser une conguration initiale alatoire. Cest le cas de la plupart des variables dans cette enqute.

Examen des donnes


E Pour obtenir une analyse de corrlation canonique non linaire pour cet ensemble de donnes,

slectionnez les options suivantes dans les menus :


Analyse > Rduction des dimensions > Codage optimal Figure 11-1 Bote de dialogue Niveau du codage optimal

E Slectionnez loption Certaines variables non nominales multiples dans le groupe Niveau du codage

optimal.
E Slectionnez Plusieurs dans le groupe Nombre de groupes de variables. E Cliquez sur Dfinir.

198 Chapitre 11 Figure 11-2 Bote de dialogue Analyse de corrlation canonique non linaire

E Slectionnez Age en annes et Situation familiale comme variables du premier groupe. E Slectionnez ge et cliquez sur Dfinir intervalle et chelle. Figure 11-3 Bote de dialogue Dfinir intervalle et chelle

E Entrez 10 comme valeur maximale pour cette variable. E Cliquez sur Poursuivre. E Slectionnez situatio, puis cliquez sur Dfinir intervalle et chelle dans la bote de dialogue Analyse

de corrlation canonique non linaire.

199 Analyse de corrlation canonique non linaire Figure 11-4 Bote de dialogue Dfinir intervalle et chelle

E Entrez 3 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, cliquez sur Suivant

pour dnir le groupe de variables suivant.


Figure 11-5 Bote de dialogue Analyse de corrlation canonique non linaire

E Slectionnez Animaux domestiques possds et Journal lu le plus souvent comme variables du

deuxime groupe.
E Slectionnez animal domestique et cliquez sur Dfinir intervalle et chelle.

200 Chapitre 11 Figure 11-6 Bote de dialogue Dfinir intervalle et chelle

E Entrez 5 comme valeur maximale pour cette variable. E Slectionnez Variables nominales multiples comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, slectionnez informations, puis cliquez sur Dfinir intervalle et chelle. Figure 11-7 Bote de dialogue Dfinir intervalle et chelle

E Entrez 5 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, cliquez sur Suivant pour

dnir le dernier groupe de variables.

201 Analyse de corrlation canonique non linaire Figure 11-8 Bote de dialogue Analyse de corrlation canonique non linaire

E Slectionnez Musique favorite et Prfrence de voisinage comme variables du troisime groupe. E Slectionnez musique, puis cliquez sur Dfinir intervalle et chelle. Figure 11-9 Bote de dialogue Dfinir intervalle et chelle

E Entrez 5 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, slectionnez habitat, puis cliquez sur Dfinir intervalle et chelle.

202 Chapitre 11 Figure 11-10 Bote de dialogue Dfinir intervalle et chelle

E Entrez 3 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse canonique non linaire, cliquez sur Options. Figure 11-11 Options

E Dslectionnez la case Barycentres et slectionnez loption Poids et saturations dans le groupe

Afchage.
E Slectionnez les options Centres de classes et Transformations dans le groupe Diagramme. E Slectionnez loption Utiliser configuration initiale alatoire. E Cliquez sur Poursuivre.

203 Analyse de corrlation canonique non linaire E Dans la bote de dialogue Analyse canonique non linaire, cliquez sur OK.

Aprs la liste des variables incluant leurs niveaux de codage optimal, lanalyse de corrlation canonique nominale avec codage optimal gnre un tableau illustrant les effectifs des objets dans les modalits. Ce tableau savre essentiel en cas de donnes manquantes ; en effet, les modalits quasiment vides ont plus de chance dinuencer la solution. Cet exemple ne comporte aucune donne manquante. Une autre vrication prliminaire consiste tudier le diagramme de coordonnes des objets pour les valeurs loignes. Les valeurs loignes ont des quantications si diffrentes des autres objets quelles se situent la limite du diagramme, dominant ainsi une ou plusieurs dimensions. Vous pouvez grer les ventuelles valeurs loignes de deux manires. Vous pouvez simplement les retirer des donnes et excuter nouveau lanalyse de corrlation canonique non linaire. Ou vous pouvez essayer de recoder les rponses extrmes des objets loigns en fusionnant certaines modalits. Comme lillustre le diagramme de coordonnes des objets, les donnes de lenqute ne comportent aucune valeur loigne.
Figure 11-12 Coordonnes des objets

Similarits entre les groupes


Il existe plusieurs manires de mesurer lassociation entre les groupes dans une analyse de corrlation canonique non linaire (chacune delles tant expose en dtail dans un tableau ou un groupe de tableaux distinct).

204 Chapitre 11

Rcapitulatif de lanalyse
Les valeurs dajustement et de perte vous renseignent sur ladquation entre lanalyse de corrlation canonique non linaire et les donnes quanties de manire optimale, en ce qui concerne lassociation entre les groupes. Le tableau rcapitulatif de lanalyse afche les valeurs dajustement, les valeurs de perte et les valeurs propres de cet exemple denqute.
Figure 11-13 Rcapitulatif de lanalyse

La perte est rpartie entre les dimensions et les groupes. Pour chaque dimension et groupe, la perte reprsente la proportion de variation des coordonnes dobjet qui ne peut pas tre reprsente par la combinaison pondre des variables du groupe. La perte moyenne est intitule moyenne . Dans cet exemple, la perte moyenne sur tous les groupes est de 0,464. La perte est plus importante pour la deuxime dimension que pour la premire. La valeur propre de chaque dimension est gale 1 moins la perte moyenne de la dimension ; la valeur propre indique la quantit de la relation rvle par chaque dimension. Les valeurs propres sajoutent lajustement total. Pour les donnes relatives Verdegaal, 0,801/1,536 = 52 % de lajustement rel sont attribuables la premire dimension. La valeur dajustement maximale est gale au nombre de dimensions. Si elle est obtenue, elle indique une relation parfaite. La valeur de perte moyenne sur tous les groupes et dimensions indique lcart entre la valeur dajustement maximale et lajustement rel. La valeur dajustement plus la valeur de perte moyenne sont gales au nombre de dimensions. Une similarit parfaite est trs rare et repose gnralement sur des aspects insigniants des donnes. On trouve galement parmi les outils statistiques trs utiliss, avec deux groupes de variables, la corrlation canonique. La corrlation canonique tant lie la valeur propre et ne fournissant par consquent aucune information supplmentaire, elle nest pas incluse dans les rsultats de lanalyse de corrlation canonique non linaire. Dans le cas de deux groupes de variables, on obtient la corrlation canonique par dimension laide de la formule suivante :

d correspondant au nombre de dimensions et E la valeur propre. Il est possible dtendre la corrlation canonique plus de deux groupes ; pour ce faire, utilisez la formule suivante :

205 Analyse de corrlation canonique non linaire

d correspondant au nombre de dimensions, K au nombre de groupes et E la valeur propre. Dans notre exemple,

et

Poids et saturations :
Il existe galement une autre mesure dassociation : la corrlation multiple entre les combinaisons linaires de chaque groupe et les coordonnes des objets. Si un groupe ne contient aucune variable nominale multiple, vous pouvez calculer cette mesure en multipliant les pondrations et corrlations entre composantes de chaque variable du groupe, en ajoutant ces produits et en calculant la racine carre de la somme obtenue.
Figure 11-14 Poids

Figure 11-15 Corrlations entre composantes et variables initiales

206 Chapitre 11

Ces chiffres donnent les pondrations et les corrlations entre composantes des variables de cet exemple. La corrlation multiple (R) est comme suit pour la premire somme pondre des variables codes de faon optimale (Age en annes et Situation familiale) avec la premire dimension des coordonnes des objets :

Pour chaque dimension, 1 perte = R2. Par exemple, dans le tableau rcapitulatif de lanalyse, 1 0,238 = 0,762, soit 0,873 au carr ( une erreur darrondi prs). Par consquent, les valeurs de perte faibles indiquent de fortes corrlations multiples entre les sommes pondres des variables codes de faon optimale et les dimensions. Les pondrations ne sont pas uniques pour les variables nominales multiples. Pour les variables nominales multiples, utilisez la formule 1 perte par groupe.

Partitionnement des ajustements et des pertes


La perte de chaque groupe est rpartie de diffrentes manires par lanalyse de corrlation canonique non linaire. Le tableau dajustement prsente les tableaux dajustement multiple, dajustement unique et de perte unique produits par lanalyse de corrlation canonique non linaire pour cet exemple denqute. Remarque : lajustement multiple moins lajustement unique est gal la perte unique.
Figure 11-16 Partitionnement des ajustements et des pertes

La perte unique indique la perte rsultant de la limitation des variables un seul groupe de quantications (cest--dire, nominal simple, ordinal ou nominal). Si la perte unique est leve, il est prfrable de traiter les variables comme des variables nominales multiples. Dans cet exemple, toutefois, les ajustements unique et multiple sont presque gaux, ce qui signie que les coordonnes multiples sont presque toutes situes sur une ligne droite, dans la direction indique par les pondrations. Lajustement multiple est gal la variance des coordonnes de modalit multiples pour chaque variable. Ces mesures sont analogues aux mesures de discrimination trouves dans lanalyse dhomognit. Vous pouvez consulter le tableau dajustement multiple pour connatre

207 Analyse de corrlation canonique non linaire

les variables les plus discriminantes. Par exemple, reportez-vous au tableau dajustement multiple pour examiner les variables Situation familiale et Journal lu le plus souvent. Les valeurs dajustement, additionnes sur les deux dimensions, sont 1,122 pour Situation familiale et 0,911 pour Journal lu le plus souvent. Ces informations nous indiquent que la situation familiale dune personne a un plus grand pouvoir discriminant que le journal auquel elle est abonne. Lajustement unique correspond la pondration au carr de chaque variable ; il est gal la variance des coordonnes de modalit simples. Ainsi, les pondrations sont gales aux carts-types des coordonnes de modalit simples. En tudiant la manire dont lajustement unique est rparti entre les dimensions, on constate que la variable Journal lu le plus souvent est discriminante principalement sur la premire dimension et on constate que la variable Situation familiale est discriminante essentiellement sur la deuxime dimension. Autrement dit, les diffrentes modalits de Journal lu le plus souvent sont plus loignes dans la premire dimension que dans la deuxime, contrairement celles de Situation familiale. En revanche, la variable Age en annes a un pouvoir discriminant la fois dans la premire et la deuxime dimension ; la dispersion des modalits est donc identique sur les deux dimensions.

Saturations
Le schma ci-dessous reprsente le diagramme de corrlations entre composantes des donnes de lenqute. Lorsquil ne manque aucune donne, les corrlations entre composantes sont quivalentes aux corrlations de Pearson entre les variables quanties et les coordonnes des objets. La distance depuis lorigine de chaque point de variable est proche de limportance de cette variable. Les variables canoniques ne sont pas reportes ; elles peuvent toutefois tre reprsentes par des lignes horizontales et verticales traces via lorigine.
Figure 11-17 Corrlations entre composantes et variables initiales

208 Chapitre 11

Les relations entre les variables sont apparentes. Deux directions ne concident pas avec les axes horizontal et vertical. Lune des directions est dtermine par les variables Age en annes, Journal lu le plus souvent et Prfrence de voisinage. Lautre est dnie par les variables Situation familiale, Musique favorite et Animaux domestiques possds. La variable Animaux domestiques possds est une variable nominale multiple et est donc reprsente par deux points. Chaque quantication est interprte comme une variable unique.

Diagrammes de transformation
Les diffrents niveaux auxquels chaque variable peut tre code imposent des restrictions dans les quantications. Les diagrammes de transformation illustrent la relation entre les quantications et les modalits dorigine rsultant du niveau de codage optimal slectionn. Le diagramme de transformation de la variable Prfrence de voisinage, qui a t traite comme variable nominale, afche une forme en U, dans laquelle la modalit centrale reoit la plus petite quantication et les modalits extrmes, des valeurs identiques. Cette conguration indique une relation quadratique entre la variable dorigine et la variable transforme. Lutilisation dun autre niveau de codage optimal nest pas recommande pour la variable Prfrence de voisinage.
Figure 11-18 Diagramme de transformation de la variable Prfrence de voisinage (nominale)

209 Analyse de corrlation canonique non linaire

Les quantications de Journal lu le plus souvent, en revanche, marquent une croissance entre les trois modalits dotes dobservations. La premire modalit reoit la plus faible quantication, la deuxime une valeur plus leve et la troisime reoit la valeur la plus leve. Bien que la variable soit code comme nominale, lordre des modalits est rcupr dans les quantications.
Figure 11-19 Diagramme de transformation de la variable Journal lu le plus souvent (nominale)

Figure 11-20 Diagramme de transformation de Age en annes (ordinale)

210 Chapitre 11

Le diagramme de transformation de la variable Age en annes afche une courbe en S. Les quatre plus jeunes modalits observes reoivent toutes la mme quantication ngative, tandis que les deux modalits les plus vieilles reoivent les mmes valeurs positives. Par consquent, il est possible de fusionner tous les groupes les plus jeunes dans une mme modalit (les moins de 50 ans) et de fusionner les deux modalits les plus ges en une seule. Toutefois, lgalit parfaite des quantications des groupes les plus jeunes indique quil nest peut-tre pas souhaitable de restreindre lordre des quantications celui des modalits dorigine. Puisque les quantications des groupes 2630, 3640 et 4145 ne peuvent pas tre infrieures la quantication du groupe 2025, ces valeurs sont alignes sur la mme valeur de borne. En autorisant ces valeurs tre infrieures la quantication du groupe le plus jeune (cest--dire, en considrant lge comme tant nominal), il est possible damliorer lajustement. Par consquent, considrer lge comme une variable ordinale ne semble pas appropri dans ce cas. En outre, en considrant lge comme une variable numrique, et en conservant donc les distances entre les modalits, il est possible de rduire considrablement lajustement.

Coordonnes de modalits simples et coordonnes de modalits multiples


Pour chaque variable considre comme nominale simple, ordinale ou numrique, les quantications, les coordonnes de modalit simples et multiples sont dtermines. Ces statistiques sont prsentes pour la variable Age en annes.
Figure 11-21 Coordonnes pour Age en annes

Les modalits pour lesquelles aucune observation nest enregistre reoivent une quantication de 0. Pour la variable Age en annes, cela inclut les modalits 3135, 4650 et 5155. Ces modalits ne doivent pas ncessairement tre ordonnes avec les autres modalits et naffectent aucun calcul. Pour les variables nominales multiples, chaque modalit reoit une quantication diffrente sur chaque dimension. Pour tous les autres types de transformation, une modalit ne dispose que dune quantication, quel que soit le nombre de dimensions de la solution. Chaque ensemble de coordonnes de modalits simples reprsente lemplacement de la modalit sur une ligne dans lespace objet. Pour une modalit donne, les coordonnes sont gales la quantication multiplie par les pondrations de dimension de la variable. Par exemple, dans le tableau de la variable Age en annes, les coordonnes de modalits simples pour la modalit 56-60 (-0,142,

211 Analyse de corrlation canonique non linaire

-0,165) correspondent la quantication (-0,209) multiplie par les pondrations de dimension (0,680, 0,789). Les coordonnes de modalit multiples des variables considres comme nominales simples, ordinales ou numriques, reprsentent les coordonnes des modalits de lespace objet, avant que les contraintes linaires ou ordinales soient appliques. Ces valeurs sont des rducteurs de perte non contraints. Pour les variables nominales multiples, ces coordonnes reprsentent les quantications des modalits. Les effets que peut avoir lapplication de contraintes aux relations entre les modalits et leurs quantications sont rvls par la comparaison des coordonnes de modalits simples avec des coordonnes de modalits multiples. Dans la premire dimension, les coordonnes de modalit multiples de la variable Age en annes diminuent jusqu la modalit 2 et restent plus ou moins au mme niveau jusqu la modalit 9, o se produit une brusque augmentation. Une conguration semblable est mise en vidence pour la seconde dimension. Ces relations sont retires des coordonnes de modalit simples, auxquelles est applique une contrainte ordinale. Dans les deux dimensions, les coordonnes sont alors non dcroissantes. Compte tenu de la structure diffrente des deux groupes de coordonnes, un traitement nominal semble plus appropri.

Barycentres et barycentres projets


Le diagramme des barycentres tiquets par des variables doit tre interprt de la mme manire que le diagramme de quantication des modalits dune analyse dhomognit ou que les coordonnes de modalit multiples dune analyse non linaire des composantes principales. Un diagramme de ce type illustre le pouvoir discriminant des variables pour les groupes dobjets (les barycentres sont situs au niveau du centre de gravit des objets). Les modalits de la variable Age en annes ne sont pas spares de manire trs distincte. Les modalits correspondant aux plus jeunes ges sont regroupes gauche du diagramme. Comme suggr prcdemment, un niveau de codage ordinal risque dtre trop strict pour la variable Age en annes.

212 Chapitre 11 Figure 11-22 Barycentres tiquets par des variables

Lorsque vous demandez des diagrammes de reprsentation des barycentres, des diagrammes de barycentres et de barycentres projets distincts pour chaque variable tiquete par des tiquettes de valeurs sont galement crs. Les barycentres projets sont situs sur une ligne de lespace objet.
Figure 11-23 Barycentres et barycentres projets de Journal lu le plus souvent

Les barycentres rels sont projets sur des vecteurs dnis par les corrlations entre composantes. Ces vecteurs ont t ajouts aux diagrammes de reprsentation des barycentres an de faciliter la distinction entre barycentres projets et barycentres rels. Les barycentres projets se situent dans lun des quatre quadrants forms par le trac de deux lignes de rfrence perpendiculaires passant par lorigine. Linterprtation de la direction des variables nominales simples, ordinales

213 Analyse de corrlation canonique non linaire

ou numriques est obtenue grce la position des barycentres projets. Par exemple, la variable Journal lu le plus souvent est indique comme tant nominale simple. Les barycentres projets mettent en opposition Volkskrant et NRC dun ct et Telegraaf de lautre.
Figure 11-24 Barycentres et barycentres projets de Age en annes

Le problme qui se pose pour la variable Age en annes est mis en vidence par les barycentres projets. Traiter Age en annes comme une variable ordinale implique que lordre des groupes dge soit conserv. Pour respecter cette restriction, tous les groupes dge en dessous de 45 sont projets sur le mme point. Sur la direction dnie par les variables Age en annes, Journal lu le plus souvent et Prfrence de voisinage, il nexiste aucune sparation entre les groupes les plus jeunes. Ce constat suggre que lon traite la variable comme tant nominale.

214 Chapitre 11 Figure 11-25 Barycentres et barycentres projets de Prfrence de voisinage

Pour comprendre les relations existant entre les variables, il convient de dterminer les modalits (valeurs) spciques des classes de modalits, dans les diagrammes de reprsentation des barycentres. Les relations existant entre les variables Age en annes, Journal lu le plus souvent et Prfrence de voisinage peuvent tre dnies grce aux angles suprieur droit et infrieur gauche des diagrammes. Dans langle suprieur droit, les groupes dge correspondent aux rpondants les plus gs ; ces derniers lisent le Telegraaf et prfrent vivre dans un village. Dans langle infrieur gauche de chaque diagramme, il apparat que les rpondants les plus jeunes jusquaux rpondants dge moyen lisent Volkskrant ou NRC, et veulent vivre la campagne ou en ville. Il est nanmoins difcile de diffrencier les groupes les plus jeunes. Le mme type dinterprtation peut tre appliqu lautre direction (Musique favorite, Situation familiale et Animaux domestiques possds), en tudiant cette fois les angles suprieur gauche et infrieur droit des diagrammes de reprsentation des barycentres. Dans langle suprieur gauche, il apparat que les personnes clibataires ont souvent des chiens et aiment la musique New wave. Les personnes maries et la modalit des autres situations familiales ont des chats ; le premier groupe prfre la musique classique et le dernier naime pas la musique.

Autre analyse
Compte tenu des rsultats de lanalyse, considrer la variable Age en annes comme tant ordinale ne semble pas appropri. Bien que Age en annes soit mesur un niveau ordinal, ses relations avec les autres variables ne sont pas monotones. Pour tudier les effets dun changement du niveau de codage optimal en niveau de codage nominal simple, relancez lanalyse.

215 Analyse de corrlation canonique non linaire

Pour lancer lanalyse


E Rappelez la bote de dialogue Analyse canonique non linaire et dplacez-vous jusquau premier

groupe.
E Slectionnez ge et cliquez sur Dfinir intervalle et chelle. E Dans la bote de dialogue Dnir intervalle et chelle, slectionnez Nominale simple comme

intervalle de codage.
E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse canonique non linaire, cliquez sur OK.

Les valeurs propres dune solution deux dimensions sont respectivement 0,806 et 0,757, avec un ajustement total de 1,564.
Figure 11-26 Valeurs propres dune solution deux dimensions

Les tableaux dajustement multiple et dajustement unique montrent que la variable Age en annes a toujours un fort pouvoir discriminant, comme lillustre la somme des valeurs dajustement multiple. Toutefois, contrairement aux prcdents rsultats, lexamen des valeurs dajustement unique rvle que ce pouvoir discriminant concerne principalement la deuxime dimension.
Figure 11-27 Partitionnement des ajustements et des pertes

Reportez-vous au diagramme de transformation pour la variable Age en annes. Les quantications dune variable nominale nont pas de restriction ; par consquent, la tendance non dcroissante afche lorsque la variable Age en annes tait traite de manire ordinale nest plus prsente. Il y a une diminution jusqu 40 ans et une augmentation au-del de 40 ans, qui correspondent

216 Chapitre 11

une relation en U (quadratique). Les deux modalits les plus ges reoivent toujours les mmes scores, et les analyses suivantes risquent de ncessiter une combinaison de ces modalits.
Figure 11-28 Diagramme de transformation de Age en annes (nominale)

217 Analyse de corrlation canonique non linaire

Le diagramme de transformation de la variable Prfrence de voisinage est afch ici. Considrer Age en annes comme une variable nominale naffecte en aucun cas les quantications de la variable Prfrence de voisinage. La modalit centrale reoit la plus petite quantication, et les modalits extrmes reoivent des valeurs positives leves.
Figure 11-29 Diagramme de transformation de la variable Prfrence de voisinage (ge, nominale)

218 Chapitre 11

On remarque un changement dans le diagramme de transformation de la variable Journal lu le plus souvent. On pouvait noter auparavant une augmentation dans les quantications, ce qui pouvait suggrer un traitement ordinal de cette variable. Toutefois, en traitant Age en annes comme une variable nominale, on limine cette tendance des quantications lies la presse.
Figure 11-30 Diagramme de transformation de la variable Journal lu le plus souvent (ge, nominale)

219 Analyse de corrlation canonique non linaire

Il sagit du diagramme de reprsentation des barycentres de la variable Age en annes. Remarque : les modalits napparaissent pas toutes dans lordre chronologique sur la ligne joignant les barycentres projets. Le groupe 2025 est situ au centre plutt qu la n. La rpartition des modalits savre nettement meilleure que dans lexemple de traitement ordinal prsent ci-dessus.
Figure 11-31 Barycentres et barycentres projets de Age en annes (nominale)

Il est prsent possible de fournir une interprtation des groupes les plus jeunes, partir du diagramme de reprsentation des barycentres. Les modalits Volkskrant et NRC sont plus loignes que dans lanalyse prcdente, ce qui permet de fournir une interprtation distincte pour chacune delles. Les groupes dont les personnes sont ges entre 26 et 45 ans lisent Volkskrant et prfrent vivre la campagne. Les groupes dge 2025 et 5660 lisent NRC ; le premier groupe prfre vivre en ville et le deuxime la campagne. Les groupes les plus gs lisent le Telegraaf et prfrent vivre dans un village.

220 Chapitre 11

Linterprtation de lautre direction (Musique favorite, Situation familiale et Animaux domestiques possds) reste quasiment inchange par rapport la prcdente analyse. La seule diffrence nette est que les personnes ayant rpondu Autre pour la situation familiale ont soit un chat, soit aucun animal domestique.
Figure 11-32 Barycentres tiquets par des variables (ge, nominal)

Suggestions dordre gnral


Une fois les rsultats initiaux tudis, vous pouvez afner votre analyse en modiant certains paramtres de lanalyse de corrlation canonique non linaire. Voici quelques conseils pour structurer votre analyse :

Crez autant de groupes que possible. Placez une variable importante, que vous souhaitez valuer, toute seule dans un groupe distinct. Regroupez ensemble les variables indpendantes. En prsence de nombreuses variables indpendantes, essayez de les rpartir dans diffrents groupes. Placez une variable nominale multiple toute seule dans un groupe distinct. Si des variables prsentent une forte corrlation entre elles et que vous ne souhaitez pas que cette relation inuence la solution, placez-les ensemble dans le mme groupe.

221 Analyse de corrlation canonique non linaire

Lectures recommandes
Pour plus dinformations sur lanalyse de corrlation canonique non linaire, reportez-vous aux documents suivants : Carroll, J. D. 1968. Generalization of canonical correlation analysis to three or more sets of variables. Dans : Proceedings of the 76th Annual Convention of the American Psychological Association, 3, Washington, D.C.: American Psychological Association. De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd d. Leiden: DSWO Press. Horst, P. 1961. Generalized canonical correlations and their applications to experimental data. Journal of Clinical Psychology, 17, . Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, . Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika, 58, . Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques. Leiden: DSWO Press. Van der Burg, E., et J. De Leeuw. 1983. Nonlinear canonical correlation. British Journal of Mathematical and Statistical Psychology, 36, . Van der Burg, E., J. De Leeuw, et R. Verdegaal. 1988. Homogeneity analysis with k sets of variables: An alternating least squares method with optimal scaling features. Psychometrika, 53, . Verboon, P., et R. A. Van der Lans. 1994. Robust canonical discriminant analysis. Psychometrika, 59, .

Analyse des correspondances

12

Chapitre

Un tableau des correspondances est tout tableau deux entres dont les cellules contiennent une certaine mesure de correspondance entre les lignes et les colonnes. La mesure de correspondance peut tre toute indication de la similarit, du rapport, de la confusion, de lassociation ou de linteraction entre les variables de ligne et de colonne. Un type trs courant de tableau des correspondances est le tableau crois, dont les cellules contiennent des effectifs. La procdure de tableaux croiss permet dobtenir facilement de tels tableaux. Toutefois, un tableau crois ne fournit pas toujours une image claire de la nature de la relation entre les deux variables. Cela est particulirement vrai si les variables dintrt sont nominales (sans ordre ou rang inhrent) et quelles contiennent de nombreuses modalits. Le tableau crois peut indiquer que les effectifs observs par cellule diffrent sensiblement des effectifs prvus dans un tableau de profession et de crale pour le petit djeuner, mais il peut tre difcile de crois discerner les groupes professionnels qui prsentent des gots similaires ou ce que sont ces gots. Lanalyse des correspondances vous permet dexaminer graphiquement la relation entre deux variables nominales dans un espace multidimensionnel. Elle calcule les coordonnes principales des colonnes et des lignes et gnre des diagrammes bass sur les scores. Les modalits similaires apparaissent proches les unes des autres dans les diagrammes. Ainsi, il est facile de reprer les modalits similaires dune variable ou les modalits lies entre les deux variables. En outre, la procdure de lanalyse des correspondances vous permet dajuster des points supplmentaires dans lespace dni par les points actifs. Si lordre des modalits en fonction de leurs scores est indsirable ou paradoxal, vous pouvez imposer des restrictions dordre en contraignant les scores de certaines modalits tre gaux. Par exemple, nous pouvons imaginer que la variable consommation de tabac ayant pour modalits non-fumeur, lger fumeur, fumeur moyen et gros fumeur possde des scores correspondant cet ordre. Toutefois, si lanalyse classe les modalits dans lordre suivant : non-fumeur, lger fumeur, gros fumeur et fumeur moyen, le fait de contraindre les scores de gros fumeur et fumeur moyen tre gaux protge lordre des modalits dans leurs scores. Linterprtation de lanalyse des correspondances en matire de distances dpend de la mthode de normalisation utilise. La procdure danalyse des correspondances permet danalyser les diffrences entre les modalits dune variable ou celles entre les variables. Selon la normalisation par dfaut, elle analyse les diffrences entre les variables de ligne et de colonne. Lalgorithme danalyse des correspondances autorise de nombreux types danalyse. Le centrage des lignes et des colonnes et lutilisation de distances Khi-deux relvent de lanalyse de correspondance standard. Toutefois, lutilisation dautres options de centrage combines avec des distances euclidiennes permet de varier la reprsentation dune matrice dans un espace de petite dimension.

Copyright SPSS Inc. 1989, 2010

222

223 Analyse des correspondances

Trois exemples seront prsents. Le premier utilise un tableau des correspondances relativement rduit et illustre les concepts inhrents lanalyse des correspondances. Le deuxime exemple illustre une application marketing. Le dernier exemple utilise un tableau de distances dans une approche de positionnement multidimensionnel.

Normalisation
La normalisation permet de rpartir linertie sur les coordonnes principales des colonnes et des lignes. Certains aspects de la solution danalyse des correspondances, tels que les valeurs singulires, linertie par dimension et les contributions, ne changent pas dune normalisation lautre. Les coordonnes principales des colonnes et des lignes et leurs variances sont affectes. Lanalyse des correspondances peut rpartir linertie de plusieurs faons. Les trois faons les plus courantes sont la rpartition sur les coordonnes principales des lignes uniquement, la rpartition sur les coordonnes principales des colonnes uniquement ou la rpartition symtrique sur, la fois, les coordonnes principales des lignes et les coordonnes principales des colonnes.
Principale en ligne : Dans la normalisation principale en ligne, les distances euclidiennes entre

les points des lignes se rapprochent des distances Khi-deux entre les lignes du tableau des correspondances. Les scores des lignes correspondent la moyenne pondre des scores des colonnes. Les coordonnes principales des colonnes sont standardises de manire avoir une somme pondre des carrs des distances par rapport au centre gale 1. Dans la mesure o cette mthode maximise les distances entre les modalits de ligne, vous devez utiliser la normalisation principale en ligne si vous avez essentiellement lintention dobserver les diffrences entre les modalits de la variable de ligne.
Principale en colonne : Par ailleurs, vous pouvez approximer les distances Khi-deux entre les colonnes du tableau des correspondances. Dans ce cas, les coordonnes principales des colonnes doivent correspondre la moyenne pondre des coordonnes principales des lignes. Les coordonnes principales des lignes sont standardises de manire avoir une somme pondre des carrs des distances par rapport au centre gale 1. Cette mthode maximise les distances entre les modalits de colonnes et vous devez lutiliser si vous avez essentiellement lintention dobserver les diffrences entre les modalits de la variable de colonne. Symtrique : En outre, vous pouvez traiter les lignes et les colonnes de manire symtrique. Cette

normalisation rpartit linertie de faon gale sur les coordonnes des lignes et des colonnes. Dans ce cas, ni les distances entre les points des lignes ni celles entre les points des colonnes ne sont des approximations de distances Khi-deux. Utilisez cette mthode si vous envisagez essentiellement dexaminer les diffrences ou les similitudes entre les deux variables. Gnralement, cette mthode est privilgier pour raliser des diagrammes doubles.
Principale. Une quatrime option, la normalisation principale, permet de rpartir linertie deux

fois dans la solution une fois sur les coordonnes des lignes et une fois sur celles des colonnes. Vous devez utiliser cette mthode si vous souhaitez examiner les distances entre les points des lignes et celles entre les points des colonnes sparment, sans vouloir analyser la relation entre les points lignes et colonnes. Les diagrammes doubles ntant pas appropris pour cette option de normalisation, ils ne sont pas disponibles si vous avez spci la mthode de normalisation principale.

224 Chapitre 12

Exemple : Perceptions des marques de caf


Lexemple prcdent repose sur un petit tableau de donnes hypothtiques. Les applications relles impliquent souvent des tableaux beaucoup plus volumineux. Dans cet exemple, vous utiliserez des donnes relatives aux images perues de six marques de caf frapp (Kennedy, Riquier, et Sharp, 1996). Cet ensemble de donnes est disponible dans le chier coffee.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Pour chacun des 23 attributs dimage de caf frapp, les personnes sollicites ont slectionn toutes les marques dcrites par lattribut. Les six marques sont appeles AA, BB, CC, DD, EE et FF des ns de condentialit.
Table 12-1 Attributs du caf frapp

Attribut image

Etiquette

Attribut image produit non allg plat aux hommes marque sud-australienne marque traditionnelle/dmode marque de luxe marque bio produit fortement cafin nouvelle marque marque pour personnes sduisantes marque able marque populaire

Etiquette fait grossir hommes Australie du sud traditionnel luxe bio cafine nouveau sduisant able populaire

bon remde contre la gueule remde de bois produit allg/faible en allg calories marque ciblant les enfants enfants marque de la classe ouvrire classe ouvrire produit fort en got/lger en got marque impopulaire marque pour personnes obses/laides trs frais marque pour jeunes cadres dynamiques produit nourrissant marque pour femmes marque secondaire lger en got impopulaire laid frais jeunes cadres dynamiques nourrissant femmes secondaire

Dans un premier temps, vous allez vous concentrer sur les liens unissant les attributs et sur ceux unissant les marques. Lutilisation de la normalisation principale rpartit linertie totale une fois sur les lignes et une fois sur les colonnes. Bien que cela empche linterprtation des diagrammes doubles, vous pouvez examiner les distances entre les modalits de chaque variable.

Excution de lanalyse
E La conguration des donnes implique que les observations soient pondres par la variable

freq. Pour ce faire, dans les menus, choisissez :


Donnes > Pondrer les observations

225 Analyse des correspondances Figure 12-1 Bote de dialogue Pondrer les observations

E Pondrez les observations par la variable freq. E Cliquez sur OK. E Pour obtenir une solution initiale dans cinq dimensions en recourant la normalisation principale,

choisissez dans les menus :


Analyse > Rduction des dimensions > Analyse des correspondances... Figure 12-2 Bote de dialogue Analyse des correspondances

E Slectionnez loption image comme variable de ligne. E Cliquez sur Dfinir intervalle.

226 Chapitre 12 Figure 12-3 Bote de dialogue Dfinir lintervalle de la variable en ligne

E Tapez 1 comme valeur minimale. E Tapez 23 comme valeur maximale. E Cliquez sur Mettre jour. E Cliquez sur Poursuivre. E Slectionnez loption marque comme variable de colonne. E Cliquez sur loption Dfinir intervalle dans la bote de dialogue Analyse des correspondances. Figure 12-4 Bote de dialogue Dfinir lintervalle de la variable en colonne

E Tapez 1 comme valeur minimale. E Tapez 6 comme valeur maximale.

227 Analyse des correspondances E Cliquez sur Mettre jour. E Cliquez sur Poursuivre. E Cliquez sur loption Modle dans la bote de dialogue Analyse des correspondances. Figure 12-5 Bote de dialogue Modle

E Slectionnez loption Principale comme mthode de normalisation. E Cliquez sur Poursuivre. E Cliquez sur le bouton Diagrammes dans la bote de dialogue Analyse des correspondances.

228 Chapitre 12 Figure 12-6 Bote de dialogue Diagrammes

E Slectionnez les options Points lignes et Points colonnes dans le groupe Diagrammes de dispersion. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Analyse des correspondances.

Nombre de dimensions
Linertie par dimension indique la dcomposition de linertie totale le long de chaque dimension. Deux dimensions reprsentent 83 % de linertie totale. Lajout dune troisime dimension augmente linertie prise en compte de 8,6 % uniquement. Par consquent, vous optez pour lutilisation dune reprsentation bidimensionnelle.

229 Analyse des correspondances Figure 12-7 Inertie par dimension

Contributions
Les caractristiques des points des lignes montrent les contributions des points des lignes linertie des dimensions et les contributions des dimensions linertie des points des lignes. Si tous les points contribuent de faon gale linertie, les contributions ont pour valeur 0,043. Les points bio et allg contribuent de faon substantielle linertie de la premire dimension. Les points hommes et able sont les lments qui contribuent le plus linertie de la deuxime dimension. Les deux points laid et frais contribuent trs peu aux deux dimensions.
Figure 12-8 Contributions des attributs

230 Chapitre 12

Deux dimensions contribuent sensiblement linertie de la plupart des points des lignes. Les contributions importantes de la premire dimension aux points bio, nouveau, sduisant, allg, nourrissant et femmes indiquent que ces points sont trs bien reprsents dans une dimension. Par consquent, les dimensions plus leves contribuent peu linertie de ces points, qui gurent trs prs de laxe horizontal. La deuxime dimension contribue essentiellement aux points hommes, luxe et able. Les deux dimensions contribuent trs peu linertie pour les points Australie du sud et laid, si bien que ceux-ci sont faiblement reprsents. Les caractristiques des points des colonnes montrent les contributions impliquant les points des colonnes. Les marques CC et DD contribuent le plus la premire dimension, tandis que les marques EE et FF expliquent une large part de linertie de la deuxime dimension. Les marques AA et BB contribuent trs peu aux deux dimensions.
Figure 12-9 Contributions des marques

Dans les deux dimensions, toutes les marques sauf BB sont bien reprsentes. Les marques CC et DD sont bien reprsentes dans une dimension. La deuxime dimension reprsente les parts les plus importantes des marques EE et FF. La marque AA est bien reprsente dans la premire dimension, mais elle ne contribue pas sensiblement cette dimension.

Diagrammes
Le diagramme des points des lignes montre que les points frais et laid sont trs proches de lorigine, ce qui indique quils diffrent peu du prol de ligne moyen. Trois classications gnrales mergent. Situs dans la partie suprieure gauche du diagramme, les points able, hommes et classe ouvrire sont tous similaires les uns aux autres. La partie infrieure gauche contient les points lger en got, non allg, enfants et luxe. A loppos, les points bio, allg, nourrissant et nouveau sont regroups sur le ct droit du diagramme.

231 Analyse des correspondances Figure 12-10 Diagramme dattributs dimage (normalisation principale)

Dans le diagramme des points des colonnes, toutes les marques tant loignes de lorigine, aucune delles nest similaire au centre global. Les marques CC et DD sont regroupes droite, tandis que les marques BB et FF sont regroupes dans la moiti infrieure du diagramme. Les marques AA et EE ne sont similaires aucune autre marque.
Figure 12-11 Diagramme de marques (normalisation principale)

232 Chapitre 12

Normalisation symtrique
Comment les marques sont-elles lies aux attributs dimage ? La normalisation principale ne peut pas traiter ces relations. Pour dterminer les liens entre les variables, utilisez la normalisation symtrique. Au lieu de rpartir linertie deux fois (comme dans la normalisation principale), la normalisation symtrique la divise de faon gale sur les lignes et sur les colonnes. Les distances entre les modalits dune variable ne peuvent pas tre interprtes, mais celles entre les modalits de diffrentes variables sont signicatives.
Figure 12-12 Bote de dialogue Modle

E Pour gnrer la solution suivante laide de la normalisation symtrique, afchez de nouveau la bote de dialogue Analyse des correspondances, puis cliquez sur Modle. E Slectionnez loption Symtrique comme mthode de normalisation. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Analyse des correspondances.

Dans la partie suprieure gauche du diagramme double obtenu, la marque EE est la seule marque solide, associe la classe ouvrire et plaisant aux hommes. La marque AA est la plus populaire. En outre, elle est perue comme tant la plus fortement cafine. Les marques lgres en got et

233 Analyse des correspondances

non allges sont BB et FF. Les marques CC et DD, tout en tant perues comme nouvelles et saines, sont les plus impopulaires.
Figure 12-13 Diagramme double des marques et des attributs (normalisation symtrique)

Pour une interprtation plus approfondie, vous pouvez dessiner une ligne passant par lorigine et les deux attributs dimage hommeset jeunes cadres dynamiques, puis projeter les marques sur cette ligne. Les deux attributs sont opposs lun lautre, ce qui indique que le modle dassociation des marques pour hommes est invers par rapport au modle pour jeunes cadres dynamiques. Autrement dit, les hommes sont le plus frquemment associs la marque EE et le moins frquemment la marque CC, tandis que les jeunes cadres dynamiques sont le plus frquemment associs la marque CC et le moins frquemment la marque EE.

Lectures recommandes
Pour plus dinformations sur lanalyse des correspondances, reportez-vous aux documents suivants : Fisher, R. A. 1938. Statistical methods for research workers. Edimbourg: Oliver and Boyd. Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics, 10, . Gilula, Z., et S. J. Haberman. 1988. The analysis of multivariate contingency tables by restricted canonical and restricted association models. Journal of the American Statistical Association, 83, .

Analyse de correspondance multiple

13

Chapitre

Lobjectif de lanalyse de correspondance multiple, galement connue sous le nom danalyse dhomognit, est de rechercher les quantications optimales dans la mesure o les modalits sont le plus possible spares les unes des autres. Les objets de la mme modalit doivent donc tre reprsents proches les uns des autres et les objets de modalits diffrentes doivent tre reprsents aussi loigns que possible. Le terme homognit fait galement rfrence au fait que lanalyse est dautant plus russie que les variables sont homognes, cest--dire lorsquelles partitionnent les objets en classes ayant les mmes modalits ou des modalits similaires.

Exemple : Descriptives du matriel


Pour connatre le fonctionnement de lanalyse de correspondance multiple, reportez-vous aux donnes de Hartigan(Hartigan, 1975), que vous trouverez dans le chier screws.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Cet ensemble de donnes contient des informations sur les descriptives des vis, des boulons, des crous et des broquettes. Le tableau suivant indique les variables (et leurs tiquettes) et les tiquettes de valeur affectes aux modalits de chaque variable dans lensemble de donnes matrielles de Hartigan.
Table 13-1 Ensemble de donnes matrielles de Hartigan

Nom de variable letage titre indtte tige longueur cuivre objet

ltiquette Variable Filetage Forme de tte Indentation de la tte Forme tige Longueur en demi-pouces Cuivre Objet

Etiquette de valeur Yes_Thread, No_Thread Plate, Creuse, Cnique, Arrondie, Cylindrique Aucune, Cruciforme, Fendue pointe, plate 1/2_in, 1_in, 1_1/2_ in, 2_in, 2_1/2_in Yes_Br, Not_Br broquette, clou1, clou2, clou3, clou4, clou5, clou6, clou7, clou8, vis1, vis2, vis3, vis4, vis5, boulon1, boulon2, boulon3, boulon4, boulon5, boulon6, broquette1, broquette2, cloub, visb

Copyright SPSS Inc. 1989, 2010

234

235 Analyse de correspondance multiple

Excution de lanalyse
E Pour obtenir une analyse de correspondance multiple, partir des menus, slectionnez : Analyse > Rduction des dimensions > Codage optimal Figure 13-1 Bote de dialogue Niveau du codage optimal

E Assurez-vous que les options Toutes les variables sont nominales multiples et Un groupe sont slectionnes, puis cliquez sur Dfinir.

236 Chapitre 13 Figure 13-2 Bote de dialogue Analyse des correspondances multiples

E Slectionnez Filetage comme variable danalyse via Longueur en demi-pouces. E Slectionnez objet comme variable dtiquetage. E Dans le groupe Diagrammes, cliquez sur Objet.

237 Analyse de correspondance multiple Figure 13-3 Bote de dialogue Diagrammes dobjets

E Choisissez loption dtiquetage des objets Variable. E Slectionnez les variables dtiquetage letage objet. E Cliquez sur Continuer, puis sur Variable dans le groupe Diagrammes de la bote de dialogue

Analyse de correspondance multiple.

238 Chapitre 13 Figure 13-4 Bote de dialogue Diagrammes de variables

E Appliquez lopration Joindre les diagrammes de modalits aux options allant de letage jusqu

longueur.
E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Analyse des correspondances multiples.

Rcapitulatif des modles


Lanalyse dhomognit peut calculer une solution pour plusieurs dimensions. Le nombre maximal de dimensions est gal soit au nombre de modalits moins le nombre de variables nayant aucune donne manquante, soit au nombre dobservations moins 1, selon le nombre qui est le plus petit. Nutilisez toutefois que rarement le nombre maximal de dimensions. Un nombre de dimensions plus petit est plus facile interprter et, aprs un certain nombre de dimensions, le total de lassociation supplmentaire reprsente devient ngligeable. Une solution une, deux ou trois dimensions dans une analyse dhomognit est chose courante.

239 Analyse de correspondance multiple Figure 13-5 Rcapitulatif du modle

Presque toute la variance des donnes est reprsente par la solution : 62,1 % par la premire dimension et 36,8 % par la deuxime. Les deux dimensions offrent une interprtation en matire de distances. Si une variable a un fort pouvoir discriminant, les objets seront proches des modalits auxquelles ils appartiennent. Idalement, les objets de la mme modalit seront proches les uns des autres (ils auront des coordonnes similaires) et les modalits de variables diffrentes seront proches si elles appartiennent aux mmes objets (deux objets qui ont des coordonnes similaires pour une variable doivent galement tre proches lun de lautre pour les autres variables de la solution).

Coordonnes principales
Aprs avoir analys le rcapitulatif des modles, vriez les coordonnes des objets. Vous pouvez indiquer une ou plusieurs variables pour tiqueter le diagramme de coordonnes des objets. Chaque variable dtiquetage gnre un diagramme distinct tiquet avec les valeurs de la variable. Nous vrierons le diagramme des coordonnes dobjets tiquet laide de lobjet de variable. Il sagit simplement dune variable didentication des observations qui na t utilise dans aucun calcul. La distance sparant un objet de lorigine rete la variation du modle de rponse moyenne . Ce modle de rponse moyenne correspond la modalit la plus frquente de chaque variable. Les objets dont de nombreuses descriptives correspondent aux modalits les plus frquentes se trouvent ct de lorigine. A linverse, les objets qui disposent de descriptives uniques sont loin de lorigine.

240 Chapitre 13 Figure 13-6 Diagramme de coordonnes des objets tiquetes avec la variable objet

Si vous observez le diagramme, vous constatez que la premire dimension (laxe horizontal) distingue les vis et boulons (qui ont des letages) des clous et broquettes (qui nont pas de letage). En effet, les vis et les boulons se trouvent une extrmit de laxe horizontal alors que les clous et les broquettes sont lautre extrmit. Dans une moindre mesure, la premire dimension spare galement les boulons (qui ont un fond plat) de tous les autres objets (qui ont un fond pointu). La deuxime dimension (laxe vertical) semble sparer VIS1 et CLOU6 de tous les autres objets. VIS1 et CLOU6 partagent des valeurs identiques en ce qui concerne la longueur des variables (ce sont les objets les plus longs des donnes). De plus, VIS1 est beaucoup plus loin de lorigine que les autres objets, ce qui laisse supposer que, dans lensemble, de nombreuses descriptives de cet objet ne sont pas partages par les autres objets. Le diagramme de coordonnes des objets est plus particulirement utile pour rechercher les valeurs loignes. La variable VIS1 peut tre considre comme une valeur loigne. Nous tudierons ultrieurement ce quil advient si vous supprimez cet objet.

Mesures de discrimination
Avant dtudier le reste des diagrammes de coordonnes des objets, vrions si les mesures de discrimination sont conformes aux propos prcdents. En ce qui concerne les variables, une mesure de discrimination, pouvant tre considre comme une corrlation entre composantes, est calcule pour chaque dimension. Cette mesure est galement la variance de la variable quantie de cette dimension. La valeur maximale 1 est atteinte si les coordonnes dobjet font partie de groupes mutuellement exclusifs et si toutes les coordonnes dobjets dune modalit sont identiques. (Remarque : La valeur de cette mesure peut tre suprieure 1 si des donnes sont manquantes.) Des mesures de discrimination importantes correspondent une rpartition tendue parmi les modalits de la variable et indiquent par consquent un degr de discrimination lev entre les modalits dune variable le long de la dimension concerne.

241 Analyse de correspondance multiple

La moyenne des mesures de discrimination dune dimension est gale au pourcentage de variance indiqu pour cette dimension. Par consquent, les dimensions sont tries en fonction de la discrimination moyenne. La premire dimension dispose de la discrimination moyenne la plus leve, la deuxime dimension dispose de la deuxime discrimination moyenne la plus leve, et ainsi de suite pour toutes les dimensions de la solution.
Figure 13-7 Diagramme des mesures de discrimination

Comme le diagramme de coordonnes des objets, le diagramme des mesures de discrimination indique que la premire dimension est lie aux variables Filetage et Forme tige. Ces variables disposent de mesures de discrimination leves sur la premire dimension et de mesures de discrimination limites sur la deuxime. Par consquent, pour ces deux variables, les modalits sont loignes les unes des autres le long de la premire dimension uniquement. La valeur de la variable Longueur en demi-pouces est leve sur la deuxime dimension, mais faible sur la premire. La longueur est donc lobjet le plus proche de la deuxime dimension. Conformment lobservation du diagramme de coordonnes des objets, la deuxime dimension semble sparer les objets les plus longs des autres objets. Les valeurs des variables Indentation de la tte et Forme de tte sont relativement leves sur les deux dimensions, ce qui indique une discrimination dans les deux premires dimensions. La variable Cuivre, trs proche de lorigine, ne fait aucune distinction dans les deux premires dimensions. Ceci est logique tant donn que tous les objets peuvent tre en cuivre ou dans un autre matriau.

Valeurs affectes aux modalits


Souvenez-vous quune mesure de discrimination est la variance de la variable quantie le long dune dimension particulire. Le diagramme des mesures de discrimination contient ces variances et indique ainsi les variables discriminantes le long de la dimension concerne. Cependant, une variance peut correspondre toutes les modalits modrment loignes les unes des autres ou la plupart des modalits proches les unes des autres, avec quelques modalits diffrant de ce groupe. Le diagramme de discrimination ne peut faire aucune distinction entre ces deux conditions.

242 Chapitre 13

Les diagrammes de valeurs affectes aux modalits offrent un autre mode dafchage de la discrimination des variables qui peut identier les relations entre les modalits. Dans ce diagramme, les coordonnes des modalits de chaque dimension sont afches. Vous pouvez donc dterminer les modalits similaires pour chaque variable.
Figure 13-8 Valeurs affectes aux modalits

La variable Longueur en demi-pouces compte cinq modalits, dont trois sont regroupes prs de la partie suprieure du diagramme. Les deux autres modalits se trouvent dans la moiti infrieure du diagramme, la modalit 2_1/2_in se trouvant trs loin du groupe. La discrimination leve de longueur le long de la dimension 2 est due cette modalit qui est trs diffrente des autres modalits de longueur. De la mme faon, pour la variable Forme de tte, la modalit CRUCIFORME est trs loin des autres modalits et gnre une mesure de discrimination leve le long de la deuxime dimension. Il est impossible dillustrer ces modles dans un diagramme de mesures de discrimination. La rpartition des valeurs affectes aux modalits dune variable rete la variance et indique le degr lev de discrimination de cette variable dans chaque dimension. En ce qui concerne la dimension 1, les modalits de la variable Filetage sont loignes les unes des autres. Cependant, le long de la dimension 2, les modalits de cette variable sont trs proches les unes des autres. Par consquent, le degr de discrimination de la variable Filetage est plus lev dans la dimension 1 que dans la dimension 2. En revanche, les modalits de la variable Forme de tte sont loignes les unes des autres le long des deux dimensions, ce qui laisse supposer que le degr de discrimination de cette variable est lev dans les deux dimensions. Non seulement le diagramme de valeurs affectes aux modalits dtermine le mode de discrimination et les dimensions le long desquelles une variable a un pouvoir discriminant, mais il compare galement la discrimination des variables. Une variable ayant des modalits loignes les unes des autres a un pouvoir discriminant plus lev quune variable comportant des modalits proches les unes des autres. Par exemple, le long de la dimension 1, les deux modalits de la variable Cuivre sont plus proches lune de lautre que les deux modalits de la variable Filetage, ce qui indique que la variable Filetage a un pouvoir discriminant plus lev que la variable Cuivre

243 Analyse de correspondance multiple

le long de cette dimension. Cependant, le long de la dimension 2, les distances sont trs similaires, ce qui laisse supposer que ces variables ont un pouvoir discriminant identique le long de cette dimension. Le diagramme des mesures de discrimination abord ci-dessus identie les mmes relations laide de variances retant la rpartition des modalits.

Etude plus dtaille des coordonnes des objets


Ltude des diagrammes de coordonnes des objets tiquetes avec chaque variable offre un meilleur clairage des donnes. Idalement, les objets similaires doivent former des groupes exclusifs, ces groupes devant tre loigns les uns des autres.
Figure 13-9 Coordonnes des objets tiquetes avec la variable Filetage

Le diagramme tiquet avec la variable Filetage indique que la premire dimension spare parfaitement Yes_Thread et No_Thread. Tous les objets comportant des letages ont des coordonnes dobjet ngatives, alors que tous les objets sans letage ont des coordonnes dobjet positives. Bien que les deux modalits ne forment pas des groupes compacts, la diffrenciation parfaite entre ces modalits est gnralement considre comme un bon rsultat.

244 Chapitre 13 Figure 13-10 Coordonnes des objets tiquetes avec la variable Forme de tte

Le diagramme tiquet avec la variable Forme de tte indique que cette variable a un pouvoir discriminant lev dans les deux dimensions. Les objets PLATE sont regroups dans le coin infrieur droit du diagramme, tandis que les objets CREUSE sont regroups dans le coin suprieur droit. Tous les objets CONIQUE se trouvent dans le coin suprieur gauche. Ces objets sont cependant plus loigns les uns des autres que les autres groupes et ne sont donc pas considrs comme tant homognes. Enn, les objets CYLINDRIQUES ne peuvent pas tre spars des objets ARRONDIS. Tous ces objets se trouvent dans le coin infrieur gauche du diagramme.

245 Analyse de correspondance multiple Figure 13-11 Coordonnes des objets tiquetes avec Longueur en demi-pouces

Le diagramme tiquet avec la variable Longueur en demi-pouces indique que cette variable na aucun pouvoir discriminant dans la premire dimension. Ses modalits nindiquent aucun regroupement lorsquelles sont projetes sur une ligne horizontale. Cependant, la variable Longueur en demi-pouces a un pouvoir discriminant dans la deuxime dimension. Les objets les plus courts correspondent aux coordonnes positives et les objets les plus longs, aux coordonnes ngatives.

246 Chapitre 13 Figure 13-12 Coordonnes des objets tiquetes avec la variable Cuivre

Le diagramme tiquet avec la variable Cuivre indique que cette variable dispose de modalits dont la sparation nest pas aise dans la premire ou la deuxime dimension. Les coordonnes des objets sont fortement loignes les unes des autres. Il est impossible de diffrencier les objets en cuivre des objets qui ne sont pas en cuivre.

Omission des valeurs loignes


Dans une analyse dhomognit, les valeurs loignes sont des objets qui ont trop de fonctionnalits spciques. Comme nous lavons dj indiqu, la variable VIS1 peut tre considre comme une valeur loigne. Pour supprimer cet objet et rexcuter lanalyse, partir des menus, slectionnez :
Donnes > Slectionner des observations

247 Analyse de correspondance multiple Figure 13-13 Bote de dialogue Slectionner des observations

E Slectionnez Selon une condition logique. E Cliquez sur Si.

248 Chapitre 13 Figure 13-14 Si la bote de dialogue

E Entrez objet ~= 16 comme condition. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Slectionner des observations. E Afchez nouveau la bote de dialogue Analyse des correspondances multiples, puis cliquez sur OK. Figure 13-15 Rcapitulatif des modles (valeur loigne supprime)

Les valeurs propres changent lgrement. La premire dimension reprsente maintenant une plus grande partie de la variance.

249 Analyse de correspondance multiple Figure 13-16 Mesures de discrimination

Comme lindique le diagramme de discrimination, la variable Indentation de la tte na plus de pouvoir discriminant dans la deuxime dimension, alors que la variable Cuivre, qui navait aucun pouvoir discriminant, a maintenant un pouvoir discriminant dans la deuxime dimension. La discrimination des autres variables ne change quasiment pas.
Figure 13-17 Coordonnes des objets tiquetes avec la variable Cuivre (valeur loigne supprime)

Le diagramme de coordonnes des objets tiquetes avec la variable Cuivre indique que les quatre objets en cuivre se situent proximit de la partie infrieure du diagramme (trois objets se trouvent au mme endroit). Par consquent, la discrimination est leve le long de la deuxime dimension. Comme pour la variable Filetage dans lanalyse prcdente, les objets ne forment pas des groupes compacts, mais la diffrenciation de ces objets par modalit est parfaite.

250 Chapitre 13 Figure 13-18 Coordonnes des objets tiquetes avec la variable Indentation de la tte (valeur loigne supprime)

Le diagramme de coordonnes des objets tiquetes avec la variable Indentation de la tte indique que la premire dimension distingue parfaitement les objets non indents et les objets indents, comme dans lanalyse prcdente. Cependant, par rapport lanalyse prcdente, la deuxime dimension ne peut plus distinguer les deux modalits. De ce fait, lomission de VIS1, qui est le seul objet ayant une tte en toile, a une incidence considrable sur linterprtation de la deuxime dimension. Cette dimension diffrencie maintenant les objets en fonction des variables Cuivre, Forme de tte et Longueur en demi-pouces.

Lectures recommandes
Pour plus dinformations sur lanalyse de correspondance multiple, reportez-vous aux documents suivants : Benzcri, J. P. 1992. Correspondence analysis handbook. New York: Marcel Dekker. Guttman, L. 1941. The quantication of a class of attributes: A theory and method of scale construction. Dans : The Prediction of Personal Adjustment, P. Horst, d. New York: Social Science Research Council. Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO Press. Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables: Points of view analysis of categorical data. Journal of Classication, 13, . Meulman, J. J., et W. J. Heiser. 1997. Graphical display of interaction in multiway contingency tables by use of homogeneity analysis. Dans : Visual Display of Categorical Data, M. Greenacre, et J. Blasius, ds. New York: Academic Press. Nishisato, S. 1984. Forced classication: A simple application of a quantication method. Psychometrika, 49, .

251 Analyse de correspondance multiple

Tenenhaus, M., et F. W. Young. 1985. An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data. Psychometrika, 50, . Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO Press.

Positionnement multidimensionnel

14

Chapitre

Le positionnement multidimensionnel vise rechercher une reprsentation dun ensemble dobjets donn dans un espace de petite dimension. Vous pouvez obtenir cette solution en utilisant des proximits entre les objets. La procdure rduit au minimum les carrs des carts entre lobjet initial, ventuellement transform, les proximits des objets et leurs distances euclidiennes dans lespace de petite dimension. La nalit de lespace de petite dimension est de mettre en vidence les relations entre les objets. En rduisant la solution une combinaison linaire de variables indpendantes, vous pouvez interprter les dimensions de la solution par rapport ces variables. Lexemple suivant montre comment reprsenter 15 termes de parent diffrents dans trois dimensions et interprter lespace par rapport au sexe, la gnration et au degr de sparation de chacun des termes.

Exemple \: Examen des termes de parent


Rosenberg et Kim (Rosenberg et Kim, 1975) se sont lancs dans lanalyse de 15 termes de parent (cousin/cousine, lle, ls, frre, grand-mre, grand-pre, mre, neveu, nice, oncle, pre, petite-lle, petit-ls, sur, tante). Ils ont demand quatre groupes dtudiants (deux groupes de femmes et deux groupes dhommes) de trier ces termes en fonction des similarits. Deux groupes (un groupe de femmes et un groupe dhommes) ont t invits effectuer deux tris, en basant le second sur un autre critre que le premier. Par consquent, un total de six sources a t obtenu, comme le montre le tableau ci-aprs.
Table 14-1 Structure des sources des donnes de parent

Source 1 2 3 4

sexe Groupe de femmes Groupe dhommes Groupe de femmes Groupe de femmes

Condition Tri unique Tri unique Premier tri Second tri

Taille de lchantillon 85 85 80 80

Copyright SPSS Inc. 1989, 2010

252

253 Positionnement multidimensionnel

Source 5 6

sexe

Condition

Groupe Premier tri dhommes Groupe Second tri dhommes

Taille de lchantillon 80 80

Chaque source correspond une matrice de proximit , dont le nombre de cellules est gal au nombre de personnes dans une source moins le nombre de fois o les objets ont t partitionns dans cette source. Cet ensemble de donnes est disponible dans le chier kinship_dat.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.

Choix du nombre de dimensions


Il vous appartient de choisir le nombre de dimensions attribuer la solution. Le diagramme de valeurs propres peut vous aider prendre cette dcision.
E Pour crer un graphique des valeurs propres, partir des menus, slectionnez : Analyse > Echelle > Positionnement multidimensionnel (PROXSCAL) Figure 14-1 Bote de dialogue Format des donnes

E Slectionnez loption Plusieurs sources de matrice dans le groupe Nombre de sources. E Cliquez sur Dfinir.

254 Chapitre 14 Figure 14-2 Bote de dialogue Positionnement multidimensionnel

E Slectionnez les options allant de Tante Oncle comme variables de proximits. E Slectionnez loption idsource comme variable didentication de la source. E Cliquez sur Modle. Figure 14-3 Bote de dialogue Modle

E Tapez 10 comme nombre maximum de dimensions. E Cliquez sur Poursuivre.

255 Positionnement multidimensionnel E Cliquez sur Restrictions dans la bote de dialogue Positionnement multidimensionnel. Figure 14-4 Bote de dialogue Restrictions

E Slectionnez Combinaison linaire de variables indpendantes. E Cliquez sur Fichier pour slectionner la source des variables indpendantes. E Slectionnez kinship_var.sav.

256 Chapitre 14 Figure 14-5 Bote de dialogue Restrictions

E Slectionnez les options sexe, sexe et degr comme variables de restriction.

La variable sexe possde une valeur manquante dnie par lutilisateuril sagit de la valeur 9, pour le lien de parent cousin. La procdure la traite comme une modalit valide. La transformation linaire par dfaut a donc peu de chance dtre approprie. Utilisez plutt une transformation nominale.

257 Positionnement multidimensionnel Figure 14-6 Bote de dialogue Restrictions

E Slectionnez sexe. E Slectionnez loption Nominal dans la liste droulante Transformations des variables indpendantes. E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Positionnement multidimensionnel.

258 Chapitre 14 Figure 14-7 Bote de dialogue Diagrammes

E Slectionnez loption Stress dans le groupe Diagrammes. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Positionnement multidimensionnel.

259 Positionnement multidimensionnel Figure 14-8 Diagramme des valeurs propres

La procdure commence avec une solution 10 dimensions et progresse jusqu une solution 2 dimensions. Le graphique des valeurs propres montre le stress brut normalis de la solution chaque dimension. Vous pouvez constater daprs le diagramme que laugmentation du nombre de dimensions de 2 3 et de 3 4 amliore sensiblement le stress. Au-del de 4 dimensions, les amliorations sont assez rduites. Vous opterez pour lanalyse des donnes laide dune solution 3 dimensions, dans la mesure o les rsultats sont plus faciles interprter.

Solution tridimensionnelle
Les variables indpendantes sexe, gnr (gnration) et degr (degr de sparation) ont t construites en vue de leur utilisation pour interprter les dimensions de la solution. Les variables indpendantes ont t labores comme suit :
sexe gnr 1 = masculin, 2 = fminin, 9 = manquant, pour le lien de parent cousin. Nombre de gnrations par rapport vous si le terme fait rfrence votre famille ; ce nombre est dautant plus faible que la gnration est loigne. Ainsi, les grands-parents ont la valeur 2, les petits-enfants la valeur 2 et les frres ou soeurs la valeur 0. Nombre de degrs de sparation le long de votre arbre gnalogique. Ainsi, par rapport vous, vos parents se trouvent un noeud au-dessus, et vos enfants un noeud au-dessous. Pour atteindre vos frres/soeurs, vous devez remonter dun noeud jusqu vos parents, puis descendre dun noeud jusqu vos frres/soeurs, ce qui reprsente 2 degrs de sparation. Quatre degrs vous sparent de vos cousins/cousines deux jusqu vos grands-parents, puis deux jusqu eux en passant par votre tante/oncle.

degr

260 Chapitre 14

Les variables externes sont disponibles dans le chier kinship_var.sav. En outre, une conguration initiale partir dune analyse antrieure est disponible dans le chier kinship_ini.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.

Excution de lanalyse
Figure 14-9 Bote de dialogue Modle

E Pour obtenir une solution tridimensionnelle, afchez nouveau la bote de dialogue Positionnement multidimensionnel, puis cliquez sur Modle. E Tapez 3 comme nombres minimum et maximum de dimensions. E Cliquez sur Poursuivre. E Cliquez sur Options dans la bote de dialogue Positionnement multidimensionnel.

261 Positionnement multidimensionnel Figure 14-10 Options

E Slectionnez Personnalise pour la conguration initiale. E Slectionnez kinship_ini.sav comme chier contenant les variables lire. E Slectionnez les options dim01, dim02 et dim03 comme variables. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Positionnement multidimensionnel.

262 Chapitre 14 Figure 14-11 Bote de dialogue Diagrammes

E Slectionnez les options Proximits originales et transformes et Variables explicatives transformes. E Cliquez sur Poursuivre. E Cliquez sur Rsultat dans la bote de dialogue Positionnement multidimensionnel.

263 Positionnement multidimensionnel Figure 14-12 Rsultat

E Slectionnez les options Donnes dentre, Dcomposition du stress et Corrlation des variables et dimensions. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Positionnement multidimensionnel.

Mesures de stress
Les mesures de stress et dajustement donnent une indication du degr dloignement entre les distances de la solution et les distances initiales.

264 Chapitre 14 Figure 14-13 Mesures de stress et dajustement

Chacune des quatre statistiques de stress mesure le non-ajustement des donnes, tandis que la dispersion reprsente et le coefcient de Tucker de congruence mesurent lajustement. Les mesures de stress faibles (jusqu un minimum de 0) et les mesures dajustement leves (jusqu un maximum de 1) indiquent de bonnes solutions.
Figure 14-14 Dcomposition du stress ligne normalis

La dcomposition du stress facilite lidentication des sources et des objets contribuant le plus au stress global de la solution. Dans le cas prsent, la majeure partie du stress parmi les sources est attribuable aux sources 1 et 2 tandis que, parmi les objets, elle est imputable aux lments Frre, Petite-lle, Grand-pre, Grand-mre, Petit-ls et Soeur. Les deux sources reprsentant la majeure partie du stress sont les deux groupes ayant tri les termes une seule fois. Ces informations suggrent que les tudiants ont considr plusieurs critres lors du tri des termes et que les tudiants qui taient autoriss oprer deux tris se sont focaliss sur une partie de ces critres pour le premier tri, puis ont pris en compte les autres critres loccasion du second tri.

265 Positionnement multidimensionnel

Les objets qui reprsentent la majeure partie du stress sont ceux ayant un degr gal 2. Ces personnes sont des relations nappartenant pas la famille nuclaire (Mre, Pre, Fille, Fils), mais qui sont nanmoins plus proches que les autres relations. Cette position intermdiaire pourrait facilement crer un cart lors du tri de ces termes.

Coordonnes finales de lespace commun


Le diagramme de lespace commun fournit une reprsentation visuelle des relations entre les objets.
Figure 14-15 Coordonnes de lespace commun

Observez les coordonnes nales des objets dans les dimensions 1 et 3 ; il sagit du diagramme situ dans langle infrieur gauche de la matrice de diagrammes de dispersion. Ce diagramme montre que la dimension 1 (sur laxe x) est corrle avec la variable sexe et que la dimension 3 (sur laxe y) est corrle avec la variable gnr. De gauche droite, vous pouvez constater que la dimension 1 spare les termes femme et homme, entre lesquels gure le terme la fois masculin et fminin Cousin/Cousine. De bas en haut du diagramme, les valeurs croissantes le long de laxe correspondent aux termes plus anciens. Observez maintenant les coordonnes nales des objets dans les dimensions 2 et 3 ; il sagit du diagramme situ au milieu droite de la matrice de diagrammes de dispersion. Ce diagramme indique que la deuxime dimension (le long de laxe y) correspond la variable degr, les valeurs les plus leves le long de laxe correspondant des termes relevant davantage de la famille nuclaire .

266 Chapitre 14

Solution tridimensionnelle avec transformations personnalises


La solution prcdente a t calcule laide de la transformation de ratio par dfaut pour les proximits et des transformations dintervalles pour les variables indpendantes gnr et degr. Les rsultats sont assez bons, mais vous pouvez les amliorer laide dautres transformations. Par exemple, les proximits sexe et degr sont toutes naturellement ordonnes, mais une transformation ordinale permet de mieux les modliser quune transformation linaire.
Figure 14-16 Bote de dialogue Modle

E Pour rexcuter lanalyse, en codant les proximits gnr et degr au niveau ordinal (conservation

des ex aequo), afchez nouveau la bote de dialogue Positionnement multidimensionnel, puis cliquez sur Modle.
E Slectionnez loption Ordinal comme transformation de proximits. E Cliquez sur Poursuivre. E Cliquez sur Restrictions dans la bote de dialogue Positionnement multidimensionnel.

267 Positionnement multidimensionnel Figure 14-17 Bote de dialogue Restrictions

E Slectionnez les options sexe et degr. E Slectionnez loption Ordinal (conserver les ex-aequo) dans la liste droulante Transformations

des variables indpendantes.


E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Positionnement multidimensionnel.

Diagrammes de transformation
Les diagrammes de transformation sont un premier indice efcace pour dterminer si les transformations initiales taient appropries. Si les diagrammes sont peu prs linaires, lhypothse linaire est approprie. Sinon, vriez si les mesures de stress indiquent une amlioration de lajustement, et si le diagramme de lespace commun facilite linterprtation. Chacune des variables indpendantes obtenant des transformations peu prs linaires, il peut savrer appropri de les interprter en tant que donnes numriques. Toutefois, les proximits nobtenant pas de transformation linaire, il est possible que la transformation ordinale convienne davantage pour celles-ci.

268 Chapitre 14 Figure 14-18 Transformations transformes

Mesures de stress
Le stress de la solution actuelle prend en charge largument de codage des proximits au niveau ordinal.
Figure 14-19 Mesures de stress et dajustement

Le stress ligne normalis de la solution antrieure a pour valeur 0,06234. Le codage des variables laide de transformations personnalises divise par 2 la valeur du stress, qui passe 0,03137.

Coordonnes finales de lespace commun


Les diagrammes de lespace commun offrent essentiellement la mme interprtation des dimensions que la solution prcdente.

269 Positionnement multidimensionnel Figure 14-20 Coordonnes de lespace commun

Analyse
Il est prfrable de traiter les proximits en tant que variables ordinales, dans la mesure o les mesures de stress afchent une amlioration sensible. Ensuite, vous pouvez, si vous le souhaitez, dlier les variables ordinalescest--dire, permettre des valeurs quivalentes des variables initiales dobtenir diffrentes valeurs transformes. Par exemple, dans la premire source, les proximits entre Tante et Fils, ainsi quentre Tante et Petit-ls, ont pour valeur 85. Lapproche lie des variables ordinales oblige les valeurs transformes de ces proximits tre quivalentes, mais vous navez aucune raison particulire de supposer quelles doivent ltre. Dans ce cas, vous pouvez autoriser la suppression des liens des proximits de manire viter toute restriction superue.

Lectures recommandes
Pour plus dinformations sur le positionnement multidimensionnel, reportez-vous aux documents suivants : Commandeur, J. J. F., et W. J. Heiser. 1993. Mathematical derivations in the proximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Department of Data Theory, University of Leiden. De Leeuw, J., et W. J. Heiser. 1980. Multidimensional scaling with restrictions on the conguration. Dans : Multivariate Analysis, Vol. V, P. R. Krishnaiah, d. Amsterdam: North-Holland. Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of Data Theory, University of Leiden.

270 Chapitre 14

Heiser, W. J., et F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding of symmetric and asymmetric proximity relations. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc.. Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika, 29, . Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function I. Psychometrika, 27, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function II. Psychometrika, 27, .

Dpliage multidimensionnel

15

Chapitre

La procdure de dpliage multidimensionnel tente de trouver une chelle quantitative commune vous permettant dexaminer les relations entre deux ensembles dobjets de manire visuelle.

Exemple \: Prfrences alimentaires du petit-djeuner


Dans une tude classique (Green et Rao, 1972), on a demand 21 tudiants en MBA (Master of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins apprci. Ces informations sont regroupes dans le chier breakfast_overall.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Le rsultat de ltude illustre un exemple de problme de dgnrescence typique, inhrent la plupart des algorithmes de dpliage multidimensionnel, rsolu en pnalisant le coefcient de variation des proximits transformes (Busing, Groenen, et Heiser, 2005). Vous allez voir ce quest une solution dgnre et comment rsoudre le problme laide du dpliage multidimensionnel, qui permet de dterminer la logique suivie par les individus dans leur classement. La syntaxe servant reproduire ces analyses se trouve dans prefscal_breakfast-overall.sps.

Cration dune solution dgnre


E Pour lancer une analyse Dpliage multidimensionnel, choisissez les options suivantes dans les

menus :
Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)...

Copyright SPSS Inc. 1989, 2010

271

272 Chapitre 15 Figure 15-1 Bote de dialogue principale Dpliage multidimensionnel

E Slectionnez les options allant de Pain grill Tartine beurre comme variables de proximit. E

Cliquez sur Options.

273 Dpliage multidimensionnel Figure 15-2 Options

E Slectionnez Spearman comme mthode dimputation du dpart classique. E

Dans le groupe Terme de pnalit, tapez 1,0 comme valeur du paramtre Force et 0,0 comme valeur du paramtre Intervalle. Ceci dsactive le terme de pnalit.

E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.

Voici la syntaxe de commande gnre par ces slections :


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INITIAL=CLASSICAL (SPEARMAN) /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0) /PRINT=MEASURES COMMON /PLOT=COMMON .

Cette syntaxe indique une analyse des variables tb (pain grill) cmb (tartine beurre).

274 Chapitre 15

La sous-commande INITIAL spcie que les valeurs de dpart sont imputes laide des distances de Spearman. Les valeurs spcies dans la sous-commande PENALTY annulent le terme de pnalit et, par consquent, la procdure minimise la mesure du stress-I de Kruskal. La solution obtenue est donc dgnre. La sous-commande PLOT demande des diagrammes de lespace commun. Tous les autres paramtres sont rinitialiss leur valeur par dfaut.

Mesures
Figure 15-3 Mesures de la solution dgnre

Lalgorithme converge vers une solution aprs 154 itrations et applique un stress pnalis (marqu comme la valeur de la fonction nale) de 0,0000990. Etant donn que le terme de pnalit a t dsactiv, la mesure du stress pnalis est gale au stress-I de Kruskal (la partie stress de la valeur de la fonction est quivalente la mesure du dfaut de lajustement de Kruskal). Des valeurs de stress basses indiquent gnralement que la solution est bien adapte aux donnes, mais il existe plusieurs signes davertissement dune solution dgnre.

Le coefcient de variation des proximits transformes est trs faible compar au coefcient de variation des proximits dorigine. Ceci suggre que les proximits transformes de chaque ligne sont quasi-constantes et que la solution ne montrera ainsi aucune discrimination entre les objets.

275 Dpliage multidimensionnel

La somme des carrs des indices dintermixit de DeSarbo sont une mesure de lintermixit des points des diffrents sous-ensembles. Labsence dintermixit est un signe davertissement dune dgnrescence probable de la solution. Plus la valeur rapporte est proche de 0, plus la solution est intermixe. Plus elle est leve, moins la solution est intermixe. Lindex estimatif de non-dgnrescence de Shepard, rapport sous forme dun pourcentage des diffrentes distances, est gal 0. Il sagit l dune indication numrique claire dune diffrence insufsante entre les distances et donc de la dgnrescence probable de la solution.

Espace commun
Figure 15-4 Diagramme joint de lespace commun pour une solution dgnre

Le diagramme joint de lespace commun des objets de lignes et de colonnes apporte une conrmation visuelle de la dgnrescence de la solution. Les objets de lignes (individus) se situent la circonfrence dun cercle centr sur les objets de colonnes (aliments du petit-djeuner), dont les coordonnes se sont rduites un point unique.

276 Chapitre 15

Excution dune analyse non dgnre


Figure 15-5 Options

E Pour produire une solution non dgnre, cliquez sur loutil Rappeler bote de dialogue et slectionnez Dpliage multidimensionnel. E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel. E

Dans le groupe Terme de pnalit, tapez 0,5 comme valeur du paramtre Force et 1,0 comme valeur du paramtre Intervalle. Ceci dsactive le terme de pnalit.

E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.

Voici la syntaxe de commande gnre par ces slections :


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INITIAL=CLASSICAL (SPEARMAN) /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0)

277 Dpliage multidimensionnel /PRINT=MEASURES COMMON /PLOT=COMMON .

La seule diffrence rside dans la sous-commande PENALTY. LAMBDA et OMEGA ont t dnies respectivement sur 0,5 et 1,0, leurs valeurs pas dfaut.

Mesures
Figure 15-6 Mesures de la solution non dgnre

Les problmes relevs dans les mesures de la solution dgnre sont prsent corrigs.

Le stress normalis nest plus gal 0. Le coefcient de variation des proximits transformes prsente maintenant une valeur similaire au coefcient de variation des proximits dorigine. Les indices dintermixit de DeSarbo sont beaucoup plus proches de 0, indiquant une grande amlioration de lintermixit de la solution. Lindex estimatif de non-dgnrescence de Shepard, rapport sous forme dun pourcentage des diffrentes distances, est environ gal 80 %. Les diffrences entre les distances sont sufsantes et la solution est probablement non dgnre.

278 Chapitre 15

Espace commun
Figure 15-7 Diagramme joint de lespace commun pour une solution non dgnre

Le diagramme joint de lespace commun permet une interprtation des dimensions. La dimension horizontale semble indiquer une discrimination entre les pains mous et durs ou encore les toasts, les aliments les plus mous se trouvant dans la partie droite de laxe. La dimension verticale ne permet pas une interprtation claire, peut-tre uniquement une discrimination base sur la commodit, les aliments les plus formels se trouvant dans la partie infrieure de laxe. Ceci conduit la formation de plusieurs groupes daliments. Par exemple, les pains aux raisins, les brioches et les beignets forment un groupe daliments mous et quelque peu informels. Les croissants et pains au chocolat forment un groupe daliments plus durs et plus formels. Les toasts et tartines forment un groupe daliments durs et quelque peu informels. Le pain grill est un aliment dur, extrmement informel. Les individus reprsents par les objets de lignes se divisent en plusieurs groupes bien dlimits, selon leurs prfrences pour les aliments mous ou durs, avec de nombreuses variations intra-groupes le long de la dimension verticale.

Exemple \: Dpliage tridimensionnel des prfrences relatives aux aliments du petit-djeuner


Dans une tude classique (Green et al., 1972), on a demand 21 tudiants en MBA (Master of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins apprci. Leurs prfrences ont t enregistres dans six scnarios diffrents, allant de Prfrence gnrale En-cas avec boisson uniquement . Ces informations sont regroupes dans le

279 Dpliage multidimensionnel

chier breakfast.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Les six scnarios peuvent tre traits en tant que sources distinctes. Utilisez la procdure PREFSCAL pour effectuer un dpliage tridimensionnel des lignes, des colonnes et des sources. La syntaxe servant reproduire ces analyses se trouve dans prefscal_breakfast.sps.

Excution de lanalyse
E Pour lancer une analyse Dpliage multidimensionnel, choisissez les options suivantes dans les

menus :
Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)... Figure 15-8 Bote de dialogue principale Dpliage multidimensionnel

E Slectionnez les options allant de Pain grill Tartine beurre comme variables de proximit. E

Slectionnez Scnarios comme variable source.

E Cliquez sur Modle.

280 Chapitre 15 Figure 15-9 Bote de dialogue Modle

E Slectionnez Euclidien pondr comme modle de positionnement. E Cliquez sur Poursuivre. E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel.

281 Dpliage multidimensionnel Figure 15-10 Options

E Slectionnez Spearman comme mthode dimputation du dpart classique. E E

Cliquez sur Poursuivre. Cliquez sur Diagrammes dans la bote de dialogue Dpliage multidimensionnel.

282 Chapitre 15 Figure 15-11 Bote de dialogue Diagrammes

E Slectionnez loption Espaces individuels dans le groupe Diagrammes. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.

Voici la syntaxe de commande gnre par ces slections :


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INPUT=SOURCES(srcid ) /INITIAL=CLASSICAL (SPEARMAN) /CONDITION=ROW /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /MODEL=WEIGHTED /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001)

283 Dpliage multidimensionnel MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON WEIGHTS INDIVIDUAL ( ALL ) .

Cette syntaxe indique une analyse des variables tb (pain grill) cmb (tartine beurre). La variable srcid est utilise pour identier les sources. La sous-commande INITIAL spcie que les valeurs de dpart sont calcules laide des distances de Spearman. La sous-commande MODEL spcie un modle Euclidien pondr, qui permet chaque espace individuel de pondrer les dimensions de lespace commun dune manire diffrente. La sous-commande PLOT demande des diagrammes de lespace commun, des espaces individuels et des pondrations des espaces individuels. Tous les autres paramtres sont rinitialiss leur valeur par dfaut.

Mesures
Figure 15-12 Mesures

Lalgorithme converge aprs 481 itrations, avec une mesure du stress pnalis nale de 0,8199642. Les coefcients de variation et lindex de Shepard sont sufsamment levs et les indices de DeSarbo sufsamment bas pour suggrer quil nexiste aucun problme de dgnrescence.

284 Chapitre 15

Espace commun
Figure 15-13 Diagramme join de lespace commun

Le diagramme joint de lespace commun montre une conguration nale trs similaire lanalyse bidimensionnelle des prfrences gnrales, avec une solution transpose au-dessus de la ligne des 45 . Ainsi, la dimension verticale semble indiquer une discrimination entre les pains mous et durs ou encore les toasts, les aliments les plus mous se trouvant dans la partie suprieure de laxe. La dimension horizontale ne permet pas une interprtation claire, peut-tre uniquement une discrimination base sur la commodit, les aliments les plus formels se trouvant dans la partie gauche de laxe. Les individus reprsents par les objets de lignes se divisent toujours en plusieurs groupes bien dlimits, selon leurs prfrences pour les aliments mous ou durs avec de nombreuses variations intra-groupes le long de la dimension horizontale.

285 Dpliage multidimensionnel

Espaces individuels
Figure 15-14 Pondrations des dimensions

Un espace individuel est calcul pour chaque source. Les pondrations des dimensions indiquent limpact des diffrents espaces individuels sur les dimensions de lespace commun. Une pondration plus leve indique une plus grande distance lintrieur de lespace individuel et donc une plus grande discrimination entre les objets de la dimension en question pour cet espace individuel.

La spcicit est une mesure de la diffrence entre lespace individuel et lespace commun. Un espace individuel identique lespace commun prsenterait des pondrations de dimensions identiques et une spcicit de 0, alors quun espace individuel spcique une dimension particulire prsenterait une seule pondration de dimension leve et une spcicit de 1. Dans le cas prsent, les sources les plus divergentes sont Petit-djeuner avec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson chaude uniquement. Limportance est la mesure de la contribution relative de chaque dimension la solution. Dans le cas prsent, les dimensions prsentent une importance gale.

286 Chapitre 15 Figure 15-15 Pondrations des dimensions

Le diagramme des pondrations des dimensions offre une vue densemble du tableau des pondrations. Les groupes Petit-djeuner avec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson uniquement sont les plus proches des axes des dimensions, mais aucun des deux nest spciquement rattach une dimension particulire.

287 Dpliage multidimensionnel Figure 15-16 Diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeufs et boisson

Le diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeurs et boisson illustre leffet de ce scnario sur les prfrences. La source repose majoritairement sur la premre dimension, donc la diffrenciation entre les aliments est principalement due la premire dimension.

288 Chapitre 15 Figure 15-17 Diagramme joint de lespace individuel En-cas avec boisson uniquement

Le diagramme joint de lespace individuel En-cas avec boisson uniquement illustre leffet de ce scnario sur les prfrences. La source repose majoritairement sur la deuxime dimension, donc la diffrenciation entre les aliments est principalement due la deuxime dimension. Cependant, une mineure partie de la diffrenciation se fait galement le long de la premire dimension en raison de la spcicit relativement basse de la source.

Utilisation dune configuration initiale diffrente


La conguration nale peut dpendre des points de dparts donns lalgorithme. Idalement, la structure gnrale de la solution doit rester la mme, sans quoi il peut savrer difcile de dterminer laquelle est correcte. Cependant, des variations structurelles de dtail peuvent tre envisages dans diffrentes congurations initiales, comme par exemple lutilisation dun dpart par correspondance dans lanalyse tridimensionnelle des donnes du petit-djeuner.
E Pour produire une solution avec dpart par correspondance, cliquez sur loutil Rappeler bote de dialogue et slectionnez Dpliage multidimensionnel.

289 Dpliage multidimensionnel E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel. Figure 15-18 Options

E Slectionnez Correspondance dans le groupe Conguration initiale. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.

Voici la syntaxe de commande gnre par ces slections :


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INPUT=SOURCES(srcid ) /INITIAL=CORRESPONDENCE /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0) /PRINT=MEASURES COMMON

290 Chapitre 15 /PLOT=COMMON WEIGHTS INDIVIDUAL ( ALL ) .

La seule diffrence rside dans la sous-commande INITIAL. La conguration de dpart a t dnie sur CORRESPONDENCE, qui utilise les rsultats dune analyse des correspondances sur les donnes inverses (similitudes au lieu des diffrences), avec une normalisation symtrique des coordonnes des lignes et des colonnes.

Mesures
Figure 15-19 Mesures de la configuration initiale des correspondances

Lalgorithme converge aprs 385 itrations, avec une mesure du stress pnalis nale de 0,8140741. Les valeurs de cette statistique, du dfaut de lajustement, de la qualit de lajustement, des coefcients de variation et de lindex de Shepard sont toutes trs similaires celles de la solution utilisant le dpart de Spearman classique. Les indices de DeSarbo sont quelque peu diffrents, avec une valeur de 1,7571887 au lieu de 0,2199287, ce qui suggre que la solution utilisant le dpart par correspondance nest pas aussi mixte. Pour voir dans quelle mesure ceci affecte la solution, reportez-vous au diagramme joint de lespace commun.

291 Dpliage multidimensionnel

Espace commun
Figure 15-20 Diagramme joint de lespace commun pour la configuration initiale des correspondances

Le diagramme joint de lespace commun montre une conguration nale similaire lanalyse faite avec la conguration initiale de Spearman classique. Cependant, les objets de colonnes (aliments du petit-djeuner) se situent autour des objets de lignes (individus) au lieu que lensemble soit intermix.

292 Chapitre 15

Espaces individuels
Figure 15-21 Pondrations des dimensions pour la configuration initiale des correspondances

Dans la conguration initiale des correspondances, chaque espace individuel prsente une spcicit plus leve, cest dire que chaque situation dans laquelle les participants ont class les aliments de petit-djeuner est plus fortement associe une dimension spcique. Les sources les plus divergentes sont toujours Petit-djeuner avec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson uniquement.

293 Dpliage multidimensionnel Figure 15-22 Diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeufs et boisson pour la configuration initiale des correspondances

La spcicit plus leve apparat clairement dans le diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeufs et boisson. La source affecte encore plus fortement la premire dimension que dans le cas du dpart de Spearman classique, si bien que les objets de colonnes et de lignes prsentent une variation un peu moins importante sur laxe vertical et un peu plus importante sur laxe horizontal.

294 Chapitre 15 Figure 15-23 Diagramme joint de lespace individuel En-cas avec boisson uniquement pour la configuration initiale des correspondances

Le diagramme joint de lespace individuel En-cas avec boissson uniquement montre que les objets de lignes et de colonnes sont plus proches dune ligne verticale que dans le cas du dpart de Spearman classique.

Exemple \: Examen de la justesse de la relation comportement-situation


Dans un exemple classique (Price et Bouffard, 1974), il a t demand 52 tudiants de noter les combinaisons tablies partir de 15 situations et de 15 comportements sur une chelle de 0 9, o 0 = extrmement appropri et 9 = extrmement inappropri. En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine diffrence entre les valeurs. Ces informations sont regroupes dans le chier behavior.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Utilisez le dpliage multidimensionnel pour tablir des groupes de situations similaires et les comportements avec lesquels elles sont le plus souvent associes. La syntaxe servant reproduire ces analyses se trouve dans prefscal_behavior.sps.

Excution de lanalyse
E Pour lancer une analyse Dpliage multidimensionnel, choisissez les options suivantes dans les

menus :
Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)...

295 Dpliage multidimensionnel Figure 15-24 Bote de dialogue principale Dpliage multidimensionnel

E Slectionnez les options allant de Courir Crier comme variables de proximit. E Slectionnez ROWID comme variable de ligne. E Cliquez sur Modle.

296 Chapitre 15 Figure 15-25 Bote de dialogue Modle

E Slectionnez Linaire comme transformation de proximit et choisissez Inclure une constante. E Choisissez dappliquer les transformations Dans toutes les sources simultanment. E Cliquez sur Poursuivre. E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel.

297 Dpliage multidimensionnel Figure 15-26 Options

E Slectionnez Personnalise dans le groupe Conguration initiale. E Accdez au chier behavior_ini.sav et choisissez-le comme chier contenant la conguration

initiale personnalise. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
E

Slectionnez dim1 et dim2 comme variables spciant la conguration initiale.

E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Dpliage multidimensionnel.

298 Chapitre 15 Figure 15-27 Bote de dialogue Diagrammes

E Slectionnez Diagrammes de transformation dans le groupe Diagrammes. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.

Voici la syntaxe de commande gnre par ces slections :


PREFSCAL VARIABLES=Run Talk Kiss Write Eat Sleep Mumble Read Fight Belch Argue Jump Cry Laugh Shout /INPUT=ROWS(ROWID ) /INITIAL=( 'samplesDirectory/behavior_ini.sav' ) dim1 dim2 /CONDITION=UNCONDITIONAL /TRANSFORMATION=LINEAR (INTERCEPT) /PROXIMITIES=DISSIMILARITIES

299 Dpliage multidimensionnel /MODEL=IDENTITY /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0) /PRINT=MEASURES COMMON /PLOT=COMMON TRANSFORMATIONS .

Cette syntaxe spcie une analyse des variables courir crier. La variable idligne est utilise pour identier les lignes. La sous-commande INITIAL spcie que les valeurs de dpart doivent tre tires du chier behavior_ini.sav. Les coordonnes des lignes et des colonnes sont empiles, avec les coordonnes des colonnes la suite des coordonnes des lignes. La sous-commande CONDITION spcie que toutes les proximits peuvent tre compares entre elles. Ceci est vri pour cette analyse : en comparant les proximits obtenues pour les comportements Courir dans un parc et Courir dans une glise vous observez que lun des deux comportements est considr moins appropri que lautre. La sous-commande TRANSFORMATION indique une transformation linaire des proximits avec constante. Ceci est appropri si une diffrence de 1 point dans les proximits est observe dans tout lintervalle. En dautres termes, si les tudiants ont attribu leurs notes de manire ce que la diffrence entre 0 et 1 est la mme que la diffrence entre 5 et 6, alors une transformation linaire est approprie. La sous-commande PLOT demande des diagrammes de lespace commun et des diagrammes de transformation. Tous les autres paramtres sont rinitialiss leur valeur par dfaut.

300 Chapitre 15

Mesures
Figure 15-28 Mesures

Lalgorithme converge aprs 169 itrations, avec une mesure du stress pnalis nale de 0,6427725. Les coefcients de variation et lindex de Shepard sont sufsamment levs et les indices de DeSarbo sufsamment bas pour suggrer quil nexiste aucun problme de dgnrescence.

301 Dpliage multidimensionnel

Espace commun
Figure 15-29 Diagramme join de lespace commun

La dimension horizontale apparat plus fortement associe aux objets de colonnes (comportements) et tablit une discrimination entre les comportements inappropris (se battre, roter) et les comportements plus appropris. La dimension verticale apparat plus fortement associe aux objets de lignes (situations) et dnit diffrentes restrictions parmi les relations comportement-situation tablies.

Dans la partie infrieure de la dimension verticale se situent les situations ( lglise, en classe) restreintes aux types de comportements plus calmes et introspectifs (lire, crire). Ainsi, ces comportements sont contenus dans la partie infrieure de laxe vertical. Dans la partie suprieure de la dimension verticale se trouvent les situations (lms, jeux, rendez-vous) restreintes aux types de comportements sociables/extrovertis (manger, embrasser, rire). Ainsi, ces comportements sont contenus dans la partie suprieure de laxe vertical. Au centre de la dimension verticale, les situations sont rparties distinctivement le long de la dimension horizontale selon le caractre restrictif de la situation. Les situations les plus loignes des comportements (en entretien) sont les plus restrictives, alors que celles les proches des comportements (dans la chambre, au parc) sont gnralement les moins restrictives.

302 Chapitre 15

Transformations de proximit
Figure 15-30 Diagramme de transformation

Les proximits taient traites comme linaires dans cette analyse, de manire ce que le diagramme reprsentant les valeurs transformes en fonction des proximits dorigine forme une ligne droite. Lajustement de cette solution est bon, mais un meilleur ajustement peut tre obtenu par une transformation diffrente des proximits.

Modification de la transformation des proximits (ordinale)


E Pour produire une solution avec transformation ordinale des proximits, cliquez sur loutil

Rappeler bote de dialogue et slectionnez Dpliage multidimensionnel.

303 Dpliage multidimensionnel E Cliquez sur Modle dans la bote de dialogue Dpliage multidimensionnel. Figure 15-31 Bote de dialogue Modle

E Slectionnez loption Ordinal comme transformation de proximits. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.

Voici la syntaxe de commande gnre par ces slections :


PREFSCAL VARIABLES=Run Talk Kiss Write Eat Sleep Mumble Read Fight Belch Argue Jump Cry Laugh Shout /INPUT=ROWS(ROWID ) /INITIAL=( 'samplesDirectory/behavior_ini.sav' ) dim1 dim2 /CONDITION=UNCONDITIONAL /TRANSFORMATION=LINEAR (INTERCEPT) /PROXIMITIES=DISSIMILARITIES /MODEL=IDENTITY /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0) /PRINT=MEASURES COMMON /PLOT=COMMON TRANSFORMATIONS .

La seule diffrence rside dans la sous-commande TRANSFORMATION. La transformation est dnie sur ORDINAL, ce qui prserve lordre des proximits mais ne ncessite pas que les valeurs transformes soient proportionnelles aux valeurs dorigine.

304 Chapitre 15

Mesures
Figure 15-32 Mesures de la solution avec transformation ordinale

Lalgorithme converge aprs 268 itrations, avec une mesure du stress pnalis nale de 0.6044671. Cette statistique et les autres mesures sont lgrement meilleures pour cette solution que pour celle obtenue par transformation linaire des proximits.

305 Dpliage multidimensionnel

Espace commun
Figure 15-33 Diagramme joint de lespace commun pour la solution avec transformation ordinale

Linterprtation de lespace commun est la mme pour les deux solutions. Cette solution (transformation ordinale) prsente une variation relativement plus faible sur la dimension verticale que sur la dimension horizontale contrairement la solution avec transformation linaire.

306 Chapitre 15

Transformations de proximit
Figure 15-34 Diagramme de transformation de la solution avec transformation ordinale

A lexception des valeurs aux proximits les plus leves, qui se distinguent du reste des valeurs, la transformation ordinale des proximits est relativement linaire. Ces proximits leves non-linaires constituent la principale diffrence entre les solutions ordinale et linaire ; cependant, nous ne disposons pas de sufsamment dinformations pour dteminer si cette tendance non-linaire dans les valeurs les plus leves savre tre une tendance vrie ou une anomalie.

Lectures recommandes
Reportez-vous aux crits suivants pour plus dinformations : Busing, F. M. T. A., P. J. F. Groenen, et W. J. Heiser. 2005. Avoiding degeneracy in multidimensional unfolding by penalizing on the coefcient of variation. Psychometrika, 70, . Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, .

Annexe

Fichiers dexemple

Les chiers dexemple installs avec le produit gurent dans le sous-rpertoire Echantillons du rpertoire dinstallation. Il existe un dossier distinct au sein du sous-rpertoire Echantillons pour chacune des langues suivantes : Anglais, Franais, Allemand, Italien, Japonais, Coren, Polonais, Russe, Chinois simpli, Espangol et Chinois traditionnel. Seuls quelques chiers dexemples sont disponibles dans toutes les langues. Si un chier dexemple nest pas disponible dans une langue, le dossier de langue contient la version anglaise du chier dexemple.
Descriptions

Voici de brves descriptions des chiers dexemple utiliss dans divers exemples travers la documentation.

accidents.sav.Ce chier de donnes dhypothse concerne une socit dassurance qui tudie

les facteurs de risque lis lge et au sexe dans les accidents de la route survenant dans une rgion donne. Chaque observation correspond une classication croise de la catgorie dge et du sexe.

adl.sav. Ce chier de donnes dhypothse concerne les mesures entreprises pour identier les

avantages dun type de thrapie propos aux patients qui ont subi une attaque cardiaque. Les mdecins ont assign de manire alatoire les patients du sexe fminin ayant subi une attaque cardiaque un groupe parmi deux groupes possibles. Le premier groupe a fait lobjet de la thrapie standard tandis que le second a bnci en plus dune thrapie motionnelle. Trois mois aprs les traitements, les capacits de chaque patient effectuer les tches ordinaires de la vie quotidienne ont t notes en tant que variables ordinales.

advert.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

dtaillant pour examiner la relation existant entre largent dpens dans la publicit et les ventes rsultantes. Pour ce faire, il collecte les chiffres des ventes passes et les cots associs la publicit.

aflatoxin.sav. Ce chier de donnes dhypothse concerne le test de laatoxine dans des

rcoltes de mas. La concentration de ce poison varie largement dune rcolte lautre et au sein de chaque rcolte. Un processeur de grain a reu 16 chantillons issus de 8 rcoltes de mas et a mesur les niveaux dalfatoxine en parties par milliard (PPB).

aflatoxin20.sav. Ce chier de donnes contient les mesures daatoxine de chacun des

16 chantillons des rcoltes 4 et 8 du chier de donnes aatoxin.sav.


anorectic.sav. En cherchant dvelopper une symptomatologie standardise du comportement

anorexique/boulimique, des chercheurs(Van der Ham, Meulman, Van Strien, et Van Engeland, 1997) ont examin 55 adolescents souffrant de troubles alimentaires. Chaque patient a t
Copyright SPSS Inc. 1989, 2010 307

308 Annexe A

observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des 16 symptmes. En raison de labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217.

autoaccidents.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

un analyste en assurances pour modliser le nombre daccidents de la route par conducteur tout en prenant en compte lge et le sexe du conducteur. Chaque observation reprsente un conducteur distinct et enregistre son sexe, son ge et le nombre daccidents de la route au cours des cinq dernires annes.

band.sav. Ce chier de donnes contient les chiffres de ventes hebdomadaires hypothtiques

de CD musicaux dun groupe. Les donnes relatives trois variables explicatives possibles sont galement incluses.

bankloan.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une

banque pour rduire le taux de dfaut de paiement. Il contient des informations nancires et dmographiques sur 850 clients existants et ventuels. Les premires 700 observations concernent des clients auxquels des prts ont t octroys. Les 150 dernires observations correspondant aux clients ventuels que la banque doit classer comme bons ou mauvais risques de crdit.

bankloan_binning.sav. Ce chier de donnes dhypothse concerne des informations

nancires et dmographiques sur 5 000 clients existants.


behavior.sav. Dans un exemple classique (Price et Bouffard, 1974), on a demand

52 tudiants de noter les combinaisons tablies partir de 15 situations et de 15 comportements sur une chelle de 0 9, o 0 = extrmement appropri et 9 = extrmement inappropri . En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine diffrence entre les valeurs.

behavior_ini.sav. Ce chier de donnes contient la conguration initiale dune solution

bidimensionnelle pour behavior.sav.


brakes.sav. Ce chier de donnes dhypothse concerne le contrle qualit effectu dans

une usine qui fabrique des freins disque pour des voitures haut de gamme. Le chier de donnes contient les mesures de diamtre de 16 disques de 8 machines de production. Le diamtre cible des freins est de 322 millimtres.

breakfast.sav. Au cours dune tude classique (Green et Rao, 1972), on a demand

21 tudiants en MBA (Master of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins apprci . Leurs prfrences ont t enregistres dans six scnarios diffrents, allant de Prfrence gnrale En-cas avec boisson uniquement .

breakfast-overall.sav. Ce chier de donnes contient les prfrences de petit-djeuner du

premier scnario uniquement, Prfrence gnrale .


broadband_1.sav. Ce chier de donnes dhypothse concerne le nombre dabonns, par

rgion, un service haut dbit. Le chier de donnes contient le nombre dabonns mensuels de 85 rgions sur une priode de quatre ans.

broadband_2.sav. Ce chier de donnes est identique au chier broadband_1.sav mais contient

les donnes relatives trois mois supplmentaires.

309 Fichiers dexemple

car_insurance_claims.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs

(McCullagh et Nelder, 1989) qui concerne des actions en indemnisation pour des voitures. Le montant daction en indemnisation moyen peut tre model comme prsentant une distribution gamma, laide dune fonction de lien inverse pour associer la moyenne de la variable dpendante une combinaison linaire de lge de lassur, du type de vhicule et de lge du vhicule. Le nombre dactions entreprises peut tre utilis comme pondration de positionnement.

car_sales.sav. Ce chier de donnes contient des estimations de ventes hypothtiques, des

barmes de prix et des spcications physiques concernant divers modles et marques de vhicule. Les barmes de prix et les spcications physiques proviennent tour tour de edmunds.com et des sites des constructeurs.

car_sales_uprepared.sav. Il sagit dune version modie de car_sales.sav qui ninclut aucune

version transforme des champs.


carpet.sav. Dans un exemple courant (Green et Wind, 1973), une socit intresse par la

commercialisation dun nouveau nettoyeur de tapis souhaite examiner linuence de cinq critres sur la prfrence du consommateur : la conception du conditionnement, la marque, le prix, une tiquette Economique et une garantie satisfait ou rembours. Il existe trois niveaux de critre pour la conception du conditionnement, suivant lemplacement de lapplicateur, trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour chacun des deux derniers critres. Dix consommateurs classent 22 prols dnis par ces critres. La variable Prfrence indique le classement des rangs moyens de chaque prol. Un rang faible correspond une prfrence leve. Cette variable rete une mesure globale de prfrence pour chaque prol.

carpet_prefs.sav. Ce chier de donnes repose sur le mme exemple que celui dcrit pour

carpet.sav, mais contient les classements rels issus de chacun des 10 clients. On a demand aux consommateurs de classer les 22 prols de produits, du prfr au moins intressant. Les variables PREF1 PREF22 contiennent les identicateurs des prols associs, tels quils sont dnis dans carpet_plan.sav.

catalog.sav. Ce chier de donnes contient des chiffres de ventes mensuelles hypothtiques

relatifs trois produits vendus par une entreprise de vente par correspondance. Les donnes relatives cinq variables explicatives possibles sont galement incluses.

catalog_seasfac.sav. Ce chier de donnes est identique catalog.sav mais contient en plus

un ensemble de facteurs saisonniers calculs partir de la procdure de dsaisonnalisation, ainsi que les variables de date correspondantes.

cellular.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

oprateur tlphonique pour rduire les taux de dsabonnement. Des scores de propension au dsabonnement sont attribus aux comptes, de 0 100. Les comptes ayant une note gale ou suprieure 50 sont susceptibles de changer de fournisseur.

ceramics.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

fabricant pour dterminer si un nouvel alliage haute qualit rsiste mieux la chaleur quun alliage standard. Chaque observation reprsente un test spar de lun des deux alliages ; le degr de chaleur auquel lalliage ne rsiste pas est enregistr.

310 Annexe A

cereal.sav. Ce chier de donnes dhypothse concerne un sondage de 880 personnes

interroges sur leurs prfrences de petit-djeuner et sur leur ge, leur sexe, leur situation familiale et leur mode de vie (actif ou non actif, selon quelles pratiquent une activit physique au moins deux fois par semaine). Chaque observation correspond un rpondant distinct.

clothing_defects.sav. Ce chier de donnes dhypothse concerne le processus de contrle

qualit observ dans une usine de textile. Dans chaque lot produit lusine, les inspecteurs prlvent un chantillon de vtements et comptent le nombre de vtements qui ne sont pas acceptables.

coffee.sav. Ce chier de donnes concerne limage perue de six marques de caf frapp

(Kennedy, Riquier, et Sharp, 1996). Pour chacun des 23 attributs dimage de caf frapp, les personnes sollicites ont slectionn toutes les marques dcrites par lattribut. Les six marques sont appeles AA, BB, CC, DD, EE et FF des ns de condentialit.

contacts.sav. Ce chier de donnes dhypothse concerne les listes de contacts dun groupe

de reprsentants en informatique dentreprise. Chaque contact est class selon le service de lentreprise o il travaille et le classement de son entreprise. Sont galement enregistrs le montant de la dernire vente effectue, le temps pass depuis la dernire vente et la taille de lentreprise du contact.

creditpromo.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

grand magasin pour valuer lefcacit dune promotion rcente de carte de crdit. A cette n, 500 dtenteurs de carte ont t slectionns au hasard. La moiti a reu une publicit faisant la promotion dun taux dintrt rduit sur les achats effectus dans les trois mois venir. Lautre moiti a reu une publicit saisonnire standard.

customer_dbase.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

une socit pour utiliser les informations gurant dans sa banque de donnes et proposer des offres spciales aux clients susceptibles dtre intresss. Un sous-groupe de la base de clients a t slectionn au hasard et a reu des offres spciales. Les rponses des clients ont t enregistres.

customer_information.sav. Un chier de donnes dhypothse qui contient les informations

postales du client, telles que le nom et ladresse.


customer_subset.sav. Un sous-ensemble de 80 observations de customer_dbase.sav. customers_model.sav. Ce chier de donnes dhypothse concerne les personnes cibles par

une campagne de marketing. Ces donnes incluent des informations dmographiques, un rcapitulatif de lhistorique dachat et indiquent si chaque personne a rpondu ou non la campagne. Chaque observation reprsente une personne distincte.

customers_new.sav. Ce chier de donnes dhypothse concerne les personnes constituant des

cibles potentielles pour une campagne de marketing. Ces donnes incluent des informations dmographiques et un rcapitulatif de lhistorique dachat pour chaque personne. Chaque observation reprsente une personne distincte.

debate.sav. Ce chier de donnes dhypothse concerne des rponses apparies une enqute

donne aux participants un dbat politique avant et aprs le dbat. Chaque observation reprsente un rpondant distinct.

debate_aggregate.sav. Il sagit dun chier de donnes dhypothse qui rassemble les rponses

dans le chier debate.sav. Chaque observation correspond une classication croise de prfrence avant et aprs le dbat.

311 Fichiers dexemple

demo.sav. Ce chier de donnes dhypothse concerne une base de donnes clients achete en

vue de diffuser des offres mensuelles. Les donnes indiquent si le client a rpondu ou non loffre et contiennent diverses informations dmographiques.

demo_cs_1.sav. Ce chier de donnes dhypothse concerne la premire mesure entreprise

par une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond une ville diffrente. La rgion, la province, le quartier et la ville sont enregistrs.

demo_cs_2.sav. Ce chier de donnes dhypothse concerne la seconde mesure entreprise par

une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond un mnage diffrent issu des villes slectionnes la premire tape. La rgion, la province, le quartier, la ville, la sous-division et lidentication sont enregistrs. Les informations dchantillonnage des deux premires tapes de la conception sont galement incluses.

demo_cs.sav. Ce chier de donnes dhypothse concerne des informations denqute

collectes via une mthode complexe dchantillonnage. Chaque observation correspond un mnage diffrent et diverses informations gographiques et dchantillonnage sont enregistres.

dmdata.sav. Ceci est un chier de donnes dhypothse qui contient des informations

dmographiques et des informations concernant les achats pour une entreprise de marketing direct. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reu un envoi dessai, et dmdata3.sav contient des informations sur les contacts restants qui nont pas reu lenvoi dessai.

dietstudy.sav. Ce chier de donnes dhypothse contient les rsultats dune tude portant sur

le rgime de Stillman(Rickman, Mitchell, Dingman, et Dalen, 1974). Chaque observation correspond un sujet distinct et enregistre son poids en livres avant et aprs le rgime, ainsi que ses niveaux de triglycrides en mg/100 ml.

dvdplayer.sav. Ce chier de donnes dhypothse concerne le dveloppement dun nouveau

lecteur DVD. A laide dun prototype, lquipe de marketing a collect des donnes de groupes spciques. Chaque observation correspond un utilisateur interrog et enregistre des informations dmographiques sur cet utilisateur, ainsi que ses rponses aux questions portant sur le prototype.

german_credit.sav. Ce chier de donnes provient de lensemble de donnes German

credit gurant dans le rfrentiel Machine Learning Databases (Blake et Merz, 1998) de luniversit de Californie, Irvine.

grocery_1month.sav. Ce chier de donnes dhypothse est le chier de donnes

grocery_coupons.sav dans lequel les achats hebdomadaires sont organiss par client distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montant dpens enregistr est prsent la somme des montants dpenss au cours des quatre semaines de lenqute.

grocery_coupons.sav. Il sagit dun chier de donnes dhypothse qui contient des donnes

denqute collectes par une chane de magasins dalimentation qui chercher dterminer les habitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaines et chaque observation correspond une semaine distincte. Les informations enregistres concernent les endroits o le client effectue ses achats, la manire dont il les effectue, ainsi que les sommes dpenses en provisions au cours de cette semaine.

312 Annexe A

guttman.sav. Bell (Bell, 1961) a prsent un tableau pour illustrer les groupes sociaux

possibles. Guttman (Guttman, 1968) a utilis une partie de ce tableau, dans lequel cinq variables dcrivant des lments tels que linteraction sociale, le sentiment dappartenance un groupe, la proximit physique des membres et la formalit de la relation, ont t croises avec sept groupes sociaux thoriques, dont les foules (par exemple, le public dun match de football), laudience (par exemple, au cinma ou dans une salle de classe), le public (par exemple, les journaux ou la tlvision), les bandes (proche dune foule, mais qui serait caractrise par une interaction beaucoup plus intense), les groupes primaires (intimes), les groupes secondaires (volontaires) et la communaut moderne (groupement lche issu dune forte proximit physique et dun besoin de services spcialiss).

health_funding.sav. Ce chier de donnes dhypothse concerne des donnes sur le

nancement des soins de sant (montant par groupe de 100 individus), les taux de maladie (taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de sant (taux par groupe de 10 000 individus). Chaque observation reprsente une ville diffrente.

hivassay.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

laboratoire pharmaceutique pour dvelopper une analyse rapide de dtection dinfection HIV. Lanalyse a pour rsultat huit nuances de rouge, les nuances les plus marques indiquant une plus forte probabilit dinfection. Un test en laboratoire a t effectu sur 2 000 chantillons de sang, la moiti de ces chantillons tant infecte par le virus HIV et lautre moiti tant saine.

hourlywagedata.sav. Ce chier de donnes dhypothse concerne les salaires horaires

dinrmires occupant des postes administratifs et dans les services de soins, et afchant divers niveaux dexprience.

insurance_claims.sav. Il sagit dun chier de donnes hypothtiques qui concerne une

compagnie dassurance souhaitant dvelopper un modle pour signaler des rclamations suspectes, potentiellement frauduleuses. Chaque observation correspond une rclamation distincte.

insure.sav. Ce chier de donnes dhypothse concerne une compagnie dassurance qui tudie

les facteurs de risque indiquant si un client sera amen dclarer un incident au cours dun contrat dassurance vie dune dure de 10 ans. Chaque observation gurant dans le chier de donnes reprsente deux contrats, lun ayant enregistr une rclamation et lautre non, apparis par ge et sexe.

judges.sav. Ce chier de donnes dhypothse concerne les scores attribus par des juges

expriments (plus un juge enthousiaste) 300 performances de gymnastique. Chaque ligne reprsente une performance distincte ; les juges ont examin les mmes performances.

kinship_dat.sav. Rosenberg et Kim (Rosenberg et Kim, 1975) se sont lancs dans lanalyse

de 15 termes de parent (cousin/cousine, lle, ls, frre, grand-mre, grand-pre, mre, neveu, nice, oncle, pre, petite-lle, petit-ls, sur, tante). Ils ont demand quatre groupes dtudiants (deux groupes de femmes et deux groupes dhommes) de trier ces termes en fonction des similarits. Deux groupes (un groupe de femmes et un groupe dhommes) ont t invits effectuer deux tris, en basant le second sur un autre critre que le premier. Ainsi, un total de six sources a t obtenu. Chaque source correspond une matrice de proximit , dont le nombre de cellules est gal au nombre de personnes dans une source moins le nombre de fois o les objets ont t partitionns dans cette source.

kinship_ini.sav. Ce chier de donnes contient une conguration initiale dune solution

tridimensionnelle pour kinship_dat.sav.

313 Fichiers dexemple

kinship_var.sav. Ce chier de donnes contient les variables indpendantes sexe, gnr(ation)

et degr (de sparation) permettant dinterprter les dimensions dune solution pour kinship_dat.sav. Elles permettent en particulier de rduire lespace de la solution une combinaison linaire de ces variables.

marketvalues.sav. Ce chier de donnes concerne les ventes de maisons dans un nouvel

ensemble Algonquin (Illinois) au cours des annes 19992000. Ces ventes relvent des archives publiques.

nhis2000_subset.sav.Le NHIS (National Health Interview Survey) est une enqute de

grande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avec un chantillon de mnages reprsentatifs de la population amricaine. Des informations dmographiques et des observations sur ltat de sant et le comportement sanitaire sont recueillies auprs des membres de chaque mnage. Ce chier de donnes contient un sous-groupe dinformations issues de lenqute de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Fichier de donnes et documentation dusage public. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accs en 2003.

ozone.sav. Les donnes incluent 330 observations portant sur six variables mtorologiques

pour prvoir la concentration dozone partir des variables restantes. Des chercheurs prcdents (Breiman et Friedman, 1985), (Hastie et Tibshirani, 1990), ont dcel parmi ces variables des non-linarits qui pnalisent les approches standard de la rgression.

pain_medication.sav. Ce chier de donnes dhypothse contient les rsultats dun essai

clinique dun remde anti-inammatoire traitant les douleurs de larthrite chronique. On cherche notamment dterminer le temps ncessaire au mdicament pour agir et les rsultats quil permet dobtenir par rapport un mdicament existant.

patient_los.sav. Ce chier de donnes dhypothse contient les dossiers mdicaux de patients

admis lhpital pour suspicion dinfarctus du myocarde suspect (ou attaque cardiaque ). Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.

patlos_sample.sav. Ce chier de donnes dhypothse contient les dossiers mdicaux dun

chantillon de patients sous traitement thrombolytique aprs un infarctus du myocarde. Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.

polishing.sav. Il sagit du chier de donnes du Nambeware Polishing Times de la Data

and Story Library. Il concerne les mesures quentreprend un fabricant de vaisselle en mtal (Nambe Mills, Santa Fe, Nouveau-Mexique) pour planier sa production. Chaque observation reprsente un article diffrent de la gamme de produits. Le diamtre, le temps de polissage, le prix et le type de produit sont enregistrs pour chaque article.

poll_cs.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

enquteur pour dterminer le niveau de soutien du public pour un projet de loi avant lgislature. Les observations correspondent des lecteurs enregistrs. Chaque observation enregistre le comt, la ville et le quartier o habite llecteur.

poll_cs_sample.sav. Ce chier de donnes dhypothse contient un chantillon des lecteurs

rpertoris dans le chier poll_cs.sav. Lchantillon a t prlev selon le plan spci dans le chier de plan poll.csplan et ce chier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. Toutefois, ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS Probability-Proportional-to-Size), il existe

314 Annexe A

galement un chier contenant les probabilits de slection conjointes (poll_jointprob.sav). Les variables supplmentaires correspondant la rpartition dmographique des lecteurs et leur opinion sur le projet de loi propos ont t collectes et ajoutes au chier de donnes une fois lchantillon prlev.

property_assess.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

un contrleur au niveau du comt pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits vendues dans le comt au cours de lanne prcdente. Chaque observation du chier de donnes enregistre la ville o se trouve la proprit, lvaluateur ayant visit la proprit pour la dernire fois, le temps coul depuis cette valuation, lvaluation effectue ce moment-l et la valeur de vente de la proprit.

property_assess_cs.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend

un contrleur du gouvernement pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits de ltat. Chaque observation du chier de donnes enregistre le comt, la ville et le quartier o se trouve la proprit, le temps coul depuis la dernire valuation et lvaluation alors effectue.

property_assess_cs_sample.sav. Ce chier de donnes dhypothse contient un chantillon

des proprits rpertories dans le chier property_assess_cs.sav. Lchantillon a t prlev selon le plan spci dans le chier de plan property_assess.csplan et ce chier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. La variable supplmentaire Valeur courante a t collecte et ajoute au chier de donnes une fois lchantillon prlev.

recidivism.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une

agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis, ainsi que le temps coul jusqu la seconde arrestation si elle sest produite dans les deux annes suivant la premire.

recidivism_cs_sample.sav. Ce chier de donnes dhypothse concerne les mesures

quentreprend une agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste libr suite la premire arrestation en juin 2003 et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis et les donnes relatives la seconde arrestation, si elle a eu lieu avant n juin 2006. Les rcidivistes ont t choisis dans plusieurs dpartements chantillonns conformment au plan dchantillonnage spci dans recidivism_cs.csplan. Ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS - Probability proportional to size), il existe galement un chier contenant les probabilits de slection conjointes (recidivism_cs_jointprob.sav).

rfm_transactions.sav.Un chier de donnes dhypothse qui contient les donnes de transaction

dachat, y compris la date dachat, le/les lment(s) achet(s) et le montant montaire pour chaque transaction.

salesperformance.sav. Ce chier de donnes dhypothse concerne lvaluation de deux

nouveaux cours de formation en vente. Soixante employs, diviss en trois groupes, reoivent chacun une formation standard. En outre, le groupe 2 suit une formation technique et le groupe 3 un didacticiel pratique. A lissue du cours de formation, chaque employ est test et

315 Fichiers dexemple

sa note enregistre. Chaque observation du chier de donnes reprsente un stagiaire distinct et enregistre le groupe auquel il a t assign et la note quil a obtenue au test.

satisf.sav. Il sagit dun chier de donnes dhypothse portant sur une enqute de satisfaction

effectue par une socit de vente au dtail au niveau de quatre magasins. Un total de 582 clients ont t interrogs et chaque observation reprsente la rponse dun seul client.

screws.sav.Ce chier de donnes contient des informations sur les descriptives des vis, des

boulons, des crous et des clous.(Hartigan, 1975).


shampoo_ph.sav. Ce chier de donnes dhypothse concerne le processus de contrle qualit

observ dans une usine de produits capillaires. A intervalles rguliers, six lots de sortie distincts sont mesurs et leur pH enregistr. La plage cible est 4,55,5.

ships.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs (McCullagh et

al., 1989) et concernant les dommages causs des cargos par les vagues. Les effectifs dincidents peuvent tre modliss comme des incidents se produisant selon un taux de Poisson en fonction du type de navire, de la priode de construction et de la priode de service. Les mois de service totaliss pour chaque cellule du tableau form par la classication croise des facteurs fournissent les valeurs dexposition au risque.

site.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une socit

pour choisir de nouveaux sites pour le dveloppement de ses activits. Lentreprise a fait appel deux consultants pour valuer sparment les sites. Ces consultants, en plus de fournir un rapport approfondi, ont class chaque site comme constituant une ventualit bonne , moyenne ou faible .

smokers.sav. Ce chier de donnes est extrait de ltude National Household Survey of

Drug Abuse de 1998 et constitue un chantillon de probabilit des mnages amricains. (http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la premire tape dans lanalyse de ce chier doit consister pondrer les donnes pour reter les tendances de population.

stroke_clean.sav. Ce chier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois celle-ci purge via des procdures de loption Validation de donnes.
stroke_invalid.sav. Ce chier de donnes dhypothse concerne ltat initial dune base de

donnes mdicales et comporte plusieurs erreurs de saisie de donnes.


stroke_survival. Ce chier de donnes dhypothse concerne les temps de survie de patients

qui quittent un programme de rducation la suite dun accident ischmique et rencontrent un certain nombre de problmes. Aprs lattaque, loccurrence dinfarctus du myocarde, daccidents ischmiques ou hmorragiques est signale, et le moment de lvnement enregistr. Lchantillon est tronqu gauche car il ninclut que les patients ayant survcu durant le programme de rducation mis en place suite une attaque.

stroke_valid.sav. Ce chier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois les valeurs vries via la procdure Validation de donnes. Elle contient encore des observations anormales potentielles.

survey_sample.sav. Ce chier de donnes concerne des informations denqute dont des

donnes dmographiques et des mesures comportementales. Il est bas sur un sous-ensemble de variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnes aient t modies et que des variables supplmentaires ctives aient t ajoutes titre de dmonstration.

316 Annexe A

telco.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une socit

de tlcommunications pour rduire les taux de dsabonnement de sa base de clients. Chaque observation correspond un client distinct et enregistre diverses informations dmographiques et dutilisation de service.

telco_extra.sav. Ce chier de donnes est semblable au chier de donnes telco.sav mais

les variables de permanence et de dpenses des consommateurs transformes log ont t supprimes et remplaces par des variables de dpenses des consommateurs transformes log standardises.

telco_missing.sav. Ce chier de donnes est un sous-ensemble du chier de donnes telco.sav

mais certaines des valeurs de donnes dmographiques ont t remplaces par des valeurs manquantes.

testmarket.sav. Ce chier de donnes dhypothse concerne une chane de fast foods et ses

plans marketing visant ajouter un nouveau plat son menu. Trois campagnes tant possibles pour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieurs marchs slectionns au hasard. Une promotion diffrente est effectue sur chaque site et les ventes hebdomadaires du nouveau plat sont enregistres pour les quatre premires semaines. Chaque observation correspond un site-semaine distinct.

testmarket_1month.sav. Ce chier de donnes dhypothse est le chier de donnes

testmarket.sav dans lequel les ventes hebdomadaires sont organises par site distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes enregistres sont prsent la somme des ventes ralises au cours des quatre semaines de lenqute.

tree_car.sav. Ce chier de donnes dhypothse concerne des donnes dmographiques et de

prix dachat de vhicule.


tree_credit.sav. Ce chier de donnes dhypothse concerne des donnes dmographiques

et dhistorique de prt bancaire.


tree_missing_data.sav Ce chier de donnes dhypothse concerne des donnes

dmographiques et dhistorique de prt bancaire avec un grand nombre de valeurs manquantes.


tree_score_car.sav. Ce chier de donnes dhypothse concerne des donnes dmographiques

et de prix dachat de vhicule.


tree_textdata.sav. Ce chier de donnes simples ne comporte que deux variables et vise

essentiellement indiquer ltat par dfaut des variables avant affectation du niveau de mesure et des tiquettes de valeurs.

tv-survey.sav. Ce chier de donnes dhypothse concerne une enqute mene par un studio

de tlvision qui envisage de prolonger la diffusion dun programme ou de larrter. On a demand 906 personnes si elles regarderaient le programme dans diverses situations. Chaque ligne reprsente un rpondant distinct et chaque colonne une situation distincte.

ulcer_recurrence.sav. Ce chier contient des informations partielles dune enqute visant

comparer lefcacit de deux thrapies de prvention de la rcurrence des ulcres. Il fournit un bon exemple de donnes censures par intervalle et a t prsent et analys ailleurs (Collett, 2003).

317 Fichiers dexemple

ulcer_recurrence_recoded.sav. Ce chier rorganise les informations gurant dans le chier

ulcer_recurrence.sav pour que vous puissiez modliser la probabilit dvnement pour chaque intervalle de lenqute plutt que la probabilit dvnement de n denqute. Il a t prsent et analys ailleurs (Collett et al., 2003).

verd1985.sav. Ce chier de donnes concerne une enqute (Verdegaal, 1985). Les rponses de

15 sujets 8 variables ont t enregistres. Les variables prsentant un intrt sont divises en trois ensembles. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les autres variables ont un codage nominal simple.

virus.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend un

fournisseur de services Internet pour dterminer les effets dun virus sur ses rseaux. Il a suivi le pourcentage (approximatif) de trac de messages lectroniques infects par un virus sur ses rseaux sur la dure, de la dcouverte la circonscription de la menace.

wheeze_steubenville.sav. Il sagit dun sous-ensemble dune enqute longitudinale des effets

de la pollution de lair sur la sant des enfants (Ware, Dockery, Spiro III, Speizer, et Ferris Jr., 1984). Les donnes contiennent des mesures binaires rptes de ltat asthmatique denfants de la ville de Steubenville (Ohio), gs de 7, 8, 9 et 10 ans, et indiquent si la mre fumait au cours de la premire anne de lenqute.

workprog.sav. Ce chier de donnes dhypothse concerne un programme de ladministration

visant proposer de meilleurs postes aux personnes dfavorises. Un chantillon de participants potentiels au programme a ensuite t prlev. Certains de ces participants ont t slectionns au hasard pour participer au programme. Chaque observation reprsente un participant au programme distinct.

Annexe

Notices

Licensed Materials Property of SPSS Inc., an IBM Company. Copyright SPSS Inc. 1989, 2010. Patent No. 7,023,453
The following paragraph does not apply to the United Kingdom or any other country where such provisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THIS

PUBLICATION AS IS WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Some states do not allow disclaimer of express or implied warranties in certain transactions, therefore, this statement may not apply to you. This information could include technical inaccuracies or typographical errors. Changes are periodically made to the information herein; these changes will be incorporated in new editions of the publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or the program(s) described in this publication at any time without notice. Any references in this information to non-SPSS and non-IBM Web sites are provided for convenience only and do not in any manner serve as an endorsement of those Web sites. The materials at those Web sites are not part of the materials for this SPSS Inc. product and use of those Web sites is at your own risk. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you. Information concerning non-SPSS products was obtained from the suppliers of those products, their published announcements or other publicly available sources. SPSS has not tested those products and cannot conrm the accuracy of performance, compatibility or any other claims related to non-SPSS products. Questions on the capabilities of non-SPSS products should be addressed to the suppliers of those products. This information contains examples of data and reports used in daily business operations. To illustrate them as completely as possible, the examples include the names of individuals, companies, brands, and products. All of these names are ctitious and any similarity to the names and addresses used by an actual business enterprise is entirely coincidental. COPYRIGHT LICENSE: This information contains sample application programs in source language, which illustrate programming techniques on various operating platforms. You may copy, modify, and distribute these sample programs in any form without payment to SPSS Inc., for the purposes of developing,
Copyright SPSS Inc. 1989, 2010 318

319 Notices

using, marketing or distributing application programs conforming to the application programming interface for the operating platform for which the sample programs are written. These examples have not been thoroughly tested under all conditions. SPSS Inc., therefore, cannot guarantee or imply reliability, serviceability, or function of these programs. The sample programs are provided AS IS, without warranty of any kind. SPSS Inc. shall not be liable for any damages arising out of your use of the sample programs.
Trademarks

IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in many jurisdictions worldwide. A current list of IBM trademarks is available on the Web at http://www.ibm.com/legal/copytrade.shmtl. SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide. Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft Corporation in the United States, other countries, or both. UNIX is a registered trademark of The Open Group in the United States and other countries. Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in the United States, other countries, or both. This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com. Other product and service names might be trademarks of IBM, SPSS, or other companies. Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated. Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.

Bibliographie

Barlow, R. E., D. J. Bartholomew, D. J. Bremner, et H. D. Brunk. 1972. Statistical inference under order restrictions. New York: John Wiley and Sons. Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. New York: Harper & Row. Benzcri, J. P. 1969. Statistical analysis as a tool to make patterns emerge from data. Dans : Methodologies of Pattern Recognition, S. Watanabe, d. New York: Academic Press. Benzcri, J. P. 1992. Correspondence analysis handbook. New York: Marcel Dekker. Bishop, Y. M., S. E. Feinberg, et P. W. Holland. 1975. Discrete multivariate analysis: Theory and practice. Cambridge, Massachusetts: MIT Press. Blake, C. L., et C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html. Breiman, L., et J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, . Buja, A. 1990. Remarks on functional canonical variates, alternating least squares methods and ACE. Annals of Statistics, 18, . Busing, F. M. T. A., P. J. F. Groenen, et W. J. Heiser. 2005. Avoiding degeneracy in multidimensional unfolding by penalizing on the coefcient of variation. Psychometrika, 70, . Carroll, J. D. 1968. Generalization of canonical correlation analysis to three or more sets of variables. Dans : Proceedings of the 76th Annual Convention of the American Psychological Association, 3, Washington, D.C.: American Psychological Association. Collett, D. 2003. Modelling survival data in medical research, 2 d. Boca Raton: Chapman & Hall/CRC. Commandeur, J. J. F., et W. J. Heiser. 1993. Mathematical derivations in the proximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Department of Data Theory, University of Leiden. De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, et J. J. Meulman. 2000. Macro and micro goal setting: In search of coherence. Applied Psychology, 49, . De Leeuw, J. 1982. Nonlinear principal components analysis. Dans : COMPSTAT Proceedings in Computational Statistics, Vienne: Physica Verlag. De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd d. Leiden: DSWO Press. De Leeuw, J. 1984. The Gi system of nonlinear multivariate analysis. Dans : Data Analysis and Informatics III, E. Diday, et al., d.. De Leeuw, J., et W. J. Heiser. 1980. Multidimensional scaling with restrictions on the conguration. Dans : Multivariate Analysis, Vol. V, P. R. Krishnaiah, d. Amsterdam: North-Holland. De Leeuw, J., et J. Van Rijckevorsel. 1980. HOMALS and PRINCALSSome generalizations of principal components analysis. Dans : Data Analysis and Informatics, E. Diday, et al., d. Amsterdam: North-Holland.
Copyright SPSS Inc. 1989, 2010 320

321 Bibliographie

De Leeuw, J., F. W. Young, et Y. Takane. 1976. Additive structure in qualitative data: An alternating least squares method with optimal scaling features. Psychometrika, 41, . De Leeuw, J. 1990. Multivariate analysis with optimal scaling. Dans : Progress in Multivariate Analysis, S. Das Gupta, et J. Sethuraman, ds. Calcutta: Indian Statistical Institute. Eckart, C., et G. Young. 1936. The approximation of one matrix by another one of lower rank. Psychometrika, 1, . Fisher, R. A. 1938. Statistical methods for research workers. Edimbourg: Oliver and Boyd. Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics, 10, . Gabriel, K. R. 1971. The biplot graphic display of matrices with application to principal components analysis. Biometrika, 58, . Gi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of Data Theory, University of Leiden. Gi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons. Gilula, Z., et S. J. Haberman. 1988. The analysis of multivariate contingency tables by restricted canonical and restricted association models. Journal of the American Statistical Association, 83, . Gower, J. C., et J. J. Meulman. 1993. The treatment of categorical information in physical anthropology. International Journal of Anthropology, 8, . Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Green, P. E., et Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press. Guttman, L. 1941. The quantication of a class of attributes: A theory and method of scale construction. Dans : The Prediction of Personal Adjustment, P. Horst, d. New York: Social Science Research Council. Guttman, L. 1968. A general nonmetric technique for nding the smallest coordinate space for congurations of points. Psychometrika, 33, . Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons. Hastie, T., et R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall. Hastie, T., R. Tibshirani, et A. Buja. 1994. Flexible discriminant analysis. Journal of the American Statistical Association, 89, . Hayashi, C. 1952. On the prediction of phenomena from qualitative data and the quantication of qualitative data from the mathematico-statistical point of view. Annals of the Institute of Statitical Mathematics, 2, . Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of Data Theory, University of Leiden. Heiser, W. J., et F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding of symmetric and asymmetric proximity relations. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc.. Heiser, W. J., et J. J. Meulman. 1994. Homogeneity analysis: Exploring the distribution of variables and their nonlinear relationships. Dans : Correspondence Analysis in the Social Sciences: Recent Developments and Applications, M. Greenacre, et J. Blasius, ds. New York: Academic Press.

322 Bibliographie

Heiser, W. J., et J. J. Meulman. 1995. Nonlinear methods for the analysis of homogeneity and heterogeneity. Dans : Recent Advances in Descriptive Multivariate Analysis, W. J. Krzanowski, d. Oxford: Oxford University Press. Horst, P. 1961. Generalized canonical correlations and their applications to experimental data. Journal of Clinical Psychology, 17, . Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, . Israls, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press. Kennedy, R., C. Riquier, et B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, . Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika, 58, . Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika, 29, . Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, . Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotone transformations of the data. Journal of the Royal Statistical Society Series B, 27, . Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinear methods. Dans : International Encyclopedia of Statistics, W. H. Kruskal, et J. M. Tanur, ds. New York: The Free Press. Kruskal, J. B., et R. N. Shepard. 1974. A nonmetric variety of linear factor analysis. Psychometrika, 39, . Krzanowski, W. J., et F. H. C. Marriott. 1994. Multivariate analysis: Part I, distributions, ordination and inference. Londres: Edward Arnold. Lebart, L., A. Morineau, et K. M. Warwick. 1984. Multivariate descriptive statistical analysis. New York: John Wiley and Sons. Lingoes, J. C. 1968. The multivariate analysis of qualitative data. Multivariate Behavioral Research, 3, . Max, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (Information Theory), 6, . McCullagh, P., et J. A. Nelder. 1989. Generalized Linear Models, 2nd d. Londres: Chapman & Hall. Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO Press. Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO Press. Meulman, J. J. 1992. The integration of multidimensional scaling and multivariate analysis with optimal transformations of the variables. Psychometrika, 57, . Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations of the variables: Minimizing the sum of squares of the smallest eigenvalues. British Journal of Mathematical and Statistical Psychology, 46, . Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables: Points of view analysis of categorical data. Journal of Classication, 13, .

323 Bibliographie

Meulman, J. J. 2003. Prediction and classication in nonlinear data analysis: Something old, something new, something borrowed, something blue. Psychometrika, 4, . Meulman, J. J., et W. J. Heiser. 1997. Graphical display of interaction in multiway contingency tables by use of homogeneity analysis. Dans : Visual Display of Categorical Data, M. Greenacre, et J. Blasius, ds. New York: Academic Press. Meulman, J. J., et P. Verboon. 1993. Points of view analysis revisited: Fitting multidimensional structures to optimal distance components with cluster restrictions on the variables. Psychometrika, 58, . Meulman, J. J., A. J. Van der Kooij, et A. Babinec. 2000. New features of categorical principal components analysis for complicated data sets, including data mining. Dans : Classication, Automation and New Media, W. Gaul, et G. Ritter, ds. Berlin: Springer-Verlag. Meulman, J. J., A. J. Van der Kooij, et W. J. Heiser. 2004. Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc.. Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University of Toronto Press. Nishisato, S. 1984. Forced classication: A simple application of a quantication method. Psychometrika, 49, . Nishisato, S. 1994. Elements of dual scaling: An introduction to practical data analysis. Hillsdale, New Jersey: Lawrence Erlbaum Associates, Inc. Pratt, J. W. 1987. Dividing the indivisible: Using simple symmetry to partition variance explained. Dans : Proceedings of the Second International Conference in Statistics, T. Pukkila, et S. Puntanen, ds. Tampere, Finlande: Universit de Tampere. Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, . Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4, . Rao, C. R. 1973. Linear statistical inference and its applications, 2nd d. New York: John Wiley and Sons. Rao, C. R. 1980. Matrix approximations and reduction of dimensionality in multivariate statistical analysis. Dans : Multivariate Analysis, Vol. 5, P. R. Krishnaiah, d. Amsterdam: North-Holland. Rickman, R., N. Mitchell, J. Dingman, et J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228, . Rosenberg, S., et M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, . Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten: VAM. Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function I. Psychometrika, 27, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function II. Psychometrika, 27, . Shepard, R. N. 1966. Metric structures in ordinal data. Journal of Mathematical Psychology, 3, .

324 Bibliographie

Tenenhaus, M., et F. W. Young. 1985. An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data. Psychometrika, 50, . Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H. Verrips, S. P. Verloove-Vanhorick, et J. M. Wit. 2003. Changes can be studied when the measurement instrument is different at different time points. Health Services and Outcomes Research Methodology, 4, . Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. Dans : Psychological Scaling: Theory & Applications, H. Gulliksen, et S. Messick, ds. New York: John Wiley and Sons. Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques. Leiden: DSWO Press. Van der Burg, E., et J. De Leeuw. 1983. Nonlinear canonical correlation. British Journal of Mathematical and Statistical Psychology, 36, . Van der Burg, E., J. De Leeuw, et R. Verdegaal. 1988. Homogeneity analysis with k sets of variables: An alternating least squares method with optimal scaling features. Psychometrika, 53, . Van der Ham, T., J. J. Meulman, D. C. Van Strien, et H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, . Van der Kooij, A. J., et J. J. Meulman. 1997. MURALS: Multiple regression and optimal scaling using alternating least squares. Dans : Softstat 97, F. Faulbaum, et W. Bandilla, ds. Stuttgart: Gustav Fisher. Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO Press. Verboon, P., et R. A. Van der Lans. 1994. Robust canonical discriminant analysis. Psychometrika, 59, . Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en nerlandais). Leiden: Department of Data Theory, University of Leiden. Vlek, C., et P. J. Stallen. 1981. Judging risks and benets in the small and in the large. Organizational Behavior and Human Performance, 28, . Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. Londres: Lawrence Erlbaum Associates, Inc. Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, et B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, . Winsberg, S., et J. O. Ramsay. 1980. Monotonic transformations to additivity using splines. Biometrika, 67, . Winsberg, S., et J. O. Ramsay. 1983. Monotone spline transformations for dimension reduction. Psychometrika, 48, . Wolter, K. M. 1985. Introduction to variance estimation. Berlin: Springer-Verlag. Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46, . Young, F. W., J. De Leeuw, et Y. Takane. 1976. Regression with qualitative and quantitative variables: An alternating least squares method with optimal scaling features. Psychometrika, 41, .

325 Bibliographie

Young, F. W., Y. Takane, et J. De Leeuw. 1978. The principal components of mixed measurement level multivariate data: An alternating least squares method with optimal scaling features. Psychometrika, 43, . Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, et J. J. Meulman. 2000. The role of parents and peers in the leisure activities of young adolescents. Journal of Leisure Research, 32, .

Index
Ajustement Dans lanalyse de corrlation canonique non linaire, 47 Alpha de Cronbach Dans lanalyse en composantes principales nominales, 150 Analyse de corrlation canonique non linaire, 43, 4647, 196 Barycentres, 211 coordonnes des modalits, 210 Corrlations entre composantes, 205, 207 Diagrammes, 43 Fonctionnalits supplmentaires, 49 Pondrations, 205 quantications, 208 rcapitulatif de lanalyse, 204 statistiques, 43 Analyse de correspondance multiple, 59, 64, 234 Coordonnes des objets, 239, 243 Enregistrement de variables, 68 Fonctionnalits supplmentaires, 71 Mesures de discrimination, 240 Niveau de codage optimal, 61 rcapitulatif du modle, 238 Valeurs affectes aux modalits, 241 Valeurs loignes, 246 Analyse des correspondances, 50, 5253, 5556, 222, 224 contributions, 229 Diagrammes, 50 diagrammes des coordonnes principales des colonnes, 230 diagrammes des coordonnes principales des lignes, 230 Dimensions, 228 Fonctionnalits supplmentaires, 58 Standardisation, 223 statistiques, 50 Analyse en composantes principales qualitatives, 28, 34, 145, 158 Coordonnes des objets, 153, 156, 176 Corrlations entre composantes, 154, 158, 175 Enregistrement de variables, 38 Fonctionnalits supplmentaires, 42 Historique des itrations, 150 Niveau de codage optimal, 30 points de modalit, 178 quantications, 151, 171 rcapitulatif du modle, 150, 156, 174 ANOVA Dans la rgression nominale, 24 Barycentres Dans lanalyse de corrlation canonique non linaire, 47, 211 barycentres projets Dans lanalyse de corrlation canonique non linaire, 211 coefcient de variation dans le dpliage multidimensionnel, 274, 277, 283, 290, 300 coefcients Dans la rgression nominale, 112 Coefcients de rgression Dans la rgression nominale, 24 Conguration initiale Dans la rgression nominale, 21 Dans lanalyse de corrlation canonique non linaire, 47 dans le dpliage multidimensionnel, 91 Dans le positionnement multidimensionnel, 81 contributions Dans lanalyse des correspondances, 229 Coordonnes de lespace commun dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 coordonnes de lespace individuel dans le dpliage multidimensionnel, 95 coordonnes des modalits Dans lanalyse de corrlation canonique non linaire, 210 Coordonnes des objets Dans lanalyse de corrlation canonique non linaire, 47 Dans lanalyse en composantes principales nominales, 36, 153, 156, 176 Dans une analyse de correspondance multiple, 66, 239, 243 Corrlations Dans le positionnement multidimensionnel, 85 Corrlations entre composantes Dans lanalyse de corrlation canonique non linaire, 47, 207 Dans lanalyse en composantes principales nominales, 36, 154, 158, 175 Corrlations partielles Dans la rgression nominale, 113 Corrlations simples Dans la rgression nominale, 113 Critres ditration dans le dpliage multidimensionnel, 91 Dans le positionnement multidimensionnel, 81

326

327 Index

Dpliage multidimensionnel, 87, 271, 294 dgnrer les solutions, 271 dpliage tridimensionnel , 278 Diagrammes, 87, 93 espace commun, 275, 278, 284, 291, 301, 305 espaces individuels, 285, 292 Fonctionnalits supplmentaires, 97 mesures, 274, 277, 283, 290, 300, 304 Modle, 88 Options, 91 restrictions sur lespace commun., 90 Rsultats, 95 statistiques, 87 transformations de proximit, 302, 306 dpliage tridimensionnel dans le dpliage multidimensionnel, 278 diagramme de dispersion de lajustement dans le dpliage multidimensionnel, 93 diagramme join de lespace commun dans le dpliage multidimensionnel, 275, 278, 284, 291, 301, 305 diagramme joint des espaces individuels dans le dpliage multidimensionnel, 285, 292 diagrammes Dans la rgression nominale, 27 Diagrammes Dans lanalyse de corrlation canonique non linaire, 47 Dans lanalyse des correspondances, 56 Dans le positionnement multidimensionnel, 8384 diagrammes dparts multiples dans le dpliage multidimensionnel, 93 Diagrammes de barycentres projets Dans lanalyse en composantes principales nominales, 40 Diagrammes de corrlations Dans le positionnement multidimensionnel, 83 diagrammes de lespace commun nal dans le dpliage multidimensionnel, 93 diagrammes de lespace commun initial dans le dpliage multidimensionnel, 93 diagrammes de mesures de discrimination Dans une analyse de correspondance multiple, 69 Diagrammes de modalits Dans lanalyse en composantes principales nominales, 40 Dans une analyse de correspondance multiple, 69 Diagrammes de points dobjet Dans lanalyse en composantes principales nominales, 39 Dans une analyse de correspondance multiple, 69 diagrammes de pondration des espaces dans le dpliage multidimensionnel, 93 Diagrammes de pondration despace individuel dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83

Diagrammes de saturations Dans lanalyse en composantes principales nominales, 41 Diagrammes de Shepard dans le dpliage multidimensionnel, 93 Diagrammes de stress dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83 Diagrammes de transformation Dans la rgression nominale, 115 Dans lanalyse en composantes principales nominales, 40 dans le dpliage multidimensionnel, 93, 302, 306 Dans le positionnement multidimensionnel, 83, 267 Dans une analyse de correspondance multiple, 69 diagrammes des coordonnes principales des colonnes Dans lanalyse des correspondances, 230 diagrammes des coordonnes principales des lignes Dans lanalyse des correspondances, 230 diagrammes des rsidus dans le dpliage multidimensionnel, 93 Diagrammes despace commun dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83 Diagrammes despace individuel dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83 Diagrammes doubles Dans lanalyse des correspondances, 56 Dans lanalyse en composantes principales nominales, 39 Dans une analyse de correspondance multiple, 69 Diagrammes triples Dans lanalyse en composantes principales nominales, 39 Dimensions Dans lanalyse des correspondances, 53, 228 Discrtisation Dans la rgression nominale, 19 Dans lanalyse en composantes principales nominales, 32 Dans une analyse de correspondance multiple, 62 Distances dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 elastic net Dans la rgression nominale, 23 espace commun dans le dpliage multidimensionnel, 275, 278, 284, 291, 301, 305 Dans le positionnement multidimensionnel, 265, 268 espaces individuels dans le dpliage multidimensionnel, 285, 292 chiers dexemple emplacement, 307

328 Index

Historique des itrations Dans lanalyse en composantes principales nominales, 36, 150 dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 Dans une analyse de correspondance multiple, 66 importance Dans la rgression nominale, 113 Index estimatif de non-dgnrescence de Shepard dans le dpliage multidimensionnel, 274, 277, 283, 290, 300 Indices dintermixit de DeSarbo dans le dpliage multidimensionnel, 274, 277, 283, 290, 300 Inertie Dans lanalyse des correspondances, 55 intercorrlations Dans la rgression nominale, 111 Joindre les diagrammes de modalits Dans lanalyse en composantes principales nominales, 40 Dans une analyse de correspondance multiple, 69 lasso Dans la rgression nominale, 23 legal notices, 318 Matrice de corrlation Dans lanalyse en composantes principales nominales, 36 Dans une analyse de correspondance multiple, 66 mesures Dans la rgression nominale, 113 Mesures de discrimination Dans une analyse de correspondance multiple, 66, 240 Mesures de distance Dans lanalyse des correspondances, 53 Mesures du stress dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85, 263, 268 Mises jour relaxes Dans le positionnement multidimensionnel, 81 modle didentit dans le dpliage multidimensionnel, 88 modle Euclidien gnralis dans le dpliage multidimensionnel, 88 modle Euclidien pondr dans le dpliage multidimensionnel, 88 modles de positionnement dans le dpliage multidimensionnel, 88 Niveau de codage optimal Dans lanalyse en composantes principales nominales, 30

Dans une analyse de correspondance multiple, 61 normalisation principale Dans lanalyse des correspondances, 223 normalisation principale en colonne Dans lanalyse des correspondances, 223 normalisation principale en ligne Dans lanalyse des correspondances, 223 normalisation symtrique Dans lanalyse des correspondances, 223 Objets supplmentaires Dans la rgression nominale, 21 points de modalit Dans lanalyse en composantes principales nominales, 178 Pondration des variables Dans lanalyse en composantes principales nominales, 30 Dans une analyse de correspondance multiple, 61 Pondrations Dans lanalyse de corrlation canonique non linaire, 47, 205 pondrations des dimensions dans le dpliage multidimensionnel, 285, 292 Pondrations des espaces individuels dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 Positionnement multidimensionnel, 72, 7478, 252 Diagrammes, 72, 8384 Diagrammes de transformation, 267 espace commun, 265, 268 Fonctionnalits supplmentaires, 86 Mesures du stress, 263, 268 Modle, 79 Options, 81 Restrictions, 80 Rsultats, 85 statistiques, 72 PREFSCAL, 87 Proximits transformes dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 quantications Dans lanalyse de corrlation canonique non linaire, 208 Dans lanalyse en composantes principales nominales, 151, 171 R multiple Dans la rgression nominale, 24 R2 Dans la rgression nominale, 112

329 Index

rcapitulatif du modle Dans une analyse de correspondance multiple, 238 rgression de crte Dans la rgression nominale, 23 Rgression nominale, 16, 99 Corrlations, 112113 diagrammes, 16 Diagrammes de transformation, 115 enregistrer, 26 Fonctionnalits supplmentaires, 27 importance, 113 intercorrlations, 111 Niveau de codage optimal, 17 qualit de lajustement, 112 rgularisation, 23 Rsidus, 116 statistiques, 16 Rsidus Dans la rgression nominale, 116 Restrictions Dans le positionnement multidimensionnel, 80 restrictions sur lespace commun. dans le dpliage multidimensionnel, 90 Standardisation Dans lanalyse des correspondances, 53, 223 Statistiques de conance Dans lanalyse des correspondances, 55 statistiques descriptives Dans la rgression nominale, 24 stress pnalis dans le dpliage multidimensionnel, 274, 283, 290, 300, 304 terme de pnalit dans le dpliage multidimensionnel, 91 trademarks, 319 transformations de proximit dans le dpliage multidimensionnel, 88 Valeurs affectes aux modalits Dans la rgression nominale, 24 Dans lanalyse de corrlation canonique non linaire, 47 Dans lanalyse en composantes principales nominales, 36 Dans une analyse de correspondance multiple, 66, 241 valeurs dajustement Dans lanalyse de corrlation canonique non linaire, 204 valeurs de perte Dans lanalyse de corrlation canonique non linaire, 204 Valeurs loignes Dans une analyse de correspondance multiple, 246 valeurs manquantes Dans la rgression nominale, 20

Valeurs manquantes Dans lanalyse en composantes principales nominales, 33 Dans une analyse de correspondance multiple, 63 Valeurs propres Dans lanalyse de corrlation canonique non linaire, 204 Dans lanalyse en composantes principales nominales, 150, 156, 174 Variables indpendantes transformes Dans le positionnement multidimensionnel, 85 Variance explique par Dans lanalyse en composantes principales nominales, 36, 150, 174