Xlstat Aide

XLSTAT 2007
Copyright 2007, Addinsoft

http://www.addinsoft.com
Table des matires

Si vous visualisez ce document dans un diteur de documents pdf, il vous suffit de cliquer sur
le numro de la page pour vous y rendre directement.

TABLE DES MATIERES ........................................................................................................................... 2
INTRODUCTION...................................................................................................................................... 14
CONFIGURATION MINIMALE............................................................................................................. 15
INSTALLATION ....................................................................................................................................... 16
LICENCE.................................................................................................................................................... 16
L'ESPRIT XLSTAT................................................................................................................................... 19
SELECTION DES DONNEES.................................................................................................................. 19
MESSAGES ................................................................................................................................................ 22
OPTIONS.................................................................................................................................................... 23
ECHANTILLONNAGE DE DONNEES.................................................................................................. 27
DESCRIPTION............................................................................................................................................. 27
BOITE DE DIALOGUE.................................................................................................................................. 28
BIBLIOGRAPHIE......................................................................................................................................... 29
ECHANTILLONNAGE DANS UNE DISTRIBUTION......................................................................... 30
DESCRIPTION............................................................................................................................................. 30
EXEMPLE................................................................................................................................................... 36
BIBLIOGRAPHIE......................................................................................................................................... 36
TRANSFORMATION DE VARIABLES................................................................................................. 38
CREER UN TABLEAU DE CONTINGENCE........................................................................................ 41
DESCRIPTION............................................................................................................................................. 41
TABLEAUX DISJONCTIFS COMPLETS ............................................................................................. 46
DESCRIPTION............................................................................................................................................. 46
EXEMPLE................................................................................................................................................... 47
DISCRETISATION ................................................................................................................................... 48
DESCRIPTION............................................................................................................................................. 48
3
RESULTATS ............................................................................................................................................... 52
BIBLIOGRAPHIE......................................................................................................................................... 53
GESTION DES DONNEES....................................................................................................................... 54
DESCRIPTION............................................................................................................................................. 54
CODAGE .................................................................................................................................................... 58
CODAGE PRESENCE/ABSENCE .......................................................................................................... 60
DESCRIPTION............................................................................................................................................. 60
EXEMPLE................................................................................................................................................... 61
CODAGE EN RANGS............................................................................................................................... 62
DESCRIPTION............................................................................................................................................. 62
EXEMPLE................................................................................................................................................... 63
STATISTIQUES DESCRIPTIVES ET GRAPHIQUES UNIVARIES................................................. 65
DESCRIPTION............................................................................................................................................. 65
EXEMPLE................................................................................................................................................... 75
BIBLIOGRAPHIE......................................................................................................................................... 75
HISTOGRAMMES.................................................................................................................................... 76
DESCRIPTION............................................................................................................................................. 76
RESULTATS ............................................................................................................................................... 85
EXEMPLE................................................................................................................................................... 86
BIBLIOGRAPHIE......................................................................................................................................... 86
TESTS DE NORMALITE......................................................................................................................... 87
DESCRIPTION............................................................................................................................................. 87
RESULTATS ............................................................................................................................................... 90
EXEMPLE................................................................................................................................................... 90
BIBLIOGRAPHIE......................................................................................................................................... 90
MATRICES DE SIMILARITE/DISSIMILARITE (CORRELATIONS, ...)........................................ 92
DESCRIPTION............................................................................................................................................. 92
RESULTATS ............................................................................................................................................... 96
BIBLIOGRAPHIE......................................................................................................................................... 96
STATISTIQUES DE MULTICOLINEARITE........................................................................................ 97
4
DESCRIPTION............................................................................................................................................. 97
RESULTATS ............................................................................................................................................. 100
BIBLIOGRAPHIE....................................................................................................................................... 100
TABLEAU DE CONTINGENCE (STATISTIQUES DESCRIPTIVES) ............................................ 101
DESCRIPTION........................................................................................................................................... 101
BOITE DE DIALOGUE................................................................................................................................ 102
XLSTAT-PIVOT...................................................................................................................................... 105
DESCRIPTION........................................................................................................................................... 105
RESULTATS ............................................................................................................................................. 108
EXEMPLE................................................................................................................................................. 109
BIBLIOGRAPHIE....................................................................................................................................... 109
NUAGES DE POINTS............................................................................................................................. 110
EXEMPLE................................................................................................................................................. 112
BIBLIOGRAPHIE....................................................................................................................................... 112
GRAPHIQUES EN COORDONNEES PARALLELES....................................................................... 113
DESCRIPTION........................................................................................................................................... 113
EXEMPLE................................................................................................................................................. 115
BIBLIOGRAPHIE....................................................................................................................................... 115
AXESZOOMER....................................................................................................................................... 116
EASYLABELS.......................................................................................................................................... 117
REPOSITIONNEMENT DES ETIQUETTES ...................................................................................... 119
GRAPHIQUES ORTHONORMES........................................................................................................ 120
REDIMENSIONNER UN GRAPHIQUE .............................................................................................. 121
TRANSFORMATIONS DE GRAPHIQUES......................................................................................... 122
FUSION DE GRAPHIQUES................................................................................................................... 124
5
ANALYSE FACTORIELLE................................................................................................................... 126
DESCRIPTION........................................................................................................................................... 126
RESULTATS ............................................................................................................................................. 134
EXEMPLE................................................................................................................................................. 135
BIBLIOGRAPHIE....................................................................................................................................... 136
ANALYSE EN COMPOSANTES PRINCIPALES (ACP) ................................................................... 137
DESCRIPTION........................................................................................................................................... 137
RESULTATS ............................................................................................................................................. 146
EXEMPLE................................................................................................................................................. 147
BIBLIOGRAPHIE....................................................................................................................................... 148
ANALYSE FACTORIELLE DISCRIMINANTE (AFD) ..................................................................... 149
DESCRIPTION........................................................................................................................................... 149
RESULTATS ............................................................................................................................................. 158
EXEMPLE................................................................................................................................................. 161
BIBLIOGRAPHIE....................................................................................................................................... 162
ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) .................................................... 163
DESCRIPTION........................................................................................................................................... 163
RESULTATS ............................................................................................................................................. 170
EXEMPLE................................................................................................................................................. 172
BIBLIOGRAPHIE....................................................................................................................................... 172
ANALYSE DES CORRESPONDANCES MULTIPLES (ACM) ........................................................ 174
DESCRIPTION........................................................................................................................................... 174
BOITE DE DIALOGUE (SOUS-ENSEMBLE DE MODALITES) .......................................................................... 180
RESULTATS ............................................................................................................................................. 180
EXEMPLE................................................................................................................................................. 182
BIBLIOGRAPHIE....................................................................................................................................... 182
MULTIDIMENSIONAL SCALING (MDS) .......................................................................................... 183
DESCRIPTION........................................................................................................................................... 183
RESULTATS ............................................................................................................................................. 188
EXEMPLE................................................................................................................................................. 189
BIBLIOGRAPHIE....................................................................................................................................... 189
CLASSIFICATION K-MEANS.............................................................................................................. 190
DESCRIPTION........................................................................................................................................... 190
6
RESULTATS ............................................................................................................................................. 195
EXEMPLE................................................................................................................................................. 196
BIBLIOGRAPHIE....................................................................................................................................... 196
CLASSIFICATION ASCENDANTE HIERARCHIQUE (CAH)........................................................ 197
DESCRIPTION........................................................................................................................................... 197
RESULTATS ............................................................................................................................................. 202
EXEMPLE................................................................................................................................................. 203
BIBLIOGRAPHIE....................................................................................................................................... 204
PARTITIONNEMENT UNIVARIE....................................................................................................... 205
DESCRIPTION........................................................................................................................................... 205
RESULTATS ............................................................................................................................................. 207
BIBLIOGRAPHIE....................................................................................................................................... 208
AJUSTEMENT D'UNE LOI DE PROBABILITE................................................................................ 209
DESCRIPTION........................................................................................................................................... 209
RESULTATS ............................................................................................................................................. 218
EXEMPLE................................................................................................................................................. 219
BIBLIOGRAPHIE....................................................................................................................................... 219
REGRESSION LINEAIRE..................................................................................................................... 221
DESCRIPTION........................................................................................................................................... 221
RESULTATS ............................................................................................................................................. 227
EXEMPLE................................................................................................................................................. 231
BIBLIOGRAPHIE....................................................................................................................................... 232
ANOVA..................................................................................................................................................... 233
DESCRIPTION........................................................................................................................................... 233
RESULTATS ............................................................................................................................................. 243
EXEMPLE................................................................................................................................................. 247
BIBLIOGRAPHIE....................................................................................................................................... 248
ANCOVA .................................................................................................................................................. 249
DESCRIPTION........................................................................................................................................... 249
RESULTATS ............................................................................................................................................. 256
EXEMPLE................................................................................................................................................. 260
BIBLIOGRAPHIE....................................................................................................................................... 261
REGRESSION LOGISTIQUE ............................................................................................................... 262
DESCRIPTION........................................................................................................................................... 262
7
RESULTATS ............................................................................................................................................. 274
EXEMPLE................................................................................................................................................. 276
BIBLIOGRAPHIE....................................................................................................................................... 276
REGRESSION NON PARAMETRIQUE.............................................................................................. 278
DESCRIPTION........................................................................................................................................... 278
RESULTATS ............................................................................................................................................. 287
EXEMPLE................................................................................................................................................. 287
BIBLIOGRAPHIE....................................................................................................................................... 288
REGRESSION NON LINEAIRE ........................................................................................................... 289
DESCRIPTION........................................................................................................................................... 289
RESULTATS ............................................................................................................................................. 294
EXEMPLE................................................................................................................................................. 295
BIBLIOGRAPHIE....................................................................................................................................... 296
ARBRES DE CLASSIFICATION ET DE REGRESSION.................................................................. 297
DESCRIPTION........................................................................................................................................... 297
MENU CONTEXTUEL POUR LES ARBRES ................................................................................................... 307
RESULTATS ............................................................................................................................................. 308
EXEMPLE................................................................................................................................................. 309
BIBLIOGRAPHIE....................................................................................................................................... 309
REGRESSION PLS/PCR/OLS ............................................................................................................... 311
DESCRIPTION........................................................................................................................................... 311
RESULTATS ............................................................................................................................................. 323
EXEMPLE................................................................................................................................................. 331
BIBLIOGRAPHIE....................................................................................................................................... 332
TESTS DE CORRELATION.................................................................................................................. 333
DESCRIPTION........................................................................................................................................... 333
RESULTATS ............................................................................................................................................. 337
EXEMPLE................................................................................................................................................. 337
BIBLIOGRAPHIE....................................................................................................................................... 337
TESTS SUR LES TABLEAUX DE CONTINGENCE (KHI, ...) ........................................................ 338
DESCRIPTION........................................................................................................................................... 338
RESULTATS ............................................................................................................................................. 345
BIBLIOGRAPHIE....................................................................................................................................... 346
8
TEST DE TENDANCE DE COCHRAN-ARMITAGE ........................................................................ 347
DESCRIPTION........................................................................................................................................... 347
RESULTATS ............................................................................................................................................. 350
BIBLIOGRAPHIE....................................................................................................................................... 350
TEST DE MANTEL................................................................................................................................. 352
DESCRIPTION........................................................................................................................................... 352
RESULTATS ............................................................................................................................................. 355
EXEMPLE................................................................................................................................................. 355
BIBLIOGRAPHIE....................................................................................................................................... 356
TEST Z POUR UNE PROPORTION..................................................................................................... 357
DESCRIPTION........................................................................................................................................... 357
RESULTATS ............................................................................................................................................. 359
EXEMPLE................................................................................................................................................. 359
BIBLIOGRAPHIE....................................................................................................................................... 359
TEST Z POUR DEUX PROPORTIONS ............................................................................................... 360
DESCRIPTION........................................................................................................................................... 360
RESULTATS ............................................................................................................................................. 362
EXEMPLE................................................................................................................................................. 362
BIBLIOGRAPHIE....................................................................................................................................... 362
COMPARAISON DE K PROPORTIONS............................................................................................. 363
DESCRIPTION........................................................................................................................................... 363
RESULTATS ............................................................................................................................................. 365
EXEMPLE................................................................................................................................................. 365
BIBLIOGRAPHIE....................................................................................................................................... 365
TESTS T ET Z POUR UN ECHANTILLON........................................................................................ 366
DESCRIPTION........................................................................................................................................... 366
RESULTATS ............................................................................................................................................. 369
BIBLIOGRAPHIE....................................................................................................................................... 369
TESTS T ET Z POUR DEUX ECHANTILLONS ................................................................................ 370
DESCRIPTION........................................................................................................................................... 370
RESULTATS ............................................................................................................................................. 375
BIBLIOGRAPHIE....................................................................................................................................... 376
TESTS DE COMPARAISON DE MOYENNES POUR K ECHANTILLONS.................................. 377
9
COMPARAISON DES VARIANCES DE DEUX ECHANTILLONS ................................................ 378
DESCRIPTION........................................................................................................................................... 378
RESULTATS ............................................................................................................................................. 382
BIBLIOGRAPHIE....................................................................................................................................... 382
COMPARAISON DES VARIANCES DE K ECHANTILLONS......................................................... 383
DESCRIPTION........................................................................................................................................... 383
RESULTATS ............................................................................................................................................. 386
BIBLIOGRAPHIE....................................................................................................................................... 386
COMPARAISON DE DEUX DISTRIBUTIONS (KOLMOGOROV-SMIRNOV) ........................... 387
DESCRIPTION........................................................................................................................................... 387
RESULTATS ............................................................................................................................................. 390
BIBLIOGRAPHIE....................................................................................................................................... 390
COMPARAISON DE DEUX ECHANTILLONS (WILCOXON, MANN-WHITNEY, ...)............... 392
DESCRIPTION........................................................................................................................................... 392
RESULTATS ............................................................................................................................................. 399
BIBLIOGRAPHIE....................................................................................................................................... 399
COMPARAISON DE K ECHANTILLONS (KRUSKAL-WALLIS, FRIEDMAN, ...)..................... 400
DESCRIPTION........................................................................................................................................... 400
RESULTATS ............................................................................................................................................. 405
EXEMPLE................................................................................................................................................. 405
BIBLIOGRAPHIE....................................................................................................................................... 405
TEST Q DE COCHRAN.......................................................................................................................... 406
DESCRIPTION........................................................................................................................................... 406
RESULTATS ............................................................................................................................................. 408
BIBLIOGRAPHIE....................................................................................................................................... 408
TEST DE MCNEMAR............................................................................................................................. 410
DESCRIPTION........................................................................................................................................... 410
RESULTATS ............................................................................................................................................. 413
BIBLIOGRAPHIE....................................................................................................................................... 413
TEST DES SEQUENCES POUR UN ECHANTILLON...................................................................... 414
DESCRIPTION........................................................................................................................................... 414
10
RESULTATS ............................................................................................................................................. 418
BIBLIOGRAPHIE....................................................................................................................................... 418
DATAFLAGGER..................................................................................................................................... 419
RECHERCHE DU MIN/MAX................................................................................................................ 421
SUPPRIMER LES VALEURS TEXTUELLES .................................................................................... 422
GESTION DES FEUILLES .................................................................................................................... 423
SUPPRIMER LES FEUILLES CACHEES........................................................................................... 424
AFFICHER LES FEUILLES CACHEES.............................................................................................. 425
EXPORTER VERS GIF/JPG/PNG/TIF ................................................................................................ 426
AFFICHER LA BARRE PRINCIPALE................................................................................................ 427
CACHER LES BARRES SECONDAIRES ........................................................................................... 427
CARTOGRAPHIE EXTERNE DES PREFERENCES (PREFMAP) ................................................. 428
DESCRIPTION........................................................................................................................................... 428
RESULTATS ............................................................................................................................................. 437
EXEMPLE................................................................................................................................................. 438
BIBLIOGRAPHIE....................................................................................................................................... 438
ANALYSE PROCRUSTEENNE GENERALISEE............................................................................... 439
DESCRIPTION........................................................................................................................................... 439
RESULTATS ............................................................................................................................................. 446
EXEMPLE................................................................................................................................................. 448
BIBLIOGRAPHIE....................................................................................................................................... 448
PENALTY ANALYSIS............................................................................................................................ 449
DESCRIPTION........................................................................................................................................... 449
RESULTATS ............................................................................................................................................. 452
EXEMPLE................................................................................................................................................. 453
BIBLIOGRAPHIE....................................................................................................................................... 453
11
GRAPHIQUES SEMANTIQUES DIFFERENTIELS.......................................................................... 454
DESCRIPTION........................................................................................................................................... 454
RESULTATS ............................................................................................................................................. 456
EXEMPLE................................................................................................................................................. 456
BIBLIOGRAPHIE....................................................................................................................................... 457
ANALYSE DESCRIPTIVE..................................................................................................................... 458
DESCRIPTION........................................................................................................................................... 458
RESULTATS ............................................................................................................................................. 461
EXEMPLE................................................................................................................................................. 462
BIBLIOGRAPHIE....................................................................................................................................... 462
TRANSFORMATION DE SERIES TEMPORELLES ........................................................................ 464
DESCRIPTION........................................................................................................................................... 464
RESULTATS ............................................................................................................................................. 467
EXEMPLE................................................................................................................................................. 469
BIBLIOGRAPHIE....................................................................................................................................... 469
LISSAGE................................................................................................................................................... 470
DESCRIPTION........................................................................................................................................... 470
RESULTATS ............................................................................................................................................. 477
EXEMPLE................................................................................................................................................. 478
BIBLIOGRAPHIE....................................................................................................................................... 478
ARIMA...................................................................................................................................................... 480
DESCRIPTION........................................................................................................................................... 480
RESULTATS ............................................................................................................................................. 485
EXEMPLE................................................................................................................................................. 487
BIBLIOGRAPHIE....................................................................................................................................... 487
ANALYSE SPECTRALE........................................................................................................................ 489
DESCRIPTION........................................................................................................................................... 489
RESULTATS ............................................................................................................................................. 494
EXEMPLE................................................................................................................................................. 495
BIBLIOGRAPHIE....................................................................................................................................... 495
TRANSFORMEE DE FOURIER........................................................................................................... 496
DESCRIPTION........................................................................................................................................... 496
RESULTATS ............................................................................................................................................. 497
12
BIBLIOGRAPHIE....................................................................................................................................... 497
ANALYSE DE KAPLAN-MEIER.......................................................................................................... 498
DESCRIPTION........................................................................................................................................... 498
RESULTATS ............................................................................................................................................. 501
EXEMPLE................................................................................................................................................. 502
BIBLIOGRAPHIE....................................................................................................................................... 503
TABLEAUX DE SURVIE ....................................................................................................................... 504
DESCRIPTION........................................................................................................................................... 504
RESULTATS ............................................................................................................................................. 508
EXEMPLE................................................................................................................................................. 509
BIBLIOGRAPHIE....................................................................................................................................... 509
ANALYSE CANONIQUE DES CORRELATIONS ............................................................................. 511
DESCRIPTION........................................................................................................................................... 511
RESULTATS ............................................................................................................................................. 515
EXEMPLE................................................................................................................................................. 516
BIBLIOGRAPHIE....................................................................................................................................... 516
ANALYSE DE REDONDANCE (RDA)................................................................................................. 517
DESCRIPTION........................................................................................................................................... 517
RESULTATS ............................................................................................................................................. 523
EXEMPLE................................................................................................................................................. 523
BIBLIOGRAPHIE....................................................................................................................................... 523
ANALYSE CANONIQUE DES CORRESPONDANCES (ACC) ........................................................ 525
DESCRIPTION........................................................................................................................................... 525
RESULTATS ............................................................................................................................................. 530
EXEMPLE................................................................................................................................................. 531
BIBLIOGRAPHIE....................................................................................................................................... 531
ANALYSE FACTORIELLE MULTIPLE (AFM) ................................................................................ 532
DESCRIPTION........................................................................................................................................... 532
RESULTATS ............................................................................................................................................. 542
EXEMPLE................................................................................................................................................. 544
BIBLIOGRAPHIE....................................................................................................................................... 544
ANALYSE D'EFFETS DE DOSE........................................................................................................... 545
DESCRIPTION........................................................................................................................................... 545
13
RESULTATS ............................................................................................................................................. 551
EXEMPLE................................................................................................................................................. 553
BIBLIOGRAPHIE....................................................................................................................................... 553
REGRESSION LOGISTIQUE A 4 PARAMETRES ET COURBES PARALLELES...................... 554
DESCRIPTION........................................................................................................................................... 554
RESULTATS ............................................................................................................................................. 558
BIBLIOGRAPHIE....................................................................................................................................... 559
XLSTAT-PLSPM..................................................................................................................................... 560
DESCRIPTION........................................................................................................................................... 560
PROJETS .................................................................................................................................................. 578
OPTIONS.................................................................................................................................................. 578
BARRES DOUTILS ................................................................................................................................... 579
AJOUTER DES VARIABLES MANIFESTES ................................................................................................... 581
DEFINIR DES GROUPES............................................................................................................................. 584
AJUSTER LE MODELE............................................................................................................................... 585
OPTIONS POUR LES RESULTATS ............................................................................................................... 589
RESULTATS ............................................................................................................................................. 592
EXEMPLE................................................................................................................................................. 594
BIBLIOGRAPHIE....................................................................................................................................... 594

14
Introduction
XLSTAT est dvelopp depuis plus de dix ans dans le but de rendre accessible au plus grand
nombre un outil danalyse de donnes et de statistique la fois puissant, complet et convivial.
Laccessibilit vient de la compatibilit avec toutes les versions de Microsoft Excel aujourdhui
utilises (Excel 97 Excel 2007), de linterface disponible en 7 langues (allemand, anglais,
franais, espagnol, italien, japonais, portugais) et de la mise disposition sur le site
www.xlstat.com dune version dvaluation utilisable 30 jours.
La puissance de XLSTAT vient la fois du langage de programmation C++, et des
algorithmes utiliss, qui sont le fruit des travaux de recherche de centaines de chercheurs
statisticiens, mathmaticiens ou informaticiens. Chaque dveloppement dune nouvelle
fonctionnalit de XLSTAT est prcd dune phase de recherche bibliographique approfondie,
voire dchanges avec les spcialistes des mthodes concernes.
La compltude de XLSTAT est le fruit dune part de plus de dix ans de travail, et dautre part
dchanges rguliers avec les utilisateurs, dont les ides et suggestions permettent de faire
progresser le logiciel encore plus vite.
Enfin, la convivialit vient de linterface, qui aprs quelques minutes de prise en main, rend
facile et efficace lutilisation de mthodes parfois trs complexes qui requirent dans dautres
logiciels des heures dapprentissage.
Larchitecture du logiciel a considrablement volu au cours des 5 dernires annes afin de
prendre en compte les progrs dExcel, et les problmes de compatibilit entre les diffrentes
plates-formes. Le logiciel sappuie aujourdhui sur le Visual Basic Application pour les
interfaces et le C++ pour les calculs.
Comme toujours, les quipes dAddinsoft et des distributeurs de XLSTAT se tiennent votre
disposition pour rpondre toute question, ou pour prendre en compte vos remarques et
suggestions afin de continuer amliorer le logiciel.

15
Configuration minimale

XLSTAT fonctionne sous les systmes dexploitation suivants : Windows 95, Windows 98,
Windows Me, Windows NT, Windows 2000, Windows XP, Windows Vista, Mac OSX.
Pour fonctionner, XLSTAT a besoin que Microsoft Excel soit install sur votre ordinateur. Les
versions requises sur les systmes Windows sont : Excel 97 (8.0), Excel 2000 (9.0), Excel XP
(10.0), Excel 2003 (11.0) ou Excel 2007 (12.0). Sur le systme Mac OSX 10.4, Excel X ou
2004 sont requis.
Microsoft met rgulirement votre disposition sur son site des patchs et des mises jour des
logiciels de la suite Office. Il est vivement recommand dinstaller ces mises jour en raison
des corrections parfois essentielles quelles comportent. Pour vrifier si votre version dExcel
est jour, nous vous recommandons de vous rendre rgulirement sur :
Windows : http://office.microsoft.com/officeupdate
Mac : http://www.microsoft.com/mac/downloads.aspx

16
Installation

Pour installer XLSTAT vous devez :
- soit double-cliquer sur le fichier xlstat2007.exe tlcharg depuis le site www.xlstat.com
ou depuis le site de lun de nos partenaires, ou disponible sur le CD-Rom dont vous
disposez,
- soit insrer le CD-Rom votre disposition et attendre que la procdure dinstallation
dmarre automatiquement.

Si vos droits sont restreints sur lordinateur que vous utilisez, vous devez faire appel un
administrateur de la machine pour quil installe le logiciel. Une fois linstallation termine,
ladministrateur doit veiller laisser un droit daccs lecture/criture aux lments suivants :
- Dossiers du disque dur :
Dossier dans lequel se trouve Excel.exe
Dossier dans lequel se trouve les fichiers utilisateur, (ex : C:\...\Application
Data\Addinsoft\XLSTAT2007\)
Le rpertoire pour les fichiers utilisateur pourra tre chang ultrieurement par une personne
ayant des droits dadministrateur sur lordinateur. Pour cela, il suffit dutiliser loption
correspondante dans longlet Avances de la bote de dialogue des options XLSTAT.

Licence
XLSTAT 2007 Contrat de Licence de l'Utilisateur Final
ADDINSOFT SARL ("ADDINSOFT") ACCEPTE DE VOUS CONCEDER LA LICENCE
D'UTILISATION DE LA VERSION 2007 DE SON LOGICIEL XLSTAT ET DE LA
DOCUMENTATION QUI L'ACCOMPAGNE (LE "LOGICIEL") A LA SEULE CONDITION QUE
VOUS ACCEPTIEZ LES TERMES DE CE CONTRAT (LE CONTRAT ). VEUILLEZ LIRE
LES TERMES ATTENTIVEMENT. SI VOUS N'ACCEPTEZ PAS L'UN DES TERMES DE CE
CONTRAT, ADDINSOFT REFUSE DE VOUS ACCORDER LA LICENCE D'UTILISATION DU
LOGICIEL.

1. LICENCE. Par le prsent contrat Addinsoft vous donne le droit non exclusif d'installer et
d'utiliser le logiciel dans sa version lectronique sur un seul ordinateur utilisable par un seul
17
individu si vous utilisez la version de dmonstration ou la version exempte de date limite
d'utilisation. Si vous avez command une version multi-utilisateurs, le nombre d'utilisateurs
dpend du nombre d'utilisateurs spcifi sur la facture qui a t transmise vos services
administratifs par Addinsoft.

2. RESTRICTIONS. Le Logiciel est la proprit intellectuelle d'Addinsoft et de ses
fournisseurs. Tous les droits sur le logiciel qui ne font pas partie du contrat de licence sont
entirement rservs Addinsoft. Vous n'avez pas le droit de dcompiler, modifier ou utiliser
les sources du logiciel pour toute utilisation non conforme aux lois en vigueur. Si une partie
des sources devait vous apparatre par erreur vous devez imprativement en avertir Addinsoft.
Toute tentative d'utilisation, de dtournement ou de transfert de tout droit, devoir ou obligation
mentionns ci-dessous sera sans objet. Vous n'avez aucun droit de louer, revendre pour un
profit quelconque le Logiciel. Vous n'avez aucun droit de reproduire ou distribuer le logiciel
sans un accord pralable d'Addinsoft et hors du cadre prvu par l'article 1.

3. SUPPORT. Les utilisateurs enregistrs du Logiciel n'utilisant pas la version de
dmonstration ont le droit d'accder au service aprs vente standard d'Addinsoft, les termes et
les conditions de ce dernier pouvant tre modifis par Addinsoft tout moment. Les
utilisateurs de la version de dmonstration peuvent contacter Addinsoft pour obtenir de laide
sans toutefois avoir la garantie qu'il soit rpondu leurs demandes ou leurs questions.

4. GARANTIE. Le Logiciel est livr "TEL QUEL" et Addinsoft rejette toute obligation de
garantie concernant son Utilisation ou ses performances. Addinsoft et ses fournisseurs ne
garantissent pas et ne peuvent pas garantir les performances ou les rsultats que vous
pouvez obtenir en utilisant le logiciel. A l'exception de toute autre garantie, condition,
reprsentation ou clause pour lesquelles les mmes droits ne peuvent ou ne doivent pas tre
exclus ou limits par la loi applicable dans votre juridiction, Addinsoft et ses fournisseurs ne
donnent aucune garantie, condition, reprsentation ou clause, expresse ou implicite,
contractuelle, de droit commun, tire de la coutume, ou des usages commerciaux ou autre,
concernant d'autres sujets, y compris sans que ceci soit limitatif, concernant la non-violation
des droits d'un tiers, la commercialisation, l'intgration du logiciel, sa qualit satisfaisante ou
son adquation une fin spcifique.

5. LIMITATION DE RESPONSABILIT. En aucun cas Addinsoft et ses fournisseurs ne
pourront tre tenus pour responsable pour tous dommages, rclamations ou quelques cots
que ce soit ou pour tous dommages directs ou indirects, ou pour tout manque gagner, pertes
d'exploitation, pertes de bnfices, et ce mme si un reprsentant de Addinsoft a t inform
de la possibilit de tels dommages, pertes, rclamations ou cots. en aucun cas Addinsoft ou
ses fournisseurs n'assument de responsabilit envers vous en cas de rclamation d'un tiers.
Les limitations et restrictions ci-dessus s'appliquent ds lors qu'elles sont autorises par la loi
18
applicable dans votre juridiction. La responsabilit totale de Addinsoft ainsi que celle de ses
fournisseurs dans le cadre de ce contrat ou en rapport avec ce dernier, est limite la somme
verse pour lacquisition du logiciel, s'il y a lieu. Aucune clause dans ce Contrat ne limite la
responsabilit d'Addinsoft envers vous en cas de dcs ou de prjudices corporels rsultant
d'une ngligence avre de la part d'Addinsoft. Addinsoft agit pour le compte de ses
fournisseurs aux fins de rclamer, d'exclure et/ou de limiter les obligations, les garanties et les
responsabilits stipules dans ce Contrat, mais aucun autre gard et dans aucun autre but.

6. CLAUSE RESOLUTOIRE. Ce Contrat est valable pour une dure maximum de 99 ans
moins qu'il n'y soit mis fin par l'une des deux parties. Vous pouvez mettre fin ce contrat tout
moment en supprimant toutes les versions du logiciel sur l'ordinateur concern. Ce contrat de
licence sera rsolu de fait si l'un des termes du prsent contrat est viol. Aprs rupture du
contrat vous serez oblig de supprimer toute copie du logiciel install sur l'ordinateur
concern.

7. PARTIES CONTRACTANTES. Si ce logiciel est install sur un ou des ordinateurs
appartenant une entreprise ou toute autre personne morale, alors ce contrat est conclu
entre Addinsoft et cette personne morale. La personne donnant son accord pour ce contrat
certifie tre habilite prendre l'engagement correspondant au prsent contrat vis--vis
d'Addinsoft.

8. INDEMNITES. Vous acceptez de vous engager dfendre Addinsoft contre toute plainte,
rclamation, pertes, dommages, cots et pertes, y compris les frais d'avocats, auxquels
Addinsoft devrait faire face dans le cas de votre rupture du prsent contrat.

9. GENERAL. Le logiciel est un produit commercial . Ce contrat est crit dans l'esprit de la
loi franaise et doit tre interprt comme tel. En cas de contestation ou de litige, les
juridictions attributives seront les tribunaux de Paris, France. Ce contrat est un contrat entre
vous et Addinsoft concernant le Logiciel et remplace tout autre accord pralable crit et oral
entre vous et Addinsoft au sujet du Logiciel.

COPYRIGHT (c) 2007 Addinsoft SARL, Paris, FRANCE. TOUS DROITS RESERVES.
XLSTAT(r) est une marque dpose de Addinsoft SARL.
PARIS, FRANCE, Novembre 2007

19
L'esprit XLSTAT
XLSTAT est un logiciel dont linterface sappuie entirement sur Microsoft Excel, tant pour la
rcupration des donnes que pour la restitution des rsultats. Les calculs sont en revanche
totalement indpendants de Microsoft Excel et ont t dvelopps avec le langage de
programmation C++.
Afin de vous garantir une qualit irrprochable des rsultats proposs, le logiciel XLSTAT a fait
lobjet de tests intensifs, et a t valid par des spcialistes des mthodes utilises.
Dans un souci damlioration permanente des logiciels quelle propose, la socit Addinsoft
est lcoute des remarques et suggestions que vous voudriez lui transmettre. Pour contacter
Addinsoft, vous pouvez crire support@xlstat.com

Slection des donnes
Comme pour lensemble des modules XLSTAT, la slection des donnes se fait directement
sur la feuille Excel, de prfrence avec la souris. Les logiciels de statistique affichent
classiquement des listes de variables slectionner ou non pour la mthode employe ou
non. Lapproche de XLSTAT est compltement diffrente puisque vous choisissez les donnes
directement sur une ou plusieurs feuilles Excel.
Deux modes de slection sont votre disposition, sachant que pour chaque variable ou
groupe de variables (par exemple dune part la variable dpendante, dautre part les variables
quantitatives explicatives) vous pouvez opter pour lun des modes. Les deux modes sont :
- Slection par plage : vous slectionnez avec la souris lensemble des cellules de la
feuille Excel correspondant aux variables ou au tableau de donnes, aprs avoir cliqu
dans la zone correspondante de la bote de dialogue.
- Slection par colonnes : ce mode de slection ne peut tre utilis que si votre tableau
de donnes commence sur la premire ligne de la feuille Excel. Aprs avoir cliqu dans
la zone de la bote de dialogue correspondant la slection que vous voulez faire, vous
devez cliquer sur le nom de la premire colonne correspondant votre tableau (A, B, C,
), puis slectionner les autres colonnes en laissant le bouton droit de la souris
enfonc.
- Slection par lignes : ce mode de slection ne peut tre utilis que si votre tableau de
donnes commence sur la premire colonne de la feuille Excel (colonne A). Aprs avoir
cliqu dans la zone de la bote de dialogue correspondant la slection que vous
voulez faire, vous devez cliquer sur le nom de la premire ligne correspondant votre
tableau (1, 2, 3, ), puis slectionner les autres lignes en laissant le bouton droit de la
souris enfonc.
20

Remarques :
- Les slections multiples sont possibles. Par exemple, si vos variables vont de la
colonne B la colonne G, mais que vous ne souhaitez pas inclure la colonne E dans
lanalyse, vous pouvez slectionner les colonnes B D avec la souris, puis cliquer sur
la touche Ctrl puis slectionner les colonnes F G en laissant la touche Ctrl enfonce.
Vous pouvez aussi slectionner les colonnes B G, puis cliquer sur la touche Ctrl puis
slectionner la colonne E.
- Vous ne pouvez pas mlanger les modes lintrieur dune slection. En revanche,
vous pouvez utiliser diffrents modes lintrieur dune mme bote de dialogue.
- Si votre tableau comprend sur la premire ligne le libell des variables, vous devez
veiller ce que loption Libells des variables , Libells des colonnes ou
Libells prsents soit active.
- Vous pouvez utiliser les raccourcis clavier pour slectionner les donnes trs
rapidement et sans la souris. Cela nest toutefois possible que si vous avez install les
derniers correctifs pour Excel. Les raccourcis les plus utiles sont les suivants :
o Ctrl A : slectionne toutes les cellules de la feuille
o Ctrl Space : slectionne toute la colonne correspondant aux cellules dj
slectionnes
o Shift Space : slectionne toute la ligne correspondant aux cellules dj
slectionnes
- Quand la slection active correspond une cellule ou un groupe de cellules :
o Shift Bas : slectionne sur une ligne vers le bas les cellules adjacentes aux
cellules dj slectionnes
o Shift Haut : slectionne sur une ligne vers le haut les cellules adjacentes aux
cellules dj slectionnes
o Shift Gauche : slectionne sur une colonne vers la gauche les cellules
adjacentes aux cellules dj slectionnes
o Shift Droite : slectionne sur une colonne vers la droite les cellules adjacentes
aux cellules dj slectionnes
o Ctrl Shift Bas : slectionne vers le bas toutes les cellules non vides adjacentes
aux cellules dj slectionnes
o Ctrl Shift Haut : slectionne vers le haut toutes les cellules non vides
21
o Ctrl Shift Gauche : slectionne vers la gauche toutes les cellules non vides
o Ctrl Shift Droite : slectionne vers la droite toutes les cellules non vides
- Quand la slection active correspond une ou plusieurs colonnes :
o Shift Gauche : slectionne la colonne gauche des colonnes dj
slectionnes
o Shift Droite : slectionne la colonne droite des colonnes dj slectionnes
o Ctrl Shift Gauche : slectionne vers la gauche toutes les colonnes non vides
adjacentes aux colonnes dj slectionnes
o Ctrl Shift Droite : slectionne vers la droite toutes les colonnes non vides
adjacentes aux colonnes dj slectionnes
- Quand la slection active correspond une ou plusieurs lignes :
o Shift Bas : slectionne la ligne gauche des lignes dj slectionnes
o Shift Haut : slectionne la ligne droite des lignes dj slectionnes
o Ctrl Shift Bas : slectionne vers le bas toutes les lignes non vides adjacentes
aux lignes dj slectionnes
o Ctrl Shift Haut : slectionne vers le haut toutes les lignes non vides adjacentes
aux lignes dj slectionnes

Voir aussi :
http://www.xlstat.com/demo-selectf.htm

22
Messages
XLSTAT vous propose un systme innovant et performant pour la gestion des messages
dinformation et des messages derreur. La bote ci-dessous prsente un exemple de message
qui se produit dans le cas o un champ de slection de donnes est vide (en loccurrence les
variables dpendantes), alors quune slection est attendue.

La zone en rouge (ou en bleu en fonction du contexte) vous indique quel champ de la bote de
dialogue est concern. Si vous cliquez sur Retour, le champ concern est automatiquement
activ.
Le message est en principe explicite et devrait vous aider rsoudre le problme rapidement.
Si ce ntait toutefois pas le cas, en cliquant sur lhyperlien http://www.xlstat.com vous
pouvez vous connecter sur le site de XLSTAT et accder au tutoriel le plus pertinent. Vous
pouvez aussi transmettre le message Addinsoft, soit en cliquant sur ladresse
support@xlstat.com qui apparat parfois sous lhyperlien, soit en copiant le message en
faisant Alt Shift Impr Ecran puis en collant le message dans un email (en cliquant Ctrl
C par exemple).

23
Options
XLSTAT offre un nombre important doptions afin de vous permettre une utilisation
personnalise et optimale du logiciel.
Pour afficher la bote de dialogue des options de XLSTAT, cliquez sur la commande
Options du menu XLSTAT ou cliquez sur le bouton de la barre doutils XLSTAT.

: cliquez sur ce bouton pour enregistrer les modifications.
: cliquez sur ce bouton pour fermer la bote de dialogue. Si vous navez pas
pralablement enregistr vos modifications, elles ne seront pas prises en compte.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.

Onglet Gnrales :
Langue : utilisez cette option pour modifier la langue de linterface de XLSTAT.
Entres des botes de dialogue :
- Mmoriser pendant une session : activez cette option si vous souhaitez que XLSTAT
mmorise le temps dune session (ouverture / fermeture de XLSTAT) les diffrentes
entres des botes de dialogue.
Y compris pour les slections de donnes : activez cette option si vous
souhaitez que XLSTAT conserve pendant une session les slections de
donnes.
- Mmoriser dune session lautre : activez cette option si vous souhaitez que
XLSTAT mmorise les diffrentes entres des botes de dialogue dune session
lautre.
Y compris pour les slections de donnes : activez cette option si vous
souhaitez que XLSTAT conserve aussi dune session lautre les slections de
donnes. Cette option est particulirement utile si vous travaillez souvent sur
des feuilles Excel qui ont le mme nom et une structure de donnes identiques.
Demander la confirmation des slections : activez cette option si vous souhaitez que
XLSTAT vous demande de confirmer les slections de donnes aprs que vous avez cliqu
sur le bouton OK des botes de dialogue. Si vous activez cette option, vous aurez la possibilit
24
de vrifier le nombre de lignes et de colonnes slectionnes pour lensemble des slections
actives.
Montrer seulement les fonctions actives dans les menus et les barres d'outils : Activez
cette option si vous souhaitez que seules les fonctions actives correspondant des modules
auxquels la licence donne accs soient affiches dans le menu XLSTAT et les barres d'outils.

Onglet Sorties :
Position des nouvelles feuilles : si vous choisissez loption de sortie Feuille dans les
botes de dialogue des fonctions XLSTAT, utilisez cette option pour modifier la position des
feuilles de rsultats dans le classeur Excel.
Nombre de dcimales : choisissez le nombre de dcimales afficher pour les rsultats
numriques. Notez que vous avez toujours la possibilit de voir par la suite un nombre de
dcimales infrieur ou suprieur en utilisant les options de formatage dExcel.
p-value minimale : entrez la valeur p-value minimale en-dessous de laquelle la p-value est
remplace par < p o p est la p-value minimale
Afficher les titres en gras : activez cette option pour que XLSTAT affiche les titres des
tableaux de rsultats en gras.
Afficher len-tte des tableaux en gras : activez cette option pour que XLSTAT affiche en-
ttes des tableaux de rsultats en gras.
Afficher la liste des rsultats dans len-tte du rapport : activez cette option pour que
XLSTAT affiche la liste des tableaux et graphiques de rsultats dans len-tte du rapport.
Afficher le nom du projet dans len-tte du rapport : activez cette option pour que XLSTAT
affiche le nom de votre projet dans len-tte du rapport, puis entrez le nom de votre projet dans
le champ correspondant.
Elargir la premire colonne du rapport par un facteur de X : activez cette option pour
largir automatiquement la premire colonne du rapport de XLSTAT dun facteur X. La valeur
par dfaut est 1, et correspond laisser la largeur de la colonne inchange.

Onglet Donnes manquantes :
Considrer les cellules vides comme des donnes manquantes : cette option est active
par dfaut et ne peut tre dsactive. XLSTAT considre systmatiquement quune cellule
vide dans une slection correspond une donne manquante.
25
Considrer aussi les valeurs suivantes comme des donnes manquantes : si vous
activez cette option, les valeurs indiques dans la liste en dessous de loption seront aussi
considres comme des donnes manquantes, que ce soit pour des donnes numriques ou
des donnes nominales.
Considrer toute donne textuelle comme une donne manquante : cette option ne
sapplique quaux slections de donnes numriques. Quelle que soit la donne textuelle
rencontre, elle sera considre comme une donne manquante. Si vous activez cette option
soyez sr que des donnes nont pas t converties par mgarde dun format numrique en
un format texte : vous risqueriez dignorer des observations alors quune rectification vous
permettrait de les inclure dans les calculs.

Onglet Graphiques :
Afficher les graphiques sur des feuilles spares : activez cette option pour que les
graphiques soient affichs sur des feuilles graphiques spares. Remarque : lorsque des
graphiques sont affichs sur une feuille Excel standard, vous pouvez les convertir en feuille
graphique spare en les slectionnant, puis en faisant un clic droit avec votre souris, puis en
cliquant sur Emplacement , puis en choisissant sur une nouvelle feuille .
Taille des graphiques :
- Automatique : choisissez cette option si vous souhaitez que XLSTAT dtermine
automatiquement la taille des graphiques en utilisant comme point de dpart la hauteur
et la largeur dfinies ci-dessous.
- Dfinie par lutilisateur : activez cette option si vous souhaitez que XLSTAT affiche
des graphiques dont la taille est exactement dfinie par les valeurs ci-dessous :
Largeur : entrez la valeur en points de la largeur des graphiques ;
Hauteur : entrez la valeur en points de la hauteur des graphiques.
Afficher des graphiques orthonorms : activez cette option pour que les graphiques issus
danalyses factorielles soient orthonorms. Cela permet davoir automatiquement des chelles
identiques pour les abscisses et les ordonnes, et dviter des interprtations errones du fait
deffets de dilatation artificiels.

Onglet Avances :
Nombres alatoires :
Fixer la graine : activez cette option si vous voulez vous assurer que les rsultats mettant
en jeu des calculs sur des nombres alatoires donnent toujours le mme rsultat. Entrez alors
la valeur de la graine (le point de dpart de gnration des nombres alatoires).
26
Chemin pour les fichiers utilisateurs : vous pouvez modifier le rpertoire dans lequel
doivent tre enregistrs les fichiers utilisateurs en cliquant sur le bouton [] qui vous
permettra de choisir le rpertoire. Les fichiers utilisateurs comprennent les options dfinies
dans cette bote de dialogue et les options des botes de dialogues des diffrents outils. Le
rpertoire dans lequel sont enregistrs ces fichiers doit tre accessible en lecture/criture.

27
Echantillonnage de donnes
Utilisez cet outil pour gnrer un sous-chantillon dobservations partir dun jeu de donnes
univaries ou multivaries.

Description
Lchantillonnage est lune des techniques fondamentales. La gnration dchantillons
permet notamment :
- de tester une hypothse sur un chantillon, puis de la valider sur un autre ;
- dobtenir des tableaux dune taille plus petite tout en gardant des proprits du tableau
dorigine.

Afin de rpondre diffrentes situations, plusieurs mthodes ont t proposes. XLSTAT
propose les mthodes suivantes pour gnrer un chantillon de N observations partir dun
tableau de M lignes :
N premires lignes : lchantillon obtenu est constitu des N premires lignes du tableau
initial. Cette mthode nest utiliser que si lon est sr que les donnes nont pas t tries
suivant un critre qui pourrait introduire un biais pour lanalyse.
N dernires lignes : lchantillon obtenu est constitu des N dernires lignes du tableau initial.
Cette mthode nest utiliser que si lon est sr que les donnes nont pas t tries suivant
un critre qui pourrait introduire un biais pour lanalyse.
Alatoire sans remise : des observations sont choisies au hasard et ne peuvent figurer
qu'une seule fois dans l'chantillon.
Alatoire avec remise : des observations sont choisies au hasard et peuvent figurer plusieurs
fois dans l'chantillon.
Systmatique dpart alatoire : partir de la j-ime observation du tableau initial, une
observation est extraite pour lchantillon toutes les k observations. j est choisi au hasard
parmi un nombre de possibilits dpendant de la taille du tableau initial et de la taille de
lchantillon final. k est dtermin de telle sorte que les observations extraites soient le plus
possible espaces.
Systmatique centr : les observations sont choisies de faon rgulire aux centres de N
squences dobservations de mme longueur k.
Alatoire stratifi un lment par strate : des lignes sont choisies de faon alatoire
l'intrieur de N squences dobservations de mme longueur.
28
Dfini par l'utilisateur (1) : une variable indique la frquence des observations dans
l'chantillon gnrer. Les donnes de sortie sont tries selon lordre dentre.
Dfini par l'utilisateur (2) : une variable indique la frquence des observations dans
l'chantillon gnrer. Les donnes de sortie sont tries selon un ordre alatoire.

Bote de dialogue

: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour effacer les slections de donnes.

Donnes : slectionnez les donnes sur la feuille Excel.
Echantillonnage : choisissez la mthode dchantillonnage (voir la section description pour
plus dinformation). Si lchantillonnage est dfini par lutilisateur , vous devez alors
slectionner une colonne de donnes dans le champ Effectifs , correspondant au nombre
de fois o lobservation correspondante doit tre slectionne.
Taille dchantillon : entrez la taille de lchantillon gnrer.

Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.

29
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(donnes et libells des observations) contient un libell.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option
Libells des variables est active, la premire cellule de la slection doit comprendre un
en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs (Obs1,
Obs2, ).

Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau
chantillonn commence ds la premire ligne de la feuille Excel (cas dune sortie dans une
feuille ou un classeur), et non aprs len-tte du rapport. Vous pourrez ainsi slectionner les
variables de ce tableau par colonnes.

Bibliographie
Cochran W.G. (1977). Sampling Techniques. Third edition. John Wiley and Sons, New York.
Hedayat A.S. and Sinha B.K. (1991). Design and Inference in Finite Population Sampling.
John Wiley and Sons, New York.

30
Echantillonnage dans une distribution
Utilisez cet outil pour gnrer un chantillon de donnes partir dune distribution thorique
continue ou discrte, ou partir dun chantillon existant.

Description
Dans le cas o lchantillon est gnr partir dune distribution thorique, vous devez choisir
la loi de probabilit, puis pour certaines dentre elles, vous devez ensuite entrer la valeur des
paramtres.
XLSTAT permet lutilisation des lois suivantes :
- Bta (a, b) : la densit de cette loi (aussi appele Bta de type I) est donne par :
( )
( ) | |
1
1
1 ( ) ( )
( ) 1 , avec a,b>0, 0,1 et ( , )
, ( )
b
a
a b
f x x x x B a b
B a b a b
I I
= e =
I +

On a E(X) = a/(a+b) et V(X) = ab/[(a+b+1)(a+b)]
- Binomiale (n, p) : la densit de cette loi est donne par :
( ) | | | |
( ) 1 , avec n, N, n>0, 0, , 0,1
n x
x x
n
P X x C p p x x n p
= = e e e
On a E(X)= np et V(X) = np(1-p)
n est le nombre dessais, et p la probabilit de succs. La loi binomiale est la loi du
nombre de succs pour n essais, sachant que la probabilit de succs vaut p.
- Binomiale ngative (n, p) de type I : la densit de cette loi est donne par :
( ) | |
1
1
( ) 1 , avec n, N, n>0, k n, 0,1
x
x n
n x
P X x C p p x p
+
= = e s e
On a E(X) = n(1-p)/p et V(X) = n(1-p)/p
n est le nombre de succs et p la probabilit de succs. La loi binomiale ngative
de type I est la loi du nombre de tirages x sans succs ncessaires avant davoir
obtenus n succs.
- Binomiale ngative (k, p) de type II : la densit de cette loi est donne par :
( )
( )( )
( ) , avec N, , >0
! 1
x
k x
k x p
P X x x k p
x k p
+
I +
= = e
I +

31
On a E(X) = kp et V(X) = kp(p+1)
La loi binomiale ngative de type II permet de reprsenter des phnomnes
discrets fortement htrognes. Lorsque k tend vers linfini, la loi binomiale ngative
de type II tend vers une loi de Poisson de paramtre ( =kp).
- Khi (df) : la densit de cette loi est donne par :
( )
( )
/ 2
/ 2 1 / 2 *
1/ 2
( ) , avec 0, N
/ 2
df
df x
f x x e x df
df

= > e
I

On a E(X) = df et V(X) = 2df
La loi du Khi correspond la loi de la somme des carrs de df lois normales
centres rduites (lois normales standard). Elle est trs utilise pour tester des
hypothses.
- Erlang (k, ) : la densit de cette loi est donne par :
( )
1
( ) , avec 0 et , 0 et k N
1 !
x
k k
e
f x x x k
k
= > > e

On a E(X) = k/ et V(X) = k/
k est le paramtre de forme de la loi et est le paramtre de taux.
Cette distribution, dveloppe par le scientifique danois A. K. Erlang (1878-1929)
pour ltude du trafic tlphonique, est utilise de manire plus gnrale pour
ltude des files dattente.
Remarque : lorsque k=1, cette distribution est quivalente la distribution
exponentielle, et la loi Gamma deux paramtres est une gnralisation de la loi
dErlang au cas o k est un rel et non un entier (par ailleurs on utilise le paramtre
dchelle | = 1/).
- Exponentielle () : la densit de cette loi est donne par :
( ) ( ) exp , avec 0 et 0 f x x x = > >
On a E(X) = 1/ et V(X) = 1/
La loi exponentielle est souvent utilise pour tudier la dure de vie en contrle
qualit.
- Fisher (df
1
, df
2
) : la densit de cette loi est donne par :
32
( )
1 2
/ 2 / 2
1 1
1 2 1 2 1 2
*
1 2
1
( ) 1 ,
/ 2, / 2
avec 0 et , N
df df
df x df x
f x
xB df df df x df df x df
x df df
| | | |
=
| |
+ +
\ . \ .
> e

On a E(X) = df
2
/(df
2
-2) si df
2
>0, et V(X) = 2df
2
(df
1
+df
2
-2)/[df
1
(df
2
-2) (df
2
-4)]
La loi de Fisher, du nom du biologiste, gnticien et statisticien Ronald Aylmer
Fisher (1890-1962), correspond au rapport de deux lois du Khi. Elle est trs utilise
pour tester des hypothses.
- Fisher-Tippett (|, ) : la densit de cette loi est donne par :
1
( ) exp exp , avec 0
x x
f x |
| | |
| | | |
= >
|
|
\ . \ .

On a E(X) = +| et V(X) = (t|)/6 o est la constante de Euler-Mascheroni.
La loi de Fisher-Tippett, aussi appele loi Log-Weibull, ou loi gnralise des
valeurs extrmes, est utilise dans ltude de phnomnes extrmes. La loi de
Gumbel est un cas particulier de la loi de Fisher-Tippett avec |=1 et =0.
- Gamma (k, |, ) : la densit de cette loi est donne par :
( )
( )
( )
/
1
( ) , avec et , 0
x
k
k
e
f x x x k
k
|
|
|

= > >
I

On a E(X) = +k| et V(X) = k|
k est le paramtre de forme de la loi et | est le paramtre dchelle.
- GEV : la densit de cette loi est donne par :
1/ 1 1/
1
( ) 1 exp 1 , avec 0
k k
x x
f x k k |
| | |
| |
| | | |
| = >
| |
|
\ . \ .
\ .

( ) ( ) ( ) ( )
2
2
On a E(X) = 1 et V(X) = 1 2 1 k k k
k k
| | | |
+ I + I + I +
|
\ .

La loi GEV (Generalized Extreme Values) est trs utilise en hydrologie pour
modliser les phnomnes de crues. k est classiquement compris entre -0.6 et 0.6.
- Gumbel : la densit de cette loi est donne par :
( ) ( )
( ) exp exp f x x x =
33
On a E(X) = et V(X) = t/6 o est la constante de Euler-Mascheroni
(0.5772156649).
La loi de Gumbel, du nom de Emil Julius Gumbel (1891-1966), est un cas particulier
de la loi de Fisher-Tippett avec |=1 et =0. Elle est utilise dans ltude de
phnomnes extrmes comme les prcipitations ou les crues maximales et les
magnitudes maximales de tremblement de terre.
- Lognormale (,o) : la densit de cette loi est donne par :
( ) ( )
2
2
ln
2
1
( ) , avec , 0
2
x
f x e x
x
o
o
o t
= >
On a E(X) = exp( + o/2) et V(X) = [exp(o/2)-1]exp(2 + o)
- Normale (,o) : la densit de cette loi est donne par :
( )
2
2
2
1
( ) , avec 0
2
x
f x e
o
o
o t
= >
On a E(X) = et V(X) = o
- Normale standard : la densit de cette loi est donne par :
2
2
1
( )
2
x
f x e
t

=
On a E(X) = 0 et V(X) = 1
Cette loi est un cas particulier de la loi normale, avec =0 et o=1. Elle est aussi
appele normale centre rduite.
- Pareto (a, b) : la densit de cette loi est donne par :
1
( ) , avec , 0 et
a
a
ab
f x a b x b
x
+
= > >
On a E(X) = ab/(a-1) et V(X) = ab/[(a-1)(a-2)]
La loi de Pareto, du nom de lconomiste italien Vilfredo Pareto (1848-1923), est
aussi connue sous le nom de loi de Bradford. Cette loi a dabord t utilise pour
reprsenter la rpartition des richesses dans la socit, avec notamment le principe
de Pareto, selon lequel 80% des richesses dun pays sont dtenus par 20% de la
population.
- Poisson () : la densit de cette loi est donne par :
34
( ) exp
( ) , avec N et 0
!
x
P X x x
x

= = e >
On a E(X) = et V(X) =
La loi de Poisson, dcouverte par le mathmaticien et astronome Simon-Denis
Poisson (1781-1840) qui fut lve de Laplace, Lagrange et Legendre, est souvent
utilise pour tudier des phnomnes de file dattente.
- Student (df) : la densit de cette loi est donne par :
( ) ( )
( )
( )
( 1) / 2
2
1/ 2
( ) 1 / , avec 0
/ 2
df
df
f x x df df
df df t
+
I +
= + >
I

On a E(X) = 0 si df>1 et V(X) = df/(df -2) si df>2
La loi de Student, du nom que se donnait le chimiste et statisticien anglais William
Sealy Gosset (1876-1937) afin de prserver son anonymat (la brasserie Guinness
interdisait ses employs de publier, suite la publication par un autre chercheur
dinformations confidentielles) est la loi de la moyenne de df variables distribues
suivant une loi normale centre rduite. Lorsque df=1, la loi de Student est une loi
de Cauchy dont la particularit est de navoir ni esprance ni variance.
- Uniforme (a, b) : la densit de cette loi est donne par :
| |
1
( ) , avec et , f x b a x a b
b a
= > e

On a E(X) = (a+b)/2 et V(X) = (b-a)/12
La loi uniforme (0, 1) est trs utilise pour les simulations. Comme la fonction de
rpartition de toutes les lois est comprise entre 0 et 1, un chantillon tir dans une
loi Uniforme (0,1) permet dobtenir un chantillon dans toutes les lois dont on sait
calculer linverse.
- Weibull (|) : la densit de cette loi est donne par :
( )
1
( ) exp , avec 0 et 0 f x x x x
| |
| |
= > >
2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
| | | | | |
I + I + I +
| | |
\ . \ . \ .

Le paramtre | est le paramtre de forme de la loi de Weibull.
- Weibull (|, ) : la densit de cette loi est donne par :
35
1
( ) , avec 0, et , 0
x
x
f x e x
|
|
|
|

| |
|
\ .
| |
= > >
|
\ .

2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
I + I + I +
( | | |
\ . \ . \ .

Le paramtre | est le paramtre de forme et le paramtre est le paramtre
dchelle. Lorsque |=1, la loi de Weibull est une loi exponentielle de paramtre 1/.
- Weibull (|, , ) : la densit de cette loi est donne par :
1
( ) , avec , et , 0
x
x
f x e x
|
|
|
|

| |
|
\ .
| |
= > >
|
\ .

2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
+ I + I + I +
( | | |
\ . \ . \ .

La loi de Weibull, du nom du sudois Ernst Hjalmar Waloddi Weibull (1887-1979),
est trs utilise en contrle qualit et en analyse de survie. Le paramtre | est le
paramtre de forme et le paramtre est le paramtre dchelle. Lorsque |=1 et
=0, la loi de Weibull est une loi exponentielle de paramtre 1/.

Bote de dialogue
calculs.

Distribution thorique : activez cette option pour chantillonner des donnes dans une loi de
distribution thorique. Veuillez alors choisir la loi, puis entrez les paramtres de la loi si
ncessaire.
36
Distribution empirique : activez cette option pour chantillonner des donnes dans une loi
empirique. Slectionnez alors les donnes permettant de construire la loi empirique.
Libells des colonnes : activez cette option si la premire ligne des donnes
slectionnes (donnes et ventuellement poids) contient un libell.
Poids : activez cette option si vous voulez pondrer lchantillonnage. Les poids
doivent tre imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t
slectionn, veuillez vrifier que loption Libells des colonnes est active.

actif.

Nombre dchantillons : entrez le nombre de colonnes gnrer.
Taille dchantillon : entrez le nombre de donnes gnrer pour chacun des chantillons.

Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau des
donnes chantillonnes commence ds la premire ligne de la feuille Excel (cas dune sortie
dans une feuille ou un classeur), et non aprs len-tte du rapport.

Exemple
Un exemple de gnration dun chantillon alatoire tir dans une loi normale est disponible
sur le site dAddinsoft :
http://www.xlstat.com/demo-normf.htm

Bibliographie
Abramowitz M. and Stegun I.A. (1972). Handbook of Mathematical Functions. Dover
Publications, New York.
37
El-Shaarawi A.H., Esterby E.S. and Dutka B.J (1981). Bacterial density in water determined
by Poisson or negative binomial distributions. Applied an Environmental Microbiology, 41(1).
107-116.
Fisher R.A. and Tippett H.C. (1928). Limiting forms of the frequency distribution of the
smallest and largest member of a sample. Proc. Cambridge Phil. Soc., 24, 180-190.
Gumbel E.J. (1941). Probability interpretation of the observed return periods of floods. Trans.
Am. Geophys. Union, 21, 836-850.
Jenkinson A. F. (1955). The frequency distribution of the annual maximum (or minimum) of
meteorological elements. Q. J. R. Meteorol. Soc., 81, 158-171.
Perreault L. and Bobe B. (1992). Loi gnralise des valeurs extrmes. Proprits
mathmatiques et statistiques. Estimation des paramtres et des quantiles XT de priode de
retour T. INRS-Eau, rapport de recherche no 350, Qubec.
Weibull W. (1939). A statistical theory of the strength of material. Proc. Roy. Swedish Inst.
Eng. Res. 151(1), 1-45.

38
Transformation de variables
Utilisez cet outil pour transformer rapidement une ou plusieurs variables.

Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
calculs.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.

Onglet Gnral :
Donnes : slectionnez les donnes sur la feuille Excel. Si des en-ttes ont t slectionns,
veuillez vrifier que loption Libells des colonnes est active.

Libells des colonnes : activez cette option si la premire ligne des donnes slectionnes
(donnes et tableau de codage) contient un libell.
Libells des colonnes est active, la premire cellule de la slection doit comprendre un
Obs2, ).
39

actif.

Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau des
rsultats commence ds la premire ligne de la feuille Excel (cas dune sortie dans une feuille
ou un classeur), et non aprs len-tte du rapport.

Transformation :
- Normaliser (n-1) : choisissez cette option pour normaliser les variables en utilisant
lcart-type non biais.
- Autre : choisissez cette option pour utiliser une autre transformation. Cliquez alors sur
longlet transformation pour choisir une autre transformation.

Onglet Transformations :
Normaliser (n) : choisissez cette option pour normaliser les variables en utilisant lcart-type
biais.
Centrer : choisissez cette option pour centrer les donnes.
/ Ecart-type (n-1) : choisissez cette option pour diviser les donnes par lcart-type non biais.
/ Ecart-type (n) : choisissez cette option pour diviser les donnes par lcart-type biais.
Remettre lchelle de 0 1 : choisissez cette option pour transformer les donnes de telle
sorte quelles soient comprises entre 0 et 1.
Remettre lchelle de 0 100 : choisissez cette option pour transformer les donnes de
telle sorte quelles soient comprises entre 0 et 100.

Binariser (0/1) : choisissez cette option pour transformer les donnes de telle sorte que les
donnes gales 0 soient gales 0, et les donnes diffrentes de 0 soient gales 1.
40
Signe (-1/0/1) : choisissez cette option pour transformer les donnes de telle sorte que les
donnes gales 0 soient gales 0, les donnes ngatives soient gales -1 et les
donnes positives soient gales 1.
Arcsin : choisissez cette option pour calculer larc-sinus des donnes slectionnes.
Transformation Box-Cox : activez cette option pour faire une transformation de Box-Cox.
Vous pouvez soit imposer une valeur de Lambda, soit dcider que XLSTAT doit loptimiser.
Cette transformation permet daugmenter la normalit des donnes; lquation de Box-Cox est
dfinie par :
( ) ( )
1
, 0, 0 ou 0, 0
ln( ), 0, 0
t
t t
t
t t
X
X X
Y
X X

> = > >
=

> =

Si loption doptimisation est choisie, XLSTAT maximise la vraisemblance de lchantillon,
tant suppos quaprs transformation lchantillon suit une loi normale.

Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
Ignorer les donnes manquantes : activez cette option pour ignorer les donnes
manquantes.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes en utilisant la moyenne des variables.

41
Crer un tableau de contingence
Utilisez cet outil pour crer un ou plusieurs tableaux de contingence partir de deux ou plus
variables qualitatives. Un test dindpendance du Khi peut tre calcul.

Description
Un tableau de contingence est une manire efficace de rsumer la relation entre deux
variables qualitatives V1 et V2. Un tableau de contingence a la structure suivante :

V1 \ V2 Modalit 1 Modalit j Modalit m2
Modalit 1 n(1,1) n(1,j) n(1,m2)

Modalit i n(i,1) n(i,j) n(i,m2)

Modalit m1 n(m1,1) n(m1,j) n(m1,m2)
o n(i,j) est la frquence des observations prsentant la fois la caractristique i pour la
variable V1, et la caractristique j pour la variable V2.
Pour crer un tableau de contingence, la premire transformation consiste en un recodage des
deux variables qualitatives V1 et V2 en deux tableaux disjonctifs Z1 et Z2. Pour chaque
modalit de la variable Vj, une colonne est cre dans Zj. A chaque fois quune modalit m de
la variable Vj correspond un individu i, on affecte 1 X1(i,m). Les autres valeurs de Z1 et Z2
sont nulles. Le tableau de contingence des variables V1 et V2 nest autre que le produit Z1Z2
(o correspond la transposition dune matrice).
La distance du khi a t propose pour mesurer la distance entre les modalits. La somme de
ces distances pour lensemble des cases du tableau donne la statistique du khi qui suit
asymptotiquement une loi du khi (m1-1)(m2-1) degrs de libert. Cette statistique permet de
tester lhypthse dindpendance entre les lignes et les colonnes du tableau de contingence.
La notion dinertie inspire de la physique est utilise en Analyse Factorielle des
Correspondances. Linertie dun nuage de points est la moyenne pondre des carrs des
distances au centre de gravit. Linertie totale du nuage des modalits est donne par :
42
2
. .
2
2 1 2 2 1
2
. .
. . 1 1 1 1
2
, avec et
ij i j
m m m m
i ij j ij
i j i j j i
n n n
n n
n n n n
n n
n
n
_
= = = =
| |
|
\ .
= = = =

et o n est la somme des frquences du tableau de contingence. On voit ici que linertie totale
est proportionnelle la statistique du khi de Pearson mesure sur le tableau de contingence.

Bote de dialogue

calculs.

Onglet Gnral :
Variable(s) ligne : slectionnez les donnes correspondant aux variables qualitatives qui
seront les variables en ligne des tableaux de contingence crs. Si les libells des variables
ont t slectionns, veillez ce que loption libells des variables soit bien active.
Variable(s) colonne : slectionnez les donnes correspondant aux variables qualitatives qui
seront les variables en colonne des tableaux de contingence crs. Si les libells des
43
variables ont t slectionns, veillez ce que loption libells des variables soit bien
active.
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.

actif.

contient un libell.

Onglet Options :
Tri alphabtique des modalits : activez cette option pour que dans les divers rsultats, les
modalits soient tries alphabtiquement pour les deux variables slectionnes.
Libells Variable-Modalit : activez cette option pour que les libells des lignes et des
colonnes du tableau de contingence utilisent le nom de la variable suivi du nom des modalits.
Si cette option nest pas active, les libells sont construits uniquement partir des noms des
modalits.
Test du khi : activez cette option pour effectuer le test du khi.
Niveau de signification (%) : entrez le niveau de signification utiliser pour les diffrents
tests (valeur par dfaut : 5%).

44
Regrouper les valeurs manquantes dans une nouvelle modalit : activez cette option pour
regrouper les donnes manquantes dans une nouvelle modalit de la variable qualitative en
question.

Onglet Sorties :
Liste des combinaisons : activez cette option pour afficher la liste des diffrentes
combinaisons possibles des deux variables qualitatives, ainsi que les effectifs correspondants.
Tableau de contingence : activez cette option pour afficher le tableau de contingence.
Inertie par case : activez cette option pour afficher les inerties correspondant chacune des
cellules du tableau de contingence.
Khi par case : activez cette option pour afficher les Khi correspondant chacune des cases
du tableau de contingence.
Significativit par case : activez cette option pour afficher un tableau indiquant, pour chaque
case, si la valeur observe est gale (=), infrieure (<) ou suprieure (>) la valeur thorique,
et pour effectuer un test (test exact de Fisher sur un tableau 2x2 ayant le mme effectif total
que le tableau complet, et les mmes sommes marginales pour la case en question), afin de
dterminer si lcart la valeur thorique est significatif ou non.

Effectifs observs : activez cette option pour afficher le tableau des effectifs observs. Ce
tableau est presque identique au tableau de contingence, la diffrence venant des sommes
marginales pour les lignes et les colonnes.
Effectifs thoriques : activez cette option pour afficher le tableau des effectifs thoriques
estims partir des sommes marginales.
Proportions ou pourcentages / Ligne : activez cette option pour afficher le tableau des
proportions ou pourcentages par ligne qui correspondent aux effectifs observs diviss par les
sommes marginales des lignes.
Proportions ou pourcentages / Colonne : activez cette option pour afficher le tableau des
proportions ou pourcentages par colonne qui correspondent aux effectifs observs diviss par
les sommes marginales des colonnes.
Proportions ou pourcentages / Total : activez cette option pour afficher le tableau des
proportions ou pourcentages calculs comme les effectifs observs diviss par leffectif total.

Onglet Graphiques :
45
Vue 3D du tableau de contingence / du tableau crois : activez cette option pour afficher le
diagramme en bton en 3 dimensions correspondant au tableau de contingence ou au tableau
crois.

46
Tableaux disjonctifs complets
Utilisez cet outil pour crer un tableau disjonctif complet partir dune ou plusieurs variables
qualitatives.

Description
Un tableau disjonctif consiste en lclatement dun tableau dfini par n observations et q
variables qualitatives en un tableau dfini par n observations et p indicatrices o p est la
somme des nombres de modalits des q variables : chaque variable Q(j) est dcompose en
un sous-tableau q(j) colonnes o la colonne k contient des 1 pour les observations
correspondant la k-ime modalit et 0 pour les autres observations.

Bote de dialogue
calculs.

(donnes et libells des observations) contient un en-tte.
Obs2, ).

47
actif.

Statistiques descriptives : activez cette option pour calculer et afficher les statistiques
descriptives des variables qualitatives slectionnes.
disjonctif complet commence ds la premire ligne de la feuille Excel (cas dune sortie dans
une feuille ou un classeur), et non aprs len-tte du rapport.

Exemple

Tableau initial :
Q1 Q2
Obs1 A C
Obs2 B D
Obs3 B E
Obs4 A D

Tableau disjonctif complet :
Q1-A Q1-B Q2-C Q2-D Q2-E
Obs1 1 0 1 0 0
Obs2 0 1 0 1 0
Obs3 0 1 0 0 1
Obs4 1 0 0 1 0

48
Discrtisation
Utilisez cet outil pour discrtiser une variable numrique. Plusieurs choix de discrtisation sont
proposs.

Description
Discrtiser une variable numrique revient la transformer en une variable ordinale. Ce
procd est trs communment utilis en marketing, o il est souvent appel
segmentation .
XLSTAT propose plusieurs mthodes de discrtisation plus ou moins automatiques. Le
nombre de classes (ou intervalles, ou segments) gnrs est fix soit par lutilisateur (par
exemple avec la mthode des amplitudes gales), soit par la mthode elle-mme (par
exemple, avec loption 80-20, o deux classes sont cres).
Lalgorithme de classification automatique de Fisher peut tre trs lent si le nombre de
donnes dpasse le millier. Cette mthode gnre un nombre de classes au plus gal au
nombre de classes demandes, la mthode permettant de dcouvrir automatiquement que
certaines classes peuvent tre fusionnes.

Bote de dialogue

calculs.
49
donnes. Si la flche est vers le bas, XLSTAT vous permet de slectionner les donnes par
colonnes ou par plage. Si la flche est vers la droite, XLSTAT vous permet de slectionner les
donnes par lignes ou par plage.

Onglet Gnral :
Tableau observations/variables : slectionnez un tableau comprenant N objets dcrits par P
descripteurs. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
Libells des variables est active. Si plusieurs variables sont slectionnes, elles seront
chacune leur tour discrtises.

Mthode : choisissez la mthode de discrtisation:
- Amplitude constante : choisissez cette mthode pour crer des classes de mme
amplitude. Entrez alors lamplitude. Vous pouvez ensuite spcifier le minimum,
correspondant la borne infrieure de lintervalle correspondant la premire classe.
Cette valeur doit tre infrieure ou gale au minimum de la srie. Si le minimum nest
pas spcifi, la borne infrieure correspondra au minimum de la srie.
- Amplitude constante : choisissez cette mthode pour crer un nombre donn
dintervalles de mme amplitude. Entrez alors le nombre dintervalles. Lamplitude des
intervalles est dtermine partir de la diffrence entre les maximum et minimum de la
srie Vous pouvez aussi spcifier le minimum, correspondant la borne infrieure du
premier intervalle. Cette valeur doit tre infrieure ou gale au minimum de la srie. Si
le minimum nest pas spcifi, la borne infrieure correspondra au minimum de la srie.
- Effectifs gaux : choisissez cette mthode pour que les classes cres comprennent
toutes le mme nombre dobservations (dans la mesure du possible). Entrez alors le
nombre dintervalles (classes) crer.
- Automatique (Fisher) : choisissez cette mthode pour crer les classes en utilisant
lalgorithme de Fisher. Lorsque le nombre de donnes dpasse le millier, cet algorithme
peut tre trs lent. Entrez alors le nombre dintervalles (classes) crer. Le nombre de
classes cres peut tre ventuellement infrieur la valeur entre, lalgorithme
pouvant regrouper des classes non significativement diffrentes.
- Automatique (k-means) : choisissez cette mthode pour crer les intervalles en
utilisant lalgorithme k-means. Entrez alors le nombre dintervalles (classes) crer.
- Intervalles (dfinis par lutilisateur) : choisissez cette mthode pour slectionner une
colonne contenant en ordre croissant la borne infrieure du premier intervalle, et la
borne suprieure de tous les intervalles.
50
- 80-20 : choisissez cette mthode pour crer deux classes, la premire comprenant les
80 premiers % de la srie, cette dernire tant classe en ordre croissant, la seconde
contenant les 20% restant.
- 20-80 : choisissez cette mthode pour crer deux classes, la premire comprenant les
contenant les 80% restant.
- 80-15-5 (ABC) : choisissez cette mthode pour crer trois classes, la premire
comprenant les 80 premiers % de la srie, cette dernire tant classe en ordre
croissant, la seconde contenant les 15% suivant, et la troisime contenant les 5%
restant. Cette classification est parfois appeles ABC.
- 5-15-80 : choisissez cette mthode pour crer trois classes, la premire comprenant les
contenant les 15% suivant, et la troisime contenant les 80% restant.

actif.

(Tableau observations/variables, libells des observations, poids) contient un libell.
dobservations pour laffichage des rsultats. Si l'option Libells des variables est active,
la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette
option, des libells seront automatiquement crs (Obs1, Obs2, ).

Afficher len-tte du rapport : dsactivez cette option pour que len-tte du rapport ne soit
pas affich.

Onglet Options :
51
- Standardiser les poids : si vous activez cette option, les poids sont standardiss de
telle sorte que leur somme soit gale au nombre dobservations.

Supprimer les observations :
- Pour lchantillon correspondant : activez cette option pour ne pas prendre en
compte une observation dont lune des donnes est manquante, uniquement pour les
chantillons pour lesquels une donne est manquante.
- Pour tous les chantillons : activez cette option pour ne pas prendre en compte une
observation dont lune des donnes est manquante, pour tous les chantillons
slectionns.
manquantes en utilisant la moyenne de lchantillon.

Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives pour
les chantillons slectionns.
Barycentres : activez cette option pour afficher les coordonnes des barycentres des classes.
Objets centraux : activez cette option pour afficher les coordonnes de lobjet le plus proche
du barycentre de chaque classe.
Rsultats par classe : activez cette option pour afficher un tableau donnant les statistiques et
les objets correspondant chacune des classes.
Rsultats par objet : activez cette option pour afficher un tableau donnant pour chaque objet
sa classe daffectation dans lordre initial des objets.

Onglet Graphiques :
Histogrammes : activez cette option pour afficher les histogrammes des chantillons. Pour la
distribution thorique, la fonction de densit est affiche.
52
- Barres : choisissez cette option pour afficher des histogrammes avec une barre pour
chaque intervalle.
- Lignes continues : choisissez cette option pour afficher des histogrammes avec une
ligne continue.
Fonction de rpartition empirique : activez cette option pour afficher les histogrammes
cumuls des chantillons. Pour la distribution thorique, la fonction de rpartition est affiche.
- Bass sur lhistogramme : choisissez cette option pour afficher des histogrammes
cumuls bass sur la mme dfinition dintervalles que les histogrammes.
- Fonction de rpartition empirique : choisissez cette option pour afficher des
histogrammes cumuls qui correspondent en ralit la fonction de rpartition
empirique de lchantillon.

Ordonnes des histogrammes : choisissez quelle grandeur doit tre utilise pour les
histogrammes : densit, effectif ou frquence.

Rsultats
Statistiques simples : dans ce tableau sont affichs pour les variables slectionnes, le
nombre dobservations, le nombre de donnes manquantes, le nombre de donnes non
manquantes, la moyenne, et lcart-type.
Un histogramme et la fonction de rpartition empirique sont affichs si les options
correspondantes ont t actives. Les statistiques des diffrents intervalles sont affiches la
suite.
Barycentres des classes : dans ce tableau sont affiches les coordonnes des barycentres
des classes pour les diffrents descripteurs.
Distances entre les barycentres des classes : dans ce tableau sont affiches les distances
euclidiennes entre les barycentres des classes pour les diffrents descripteurs.
Objets centraux : dans ce tableau sont affiches pour chaque classe les coordonnes de
lobjet le plus proche du barycentre de la classe.
Distances entre les objets centraux : dans ce tableau sont affiches les distances
euclidiennes entre les objets centraux des classes pour les diffrents descripteurs.

Rsultats par classe : les statistiques descriptives des classes (nombre dobjets, somme des
poids, variance intra-classe, distance minimale au barycentre, distance maximale au
53
barycentre, distance moyenne au barycentre) sont affiches dans la premire partie du
tableau. Dans la seconde partie sont affichs les objets.
Rsultats par objet : dans ce tableau est indique, pour chaque objet, sa classe daffectation
dans lordre initial des objets.

Bibliographie
Arabie P., Hubert L.J. and De Soete G. (1996). Clustering and Classification. Wold Scientific,
Singapore.
Everitt B.S., Landau S. and Leese M. (2001). Cluster Analysis (4th edition). Arnold, London.
Fisher W.D. (1958). On grouping for maximum homogeneity. Journal of the American
Statistical Association, 53, 789-798.

54
Gestion des donnes
Utilisez cet outil pour transformer des tableaux de donnes. Quatre fonctions sont proposes :
ddoublonner, grouper, joindre (interne et externe). Ces mthodes sont communes dans les
systmes de gestion de base de donnes, mais ne sont pas proposes par Excel.

Description
Ddoublonner
Il est parfois ncessaire de ddoublonner un tableau de donnes : certaines observations
peuvent tre prsentes plusieurs fois (on parle alors de doublons) suite la fusion de plusieurs
sources de donnes, ou suite des erreurs de saisie.
Grouper
Le groupement est utile lorsque vous voulez agrger des donnes. Imaginez par exemple le
cas dun tableau contenant des enregistrements de ventes (une colonne pour lidentifiant
client, et une colonne avec le montant de la vente) que vous voudriez agrger pour avoir une
ligne par client, avec lidentifiant du client et le montant total des ventes pour ce client.
XLSTAT vous permet dobtenir ce tableau en quelques secondes. La somme nest que lune
des six possibilits proposes.
Joindre
La jointure est une opration courante en gestion de base de donnes. Elle permet de
fusionner horizontalement deux tables sur la base dune information commune dnomme
la clef. Par exemple, imaginez que vous avez mesur quelques indicateurs chimiques sur 150
sites. Ensuite, vous voulez ajouter l'information gographique sur ces mmes sites o les
donnes ont t recueillies. Votre table dinformations gographiques contient l'information sur
1000 sites, y compris les 150 sites tudis. Afin d'viter le travail fastidieux de fusionner
manuellement les deux tables, une jointure permet d'obtenir en quelques secondes la table
fusionne qui comprend la fois les donnes recueillies et l'information gographique. On
distingue deux types de jointure :
- Jointure interne : la table fusionne comprend uniquement les clefs communes aux
deux tables de dpart.
- Jointure externe : la table fusionne comprend une ligne par clef, quelle soit prsente
dans une seule des tables de dpart ou dans les deux.

55
Bote de dialogue

calculs.

Onglet Gnral :
Donnes : ce champ nest visible que si les mthodes Ddoublonner ou Grouper sont
actives. Slectionnez les donnes que vous voulez ddoublonner ou grouper. Si des en-ttes
de colonnes ont t slectionns, veuillez vrifier que loption Libells des variables est
active.
Libells des observations : ce champ nest visible que si la mthode Ddoublonner est
active. Activez cette option pour slectionner les libells dobservations qui seront ensuite
utiliss pour laffichage des rsultats. Si l'option Libells des variables est active, la
premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette option,
des libells seront automatiquement crs (Obs1, Obs2, ).

Deviner les types : cette option nest visible que si la mthode Grouper est active.
Activez cette option si vous souhaitez que XLSTAT devine le type des variables slectionnes
(numrique ou nominal). Si cette option nest pas active, XLSTAT vous demandera de
confirmer ou de modifier les types des variables.

56
Tableau 1 : ce champ nest visible que si la mthode Jointure est active. Slectionnez les
donnes correspondant la premire table de jointure. Si des en-ttes de colonnes ont t
slectionns, veuillez vrifier que loption Libells des variables est active.
Tableau 2 : ce champ nest visible que si la mthode Jointure est active. Slectionnez les
donnes correspondant la premire table de jointure. Si des en-ttes de colonnes ont t
slectionns, veuillez vrifier que loption Libells des variables est active.

Mthode : choisissez la mthode de gestion de donnes utiliser :
- Ddoublonner
- Grouper
- Jointure (Interne)
- Jointure (Externe)

actif.

(Tableau observations/variables, libells des observations, poids) contient un libell.

Opration : cette option nest visible que si la mthode Grouper est active. Choisissez
lopration appliquer lors de lagrgation des donnes. Pour les variables nominales, le
mode est utilis comme rsultat.

Onglet Sorties :
Cet onglet nest visible que pour les mthodes Ddoublonner ou Grouper .
descriptives des variables slectionnes.
Les options suivantes ne sont visibles que pour la mthode Ddoublonner :
57
Tableau ddoublonn : activez cette option pour afficher le tableau ddoublonn.
Frquences : activez cette option pour afficher dans la dernire colonne du tableau la
frquence de chaque observation dans le tableau initial (1 correspond une donne non
duplique).
Doublons : activez cette option pour afficher les donnes prsentes au moins deux fois dans
le tableau initial.

Cet onglet nest visible que pour la mthode Grouper .
Ignorer les donnes manquantes : si vous activez cette option, XLSTAT ne tiendra pas
compte des proximits correspondant des donnes manquantes pour la minimisation du
stress.

58
Codage
Utilisez cet outil pour recoder un tableau en utilisant un tableau de codage comprenant les
valeurs initiales et les codes qui doivent les remplacer dans le nouveau tableau.

Bote de dialogue
calculs.

Tableau de codage : slectionnez deux colonnes correspondant au tableau de codage. La
premire colonne doit contenir les valeurs telles qu'elles sont dans le tableau des donnes
slectionnes, et la seconde colonne les codes correspondants utiliser dans le tableau
recod. Si des en-ttes ont t slectionns, veuillez vrifier que loption Libells des
colonnes est active.

(donnes et tableau de codage) contient un libell.

actif.
59

disjonctif complet commence ds la premire ligne de la feuille Excel (cas dune sortie dans

60
Codage prsence/absence
Utilisez cet outil pour transformer un tableau de listes (ou attributs) en un tableau de
prsence/absence indiquant les frquences des diffrents lments pour chacune des listes.

Description
Cet outil permet par exemple de transformer un tableau contenant p colonnes correspondant
p listes dobjets en un tableau p lignes et q colonnes, o q est le nombre dobjets diffrents
contenu dans les p listes, et o pour chaque cellule du tableau, on a 1 si lobjet est prsent et
0 sil est absent.
Par exemple, dans le domaine de lcologie, si on a p relevs despces avec en colonne,
pour chaque relev, les diffrentes espces trouves, on obtiendra un tableau crois indiquant
la prsence ou labsence de chacune des espces pour chacun des relevs.

Bote de dialogue
calculs.

contient un libell.
Codage prsence/absence par :
- Lignes : choisissez cette option si chaque ligne correspond une liste.
61
- Colonnes : choisissez cette option si chaque colonne correspond une liste.

actif.

Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau de
prsence/absence commence ds la premire ligne de la feuille Excel (cas dune sortie dans

Exemple
Tableau initial :
Liste1 Liste2
E1 E3
E1 E1
E2 E4
E1
E3

Tableau de prsence/absence :
E1 E2 E3 E4
Liste1 1 1 1 0
Liste2 1 0 1 1

62
Codage en rangs
Utilisez cet outil pour recoder un tableau n observations et p variables quantitatives en un
tableau contenant le rang des valeurs, les rangs tant dtermins variable par variable.

Description
Cet outil vous permet de recoder un tableau n observations et p variables quantitatives en un
tableau contenant le rang des valeurs, les rangs tant dtermins variable par variable. Le
codage en rang peut vous permettre de convertir un tableau de variables quantitatives
continues en un tableau de variables quantitatives discrtes, si seule la relation dordre est
intressante et non les valeurs elles-mmes.
Deux stratgies sont possibles pour la prise en compte des ex aequo : soit on leur affecte un
rang moyen, soit on leur affecte le rang le plus faible.

Bote de dialogue

calculs.

63
Obs2, ).

actif.

Tenir compte des ex aequo : activez cette option pour tenir compte de la prsence dex
aequo et pour adapter en consquence le rang des valeurs ex aequo.
- Rangs moyens : choisissez cette option pour remplacer le rang des valeurs ex aequo
par la moyenne des rangs.
- Minimum : choisissez cette option pour remplacer le rang des valeurs ex aequo par le
minimum de leur rang.

chantillonn commence ds la premire ligne de la feuille Excel (cas dune sortie dans une
feuille ou un classeur), et non aprs len-tte du rapport.

Exemple
Tableau initial :
V1 V2
Obs1 1.2 12
Obs2 1.6 11
Obs3 1.2 10
Obs4 1.4 10.5

64
Tableau recod en rangs (rang moyen pour les ex aequo) :
R1 R2
Obs1 1 4
Obs2 4 3
Obs3 1 1
Obs4 3 2

Tableau recod en rangs (rang le plus faible pour les ex aequo) :
R1 R2
Obs1 1.5 4
Obs2 4 3
Obs3 1.5 1
Obs4 3 2

65
Statistiques descriptives et Graphiques univaris
Utilisez cet outil pour calculer des statistiques descriptives et afficher des graphiques univaris
(Box plots, Scattergrams, ) pour un ensemble de variables quantitatives et/ou qualitatives.

Description
Avant dutiliser des mthodes danalyse avances comme par exemple une analyse
discriminante ou une rgression multiple, il est ncessaire dans un premier temps, de
dcouvrir les donnes afin didentifier des tendances, de reprer des anomalies ou tout
simplement de disposer dinformations essentielles telles que le minimum, le maximum, ou la
moyenne dun chantillon de donnes.
XLSTAT vous propose un nombre important de statistiques descriptives et de graphiques qui
vous permettront davoir un premier aperu pertinent de vos donnes.
Bien que vous puissiez slectionner plusieurs variables (ou chantillons) la fois, XLSTAT
calcul lensemble des statistiques descriptives pour chacun des chantillons indpendamment.

Statistiques descriptives pour les donnes quantitatives :
Soit un chantillon compos de N donnes quantitatives {y1, y2, yN}, dont les poids
respectifs sont {W1, W2, WN}.
- Nombre dobservations : le nombre N de donnes dans lchantillon slectionn.
- Nombre de donnes manquantes : le nombre de donnes manquantes dans
lchantillon analys. Pour le calcul des statistiques qui suivent, les donnes identifies
comme manquantes sont ignores. On dfinit par n le nombre de donnes non
manquantes, et par {x1, x2, xn} le sous-chantillon des donnes non manquantes
dont les poids respectifs sont {w1, w2, wn}.
- Somme des poids *: la somme des poids, note Sw. Lorsque tous les poids valent 1,
ou lorsque les poids sont standardiss , on a Sw = n.
- Minimum : le minimum de la srie analyse.
- Maximum : le maximum de la srie analyse.
- Frquence du minimum * : la frquence du minimum de la srie.
- Frquence du maximum * : la frquence du maximum de la srie.
- Amplitude : lamplitude est la diffrence entre le maximum et le minimum de la srie.
66
- 1
er
quartile * : le premier quartile Q1 est dfini comme la valeur telle que 25% des
donnes lui sont infrieurs.
- Mdiane * : la mdiane Q2 est telle que 50% des donnes lui sont infrieurs.
- 3
me
quartile * : le troisime quartile Q3 est dfini comme la valeur telle que 75% des
donnes lui sont infrieurs.
- Somme * : la somme pondre des donnes est dfinie par :
1
n
i i
i
S w x
=
=

- Moyenne * : la moyenne de lchantillon est dfinie par = S / Sw.
- Variance n * : la variance de lchantillon est dfinie par :
( )
2
2 1
( )
n
i i
i
w x
s n
Sw
=

=

Remarque 1 : lorsque tous les poids valent 1, la variance est la somme des carts
quadratiques la moyenne, divise par n, do la dnomination.
Remarque 2 : la variance n est une estimation biaise de la variance, qui suppose que
lchantillon est bien reprsentatif de la population totale. La variance n-1 est calcule
au contraire en tenant compte dune approximation lie lchantillonnage.
- Variance n-1 * : la variance estime de lchantillon dfinie par :
( )
( )
2
2
1
1
/
n
i i
i
w x
s n
Sw Sw n
=

=

Remarque 1 : lorsque tous les poids valent 1, la variance est la somme des carts
quadratiques la moyenne, divise par n-1, do la dnomination.
Remarque 2 : la variance n est une estimation biaise de la variance, qui suppose que
lchantillon est bien reprsentatif de la population totale. La variance n-1 est calcule
au contraire en tenant compte dune approximation lie lchantillonnage.
- Ecart-type n * : lcart-type de lchantillon dfini par s(n).
- Ecart-type n-1 * : lcart-type estim de lchantillon dfini par s(n-1).
- Coefficient de variation * : ce coefficient nest calcul que si la moyenne de
lchantillon nest pas nulle. Il est dfini par CV = s(n) / . Ce coefficient mesure la
dispersion dun chantillon relativement sa moyenne. Il permet de comparer la
67
dispersion dchantillons dont les chelles ou les moyennes sont sensiblement
diffrentes.
- Asymtrie (Pearson) * : le coefficient dasymtrie de Pearson est dfini par :
( )
3
3 1
1 3
3
avec
( )
n
i i
i
w x
Sw s n
=

= =

Ce coefficient, appel skewness en anglais, donne une indication quant la forme de la
distribution de lchantillon. Dans le cas dune valeur ngative (respectivement positive) la
distribution est concentre gauche (respectivement droite) de la moyenne.
- Asymtrie (Fisher) * : le coefficient dasymtrie de Fisher est dfini par :
( )
1
1
/

2 /
Sw Sw Sw n
G
Sw Sw n

=

Contrairement au prcdent, ce coefficient est non biais sous hypothse de normalit
des donnes. Ce coefficient donne une indication quant la forme de la distribution de
lchantillon. Dans le cas dune valeur ngative (respectivement positive) la distribution est
concentre gauche (respectivement droite) de la moyenne.
- Asymtrie (Bowley) * : le coefficient dasymtrie de Bowley est dfini par :
1 2 3
3 1
2
( )
Q Q Q
A B
Q Q
+
=

- Aplatissement (Pearson) * : le coefficient daplatissement de Pearson est dfini par :
( )
4
1 4
2 4
4
-3 avec
( )
n
i i
i
w x
Sw s n
=

= =

Ce coefficient appel en anglais kurtosis ou parfois excess kurtosis donne une indication
quant la forme de la distribution de lchantillon. Dans le cas dune valeur ngative
(respectivement positive), le pic de la distribution de lchantillon est plus (respectivement
moins) aplati que celui dune loi normale.
- Aplatissement (Fisher) * : le coefficient daplatissement de Fisher est dfini par :
( )( )
( ) ( )
( )( )
( )
2 2
4
4
/
/ 6
2 / 3 /
/
= 3 /
2 / 3 / ( )
Sw Sw n
G Sw Sw n
Sw Sw n Sw Sw n
Sw Sw n
Sw sw n
Sw Sw n Sw Sw n s n
= + +

| |

|

\ .

68
Contrairement au prcdent, ce coefficient est non biais sous hypothse de normalit
des donnes. Ce coefficient appel en anglais kurtosis ou parfois excess kurtosis donne
une indication quant la forme de la distribution de lchantillon. Dans le cas dune valeur
ngative (respectivement positive), le pic de la distribution de lchantillon est plus
(respectivement moins) aplati que celui dune loi normale.
- Ecart-type de la moyenne * : cette statistique est dfinie par :
2
( 1)
s n
s
Sw
=
- Borne inf. de la moyenne (x%) * : cette statistique correspond la borne infrieure de
lintervalle de confiance x% de la moyenne. Cette statistique est dfinie par :
( ) 100 / 2 x
L s t

=
- Borne sup. de la moyenne (x%) * : cette statistique correspond la borne suprieure
de lintervalle de confiance x% de la moyenne. Cette statistique est dfinie par :
( ) 100 / 2 x
U s t

= +
- Ecart-type (Asymtrie (Fisher)) * : lcart-type du coefficient dasymtrie de Fisher est
dfini par :
( )
( )
( ) ( ) ( )
1
6 1
2 1 3
Sw Sw
se G
Sw Sw Sw
=
+ +

- Ecart-type (Aplatissement (Fisher)) * : lcart-type du coefficient daplatissement de
Fisher est dfini par :
( )
( ) ( ) ( )
( )( )
2
2
1
2
4 1
3 5
Sw se G
se G
Sw Sw
=
+

- Ecart absolu moyen * : comme lcart-type ou la variance, ce coefficient mesure la
dispersion (ou variabilit) de lchantillon. Il est dfini par :
1
( )
n
i i
i
w x
e
Sw
=

=

- Ecart absolu mdian * : cette statistique correspond la mdiane des carts absolus
la mdiane.
- Moyenne gomtrique * : cette statistique nest calcule que si toutes les donnes
sont strictement positives. Elle est dfinie par :
69
( )
1
1
exp
n
G i i
i
w Ln x
Sw
=
| |
=
|
\ .

Si tous les poids sont gaux 1, on a
1
n
n
G i
i
x
=
=
[

- Ecart-type gomtrique * : cette statistique est dfinie par :
( ) ( ) ( )
2
1
1
exp
n
G i i G
i
w Ln x Ln
Sw
o
=
| |
=
|
\ .

- Moyenne harmonique * : cette statistique est dfinie par :
1
H
n
i
i
i
Sw
w
x
=
=

(*) Les statistiques suivies dun astrisque tiennent compte du poids des observations.

Statistiques descriptives pour les donnes qualitatives :
Pour un chantillon compos de N donnes qualitatives, on dfinit :
- Nombre dobservations : le nombre N de donnes dans lchantillon slectionn.
- Nombre de donnes manquantes : le nombre de donnes manquantes dans
lchantillon analys. Pour le calcul des statistiques qui suivent, les donnes identifies
comme manquantes sont ignores. On dfinit par n le nombre de donnes non
manquantes, et par {w1, w2, wn} le sous-chantillon les poids des donnes non
manquantes.
- Somme des poids *: la somme des poids, note Sw. Lorsque tous les poids valent 1,
on a Sw = n.
- Mode *: le mode de lchantillon analys. Autrement dit, la modalit la plus frquente.
- Frquence du mode *: la frquence de la modalit laquelle correspond le mode
- Modalit : le nom des diffrentes modalits prsentes dans lchantillon.
- Frquence par modalit *: la frquence de chacune des modalits.
- Frquence relative par modalit *: la frquence relative de chacune des modalits.
70

(*) Les statistiques suivies dun astrisque tiennent compte du poids des observations.

Plusieurs types de graphiques sont disponibles pour les donnes quantitatives et les donnes
qualitatives :

Graphiques pour les donnes quantitatives :
- Box plots : ces reprsentations univaries dchantillons de donnes quantitatives sont
parfois appeles diagrammes botes et moustaches . Cest une reprsentation
simple et assez complte puisque dans la version propose par XLSTAT sont affichs
le minimum, le 1
er
quartile, la mdiane, la moyenne, le 3
ime
quartile, ainsi que les deux
limites (les extrmits des moustaches ) au-del desquelles on peut considrer que
les valeurs sont anormales. Les limites sont ainsi calcules :
Limite infrieure : Linf = Q1 1.5 (Q3 Q1)
Limite suprieure : Lsup = Q3 + 1.5 (Q3 Q1)
- Scattergrams : ces reprsentations univaries permettent de donner une ide de la
distribution et de la pluralit ventuelle des modes dun chantillon. Tous les points sont
reprsents, ainsi que la moyenne et la mdiane.
- Strip plots : ces diagrammes reprsentent sous forme de bandes (strip en anglais) les
donnes de lchantillon. Sur un intervalle donn, plus les bandes sont serres ou
paisses plus il y a de donnes.
- Graphiques P-P (loi normale) : les graphiques Probabilit-Probabilit (P-P plots en
anglais) permettent de comparer la fonction de rpartition empirique dun chantillon
celle dun chantillon distribu suivant une loi normale de mme moyenne et mme
variance. Si lchantillon suit une loi normale, les points doivent tre confondus avec la
premire bissectrice du plan.
- Graphiques Q-Q (loi normale) : les graphiques Quantile-Quantile (Q-Q plots en
anglais) permettent de comparer les quantiles de lchantillon ceux dun chantillon
distribu suivant une loi normale de mme moyenne et mme variance. Si lchantillon
suit une loi normale, les points doivent tre confondus avec la premire bissectrice du
plan.

Graphiques pour les donnes qualitatives :
Diagrammes en btons : activez cette option pour reprsenter sous forme de diagrammes en
btons les effectifs ou les frquences des diffrentes modalits des variables qualitatives.
71
Diagrammes en secteurs : activez cette option pour reprsenter sous forme de diagrammes
en secteurs (ou camemberts) les effectifs ou les frquences des diffrentes modalits des
variables qualitatives.
Diagrammes en secteurs doubles : ces graphiques permettent de comparer les effectifs ou
les frquences de sous-chantillons ceux dun chantillon complet.
Anneaux : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences des
sous-chantillons ceux dun chantillon complet.
Barres empiles : cette option nest active que si une colonne de sous-chantillons a t

Bote de dialogue

calculs.

Onglet Gnral :
72
Donnes quantitatives : activez cette option pour slectionner les chantillons de donnes
quantitatives pour lesquels vous voulez calculer les statistiques descriptives. Si des en-ttes
ont t slectionns, veuillez vrifier que loption Libells des chantillons est active.
Donnes qualitatives : activez cette option pour slectionner les chantillons de donnes
qualitatives pour lesquels vous voulez calculer les statistiques descriptives. Si des en-ttes ont
t slectionns, veuillez vrifier que loption Libells des chantillons est active.
Sous-chantillons : activez cette option pour slectionner une colonne indiquant les noms ou
les indices des sous-chantillons correspondant chacune des observations.
- Libells Variable-Modalit : activez cette option pour utiliser des libells longs pour
l'affichage des rsultats concernant les variables quantitatives. Les libells Variable-
Modalit sont composs du nom de la variable comme prfixe, et de la modalit du
sous-chantillon comme suffixe.

actif.

Libells des chantillons: activez cette option si la premire ligne des slections (donnes
quantitatives, qualitatives, sous-chantillons, poids) contient un libell.
- Standardiser les poids : si vous activez cette option les poids sont standardiss de

Onglet Options :
descriptives.
Graphiques : activez cette option pour afficher des graphiques.
73
Normaliser : activez cette option pour centrer-rduire les donnes avant de procder
lanalyse.
Remettre lchelle de 0 100 : activez cette option remettre les donnes lchelle en
faisant en sorte que le minimum soit 0 et le maximum 100.
Comparer lchantillon total : cette option nest active que si une colonne de sous-
chantillons a t slectionne. Activez cette option pour que les statistiques descriptives et
les graphiques soient aussi affichs pour lchantillon total.

Onglet Sorties :
Donnes quantitatives : activez les options pour les statistiques descriptives que vous voulez
calculer. Les diffrentes statistiques sont prsentes dans la section description.
- Toutes : cliquez sur ce bouton pour tout slectionner.
- Aucune : cliquez sur ce bouton pour tout dslectionner.
- Affichage vertical : activez cette option pour que le tableau des statistiques
descriptives soit affich verticalement (une ligne par statistique descriptive).

Donnes qualitatives : activez les options pour les statistiques descriptives que vous voulez
calculer. Les diffrences statistiques sont prsentes dans la section description.
- Toutes : cliquez sur ce bouton pour tout slectionner.
- Aucune : cliquez sur ce bouton pour tout dslectionner.
- Affichage vertical : activez cette option pour que le tableau des statistiques
descriptives soit affich verticalement (une ligne par statistique descriptive).

Onglet Graphiques (1) :

Cet onglet concerne les donnes quantitatives.
Box plots : activez cette option pour afficher les box plots (ou graphiques botes et
moustaches). Sur ces graphiques sont notamment affichs la moyenne (+ rouge), la mdiane
(trait rouge), le premier (Q1) et le troisime (Q3) quartiles (extrmits de la bote) et les limites
partir desquelles on peut considrer quil sagit de donnes potentiellement anormales. La
limite infrieure est gale Q1 - 1,5 (Q3 Q1), et la limite suprieure est gale Q3 + 1,5
(Q3 Q1. Si loption valeurs extrmes est active, les donnes se trouvant au-del de
ces limites sont affiches avec un cercle vid.
74
- Horizontaux : activez cette option pour afficher des box plots, scattergrams et strip
plots horizontaux.
- Verticaux : activez cette option pour afficher des box plots, scattergrams et strip plots
verticaux.
- Grouper les graphiques : activez cette option pour regrouper sur un mme graphique
les diffrents box plots, scattergrams et strip plots de manire pouvoir les comparer.
- Minimum/Maximum : activez cette option pour systmatiquement afficher les points
correspondant au minimum et au maximum (box plots).
- Valeurs extrmes : activez cette option pour afficher les points correspondant aux
valeurs extrmes (box plots) avec un cercle vid.
- Position des tiquettes : choisissez la position des tiquettes sur les graphiques
verticaux. Elles peuvent tre soit en bas, soit en haut, soit alternativement en bas et en
haut.

Scattergrams : activez cette option pour afficher les scattergrams. La moyenne (+ rouge) et la
mdiane (trait rouge) sont systmatiquement affiches.
Strip plots : activez cette option pour afficher les strip plots. Sur ces graphiques, une bande
correspond une observation.
Stem-and-leaf plots : activez cette option pour afficher les stem-and-leaf plots (ou diagramme
branches et feuilles).
Graphiques P-P (loi-normale) : activez cette option pour afficher les graphiques P-P.
Graphiques Q-Q (loi-normale) : activez cette option pour afficher les graphiques Q-Q.

Onglet Graphiques (2) :

Cet onglet concerne les donnes qualitatives.
Diagrammes en btons : activez cette option pour reprsenter sous forme de diagrammes en
btons les effectifs ou les frquences des diffrentes modalits des variables qualitatives.
Diagrammes en secteurs : activez cette option pour reprsenter sous forme de diagrammes
en secteurs (ou camemberts) les effectifs ou les frquences des diffrentes modalits des
variables qualitatives.
- Doubles : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences
des sous-chantillons ceux dun chantillon complet.
75
Anneaux : cette option nest active que si une colonne de sous-chantillons a t
Barres empiles : cette option nest active que si une colonne de sous-chantillons a t
Valeurs utilises : choisissez le type de donnes afficher :
- Effectifs : choisissez cette option pour que lchelle des graphiques corresponde aux
effectifs des modalits.
- Frquences : choisissez cette option pour que lchelle des graphiques corresponde
aux frquences des modalits.

Exemple
Un exemple de calcul de statistiques descriptives et de gnration de biplots est disponible sur
le site d'Addinsoft l'adresse
http://www.xlstat.com/demo-bpf.htm

Bibliographie
Filliben J.J. (1975). The probability plot correlation coefficient Test for normality.
Technometrics, 17(1), 111-117.
DeCarlo L.T. (1997). On the meaning and Use of Kurtosis. Psychological Methods, 2(3), 292-
307.
Sokal R.R. and Rohlf F.J. (1995). Biometry. The Principles and Practice of Statistics in
Biological Research. Third Edition. Freeman, New York.
Tomassone R., Dervin C. and Masson J.P. (1993). Biomtrie. Modlisation de Phnomnes
Biologiques. Masson, Paris.

76
Histogrammes
Utiliser cet outil pour crer un histogramme partir dun chantillon de donnes quantitatives
continues ou discrtes.

Description
Lhistogramme est lun des outils de visualisation les plus utiliss car il permet davoir trs
rapidement une ide de la distribution dun chantillon de donnes quantitatives continues ou
discrtes.

Dfinition des intervalles
Lun des enjeux pour la cration dun histogramme est la dfinition des intervalles, car pour un
jeu de donnes dtermin, lallure de lhistogramme en dpend entirement. Entre les deux
extrmes de lintervalle unique comprenant toutes les donnes et donnant une seule barre, et
de lhistogramme o il y a un intervalle par donne, il existe autant dhistogrammes possibles
que de partitions des donnes.
Afin dobtenir un rsultat visuellement et/ou oprationnellement satisfaisant, la dfinition des
intervalles peut ncessiter plusieurs aller-retours.
La mthode la plus classique consiste utiliser des intervalles de mme amplitude, la valeur
du premier intervalle tant dtermine par la valeur minimale ou une valeur lgrement
infrieure.
Afin de faciliter lobtention dhistogrammes, XLSTAT vous propose de crer vos histogrammes
soit en dfinissant le nombre dintervalles, soit en dfinissant leur amplitude, soit en spcifiant
vous-mme les intervalles. Les intervalles sont considrs comme tant ferms pour la borne
infrieure et ouverts pour la borne suprieure.

Histogramme cumul
XLSTAT vous permet de crer des histogrammes cumuls qui correspondent soit au cumul
des valeurs de lhistogramme, soit la fonction de rpartition empirique. Lutilisation de la
fonction de rpartition empirique est recommande pour une comparaison une fonction de
rpartition dune distribution thorique.

Comparaison une distribution thorique
77
XLSTAT vous permet de comparer, si vous le souhaitez, lhistogramme une distribution
thorique dont vous pouvez fixer les paramtres. Nanmoins, si vous souhaitez vrifier si un
chantillon est distribu suivant une loi donne, vous pouvez utiliser loutil dajustement dune
loi de distribution pour estimer les paramtres de la loi et ventuellement vrifier si lhypothse
est acceptable.
( )
( ) | |
1
1
1 ( ) ( )
( ) 1 , avec a,b>0, 0,1 et ( , )
, ( )
b
a
a b
f x x x x B a b
B a b a b
I I
= e =
I +

( ) | | | |
( ) 1 , avec n, N, n>0, 0, , 0,1
n x
x x
n
P X x C p p x x n p
= = e e e
( ) | |
1
1
( ) 1 , avec n, N, n>0, k n, 0,1
x
x n
n x
P X x C p p x p
+
= = e s e
obtenus n succs.
( )
( )( )
( ) , avec N, , >0
! 1
x
k x
k x p
P X x x k p
x k p
+
I +
= = e
I +

78
( )
( )
/ 2
/ 2 1 / 2 *
1/ 2
( ) , avec 0, N
/ 2
df
df x
f x x e x df
df

= > e
I

hypothses.
( )
1
( ) , avec 0 et , 0 et k N
1 !
x
k k
e
f x x x k
k
= > > e

dchelle | = 1/).
( ) ( ) exp , avec 0 et 0 f x x x = > >
On a E(X) = 1/ et V(X) = 1/
qualit.
- Fisher (df
1
, df
2
( )
1 2
/ 2 / 2
1 1
1 2 1 2 1 2
*
1 2
1
( ) 1 ,
/ 2, / 2
avec 0 et , N
df df
df x df x
f x
x df df
| | | |
=
| |
+ +
\ . \ .
> e

On a E(X) = df
2
/(df
2
-2) si df
2
>0, et V(X) = 2df
2
(df
1
+df
2
-2)/[df
1
(df
2
-2) (df
2
-4)]
79
1
x x
f x |
| | |
| | | |
= >
|
|
\ . \ .

( )
( )
( )
/
1
( ) , avec et , 0
x
k
k
e
f x x x k
k
|
|
|

= > >
I

On a E(X) = +k| et V(X) = k|
1/ 1 1/
1
( ) 1 exp 1 , avec 0
k k
x x
f x k k |
| | |
| |
| | | |
| = >
| |
|
\ . \ .
\ .

( ) ( ) ( ) ( )
2
2
On a E(X) = 1 et V(X) = 1 2 1 k k k
k k
| | | |
+ I + I + I +
|
\ .

( ) ( )
(0.5772156649).
80
( ) ( )
2
2
ln
2
1
( ) , avec , 0
2
x
f x e x
x
o
o
o t
= >
( )
2
2
2
1
( ) , avec 0
2
x
f x e
o
o
o t
= >
2
2
1
( )
2
x
f x e
t

=
On a E(X) = 0 et V(X) = 1
1
( ) , avec , 0 et
a
a
ab
f x a b x b
x
+
= > >
population.
( ) exp
( ) , avec N et 0
!
x
P X x x
x

= = e >
81
( ) ( )
( )
( )
( 1) / 2
2
1/ 2
( ) 1 / , avec 0
/ 2
df
df
f x x df df
df df t
+
I +
= + >
I

| |
1
b a
= > e

On a E(X) = (a+b)/2 et V(X) = (b-a)/12
calculer linverse.
( )
1
| |
| |
= > >
2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
| | | | | |
I + I + I +
| | |
\ . \ . \ .

1
( ) , avec 0, et , 0
x
x
f x e x
|
|
|
|

| |
|
\ .
| |
= > >
|
\ .

2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
I + I + I +
( | | |
\ . \ . \ .

82
1
( ) , avec , et , 0
x
x
f x e x
|
|
|
|

| |
|
\ .
| |
= > >
|
\ .

2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
+ I + I + I +
( | | |
\ . \ . \ .


Bote de dialogue

calculs.

Onglet Gnral :
83
Donnes : slectionnez des donnes quantitatives. Si plusieurs chantillons sont
slectionns, XLSTAT fera les calculs pour chacun des chantillons indpendamment, tout en
vous permettant de superposer les histogrammes si vous le souhaitez (voir longlet
Graphiques). Si des en-ttes ont t slectionns, veuillez vrifier que loption Libells des
chantillons est active.
Type de donnes :
Continues : choisissez cette option pour que XLSTAT considre que vos donnes sont
continues.
Discrtes : choisissez cette option pour que XLSTAT considre que vos donnes sont
discrtes.

Sous-chantillons : activez cette option puis slectionnez une colonne (mode colonnes) ou
une ligne (mode lignes) contenant les descripteurs dchantillons. Lutilisation de cette option
permet dobtenir un histogramme par sous-chantillon et donc de comparer la distribution des
donnes entre les sous-chantillons. Si un en-tte a t slectionn, veuillez vrifier que
loption Libells des chantillons est active.
- Libells Variable-Modalit : activez cette option pour utiliser des libells longs pour
l'affichage des rsultats. Les libells Variable-Modalit sont composs du nom de la
variable comme prfixe, et de la modalit du sous-chantillon comme suffixe.

actif.

Libells des chantillons : activez cette option si la premire ligne des donnes
slectionnes (donnes, sous chantillons, poids) contient un libell.
Poids: activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
vrifier que loption Libells des chantillons est active.

Onglet Options :
84
Intervalles : choisissez lune des options suivantes pour dfinir les intervalles de
lhistogramme :
- Nombre : choisissez cette option pour entrer le nombre dintervalles crer.
- Amplitude : choisissez cette option pour dfinir une amplitude fixe pour les intervalles.
- Dfinis par lutilisateur : slectionnez une colonne contenant en ordre croissant la
borne infrieure du premier intervalle, et la borne suprieure de tous les intervalles.
- Minimum : activez cette option pour entrer la valeur de la borne infrieure du premier
intervalle. Cette valeur doit tre infrieure ou gale au minimum de la srie.

Comparer les sous-chantillons : cette option nest active que si une colonne de sous-
chantillons a t slectionne. Activez cette option pour afficher les diffrents sous-
chantillons sur un mme histogramme
- Comparer lchantillon total : activez cette option pour que les statistiques
descriptives et les graphiques soient aussi affichs pour lchantillon total.

slectionns.

Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives des
chantillons.

Onglet Graphiques :
85
chaque intervalle.
ligne continue.
Histogrammes cumuls : activez cette option pour afficher les histogrammes cumuls des
chantillons.

Ordonnes des histogrammes : choisissez quelle grandeur doit tre utilise pour les
histogrammes : densit, effectif ou frquence.

Afficher une distribution : activez cette option pour comparer les histogrammes des
chantillons slectionns une fonction de densit et/ou pour comparer les histogrammes des
chantillons slectionns une fonction de rpartition. Choisissez alors la loi utiliser, puis, si
ncessaire, entrez la valeur de ses paramtres.

Rsultats
Statistiques simples : dans ce tableau sont affiches pour tous les chantillons les
statistiques descriptives suivantes : le nombre dobservations, le nombre de donnes
manquantes, le nombre de donnes non manquantes, la moyenne, et lcart-type (non biais).
Histogrammes : les histogrammes sont affichs. Si vous le souhaitez, vous pouvez modifier
la couleur des lignes, les chelles, et les titres comme avec nimporte quel graphique Excel.
Statistiques descriptives pour les intervalles : dans ce tableau sont affichs pour chaque
intervalle sa borne infrieure, sa borne suprieure, le nombre de valeurs de lchantillon tant
comprises dans lintervalle (effectif), la frquence (leffectif divis par leffectif total de
lchantillon), et la densit (le rapport de la frquence sur la taille de lintervalle).

86
Exemple
Un exemple de gnration dhistogramme est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-histof.htm

Bibliographie
Chambers J.M., Cleveland W.S., Kleiner B. and Tukey P.A. (1983). Graphical Methods for
Data Analysis. Duxbury, Boston.
Jacoby W. G. (1997). Statistical Graphics for Univariate and Bivariate Data. Sage
Publications, London.
Wilkinson L. (1999). The Grammar of Graphics, Springer Verlag, New York.

87
Tests de normalit
Utilisez cet outil pour vrifier si un chantillon peut tre considr comme tant distribu
suivant une loi normale. L'outil ajustement d'une loi de probabilit permet d'estimer les
paramtres de la loi normale mais les tests qui sont proposs ne sont pas aussi bien adapts
que ceux proposs ici.

Description
Supposer la normalit dun chantillon ou dune statistique est commun en statistique.
Pourtant, la vrification de lhypothse de normalit est souvent nglige. Par exemple, la
normalit des rsidus obtenus lors dune rgression linaire est rarement teste, alors quelle
conditionne la qualit des intervalles de confiance autour des paramtres et des prdictions.
XLSTAT propose quatre tests pour tester la normalit dun chantillon :
- le test de Shapiro-Wilk bien adapt aux chantillons de moins de 5000 observations ;
- le test d'Anderson-Darling propos par Stephens (1974) est une modification du test de
Kolmogorov-Smirnov adapte plusieurs lois dont la loi normale, pour le cas o les
paramtres de la loi ne sont pas connus et doivent donc tre estims ;
- le test de Lilliefors est une modifiication du test de Kolmogorov-Smirnov adapt au cas de
la normalit dans le cas o les paramtres de la loi, la moyenne et la variance, ne sont
pas connus et doivent donc tre estims ;
- le test de Jarque-Bera qui est d'autant plus performant que le nombre de donnes est
important.

Afin de vrifier visuellement si un chantillon suit une loi normale, il est possible dutiliser les
graphiques P-P et les graphiques Q-Q :
- Graphiques P-P (loi normale) : les graphiques Probabilit-Probabilit (P-P plots en
anglais) permettent de comparer la fonction de rpartition empirique dun chantillon
celle dun chantillon distribu suivant une loi normale de mme moyenne et mme
variance. Si lchantillon suit une loi normale, les points doivent tre confondus avec la
premire bissectrice du plan.
- Graphiques Q-Q (loi normale) : les graphiques Quantile-Quantile (Q-Q plots en anglais)
permettent de comparer les quantiles de lchantillon ceux dun chantillon distribu
suivant une loi normale de mme moyenne et mme variance. Si lchantillon suit une loi
normale, les points doivent tre confondus avec la premire bissectrice du plan.
88

Bote de dialogue

calculs.

Onglet Gnral :
Donnes : slectionnez des donnes quantitatives. Si plusieurs chantillons sont
slectionns, XLSTAT testera la normalit pour chacun des chantillons indpendamment. Si
des en-ttes ont t slectionns, veuillez vrifier que loption Libells des chantillons est
active.
vrifier que loption Libells des chantillons est active.

Test de Shapiro-Wilk : activez cette option pour effectuer un test de Shapiro-Wilk.
89
Test dAnderson-Darling : activez cette option pour effectuer un test dAnderson-Darling.
Test de Lilliefors : activez cette option pour effectuer un test de Lilliefors.
Test de Jarque-Bera : activez cette option pour effectuer un test de Jarque-Bera.

actif.

Libells des chantillons : activez cette option si la premire ligne des donnes
slectionnes (donnes, sous chantillons, poids) contient un libell.
Niveau de signification (%) : entrez le niveau de signification pour les tests.
Sous-chantillons : activez cette option puis slectionnez une colonne (mode colonnes) ou
une ligne (mode lignes) contenant les descripteurs dchantillons. Lutilisation de cette option
permet de calculer les tests de normalit pour chacun des sous-chantillons. Si un en-tte a
t slectionn, veuillez vrifier que loption Libells des chantillons est active.

slectionns.

Onglet Sorties :
chantillons.
90

Onglet Graphiques :
Graphiques P-P : activez cette option pour afficher les graphiques probabilit-probabilit
bass sur la loi normale.
Graphiques Q-Q : activez cette option pour afficher les graphiques quantile- quantile bass
sur la loi normale.

Rsultats
Pour chaque test demand sont affiches les statistiques relatives au test, dont notamment la
p-value qui est ensuite utilise pour linterprtation du test par comparaison avec le seuil de
signification choisi.
Sils ont t demands, les P-P et Q-Q plots sont ensuite affichs.

Exemple
Un exemple de test de normalit est disponible sur le site Internet d'Addinsoft l'adresse
http://www.xlstat.com/demo-normf.htm

Bibliographie
Anderson T.W. and Darling D.A. (1952). Asymptotic theory of certain "Goodness of Fit"
criteria based on stochastic processes. Annals of Mathematical Statistic, 23, 193-212.
Anderson T.W. and Darling D.A. (1954). A test of goodness of fit. Journal of the American
D'Agostino R.B. and Stephens M.A. (1986). Goodness-of-fit techniques. Marcel Dekker,
New York.
Dallal G.E. and Wilkinson L. (1986). An analytic approximation to the distribution of
Lilliefors's test statistic for normality. Statistical Computing, 40, 294-296.
91
Jarque C.M. and Bera A.K. (1980). Efficient tests for normality, heteroscedasticity and serial
independence of regression residuals. Economic Letters, 6, 255-259.
Lilliefors H. (1967). On the Kolmogorov-Smirnov test for normality with mean and variance
unknown. Journal of the American Statistical Association, 62, 399-402.
Royston P. (1982). An extension of Shapiro and Wilk's W test for normality to large samples.
Applied Statistics, 31, 115-124.
Royston P. (1982). Algorithm AS 181: the W test for normality. Applied Statistics, 31, 176-180.
Royston P. (1995). A remark on Algorithm AS 181: the W test for normality. Applied Statistics,
44, 547-551.
Stephens M. A. (1974). EDF statistics for goodness of fit and some comparisons. Journal of
the American Statistical Association, 69, 730-737.
Stephens M. A. (1976). Asymptotic results for goodness-of-fit statistics with unknown
parameters. Annals of Statistics, 4, 357-369.
Shapiro S. S. and Wilk M. B. (1965). An analysis of variance test for normality (complete
samples). Biometrika, 52, 3 and 4, 591-611.
Thode H.C. (2002). Testing for normality. Marcel Dekker, New York, USA.

92
Matrices de similarit/dissimilarit (Corrlations, ...)
Utilisez cet outil pour calculer un indice de proximit entre les lignes ou les colonnes dun
tableau de donnes. Le cas le plus classique dutilisation de cet outil est le calcul dune
matrice de corrlation ou de covariance entre des variables quantitatives.

Description
Cet outil propose un nombre important de mesures de proximit entre une srie dobjets, quil
sagisse de lignes (en principe des observations) ou de colonnes (en principe des variables).
Le coefficient de corrlation est une mesure de similarit des variables : plus des variables
sont similaires, plus le coefficient de corrlation est lev.

Similarits et dissimilarits
La mesure de la proximit entre deux objets peut se faire en mesurant quel point ils sont
semblables (similarit) ou dissemblables (dissimilarit).
Les indices proposs dpendent de la nature de donnes :
- Donnes quantitatives :
Les indices de similarit proposs pour des calculs partir de donnes quantitatives sont les
suivants : Cosinus, Covariance (n-1), Covariance (n), Indice de Gower, Inertie, Coefficient de
corrlation de Kendall, Coefficient de corrlation de Pearson, Coefficient de corrlation de
Spearman.
Les indices de dissimilarit proposs pour des calculs partir de donnes quantitatives sont
les suivants : Distance de Bhattacharya, Distance de Bray et Curtis, Distance de Canberra,
Distance de Chebychev, Distance du Khi, Mtrique du Khi, Distance de la corde, Distance de
la corde au carr, Distance euclidienne, Distance godsique, Dissimilarit de Kendall,
Distance de Mahalanobis, Distance de Manhattan, Dissimilarit de Pearson, Dissimilarit de
Spearman.

- Donnes binaires :
Les indices de similarit et de dissimilarit (par simple transformation) proposs pour des
calculs partir de donnes binaires sont les suivants : Indice de Dice (aussi appel indice de
Sorensen), Indice de Jaccard, Indice de Kulczinski, Phi de Pearson, Indice dOchiai, Indice de
Rogers & Tanimoto, Indice de Sokal & Michener (simple matching coefficient), Indice de Sokal
& Sneath(1), Indice de Sokal & Sneath(2).
93

- Donnes qualitatives :
Les indices de similarit proposs pour des calculs partir de donnes qualitatives sont les
suivants : Cooccurrence, Similarit gnrale.
Lindice de dissimilarit propos pour des calculs partir de donnes qualitatives est le
suivant : Dissimilarit gnrale.

Bote de dialogue

calculs.

Onglet Gnral :
Donnes : slectionnez un tableau comprenant N objets dcrits par P descripteurs. Si des en-
ttes de colonnes ont t slectionns, veuillez vrifier que loption Libells des colonnes
est active.
Type de donnes : choisissez le type des donnes slectionnes.
Remarque (1) : dans le cas o le type de donnes choisi est Binaires , si les donnes
dentre ne sont pas de type binaire, elles seront automatiquement binarises (les valeurs
gales 0 restent gales 0 et les valeurs diffrentes de 0 sont remplaces par 1).
Remarque (2) : dans le cas o le type de donnes choisi est Qualitatives , quelque soit leur
type rel, les donnes sont considres comme qualitatives.
94

Poids des lignes : activez cette option si vous voulez pondrer les lignes. Si vous nactivez
pas cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
vrifier que loption Libells des colonnes est active.

Type de proximit : similarits / dissimilarits : choisissez le type de proximit utiliser. Le
type de donnes et le type de proximit dterminent la liste des indices possibles pour le
calcul de la matrice de proximit.
Remarque : pour calculer un coefficient de corrlation classique (aussi appel coefficient de
corrlation de Pearson), vous devez slectionner le type de donnes quantitatives ,
similarits , et le Coefficient de corrlation de Pearson .

actif.

(Tableau observations/variables, libells des lignes, poids des lignes, poids des colonnes)
contient un libell.
Libells des lignes : activez cette option si vous voulez utiliser des libells dobservations
pour laffichage des rsultats. Si l'option Libells des colonnes est active, la premire
cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette option, des
libells seront automatiquement crs (Obs1, Obs2, ).

Calculer les proximits pour les :
Colonnes : activez cette option si vous voulez mesurer la proximit entre les colonnes.
Lignes : activez cette option si vous voulez mesurer la proximit entre les lignes.

95
manquantes avant le dbut des calculs.
- Moyenne ou mode : activez cette option pour estimer les donnes manquantes en
utilisant la moyenne (variables quantitatives) ou le mode (variables qualitatives) pour
les variables correspondantes.
- Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une
observation en recherchant le plus proche voisin de l'observation.

Onglet Sorties :
les variables slectionnes.
Matrice de proximit : activez cette option pour afficher la matrice de proximit.

Identifier les objets similaires : activez cette option pour identifier dans la matrice de
proximit les objets similaires.
Lister les objets similaires : activez cette option pour afficher la liste des objets similaires.
Seuil de dissimilarit : entrez la valeur seuil de lindice partir de laquelle vous considrez
que les objets sont similaires. Si lindice choisi est une similarit, les donnes seront
considres comme tant similaires si elles sont suprieures cette valeur. Si vous avez
choisi un indice de dissimilarit, les donnes seront considres comme tant similaires si
elles sont infrieures cette valeur.
Alpha de Cronbach : activez cette option pour calculer le alpha de Cronbach.
Test de sphricit de Bartlett : activez cette option pour calculer le test de sphricit de
Bartlett (uniquement dans le cas de la corrlation de Pearson ou de la covariance).
Niveau de signification (%) : entrez le niveau de signification pour le test de sphricit.

96
Rsultats
Statistiques simples : dans ce tableau sont affiches les statistiques descriptives des
chantillons.
Matrice de proximit : dans ce tableau sont affiches les proximits entre lobjet pour lindice
choisi. Si loption Identifier les objets similaires a t active et que le seuil de dissimilarit
est dpass, les valeurs correspondant des objets similaires sont affiches en gras.
Liste des objets similaires : si loption lister les objets similaires est active et quau
moins une paire dobjets a une dissimilarit au-del de ce seuil, la liste des objets similaires
est affiche.

Bibliographie
Gower J.C. and P. Legendre (1986). Metric and Euclidean properties of dissimilarity
coefficients. Journal of Classification, 3, 5-48.
Jobson J.D. (1992). Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag, New York.
Legendre P. and Legendre L. (1998). Numerical Ecology. Second English Edition. Elsevier,
Amsterdam.
Biological Research. Third edition. Freeman, New York.

97
Statistiques de multicolinarit
Utilisez cet outil pour identifier des multicolinarits entre vos variables.

Description
On dit que des variables sont multicolinaires sil existe une relation linaire entre elles. Cest
une extension du cas simple de la colinarit entre deux variables. Par exemple, pour trois
variables X1, X2, X3, on dira quelles sont multicolinaires si on peut crire
X1 = aX2 + bX3
o a et b sont deux nombres rels.
Si lAnalyse en Composantes Principales (ACP) permet de dtecter la prsence de
multicolinarits au sein des donnes (un nombre de facteurs non nuls infrieur au nombre de
variables indique la prsence dune multicolinarit), elle ne permet pas didentifier les
variables qui en sont responsables.
Pour dtecter les multicolinarits et identifier les variables impliques dans des
multicolinarits, on effectue des rgressions linaires de chacune des variables en fonction
des autres. On calcule ensuite :
- le R de chacun des modles. Si le R vaut 1, alors il existe une relation linaire entre la
variable dpendante du modle (le Y) et les variables explicatives (les X).
- la tolrance pour chacun des modles. La tolrance vaut (1-R). Elle est utilise dans
plusieurs mthodes (rgression linaire, rgression logistique, analyse factorielle
discriminante) comme un critre de filtrage des variables. Si une variable a une tolrance
infrieure un seuil fix (la tolrance est calcule en prenant en compte les variables dj
utilises dans le modle), on ne la laisse pas entrer dans le modle car sa contribution est
ngligeable et elle risquerait dentraner les problmes numriques.
- le VIF (Variance Inflation Factor) qui est gal linverse de la tolrance.

Il peut tre utile de dtecter des multicolinarits au sein dun groupe de variables notamment
dans les cas suivants :
- pour identifier des structures dans les donnes et en tirer des dcisions oprationnelles
(par exemple, arrter de mesurer une variable sur une chane de fabrication car elle est
fortement lie dautres qui sont aussi mesures) ;
- pour viter des problmes numriques lors de certains calculs. Certaines mthodes
utilisent des inversions de matrices. Linverse dune matrice (p x p) ne peut tre calcul
98
que si elle est de rang p (ou rgulire). Si elle est de rang infrieur, autrement dit sil existe
des relations linaires entre ses colonnes, alors elle est singulire et non inversible.

Bote de dialogue

calculs.

Onglet Gnral :
variables. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
Libells des variables est active.
contient un libell.

99
actif.


Onglet Sorties :
Corrlations : activez cette option pour afficher la matrice de corrlations.

R : activez cette option pour afficher les R.
Tolrance : activez cette option pour afficher les tolrances.
VIF : activez cette option pour afficher les VIF.

Onglet Graphiques :

Diagrammes en btons : activez cette option pour afficher les diagrammes en bton des
statistiques suivantes :
- R
- Tolrance
- VIF

100

Rsultats
Les rsultats comprennent les statistiques descriptives des variables slectionnes, la matrice
de corrlation des variables et les statistiques de multicolinarit (R, Tolrance et VIF). Des
diagrammes en btons permettent de reprer les variables les plus multi-corrles dautres.
Lorsque la tolrance vaut 0, le VIF a une valeur infinie et nest pas affich.

Bibliographie
Belsley D.A., Kuh E. and Welsch R.E. (1980). Regression Diagnostics, Identifying Influential
Data and Sources of Collinearity. Wiley, New York.

101
Tableau de contingence (statistiques descriptives)
Utilisez cet outil pour calculer des statistiques descriptives sur un tableau de contingence. Un
test dindpendance du khi entre les lignes et les colonnes peut tre calcul.

Description
Un tableau de contingence est une manire efficace de rsumer la relation entre deux
variables qualitatives V1 et V2. Un tableau de contingence a la structure suivante :

Modalit 1 n(1,1) n(1,j) n(1,m2)


distances au centre de gravit. Linertie totale du nuage des modalits est donne par :
2
. .
2
2 1 2 2 1
2
. .
. . 1 1 1 1
2
, avec et
ij i j
m m m m
i ij j ij
i j i j j i
n n n
n n
n n n n
n n
n
n
_
= = = =
| |
|
\ .
= = = =


102

Bote de dialogue

calculs.

Onglet Gnral :
Tableau de contingence : slectionnez un tableau crois, avec les frquences correspondant
aux diffrentes catgories de deux variables qualitatives. Si les libells des lignes et des
colonnes du tableau ont t slectionns, veillez ce que loption libells inclus soit
active.

actif.

103
Libells inclus : activez cette option si la premire ligne et la premire colonne des donnes
slectionnes contient un libell.

Onglet Options :

Remplacer les valeurs manquantes par 0 : activez cette option si vous considrez que les
valeurs manquantes sont quivalentes des 0.
Remplacer les valeurs manquantes par lesprance : activez cette option si vous souhaitez
remplacer les valeurs manquantes par leur esprance. Lesprance dune valeur manquante
est donne par :
. .
( )
i j
ij
n n
E n
n
=
o n
i.
est la somme sur les colonnes pour la ligne i, n
.j
est la somme sur les lignes pour
colonne j, et n est leffectif total avant remplacement des valeurs manquantes.

Onglet Sorties :
Khi par case : activez cette option pour afficher les Khi correspondant chacune des
104


Onglet Graphiques :
crois.

105
XLSTAT-Pivot
Utilisez ce module pour transformer un tableau individus/variables en un tableau crois
dynamique optimis pour la comprhension et lanalyse dun phnomne mesur au travers
dune variable rponse.

Description
XLSTAT-Pivot sappuie sur composant IOLAP dvelopp par la socit franco-amricaine
KXEN, le spcialiste mondial des technologies issues de la thorie de l'apprentissage
statistique de Vapnik, un mathmaticien russe contemporain migr aux USA. Cest un outil
unique pour crer des tableaux croiss dynamiques intelligents.

Un tableau crois (ou tableau de contingence) est une reprsentation synthtique des
occurrences observes sur une population de taille N pour des croisements des diffrentes
catgories de deux variables.
Un tableau crois dynamique permet de prendre en compte plus de deux variables et de
hirarchiser la structure du tableau. Le dynamisme du tableau provient de fonctionnalits
informatiques qui permettent de naviguer dans la hirarchie et de ne voir ventuellement que
certaines classes de certaines variables.
XLSTAT-Pivot vous permet de construire des tableaux croiss dynamiques dont la structure
est optimise en fonction dune variable cible. Les variables numriques continues ou
discrtes explicatives (celles dont les catgories constituent les lignes et les colonnes du
tableau) sont automatiquement dcoupes en des classes qui permettent doptimiser la qualit
du tableau.
La variable cible peut tre une variable binaire (0/1 ou Oui/Non par exemple), ou une variable
quantitative.

Lorsque vous utiliserez XLSTAT-Pivot vous verrez successivement trois botes de dialogue :
- La premire bote de dialogue vous permet de slectionner les donnes et de choisir
quelques options.
- La deuxime bote de dialogue vous permet de confirmer ou modifier les types de
donnes tels quils ont t dtects par le moteur danalyse de XLSTAT-Pivot.
- La troisime bote de dialogue vous permet de slectionner les variables (4 au maximum)
que vous voulez utiliser dans le tableau crois dynamique. Afin de vous aider un indice de
106
robustesse (Kr) et de qualit de lajustement (Ki) correspondant chacune des variables
sont affichs.

NB : XLSTAT-Pivot accepte jusqu 250 variables pour la construction du tableau.

Bote de dialogue

calculs.

Onglet Gnral :
Y / Variable rponse : Slectionnez la ou les variable(s) que vous voulez modliser. Si
plusieurs variables sont slectionnes, XLSTAT fera lanalyse pour chacune des variables
lune aprs lautre. Si un en-tte a t slectionn, veuillez vrifier que loption Libells des
variables est active.
Choisissez le format de la variable rponse que vous avez slectionne :
107
- Quantitative : si vous choisissez cette option, vous devez slectionner une variable
quantitative.
- Binaire : si vous choisissez cette option, vous devez slectionner une variable binaire,
comprenant exactement deux variables disctinctes.

X / Variables explicatives : slectionnez une ou plusieurs variables explicatives. Les
variables peuvent tre quantitatives et/ou qualitatives. Si des en-ttes ont t slectionn,
veuillez vrifier que loption Libells des variables est active.


actif.

Obs2, ).

108

Onglet Sorties :
Contributions : activez cette option pour afficher le tableau des contributions table et le
diagramme en btons correspondant.
Tableau crois : activez cette option pour afficher le tableau crois.

Rsultats
Ki: ce coefficient exprim en % mesure linformation apporte par les variables explicatives
pour expliquer la variable cible. Cest un concept proche du R de la rgression linaire.
Kr: ce coefficient mesure de la robustesse du modle sous-jacent. La robustesse dun modle
correspond sa capacit sadapter convenablement de nouveaux chantillons. XLSTAT-
Pivot utilise 75% des donnes pour ajuster le modle et 25% pour valider le modle. Un
modle est dit robuste si cet indicateur est au dessus de 95%.
Le premier tableau affich donne la contribution des variables (contribution brute, relative en
%, et cumule). Il permet de dtecter rapidement quelles sont les variables qui ont le plus
dimpact sur la variable cible. Un diagramme en btons correspondant aux contributions est
aussi affich.
Le rsultat principal fourni par XLSTAT-Pivot est le tableau crois dynamique. Chaque case du
tableau correspond une combinaison unique de valeurs des variables explicatives et est
dcrite par 4 valeurs qui peuvent tre affiches ou non en fonction des prfrences de
lutilisateur :
- Moyenne cible : cest le pourcentage de cas o la variable cible vaut 1 dans le cas
dune variable binaire, moyenne de la variable cible sur la sous-population
correspondant la combinaison dans le cas dune variable continue ;
109
- Taille cible : comptage des occurrences de 1 de la variable cible dans le dans le cas
dune variable binaire, somme de la variable cible sur la sous-population correspondant
la combinaison dans le cas dune variable continue ;
- Taille population % : pourcentage de la population totale qui correspondant la
combinaison ;
- Taille Population : effectif de la population correspondant la combinaison.

Exemple
Un exemple portant sur des donnes dun recensement effectu aux Etats-Unis est disponible
en permanence sur le site dAddinsoft :
http://www.xlstat.com/demo-pivotf.htm

Bibliographie
Vapnik V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New York.
Vapnik V. (1998). Statistical Learning Theory. Wiley, New York.
Vapnik V. (1999). An overview of statistical learning theory. IEEE Transactions on Neural
Networks, 10, 988-999.

110
Nuages de points
Utilisez cet outil pour crer des graphiques en 2 dimensions ou en 3 dimensions (la 3
ime

dimension tant reprsente par la taille du point), voire en 4 dimensions (une variable
qualitative peut tre slectionne). Cet outil permet aussi la cration de matrices de
graphiques permettant dtudier en une seule fois une srie de graphiques deux dimensions.
Remarque : loutil XLSTAT-3DPlot permet de crer des graphiques beaucoup plus percutants
grce un grand nombre doptions, avec la possibilit de reprsenter les donnes sur un
troisime axe.

Bote de dialogue
calculs.

Onglet Gnral :
X : slectionnez dans ce champ les donnes utiliser comme coordonnes pour laxe des
abscisses.
Y : slectionnez dans ce champ les donnes utiliser comme coordonnes pour laxe des
ordonnes.
Z : activez cette option pour slectionner les donnes qui conditionneront la taille des points
sur les graphiques.
- Utiliser les bulles : activez cette option pour utiliser les graphiques avec bulles de MS
Excel.
111
Groupes : activez cette option pour slectionner les donnes qui correspondent lidentifiant
du groupe auquel appartient chaque observation. Sur le graphique, la couleur des points
dpend du groupe.

actif.

(X, Y, Z, groups, poids et libells des observations) contient un libell.
Libells des observations : activez cette option si vous voulez utiliser des tiquettes de
lignes disponibles. Si l'option Libells des variables est active, la premire cellule de la
slection doit comprendre un en-tte. Si vous nactivez pas cette option, des libells seront
automatiquement crs (Obs1, Obs2, ).

Onglet Options :
Matrice de graphiques : activez cette option pour afficher lensemble des combinaisons
possibles de variables deux deux sous la forme dun tableau deux entres, avec en ligne
les variables Y et en colonne les X.
- Histogrammes : activez cette option pour que, si les variables X et Y sont identiques,
XLSTAT affiche les histogrammes des variables sur la diagonale de la matrice de
graphiques.
- Q-Q plots : activez cette option pour que, si les variables X et Y sont identiques,
XLSTAT affiche les Q-Q plots des variables sur la diagonale de la matrice de
graphiques.
Effectifs : activez cette option pour afficher les effectifs correspond chaque point sur les
graphiques.
- Seulement si >1 : activez cette option pour nafficher les effectifs que si ils sont
strictement suprieurs zro.
112
Ellipses de confiance : activez cette option pour afficher des ellipses de confiance. Les
ellipses de confiance correspondent un intervalle de confiance 95% pour une loi normale
bivarie de mmes moyennes et de mme matrice de covariance que les variables
reprsentes en abscisse et en ordonne.
Lgende : activez cette option pour afficher la lgende du graphique.

Exemple
Un exemple d'utilisation de l'outil Nuages de points est disponible sur le site Internet de
XLSTAT l'adresse
http://www.xlstat.com/demo-scatterf.htm

Bibliographie
Chambers J.M., Cleveland W.S., Kleiner B. and Tukey P.A. (1983). Graphical Methods for
Data Analysis. Duxbury, Boston.
Jacoby W. G. (1997). Statistical Graphics for Univariate and Bivariate Data. Sage
Publications, London.
Wilkinson L. (1999). The Grammar of Graphics, Springer Verlag, New York.

113
Graphiques en coordonnes parallles
Utilisez cet outil pour visualiser des donnes multidimensionnelles (dcrites par P variables
quantitatives et Q variables qualitatives) sur un mme graphique deux dimensions.

Description
Cette mthode de visualisation est particulirement utile en analyse de donnes pour dtecter
ou pour valider l'existence de groupes homognes. On peut par exemple utiliser cette
mthode lissue dune Classification Hirarchique Ascendante.
Si l'on considre que N individus sont dcrits par P variables quantitatives et Q variables
qualitatives, le graphique consiste en P+Q axes verticaux reprsentant chacun une variable, et
N lignes correspondant chacun des individus. Une ligne croise un axe la valeur que prend
l'individu correspondant la ligne pour la variable associe l'axe.
Si le nombre d'individus est trop important, la visualisation risque d'tre peu efficace ou mme
impossible compte tenu des limitations imposes par Excel (255 sries). Il est alors possible
d'chantillonner les donnes au hasard afin de rendre le graphique plus lisible.

Bote de dialogue
calculs.

114
Onglet Gnral :
Donnes quantitatives : activez cette option pour slectionner les chantillons de donnes
quantitatives pour lesquels vous voulez calculer les statistiques descriptives.
Donnes qualitatives : activez cette option pour slectionner les chantillons de donnes
qualitatives pour lesquels vous voulez calculer les statistiques descriptives.
Groupes : activez cette option pour slectionner les donnes qui correspondent lidentifiant
du groupe auquel appartient chaque observation. Sur le graphique, la couleur des points
dpend du groupe.

actif.

(donnes quantitatives, qualitatives, poids et groupes et libells des observations) contient un
libell.
Obs2, ).
Remettre lchelle : activez cette option pour que toutes les variables soient reprsentes
sur la mme chelle 0%-100% (pour les variables numriques 0 correspond au minimum et
100 au maximum ; pour les variables nominales, les modalits sont rgulirement espaces,
et classes en ordre alphabtique.

Onglet Options :
Afficher autant de lignes que possible : activez cette option pour afficher autant de lignes
parallles que possible (le maximum est 250 du fait des limitations dExcel).
115
Afficher les lignes de statistiques: activez cette option pour nafficher que les lignes
correspondant aux statistiques suivantes :
- Minimum et maximum
- Mdiane
- Premier quantile (%) : entrez la valeur du premier quantile (2.5% par dfaut).
- Deuxime quantile (%) : entrez la valeur du deuxime quantile (97.5% par dfaut).
- Mode (pour les variables qualitatives)

Exemple
Un exemple de gnration dun graphique en coordonnes parallles est disponible sur le site
Internet de Addinsoft l'adresse suivante :
http://www.xlstat.com/demo-pcorf.htm

Bibliographie
Inselberg A. (1985). The Plane with Parallel Coordinates. The Visual Computer, 1, 69-91.
Eickemeyer J. S., Inselberg A., Dimsdale B. (1992). Visualizing p-flats in n-space Using
Parallel Coordinates. Technical Report G320-3581, IBM Palo Alto Scientific Center.
Wegman E.J. (1990). Hyperdimensional Data Analysis Using Parallel Coordinates. J. Amer.
Statist. Assoc., 85, 411, 664-675.

116
AxesZoomer
Utilisez cet outil pour modifier les valeurs minimales et maximales des axes des abscisses et
des ordonnes dune graphique.

Bote de dialogue
Important : avant de lancer cet outil, vous devez slectionner un graphique de type nuage de
points ou courbe.

: cliquez sur ce bouton pour appliquer les changements au graphique.
: cliquez sur ce bouton pour fermer la bote de dialogue.

Min X : entrez la valeur minimale de laxe des abscisses.
Max X : entrez la valeur maximale de laxe des abscisses.
Min Y : entrez la valeur minimale de laxe des ordonnes.
Max Y : entrez la valeur maximale de laxe des ordonnes.

117
EasyLabels
Utilisez cet outil pour ajouter des tiquettes, ventuellement formates, une srie de
donnes sur un graphique.

Bote de dialogue
points ou courbe ou une srie de points sur un graphique.

: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer de
modification.
donnes. Si la flche est vers le bas, XLSTAT considre que les tiquettes sont dans une
colonne. Si la flche est vers la droite, XLSTAT considre que les tiquettes sont dans une
ligne.

Etiquettes : slectionnez les tiquettes ajouter la srie de donnes slectionne sur le
graphique.
En-tte dans la premire cellule : activez cette option si la premire cellule des tiquettes
slectionnes correspond un en-tte et non une tiquette.
Utiliser les proprits du texte : activez cette option si vous souhaitez que le format appliqu
au texte contenu dans les cellules contenant les tiquettes soit aussi appliqu au texte des
tiquettes sur le graphique :
- Police : activez cette option pour utiliser la mme police de caractres.
- Taille : activez cette option pour utiliser la mme taille de police de caractres.
118
- Style : activez cette option pour utiliser le mme style de police de caractres (normal,
gras, italique).
- Couleur : activez cette option pour utiliser la mme couleur de police de caractres.

Utiliser les proprits des cellules : activez cette option si vous souhaitez que le format
appliqu aux cellules contenant les tiquettes soit aussi appliqu aux tiquettes sur le
graphique :
- Bordure : activez cette option pour utiliser la mme bordure.
- Motifs : activez cette option pour utiliser le mme motif.

Utiliser les proprits des points : activez cette option si vous souhaitez que la couleur des
tiquettes soit identique celle des points :
- Couleur de lintrieur : activez cette option pour utiliser la couleur de lintrieur des
points.
- Couleur de la bordure : activez cette option pour utiliser la couleur de la bordure des
points.

119
Repositionnement des tiquettes
Utilisez cet outil pour modifier la position des tiquettes des observations sur un graphique.

Bote de dialogue
modification.

Coins : activez cette option pour placer les tiquettes dans la direction du coin du quadrant
dans lequel se trouve le point.
Distance au point :
- Automatique : activez cette option pour que XLSTAT dtermine automatiquement la
distance au point la plus approprie.
- Dfinie par lutilisateur : activez cette option pour entrer la valeur (en pixels) de la
distance entre ltiquette et le point.
En haut : activez cette option pour placer les tiquettes au-dessus du point.
A droite : activez cette option pour placer les tiquettes droite du point.
En bas : activez cette option pour placer les tiquettes au-dessous du point.
A gauche : activez cette option pour placer les tiquettes gauche du point.
Appliquer uniquement la srie slectionne : activez cette option ne modifier
lemplacement des tiquettes que pour la srie slectionne.

120
Graphiques orthonorms
Utilisez cet outil pour ajuster le minimum et le maximum de laxe des abscisses et de laxe des
ordonnes dun graphique de telle sorte que le graphique soit orthonorm. Cet outil sera
particulirement utile si vous avez agrandi un graphique orthonorm produit par XLSTAT (par
exemple aprs une ACP), et si vous voulez vous assurer que le graphique est toujours
orthonorm.
Remarque : un graphique orthonorm est tel quune unit en abscisse est visuellement
identique une unit en ordonne. Les graphiques orthonorms permettent dviter des
erreurs dinterprtation dues des effets de dilatation ou dcrasement.

Bote de dialogue

: cliquez sur ce bouton pour appliquer la transformation au graphique.
: cliquez sur ce bouton pour annuler la transformation du graphique.

121
Redimensionner un graphique
Utilisez cet outil pour redimensionner un graphique, ou la zone du graphique dlimite par les
axes (zone de traage).

Bote de dialogue
: cliquez sur ce bouton pour redimensionner le graphique.

Choisissez le type de zone redimensionner :
- Graphique : activez cette option pour redimensionner tout le graphique.
- Zone de traage : activez cette option pour redimensionner uniquement la zone de
traage lintrieur du graphique.

Taille actuelle : la largeur et la hauteur affiches ici sont celles du graphique ou de la zone de
traage tels quils sont avant le redimensionnement.

Nouvelle taille : entrez la nouvelle largeur et la nouvelle hauteur du graphique, soit en
pourcentage de la taille actuelle, soit en pixels.
Verrouiller les proportions : activez cette option si vous voulez que les proportions initiales
du graphique soient respectes.

122
Transformations de graphiques
Utilisez cet outil pour appliquer une ou plusieurs transformations aux points contenus dans un
graphique.

Bote de dialogue
points ou courbe.

transformation.

Symtrie :
- Axe horizontal : activez cette option pour appliquer une symtrie par rapport laxe
des abscisses.
- Axe vertical : activez cette option pour appliquer une symtrie par rapport laxe des
ordonnes.
Remarque : si vous slectionnez les deux options prcdentes, la symtrie applique sera
une symtrie centrale.

Translation :
- Horizontale : activez cette option pour entrer le nombre dunits pour la translation
horizontale.
- Verticale : activez cette option pour entrer le nombre dunits pour la translation
verticale.
123

Rotation :
- Angle () : entrez langle en degrs pour la rotation appliquer.
- Droite : si cette option est active la rotation est applique dans le sens des aiguilles
dune montre.
- Gauche : si cette option est active la rotation est applique dans le sens inverse des
aiguilles dune montre.

Homothtie :
- Facteur : entrez le facteur dhomothtie appliquer aux donnes.

actif.

Afficher les nouvelles coordonnes : activez cette option pour afficher les coordonnes une
fois toutes les transformations appliques.
Mettre jour le min et le max : activez cette option pour que XLSTAT adapte
automatiquement le minimum et le maximum de laxe des abscisses et de laxe des
ordonnes, une fois les transformations effectues, de telle sorte que tous les points soient
visibles.
Graphique orthonorm : activez cette option pour que XLSTAT adapte automatiquement le
minimum et le maximum de laxe des abscisses et de laxe des ordonnes, une fois les
transformations effectues, de telle sorte que le graphique soit orthonorm.

124
Fusion de graphiques
Utilisez cet outil pour fusionner plusieurs graphiques en un seul.

Bote de dialogue
Important : avant de lancer cet outil, vous devez slectionner au moins deux graphiques du
mme type (par exemple, deux graphiques nuages de points).


Afficher le titre : activez cette option pour afficher un titre sur le graphique fusionn.
- Titre du premier graphique : activez cette option pour utiliser le titre du premier
graphique.
- Nouveau titre : activez cette option pour entrer le titre du graphique fusionn.
Graphique orthonorm : activez cette option pour que XLSTAT vrifie aprs la fusion des
graphiques que le graphique rsultant est bien orthonorm.

actif.
Nouvelle feuille graphique : activez cette option pour afficher le graphique issu de la fusion
des graphiques dans une nouvelle feuille graphique.
125
Afficher len-tte du rapport : dsactivez cette option pour ne pas afficher len-tte du rapport
prcdant le graphique.

126
Analyse factorielle
L'analyse factorielle (factor analysis en anglais), aussi appele analyse factorielle des
variables latentes, permet de mettre en vidence, lorsque cela est possible, lexistence de
facteurs sous-jacents communs aux variables quantitatives mesures pour un ensemble
dobservations.

Description
La mthode de lanalyse factorielle date du dbut du 20
ime
sicle (Spearman, 1904) et a
connu de nombreux dveloppements, plusieurs mthodes de calcul ayant t proposes. Si
cette mthode a dabord t utilise par les psychomtriciens, son champ dapplication sest
peu peu tendu de nombreux autres domaines, par exemple en gologie, mdecine,
finance.
On distingue aujourdhui deux grands types danalyse factorielle :
- lanalyse factorielle exploratoire (en anglais, exploratory factor analysis ou EFA)
- lanalyse factorielle confirmatoire (en anglais, confirmatory factor analysis ou CFA)
LEFA correspond ce qui est dcrit ci-dessous et ce qui est utilis par XLSTAT. Il sagit
dune mthode qui permet de dcouvrir lexistence ventuelle de facteurs sous-jacents
synthtisant linformation contenue dans un plus grand nombre de variables mesures. La
structure liant les facteurs aux variables est inconnue a priori et seul ventuellement le nombre
de facteurs est suppos.
La CFA dans sa version traditionnelle sappuie sur un modle identique celui de lEFA, mais
la structure liant les facteurs sous-jacents aux variables mesures est suppose connue. Une
version plus rcente de la CFA est lie aux modles dquations structurelles.

Passer de p variables k facteurs
Lexemple historique de Spearman, mme sil a depuis fait lobjet de nombreuses critiques et
amliorations, permet de bien comprendre le principe et lutilit de la mthode. En analysant
les corrlations entre les notes obtenues par des enfants dans diffrentes matires, Spearman
a voulu faire lhypothse que les notes dpendaient finalement dun seul facteur, lintelligence,
avec une partie rsiduelle due un effet individuel, culturel ou autre.
Ainsi la note obtenue par lindividu (i) dans une matire (j) peut scrire x(i,j) = + b(j)F + e(i,j),
avec la note moyenne de lchantillon tudi, et o F est le niveau dintelligence de lindividu
(le facteur sous-jacent) et e(i,j) le rsidu.
127
En gnralisant cette criture p matires (les variables dentre) et k facteurs sous-jacents,
on obtient le modle suivant :
(1) x = + Af + u
o x est un vecteur de dimension (p x 1), est le vecteur moyen, A est la matrice (p x k) des
coordonnes factorielles (loadings en anglais) et f et u sont des vecteurs alatoires de
dimensions respectives (k x 1) et (p x 1), que lon suppose indpendants. Les lments de f
sont appels facteurs communs, et ceux de u facteurs spcifiques.
Si lon simpose que la norme de f vaut 1, alors la matrice de covariance des variables dentre
sur la base de lexpression (1) scrit
(2) E = AA + +
Ainsi, la variance de chacune des variables peut tre divise en deux parties : la communalit
(car provenant des facteurs communs),
(3)
2 2
1
k
i ij
j
h
=
=
,
et
ii
+ la variance spcifique ou variance unique (car spcifique la variable en question).
On peut montrer que la mthode qui permet de calculer la matrice A, enjeu essentiel de
lanalyse factorielle, est indpendante de lchelle. Il est donc quivalent de travailler partir
de la matrice de covariance ou de la matrice de corrlation.
Lenjeu de lanalyse factorielle est de permettre de trouver les matrices A et +, de telle sorte
que lquation (2) soit au moins approximativement vrifie.

Remarque : lanalyse factorielle est parfois rapproche de lAnalyse en Composantes
Principales (ACP), car lACP est un cas particulier de lanalyse factorielle (cas o k le nombre
de facteurs vaut p le nombre de variables). Nanmoins ces deux mthodes ne sont en gnral
pas utilises dans le mme contexte. En effet, lACP est avant tout utilise pour rduire le
nombre de dimensions tout en maximisant la variabilit conserve, pour obtenir des facteurs
indpendants (non corrls), ou pour visualiser les donnes dans un espace 2 ou trois
dimensions. Lanalyse factorielle est quant elle utilise pour identifier une structure latente, et
pour ventuellement rduire par la suite le nombre de variables mesures si elles sont
redondantes vis--vis des facteurs latents.

Extraction des facteurs
Trois mthodes dextraction des facteurs latents sont proposes par XLSTAT :
128
- Composantes principales : cette mthode est aussi celle utilise en Analyse en
Composantes Principales (ACP). Elle nest propose ici que dans un but de comparaison
entre les rsultats des trois mthodes, sachant que les rsultats proposs dans le module
ddi lACP sont plus complets.
- Facteurs principaux : cette mthode est probablement la plus utilise. Cest une
mthode itrative qui permet de faire converger progressivement les communalits. Les
calculs sont interrompus ds que le changement maximum des communalits est en
dessous dun seuil donn, ou lorsquun nombre maximal ditrations est atteint. Les
communalits initiales peuvent tre calcules suivant diffrentes mthodes.
- Maximum de vraisemblance : cette mthode a dabord t propose par Lawley (1940).
La proposition de lutilisation de lalgorithme de Newton-Raphson (mthode itrative) date
de Jennrich (1969). Elle a ensuite t amliore et gnralise par Jreskog (1977). Cette
mthode fait lhypothse que les variables dentre suivent une distribution normale. Les
communalits initiales sont calcules suivant la mthode propose par Jreskog (1977).
Dans le cadre de cette mthode, un test dajustement est calcul. La statistique utilise
pour le test suit une loi du Khi (p-k) / 2 (p+k) / 2 degrs de libert, o p est le nombre
de variables et k le nombre de facteurs.

Nombre de facteurs
La dtermination du nombre de facteurs retenir est lun des enjeux de lanalyse factorielle.
La mthode automatique propose par XLSTAT est uniquement base sur la
dcomposition spectrale de la matrice de corrlation et sur la dtection dun seuil partir
duquel lapport dinformation (au sens de la variabilit) nest pas significatif.
Si la mthode du maximum de vraisemblance propose un test dajustement pour aider
dterminer quel est le bon nombre de facteurs principaux, pour la mthode des facteurs
principaux les mthodes sont plus empiriques.
La rgle de Kaiser-Guttman propose de ne retenir que les facteurs pour lesquels les valeurs
propres associes sont suprieurs strictes 1 (les calculs doivent alors tre effectus sur la
matrice des corrlations). Le scree test (Cattell, 1966) est fond sur la courbe dcroissante
des valeurs propres. Le nombre de facteurs retenir correspond au premier point dinflexion
dtect sur la courbe. Des mthodes de validation croise ont aussi t proposes dans ce
but.

Cas problmatiques (Heywood cases)
Les communalits sont par dfinition des carrs de corrlations. Elles doivent donc tre
comprise entre 0 et 1. Nanmoins, il se peut que les algorithmes itratifs (mthode des
facteurs principaux ou du maximum de vraisemblance) engendrent des solutions pour
129
lesquelles les communalits sont gales 1 (Heywood cases) ou suprieures 1 (ultra
Heywood cases). Les raisons de telles anomalies peuvent tre multiples (trop de facteurs, pas
assez de facteurs, ). Lorsque de tels cas sont rencontrs XLSTAT fixe les communalits 1
et adapte en consquence les lments de A.

Rotations
Une fois les rsultats obtenus, il est possible de les transformer afin de les rendre plus
facilement interprtables, par exemple en essayant de faire en sorte que les coordonnes des
variables sur les facteurs soient ou leves (en valeur absolue), ou proches de zro. On
distingue deux grandes familles de rotations :
- les rotations orthogonales peuvent tre utilises lorsque les facteurs ne sont pas corrls
(do orthogonales). Les mthodes proposes par XLSTAT sont Varimax, Quartimax,
Equamax, Parsimax, Orthomax. La rotation Varimax est la plus utilise. Elle permet de
faire en sorte que pour chaque facteur, il y ait peu de coordonnes factorielles (loadings)
leves, et beaucoup de faibles. Linterprtation est ainsi facilite puisquen principe les
variables initiales seront surtout associes lun des facteurs.
- les transformations obliques peuvent tre utilises lorsque les facteurs sont corrls (do
obliques). Les mthodes proposes par XLSTAT sont Quartimin et Oblimin.
La mthode Promax, galement propose par XLSTAT, est une procdure mixte puisquelle
consiste dabord en une rotation Varimax, puis en une rotation oblique telle que les
coordonnes factorielles (loadings) leves et faibles soient les mmes, mais avec les valeurs
faibles encore plus faibles.

Bote de dialogue

calculs.
130

Onglet Gnral :
Le champ principal de saisie des donnes vous permet de slectionner alternativement trois
types de tableaux :
Tableau observations/variables / Matrice de corrlation / Matrice de covariance :
choisissez loption qui correspond au format de vos donnes, puis slectionnez les donnes.
Dans le cas de loption Tableau observations/variables slectionnez un tableau comprenant
N observations dcrites par P variables quantitatives. Dans le cas dune matrice de
corrlation ou de covariance slectionnez une matrice carre. Si des en-ttes de colonnes
ont t slectionns, veuillez vrifier que loption Libells des variables est active. Dans le
cas dune matrice de corrlation ou de covariance, si les libells des colonnes sont
slectionns, ceux des lignes doivent ltre aussi.
Corrlation : choisissez le type de matrice qui doit tre utilis par lanalyse factorielle. Le cas
Pearson (n) se distingue du cas Pearson (n-1) par la faon dont sont normalises les
variables. Cela na dinfluence que sur les coordonnes des observations.
Mthode dextraction : choisissez la mthode dextraction des facteurs utiliser. Les trois
mthodes possibles sont (voir la section description pour plus de dtails) :
- Composantes principales
- Facteurs principaux
- Maximum de vraisemblance

actif.

131
(Tableau observations/variables, libells des observations, poids) contient un libell. Dans le
cas o la slection est une matrice de corrlation ou de covariance, si cette option est active,
la premire colonne doit aussi comprendre le libell des variables.

Onglet Options :
Nombre de facteurs :
- Automatique : activez cette option pour que XLSTAT dtermine automatiquement le
nombre de facteurs.
- Dfini par lutilisateur : activez cette option pour indiquer XLSTAT quel est le
nombre de facteurs considrer pour les calculs.

Communalits initiales : choisissez la mthode de calcul des communalits initiales (cette
option nest visible que dans le cas de la mthode des facteurs principaux) :
- Carrs des corrlations multiples : les communalits initiales sont bases sur le
niveau de dpendance dune variable vis--vis des autres variables.
- Alatoires : les communalits initiales sont tires dans lintervalle ]0 ; 1[.
- 1 : les communalits initiales sont fixes 1.
- Maximum : les communalits initiales sont fixes la valeur maximum des carrs des
corrlations multiples.

Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme. Les calculs sont
interrompus ds que le nombre maximal d'itrations est dpass. Valeur par dfaut :
50.
132
- Convergence : entrez la valeur seuil dvolution maximale des communalits dune
itration lautre, qui une fois atteinte permet de considrer que lalgorithme a
converg. Valeur par dfaut : 0,0001.

Rotation : activez cette option si vous voulez appliquer une rotation la matrice des
coordonnes factorielles.
- Nombre de facteurs : entrez le nombre de facteurs auxquels la rotation doit tre
applique.
- Mthode : choisissez la mthode de rotation utiliser. Pour certaines mthode la
valeur dun paramtre doit tre entre (Gamma pour Orthomax, Tau pour Oblimin, et la
puissance pour Promax).
- Normalisation de Kaiser : activez cette option pour appliquer la normalisation de
Kaiser pendant le calcul des rotations.

Suppression par paire : activez cette option pour supprimer les observations comportant des
donnes manquantes uniquement lorsque les variables impliques dans les calculs
comportent des donnes manquantes. Par exemple lors du calcul dune corrlation entre deux
variables, une observation ne sera ignore que si la donne correspondant lune des deux
variables est manquante.

Onglet Sorties :
133
Corrlations : activez cette option pour afficher la matrice de corrlations ou de covariance en
fonction du type doptions choisi dans longlet Gnral . Si loption Tester la
significativit est active, les corrlations significatives au seuil de signification sont
affiches en gras.
Alpha de Cronbach : activez cette option pour calculer et afficher le alpha de Cronbach.

Valeurs propres : activez cette option pour afficher le tableau et le graphique (scree plot) des
valeurs propres.
Coordonnes factorielles : activez cette option pour afficher les coordonnes factorielles
(coordonnes des variables dans lespace des facteurs).
Corrlations Variables/Facteurs : activez cette option pour afficher les corrlations entre les
facteurs et les variables.
Coefficients du modle factoriel : activez cette option pour afficher les coefficients du
modle factoriel. La multiplication des coordonnes (centres et rduites) des observations
dans lespace dorigine par ces coefficients permet dobtenir les coordonnes des observations
dans lespace des facteurs.
Structure factorielle : activez cette option pour afficher les corrlations entre les variables et
les facteurs aprs rotation.

Onglet Graphiques :
Graphiques des variables : activez cette option pour afficher les graphiques de
reprsentation des variables dans le nouvel espace.
- Vecteurs : activez cette option pour afficher les variables dorigine sous forme de
vecteurs.
Graphiques de corrlations : activez cette option pour afficher les graphiques mettant en jeu
des corrlations entre des composantes et des variables initiales.
vecteurs.
Graphiques des observations : activez cette option pour afficher les graphiques de
reprsentation des observations dans le nouvel espace.
- Etiquettes : activez cette option pour afficher les tiquettes des observations sur les
graphiques. Le nombre dtiquettes affiches peut tre modul laide de loption de
filtrage.

134
Etiquettes colores : activez cette option pour que les tiquettes soient de la mme couleur
que les points correspondants.
Filtrer : activez cette option pour fixer le nombre dobservations affiches :
- Alatoire : les observations afficher sont slectionnes de manire alatoire. Le
Nombre dobservations doit alors tre saisi.
- N premires lignes : les N premires observations sont affiches. Le Nombre
dobservations N doit alors tre saisi.
- N dernires lignes : les N dernires observations sont affiches. Le Nombre
- Variable de groupe : si vous choisissez cette option, vous devez ensuite slectionner
une variable indicatrice compose de 1 pour les observations afficher, et de 0 pour
les observations ne pas afficher.

Rsultats
Statistiques descriptives : le tableau de statistiques descriptives prsente pour toutes les
variables slectionnes des statistiques simples. Sont affichs le nombre dobservations, le
nombre de donnes manquantes, le nombre de donnes non manquantes, la moyenne, et
lcart-type (non biais).
Matrice de corrlation/de covariance : ce tableau correspond aux donnes qui sont ensuite
utilises pour les calculs. Le type de corrlation dpend de loption qui a t choisie dans
longlet Gnral de la bote de dialogue. Dans le cas de corrlations, les corrlations
significatives sont affiches en gras.
Alpha de Cronbach : si loption correspondante a t active, la valeur du Alpha de Cronbach
est affiche.
Changement maximum de communalit chaque itration : ce tableau permet dobserver
lvolution du changement maximum de communalit pour les 10 dernires itrations. Dans le
cas de la mthode du maximum de vraisemblance, lvolution dun critre proportionnel
loppos du maximum de vraisemblance est aussi affiche.
Test d'ajustement : le test dajustement nest affich que dans le cas o la mthode du
maximum de vraisemblance a t choisie.
Matrice des corrlations reproduites : cette matrice est le produit de la matrice des
coordonnes factorielles par sa transpose.
135
Matrice de corrlation rsiduelle : cette matrice est calcule comme la diffrence entre la
matrice de corrlation des variables, et la matrice des corrlations reproduites.
Valeurs propres : dans ce tableau sont affiches les valeurs propres associes aux diffrents
facteurs, ainsi que les pourcentages et pourcentages cumuls correspondants.
Vecteurs propres : dans ce tableau sont affiches les vecteurs propres.
Coordonnes factorielles : dans ce tableau sont affiches les coordonnes factorielles
(coordonnes des variables dans lespace des facteurs, appeles factor loadings ou factor
pattern en anglais). Le graphique correspondant est affich.
Corrlations Variables/Facteurs : dans ce tableau sont affiches les corrlations entre les
Coefficients du modle factoriel : dans ce tableau sont affichs les coefficients du modle
factoriel. La multiplication des coordonnes (centres et rduites) des observations dans
lespace dorigine par ces coefficients permet dobtenir les coordonnes des observations dans
lespace des facteurs.
Dans le cas o une rotation a t demande, les rsultats de la rotation sont affichs, avec en
premier la matrice de rotation applique aux coordonnes des variables. Suivent ensuite les
pourcentages modifis de variabilit associs chacun des axes concerns par la rotation.
Dans les tableaux suivants sont affiches les coordonnes des variables et des observations
aprs rotation.
Structure factorielle : dans ce tableau sont affiches les corrlations entre les variables et les
facteurs aprs rotation.

Exemple
Un exemple d'utilisation de l'Analyse Factorielle est disponible sur le site Internet de Addinsoft
l'adresse
http://www.xlstat.com/demo-faf.htm

136
Bibliographie
Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioral
Research, 1, 245-276.
Crawford C.B. and Ferguson G.A. (1970). A general rotation criterion and its use in
orthogonal rotation. Psychometrika, 35(3), 321-332.
Cronbach L. J. (1951). Coefficient Alpha and the internal structure of test. Psychometrika,
16(3), 297-334.
Cureton E.E. and Mulaik S.A. (1975). The weighted Varimax rotation and the Promax
rotation. Psychometrika, 40(2), 183-195.
Jennrich R.I. and Robinson S.M. (1969). A Newton-Raphson algorithm for maximum
likelihood factor analysis. Psychometrika, 34(1), 111-123.
Jreskog K.G. (1967). Some contributions to maximum likelihood factor analysis.
Psychometrika, 32(4), 443-481.
Jreskog K.G. (1977). Factor Analysis by Least-Squares and Maximum Likelihood Methods,
in Statistical Methods for Digital Computers, eds. K. Enslein, A. Ralston, and H.S. Wilf. John
Wiley and Sons, New York.
Lawley D.N. (1940). The estimation of factor loadings by the method of maximum likelihood.
Proceedings of the Royal Society of Edinburgh. 60, 64-82.
Loehlin J.C. (1998). Latent Variable Models: an introduction to factor, path, and structural
analysis, LEA, Mahwah.
Mardia K.V., Kent J.T. and Bibby J.M. (1979). Multivariate Analysis. Academic Press,
London.
Spearman C. (1904). General intelligence, objectively determined and measured. American
Journal of Psychology, 15, 201-293.

137
Analyse en Composantes Principales (ACP)
Utilisez lAnalyse en Composantes Principales pour analyser un tableau
observations/variables quantitatives ou une matrice de corrlations ou de covariance. Cette
mthode permet
- dtudier et visualiser les corrlations entre les variables,
- dobtenir des facteurs non corrls qui sont des combinaisons linaires des variables de
dpart,
- de visualiser les observations dans un espace deux ou trois dimensions.

Description
LAnalyse en Composantes Principales (ACP) est lune des mthodes danalyse de donnes
multivaries les plus utilises. Ds lors que lon dispose dun tableau de donnes quantitatives
(continues ou discrtes) dans lequel n observations (des individus, des produits, ) sont
dcrites par p variables (des descripteurs, attributs, mesures, ), si p est assez lev, il est
impossible dapprhender la structure des donnes et la proximit entre les observations en se
contentant danalyser des statistiques descriptives univaries ou mme une matrice de
corrlation.
Utilisations de lACP
Il existe plusieurs applications pour lACP, parmi lesquelles :
- ltude et la visualisation des corrlations entre les variables, afin dventuellement limiter
le nombre de variables mesurer par la suite ;
- lobtention de facteurs non corrls qui sont des combinaisons linaires des variables de
dpart, afin dutiliser ces facteurs dans des mthodes de modlisation telles que la
rgression linaire, la rgression logistique ou lanalyse discriminante ;
- la visualisation des observations dans un espace deux ou trois dimensions, afin
didentifier des groupes homognes dobservations, ou au contraire des observations
atypiques.

Principe de lACP
LACP peut tre considre comme une mthode de projection qui permet de projeter les
observations depuis lespace p dimensions des p variables vers un espace k dimensions
(k<p) tel quun maximum dinformation soit conserve (linformation est ici mesure au travers
138
de la variance totale du nuage de points) sur les premires dimensions. Si linformation
associe aux 2 ou 3 premiers axes reprsente un pourcentage suffisant de la variabilit totale
du nuage de points, on pourra reprsenter les observations sur un graphique 2 ou 3
dimensions, facilitant ainsi grandement linterprtation.

Corrlations ou covariance
LACP utilise une matrice indiquant le degr de similarit entre les variables pour calculer des
matrices permettant la projection des variables dans le nouvel espace. Il est commun dutiliser
comme indice de similarit le coefficient de corrlation de Pearson, ou la covariance. La
corrlation de Pearson et la covariance prsentent lavantage de donner des matrices semi-
dfinies positives dont les proprits sont utilises en ACP. Nanmoins on peut envisager
dutiliser dautres indices. XLSTAT propose dutiliser la corrlation de Spearman et de Kendall
ou les corrlations polychoriques pour les donnes ordinales (les corrlations ttrachoriques
sont un cas particulier des corrlations polychoriques qui concerne les donnes binaires).
Classiquement, on utilise un coefficient de corrlation et non la covariance car lutilisation du
coefficient de corrlation permet de supprimer les effets dchelle : ainsi une variable variant
entre 0 et 1 ne pse pas plus dans la projection quune variable variant entre 0 et 1000.
Toutefois, dans certains domaines, lorsque les variables sont supposes tre sur des chelles
identiques, ou lorsque lon veut que la variance des variables influe sur la construction des
facteurs, on utilise la covariance.
Dans le cas o ne serait disponible quune matrice de similarit, et non un tableau
observations/variables, ou dans le cas o vous voudriez utiliser un autre indice de similarit,
vous pouvez raliser une ACP en partant de la matrice de similarit. Les rsultats obtenus ne
concernent alors que les variables, aucune information sur les observations ntant disponible.
Remarque : dans le cas o lACP est ralise sur une matrice de corrlation, on parle dACP
norme.

Interprtation des rsultats
La reprsentation des variables dans lespace des k facteurs permet dinterprter visuellement
les corrlations entre les variables dune part, et entre les variables et les facteurs dautre part,
moyennant certaines prcautions.
En effet, quil sagisse de la reprsentation des observations ou des variables dans lespace
des facteurs, deux points trs loigns dans un espace k dimensions peuvent apparatre
proches dans un espace 2 dimensions en fonction de la direction utilise pour la projection
(voir figure ci-dessous).
139

On peut considrer que la projection dun point sur un axe, un plan ou un espace 3
dimensions est fiable si la somme des cosinus carrs sur les axes de reprsentation nest pas
trop loigne de 1. Les cosinus carrs sont affichs dans les rsultats proposs par XLSTAT
afin dviter toute mauvaise interprtation.
Si les facteurs doivent tre utiliss par la suite avec dautres mthodes, il est intressant
dtudier la contribution relative (exprime en % ou en proportion) des diffrentes variables
la construction de chacun des axes factoriels, afin de rendre les rsultats obtenus ensuite
facilement interprtables. Les contributions sont affiches dans les rsultats proposs par
XLSTAT.

Nombre de facteurs
Deux mthodes sont communment utilises pour dteminer quel nombre de facteurs doit tre
retenu pour linterprtation des rsultats :
- Le scree test (Cattell, 1966) est fond sur la courbe dcroissante des valeurs propres. Le
nombre de facteurs retenir correspond au premier point dinflexion dtect sur la courbe.
- On peut aussi se fonder sur le pourcentage cumul de variabilit reprsent par les axes
factoriels et dcider de se contenter dun certain pourcentage.

Reprsentations graphiques
Lun des avantages de lACP est quelle fournit la fois une visualisation optimale des
variables et des donnes, et des biplots mlangeant les deux (voir ci-dessous). Nanmoins,
ces reprsentations ne sont fiables que si la somme des pourcentages de variabilit associs
aux axes de lespace de reprsentation, est suffisamment leve. Si ce pourcentage est lev
(par exemple 80%), on peut considrer que la reprsentation est fiable. Si le pourcentage est
140
faible, il est conseill de faire des reprsentations sur plusieurs couples daxes afin de valider
linterprtation faite sur les deux premiers axes factoriels.

Biplots
Suite une ACP, il est possible de reprsenter simultanment dans lespace des facteurs la
fois les observations et les variables. Les premiers travaux sur ce sujet datent de Gabriel
(1971). Gower (1996) et Legendre (1998) ont synthtis les travaux prcdents et tendu
cette technique de reprsentation graphique dautres mthodes. Le terme biplot est rserv
aux reprsentations simultanes qui respectent le fait que la projection des observations sur
les vecteurs variables doit tre reprsentative des donnes dentre pour ces mmes
variables. Autrement dit, les points projets sur le vecteur variable, doivent respecter lordre et
les distances relatives des donnes de dpart correspondant la mme variable.
La reprsentation simultane des observations et des variables ne peut tre faite directement
en prenant les coordonnes des variables et des observations dans lespace des facteurs.
Une transformation est ncessaire afin de rendre linterprtation exacte. Trois mthodes sont
proposes en fonction du type dinterprtation que lon souhaite pouvoir faire partir de la
reprsentation graphique :
- biplot de corrlation (correlation biplot) : ce type de biplot permet dinterprter les angles
entre les variables car ils sont directement lis aux corrlations entre les variables. La position
de deux observations projetes sur un vecteur variable permet de conclure quant leur niveau
relatif sur cette mme variable. La distance entre deux observations est une approximation de
la distance de Mahalanobis dans lespace des k facteurs. Enfin, la projection dun vecteur
variable dans lespace de reprsentation est une approximation de lcart-type de la variable
(la longueur du vecteur dans lespace des k facteurs est gale lcart-type de la variable).
- biplot de distance (distance biplot) : un biplot de distance permet dinterprter les distances
entre les observations car elles sont une approximation de leur distance euclidienne dans
lespace des p variables. La position de deux observations projetes sur un vecteur variable
permet de conclure quant leur niveau relatif sur cette mme variable. Enfin, la longueur dun
vecteur variable dans lespace de reprsentation est reprsentatif du niveau de contribution de
la variable la construction de cet espace (la longueur du vecteur est la racine carre de la
somme des contributions).
- biplot symtrique (symmetric biplot) : ce biplot propos par Jobson (1992) est intermdiaire
entre les deux biplots prcdents. Si ni les angles ni les distances ne peuvent tre interprts,
on peut choisir cette reprsentation car elle est un compromis entre les deux.
XLSTAT vous donne la possibilit de jouer sur la longueur des vecteurs variables afin
damliorer la lisibilit des graphiques. Nanmoins, si vous utilisez cette option dans le cas
dun biplot de corrlation, la projection dun vecteur variable nest plus une approximation de
lcart-type de la variable.

141

Bote de dialogue

calculs.

Onglet Gnral :
Le champ principal de saisie des donnes vous permet de slectionner alternativement trois
types de tableaux :
Tableau observations/variables / Matrice de corrlation / Matrice de covariance :
choisissez loption qui correspond au format de vos donnes, puis slectionnez les donnes.
Dans le cas de loption Tableau observations/variables slectionnez un tableau comprenant
N observations dcrites par P variables quantitatives. Dans le cas dune matrice de
corrlation ou de covariance slectionnez une matrice carre. Si des en-ttes de colonnes
ont t slectionns, veuillez vrifier que loption Libells des variables est active. Dans le
cas dune matrice de corrlation ou de covariance, si les libells des colonnes sont
slectionns, ceux des lignes doivent ltre aussi.
Type dACP : choisissez le type de matrice qui doit tre utilis pour lACP. Le cas Pearson (n)
se distingue du cas Pearson (n-1) par la faon dont sont normalises les variables. Cela na
dinfluence que sur les coordonnes des observations.
142

actif.

(Tableau observations/variables, libells des observations, poids) contient un libell. Dans le
cas o la slection est une matrice de corrlation ou de covariance, si cette option est active,
la premire colonne doit aussi comprendre le libell des variables.

Onglet Options :
Filtrer les facteurs : vous pouvez activer lune ou les deux options suivantes afin de rduire le
nombre de facteurs pour lesquels les rsultats sont affichs :
- % minimum : activez cette option puis saisissez le pourcentage minimum de la
variabilit totale que doivent reprsenter les facteurs retenus.
- Nombre maximum : activez cette option pour fixer le nombre maximum de facteurs
prendre en compte.

Rotation : activez cette option si vous voulez appliquer une rotation la matrice des
coordonnes factorielles.
- Nombre de facteurs : entrez le nombre de facteurs auxquels la rotation doit tre
applique.
143
- Mthode : choisissez la mthode de rotation utiliser. Pour certaines mthode la
valeur dun paramtre doit tre entre (Gamma pour Orthomax, Tau pour Oblimin, et la
puissance pour Promax).
- Normalisation de Kaiser : activez cette option pour appliquer la normalisation de
Kaiser pendant le calcul des rotations.

Onglet Donnes supplmentaires :
Observations supplmentaires : activez cette option si vous voulez calculer les coordonnes
et reprsenter des individus supplmentaires. Ces individus ne sont pas pris en compte pour
le calcul des axes factoriels (observations passives, par opposition observations actives).
Plusieurs mthodes de slection des observations supplmentaires vous sont proposes :
- Alatoire : les observations sont slectionnes de manire alatoire. Le Nombre
dobservations doit alors tre saisi.
- N dernires lignes : les N dernires observations sont slectionnes pour la validation.
Le Nombre dobservations N doit alors tre saisi.
- N premires lignes : les N premires observations sont slectionnes pour la
validation. Le Nombre dobservations N doit alors tre saisi.
une variable indicatrice compose de 0 pour les observations actives, et de 1 pour les
observations passives.
Variables supplmentaires : activez cette option si vous voulez calculer les coordonnes a
posteriori pour des variables qui ne sont pas prises en compte pour le calcul des axes
factoriels (variables passives, par opposition aux variables actives).
- Quantitatives : activez cette option si vous disposez de variables quantitatives
supplmentaires. Si des en-ttes de colonnes ont t slectionns pour le tableau
principal, veillez ce quun libell soit aussi prsent pour les variables de cette
slection.
- Qualitatives : activez cette option si vous disposez de variables qualitatives
slection.
o Colorer les observations : activez cette option pour que les observations
soient affiches avec des couleurs diffrentes selon la valeur de la premire
variable qualitative.
o Afficher les barycentres : activez cette option pour afficher les barycentres
correspondant aux modalits des diffrentes variables qualitatives
supplmentaires slectionnes sur les graphiques des observations.
144

Suppression par paire : activez cette option pour supprimer les observations comportant des
donnes manquantes uniquement lorsque les variables impliques dans les calculs
comportent des donnes manquantes. Par exemple lors du calcul dune corrlation entre deux
variables, une observation ne sera ignore que si la donne correspondant lune des deux
variables est manquante.

Onglet Sorties :
fonction du type doptions choisi dans longlet Gnral .
- Tester la significativit : dans le cas o une corrlation a t choisie dans longle
Gnral de la bote de dialogue, activez cette option pour tester la significativit des
corrlations.
- Test de sphricit de Bartlett : activez cette option pour effectuer le test de sphricit
de Bartlett.
- Niveau de signification (%) : entrez le niveau de signification pour les tests ci-dessus.

valeurs propres.
145
Coordonnes des variables : activez cette option pour afficher les coordonnes des
variables dans lespace des facteurs (factor loadings en anglais).
Coordonnes des observations : activez cette option pour afficher les coordonnes des
observations (factor scores en anglais) dans le nouvel espace cr par lACP.
Contributions : activez cette option pour afficher les tableaux des contributions pour les
variables et les observations.
Cosinus carrs : activez cette option pour afficher les tableaux des cosinus carrs pour les
variables et les observations.

Onglet Graphiques :

vecteurs.
filtrage.
Biplots : activez cette option pour afficher les graphiques de reprsentation simultane des
observations et des variables dorigine dans le nouvel espace.
vecteurs.
biplots. Le nombre dtiquettes affiches peut tre modul laide de loption de filtrage.

Type de biplots : choisissez le type de biplot que vous souhaitez afficher. Voir la section
description pour plus de dtails.
- Biplot de corrlation : activez cette option pour afficher des biplots de corrlation.
- Biplot de distance : activez cette option pour afficher des biplots de distance.
146
- Biplot symtrique : activez cette option pour afficher des biplots symtriques.
- Coefficient : choisissez le coefficient dont la racine carre sera multiplie par les
coordonnes des variables. Ce coefficient vous permettra dajuster la position des
points variables dans le biplot afin de rendre ce dernier plus lisible. Si ce coefficient est
diffrent de 1, la longueur des vecteurs variables nest plus interprtable en termes
dcart-type (biplot de corrlation) ou de contribution (biplot de distance).


Rsultats
variables slectionnes des statistiques simples. Sont affichs le nombre dobservations, le
Matrice de corrlation/de covariance : ce tableau correspond aux donnes qui sont ensuite
utilises pour les calculs. Le type de corrlation dpend de loption qui a t choisie dans
longlet Gnral de la bote de dialogue. Dans le cas de corrlations, les corrlations
significatives sont affiches en gras.
Test de sphricit de Bartlett : les rsultats du test de sphricit de Bartlett sont affichs. Ils
permettent de valider ou dinfirmer lhypothse selon laquelle les variables ne sont pas
significativement corrles.

147
Valeurs propres : les valeurs propres et le graphique (scree plot) correspondant sont affichs.
Le nombre de valeurs propres est gal au nombre de valeurs propres non nulles.
Si les options de sorties correspondantes ont t actives, XLSTAT affiche ensuite les
coordonnes des variables dans le nouvel espace, puis les corrlations entre les variables
dorigine et les composantes dans le nouvel espace. Les corrlations sont gales aux
coordonnes des variables dans le cas dune ACP norme (sur matrice de corrlation).
Si des variables supplmentaires ont t slectionnes les coordonnes et les corrlations
correspondantes sont affiches en fin de tableau.
Contributions : les contributions sont une aide linterprtation. Les variables ayant le plus
influenc la construction des axes sont celles dont les contributions sont les plus leves.
Cosinus carrs : comme pour les autres mthodes factorielles, lanalyse des cosinus carrs
permet dviter des erreurs dinterprtation dues des effets de projection. Si les cosinus
carrs associs aux axes utiliss sur un graphique sont faibles, on vitera dinterprter la
position de lobservation ou de la variable en question.

Les coordonnes des observations dans le nouvel espace sont ensuite affiches. Si des
donnes supplmentaires ont t slectionnes, elles sont affiches en fin de tableau.
Contributions : ce tableau fournit les contributions des observations la construction des
composantes principales.
Cosinus carrs : dans ce tableau sont affichs les cosinus carrs entre les vecteurs
observations et les axes factoriels.
Dans les tableaux suivants sont affiches les coordonnes, les contributions et les cosinus des
variables et des observations aprs rotation.

Exemple
Un exemple d'utilisation de l'Analyse en Composantes Principales est disponible sur le site
Internet de Addinsoft l'adresse
http://www.xlstat.com/demo-pcaf.htm

148

Bibliographie
Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioral
Research, 1, 245-276.
Gabriel K.R. (1971). The biplot graphic display of matrices with application to principal
component analysis. Biometrika, 58, 453-467.
Gower J.C. and Hand D.J. (1996). Biplots. Chapman and Hall, London.
Jobson J.D. (1992). Applied multivariate data analysis. Volume II: Categorical and Multivariate
Methods. Springer-Verlag, New York.
Jolliffe I.T. (2002). Principal Component Analysis, Second Edition. Springer, New York.
Amsterdam, 403-406.
Mauchly J. W. (1940). Significance test for sphericity of a normal n-variate distribution. The
Annals of Mathematical Statistics. 11, 204-209.
Morineau A. and Aluja-Banet T. (1998). Analyse en Composantes Principales. CISIA-
CERESTA, Paris.
Rao C. R. (1964). The use and interpretation of principal components analysis in applied
research. Sankhya, A 26, 329-358.

149
Analyse Factorielle Discriminante (AFD)
Utilisez lanalyse discriminante pour expliquer et prdire lappartenance dindividus plusieurs
classes, sur la base de variables explicatives quantitatives ou qualitatives.

Description
LAnalyse Factorielle Discriminante (AFD) est une mthode ancienne (Fisher, 1936) qui dans
sa version classique a peu volu au cours des vingt dernires annes. Cette mthode, la
fois explicative et prdictive, peut tre utilise pour
- vrifier sur un graphique deux ou trois dimensions si les groupes auxquels appartiennent
les observations sont bien distincts,
- identifier quelles sont les caractristiques des groupes sur la base de variables
explicatives,
- prdire le groupe dappartenance pour une
Les applications possibles de lAFD sont trs nombreuses de lcologie la prvision de
risque en finance (crdit scoring).

Modle linaire ou quadratique
Deux modles dAFD sont possibles en fonction dune hypothse fondamentale : si lon
suppose que les matrices de covariance sont identiques, on se trouve dans le cas de lAnalyse
Factorielle Discriminante linaire. Si lon suppose au contraire que les matrices de covariance
sont diffrentes pour au moins deux groupes, alors on se trouve dans le cadre dun modle
quadratique. Le test de Box permet de tester cette hypothse (lapproximation de Bartlett
permet dutiliser une loi du Khi pour le test). On peut commencer par une analyse linaire,
puis, en fonction des rsultats du test de Box ventuellement faire une analyse quadratique.

Problmes de multicolinarit
Dans le cas du modle linaire et encore plus dans le cas du modle quadratique on peut faire
face des problmes de variables ayant une variance nulle ou de multicolinarit entre
variables. XLSTAT a t programm de manire viter ces problmes. Les variables
responsables de tels problmes sont automatiquement ignores soit pour lensemble des
calculs, soit, dans le cas du modle quadratique, pour les groupes pour lesquels les
150
problmes se posent. Les statistiques de multicolinarit sont optionnellement affiches afin
de vous permettre didentifier les variables sources de problmes.

Mthodes pas pas
Comme pour la rgression linaire et logistique, des mthodes pas pas efficaces ont t
proposes. Elles ne sont toutefois utilisables que lorsque seules des variables quantitatives
sont slectionnes car les tests dentre et sortie de variables sappuient sur une hypothse
de normalit des variables. La mthode stepwise (pas pas progressive) permet dobtenir un
modle performant vitant les variables qui napportent que peu dinformation au modle.

Tableau de classification, courbe ROC et validation croise
Parmi les nombreux rsultats proposs, XLSTAT donne la possibilit dafficher le tableau de
classification (aussi appel matrice de confusion) qui permet de calculer un pourcentage
dobservations bien classes. Lorsque seules deux classes (ou catgories, ou modalits) sont
prsentes dans la variable dpendante, la courbe ROC peut aussi tre affiche.
La courbe ROC (Receiver Operating Characteristics) permet de visualiser la performance dun
modle, et de la comparer cette performance celle dautres modles. Les termes utiliss
viennent de la thorie de dtection du signal.
On dsigne par sensibilit (sensivity) la proportion dvnements positifs bien classs. La
spcificit (specificity) correspond la proportion dvnements ngatifs bien classs. Si lon
fait varier la probabilit seuil partir de laquelle on considre quun vnement doit tre
considr comme positif, la sensibilit et la spcificit varient. La courbe des points (1-
spcificit, sensibilit) est la courbe ROC.
Considrons une variable dpendante binaire indiquant par exemple si un client a rpondu
favorablement un mailing. Sur la figure ci-dessous, la courbe bleue correspond un cas
idal o les n% de personnes ayant rpondu favorablement correspondent aux n% de
probabilits les plus leves. La courbe verte correspond aux rsultats dun modle bien
discriminant. La courbe rouge (premire bissectrice) correspond ce que lon obtiendrait avec
un modle alatoire de Bernoulli avec une probabilit de rponse gale celle observe sur
lchantillon tudi. Un modle proche de la courbe rouge est donc inefficace puisquil nest
pas meilleur quun simple tirage au hasard. Un modle en dessous de cette courbe serait
catastrophique car il ferait moins bien que le hasard.

151

Laire sous la courbe (ou Area Under the Curve AUC) est un indice synthtique calcul pour
les courbes ROC. LAUC correspond la probabilit pour quun vnement positif ait une
probabilit donne par le modle plus leve quun vnement ngatif. Pour un modle idal,
on a AUC=1, pour un modle alatoire, on a AUC=0.5. On considre habituellement que le
modle est bon ds lors que la valeur de lAUC est suprieure 0.7. Un modle bien
discriminant doit avoir une AUC entre 0.87 et 0.9. Un modle ayant une AUC suprieure 0.9
est excellent.
Les rsultats du modle en terme de prvision peuvent tre trop optimistes : en effet, on
cherche vrifier si une observation est bien classe, alors quelle-mme est prise en compte
pour le calcul du modle. Pour cette raison a t dveloppe la validation croise : pour
dterminer la probabilit dappartenance dune observation aux diffrents groupes, on la retire
de lchantillon dapprentissage, puis on calcule le modle et la prvision. Cette opration est
rpte pour chacune des observations de lchantillon dapprentissage. Les rsultats ainsi
obtenus sont plus reprsentatifs de la qualit du modle. XLSTAT propose de calculer les
diffrentes statistiques associes chacune des observations en mode validation croise,
ainsi que le tableau de classification et la courbe ROC sil ny que deux classes.
Enfin, il est conseill de valider le modle sur un chantillon de validation dans la mesure du
possible. XLSTAT offre plusieurs possibilits pour automatiquement gnrer un chantillon de
validation.

Analyse discriminante et rgression logistique
Dans le cas o il ny a que deux classes prdire pour la variable dpendante, lanalyse
discriminante est trs proche de la rgression logistique. Lanalyse discriminante prsente
152
lintrt dtudier dans le dtail les structures de covariance, et daboutir une reprsentation
graphique. La rgression logistique prsente quant elle lavantage doffrir plusieurs formes
modles possibles, et de permettre lutilisation des mthodes de slection pas pas y compris
pour les variables explicatives qualitatives. Lutilisateur pourra comparer les performances des
deux mthodes en sappuyant sur les courbes ROC.

Bote de dialogue

calculs.

Onglet Gnral :
Y / Variables dpendantes :
Qualitatives : slectionnez la ou les variables qualitatives que vous souhaitez modliser. Si
plusieurs variables sont slectionnes, XLSTAT fera les calculs pour chacune des variables
indpendamment. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que
loption Libells des variables est active.
X / Variables explicatives :
153
Quantitatives : activez cette option si vous voulez inclure une ou plusieurs variables
explicatives quantitatives dans le modle. Slectionnez alors la ou les variables
correspondantes sur la feuille Excel. Les donnes slectionnes doivent tre de type
numrique. Si le libell des variables a t slectionn, veuillez vrifier que loption Libells
des variables est active.
Qualitatives : activez cette option si vous voulez inclure une ou plusieurs variables
explicatives qualitatives dans le modle. Slectionnez alors la ou les variables
correspondantes sur la feuille Excel. Les donnes slectionnes peuvent tre de tout type,
mais les donnes numriques sont automatiquement considres comme nominales. Si le
libell des variables a t slectionn, veuillez vrifier que loption Libells des variables
est active.

actif.

(variables dpendantes et explicatives, libells des observations, poids) contient un libell.
Poids des observations : activez cette option si vous voulez pondrer les observations. Si
vous nactivez pas cette option, les poids seront tous considrs comme valant 1. XLSTAT
prend en compte ces poids pour les calculs des degrs de liberts. Les poids doivent tre

Onglet Options :
Tolrance : entrez la valeur de la tolrance seuil en de de laquelle une variable est
automatiquement ignore.
Egalit des matrices de covariance : activez cette option si vous souhaitez faire lhypothse
que les matrices de covariance associes aux diffrentes classes de la variable dpendante
sont gales.
154
Probabilits a priori : activez cette option pour prendre en compte les probabilits a priori.
Les Les probabilits associes chacune des classes sont gales la frquence des classes.
Remarque : cette option est sans effet si les probabilits a priori sont gales pour les diffrents
groupes.

prendre en compte.
Niveau de signification (%) : entrez le niveau de signification pour les diffrents tests
calculs.

Slection du modle : activez cette option si vous souhaitez utiliser lune des quatre
mthodes de slection proposes :
- Stepwise (Ascendante) : le processus de slection commence par lajout de la
variable ayant la plus forte contribution au modle. Si une seconde variable est telle
que sa probabilit dentre est suprieure la valeur seuil pour entrer, alors elle est
ajoute au modle. A partir de lajout de la troisime variable, aprs chaque ajout, on
value pour toutes les variables prsentes dans le modle quel serait limpact de son
retrait. Si la probabilit de la statistique calcule est suprieure la valeur seuil pour
retirer, la variable est retire du modle.
- Stepwise (Descendante) : cette mthode est similaire la prcdente, mais part dun
modle complet.
- Ascendante : la procdure est identique cette de la slection progressive, hormis le
fait que les variables sont uniquement ajoutes et jamais retires.
- Descendante : la procdure commence par lajout simultan de toutes les variables.
Les variables sont ensuite retires du modle suivant la procdure utilise pour la
slection progressive.

Correction du poids des classes : si les effectifs des diffrentes classes de la variable
dpendante ne sont pas homognes, on risque de pnaliser dans ltablissement du modle
les classes ayant un faible effectif. Afin de palier ce problme, XLSTAT propose deux options :
155
- Automatique : le redressement est automatique. Des des poids artificiels sont affects
aux observations dans le but dobtenir des classes dont la somme des poids est
identique.
- Poids correctifs : vous pouvez slectionner les poids affecter chacune des
observations.

Onglet Validation :
Validation : activez cette option si vous souhaitez utiliser une partie des donnes
slectionnes pour valider le modle.
Jeu de validation : choisissez lune des options pour dfinir le mode de slection des
observations utilises pour la validation :
une variable indicatrice compose de 0 pour les observations utiliser pour le calcul du
modle, et de 1 pour les observations utiliser pour la validation du modle.

Onglet Prdiction :
Prdiction : activez cette option si vous souhaitez slectionner des donnes utiliser en
mode prdiction. Si vous activez cette option, vous devez veiller ce que les donnes de
prdiction soient organises comme les donnes destimation : mmes variables, mme ordre
dans les slections. En revanche vous ne devez pas slectionner de libells de variables : la
premire ligne des slections dcrites ci-dessous doit tre une ligne de donnes.
Quantitatives : activez cette option pour slectionner la ou les variables quantitatives
explicatives. La premire ligne ne doit pas comprendre den-tte.
Qualitatives : activez cette option pour slectionner la ou les variables qualitatives
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. La premire
ligne ne doit pas comprendre den-tte. Si vous nactivez pas cette option, des libells seront
automatiquement crs (PredObs1, PredObs2, ).
156


Onglet Sorties :
Corrlations : activez cette option pour afficher la matrice de corrlations.
Statistiques de multicolinarit : activez cette option pour afficher le tableau des statistiques
de multicolinarit.
Matrices de covariance : activez cette option pour afficher les matrices de covariance inter-
classes, intra-classe, intra-classe totale, et totale.
Matrices SSCP : activez cette option pour afficher les matrices SSCP (Sums of Squares and
Cross Products) inter-classes, intra-classe totale, et totale.
Matrices de distance : activez cette option pour afficher les matrices des distances entre les
groupes.

Corrlations et fonctions canoniques : activez cette option pour les corrlations et les
fonctions canoniques.
Fonctions de classification : activez cette option pour afficher les fonctions de classification.
valeurs propres.
Vecteurs propres : activez cette option pour afficher le tableau des vecteurs propres.
157
variables dans lespace des facteurs.
observations (factor scores en anglais) dans lespace des facteurs. Dans ce tableau sont aussi
affiches les classes a priori et a posteriori pour chaque observation, les probabilits
daffectation pour chaque classe, et les distances des observations leur barycentre.
Matrice de confusion : activez cette option pour afficher le tableau permettant de visualiser
les nombres dobservations bien et mal classes pour chacune des classes.
Validation croise : activez cette option pour afficher les rsultats concernant la validation
croise (probabilits pour les observations, et matrice de confusion).

Onglet Graphiques :

vecteurs.
filtrage.
- Afficher les barycentres : activez cette option pour afficher les barycentres
correspondant aux modalits de la variable dpendante.
- Ellipses de confiance : activez cette option pour afficher des ellipses de confiance.
Les ellipses de confiance correspondent un intervalle de confiance x% (x est
dtermin partir du niveau de signification spcifi dans longlet gnral) pour une loi
normale bivarie de mmes moyennes et de mme matrice de covariance que les
donnes factorielles correspondant aux diffrentes modalits de la variable
dpendante.

158

Rsultats
variables slectionnes des statistiques simples. Pour les variables quantitatives Sont affichs
le nombre dobservations, le nombre de donnes manquantes, le nombre de donnes non
manquantes, la moyenne, et lcart-type (non biais). Pour les variables qualitatives, dont la
variable dpendante, sont affiches les modalits leurs effectifs et pourcentage respectifs.
Matrice de corrlation : dans ce tableau sont affiches les corrlations entre les variables
explicatives.
Moyennes par classe : ce tableau fournit les moyennes des diffrentes variables explicatives
pour les diffrentes classes de la variable dpendante.
Somme des poids, probabilits a priori et log des dterminants pour chaque classe : ces
statistiques sont utilises entre autres dans les calculs des probabilits a posteriori pour les
observations.
Statistiques de multicolinarit : ce tableau permet didentifier les variables responsables de
multicolinarits entre les variables. Ds quune variable est dtecte comme tant
responsable dune multicolinarit (sa tolrance est infrieure la tolrance limite fixe dans
longlet options de la bote de dialogue), elle nest pas prise en compte pour le calcul des
statistiques de multicolinarit des variables suivantes. Ainsi dans un cas extrme o deux
variables seraient identiques, seule lune des deux variables sera limine des calculs. Les
statistiques affiches sont la tolrance (gale 1-R), et son inverse, le VIF (Variance inflation
factor).
159
Matrices SSCP : les matrices SSCP (Sums of Squares and Cross Products) sont
proportionnelles aux matrices de covariance. Elles interviennent dans les calculs et vrifient la
relation suivante : SSCP totale = SSCP inter + SSCP intra totale.
Matrices de covariance : sont successivement affiches la matrice de covariance inter-
classes, gale la matrice de covariance sans biais des moyennes des diffrentes classes, la
matrice de covariance intra-classe de chacune des classes (sans biais), la matrice de
covariance intra-classe totale qui est une somme pondre des prcdentes, et la matrice de
covariance totale calcule sur la totalit des observations (sans biais).

Synthse de la slection des variables : dans le cas o une mthode de slection a t
choisie, XLSTAT affiche la synthse de la slection. Dans le cas dune slection pas pas
(stepwise), Ascendante ou Descendante, les statistiques correspondant aux diffrentes tapes
sont affiches.

Test de Box : le test de Box permet de tester lhypothse dgalit des matrices de covariance
intra-classe. Deux approximations ont t proposes, lune base sur la distribution du Khi,
lautre sur la distribution de Fisher. Les rsultats des deux tests sont affichs.
Test de Kullback : le test de Kullback permet de tester lhypothse dgalit des matrices de
covariance intra-classe. La statistique calcule est approximativement distribue suivant une
loi du Khi.

Distances de Mahalanobis : la distance de Mahalanobis permet de mesurer la distance entre
les classes en tenant compte de la structure de covariance. Dans le cas o lon suppose les
matrices de variance intra-classe gales, la matrice des distances est calcule en utilisant la
matrice de covariance intra-classe totale, et elle est symtrique. Dans le cas o lon suppose
les matrices de variance intra-classe diffrentes, la distance de Mahalanobis entre les classes
i et j est calcule en utilisant la matrice de covariance intra-classe de la classe i ; la matrice
des distances est donc asymtrique.
Distances de Fisher : dans le cas de lhypothse dgalit des matrices de covariance, les
distances de Fisher entre les classes sont affiches. Elles sont calcules partir de la
distance de Mahalanobis et permettent un test de significativit. La matrice des p-values est
affiche afin de permettre de reprer quelles distances sont significatives.
Distances quadratiques gnralises : dans le cas o lon ne fait pas lhypothse dgalit
des matrices de covariance, le tableau des distances quadratiques gnralises entre les
classes est affich. La distance gnralise est aussi calcule partir des distances de
Mahalanobis et tient compte des logarithmes des dterminants des matrices de covariance
ainsi que des logarithmes des probabilits a priori si requis par lutilisateur.

160
Test du Lambda de Wilks (approximation de Rao) : ce test permet de tester lhypothse
dgalit des vecteurs moyens des diffrentes classes. Si lorsquil y a deux classes le test est
quivalent au test de Fisher mentionn ci-dessus. Si le nombre de classes est infrieur ou gal
trois, le test est exact. Lapproximation de Rao est ncessaire partir de quatre classes pour
obtenir une statistique approximativement distribue suivant une loi de Fisher.
Test unidimensionnel d'galit des moyennes des classes : ces tests permettent de tester
variable par variable lhypothse dgalit des moyennes entre les classes. Le lambda de
Wilks univari est toujours compris entre 0 et 1. Une valeur de 1 correspond au cas o les
moyennes des classes sont gales. Une valeur faible sinterprte comme de faibles variations
intra-classe et donc de fortes variations inter-classes, do une diffrence significative des
moyennes des classes.
Trace de Pillai : ce test permet de tester lhypothse dgalit des vecteurs moyens des
diffrentes classes. Il est moins utilis que le test du Lambda de Wilks et utilise aussi la loi de
distribution de Fisher pour le calcul des p-values.
Trace de Hotelling-Lawley : ce test permet de tester lhypothse dgalit des vecteurs
moyens des diffrentes classes. Il est moins utilis que le test du Lambda de Wilks et utilise
aussi la loi de distribution de Fisher pour le calcul des p-values.
Plus grande racine de Roy : ce test permet de tester lhypothse dgalit des vecteurs
moyens des diffrentes classes. Il est moins utilis que le test du Lambda de Wilks et utilise
aussi la loi de distribution de Fisher pour le calcul des p-values.

Valeurs propres : dans ce tableau sont affiches les valeurs propres associes aux diffrents
facteurs, ainsi que les pourcentages et pourcentages cumuls de discrimination
correspondant. En analyse discriminante, le nombre de valeurs propres non nulles est au plus
gal (k-1) o k est le nombre de classes. Le scree plot permet de visualiser comment le
pouvoir discriminant est rparti entre les facteurs discriminants. La somme des valeurs propres
est gale la trace de Hotelling.
Vecteurs propres : dans ce tableau sont affiches les vecteurs propres qui interviennent
ensuite dans le calcul des corrlations canoniques, des coefficients des fonctions canoniques
et des coordonnes des observations (scores).
Corrlations Variables/Facteurs : le calcul des corrlations entre les coordonnes des
observations dans lespace des variables initiales et dans lespace des facteurs discriminants
permet de visualiser sur un cercle des corrlations la relation entre les variables de dpart et
les facteurs. Le cercle des corrlations est une aide linterprtation de la reprsentation des
observations dans lespace des facteurs.

Corrlations canoniques : les corrlations canoniques associes chaque facteur sont les
racines carrs des quantits L(i) / (1- L(i)) o L(i) est la valeur propre associe au facteur i. Les
161
corrlations canoniques sont aussi une mesure du pouvoir discriminant des facteurs. Leur
somme est gale la trace de Pilai.
Coefficients des fonctions discriminantes canoniques : ces coefficients peuvent tre
utiliss pour calculer les coordonnes dune observation dans lespace des facteurs
discriminants partir de ses coordonnes dans lespace des variables initiales.
Coefficients standardiss des fonctions discriminantes canoniques : ces coefficients
correspondent aux prcdents mais sont standardiss. Ainsi leur comparaison permet de
mesurer la contribution relative des variables initiales la discrimination pour un facteur
donne.
Fonctions aux barycentres : ce tableau donne lvaluation des fonctions discriminantes pour
les points moyens pour chacune des classes.
Fonctions de classement : les fonctions de classement peuvent tre utilises pour
dterminer quelle classe doit tre affecte une observation sur la base des valeurs prises
pour les diffrentes variables explicatives. Dans le cas de lhypothse dgalit des matrices
de covariance, ces fonctions sont linaires. Dans le cas de lhypothse dingalit des
matrices de covariance, ces fonctions sont quadratiques. Une observation est affecte la
classe pour laquelle la fonction de classement est la plus leve.
Classification a priori, probabilits, coordonnes et carrs des distances : dans ce
tableau sont affichs pour chaque observation, sa classe dappartenance dfinie par la
variable dpendante, la classe dappartenance telle que dduite des probabilits
dappartenance, les probabilits dappartenance chacune des classes, les coordonnes
dans lespace des facteurs discriminants, et les carrs des distances des observations aux
barycentres de chacune des classes.
Matrice de confusion pour l'chantillon d'estimation : des classifications a priori et a
posteriori est dduite la matrice de confusion, ainsi que le pourcentage global dobservations
biens classes. Dans le cas o la variable dpendante ne comprend que deux classes la
courbe ROC est affiche (voir la section description pour plus dtails).
Validation croise : dans le cas o une validation croise a t demande, le tableau
contenant les informations pour les observations et la matrice de confusion sont affichs (voir
la section description pour plus dtails).

Exemple
Un exemple d'utilisation de l'Analyse Factorielle Discriminante est disponible sur le site
Internet de Addinsoft l'adresse
http://www.xlstat.com/demo-daf.htm
162

Bibliographie
Fisher R.A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of
Eugenics, 7, 179 -188.
Huberty C. J. (1994). Applied Discriminant Analysis. Wiley-Interscience, New York.
Jobson J.D. (1992). Applied multivariate data analysis. Volume II: Categorical and Multivariate
Methods. Springer-Verlag, New York.
Lachenbruch P. A. (1975). Discriminant Analysis. Hafner, New York.
Tomassone R., Danzart M, Daudin J.J., Masson J.P. (1988). Discrimination et Classement.
Masson, Paris.

163
Analyse Factorielle des Correspondances (AFC)
Utilisez ce module pour reprsenter graphiquement les proximits entre les modalits (aussi
appeles catgories) de deux variables qualitatives. Les variables qualitatives peuvent tre
disponibles sous forme dun tableau individus/variables, ou sous forme dun tableau de
contingence (tableau crois).

Description
LAnalyse Factorielle des Correspondances (AFC) est une mthode qui permet dtudier
lassociation entre deux variables qualitatives. Les travaux de J.-P. Benzcri commencs au
dbut des annes 60 ont permis lmergence de la mthode. Ses disciples ont ensuite permis
diffrentes volutions. On citera notamment les contributions de M.J. Greenacre (1984) qui a
permis de gnraliser lapproche et de la diffuser dans le monde anglo-saxon, et les travaux
de C. Lauro qui a notamment mis au point une variante non symtrique de la mthode.
La mesure de lassociation entre deux variables qualitatives est un sujet complexe qui
ncessite une transformation pralable des donnes : en effet, il nest pas possible de calculer
un coefficient de corrlation en utilisant directement les donnes, comme on pourrait le faire
avec deux variables quantitatives.
La premire transformation consiste en un recodage des deux variables qualitatives V1 et V2
en deux tableaux disjonctifs Z1 et Z2. Pour chaque modalit de la variable Vj, une colonne est
cre dans Zj. A chaque fois quune modalit m de la variable Vj correspond un individu i, on
affecte 1 X1(i,m). Les autres valeurs de Z1 et Z2 sont nulles. La gnralisation de cette ide
plus de deux variables correspond lAnalyse des Correspondances Multiples. Lorsquil ny
a que deux variables, il est suffisant dtudier le tableau de contingence des variables, qui
nest autre que le produit Z1Z2 (o correspond la transposition dune matrice).
Un tableau de contingence a la structure suivante :

Modalit 1 n(1,1) n(1,j) n(1,m2)


164
distances au centre de gravit. Dans le cas de lAFC, linertie totale du nuage des modalits
est donne par :
2
. .
2
2 1 2 2 1
2
. .
. . 1 1 1 1
2
, avec et
ij i j
m m m m
i ij j ij
i j i j j i
n n n
n n
n n n n
n n
n
n
_
= = = =
| |
|
\ .
= = = =

Le but de lAFC consiste reprsenter un maximum de linertie totale sur le premier axe
factoriel, un maximum de linertie rsiduelle sur le second axe, et ainsi de suite jusqu la
dernire dimension. On montre que le nombre de dimensions de lespace de reprsentation
est infrieur ou gal min(m1, m2)-1.

LAnalyse Non Symtrique des Correspondances (ANSC) propose par Lauro et DAmbra
(1984) permet dtudier lassociation entre les lignes et les colonnes dun tableau de
contingence tout en introduisant la notion de dpendance entre les lignes et les colonnes, do
lasymtrie. Lexemple historique prsent par Lauro et DAmbra consiste en ltude dun
tableau de contingence contenant les frquences de prescription de 6 mdicaments pour 7
maladies, et ce pour 69 patients. On voit bien ici quil y a une dpendance des mdicaments
vis--vis de la maladie. Afin de prendre en compte cette dpendance lindice tau de Goodman
et Kruskal (1954) a t retenu. Lindice correspondant au cas o les lignes dpendent des
colonnes est donn par :
( )
( )
1 2
2
. .
1 1
/
1
2
.
1
/ /
1 /
m m
ij j j
i j
b RC
m
i
i
n n n n
n n
t
= =
=

Comme pour linertie totale, il est possible de calculer un espace de reprsentation des
modalits, tel que la proportion du tau de Goodman et Kruskal conserve soit maximis sur les
premiers axes.
165
Greenacre (1984) a mis au point une approche calculatoire permettant de traiter dans un
mme cadre mathmatique ces deux mthodes.

Lanalyse dun sous-ensemble de modalits (ou catgories), est une mthode trs
rcemment mise au point par Greenacre et Pardo (2006), qui permet de focaliser ltude sur
quelques catgories uniquement, tout en prenant en compte toutes les donnes du tableau de
contingence grce au maintien des sommes marginales du tableau. Sur des tableaux de taille
importante cela permet de dcouper lanalyse en plusieurs sous-analyses.

Bote de dialogue

calculs.
: cliquez sur ces boutons pour changer la faon dont XLSTAT doit charger les
donnes :
- cas o les donnes sont dans un tableau de contingence ou un tableau crois : si la
flche est vers le bas, XLSTAT vous permet de slectionner les donnes par colonnes
ou par plage. Si la flche est vers la droite, XLSTAT vous permet de slectionner les
- cas o les donnes sont dans un tableau observations/variables : si la flche est vers le
bas, XLSTAT considre que les observations sont en lignes et les variables en
166
colonnes. Si la flche est vers la droite, XLSTAT considre que les variables sont en
lignes et les observations en colonnes.

Onglet Gnral :
Le champ principal de saisie des donnes vous permet de slectionner alternativement deux
types de tableaux :
Tableau crois : choisissez cette option si vos donnes correspondent un tableau crois,
avec dans chaque cellule les frquences correspondant aux croisements des diffrentes
catgories de deux variables qualitatives (dans ce cas on parle de tableau de contingence), ou
des valeurs dune autre nature.
Tableau observations/variables : choisissez cette option si vos donnes correspondent
tableau comprenant N observations dcrites par deux variables qualitatives. Ce type de
tableau correspond typiquement un questionnaire deux questions. Ce tableau sera alors
automatiquement transform par XLSTAT en un tableau de contingence.

actif.

Libells inclus : cette option est visible si vous avez slectionn un tableau de type tableau
de contingence ou tableau de donnes. Activez cette option si vous avez inclus les libells des
lignes et des colonnes dans la slection.
Libells des variables : cette option est visible si vous avez slectionn un tableau de type
tableau observations/variables. Activez cette option si la premire ligne de la slection contient
le libell des variables.
Poids : cette option est visible si vous avez slectionn un tableau de type tableau
observations/variables. Activez cette option si vous voulez pondrer les observations. Si vous
nactivez pas cette option, les poids seront tous considrs comme valant 1. Les poids doivent
tre imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn,

Onglet Options :
167
Analyse approfondie : cette option nest active que dans le cas o les donnes slectionnes
correspondent un tableau de contingence ou un tableau crois. Les options suivantes sont
proposes.
- Donnes supplmentaires : si vous slectionnez cette option vous pouvez ensuite
entrer le nombre de lignes et/ou de colonnes supplmentaires. Les lignes et les
colonnes supplmentaires sont des donnes passives qui ne sont pas prises en
compte dans les calculs de lespace de reprsentation des catgories. Leurs
coordonnes dans lespace sont calcules uniquement posteriori. Remarque : les
lignes et/ou les colonnes supplmentaires doivent se trouver en fin de tableau (les
dernires lignes pour les lignes supplmentaires, les dernires colonnes pour les
colonnes supplmentaires).
- Analyse dun sous-ensemble : si vous slectionnez cette option vous pouvez ensuite
entrer le nombre de lignes et/ou de colonnes exclure pour lanalyse approfondie de
certaines catgories. Voir le chapitre description pour plus de dtails sur cette mthode.
Remarque : les lignes et/ou les colonnes qui ne font pas partie du sous-ensemble
doivent se trouver en fin de tableau (les dernires lignes pour les lignes exclues, les
dernires colonnes pour les colonnes exclues).
Analyse non symtrique : cette option permet de raliser une analyse non symtrique des
correspondances, telle quelle a t propose par Lauro et al. (1984).
- Les lignes dpendent des colonnes : slectionnez cette option si vous considrez
que la variable correspondant aux lignes dpend de la variable correspondant aux
colonnes, et si vous voulez analyser lassociation des deux variables en tenant compte
de cette dpendance.
- Les colonnes dpendent des lignes : slectionnez cette option si vous considrez
que la variable correspondant aux colonnes dpend de la variable correspondant aux
lignes, et si vous voulez analyser lassociation des deux variables en tenant compte de
cette dpendance.
Test dindpendance : activez cette option si vous souhaitez que XLSTAT calcule un test
dindpendance bas sur la statistique du Khi.
- Niveau de signification (%) : entrez le niveau de signification pour le test (valeur par
dfaut : 5%).
nombre de facteurs utiliss pour laffichage des rsultats :
- % minimum : activez cette option puis saisissez le pourcentage minimum que doivent
reprsenter les facteurs retenus pour laffichage.
prendre en compte pour laffichage des rsultats.
168
Options communes :
valeurs propres.
Distances du khi : activez cette option pour afficher les distances du khi entre les points-
lignes et entre les points-colonnes.

Options pour les tableaux de contingence ou croiss :
est donne par :
. .
( )
i j
ij
n n
E n
n
=
o n
i.
.j
Options pour les tableaux observations/variables :
Regrouper les valeurs manquantes dans une nouvelle modalit : activez cette option pour
regrouper les donnes manquantes dans une nouvelle modalit de la variable qualitative en
question.

Onglet Sorties :
Options pour les tableaux observations/variables:
169
les deux variables slectionnes.
Tableau disjonctif : activez cette option pour afficher le tableau disjonctif complet
correspondant aux variables qualitatives slectionnes.
modalits soient tries alphabtiquement pour les deux variables slectionnes.
Options pour les tableaux de contingence ou les tableaux observations/variables:
Options communes :
valeurs propres.
Distances du khi : activez cette option pour afficher les distances du khi entre les points-
lignes et entre les points-colonnes.
Coordonnes principales : activez cette option pour afficher les coordonnes principales des
points-lignes et des points-colonnes.
Coordonnes standard : activez cette option pour afficher les coordonnes standard des
Contributions : activez cette option pour afficher les contributions des points-lignes et des
points-colonnes aux inerties des axes factoriels.
Cosinus carrs : activez cette option pour afficher les cosinus carrs des points-lignes et des
points-colonnes avec les axes factoriels.

Onglet Graphiques :

crois.
Graphiques symtriques : activez cette option pour afficher les graphiques pour lesquels les
points-lignes et les points-colonnes jouent un rle symtrique. Ces graphiques sont aussi
appels graphiques barycentriques. Ces graphiques utilisent les coordonnes principales des
170
- Lignes et colonnes : activez cette option pour afficher un graphique sur lequel sont
affichs les points-lignes et les points-colonnes.
- Lignes : activez cette option pour afficher un graphique sur lequel sont affichs
uniquement les points-lignes.
- Colonnes : activez cette option pour afficher un graphique sur lequel sont affichs
uniquement les points-colonnes.
Graphiques asymtriques : activez cette option pour afficher les graphiques pour lesquels
les points-lignes et les points-colonnes jouent un rle asymtrique. Ces graphiques sont aussi
appels graphiques pseudo-barycentriques. Ces graphiques utilisent les coordonnes
principales dune part et les coordonnes standard dautre part.
- Lignes : activez cette option pour afficher un graphique sur lequel sont affichs les
points-lignes avec leurs coordonnes principales, et les points-colonnes avec leurs
coordonnes standard.
- Colonnes : activez cette option pour afficher un graphique sur lequel sont affichs les
points-colonnes avec leurs coordonnes principales, et les points-lignes avec leurs

Etiquettes : activez cette option pour afficher les libells des modalits sur les graphiques.
- Etiquettes colores : activez cette option pour que les tiquettes soient de la mme
couleur que les points correspondants.
Vecteurs : activez cette option pour afficher des vecteurs pour les coordonnes standard sur
les graphiques asymtriques.
- Facteur dallongement : activez cette option pour jouer sur la longueur des vecteurs
affichs.

Rsultats
Statistiques descriptives : ce tableau nest affich que si les donnes dentre
correspondent un tableau observations/variables.
Tableau disjonctif : ce tableau nest affich que si les donnes dentre correspondent un
tableau observations/variables. Ce tableau est un tableau intermdiaire permettant daboutir
au tableau de contingence des deux variables slectionnes.
171
Tableau de contingence : le tableau de contingence est affich. Le diagramme en btons en
3 dimensions en est la reprsentation graphique.
Inertie par case : le tableau des inerties par case est affich. La somme des inerties est gale
la statistique du khi divise par la frquence totale (somme des cellules du tableau de
contingence).
Test d'indpendance entre les lignes et les colonnes : ce test permet de dterminer, sur la
base de la statistique du khi, si lon doit rejeter lhypothse nulle selon laquelle les lignes et
les colonnes du tableau sont indpendantes. Une interprtation dtaille est fournie
automatiquement.
Valeurs propres et pourcentages d'inertie : les valeurs propres et le graphique (scree plot)
correspondant sont affichs. Seules les valeurs propres non triviales sont affiches. Si un
filtrage a t demand, il est appliqu aux rsultats qui suivent. Remarque : la somme des
valeurs propres affiches est gale linertie totale. A chaque valeur propre correspond un
axe principal reprsentant un pourcentage donn de linertie totale. On peut ainsi mesurer le
pourcentage cumul dinertie totale correspondant un nombre croissant de dimensions.

Une srie de rsultats est ensuite affiche, dabord pour les points lignes, puis pour les points
colonnes :
Poids, distances et distances quadratiques l'origine, inerties et inerties relatives : ce
tableau contient des statistiques de base pour les points-lignes (puis les points-colonnes).
Profils : dans ce tableau sont affichs les profils, ainsi que la moyenne des profils.
Distances du khi : dans ce tableau sont affiches les distances du khi entre les profils.
Coordonnes principales : dans ce tableau sont affiches les coordonnes principales. Ces
coordonnes sont utilises pour la cration des graphiques symtriques (ou barycentriques) et
asymtriques (ou pseudo-barycentriques).
Coordonnes standard : ces coordonnes correspondent aux prcdentes un facteur prs.
Le facteur est la racine carre de linverse de la valeur propre correspondante. Ces
coordonnes sont utilises pour la cration des graphiques asymtriques (ou barycentriques).
Contributions : les contributions sont une aide linterprtation. Les modalits ayant
influenc le plus la construction des axes sont celles dont les contributions sont les plus
leves. On pourra se contenter dinterprter les rsultats des modalits pour lesquelles les
contributions sont suprieures aux poids relatifs affichs dans la premire colonne.
position du point-ligne ou du point-colonne correspondant.

172
Les graphiques constituent le but ultime de lAnalyse Factorielle des Correspondances, car ils
permettent dacclrer considrablement linterprtation des rsultats.
Graphiques symtriques : aussi appels reprsentations barycentriques, ces graphiques
utilisent exclusivement les coordonnes principales. En fonction des choix effectus dans la
bote de dialogue, sont affichs, un graphique symtrique mlangeant points-lignes et points-
colonnes, un graphique des points-lignes, et un graphique des points-colonnes. Le
pourcentage dinertie correspondant chacun des axes concerns et le pourcentage dinertie
cumule du graphique sont affichs. La proximit entre deux modalits sur le graphique est
reprsentative de leur association.
Graphiques asymtriques : aussi appels reprsentations pseudo-barycentriques, ces
graphiques utilisent dune part les coordonnes principales (pour les points-lignes ou les
points-colonnes) et dautre part les coordonnes standard (respectivement pour les points-
colonnes ou les points-lignes). Le pourcentage dinertie correspondant chacun des axes
concerns et le pourcentage dinertie cumule du graphique sont affichs. Le nom du
graphique, par exemple graphique asymtrique des lignes indique les points qui font lobjet
dune interprtation : sur un graphique asymtrique des lignes , on tudiera la faon dont
les points lignes sont positionns par rapport aux vecteurs des modalits, ces derniers
donnant des directions. Si deux points-lignes sont dans la direction dun vecteur modalit, la
modalit correspondant au point-ligne qui est le plus loign de lorigine est celle qui est la
plus lie la modalit correspondant au vecteur.

Exemple
Un exemple dutilisation de lAnalyse Factorielle des Correspondance est disponible sur le site
de Addinsoft ladresse suivante :
http://www.xlstat.com/demo-caf.htm

Bibliographie
Balbi S. (1997). Graphical Displays in Non Symmetric Correspondence Analysis. In: Blasius J.
and Greenacre M. (eds.), Visualisation of Categorical Data. Academic Press, San Diego. 297-
309.
Benzcri J.P. (1969). Statistical Analysis as a Tool to Make Patterns Emerge from Data. In
Watanabe S. (ed.), Methodologies of Pattern Recognition. Academic Press, New York. 35-60.
173
Benzcri J.P. (1973). LAnalyse des Donnes, Tome2 : Lanalyse des correspondances.
Dunod, Paris.
Benzcri J.P. (1992). Correspondence Analysis Handbook. Marcel Decker, New York.
Goodman, L. A. and Kruskal, W. H. (1954). Measures of association for cross classifications.
Journal of the American Statistical Association. 49, 732-764.
Greenacre M. J. (1984). Theory and Applications of Correspondence Analysis. Academic
Press, London.
Greenacre M. J. (1993). Correspondence Analysis in Practice. Academic Press, London.
Greenacre M. J. and Pardo R. (2006). Subset correspondence analysis: Visualizing
relationships among a selected set of response categories from a questionnaire survey.
Sociological Methods & Research, 35 (2), 193-218.
Lauro C., Balbi S. (1999). The analysis of structured qualitative data. Applied Stochastic
Models and Data Analysis. 15, 1-27.
Lauro N.C., DAmbra L. (1984). Non-symmetrical Correspondence Analysis. In: Diday E. et
al. (eds.), Data Analysis and Informatics, III, North Holland, Amsterdam. 433-446.
Lebart L., Morineau A. and Piron M. (1997). Statistique Exploratoire Multidimensionnelle,
2me dition. Dunod, Paris. 67-107.
Saporta G. (1990). Probabilits, Analyse des Donnes et Statistique. Technip, Paris. 199-216.

174
Analyse des Correspondances Multiples (ACM)
Utilisez ce module pour reprsenter graphiquement lassociation entre les modalits (aussi
appeles catgories) dau moins deux variables qualitatives. LACM peut aussi tre utilise
pour transformer des donnes qualitatives en des donnes quantitatives utilisables ensuite par
des mthodes de classification.

Description
LAnalyse des Correspondances Multiples (ACM) est une mthode qui permet dtudier
lassociation entre au moins deux variables qualitatives. LACM est aux variables qualitatives
ce que lAnalyse en Composantes Principales est aux variables quantitatives. Elle permet en
effet daboutir des cartes de reprsentation sur lesquelles ont peut visuellement observer les
proximits entre les catgories des variables qualitatives et les observations.
LAnalyse des Correspondances Multiples (ACM) peut aussi tre vue comme la gnralisation
de lAFC au cas o lon a plus de deux variables. Sil est possible de synthtiser un tableau n
individus et p (p>2) variables qualitatives dans un tableau dont la structure est proche dun
tableau de contingence, il est beaucoup plus commun en ACM de partir dun tableau
observations/variables (par exemple la suite dune enqute, o lon a pos p questions n
individus). XLSTAT permet aussi de travailler partir dun tableau disjonctif complet.
La construction du tableau disjonctif complet est de toute manire lune des tapes pralables
au calcul de lACM. Les p variables qualitatives sont clates en p tableaux disjonctifs Z1, Z2,
, Zp, composs dautant de colonnes quil y a de modalits pour chacune des variables. A
chaque fois quune modalit m de la j
me
variable correspond un individu i, on affecte 1
Zj(i,m). Les autres valeurs de Zj sont nulles. Les p tableaux disjonctifs sont alors concatns
en un tableau disjonctif complet.
A partir du tableau disjonctif complet sont calcules les coordonnes des modalits des
variables qualitatives, ainsi que les coordonnes des observations dans un espace de
reprsentation optimal pour le critre dinertie. Dans le cas de lACM on montre que linertie est
gale au nombre moyen de modalits moins un. Elle ne dpend donc pas uniquement de
lassociation entre les variables. Greenacre (1993) a propos une mesure ajuste de linertie,
inspire de la Joint Correspondence Analysis (JCA). Cet ajustement permet davoir des
pourcentages plus levs et plus informatifs pour les axes de reprsentation.
Lanalyse dun sous-ensemble de modalits (ou catgories), est une mthode trs
rcemment mise au point par Greenacre et Pardo (2006), qui permet de focaliser ltude sur
quelques catgories uniquement, tout en prenant en compte toutes les donnes du tableau de
donnes initial. XLSTAT vous permet de slectionner les catgories sur lesquelles vous
souhaitez focaliser lanalyse.

175

Bote de dialogue

calculs.

Onglet Gnral :
types de tableaux :
Tableau observations/variables : choisissez cette option si vos donnes correspondent
tableau comprenant N observations dcrites par P variables qualitatives. Si des en-ttes de
colonnes ont t slectionns, veuillez vrifier que loption Libells des variables est
active.
Tableau disjonctif : choisissez cette option si vos donnes correspondent un tableau
disjonctif. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
176

actif.

Libells des variables : activez cette option si vous avez inclus les libells des variables (cas
dun tableau observations/variables) ou les libells des modalits (cas dun tableau disjonctif)
dans la slection.
dobservations disponibles pour laffichage des rsultats. Si l'option Libells des variables
est active, la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez
pas cette option, des libells seront automatiquement crs (Obs1, Obs2, ).

Onglet Options :
Analyse approfondie :
- Donnes supplmentaires : si vous slectionnez cette option, longlet Donnes
supplmentaires est activ. Vous pouvez alors modifier les options dans cet onglet.
- Analyse dun sous-ensemble : si vous slectionnez cette option, au cours des calculs
XLSTAT vous demandera de prciser quelles sont les modalits (ou catgories)
constitutives du sous-ensemble analyser.

modalits soient tries alphabtiquement pour chacune des variables.
Libells Variable/Catgorie : activez cette option pour utiliser des libells longs pour
l'affichage des rsultats. Les libells Variable-Modalit sont composs du nom de la variable
comme prfixe, et de la modalit comme suffixe.

nombre de facteurs utiliss pour laffichage des rsultats :
177
- % minimum : activez cette option puis saisissez le pourcentage minimum que doivent
reprsenter les facteurs retenus pour laffichage.
prendre en compte pour laffichage des rsultats.
- 1/p : activez cette option pour ne prendre en compte que les facteurs dont la valeur
propre correspondante est suprieure 1/p, o p est le nombre de variables actives.
Cette option est active par dfaut.

Variables supplmentaires : activez cette option si vous voulez calculer les coordonnes a
posteriori pour des variables qui ne sont pas prises en compte pour le calcul des axes
factoriels (variables passives, par opposition aux variables actives).
- Quantitatives : activez cette option si vous disposez de variables quantitatives
slection.
- Qualitatives : activez cette option si vous disposez de variables qualitatives
slection.

178
Remplacer les valeurs manquantes : activez cette option pour remplacer les valeurs
manquantes. Pour les variables quantitatives supplmentaires, les donnes manquantes sont
remplaces par la moyenne de la variable quantitative concerne, tandis que pour les
variables qualitatives du tableau initial (variables actives) ou pour les variables qualitatives
supplmentaires (variables passives), une nouvelle catgorie Manquant est cre pour les
variables qualitatives en question.

Onglet Sorties :
correspondant aux deux variables qualitatives slectionnes.
Tableau de Burt : activez cette option pour afficher le tableau de Burt.

Affichez les rsultats pour :
- Observations : activez cette option pour afficher les rsultats concernant les
observations.
- Variables : activez cette option pour afficher les rsultats concernant les variables.

valeurs propres.
Coordonnes principales : activez cette option pour afficher les coordonnes principales.
Coordonnes standard : activez cette option pour afficher les coordonnes standard.
Contributions : activez cette option pour afficher les contributions.
Cosinus carrs : activez cette option pour afficher les cosinus carrs.
Valeurs test : activez cette option pour afficher les valeurs test pour les variables.
- Niveau de signification (%) : entrez le niveau de signification pour dterminer si les
valeurs test sont significatives ou non.
179

Onglet Graphiques :

Vue 3D du tableau de Burt : activez cette option pour afficher le diagramme en bton en 3
dimensions correspondant au tableau de Burt. Ces graphiques utilisent les coordonnes
principales.
observations et les variables jouent un rle symtrique.
- Observations et variables : activez cette option pour afficher un graphique sur lequel
sont affiches les observations et les variables.
- Observations : activez cette option pour afficher un graphique sur lequel sont affiches
uniquement les observations.
- Variables : activez cette option pour afficher un graphique sur lequel sont affiches
uniquement les variables.
les observations et les variables jouent un rle asymtrique. Ces graphiques utilisent les
coordonnes principales pour les observations, et les coordonnes standard pour les
variables.
les observations avec leurs coordonnes principales, et les variables avec leurs
- Variables : activez cette option pour afficher un graphique sur lequel sont affiches les
variables avec leurs coordonnes principales, et les observations avec leurs

affichs.

180

Bote de dialogue (sous-ensemble de modalits)
Cette bote de dialogue est affiche si vous avez slectionn loption Analyse approfondie /
Analyse dun sous-ensemble dans la bote de dialogue principale.

: cliquez sur ce bouton pour reprendre les calculs.

La liste des modalits correspondant lensemble des variables qualitatives actives est
affiche. Slectionnez alors les modalits sur lesquelles vous voulez que lanalyse soit
focalise.
Toutes : cliquez sur ce bouton pour slectionner toutes les catgories.
Aucune : cliquez sur ce bouton pour dslectionner toutes les catgories.

Rsultats
Statistiques descriptives : ce tableau nest affich que si les donnes dentre
correspondent un tableau observations/variables.
181
Tableau disjonctif : ce tableau nest affich que si les donnes dentre correspondent un
tableau observations/variables. Ce tableau est un tableau intermdiaire permettant daboutir
au tableau de contingence des deux variables slectionnes.
Tableau de Burt : le tableau de Burt est affich si loption correspondante a t active. Le
diagramme en btons en 3 dimensions en est la reprsentation graphique.

Valeurs propres et pourcentages d'inertie : les valeurs propres, les pourcentages dinertie
et les pourcentages dinertie ajuste et le graphique correspondant (scree plot) sont affichs.
Seules les valeurs propres non triviales sont affiches. Si un filtrage a t demand il est
appliqu aux rsultats qui suivent.
Une srie de rsultats est ensuite affiche, dabord pour les variables, puis pour les
observations :
Coordonnes principales : dans ce tableau sont affiches les coordonnes principales. Ces
coordonnes sont utilises pour la cration des graphiques symtriques (ou barycentriques) et
asymtriques (ou pseudo-barycentriques) o elles reprsentent les projections des profils.
Coordonnes standard : ces coordonnes correspondent aux prcdentes un facteur prs.
Le facteur est la racine carre de linverse de la valeur propre correspondante. Ces
coordonnes sont utilises pour la cration des graphiques asymtriques (ou pseudo-
barycentriques) o elles reprsentent les projections des profils norms.
Contributions : les contributions sont une aide linterprtation. Les modalits ayant
influenc le plus la construction des axes sont celles dont les contributions sont les plus
leves. On pourra se contenter danalyser les contributions qui sont suprieures aux poids
relatifs affichs dans la seconde colonne.
position de lobservation ou de la variable en question.

Les graphiques constituent le but ultime de lAnalyse des Correspondances Multiples, car ils
permettent dacclrer considrablement linterprtation des donnes.
Graphiques symtriques : aussi appels reprsentations barycentriques, ces graphiques
utilisent exclusivement les coordonnes principales. En fonction des choix effectus dans la
bote de dialogue, sont affichs, un graphique symtrique mlangeant observations et
variables, un graphique des observations, et un graphique des variables. Le pourcentage
dinertie ajuste correspondant chacun des axes concerns et le pourcentage dinertie
ajuste cumule du graphique sont affichs.
182
Graphiques asymtriques : aussi appels reprsentations pseudo-barycentriques, ces
graphiques utilisent dune part les coordonnes principales pour les observations et dautre
part les coordonnes standard pour les variables, et rciproquement. Le pourcentage dinertie
ajuste correspondant chacun des axes concerns et le pourcentage dinertie ajuste
cumule du graphique sont affichs. Sur un graphique asymtrique des observations , on
tudiera la faon dont les observations sont positionnes par rapport aux vecteurs des
modalits, ces derniers indiquant des directions. Si deux observations sont dans la direction
dun vecteur modalit, lobservation qui est la plus loigne de lorigine est celle pour laquelle
la modalit a le plus vraisemblablement t choisie.

Exemple
Un exemple dutilisation de lAnalyse Factorielle des Correspondance est disponible sur le site
de Addinsoft ladresse suivante :
http://www.xlstat.com/demo-mcaf.htm

Bibliographie
Greenacre M. J. (1984). Theory and Applications of Correspondence Analysis. Academic
Press, London.
Greenacre M. J. (1993). Correspondence Analysis in Practice. Academic Press, London.
Greenacre, M.J. (1993). Multivariate Generalizations of Correspondence Analysis. In:
Multivariate Analysis: Future Directions 2 (Eds: C.M. Cuadras and C.R. Rao), Elsevier
Science, Amsterdam. 327-340.
Greenacre M. J., Pardo R. (2006). Multiple correspondence analysis of subsets of response
categories. In Multiple Correspondence Analysis and Related Methods (eds Michael
Greenacre & Jrg Blasius), Chapman & Hall/CRC, London, 197-217.
Lebart L., Morineau A. and Piron M. (1997). Statistique Exploratoire Multidimensionnelle,
2me dition. Dunod, Paris. 108-145.

183
Multidimensional Scaling (MDS)
Utilisez le Multidimensional Scaling (MDS) pour reprsenter dans un espace deux ou trois
dimensions des objets pour lesquels seule une matrice de proximit (similarit ou dissimilarit)
est disponible.

Description
Le Multidimensional Scaling (MDS) permet de passer dune matrice de proximit (similarit
ou dissimilarit) entre une srie de N objets aux coordonnes de ces mmes objets dans un
espace p dimensions. On fixera en gnral p 2 ou 3 afin de pouvoir facilement visualiser
les objets. Par exemple, avec le MDS, il est possible de reconstituer trs prcisment la
position de villes sur une carte partir des distances kilomtriques (la dissimilarit est alors
une distance euclidienne) entre les villes, une rotation et une symtrie prs.
Lexemple ci-dessus a pour seul intrt de montrer la performance de la mthode, et de faire
comprendre son esprit. Dans la pratique, le MDS est souvent utilis en psychomtrie (analyse
de perceptions) et en marketing (distances entre produits obtenus partir de classements par
des consommateurs), mais on trouve des applications dans de trs nombreux domaines.

Si la matrice de dpart est une matrice de similarit (une similarit est dautant plus leve que
deux objets sont proches), elle sera automatiquement convertie en matrice de dissimilarit
pour la suite des calculs. La conversion seffectue en soustrayant la valeur de la diagonale
les donnes de la matrice.
On distingue deux types de MDS en fonction de la nature de la dissimilarit observe :
- MDS mtrique : les dissimilarits sont considres comme continues et donnant une
information exacte reproduire le plus fidlement possible. Diffrents sous-modles sont
proposs :
absolu (absolute MDS) : les distances obtenues dans lespace de
reprsentation doivent correspondre le plus fidlement possible aux distances
observes dans la matrice de dissimilarit initiale.
rapport (ratio MDS) : les distances obtenues dans lespace de reprsentation
doivent correspondre le plus fidlement possible aux distances observes dans
la matrice initiale, un facteur de proportionnalit prs (le facteur tant identique
pour tous les couples de distances).
intervalle (interval MDS) : les distances obtenues dans lespace de
observes dans la matrice initiale, une relation linaire prs (la relation linaire
facteur tant identique pour tous les couples de distances).
184
polynomial (polynomial MDS) : les distances obtenues dans lespace de
observes dans la matrice initiale, une relation polynomiale de degr deux
prs (la relation linaire facteur tant identique pour tous les couples de
distances).

Remarque : le modle absolu permet de comparer les distances dans lespace de
reprsentation celles de lespace de dpart. Les autres modles prsentent lavantage
dacclrer les calculs.
- MDS non mtrique : avec ce type de MDS, seul compte lordre entre les dissimilarits.
Autrement dit lalgorithme MDS ne doit pas essayer de reproduire les dissimilarits, mais
seulement la relation dordre entre ces dernires. Deux modles sont possibles :
ordinal (1) : la relation d'ordre entre les distances dans l'espace de
reprsentation doit correspondre celle des dissimilarits correspondantes. En
cas de dissimilarits de mme rang, aucune restriction n'est impose sur les
distances correspondantes. Autrement dit, des dissimilarits de mme rang ne
doivent pas ncessairement donner des distances gales dans lespace de
reprsentation.
ordinal (2) : la relation d'ordre entre les distances dans l'espace de
reprsentation doit correspondre celle des dissimilarits correspondantes. En
cas de dissimilarits de mme rang, les distances correspondantes doivent tre
gales.

Les algorithmes de MDS visent rduire lcart entre la matrice des disparits issues des
modles et la matrice des distances obtenues dans la configuration de reprsentation. Dans le
cas du modle absolu, la disparit est gale la dissimilarit de la matrice de dpart. Lcart
est mesur au travers du Stress dont plusieurs variantes ont t proposes :
Stress brut :
( )
<
=
j i
ij ij ij r
d D w
2
o
o D
ij
reprsente la disparit entre lindividu i et lindividu j, et d
ij
la distance
euclidienne entre ces mmes individus pour la reprsentation obtenue. w
ij

reprsente le poids affect la proximit ij (par dfaut sa valeur est 1).
Stress standardis :

( )
<
<

=
j i
ij ij
j i
ij ij ij
n
D w
d D w
2
2
o
Stress 1 de Kruskal :
185

( )
<
<

=
j i
ij ij
j i
ij ij ij
d w
d D w
2
2
1
o
Stress 2 de Kruskal :

( )
( )
<
<
=
j i
ij ij
j i
ij ij ij
d d w
d D w
2
2
2
o
o d reprsente la moyenne des distances sur la reprsentation.

Remarque : pour un nombre de dimensions donn, plus faible est le stress, meilleure est la
qualit de la reprsentation. Par ailleurs, plus le nombre de dimensions est lev, plus le
stress est faible.
Pour savoir si le rsultat obtenu est satisfaisant et pour dterminer quel est le nombre de
dimensions correct pour reprsenter fidlement les donnes, on peut observer lvolution du
stress avec le nombre de dimensions et identifier partir de quand le stress se stabilise. Le
diagramme de Shepard permet quant lui dobserver dventuelles ruptures dans lordination
des distances. Plus le graphique est linaire, meilleure est la reprsentation. Dans le cas du
modle absolu, pour une reprsentation idale, les points doivent tre aligns sur la premire
bissectrice.
Il existe plusieurs algorithmes de MDS dont notamment ALSCAL (Takane et al. 1977) et
SMACOF (Scaling by MAjorizing a COnvex Function) qui minimise le Stress standardis
(de Leeuw, 1977). XLSTAT utilise lalgorithme SMACOF.

Bote de dialogue

calculs.
186

Onglet Gnral :
Donnes : slectionnez une matrice de similarit ou dissimilarit. Si seule la partie triangulaire
infrieure ou suprieure est disponible, le tableau est accept. Si des diffrences sont
dtectes entre les parties infrieure et suprieure de la matrice slectionne, XLSTAT vous
en avertit, et vous propose de modifier les donnes (calcul de la moyenne des deux parties)
pour pouvoir poursuivre les calculs.
Dissimilarits / Similarits : choisissez loption correspondant la nature des donnes de
matrice slectionne.
Modle : choisissez le modle utiliser. Voir la partie description pour plus de dtails.
Dimensions : entrez les nombres minimum et maximum de dimensions pour lespace de
reprsentation des objets. Lalgorithme sera rpt pour toutes les dimensions se trouvant
entre ces deux bornes.

actif.

Libells inclus : activez cette option si vous avez inclus les libells des lignes et des colonnes
dans la slection.
Poids : activez cette option si vous voulez pondrer les donnes. Vous devez alors
slectionner une matrice de poids (sans slectionner de libells pour les lignes ou les
colonnes). Si vous nactivez pas cette option, les poids seront tous considrs comme valant
1. Les poids doivent tre imprativement suprieurs ou gaux 0.

187
Onglet Options :
Stress : choisissez le type de stress qui sera utilis pour la restitution des rsultats, sachant
que lalgorithme SMACOF minimise le stress brut. Voir la section description pour plus de
dtails.
Configuration initiale :
- Alatoire : activez cette option pour que XLSTAT gnre de manire alatoire la
configuration de dpart. Entrez alors le nombre de fois o lalgorithme devra tre rpt
partir dune nouvelle configuration initiale gnre alatoirement. Valeur par dfaut du
nombre de rptitions : 100. Remarque : la configuration affiche dans les rsultats
correspond la rptition pour laquelle le meilleur rsultat a t trouv.
- Dfinie par lutilisateur : activez cette option pour pouvoir ensuite slectionner une
configuration initiale sur la base de laquelle lalgorithme ralisera ensuite loptimisation.
Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme SMACOF.
L'optimisation du Stress est arrte ds que le nombre maximal d'itrations est
dpass. Valeur par dfaut : 100.
- Convergence : entrez la valeur minimale dvolution du stress dune itration lautre,
qui une fois atteinte permet de considrer que lalgorithme a converg. Valeur par
dfaut : 0,00001.

Ignorer les donnes manquantes : si vous activez cette option, XLSTAT ne tiendra pas
compte des proximits correspondant des donnes manquantes pour la minimisation du
stress.

Onglet Sorties :
Distances : activez cette option pour afficher la matrice des distances euclidiennes
correspondant la configuration optimale.
Disparits : activez cette option pour afficher la matrice des disparits correspondant la
configuration optimale.
Distances rsiduelles : activez cette option pour afficher la matrice des distances rsiduelles
correspondant la diffrence entre la matrice des distances et la matrice des disparits.
188

Onglet Graphiques :
Evolution du stress : activez cette option pour afficher le graphique dvolution du stress en
fonction du nombre de dimensions de la configuration.
Configuration : activez cette option pour afficher le graphique de reprsentation de la
configuration. Ce graphique nest affich que pour la configuration dans un espace de
dimension 2 si ce dernier est calcul.
- Etiquettes : activez cette option pour afficher les tiquettes des objets.
couleur que les points.
- Diagramme de Shepard : activez cette option pour afficher le diagramme de Shepard.

Rsultats
Stress aprs minimisation : ce tableau permet de visualiser pour les dimensions tudies le
stress final obtenu, le nombre ditrations ncessaire et le niveau de convergence atteint.
Dans le cas o plusieurs dimensions sont tudies, un graphique dvolution du stress en
fonction du nombre de dimensions est affich.
Les rsultats qui suivent sont affichs pour chacune des dimensions tudies.
Configuration : dans ce tableau sont affiches les coordonnes des objets dans lespace de
reprsentation. Si lespace est deux dimensions, une reprsentation graphique de la
configuration est fournie. Si vous disposez de loutil XLSTAT-3DPlot, vous pouvez aussi
visualiser une configuration en trois dimensions.
Distances mesures dans l'espace de reprsentation : ce tableau correspond aux
distances entre les objets dans lespace de reprsentation.
Disparits calcules d'aprs le modle : ce tableau fournit les disparits calcules partir
du modle choisi (absolu, intervalle, ).
Distances rsiduelles : ces distances sont la diffrence entre les dissimilarits de la matrice
initiale, et les distances mesures dans lespace de reprsentation.
Tableau de comparaison : ce tableau permet de comparer les dissimilarits, les disparits et
les distances, ainsi que les rangs de ces trois mesures pour lensemble des combinaisons
deux deux dobjets.
189
Diagramme de Shepard : ce graphique permet de comparer les disparits et les distances
aux dissimilarits. Dans le cas dun modle mtrique, la reprsentation est dautant meilleure
que les points sont confondus avec la premire bissectrice du plan. Dans le cas dun modle
non mtrique, le modle est dautant meilleur que la ligne des dissimilarits/disparits crot
rgulirement. Par ailleurs la performance du modle peut-tre value en observant si les
points (dissimilarit/distance) sont proches des points (dissimilarit/disparit).

Exemple
Un exemple dutilisation de Multidimensional Scaling est disponible sur le site de Addinsoft
ladresse suivante :
http://www.xlstat.com/demo-mdsf.htm

Bibliographie
Borg I. and Groenen P. (1997). Modern Multidimensional Scaling. Theory and applications.
Springer Verlag, New York.
Cox T.C. and Cox M.A.A. (2001). Multidimensional Scaling (2nd edition). Chapman and Hall,
New York.
De Leeuw J. (1977). Applications of Convex Analysis to Multidimensional Scaling, in J.R.
Barra a.o. (eds.), Recent Developments in Statistics. North Holland Publishing Company,
Amsterdam. 133-146.
Heiser W.J. (1991). A general majorization method for least squares multidimensional scaling
of pseudodistances that may be negative. Psychometrika, 56(1), 7-27.
Kruskal J.B., Wish M. (1978). Multidimensional Scaling. Sage Publications, London.
Takane Y., Young F. W. and DeLeeuw J. (1977). Nonmetric individual differences
multidimensional scaling: an alternating least squares method with optimal scaling features.
Psychometrika, 42, 7-67.

190
Classification k-means
Utilisez la classification k-means pour constituer des groupes homognes d'objets (classes)
sur la base de leur description par un ensemble de variables quantitatives.

Description
La classification k-means a t introduite par MacQueen en 1967. Dautres algorithmes
similaires ont t dvelopps par Forgey (1965) (centres mobiles) et Friedman (1967).
La classification k-means prsente notamment les avantages suivants :
- Un objet peut tre affect une classe au cours dune itration puis changer de classe
litration suivante, ce qui nest pas possible avec la classification ascendante hirarchique
pour laquelle une affectation est irrversible.
- En multipliant les points de dpart et les rptitions on peut explorer plusieurs solutions
possibles.
Linconvnient de cette mthode est quelle ne permet pas de dcouvrir quel peut tre un
nombre cohrent de classes, ni de visualiser la proximit entre les classes ou les objets.
Les mthodes k-means et CAH sont donc complmentaires.
Remarque : dans le cas o vous souhaiteriez prendre en compte des variables qualitatives
pour la classification, il est ncessaire d'effectuer au pralable une analyse des
correspondances multiples (ACM) et de considrer les coordonnes des individus sur les axes
factoriels obtenus comme de nouvelles variables.

Principe de la mthode k-means
La classification k-means est une mthode itrative qui, quelque soit son point de dpart
converge vers une solution. La solution obtenue nest pas ncessairement la mme quelque
soit le point de dpart. Pour cette raison, on rpte en gnral plusieurs fois les calculs pour
ne retenir que la solution la plus optimale pour le critre choisi.
Pour la premire itration on choisit un point de dpart qui consiste associer le centre des k
classes k objets (pris au hasard ou non). On calcule ensuite la distance entre les objets et
les k centres et on affecte les objets aux centres dont ils sont les plus proches. Puis on
redfinit les centres partir des objets qui ont t affects aux diffrentes classes. Puis on
raffecte les objets en fonction de leur distance aux nouveaux centres. Et ainsi de suite
jusqu ce que la convergence soit atteinte.

191
Critres de classification
Plusieurs critres de classification peuvent tre utiliss pour parvenir une solution. XLSTAT
propose quatre critres minimiser.
Trace(W) : la trace de W, matrice dinertie intra-classe commune (pooled SSPC matrix) est le
critre le plus classique. Minimiser la trace de W pour un nombre de classes donn, revient
minimiser la variance intra-classe totale, autrement minimiser lhtrognit des groupes.
Ce critre est sensible aux effets dchelle. Si on ne veut pas donner plus de poids certaines
variables plutt qu dautres, on doit pralablement normaliser les donnes. Par ailleurs, ce
critre tend produire des classes de mme taille.
Dterminant(W) : le dterminant de W, matrice de covariance intra-classe commune (pooled
within covariance matrix) est un critre nettement moins sensible aux effets dchelle que le
critre trace(W). Par ailleurs, la taille des groupes peut tre moins homogne quavec le critre
de la trace.
Wilks lambda : les rsultats donns par la minimisation de ce critre sont identiques ceux
donns par le dterminant de W. Le critre du lambda de Wilks correspond la division du
dterminant(W) par le dterminant(T) o T est la matrice dinertie totale. La division par le
dterminant de T permet davoir un critre toujours compris entre 0 et 1.
Trace(W) / Mdiane : si lon choisit ce critre, le barycentre dune classe nest pas le point
moyen de la classe, mais le point mdian qui correspond un objet de la classe. Lutilisation
de ce critre entrane des calculs plus longs.

Bote de dialogue

calculs.
192

Onglet Gnral :
Poids des colonnes : activez cette option si vous voulez pondrer les colonnes. Si vous
Critre de classification : choisissez le critre de classification (voir la section description
pour plus de dtails).

actif.

contient un libell.

Nombre de classes : entrez le nombre de classes qui doivent tre cres par lalgorithme.

193
Onglet Options :
Regrouper les lignes : activez cette option si vous voulez crer des classes dobjets
correspondant aux lignes et dcrits par les donnes correspondant aux colonnes.
Regrouper les colonnes : activez cette option si vous voulez crer des classes dobjets
correspondant aux colonnes et dcrits par les donnes correspondant aux lignes.

Centrer : activez cette option si vous voulez centrer les donnes avant de commencer les
calculs.
Rduire : activez cette option si vous voulez rduire les donnes avant de commencer les
calculs.
Vous pouvez ensuite choisir si la transformation doit tre applique aux lignes ou aux
colonnes.

Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme k-means. Les
calculs sont interrompus ds que le nombre maximal d'itrations est dpass. Valeur
par dfaut : 500.
- Convergence : entrez la valeur minimale dvolution du critre choisi dune itration
lautre, qui une fois atteinte permet de considrer que lalgorithme a converg. Valeur
par dfaut : 0,00001.

Partition de dpart : utilisez ces options pour choisir la manire dont est dtermine la
partition initiale, autrement dit, la faon dont sont affects les objets aux classes pour la
premire itration de lalgorithme de classification.
- N classes daprs lordre : les objets sont affects aux classes en fonction de leur
ordre.
- Alatoire : les objets sont affects aux classes de manire alatoire.
- Dfinie par lutilisateur : les objets sont affects aux classes suivant une variable
indicatrice dfinie par lutilisateur. Lutilisateur doit dans ce cas slectionner une
variable indicatrice en colonne contenant autant de lignes que dobjets (avec
ventuellement un en-tte), et les classes doivent tre dfinies par des valeurs de 1 k,
o k est le nombre de classes. Si l'option Libells des colonnes est active, la
premire cellule de la slection doit comprendre un en-tte.
194
- Dfinie par les centres : lutilisateur doit slectionner les k centres correspondant aux
k classes. Le nombre de lignes doit tre gal au nombre de classes et le nombre de
colonnes au nombre de colonnes du tableau des donnes. Si l'option Libells des
colonnes est active, la premire cellule de la slection doit comprendre un en-tte.


Onglet Sorties :
Rsultats dans lespace dorigine : activez cette option pour afficher les rsultats dans
lespace dorigine. Si les options centrer/rduire sont actives, et que cette option nest pas
active, les rsultats sont fournis dans lespace centr/rduit.
Bilan de loptimisation : activez cette option pour la synthse de loptimisation.

195
Onglet Graphiques :
Evolution du critre : activez cette option pour le graphique dvolution du critre choisi.

Rsultats
Statistiques simples : dans ce tableau sont affichs pour tous les descripteurs des objets, le
Bilan de l'optimisation : dans ce tableau est affiche lvolution de la variance intra-classe. Si
plusieurs rptitions ont t demandes, les rsultats sont affichs pour chaque rptition.
Statistiques pour chaque itration : activez cette option pour lvolution des diverses
statistiques calcules au fur et mesure des itrations de la rptition ayant donn le rsultat
optimal pour le critre choisi. Si loption correspondante est active dans longlet Graphiques,
un graphique prsentant lvolution du critre choisi au fur et mesure des itrations est
affich.
Remarque : si les donnes sont centres/rduites (option de longlet Options) les rsultats
pour le bilan de loptimisation et les statistiques pour chaque itration sont calculs dans
lespace centr-rduit. En revanche, les rsultats qui suivent sont affichs dans lespace
dorigine si loption Rsultats dans lespace dorigine est active.
Dcomposition de la variance pour la classification optimale : dans ce tableau sont
affiches la variance intra-classe, la variance inter-classe et la variance totale.
Objets centraux : dans ce tableau sont affiches, pour chaque classe, les coordonnes de

196

Exemple
Un exemple de classification k-means est disponible sur le site Internet d'Addinsoft l'adresse
suivante :
http://www.xlstat.com/demo-cluster2f.htm

Bibliographie
Singapore.
Forgey E. (1965). Cluster analysis of multivariate data: efficiency versus interpretability of
classication. Biometrics, 21, 768.
Friedman H.P. and Rubin J. (1967). On some invariant criteria for grouping data. Journal of
Multivariate Methods. Springer-Verlag, New York, 483-568.
MacQueen J. (1967). Some method for classication and analysis of multivariate observations.
In: Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,
281-297.
Saporta G. (1990). Probabilits, Analyse des Donnes et Statistique. Technip, Paris, 251-260.

197
Classification Ascendante Hirarchique (CAH)
Utilisez la classification ascendante hirarchique pour constituer des groupes homognes
d'objets (classes) sur la base de leur description par un ensemble de variables, ou partir
dune matrice dcrivant la similarit ou la dissimilarit entre les objets.

Description
La classification ascendante hirarchique (CAH) est une mthode de classification qui
prsente les avantages suivants :
- on travaille partir des dissimilarits entre les objets que lon veut regrouper. On peut
donc choisir un type de dissimilarit adapt au sujet tudi et la nature des donnes.
- Lun des rsultats est le dendrogramme, qui permet de visualiser le regroupement
progressif des donnes. On peut alors se faire une ide dun nombre adquat de classes
dans lesquelles les donnes peuvent tre regroupes.
Linconvnient de cette mthode est quelle est lente. Par ailleurs, le dendrogramme peut
devenir illisible si on lutilise avec trop de donnes.

Principe de la CAH
La classification ascendante hirarchique (CAH) est une mthode de classification itrative
dont le principe est simple.
On commence par calculer la dissimilarit entre les N objets. Puis on regroupe les deux objets
dont le regroupement minimise un critre dagrgation donn, crant ainsi une classe
comprenant ces deux objets. On calcule ensuite la dissimilarit entre cette classe et les N-2
autres objets en utilisant le critre dagrgation. Puis on regroupe les deux objets ou classes
dobjets dont le regroupement minimise le critre dagrgation. On continue ainsi jusqu ce
que tous les objets soient regroups.
Ces regroupements successifs produisent un arbre binaire de classification (dendrogramme),
dont la racine correspond la classe regroupant l'ensemble des individus. Ce dendrogramme
reprsente une hirarchie de partitions.
On peut alors choisir une partition en tronquant larbre un niveau donn, le niveau dpendant
soit des contraintes de lutilisateur (lutilisateur sait combien de classes il veut obtenir), soit de
critres plus objectifs.

Similarits et dissimilarits
198
La mesure de la proximit entre deux objets peut se faire en mesurant quel point ils sont
semblables (similarit) ou dissemblables (similarit). Si lutilisateur choisit une similarit,
XLSTAT la convertira ensuite en dissimilarit, car lalgorithme de la CAH utilise les
dissimilarits. La conversion pour chaque couple dobjets consiste prendre la similarit
maximale pour lensemble des couples, et de lui soustraire ensuite la similarit du couple en
question.
Les indices de similarit proposs sont les suivants : Cooccurrence, Cosinus, Covariance (n-
1), Covariance (n), Indice de Dice, Inertie, Indice de Jaccard, Coefficient de corrlation de
Kendall, Indice de Kulczinski, Indice dOchiai, Coefficient de corrlation de Pearson, Phi de
Pearson, Similarit gnrale, Indice de Rogers & Tanimoto, Indice de Sokal & Michener,
Indice de Sokal & Sneath(1), Indice de Sokal & Sneath(2), Coefficient de corrlation de
Spearman.
Les indices de dissimilarit proposs sont les suivants : Distance de Bhattacharya, Distance
de Bray et Curtis, Distance de Canberra, Distance de Chebychev, Distance du Khi, Mtrique
du Khi, Distance de la corde, Distance de la corde au carr, Indice de Dice, Distance
euclidienne, Distance godsique, Indice de Jaccard, Dissimilarit de Kendall, Indice de
Kulczinski, Distance de Mahalanobis, Distance de Manhattan, Indice dOchiai, Dissimilarit de
Pearson, Phi de Pearson, Dissimilarit gnrale, Indice de Rogers & Tanimoto, Indice de
Sokal & Michener, Indice de Sokal & Sneath(1), Indice de Sokal & Sneath(2), Dissimilarit de
Spearman.
Remarque : certains indices sont utiliss sur des donnes binaires (voir la section sur les
matrices de similarit/dissimilarit). Si vos donnes ne sont pas binaires, XLSTAT vous
propose de les transformer en affectant la valeur 1 toutes les valeurs non nulles.

Mthodes d'agrgation
Pour calculer la dissimilarit entre deux groupes d'objets A et B, diffrentes stratgies sont
possibles. XLSTAT propose les mthodes suivantes :
Lien simple : la dissimilarit entre A et B est la dissimilarit entre l'objet de A et l'objet de B les
plus ressemblants. L'agrgation par le lien simple a tendance contracter l'espace des
donnes et craser les niveaux des paliers du dendrogramme. Comme la dissimilarit entre
deux lments de A et de B suffit relier A et B, ce critre peut conduire relier des classes
trs allonges (effet de chanage) alors quelles ne sont pas homognes.
Lien complet : la dissimilarit entre A et B est la plus grande dissimilarit entre un objet de A
et un objet de B. L'agrgation par le lien complet a tendance dilater l'espace des donnes et
produit des classes compactes.
Lien moyen : la dissimilarit entre A et B est la moyenne des dissimilarits entre les objets de
A et les objets de B. L'agrgation selon le lien moyen est un bon compromis entre les critres
prcdents et respecte assez bien les proprits de l'espace des donnes.
199
Lien proportionnel : la dissimilarit moyenne entre les objets de A et de B est calcule
comme une somme de dissimilarits pondre de telle sorte qu'un poids gal soit attribu aux
deux groupes. Comme le lien moyen, ce critre respecte assez bien les proprits de l'espace
des donnes.
Lien flexible : ce critre fait intervenir un paramtre bta variant dans l'intervalle [-1,+1[ qui
permet de gnrer une famille de critres d'agrgation. Pour bta = 0 on retrouve le lien
proportionnel. Quand bta est proche de 1, on obtient un fort effet de chanage, mais mesure
que bta dcrot et devient ngatif, on obtient une dilatation de plus en plus forte.
Mthode de Ward : on agrge deux groupes de sorte que l'augmentation de l'inertie intra-
classe soit la plus petite possible, afin que les classes restent homognes. Ce critre, propos
notamment par Ward (1963), ne peut s'utiliser que dans le cas des distances quadratiques,
c'est--dire ici, dans le cas de la distance euclidienne et de la distance du khi.

Bote de dialogue

calculs.

Onglet Gnral :
types de tableaux :
Tableau observations/variables / Matrice de proximit : choisissez loption qui correspond
au format de vos donnes, puis slectionnez les donnes. Dans le cas de loption Tableau
observations/variables, slectionnez un tableau comprenant N objets dcrits par P
200
descripteurs quantitatifs. Dans le cas dune matrice de proximit slectionnez une matrice
carre donnant les proximits entre les objets. Si des en-ttes de colonnes ont t
slectionns, veuillez vrifier que loption Libells des colonnes est active. Dans le cas
dune matrice de proximit, si les libells des colonnes sont slectionns, ceux des lignes
doivent ltre aussi.
Type de proximit : similarits / dissimilarits : choisissez le type de proximit utiliser. Le
type de donnes et le type de proximit dterminent la liste des indices possibles pour le
calcul de la matrice de proximit.
Mthode dagrgation : choisissez la mthode dagrgation (voir la section description pour
plus de dtails).

actif.

contient un libell. Dans le cas o la slection est une matrice de proximit, si cette option est
active, la premire colonne doit aussi comprendre le libell des objets.
Poids des colonnes : activez cette option si vous voulez pondrer les colonnes. Si vous

Onglet Options :
201
Regrouper les lignes : activez cette option si vous voulez crer des classes dobjets
correspondant aux lignes et dcrits par les donnes correspondant aux colonnes.
Regrouper les colonnes : activez cette option si vous voulez crer des classes dobjets
correspondant aux colonnes et dcrits par les donnes correspondant aux lignes.

Centrer : activez cette option si vous voulez centrer les donnes avant de commencer les
calculs.
Rduire : activez cette option si vous voulez rduire les donnes avant de commencer les
calculs.
Vous pouvez ensuite choisir si la transformation doit tre applique aux lignes ou aux
colonnes.

Troncature : activez cette option si vous voulez que XLSTAT dfinisse automatiquement une
troncature, et donc le nombre de classes retenir, ou si vous voulez dfinir vous-mme le
nombre de classes crer, ou le niveau auquel le dendrogramme doit tre tronqu.


Onglet Sorties :
Matrice de proximit : activez cette option pour afficher la matrice de proximit.
202
Statistiques des nuds : activez cette option pour afficher les statistiques des nuds du
dendrogramme.

Onglet Graphiques :
Diagramme des niveaux : activez cette option pour afficher le diagramme des niveaux
permettant dobserver limpact des regroupements successifs.
Dendrogramme : activez cette option pour afficher le dendrogramme.
- Horizontal : choisissez cette option pour afficher un dendrogramme horizontal.
- Vertical : choisissez cette option pour afficher un dendrogramme vertical.
- Complet : activez cette option pour afficher le dendrogramme complet (tous les objets
sont reprsents).
- Tronqu : activez cette option pour afficher le dendrogramme tronqu (le
dendrogramme commence au niveau de la troncature).
- Etiquettes : activez cette option pour afficher les libells des objets (dendrogramme
complet) ou des classes (dendrogramme tronqu) sur le dendrogramme.
- Couleurs : activez cette option pour utiliser des couleurs pour reprsenter les diffrents
groupes sur le dendrogramme complet.

Rsultats
Statistiques simples : dans ce tableau sont affichs pour tous les descripteurs des objets, le
203
Statistiques des nuds : dans ce tableau sont affiches les informations concernant les
nuds successifs du dendrogramme. Le premier nud a pour indice le nombre dobjets
augment de 1. Ainsi, il est ais de reprer quel moment un objet ou un groupe dobjets est
regroup avec un autre objet ou groupe dobjets au niveau dun nouveau nud dans le
dendrogramme.
Diagramme des niveaux : dans ce tableau sont affiches les statistiques des nuds du
dendrogramme.
Dendrogrammes : le dendrogramme complet permet de visualiser le regroupement progressif
des objets. Si une troncature a t demande, un trait en pointill marque le niveau auquel est
effectue la troncature. Le dendrogramme tronqu permet de visualiser les classes aprs la
troncature.

tableau. Les objets sont affichs dans la seconde partie.
Rsultats par objet : dans ce tableau est indique pour chaque objet sa classe daffectation

Exemple
Un exemple de Classification Ascendante Hirarchique est disponible sur le site Internet
d'Addinsoft l'adresse suivante :
http://www.xlstat.com/demo-clusterf.htm

204
Bibliographie
Singapore.
Everitt B.S., Landau S. and Leese M. (2001). Cluster analysis (4th edition). Arnold, London.
Multivariate Methods. Springer-Verlag, New York, 483-568.
Amsterdam.
Saporta G. (1990). Probabilits, Analyse des Donnes et Statistique. Technip, Paris, 251-260.
Ward J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of the
American Statistical Association, 58, 238-244.

205
Partitionnement univari
Utilisez le partitionnement univari pour regrouper de faon optimale des objets dans k classes
homognes, sur la base de leur description par une seule variable quantitative.

Description
Le partitionnement univari consiste regrouper N observations unidimensionnelles (dcrites
par une seule variable quantitative) dans k classes homognes.
Lhomognit est ici mesure au travers de la somme des variances intra-classe. Pour
maximiser lhomognit des classes, on cherche donc minimiser la somme des variances
intra-classe.
Lalgorithme utilis ici, trs rapide, sappuie sur la mthode propose par W.D. Fisher (1958).
Cette mthode peut tre vue comme une discrtisation dune variable quantitative en une
variable ordinale. Les applications sont trs nombreuses, avec par exemple des applications
en cartographie pour la cration dchelles de couleur ou en marketing pour la cration de
segments homognes.

Bote de dialogue

calculs.

206
Onglet Gnral :

Nombre de classes : entrez le nombre de classes qui doivent tre cres par lalgorithme.

actif.

contient un libell.

207

Onglet Sorties :

Rsultats
Statistiques simples : dans ce tableau sont affichs pour la variable slectionne, le nombre
dobservations, le nombre de donnes manquantes, le nombre de donnes non manquantes,
la moyenne, et lcart-type.

208

Bibliographie
Fisher W.D. (1958). On grouping for maximum homogeneity. Journal of the American

209
Ajustement d'une loi de probabilit
Utilisez ce module pour ajuster une loi de probabilit un chantillon de donnes quantitatives
continues ou discrtes.

Description
L'ajustement dune loi de distribution un chantillon de donnes consiste, une fois le type de
loi choisi, estimer les paramtres de la loi de telle sorte que lchantillon soit le plus
vraisemblable possible (au sens du maximum de vraisemblance) ou quau moins certaines
statistiques de lchantillon (moyenne, variance par exemple) correspondent le mieux possible
celles de la loi.

Lois de distribution
( )
( ) | |
1
1
1 ( ) ( )
( ) 1 , avec a,b>0, 0,1 et ( , )
, ( )
b
a
a b
f x x x x B a b
B a b a b
I I
= e =
I +

( ) | | | |
( ) 1 , avec n, N, n>0, 0, , 0,1
n x
x x
n
P X x C p p x x n p
= = e e e
( ) | |
1
1
( ) 1 , avec n, N, n>0, k n, 0,1
x
x n
n x
P X x C p p x p
+
= = e s e
obtenus n succs.
210
( )
( )( )
( ) , avec N, , >0
! 1
x
k x
k x p
P X x x k p
x k p
+
I +
= = e
I +

( )
( )
/ 2
/ 2 1 / 2 *
1/ 2
( ) , avec 0, N
/ 2
df
df x
f x x e x df
df

= > e
I

hypothses.
( )
1
( ) , avec 0 et , 0 et k N
1 !
x
k k
e
f x x x k
k
= > > e

dchelle | = 1/).
( ) ( ) exp , avec 0 et 0 f x x x = > >
On a E(X) = 1/ et V(X) = 1/
qualit.
211
- Fisher (df
1
, df
2
( )
1 2
/ 2 / 2
1 1
1 2 1 2 1 2
*
1 2
1
( ) 1 ,
/ 2, / 2
avec 0 et , N
df df
df x df x
f x
x df df
| | | |
=
| |
+ +
\ . \ .
> e

On a E(X) = df
2
/(df
2
-2) si df
2
>0, et V(X) = 2df
2
(df
1
+df
2
-2)/[df
1
(df
2
-2) (df
2
-4)]
1
x x
f x |
| | |
| | | |
= >
|
|
\ . \ .

( )
( )
( )
/
1
( ) , avec et , 0
x
k
k
e
f x x x k
k
|
|
|

= > >
I

On a E(X) = +k| et V(X) = k|
1/ 1 1/
1
( ) 1 exp 1 , avec 0
k k
x x
f x k k |
| | |
| |
| | | |
| = >
| |
|
\ . \ .
\ .

( ) ( ) ( ) ( )
2
2
On a E(X) = 1 et V(X) = 1 2 1 k k k
k k
| | | |
+ I + I + I +
|
\ .

( ) ( )
212
(0.5772156649).
( ) ( )
2
2
ln
2
1
( ) , avec , 0
2
x
f x e x
x
o
o
o t
= >
( )
2
2
2
1
( ) , avec 0
2
x
f x e
o
o
o t
= >
2
2
1
( )
2
x
f x e
t

=
On a E(X) = 0 et V(X) = 1
1
( ) , avec , 0 et
a
a
ab
f x a b x b
x
+
= > >
population.
213
( ) exp
( ) , avec N et 0
!
x
P X x x
x

= = e >
( ) ( )
( )
( )
( 1) / 2
2
1/ 2
( ) 1 / , avec 0
/ 2
df
df
f x x df df
df df t
+
I +
= + >
I

| |
1
b a
= > e

On a E(X) = (a+b)/2 et V(X) = (b-a)/12
calculer linverse.
( )
1
| |
| |
= > >
2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
| | | | | |
I + I + I +
| | |
\ . \ . \ .

214
1
( ) , avec 0, et , 0
x
x
f x e x
|
|
|
|

| |
|
\ .
| |
= > >
|
\ .

2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
I + I + I +
( | | |
\ . \ . \ .

1
( ) , avec , et , 0
x
x
f x e x
|
|
|
|

| |
|
\ .
| |
= > >
|
\ .

2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
+ I + I + I +
( | | |
\ . \ . \ .


Mthode dajustement
Deux mthodes dajustement sont proposes par XLSTAT :
- Moments : cette mthode simple utilise la dfinition des moments de la loi en fonction des
paramtres afin de dterminer ces derniers. Pour la plupart des lois, lutilisation de la
moyenne et de la variance est suffisante. Cependant, pour certaines lois la moyenne suffit
(par exemple, la loi de Poisson), ou, au contraire, le coefficient dasymtrie est aussi
ncessaire (loi de Weibull par exemple).
- Vraisemblance : les paramtres de la loi sont estims en maximisant la vraisemblance de
lchantillon. Cette mthode, plus complexe, prsente lavantage dtre rigoureuse pour
toutes les lois, et de permettre dobtenir des cart-types approximatifs pour les estimateurs
des paramtres. La mthode du maximum de vraisemblance est propose pour la loi
binomiale ngative de type II, la loi de Fisher-Tippett, la loi GEV et la loi de Weibull.
Pour certaines lois, la mthode des moments donne exactement le mme rsultat que celle du
maximum de vraisemblance. Cest notamment le cas pour la loi normale.

215
Tests dajustement
Une fois que les paramtres de la loi choisie sont dtermins, pour vrifier si le phnomne
observ au travers de lchantillon suit la loi en question, il est ncessaire de tester
lhypothse. Deux tests dajustement sont proposs par XLSTAT.
Le test dajustement du Khi est un test paramtrique utilisant la distance (au sens du Khi)
entre lhistogramme de la distribution thorique (dtermine par les paramtres estims) et
lhistogramme de la distribution empirique de lchantillon. Les histogrammes sont calculs en
utilisant k intervalles choisis par lutilisateur. On montre que la statistique calcule suit
asymptotiquement une loi du Khi (n-k) degrs de libert, o n est leffectif de lchantillon.
Ce test est plutt recommand pour les distributions discrtes, et il est conseill de veiller ce
que leffectif espr de chacune des classes ne soit pas infrieur 5.
Il peut arriver que le test du Khi amne conclure un mauvais ajustement de la distribution
aux donnes avec une classe contribuant beaucoup plus au Khi que les autres. Dans un tel
cas, la runion de la classe en question avec une classe voisine permet de vrifier si la
conclusion est uniquement due la classe en question, ou si lajustement est rellement
mauvais.
Le test dajustement de Kolmogorov-Smirnov est un test non paramtrique exact bas sur
la distance maximale entre une fonction de rpartition thorique (entirement dtermine par
les valeurs connues de ses paramtres) et la fonction de rpartition empirique de lchantillon.
Ce test nest utilisable que pour les distributions continues.
Dans le cas o une estimation des paramtres prcde le test dajustement, le test de
Kolmogorov-Smirnov nest pas correct, puisque les paramtres sont estims en essayant de
rapprocher la distribution thorique le plus possible des donnes. Le test de Kolmogorov-
Smirnov, sil valide lhypothse de bon ajustement, risque dtre optimiste.
Pour le cas o la loi utilise est la loi normale, Lilliefors et Stephens (voir tests de normalit)
ont propos un test de Kolmogorov-Smirnov modifi qui permet lestimation des paramtres
sur lchantillon test.

Bote de dialogue

216
calculs.

Onglet Gnral :
Donnes : slectionnez les donnes correspondant lchantillon de donnes pour lequel le
test dajustement doit tre calcul. Vous pouvez slectionner plusieurs colonnes (mode
colonnes) ou lignes (mode lignes) si vous voulez effectuer les tests sur plusieurs chantillons
en une seule fois.
Distribution : choisissez la loi de probabilit qui doit tre utilise pour lajustement et/ou les
tests dajustement. Voir la partie description pour plus dinformation sur les lois proposes.
Paramtres : vous pouvez choisir dentrer les paramtres de la loi, ou de les estimer. Si vous
choisissez dentrer les paramtres, vous devez entrer la valeur des paramtres.

actif.

Libells des chantillons : activez cette option si les libells des chantillons sont sur la
premire ligne (mode colonnes) ou dans la premire colonne (mode lignes) des donnes
slectionnes.
217
- Standardiser les poids : si vous activez cette option, les poids sont standardiss de

Onglet Options :
Tests : choisissez le type de tests dajustement (voir la section description pour plus de dtails
sur les tests).
- Kolmogorov-Smirnov : activez cette option pour effectuer un test de Kolmogorov-
Smirnov.
- Khi : activez cette option pour effectuer un test du Khi.

Mthode destimation : choisissez la mthode destimation des paramtres de la distribution
choisie (voir la section description pour plus de dtails sur les mthodes destimation)
- Moments : activez cette option pour utiliser la mthode des moments.
- Maximum de vraisemblance : activez cette option pour utiliser la mthode du
maximum de vraisemblance. Vous pouvez alors modifier la valeur limite de
convergence qui, une fois atteinte, permet de considrer que lalgorithme a converg.
Valeur par dfaut : 0,00001.

Intervalles : dans le cas dun test du Khi ou si vous souhaitez comparer la fonction de densit
de la loi choisie lhistogramme de lchantillon, vous devez choisir lune des options
suivantes :
- Nombre : choisissez cette option pour entrer le nombre dintervalles crer.
- Amplitude : choisissez cette option pour dfinir une amplitude fixe pour les intervalles.
- Dfinis par lutilisateur : slectionnez une colonne contenant en ordre croissant la
borne infrieure du premier intervalle, et la borne suprieure de tous les intervalles.
- Minimum : activez cette option pour entrer la valeur de la borne infrieure du premier
intervalle. Cette valeur doit tre infrieure ou gale au minimum de la srie.

218
slectionns.

Onglet Sorties :
les chantillons slectionns.

Onglet Graphiques :
chaque intervalle.
ligne continue.
Fonction de rpartition empirique : activez cette option pour afficher les histogrammes
cumuls des chantillons. Pour la distribution thorique, la fonction de rpartition est affiche.

Rsultats
Statistiques descriptives : dans le tableau des statistiques descriptives sont affichs pour
tous les chantillons slectionns, le nombre dobservations, le nombre de donnes
manquantes, le nombre de donnes non manquantes, la moyenne, et lcart-type.
219
Paramtres estims : dans ce tableau sont affichs les paramtres de la loi.
Statistiques estimes partir des donnes et calcules partir des estimateurs des
paramtres de la loi : ce tableau permet de comparer la moyenne, la variance, le coefficient
dasymtrie et le coefficient daplatissement calculs partir de lchantillon ceux calculs
partir des valeurs des paramtres de la loi.
Test de Kolmogorov-Smirnov : les rsultats du test de Kolmogorov-Smirnov sont affichs si
loption correspondante a t active.
Test du khi : les rsultats du test du Khi sont affichs si loption correspondante a t
active.
Comparaison entre les effectifs observs et thoriques : ce tableau est affich si un test
du Khi a t demand.
Statistiques descriptives pour les intervalles : ce tableau est affich si des histogrammes
ont t demands. Il permet de visualiser les effectifs et les frquences pour chaque intervalle,
ainsi que les densits pour lchantillon et la distribution choisie.

Exemple
Un exemple d'ajustement d'une loi de probabilit est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-dfitf.htm

Bibliographie
El-Shaarawi A.H., Esterby E.S. and Dutka B.J (1981). Bacterial density in water determined
by Poisson or negative binomial distributions. Applied an Environmental Microbiology, 41(1).
107-116.
Fisher R.A. and Tippett H.C. (1928). Limiting forms of the frequency distribution of the
smallest and largest member of a sample. Proc. Cambridge Phil. Soc., 24, 180-190.
Gumbel E.J. (1941). Probability interpretation of the observed return periods of floods. Trans.
Am. Geophys. Union, 21, 836-850.
220
Jenkinson A. F. (1955). The frequency distribution of the annual maximum (or minimum) of
meteorological elements. Q. J. R. Meteorol. Soc., 81, 158-171.
Perreault L. and Bobe B. (1992). Loi gnralise des valeurs extrmes. Proprits
mathmatiques et statistiques. Estimation des paramtres et des quantiles XT de priode de
retour T. INRS-Eau, rapport de recherche no 350, Qubec.
Weibull W. (1939). A statistical theory of the strength of material. Proc. Roy. Swedish Inst.
Eng. Res. 151(1), 1-45.

221
Rgression linaire
Utilisez ce module pour crer un modle de rgression linaire simple ou multiple dans un but
explicatif ou prdictif.

Description
La rgression linaire est sans aucun doute la mthode statistique la plus utilise. On
distingue habituellement la rgression simple (une seule variable explicative) de la rgression
multiple (plusieurs variables explicatives) bien que le cadre conceptuel et les mthodes de
calculs soient identiques.
Le principe de la rgression linaire est de modliser une variable dpendante quantitative Y,
au travers dune combinaison linaire de p variables explicatives quantitatives, X1, X2, , Xp.
Le modle dterministe (ne prenant pas en compte dala) scrit pour une observation i,
0
1
p
i j ij i
j
y x | | c
=
= + +
(1)
o y
i
est la valeur observe pour la variable dpendante pour lobservation i, x
ij
est la valeur
prise par la variable j pour lobservation i, et c
i
est lerreur du modle.
Le cadre statistique et les hypothses qui laccompagnent ne sont pas ncessaires pour
ajuster ce modle. Par ailleurs la minimisation par la mthode des moindres carrs (on
minimise la somme des erreurs quadratiques c
i
) fournit une solution analytique exacte.
Nanmoins si lon veut pouvoir tester des hypothses et mesurer le pouvoir explicatif des
diffrentes variables explicatives dans le modle, un cadre statistique est ncessaire.
Les hypothses de la rgression linaire sont les suivantes : les erreurs c
i
suivent une mme
loi normale N(0,o) et sont indpendantes.
Lcriture du modle complte par cette hypothse a pour consquence que, dans le cadre
du modle de rgression linaire, les y
i
sont des ralisations de variables alatoires de
moyenne
i
et de variance o, avec
0
1
p
i j ij
j
i
x | |
=
= +

Si lon souhaite utiliser les diffrents tests proposs dans les rsultats de la rgression linaire
il est recommand de vrifier a posteriori que les hypothses sous-jacentes sont bien
vrifies. La normalit des rsidus peut tre vrifie en analysant certains graphiques ou en
utilisant un test de normalit. Lindpendance des rsidus peut tre vrifie en analysant
certains graphiques ou en utilisant le test de Durbin Watson.
222

Bote de dialogue

calculs.

Onglet Gnral :
Quantitatives : slectionnez la ou les variables rponse que vous souhaitez modliser. Si

Quantitatives : slectionnez la ou les variables qualitatives explicatives sur la feuille Excel.
Les donnes slectionnes doivent tre de type numrique. Si le libell des variables a t
slectionn, veuillez vrifier que loption Libells des variables est active.
223
explicatives qualitatives dans le modle. Dans ce cas, vous ne ferez plus de la rgression
linaire, mais de lANCOVA. Slectionnez alors la ou les variables correspondantes sur la
feuille Excel. Les donnes slectionnes peuvent tre de tout type, mais les donnes
numriques sont automatiquement considres comme nominales. Si le libell des variables a
t slectionn, veuillez vrifier que loption Libells des variables est active.

actif.

vous nactivez pas cette option, les poids seront tous considrs comme valant 1. Les poids
doivent tre imprativement suprieurs ou gaux 0. Un poids de 2 est quivalent rpter
deux fois la mme observation. Si un en-tte de colonne a t slectionn, veuillez vrifier que
Poids dans la rgression : activez cette option si vous voulez effectuer une rgression par
les moindres carrs pondrs. Si vous nactivez pas cette option, les poids seront tous
considrs comme valant 1. Les poids doivent tre imprativement suprieurs ou gaux 0.
Si un en-tte de colonne a t slectionn, veuillez vrifier que loption Libells des

Onglet Options :
Constante fixe : activez cette option pour fixer la constante du modle de rgression une
valeur que vous devez ensuite saisir (0 par dfaut).
Tolrance : activez cette option pour permettre lalgorithme de calcul de la rgression OLS
ne pas prendre en compte les variables qui seraient soit constantes soit trop corrles avec
dautres variables dj utilises dans le modle (0.0001 par dfaut).
224

Interactions / Niveau : activez cette option pour inclure des interactions dans le modle puis
entrez le niveau maximum d'interaction (valeur comprise entre 1 et 4).
Intervalle de confiance (%) : entrez ltendue en pourcentage de lintervalle de confiance
utiliser pour les diffrents tests, et pour le calcul des intervalles de confiance autour des
paramtres et des prdictions. Valeur par dfaut : 95.

- Meilleur modle : cette mthode permet de choisir le meilleur modle parmi tous les
modles comprenant un nombre de variables variant de Min variables Max
variables . Par ailleurs le critre pour dterminer le meilleur modle peut tre
choisi par lutilisateur.
o Critre : veuillez choisir le critre parmi la liste suivante : R ajust, Moyenne
des Carrs des Erreurs (MCE), Cp de Mallows, AIC de Akaike, SBC de
Schwarz, PC dAmemiya.
o Min variables : entrez le nombre minimum de variables prendre en compte
dans le modle.
o Max variables : entrez le nombre maximum de variables prendre en compte
dans le modle.
Remarque : cette mthode peut entraner des calculs longs car le nombre total de
modles explors est la somme des Cn,k pour k variant entre Min variables et
Max variables , o Cn,k vaut n!/[(n-k)!k !]. Il est donc conseill daugmenter
progressivement la valeur de Max variables .
- Stepwise : le processus de slection commence par lajout de la variable ayant la plus
forte contribution au modle (le critre utilis est la statistique t de Student). Si une
seconde variable est telle que la probabilit associe son t est infrieure la
Probabilit pour lentre , elle est ajoute au modle. De mme pour une troisime
variable. A partir de lajout de la troisime variable, aprs chaque ajout, on value pour
toutes les variables prsentes dans le modle quel serait limpact de son retrait
(toujours au travers de la statistique t). Si la probabilit est suprieure la Probabilit
pour le retrait , la variable est retire. La procdure se poursuit jusqu ce que plus
aucune variable ne puisse tre ajoute/retire.
225

Onglet Validation :

Onglet Prdiction :

226

Onglet Sorties :
Corrlations : activez cette option pour afficher la matrice de corrlation pour les variables
quantitatives (dpendantes et explicatives).
Analyse de la variance : activez cette option pour afficher le tableau danalyse de la
variance.
Type I SS : activez cette option pour afficher le tableau de lanalyse de la variance de Type I
(Type I Sum of Squares).
Type III SS : activez cette option pour afficher le tableau de lanalyse de la variance de Type III
(Type III Sum of Squares).
Press : activez cette option pour calculer et afficher le coefficient de Press.
Coefficients normaliss : activez cette option pour afficher les paramtres normaliss du
modle (coefficients bta).
Prdictions et rsidus : activez cette option pour afficher les prdictions et les rsidus pour
lensemble des observations.
- Prdictions ajustes : activez cette option pour calculer et afficher les prdictions
ajustes dans le tableau des prdictions et rsidus.
- D de Cook : activez cette option pour calculer et afficher les distances de Cook dans le
tableau des prdictions et rsidus.

Onglet Graphiques :
227
Options communes :
Graphiques de rgression : activez cette option pour afficher les graphiques de rgression :
- Coefficients normaliss : activez cette option pour afficher sur un graphique les
paramtres normaliss du modle avec leur intervalle de confiance.
- Prdictions et rsidus : activez cette option pour afficher les graphiques suivants :
(1) Droite de rgression : ce graphique nest affich que sil ny a quune seule
variable explicative, et que cette variable est quantitative.
(2) Variable explicative versus rsidus normaliss : ce graphique nest affich que
sil ny a quune seule variable explicative, et que cette variable est quantitative.
(3) Variable dpendante versus rsidus normaliss.
(4) Prdictions pour la variable dpendante versus variable dpendante.
(5) Graphique en btons des rsidus normaliss.
Intervalles de confiance : activez cette option pour afficher les intervalles de confiance sur les
graphiques (1) et (4).

Rsultats
Statistiques descriptives : les tableaux de statistiques descriptives prsentent pour toutes
les variables slectionnes des statistiques simples. Pour les variables dpendantes (en bleu)
et les variables explicatives quantitatives, sont affichs le nombre dobservations, le nombre
de donnes manquantes, le nombre de donnes non manquantes, la moyenne, et lcart-type
(non biais). Pour les variables explicatives qualitatives sont affichs le nom des diffrentes
modalits ainsi que leur frquence respective.
Matrice de corrlation : ce tableau est affich afin de vous permettre davoir un aperu des
corrlations entre les diffrentes variables slectionnes.
choisie, XLSTAT affiche la synthse de la slection. Dans le cas dune slection pas pas, les
statistiques correspondant aux diffrentes tapes sont affiches. Dans le cas dune slection
du meilleur modle pour un nombre de variables variant de p q, le meilleur modle pour
chaque nombre de variable est affich avec les statistiques correspondantes ; le meilleur
modle pour le critre choisi est alors affich en gras.
Coefficients dajustement : dans ce tableau sont affiches les statistiques relatives
lajustement du modle de rgression :
- Observations : le nombre dobservations prises en compte dans les calculs. Dans les
formules prsentes ci-dessous n dsigne le nombre dobservations.
228
- Somme des poids : la somme des poids des observations prises en compte dans les
calculs. Dans les formules prsentes ci-dessous W dsigne la somme des poids.
- DDL : le nombre de degrs de libert pour le modle retenu (correspondant la partie
erreurs).
- R : le coefficient de dtermination du modle. Ce coefficient, dont la valeur est
comprise entre 0 et 1, nest affich que si la constante du modle nest pas fixe par
lutilisateur. Sa valeur est dfinie par
( )
2
1
2
1
R 1
( )
n
i i i
i
n
i i
i
w y y
w y y
=
=
, avec
1
1
n
i i
i
y w y
n
=
=

- Le R sinterprte comme la proportion de la variabilit de la variable dpendante
explique par le modle. Plus le R est proche de 1, meilleur est le modle.
Linconvnient du R est quil ne prend pas en compte le nombre de variables utilises
pour ajuster le modle.
- R ajust : le coefficient de dtermination ajust du modle. Le R ajust peut tre
ngatif si le R est voisin de zro. Ce coefficient nest affich que si la constante du
modle nest pas fixe par lutilisateur. Sa valeur est dfinie par
( )
1
R 1 1
1
W
R
W p
=

Le R ajust est une correction du R qui permet de prendre en compte le nombre de
variables utilises dans le modle.
- MCE : la moyenne des carrs des erreurs (MCE) est dfinie par :
( )
2
1
1
*
n
i i i
i
MCE w y y
W p
=
=

- RMCE : la racine de la moyenne des carrs des erreurs (RMCE) est la racine carre de
la MCE.
- MAPE : la Mean Absolute Percentage Error est calcule comme suit :
1
100
n
i i
i
i
i
y y
MAPE w
W y
=
=

- DW : le coefficient de Durbin-Watson est dfini par
229
( ) ( )
( )
2
1 1
2
2
1

n
i i i i
i
n
i i i
i
y y y y
DW
w y y

=
=
(

=

Ce coefficient correspond au coefficient dautocorrlation dordre 1 et permet de vrifier
que les rsidus du modle ne sont pas autocorrls, sachant que lindpendance des
rsidus est lune des hypothses de base de la rgression linaire. Lutilisateur pourra
se rfrer une table des coefficients de Durbin-Watson pour vrifier si lhypothse
dindpendance des rsidus est acceptable.
- Cp : le coefficient Cp de Mallows est dfini par
2 *
SCE
Cp p W
o
= +
o SCE est la somme du carr des erreurs pour le modle avec p variables
explicatives, et o o correspond lestimateur de la variance des rsidus pour le
modle comprenant toutes les variables explicatives. Plus le coefficient Cp est proche
de p* moins le modle est biais.
- AIC : le critre dinformation dAkaike (Akaikes Information Criterion) est dfini par
ln 2 *
SCE
AIC W p
W
| |
= +
|
\ .

Ce critre propos par Akaike (1973) drive de la thorie de linformation, et sappuie
sur la mesure de Kullback et Leibler (1951). Cest un critre de slection de modles
qui pnalise les modles pour lesquels lajout de nouvelles variables explicatives
napporte pas suffisamment dinformation au modle, linformation tant mesure au
travers de la SCE. On cherche minimiser le critre AIC.
- SBC : le critre baysien de Schwarz (Schwarzs Bayesian Criterion) est dfini par
( ) ln ln *
SCE
SBC W W p
W
| |
= +
|
\ .

Ce critre propos par Schwarz (1978) est proche du critre AIC, et comme ce dernier
on cherche le minimiser.
- PC : le critre de prdiction dAmemiya (Amemiyas Prediction Criterion) est dfini par
( )( ) 1 *
*
R W p
PC
W p
+
=

Ce critre propos par Amemiya (1980) permet comme le R ajust de tenir compte de
la parcimonie du modle.
230
- Press RMCE : la statistique de Press nest affiche que si loption correspondante a t
active dans la bote de dialogue. Elle est dfinie par
( )
2
( )
1
Press
n
i i i i
i
w y y

=
=

o
( )
i i
y

est la prdiction pour lobservation i lorsque cette dernire nest pas utilise
pour lestimation des paramtres. On obtient alors
Press
Press RMCE
- * W p
=
Le Press RMCE peut alors tre compar au RMCE. Une diffrence importante entre les
deux indique que le modle est sensible la prsence ou absence de certaines
observations dans le modle.

Si les options Type I SS et Type III SS (SS : Sum of Squares) sont actives, les tableaux
correspondants sont affichs.
Le tableau des Type I SS permet de visualiser linfluence de lajout progressif des variables
explicatives sur lajustement du modle, au sens de la somme des carrs des erreurs (SCE),
de la moyenne des carrs des erreurs (MCE), du F de Fisher, ou de la probabilit associe au
F de Fisher. Plus la probabilit est faible, plus la contribution de la variable au modle est
importante, toutes les autres variables tant dj dans le modle. Remarque : lordre de
slection des variables dans le modle influe sur les valeurs obtenues.
Le tableau des Type III SS permet de visualiser linfluence du retrait dune variable explicative
sur lajustement du modle, toutes les autres variables tant conserves, au sens de la
somme des carrs des erreurs (SCE), de la moyenne des carrs des erreurs (MCE), du F de
Fisher, ou de la probabilit associe au F de Fisher. Plus la probabilit est faible, plus la
contribution de la variable au modle est importante, toutes les autres variables tant dj
dans le modle. Remarque : contrairement au cas des Type I SS, lordre de slection des
variables dans le modle ninflue pas sur les valeurs obtenues.
Le tableau danalyse de la variance permet dvaluer le pouvoir explicatif des variables
explicatives. Dans le cas o la constante du modle nest pas fixe une valeur donne, le
pouvoir explicatif est valu en comparant lajustement (au sens des moindres carrs) du
modle final avec lajustement du modle rudimentaire compos dune constante gale la
moyenne de la variable dpendante. Dans le cas o la constante du modle est fixe, la
comparaison est faite par rapport au modle pour lequel la variable dpendante serait gale
la constante fixe.

Lquation du modle est ensuite affiche pour faciliter la lecture ou la rutilisation du
modle.
231
Le tableau des coefficients normaliss (aussi appels coefficients bta) permet de comparer
le poids relatif des variables. Plus la valeur absolue dun coefficient est leve, plus le poids de
la variable correspondante est important. Lorsque lintervalle de confiance autour des
coefficients normaliss comprend la valeur 0 (cela est facilement visible sur le graphique des
coefficients normaliss), le poids dune variable dans le modle nest pas significatif.
Dans le tableau des prdictions et rsidus sont donns pour chaque observation, son poids,
la valeur de la variable explicative qualitative sil ny en a quune, la valeur observe de la
variable dpendante, la prdiction du modle, les rsidus, les intervalles de confiance, ainsi
que la prdiction ajuste et le D de Cook si les options correspondantes ont t actives dans
la bote de dialogue. Deux types dintervalles de confiance sont affichs : un intervalle de
confiance autour de la moyenne (correspondant au cas o lon ferait la prdiction pour un
nombre infini dobservations avec un ensemble de valeurs donnes des variables explicatives)
et un intervalle autour de la prdiction ponctuelle (correspondant au cas dune prdiction isole
pour des valeurs donnes des variables explicatives). Le second intervalle est toujours plus
grand que le premier, les alas tant plus importants. Si des donnes de validation ont t
slectionnes, elles sont affiches en fin de tableau.
Les graphiques qui suivent permettent de visualiser les rsultats mentionns ci-dessus. Sil
ny a quune seule variable explicative dans le modle, le premier graphique affich permet de
visualiser les valeurs observes, la droite de rgression et les deux types dintervalles de
confiance autour des prvisions. Le second graphique permet quant lui de visualiser les
rsidus normaliss en fonction de la variable explicative. En principe, les rsidus doivent tre
distribus de manire alatoire autour de laxe des abscisses. Lobservation dune tendance
ou dune forme rvlerait un problme au niveau du modle.
Les trois graphiques affichs ensuite permettent de visualiser respectivement lvolution des
rsidus normaliss en fonction de la variable dpendante, la distance entre les prdictions et
les observations (pour un modle idal, les points seraient tous sur la bissectrice), et les
rsidus normaliss sur la forme dun diagramme en btons. Ce dernier graphique permet de
rapidement voir si un nombre anormal de donnes sort de lintervalle ]-2, 2[ sachant que ce
dernier, sous hypothse de normalit, doit contenir environ 95% des donnes.
Si vous avez slectionn des donnes utiliser pour calculer des prdictions sur de
nouvelles observations, le tableau correspondant est ensuite affich.

Exemple
Un exemple de rgression linaire simple est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-regf.htm

Un exemple de rgression linaire multiple est disponible sur le site Internet d'Addinsoft
l'adresse
232
http://www.xlstat.com/demo-reg2f.htm

Bibliographie
Akaike H. (1973). Information theory and the extension of the maximum likelihood principle. In:
Second International Symposium on Information Theory. (Eds: V.N. Petrov and F. Csaki).
Academiai Kiad, Budapest. 267-281.
Amemiya T. (1980). Selection of regressors. International Economic Review, 21, 331-354.
Dempster A.P. (1969). Elements of Continuous Multivariate Analysis. Addison-Wesley,
Reading.
Jobson J. D. (1999). Applied Multivariate Data Analysis: Volume 1: Regression and
Experimental Design. Springer Verlag, New York.
Mallows C.L. (1973). Some comments on Cp. Technometrics, 15, 661-675.
Tomassone R., Audrain S., Lesquoy de Turckheim E. and Miller C. (1992). La Rgression,
Nouveaux Regards sur une Ancienne Mthode Statistique. INRA et MASSON, Paris.

233
ANOVA
Utilisez ce module pour faire de l'ANOVA (Analyse de variance) un ou plusieurs facteurs,
quilibre ou dsquilibre. Des options avances vous permettent de choisir les contraintes
sur le modle et de tenir compte des interactions entre les facteurs. Des tests de
comparaisons multiples peuvent tre calculs.

Description
Lanalyse de variance utilise le mme cadre conceptuel que la rgression linaire. La
diffrence principale vient de la nature des variables explicatives : au lieu dtre quantitatives,
elles sont ici qualitatives. Dans le cadre de lANOVA, les variables explicatives sont souvent
appeles facteurs.
Si p est le nombre de facteurs, le modle de lANOVA scrit de la manire suivante :
0 ( , ),
1
p
i k i j j i
j
y | | c
=
= + +
(1)
o y
i
est la valeur observe pour la variable dpendante pour lobservation i, k(i,j) est lindice
correspondant la modalit du facteur j pour lobservation i, et c
i
Les hypothses utilises en ANOVA sont identiques celles de la rgression linaire : les
erreurs c
i
suivent une mme loi normale N(0,o) et sont indpendantes.
Lcriture du modle complte par cette hypothse a pour consquence que, dans le cadre
du modle de rgression linaire, les y
i
sont des ralisations de variables alatoires de
moyenne
i
et de variance o, avec
0 ( , ),
1
p
i k i j j
j
| |
=
= +

Si lon souhaite utiliser les diffrents tests proposs dans les rsultats de la rgression linaire
il est recommand de vrifier a posteriori que les hypothses sous-jacentes sont bien
vrifies. La normalit des rsidus peut tre vrifie en analysant certains graphiques ou en
utilisant un test de normalit. Lindpendance des rsidus peut tre vrifie en analysant
certains graphiques ou en utilisant le test de Durbin Watson.

Interactions
234
On dsigne par interaction un facteur artificiel (non mesur) refltant linteraction entre au
moins deux facteurs mesurs. Par exemple, si on applique un traitement une plante, et que
les essais sont raliss sous deux intensits lumineuses diffrentes, on pourra inclure dans le
modle un facteur dinteraction traitement*lumire qui permettra didentifier une ventuelle
interaction entre les deux facteurs. Sil y a une interaction entre les deux facteurs, on
observera sur les plantes un effet significativement plus important lorsque la lumire est forte
et que le traitement est de type 2, alors que leffet est moyen pour les couples (lumire faible,
traitement 2) et (lumire forte, traitement 1).
Pour faire un parallle avec la rgression linaire, les interactions sont quivalents des
produits entre les valeurs explicatives continues, bien quici lobtention des interactions
ncessite plus quune simple multiplication entre deux variables. Nanmoins la notation
utilise pour reprsenter linteraction entre le facteur A et le facteur B est A*B.
XLSTAT permet de facilement dfinir les interactions prendre en compte dans le modle.

ANOVA quilibre et dsquilibre
On parle dANOVA quilibre lorsque les effectifs des modalits sont gaux pour lensemble
des facteurs. Lorsque les effectifs de toutes les modalits de lun des facteurs ne sont pas
gaux, alors lANOVA est dite dsquilibre. XLSTAT permet de traiter les deux cas.

Contraintes
Au cours des calculs, chaque facteur est dcompos en une sous-matrice contenant autant de
colonnes quil y a de modalits dans le facteur. Typiquement, il sagit dun tableau disjonctif
complet. Cette dcomposition pose nanmoins un problme : sil y a g modalits, le rang de
cette sous-matrice nest pas g mais g-1. Cela entrane la ncessit de supprimer lune des
colonnes de la sous-matrice, et ventuellement de transformer les autres colonnes. Plusieurs
stratgies sont possibles en fonction de linterprtation que lon veut ensuite faire :
1) a1=0 : le paramtre correspondant la premire modalit est nul. Ce choix permet
dimposer que leffet de la premire modalit correspond un standard. Dans ce cas, la
constante du modle est gale la moyenne de la variable dpendante pour le groupe 1.
2) an=0 : le paramtre correspondant la dernire modalit est nul. Ce choix permet
dimposer que leffet de la dernire modalit correspond un standard. Dans ce cas, la
constante du modle est gale la moyenne de la variable dpendante pour le groupe g.
3) Somme(ai)=0 : la somme des paramtres est nulle. Ce choix permet dimposer que la
constante du modle est gale la moyenne de la variable dpendante lorsque lANOVA est
quilibre.
4) Somme(ai)=0 (PH) : la somme des paramtres est nulle. La diffrence avec loption
prcdente vient du traitement des interactions. Ici, les sous-matrices ne sont pas calcules
235
pour les interactions en appliquant la mme rgle que pour les facteurs, mais en utilisant le
produit horizontal (PH) des sous-matrices des facteurs intervenant dans linteraction.
5) Somme(ni.ai)=0 : la somme des paramtres est nulle. Ce choix permet dimposer que la
constante du modle est gale la moyenne de la variable dpendante mme lorsque
lANOVA est dsquilibre.
Remarque : si le choix de la contrainte influence la valeur des paramtres, il nen a aucun sur
les valeurs prdites et sur les diffrentes statistiques dajustement.

Tests de comparaisons multiples
Lune des applications principales de lANOVA sont les tests de comparaisons multiples dont
le but est de vrifier si les paramtres correspondant aux diffrentes modalits dun facteur
sont significativement diffrents ou non. Par exemple, dans le cas o quatre traitements sont
appliqus des plantes, on veut savoir non seulement si les traitements ont un effet
significatif, mais aussi si les traitements ont un effet diffrent.
De nombreux tests ont t proposs pour comparer les moyennes des modalits. La majorit
de ces tests sappuie aussi sur lhypothse de normalit. XLSTAT propose les principaux tests
parmi lesquels :

- le test de Tukey (HSD) : ce test est le plus utilis (HSD : honestly significant difference).
- Test de Fisher (LSD) : c'est un test de Student qui permet de tester l'hypothse nulle que
toute les moyennes pour les diffrentes modalits sont gales (LSD : least significant
difference).
- Test du t* de Bonferroni : driv du test de Student, il est un peu plus performant car il
prend en compte le fait que plusieurs comparaisons sont effectues simultanment. En
consquence le niveau de signification du test est modifi suivant la formule suivante :
'
( 1) / 2 g g
o
o =

o g est le nombre de modalits du facteur dont les modalits sont compares.

- Test de Dunn-Sidak : driv du test de Bonferroni, il est plus performant dans certaines
situations.
( )
| | 2 / ( 1)
' 1 1
g g
o o

=
Les tests suivants sont plus complexes et consistent en des procdures itratives pour
lesquelles les rsultats dpendent du nombre de combinaisons restant tester.
- Test de Newman-Keuls (SNK) : driv du test de Student (SNK : Student Newman-Keuls),
il est trs souvent utilis bien que pas trs performant.
236
- Test de Duncan : ce test est peu utilis.
- Test de REGWQ : ce test est la procdure itrative la plus performante dans une majorit
de situations (REGWQ : Ryan-Einot-Gabriel-Welsch).
Tous les tests ci-dessus permettent de comparer toutes les paires de modalits et
appartiennent la famille des tests MCA (Multiple Comparisons of All, ou All-Pairwise
Comparisons).
Dautres tests permettent de comparer toutes les catgories une modalit tmoin. Ces tests
sont appells tests MCB (Multiple Comparisons with the Best, Comparisons with a control).
XLSTAT propose le test de Dunnett qui est le plus utilis. On distingue trois tests de Dunnett :
- Test bilatral : lhypothse nulle suppose lgalit entre la modalit teste et la modalit
tmoin. Lhypothse alternative suppose que les moyennes des deux modalits sont
diffrentes.
- Test unilatral gauche : lhypothse nulle suppose lgalit entre la modalit teste et la
modalit tmoin. Lhypothse alternative suppose que la moyenne de la modalit tmoin
est suprieure la moyenne de la modalit teste.
- Test unilatral droite : lhypothse nulle suppose lgalit entre la modalit teste et la
modalit tmoin. Lhypothse alternative suppose que la moyenne de la modalit tmoin
est infrieure la moyenne de la modalit teste.

237
Bote de dialogue

calculs.

Onglet Gnral :

explicatives quantitatives dans le modle. Dans cas, vous ne ferez plus de lANOVA mais de
lANCOVA. Slectionnez alors la ou les variables correspondantes sur la feuille Excel. Les
donnes slectionnes doivent tre de type numrique. Si le libell des variables a t
Qualitatives : slectionnez la ou les variables explicatives qualitatives (les facteurs) sur la
238

actif.


Onglet Options :

239
Contraintes : des dtails sur les diffrentes options sont disponibles dans la section
description.
a1 = 0 : choisissez cette option pour que le paramtre de la premire modalit de chaque
facteur soit fix 0.
an = 0 : choisissez cette option pour que le paramtre de la dernire modalit de chaque
facteur soit fix 0.
Somme (ai) = 0 : pour chaque facteur la somme des paramtres associs aux diffrentes
modalits vaut 0.
Somme (ai) = 0 (PH) : pour chaque facteur la somme des paramtres associs aux
diffrentes modalits vaut 0. Pour les interactions, les sous-matrices sont dtermines en
faisant le produit horizontal des sous-matrices des facteurs concerns.
Somme (ni.ai) = 0 : pour chaque facteur la somme des paramtres associs aux diffrentes
modalits pondrs par la frquence des modalits respectives vaut 0.

dans le modle.
dans le modle.
240

Onglet Validation :

Onglet Prdiction :
241


Onglet Sorties :
variance.
242

Comparaisons multiples :
Des informations sur les tests de comparaisons multiples sont disponibles dans la section
description.
Appliquer tous les facteurs : activez cette option pour calculer les tests slectionns pour
tous les facteurs.
Utiliser les moyennes estimes : activez cette option pour calculer les moyennes en utilisant
le modle. Si cette option nest pas active, les moyennes sont estimes partir des donnes.
Trier en ordre croissant : activez cette option pour trier les modalits compares en ordre
croissant, le critre de tri tant leur moyenne respective. Si cette option nest pas active, le tri
est dcroissant.
Comparaison par paires : activez cette option puis choisissez les mthodes de
comparaison.
Comparaison un tmoin : activez cette option puis choisissez le type de test de Dunnett
que vous voulez effectuer.

Onglet Graphiques :
Options communes :
243
Intervalles de confiance : activez cette option pour afficher les intervalles de confiance sur
les graphiques (1) et (4).
Graphiques des moyennes : activez cette option pour afficher les graphiques permettant de
visualiser les moyennes pour les diffrentes modalits des diffrents facteurs.

Rsultats
erreurs).
244
( )
2
1
2
1
R 1
( )
n
i i i
i
n
i i
i
w y y
w y y
=
=
, avec
1
1
n
i i
i
y w y
n
=
=

( )
1
R 1 1
1
W
R
W p
=

( )
2
1
1
*
n
i i i
i
MCE w y y
W p
=
=

la MCE.
1
100
n
i i
i
i
i
y y
MAPE w
W y
=
=

( ) ( )
( )
2
1 1
2
2
1

n
i i i i
i
n
i i i
i
y y y y
DW
w y y

=
=
(

=

245
2 *
SCE
Cp p W
o
= +
ln 2 *
SCE
AIC W p
W
| |
= +
|
\ .

( ) ln ln *
SCE
SBC W W p
W
| |
= +
|
\ .

( )( ) 1 *
*
R W p
PC
W p
+
=

( )
2
( )
1
Press
n
i i i i
i
w y y

=
=

o
( )
i i
y

Press
Press RMCE
- * W p
=
246

la constante fixe.

modle.
247

Si des tests de comparaison multiples ont t demands, les rsultats correspondant sont
ensuite affichs.

Exemple
Un exemple d'ANOVA un facteur est disponible sur le site Internet d'Addinsoft l'adresse
suivante :
http://www.xlstat.com/demo-anof.htm

Un exemple d'ANOVA deux facteurs avec interaction est disponible sur le site Internet
d'Addinsoft l'adresse suivante :
http://www.xlstat.com/demo-ano2f.htm

248

Bibliographie
Reading.
Hsu J.C. (1996). Multiple Comparisons: Theory and Methods. CRC Press, Boca Raton.
Lea P., Naes T. and Robotten M. (1997). Analysis of Variance for Sensory Data. John Wiley
and Sons, London.
Sahai H. and Ageel M.I. (2000). The Analysis of Variance. Birkhaser, Boston.

249
ANCOVA
Utilisez ce module pour modliser une variable dpendante quantitative en utilisant des
variables explicatives quantitatives et qualitatives dans le cadre du modle linaire.

Description
LANCOVA (Analyse de covariance) peut tre vue comme un mlange dANOVA et de
rgression linaire puisque la variable dpendante est de mme nature, le modle est aussi
un modle linaire, et les hypothses sont identiques. Il en ralit est plus juste de considrer
lANOVA et la rgression linaire comme des cas particuliers de lANCOVA.
Si p est le nombre de variables quantitatives et q est le nombre de facteurs (les variables
qualitatives, y compris les interactions entre variables qualitatives), le modle de lANCOVA
scrit de la manire suivante :
0 ( , ),
1 1
p q
i j ij k i j j i
j j
y x | | | c
= =
= + + +

(1)
o y
i
est la valeur observe pour la variable dpendante pour lobservation i, x
ij
est la valeur
prise par la variable quantitative j pour lobservation i, k(i,j) est lindice correspondant la
modalit du facteur j pour lobservation i, et c
i
Les hypothses utilises en ANCOVA sont identiques celles de la rgression linaire et de
lANOVA : les erreurs c
i
suivent une mme loi normale N(0,o) et sont indpendantes.

Interactions entre variables quantitatives et facteurs
Lune des spcificits de lANCOVA est de permettre la prise en compte dinteractions entre
les variables quantitatives et les facteurs. La principale application est de permettre de tester si
le niveau dun facteur (une variable qualitative) a une influence sur le coefficient (souvent
appel pente dans ce contexte) dune variable quantitative. Des tests de comparaison
permettent alors tester si les pentes correspondant aux diffrents niveaux dun facteur sont
significativement diffrentes ou non. Un modle une variable quantitative et un facteur avec
interaction scrit
0 1 1 ( ,1),1 ( ,1),2 1 i i k i k i i i
y x x | | | | c = + + + + (2)
On peut simplifier cette criture en posant
( ,1),1 1 ( ,1),2 k i k i
| | = + (3)
250
do on tire
0 ( ,1),1 ( ,1),1 1 i k i k i i i
y x | | c = + + + (4)
La comparaison des paramtres permet de tester si le facteur a un effet sur la pente.

Bote de dialogue
calculs.

Onglet Gnral :

Quantitatives : slectionnez la ou les variables explicatives quantitatives sur la feuille Excel.
Les donnes slectionnes doivent tre de type numrique. Si le libell des variables a t
251
Qualitatives : slectionnez la ou les variables explicatives qualitatives (les facteurs) sur la

actif.


Onglet Options :

252
Contraintes : des dtails sur les diffrentes options sont disponibles dans la section
description.
a1 = 0 : choisissez cette option pour que le paramtre de la premire modalit de chaque
facteur soit fix 0.
an = 0 : choisissez cette option pour que le paramtre de la dernire modalit de chaque
facteur soit fix 0.
Somme (ai) = 0 : pour chaque facteur la somme des paramtres associs aux diffrentes
modalits vaut 0.
Somme (ai) = 0 (PH) : pour chaque facteur la somme des paramtres associs aux
diffrentes modalits vaut 0. Pour les interactions, les sous-matrices sont dtermines en
faisant le produit horizontal des sous-matrices des facteurs concerns.
Somme (ni.ai) = 0 : pour chaque facteur la somme des paramtres associs aux diffrentes
modalits pondrs par la frquence des modalits respectives vaut 0.

dans le modle.
dans le modle.
253

Onglet Validation :

Onglet Prdiction :
254


Onglet Sorties :
variance.
255

Comparaisons multiples :
Des informations sur les tests de comparaisons multiples sont disponibles dans la section
description.
Appliquer tous les facteurs : activez cette option pour calculer les tests slectionns pour
tous les facteurs.
Utiliser les moyennes estimes : activez cette option pour calculer les moyennes en utilisant
le modle. Si cette option nest pas active, les moyennes sont estimes partir des donnes.
Trier en ordre croissant : activez cette option pour trier les modalits compares en ordre
croissant, le critre de tri tant leur moyenne respective. Si cette option nest pas active, le tri
est dcroissant.
Comparaison par paires : activez cette option puis choisissez les mthodes de
comparaison.
Comparaison un tmoin : activez cette option puis choisissez le type de test de Dunnett
que vous voulez effectuer.
Comparaison des pentes : activez cette option pour comparer les pentes des interactions
entre les variables quantitatives et qualitatives (voir la section description sur ce sujet).

Onglet Graphiques :
Options communes :
256
Intervalles de confiance : activez cette option pour afficher les intervalles de confiance sur
les graphiques (1) et (4).
Graphiques des moyennes : activez cette option pour afficher les graphiques permettant de
visualiser les moyennes pour les diffrentes modalits des diffrents facteurs.

Rsultats
erreurs).
257
( )
2
1
2
1
R 1
( )
n
i i i
i
n
i i
i
w y y
w y y
=
=
, avec
1
1
n
i i
i
y w y
n
=
=

( )
1
R 1 1
1
W
R
W p
=

( )
2
1
1
*
n
i i i
i
MCE w y y
W p
=
=

la MCE.
1
100
n
i i
i
i
i
y y
MAPE w
W y
=
=

( ) ( )
( )
2
1 1
2
2
1

n
i i i i
i
n
i i i
i
y y y y
DW
w y y

=
=
(

=

258
2 *
SCE
Cp p W
o
= +
ln 2 *
SCE
AIC W p
W
| |
= +
|
\ .

( ) ln ln *
SCE
SBC W W p
W
| |
= +
|
\ .

( )( ) 1 *
*
R W p
PC
W p
+
=

( )
2
( )
1
Press
n
i i i i
i
w y y

=
=

o
( )
i i
y

259
Press
Press RMCE
- * W p
=

la constante fixe.

modle.
260

Si des tests de comparaison multiples ont t demands, les rsultats correspondant sont
ensuite affichs.

Exemple
Un exemple d'ANCOVA est disponible sur le site Internet d'Addinsoft l'adresse suivante :
http://www.xlstat.com/demo-ancof.htm

261
Bibliographie
Reading.
Hsu J.C. (1996). Multiple Comparisons: Theory and Methods. CRC Press, Boca Raton.
Lea P., Naes T. and Robotten M. (1997). Analysis of Variance for Sensory Data. John Wiley
and Sons, London.
Sahai H. and Ageel M.I. (2000). The Analysis of Variance. Birkhaser, Boston.

262
Rgression logistique
Utilisez la rgression logistique pour modliser une variable binaire en fonction de variables
explicatives quantitatives ou qualitatives.

Description
La rgression logistique est une mthode trs utilise car elle permet de modliser des
variables binaires ou des sommes de variables binaires. Elle est trs utilise dans le domaine
mdical (gurison ou non dun patient), en sociologie et de l'pidmiologie (analyse
d'enqutes), en marketing quantitatif (achat ou non de produits ou services suite une action)
et en finance pour modlisation de risques (scoring).
Le principe du modle de la rgression logistique est de relier la survenance ou la non
survenance dun vnement au niveau de variables explicatives. Par exemple, dans le
domaine phytosanitaire, on cherche valuer partir de quelle dose dun agent chimique, un
insecte sera neutralis.

Modles
La rgression logistique et la rgression linaire appartiennent la mme famille des modles
GLM (Generalized Linear Models) : dans les deux cas on relie un vnement une
combinaison linaire de variables explicatives.
Pour la rgression linaire, la variable dpendante suit pas une loi normale N(, o) o est
une fonction linaire des variables explicatives. Pour la rgression logistique, la variable
dpendante, aussi appele variable rponse, suit une loi de Bernouilli de paramtre p (p la
probabilit moyenne pour que lvnement se produise), lorsque lexprience est rpte une
fois, ou une loi Binomiale(n, p) si lexprience est rpte n fois (par exemple la mme dose
est essaye sur n insectes). Le paramtre de probabilit p est ici une fonction dune
combinaison linaire des variables explicatives.
Les fonctions les plus couramment utilises pour relier la probabilit p aux variables
explicatives sont la fonction logistique (on parle alors de modle Logit) et la fonction de
rpartition de la loi normale standard (on parle alors de modle Probit). Ces deux fonctions
sont parfaitement symtriques et sigmodes. XLSTAT propose deux autres fonctions : la
fonction Log-log complmentaire qui n'est plus symtrique car concentre sur l'asymptote
suprieure, et la fonction de Gompertz qui est au contraire plus concentre sur l'axe des
abscisses.
L'expression analytique des modles est donne ci-dessous :
263
Logit :
exp( )
1 exp( )
X
p
X
|
|
=
+

Probit :
2
1
exp
2
2
X
x
p dx
|
t

(
=
(

}

Log-log complmentaire : ( ) 1 exp exp p X | ( =

Gompertz : ( ) exp exp p X | ( =

O |X reprsente la combinaison linaire des variables (constante comprise).
La connaissance de la loi de distribution de lvnement tudi, permet dcrire la
vraisemblance de lchantillon. Pour estimer les paramtres | du modle (les coefficients de la
fonction linaire), on cherche maximiser la fonction de vraisemblance. Contrairement la
rgression linaire, une solution analytique exacte nexiste pas. Il est donc ncessaire dutiliser
un algorithme itratif. XLSTAT utilise un algorithme de Newton-Raphson. Lutilisateur peut
modifier sil le souhaite le nombre maximum ditrations et le seuil de convergence.

Problme de sparation
Dans lexemple ci-dessous, la variable traitement permet de parfaitement distinguer les cas
positifs des cas ngatifs.
Traitement 1 Traitement 2
Rponse + 121 0
Rponse - 0 85
Dans te tels cas, il existe une indtermination sur un ou plusieurs paramtres dont la variance
est dautant plus grande que le seuil de convergence est faible, ce qui empche de fournir un
intervalle de confiance autour du paramtre. Afin de rsoudre ce problme et dobtenir une
solution stable, Firth (1993) a propos dutiliser une fonction de vraisemblance pnalise
(penalized likelihood). XLSTAT propose cette solution en option en sappuyant sur les rsultats
fournis par Heinze (2002). Si lcart type de lun des paramtres est trs lev par rapport
lestimation du paramtre, il est conseill de recommence les calculs en activant loption
Firth .

Intervalles de confiance
Dans la plupart des logiciels, le calcul des intervalles de confiance sur les paramtres est
comme pour la rgression linaire bas une hypothse de normalit des paramtres. XLSTAT
propose aussi la mthode alternative de la profile likelihood (Venzon et Moolgavkar, 1988).
264
Cette mthode est plus fiable car elle ne ncessite pas de supposer la normalit des
paramtres ; elle peut nanmoins ralentir les calculs car elle est itrative.

Pourcentage dobservations bien classes et courbe ROC
XLSTAT donne la possibilit dafficher le tableau de classification (aussi appel matrice de
confusion) qui permet de calculer un pourcentage dobservations bien classes, pour un point
de sparation (cutoff) donn. Typiquement, pour une valeur de 0.5 du point de sparation, si la
probabilit est infrieure 0.5, lobservation est considre comme tant affecte la classe
0, sinon, elle est affecte la classe 1.
La courbe ROC peut aussi tre affiche. La courbe ROC (Receiver Operating Characteristics)
permet de visualiser la performance dun modle, et de la comparer cette performance celle
dautres modles. Les termes utiliss viennent de la thorie de dtection du signal.

265

est excellent.

Contraintes pour les variables qualitatives
Au cours des calculs, chaque facteur est dcompos en une sous-matrice contenant autant de
colonnes quil y a de modalits dans le facteur. Typiquement, il sagit dun tableau disjonctif
complet. Cette dcomposition pose nanmoins un problme : sil y a g modalits, le rang de
cette sous-matrice nest pas g mais g-1. Cela entrane la ncessit de supprimer lune des
colonnes de la sous-matrice, et ventuellement de transformer les autres colonnes. Plusieurs
stratgies sont possibles en fonction de linterprtation que lon veut ensuite faire :
1) a1=0 : le paramtre correspondant la premire modalit est nul. Ce choix permet
dimposer que leffet de la premire modalit correspond un standard. Dans ce cas, la
constante du modle est gale la moyenne de la variable dpendante pour le groupe 1.
2) an=0 : le paramtre correspondant la dernire modalit est nul. Ce choix permet
dimposer que leffet de la dernire modalit correspond un standard. Dans ce cas, la
constante du modle est gale la moyenne de la variable dpendante pour le groupe g.
266
3) Somme(ai)=0 : la somme des paramtres est nulle. Ce choix permet dimposer que la
constante du modle est gale la moyenne de la variable dpendante lorsque lANOVA est
quilibre.
4) Somme(ai)=0 (PH) : la somme des paramtres est nulle. La diffrence avec loption
prcdente vient du traitement des interactions. Ici, les sous-matrices ne sont pas calcules
pour les interactions en appliquant la mme rgle que pour les facteurs, mais en utilisant le
produit horizontal (PH) des sous-matrices des facteurs intervenant dans linteraction.
5) Somme(ni.ai)=0 : la somme des paramtres est nulle.

Bote de dialogue

calculs.

Onglet Gnral :
Variables dpendantes :
267
Variable(s) rponse : slectionnez la ou les variables rponse que vous souhaitez modliser.
Si plusieurs variables sont slectionnes, XLSTAT fera les calculs pour chacune des variables
Type de rponse : choisissez le type de variable rponse que vous avez slectionn :
- Variable binaire : si vous slectionnez cette option, vous devez slectionner une
variable contenant exactement deux valeurs distinctes. Si la variable est constitue de
0 et de 1, XLSTAT fera en sorte que les probabilits leves du modle correspondent
la catgorie 1, et que les probabilits faibles correspondent la catgorie 0. Si la
variable comprend deux autres valeurs (par exemple Oui / Non), la premire
catgorie rencontre correspondront les faibles probabilits et la seconde les
probabilits leves.
- Somme de variables binaires : si votre variable rponse correspond une somme de
variables binaires, elle doit tre de type numrique et contenir le nombre dvnements
positifs (vnement 1) parmi tous ceux observs. La variable correspondant au nombre
total dvnements observs pour cette observation (vnements 1 et 0 combins) doit
alors tre slectionne dans le champs poids des observations . Ce cas correspond
par exemple une exprience o lon administre une dose D dun mdicament (D est la
variable explicative) 50 patients (50 est la valeur du poids des observations), et o
lon observe que 40 sont guris sous leffet de la dose (40 correspond la valeur de la
variable rponse).

Variables explicatives :
est active.

Mthode : choisissez la mthode de rgression logistique utiliser :
- Classique : activez cette option pour calculer une rgression logistique sur les
variables slectionnes sans oprations pralables.
268
- PCR : activez cette option pour calculer une rgression logistique sur les composantes
principales extraites partir des variables explicatives slectionnes.
- Modle : choisissez le type de fonction utiliser (voir description).

actif.

Poids des observations : ce champ est remplir imprativement si loption somme de
binaires a t choisie. Sinon ce champ nest pas actif. Si un en-tte de colonne a t
Poids dans la rgression : activez cette option si vous voulez pondrer linfluence des
observations pour lajustement du modle. Si vous nactivez pas cette option, les poids seront
tous considrs comme valant 1. Les poids doivent tre imprativement suprieurs ou gaux
0. Si un en-tte de colonne a t slectionn, veuillez vrifier que loption Libells des

Onglet Options :
Mthode de Firth : activez cette option pour utiliser la vraisemblance pnalise de Firth (voir
description).

269
Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme de Newton-
Raphson. Les calculs sont interrompus ds que le nombre maximal d'itrations est
- Convergence : entrez la valeur seuil dvolution maximale de log vraisemblance dune

Cas de la rgression logistique PCR
prendre en compte.

Cas de la rgression logistique classique
Slection du modle : activez cette option si vous souhaitez utiliser lune des cinq mthodes
de slection proposes :
Critre : veuillez choisir le critre parmi la liste suivante : Vraisemblance, LR (likelihood ratio),
Score, Wald, AIC de Akaike, SBC de Schwarz.
Min variables : entrez le nombre minimum de variables prendre en compte dans le modle.
Max variables : entrez le nombre maximum de variables prendre en compte dans le modle.
Remarque : bien que grce un algorithme trs performant XLSTAT rduise au
maximum la quantit de calculs ncessaires, cette mthode peut entraner des temps
de calculs importants.
- Stepwise (Ascendante) : le processus de slection commence par lajout de la
variable ayant la plus forte contribution au modle. Si une seconde variable est telle
que sa probabilit dentre est suprieure la valeur seuil pour entrer, alors elle est
ajoute au modle. A partir de lajout de la troisime variable, aprs chaque ajout, on
270
value pour toutes les variables prsentes dans le modle quel serait limpact de son
retrait. Si la probabilit de la statistique calcule est suprieure la valeur seuil pour
retirer, la variable est retire du modle.
- Stepwise (Descendante) : cette mthode est similaire la prcdente, mais part dun
modle complet.
- Ascendante : la procdure est identique cette de la slection progressive (stepwise),
hormis le fait que les variables sont uniquement ajoutes et jamais retires.

Onglet Validation :

Onglet Prdiction :
271


Onglet Sorties :
Corrlations : activez cette option pour afficher la matrice de corrlations des variables
explicatives.
Coefficients dajustement : activez cette option pour afficher le tableau des statistiques
dajustement du modle.
Analyse de type III : activez cette option pour afficher le tableau danalyse de la variable de
type III.
Coefficients du modle : activez cette option pour afficher le tableau des coefficients du
modle. Optionnellement les intervalles de confiance de type profile likelihood peuvent
tre calculs (voir description).
Equation : activez cette option pour afficher explicitement lquation du modle.
272

Comparaisons multiples : cette option nest active que si des variables explicatives
qualitatives ont t slectionnes. Activez cette option pour afficher les rsultats des tests de
comparaison.
Analyse des probabilits : si une seule variable explicative a t slectionne, activez cette
option pour que XLSTAT calcule la valeur de la variable explicative correspondant divers
niveaux de probabilit.
Tableau de classification : activez cette option pour afficher le tableau de classement a
posteriori des observations sur la base dun point de sparation dfinir (valeur par dfaut
0.5).

Options pour la rgression logistique PCR :
variables (factor loadings en anglais). Les coordonnes sont gales aux corrlations entre les
composantes principales et les variables dorigine dans le cas dune ACP norme.
Corrlations Composantes/Variables: activez cette option pour afficher les corrlations
entre les composantes principales et les variables dorigine.
observations (factor scores en anglais) dans le nouvel espace cr par lACP. Ces
coordonnes sont ensuite utilises comme variables explicatives dans le modle.

Onglet Graphiques :
- Prdictions : activez cette option pour afficher la courbe de rgression.

Options pour la rgression logistique PCR :
273
vecteurs.
filtrage.
vecteurs.

Etiquettes colores : activez cette option pour afficher les tiquettes de variables et
dobservations de la mme couleur que les points correspondants.
Filtrer : activez cette option pour fixer le nombre de points affichs sur les graphiques :

274
Rsultats
XLSTAT propose un nombre important de tableaux et de graphiques afin de faciliter l'analyse
et l'interprtation des rsultats.
explicatives.

Correspondance entre les modalits de la variable rponse et les probabilits : ce
tableau permet de visualiser quelles modalits de la variable dpendante ont t affectes
les probabilits 0 et 1.

Coefficients d'ajustement : dans ce tableau est affiche une srie de statistiques pour le
modle indpendant (correspondant au cas o la combinaison linaire des variables
explicatives se rduit une constante) et pour le modle ajust.
- Observations : le nombre total d'observations prises en compte (somme des poids des
observations) ;
- Somme des poids : le nombre total d'observations prises en compte (somme des poids des
observations multiplis par les poids dans la rgression) ;
- DDL : degrs de libert ;
- -2 Log(Vrais.) : le logarithme de la fonction de vraisemblance associe au modle;
- R (McFadden) : coefficient compris comme le R entre 0 et 1 qui mesure le bon ajustement
du modle. Ce coefficient est gal 1 moins le rapport de la vraisemblance du modle
ajust sur la vraisemblance du modle indpendant ;
- R(Cox et Snell) : coefficient compris comme le R entre 0 et 1 qui mesure le bon
ajustement du modle. Ce coefficient est gal 1 moins le rapport de la vraisemblance du
modle ajust sur la vraisemblance du modle indpendant, le rapport tant port
lexposant 2/Sw, o Sw est la somme des poids ;
275
- R(Nagelkerke) : coefficient compris comme le R entre 0 et 1 qui mesure le bon ajustement
du modle. Ce coefficient est gal au rapport du R de Cox et Snell, divis par 1 moins le la
vraisemblance du modle indpendant porte lexposant 2/Sw ;
- AIC : le critre dinformation dAkaike (Akaikes Information Criterion) ;
- SBC : le critre baysien de Schwarz (Schwarzs Bayesian Criterion).

Test de l'hypothse nulle H0 : Y=p0 : lhypothse H0 correspond au modle indpendant qui
donne la probabilit p0 quelques soient les valeurs des variables explicatives ; on cherche
vrifier si le modle ajust est significativement plus performant que ce modle. Trois tests
sont proposs : le test du rapport des vraisemblance (-2 Log(Vrais.)), le test du Score, et le
test test de Wald. Les trois statistiques suivent une loi du Khi dont les degrs de libert sont
indiqus.

Analyse de Type III : ce tableau na dintrt que sil y a plus dune variable explicative. On
test ici le modle ajust contre un test dont on aurait retir la variable de la ligne du tableau en
question. Si la probabilit Pr > LR est infrieur un seul de signification que lon se fixe
(typiquement 0.05), alors la contribution de la variable lajustement du modle est
significative. Sinon, elle peut tre retire du modle.
Dans le cas dune rgression logistique PCR, le premier tableau des paramtres du modle
correspond aux paramtres du modle sappuyant sur les composantes principales
slectionnes. Ce tableau est difficilement interprtable. Pour cette raison une transformation
est opre afin dobtenir les paramtres du modle correspondant aux variables dorigine.
Paramtres du modle : pour la constante du modle et pour chaque variable sont affichs
lestimation du paramtre, lcart-type correspondant, le Khi de Wald, la p-value
correspondante, ainsi que lintervalle de confiance. Si loption correspondante a t active,
les intervalles profile likelihood sont aussi affichs.
modle.
variable dpendante, la prdiction du modle, les mmes valeurs divises par le poids, les
rsidus standardiss, ainsi quun intervalle de confiance.
Tableau de classification : activez cette option pour afficher le tableau permettant de
visualiser le pourcentage dobservations bien classes pour chacune des deux catgories. Si
276
un chantillon de validation a t extrait, ce tableau est aussi affich pour les donnes de
validation.
Courbe ROC : la courbe ROC permet dvaluer la performance du modle au travers de laire
sous la courbe (AUC) et de comparer plusieurs modles entre eux (voir la section description
Comparaison des modalits des variables qualitatives : si une ou plusieurs variables
qualitatives explicatives ont t slectionnes, les rsultats des tests dgalit des paramtres
pris deux deux des diffrentes modalits des variables qualitatives sont affichs.
Le tableau danalyse des probabilits nest affich que si une seule variable explicative
quantitative a t slectionne. Il permet de visualiser quel niveau de la variable explicative
correspond une probabilit donne.

Exemple
Un exemple de rgression logistique est disponible sur le site Internet d'Addinsoft l'adresse
http://www.xlstat.com/demo-logf.htm

Bibliographie
Agresti A. (1990). Categorical Data Analysis. John Wiley and Sons, New York.
Finney D.J. (1971). Probit Analysis, 3rd Edition. Cambridge, London and New York.
Firth D (1993). Bias reduction of maximum likelihood estimates. Biometrika, 80, 27-38.
Furnival G. M. and Wilson R.W. Jr. (1974). Regressions by leaps and bounds.
Heinze G. and Schemper M. (2002). A solution to the problem of separation in logistic
regression. Statistics in Medicine, 21, 2409-2419.
Hosmer D.W. and Lemeshow S. (2000). Applied Logistic Regression, Second Edition. John
Lawless J.F. and Singhal K. (1978). Efficient screening of nonnormal regression Models.
Biometrics, 34, 318-327.
Venzon, D. J. and Moolgavkar S. H. (1988). A method for computing profile likelihood Based
confidence intervals. Applied Statistics, 37, 8794.
277

278
Rgression non paramtrique
Cet outil permet de raliser des rgressions non paramtriques de deux types : la Kernel
regression (rgression par noyau) et la rgression LOWESS.

Description
La rgression paramtrique peut tre utilis lorsque les hypothses des mthodes de
rgression plus classiques ne sont pas vrifies, ou lorsque la structure du modle na pas
fondamentalement dintrt et lorsque seule la qualit prdictive du modle est importante.

Kernel regression :
La Kernel regression est un outil de modlisation faisant partie de la famille des mthodes de
lissage. Contrairement la rgression linaire qui est utilise dans un but explicatif et prdictif
(comprendre un phnomne pour pouvoir le prvoir ensuite), la Kernel regression est classe
parmi les mthodes de rgression non paramtrique essentiellement utilises dans un but
prdictif. La structure du modle est en effet variable et complexe, ce dernier fonctionnant
comme un filtre ou une bote noire. De nombreuses variantes de la Kernel regression existent.
Comme pour toute mthode de modlisation, un chantillon d'apprentissage de taille n
app
est
utilis pour estimer les paramtres du modle. Un chantillon de validation de taille n
valid
peut
ensuite tre utilis pour valuer la qualit du modle. Enfin, le modle peut tre appliqu sur
un chantillon de prdiction de taille n
pred
, pour lequel les valeurs de la variable dpendante Y
sont inconnues.
La premire caractristique de la Kernel regression est l'utilisation d'une fonction noyau pour
pondrer les observations de l'chantillon d'apprentissage, en fonction de leur distance
l'observation prdite. Plus les valeurs des variables explicatives d'une observation de
l'chantillon d'apprentissage sont proches des valeurs observes pour l'observation en cours
de prdiction, plus le plus poids de l'observation de l'chantillon d'apprentissage sera
important. Diffrents noyaux sont proposs dans la littrature scientifique. XLSTAT propose
les noyaux suivants : Uniforme, Triangle, Epanechnikov, Quartic, Triweight, Tricube, Gaussien,
et Cosinus.
La seconde caractristique de la Kernel regression est la bande passante associe chaque
variable. Elle intervient dans le calcul et du noyau et du poids des observations, et permet de
diffrencier ou d'homogniser le poids relatif des variables, tout en agissant sur l'impact d'une
observation de l'chantillon d'apprentissage en fonction de sa distance l'observation prdite.
Le terme de bande passante fait allusion aux mthodes de filtrage. Pour une variable et une
fonction noyau donne, plus elle est faible, plus un nombre restreint d'observation influeront
sur la prdiction.
279
Exemple : soit Y une variable dpendante, et k variables explicatives (X
1
, X
2
, , X
k
). Pour le
calcul de la prdiction y
i
(1 s i s n
valid
), tant donne l'observation j (1 s j s n
app
), le poids
dtermin par un noyau Gaussien avec une bande passante h
l
pour chaque variable X
l
(l = 1
k) est donn par :

( )
|
|
.
|
\
|
|
|
.
|
\
|
=
=
=
[
k
l
l
il jl
k
l
l
k
ij
h
x x
h
w
1
2
1
exp
2
1
t

La troisime caractristique est le degr du modle polynomial utilis pour ajuster le modle
aux observations de l'chantillon d'apprentissage. Dans le cas du polynme de degr 0
(polynme constant), la formule de Nadaraya-Watson est utilise pour calculer la prdiction i :

=
=
=
app
app
n
j
ij
n
j
j ij
i
w
y w
y
1
1

Dans le cas du polynme constant, les variables explicatives ne sont donc prises en compte
que pour le calcul des poids des observations de l'chantillon d'apprentissage. Dans le cas
des polynmes de degr 1 et 2 (la pratique montre que des ordres suprieurs ne sont pas
ncessaires, et XLSTAT se limite aux degrs 0,1,2), les variables sont en revanche impliques
dans le calcul d'un modle polynomial. Une fois le modle cal, le modle est appliqu aux
observations des chantillons de validation et ventuellement de prdiction, afin d'estimer la
valeur de la variable dpendante.
Une fois les paramtres du modle estim, on calcule la valeur de la prdiction en utilisant les
formules suivantes :
- Degr 1 : + =
=
k
l
l
il l i
x a a y
1
0

- Degr 2 : + + =
= = =
k
l
k
m
im il lm
k
l
l
il l i
x x b x a a y
1 1 1
0

Remarques :
- Pour l'estimation des paramtres du polynme, on pondre pralablement les
observations de l'chantillon d'apprentissage en utilisant la formule de Nadaraya-
Watson.
- Dans le cas d'un modle d'ordre 1 ou 2, pour chaque observation des chantillons de
validation et de prdiction, le modle polynomial est estim. La Kernel regression est
donc une mthode potentiellement intensive.
Afin de limiter le nombre d'observations de l'chantillon d'apprentissage pris en compte pour
l'estimation des paramtres du polynme, plusieurs stratgies sont proposes :
280
- fentre glissante : pour l'estimation de la valeur y
i
, on prend en compte un nombre fix
d'observations prcdemment observes. Dans cette situation, l'chantillon
d'apprentissage volue donc en permanence.
- k plus proches voisins (k nearest neighbours) : cette mthode, ventuellement
complmentaire de la prcdente permet de limiter la taille de l'chantillon
d'apprentissage une valeur k donne.

Dtails concernant les fonctions noyau :
Pour calcul le poids w
ij
de l'observation j pour le calcul de la prvision y
i
, on dfinit

( )
[
=
=
k
l l
ijl
ij
h
u K
w
1
avec
l
jl
l
ijl
h
x
i
x
u

=
o K est une fonction noyau. Les diffrentes fonctions noyau proposes par XLSTAT sont :
- Uniforme : la fonction noyau est dfinie par :
( )
1
.
2
1
s
I =
u
u K
- Triangle : la fonction noyau est dfinie par :
( ) ( )
1
. 1
s
I =
u
u u K
- Epanechnikov : la fonction noyau est dfinie par :
( ) ( )
1
2
. 1
4
3
s
I =
u
u u K
- Quartic : la fonction noyau est dfinie par :
( ) ( )
1
2
2
. 1
16
15
s
I =
u
u u K
- Triweight : la fonction noyau est dfinie par :
( ) ( )
1
3
2
. 1
32
35
s
I =
u
u u K
- Tricube : la fonction noyau est dfinie par :
( ) ( )
1
3
3
. 1
s
I =
u
u u K
- Gaussien : la fonction noyau est dfinie par :
( )
2
2
2
1
u
e u K

=
t

281
- Cosinus : la fonction noyau est dfinie par :
( )
1
.
2
cos
4
s
I |
.
|
\
|
=
u
u u K
t t

Dtails sur la rgression LOWESS :
La rgression LOWESS (Locally weighted regression and smoothing scatter plots) a t
introduite par Cleveland (1979 ) dans le but de crer des courbes lisses passant au travers
de nuages de points. De nouvelles versions ont depuis t mises au point afin d'augmenter la
robustesse des modles. La rgression LOWESS est trs proche de la Kernel regression car
elle fait aussi appel de la rgression polynomiale avec des observations pondres par une
fonction noyau.
L'algorithme LOWESS peut tre dcrit comme suit : pour chaque individu i :
1 - Dans un premier temps on calcule les distances euclidiennes d(i,j) entre l'individu i et
l'individu j. Puis on slectionne la fraction f des N individus les plus proches de i. Pour les
points slectionns, on calcule leur poids en utilisant le noyau Tricube et la distance suivante :

)) , ( (
) , (
) , (
j i d Max
j i d
j i D
j
=
( ) ) , ( ) ( j i D Tricube j Poids =

2 - La rgression est alors ajuste et une prvision est calcule pour l'individu i.
Pour la version robuste de la rgression LOWESS, les tapes suivantes sont ncessaires :
3 - On recalcule les poids en utilisant la distance suivante :

) ) ( ( . 6
) (
) , ( '
j r Mediane
j r
j i D
j
=
o r(j) est le rsidu pour l'individu j l'issue de l'tape prcdente.
et en utilisant le noyau Quartic :
( ) ) , ( ' ) ( j i D Quartic j Poids =
4 - La rgression est alors ajuste de nouveau.
5 - on recommence les tapes 3 et 4. On obtient alors la prvision finale pour l'individu i.

282
Remarques :
- Hormis les donnes, les seuls paramtres d'entres pour la mthode sont la fraction f
d'individus les plus proches (exprime en % dans XLSTAT) et l'ordre du polynme.
- La Robust LOWESS regression est environ trois fois plus coteuse en temps de calcul
que la rgression LOWESS.

Bote de dialogue

calculs.

Onglet Gnral :
283

est active.

actif.


Mthode : choisissez la mthode de rgression non paramtrique utiliser (voir description).
Degr du polynme : entrez le degr du polynme dans le cas o la mthode choisie est la
rgression LOWESS ou un polynme.

Onglet Options :
Echantillon d'apprentissage :
284
- Fentre glissante : choisissez cette option pour que la taille de l'chantillon
d'apprentissage soit constante. Vous devez alors fixer la taille t de la fentre. Ainsi pour
estimer la valeur Y(i+1) les observations i-t-1 i seront utilises. La premire
observation pour laquelle une estimation sera calcule sera l'observation t+1.
- Fentre croissante : choisissez cette option pour que la taille de l'chantillon
d'apprentissage soit croissante. Vous devez alors fixer la taille t de la fentre au dpart.
Ainsi pour estimer la valeur Y(i+1) les observations 1 i seront utilises. La premire
observation pour laquelle une estimation sera calcule sera l'observation t+1.
- Tout : les chantillons d'apprentissage et de validation sont identiques. Si cette option
n'a pas d'intrt en matire de prvision, elle permet en revanche d'valuer la mthode
en situation d'information parfaite.
K plus proches voisins : activez cette option pour dfinir la taille maximale de l'chantillon
d'apprentissage. Deux options sont proposes :
- Lignes : les k points retenus seront les k points les plus proches du point prdire, la
proximit tenant compte de la bande passante.
- % : les points retenus seront les plus proches du point prdire, et reprsenteront x%
de l'chantillon d'apprentissage disponible, o x est la valeur saisir.

Noyau : choisissez le type de fonction noyau utiliser. Les options possibles sont : Uniforme,
Triangle, Epanechnikov, Quartic, Triweight, Tricube, Gaussien, Cosinus. Une description de
ces fonctions est disponible dans la partie description.
Bande passante : XLSTAT vous permet de choisir une mthode de calcul automatique de la
bande passante ou de fixer les valeurs. Les diffrentes options possibles sont :
- Constante : la bande passante est constante et gale la valeur fixe. Entrez alors la
valeur de la bande passante.
- Fixe : la bande passante est dfinie dans une plage verticale de cellules Excel, que
vous devez alors slectionner. Le nombre de cellules doit tre gal au nombre de
variables explicatives, et les bandes passantes doivent tre entres dans le mme
ordre que les variables.
- Amplitude : la valeur de la bande passante hl est dtermine pour la variable
explicative Xl par la formule suivante :
285
( ) ( )
app app
n i il n i il l
x Min x Max h
.. 1 .. 1 = =
=
- Ecart-type : la valeur de la bande passante hl est gale, pour chaque variable
explicative, l'cart-type de la variable observe sur l'chantillon d'apprentissage.

Onglet Validation :

Onglet Prdiction :

286

Onglet Sorties :
explicatives.

Onglet Graphiques :
Donnes et prdictions : activez cette option pour afficher le graphique des donnes
observes et des prdictions:
- En fonction de X1 : activez cette option pour afficher les valeurs observes et prdites
en fonction des valeurs de la variable X1.
- En fonction du temps : activez cette option pour slectionner des donnes donnant la
date correspondant chacune des observations, afin dafficher les rsultats en fonction
du temps.
Rsidus : activez cette option pour afficher le diagramme en btons des rsidus.

287

Rsultats
slectionnes.
Coefficients d'ajustement : dans ce tableau sont affiches les statistiques suivantes :
- le coefficient de dtermination R ;
- la somme des carrs des erreurs (ou rsidus) du modle (SCE) ;
- la moyenne des carrs des erreurs (ou rsidus) du modle (MCE) ;
- la racine de la moyenne des carrs des erreurs (ou rsidus) du modle (RMCE) ;

Prdictions et rsidus : ce tableau donne pour chaque observation les donnes de dpart, la
valeur prdite par le modle et les rsidus.
Graphiques :
Si une seule variable quantitative explicative t slectionne, ou si une variable temporelle
a t slectionne (option en fonction du temps de longlet Graphiques de la bote de
dialogue), le premier graphique reprsente les donnes et la courbe correspondant aux
prdictions du modle. Si loption en fonction de X1 a t slectionne, le premier
graphique correspond aux donnes observes et aux prdictions en fonction de la premire
variable explicative slectionne. Le second graphique affich est le diagramme en btons des
rsidus.

Exemple
Un exemple de Kernel regression est disponible sur le site Internet d'Addinsoft l'adresse
http://www.xlstat.com/demo-kernelf.htm

288

Bibliographie
Cleveland W.S. (1979). Robust locally weighted regression and smoothing scatterplots. J.
Amer. Statist. Assoc., 74, 829-836.
Cleveland W.S. (1994). The Elements of Graphing Data. Hobart Press, Summit, New Jersey.
Hrdle W. (1992). Applied Nonparametric Regression. Cambridge University Press,
Cambridge.
Nadaraya E.A. (1964). On estimating regression.Theory Probab. Appl., 9, 141-142.
Wand M.P. and Jones M.C. (1995). Kernel Smoothing. Chapman and Hall, New York.
Watson G.S. (1964). Smooth regression analysis.Sankhy Ser.A, 26, 101-116.

289
Rgression non linaire
Utilisez cet outil pour ajuster des donnes n'importe quelle fonction linaire, ou non linaire.
La mthode utilise est celle des moindres carrs. Il est possible d'utiliser soit des fonctions
prprogrammes, soit des fonctions ajoutes par l'utilisateur.

Description
La rgression non linaire permet de modliser des phnomnes complexes n'entrant pas
dans le cadre du modle linaire. XLSTAT propose des fonctions prprogrammes parmi
lesquelles l'utilisateur pourra ventuellement trouver le modle dcrivant le phnomne
modliser.
Lorsque le modle recherch n'est pas disponible, l'utilisateur a la possibilit de dfinir un
nouveau modle et de l'ajouter sa librairie personnelle. Pour amliorer la vitesse et la fiabilit
des calculs, il est recommand dajouter les drives de la fonction par rapport chacun des
paramtres du modle.
Lorsque cela est possible (fonctions prprogrammes, ou fonctions dont les drives
premires ont t entres par l'utilisateur) l'algorithme de Levenberg-Marquardt est utilis pour
estimer les paramtres du modle slectionn. Dans le cas o les drives ne sont pas
disponibles un algorithme plus complexe mais efficace est utilis. Cet algorithme ne permet
cependant pas dobtenir les cart-types des estimateurs des paramtres.

Ajouter une fonction la librairie des fonctions dfinies par lutilisateur

Syntaxe :
Les paramtres doivent tre reprsents sous la forme pr1, pr2,
Les variables explicatives doivent tre reprsents sous la forme X1, X2,
Les fonctions Excel peuvent tre utilises : Exp(), Sin(), Pi(), Max()
Exemple de fonction : pr1 * Exp( pr2 + pr3 * X1 + pr4 * X2 )

Fichier contenant les dfinitions de fonction :
La librairie des fonctions utilisateur est enregistre dans le fichier Models.txt, dans le rpertoire
utilisateur, tel quil est dfini lors de linstallation ou au travers de la bote des options de
XLSTAT. Cette librairie est construite de la faon suivante :
ligne 1 : nombre de fonctions dfinies par l'utilisateur
ligne 2 : N1= nombre de paramtres intervenant dans la fonction 1
ligne 3 : dfinition de la fonction 1
lignes 4 (3 + N1) : dfinition des drives de la fonction 1
290
ligne 4+N1 : N2= nombre de paramtres intervenant dans la fonction 2
ligne 5+N1 : dfinition de la fonction 2

Lorsque les drives sont inconnues, Unknown remplace chaque drive de la fonction.
Vous pouvez modifier manuellement les lments de ce fichier mais veillez ne pas introduire
d'erreur.

Bote de dialogue

calculs.

Onglet Gnral :
291


actif.


Onglet Fonctions :
Fonctions prprogrammes : activez cette option pour ajuster aux donnes lune des
fonctions disponibles dans la liste des fonctions prprogrammes. Slectionnez alors une
fonction dans la liste.
Editer : cliquez sur ce bouton pour faire apparatre dans la zone Fonction : Y = la fonction
prprogramme active. Vous pourrez alors copier la fonction pour ensuite la modifier pour
crer une nouvelle fonction ou les drives dune nouvelle fonction.

292
Fonctions dfinies par lutilisateur : activez cette option pour ajuster aux donnes lune des
fonctions disponibles dans la liste des fonctions dfinies par lutilisateur, ou pour ajouter une
nouvelle fonction.
Supprimer : cliquez sur ce bouton pour supprimer la fonction active de la liste des fonctions
dfinies par lutilisateur.
Ajouter : cliquez sur ce bouton pour ajouter une fonction la liste des fonctions dfinies par
lutilisateur. Vous devez alors entrer la fonction dans le champ Fonction : Y = , puis, si
vous le souhaitez, sachant que cela permet damliorer la vitesse des calculs et dobtenir les
carts types des paramtres, vous pouvez slectionner les drives de la fonction par rapport
chacun des paramtres. Pour cela activez loption Drives , puis slectionnez sur une
feuille Excel les drives.
Drives : sachant que cela permet damliorer la vitesse des calculs et dobtenir les carts
types des paramtres,
Remarque : la section description contient des informations relatives la dfinition des
fonctions utilisateur.

Onglet Options :
Valeurs de dpart : activez cette option pour donner un point de dpart XLSTAT.
Slectionnez alors les cellules correspondant aux valeurs initiales des paramtres. Le nombre
de lignes slectionnes doit correspondre au nombre de paramtres.
Bornes des paramtres : activez cette option pour indiquer XLSTAT une rgion possible
pour lensemble des paramtres du modle choisi. Vous devez alors slectionner une plage
de deux colonnes, celle de gauche correspondant aux bornes infrieures, et celle de droite
aux bornes suprieures. Le nombre de lignes slectionnes doit correspondre au nombre de
paramtres.
Libells des paramtres : activez cette option si vous voulez prciser les noms des
paramtres. Au lieu dafficher les noms gnriques pr1, pr2, etc., pour les paramtres,
XLSTAT affichera les rsultats en utilisant les libells slectionns. Le nombre de lignes
slectionnes doit correspondre au nombre de paramtres.

Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme dajustement. Les
par dfaut : 50.
- Convergence : entrez la valeur seuil dvolution maximale de la somme des carrs des
erreurs (SCE) dune itration lautre, qui une fois atteinte permet de considrer que
lalgorithme a converg. Valeur par dfaut : 0,0001.

293
Onglet Validation :

Onglet Prdiction :

294

Onglet Sorties :
explicatives.
Paramtres du modle : activez cette option pour afficher les valeurs des paramtres du
modle aprs ajustement.

Graphiques :
- Donnes et prdictions : activez cette option pour afficher le graphique des donnes
observes et la courbe de la fonction ajuste.
- Rsidus : activez cette option pour afficher le diagramme en btons des rsidus.

Rsultats
Statistiques simples : le tableau de statistiques descriptives prsente pour toutes les
variables slectionnes des statistiques simples : le nombre dobservations, le nombre de
donnes manquantes, le nombre de donnes non manquantes, la moyenne, et lcart-type
(non biais).
295
slectionnes.
- le nombre dobservations ;
- le nombre de degrs de libert (DDL) ;

Paramtres du modle : ce tableau donne pour chaque paramtre sa valeur aprs
ajustement du modle. Dans le cas des fonctions prprogrammes, ou des fonctions dfinies
par lutilisateur lorsque les drives par rapport aux paramtres ont t entres, les carts-
types des estimateurs sont calculs.
Prdictions et rsidus : ce tableau donne pour chaque observation les donnes de dpart, la
valeur prdite par le modle et les rsidus.
Graphiques :
Si une seule variable quantitative explicative t slectionne le premier graphique
reprsente les donnes et la courbe correspondant la fonction choisie. Le second graphique
affich est le diagramme en btons des rsidus.

Exemple
Un exemple de rgression non linaire est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-nonlinf.htm

296
Bibliographie
Ramsay J.O. and Silverman B.W. (1997). Functional Data Analysis. Springer-Verlag, New
York.
Ramsay J.O. and Silverman B.W. (2002). Applied Functional Data Analysis. Springer-
Verlag, New York.

297
Arbres de classification et de rgression
Les arbres de classification et de rgression sont des mthodes qui permettent dobtenir des
modles la fois explicatifs et prdictifs. Parmi leurs avantages on notera dune part leur
simplicit du fait de la visualisation sous forme darbres, dautre part la possibilit dobtenir des
rgles en langage naturel. On distingue notamment deux cas dutilisation de ces modles :
- on utilise les arbres de classification pour expliquer et/ou prdire lappartenance dobjets
(observations, individus) une classe dune variable qualitative, sur la base de variables
explicatives quantitatives et/ou qualitatives.
- on utilise les arbres de rgression pour expliquer et/ou prdire la valeur prise par une
variable quantitative dpendante, en fonction de variables explicatives quantitatives et/ou
qualitatives.

Description
Les arbres de classification et de rgression ont t proposs progressivement sous
diffrentes formes. Les mthodes les plus utilises sont CHAID, CART et QUEST. La mthode
AID (Automatic Interaction Detection) a t propose par Morgan et Sonquist (1963),
complte plus tard par Kass (1980) qui lon doit la mthode CHAID (CHi-squared Automatic
Interaction Detection), puis enrichie par Biggs (1991) qui a propos la mthode CHAID
exhaustive. Le nom des mthodes darbres de classification et de rgression (Classification
And Regression Trees, CART) est le titre du livre introducteur de Breiman (1984). La mthode
QUEST (QUick, Efficient, Statistical Tree) est plus rcente (Loh et Shih, 1997).

Ces mthodes peuvent tre utilises lorsque lon veut :
- Construire un modle sur la base de rgles, afin dexpliquer un phnomne enregistr au
travers de variables dpendantes quantitatives ou qualitatives, tout en identifiant les
variables explicatives les plus pertinentes.
- Identifier des groupes gnrs partir des rgles.
- Prvoir la valeur de la variable dpendante pour de nouvelles observations.

CHAID, CART et QUEST
XLSTAT propose quatre mthodes de construction darbres de classification ou de rgression
: CHAID, exhaustive CHAID, CART et Quest. Dans la plupart des cas, les mthodes CHAID
donnent de trs bons rsultats. Dans certaines situations les deux autres mthodes peuvent
298
tre intressantes. Seul CHAID permet dobtenir des arbres non binaires (on dsigne par arbre
binaire un arbre o deux branches sont cres partir de chaque nud).

Quelque soit la mthode, les variables explicatives quantitatives sont transformes en des
variables discrtes 10 modalits en utilisant lalgorithme de Fisher aussi utilis pour le
partitionnement univari.

CHAID et CHAID exhaustive
Ces deux mthodes procdent en trois tapes : sparation, fusion, arrt.
Sparation: partir du nud initial qui comprend la totalit des objets, la meilleure variable de
sparation est celle pour laquelle la p-value est la plus petite, tout en tant infrieure au seuil
de sparation dfini par lutilisateur. Dans le cas dune variable dpendante quantitative, un
test F dANOVA est utilis pour comparer les moyennes de la variable dpendante pour
chacune des catgories de la variable explicative utilise pour la sparation. Dans le cas dune
variable dpendante qualitative, lutilisateur a le choix entre le test du Khi de Pearson et le
test du rapport de vraisemblance.
Fusion: si la variable de sparation est qualitative, la procdure essaye den runir les
modalits similaires dans des sous-nuds communs. Dans le cas de la mthode CHAID
exhaustive, cette tape est rpte jusqu ce quil ne reste plus que deux sous-nuds ; cest
pour cette raison que la mthode CHAID exhaustive gnre systmatiquement des arbres
binaires. Lorsquune modalit ou un regroupement de modalits sont regroups avec une
autre modalit ou un autre regroupement de modalits, les statistiques du Khi ou du rapport
des vraisemblances sont calcules. Si la p-value correspondante est suprieure au seuil de
regroupement entr par lutilisateur, on procde au regroupement des deux entits. Cette
procdure est rpte jusqu ce que la soit infrieure au seuil de fusion, ou lorsquil ny a plus
que deux entits.
Arrt: chaque cration dun nouveau sous-nud, les critres darrt sont vrifis, et si
aucune des conditions nest remplie, le nud est son tour considr comme un nud initial,
et la procdure est itre. Les conditions darrt sont les suivantes :
- Nud pur : le nud ne contient que des objets correspondant la mme modalit ou la
mme valeur de la variable dpendante.
- Profondeur maximale de larbre : le niveau du nud correspond la profondeur maximale
de larbre fixe par lutilisateur.
- Taille minimale dun nud parent : le nud contient un nombre dobjets infrieur ou gal
la taille minimale dun nud fixe par lutilisateur.
299
- Taille minimale dun nud fils : aprs la sparation au niveau dun nud, au moins lun des
sous-nuds comprend un nombre dobjets infrieur la taille minimale pour un nud fils
fixe par lutilisateur.

CART
Cette mthode vrifie rcursivement pour chaque nud si une sparation est possible sur la
base de la mesure choisie. Diffrentes mesures de puret des groupes sont disponibles. Dans
le cas o la variable dpendante est quantitative, une mesure base sur la LSD (Least Square
Deviation) est utilise. Dans le cas dune variable dpendante qualitative lutilisateur a le choix
entre les indices de Gini et de Twoing. Dans le cas dune variable explicative quantitative, un
partitionnement univari en k groupes est effectu. Ensuite, les k-1 points de sparation sont
calculs et tests. Pour une variable explicative qualitative, chaque regroupement en deux
groupes des k modalits est test (soit 2
k
1 possibilits).

Aprs chaque cration dun nouveau sous-nud, les critres darrt sont vrifis, et si aucune
des conditions nest remplie, le nud est son tour considr comme un nud initial, et la
procdure est itre. Les conditions darrt sont les suivantes :

QUEST
Cette mthode ne peut tre utilise quavec des variables dpendantes qualitatives. On
procde la sparation au niveau dun nud en deux sous tapes. On cherche dabord la
meilleure variable de sparation parmi les variables explicatives, puis on calcule le point de
sparation pour cette variable :
Slection de la variable de sparation : pour les variables explicative quantitatives, un test F
dANOVA est utilis pour comparer les moyennes correspondant aux diffrentes modalits de
la variable dpendante. Pour les variables explicatives qualitatives, un test du Khi de Pearson
est effectu. Soit X* la variable explicative pour laquelle la p-value est minimale. Si cette p-
value est infrieur alpha/p, o alpha est le seuil de signification dfini lutilisateur et p le
300
nombre de variables explicatives, alors X* est choisie comme variable de sparation. Si
aucune variable de sparation na pu tre trouve, on calcule un test de Levene pour chaque
variable quantitative explicative. Soit X** la variable explicative pour laquelle la p-value du test
de Levene est minimale. Si la p-value est infrieure alpha/(p+pX) o pX est le nombre de
variables explicatives quantitatives, alors X** est choisie comme variable de sparation. Si
aucune variable de sparation na t trouve, alors le nud ne sera pas spar en sous-
nuds.
Choix du point de sparation : dans le cas dune variable explicative qualitative, cette dernire
est dabord transforme en une variable qualitative X. Une description dtaille de cette
transformation peut tre trouve dans larticle de Loh et Shih (1997). Dans le cas dune
variable explicative quantitative, les moyennes des classes dfinies par les modalits de la
variable dpendante sont regroupes en utilisant un algorithme k-means jusqu lobtention de
deux groupes. Ensuite, une analyse discriminante quadratique est ralise sur les deux
groupes afin de dterminer la point de sparation optimal.
Arrt: chaque cration dun nouveau sous-nud, les critres darrt sont vrifis, et si
aucune des conditions nest remplie, le nud est son tour considr comme un nud initial,
et la procdure est itre. Les conditions darrt sont les suivantes :

Tableau de classification et courbe ROC
Parmi les nombreux rsultats proposs, XLSTAT donne la possibilit dafficher le tableau de
classification (aussi appel matrice de confusion) qui permet de calculer un pourcentage
dobservations bien classes. Lorsque seules deux classes (ou catgories, ou modalits) sont
prsentes dans la variable dpendante, la courbe ROC peut aussi tre affiche.
La courbe ROC (Receiver Operating Characteristics) permet de visualiser la performance dun
modle, et de la comparer cette performance celle dautres modles. Les termes utiliss
viennent de la thorie de dtection du signal.
301

est excellent.
Comme pour les arbres de classification, lanalyse discriminante et la rgression logistique
permettent de modliser une variable qualitative. Dans le cas de variables binaires lutilisateur
pourra comparer les performances des deux mthodes en sappuyant sur les courbes ROC.
302
Enfin, il est conseill de valider le modle sur un chantillon de validation dans la mesure du
possible. XLSTAT offre plusieurs possibilits pour automatiquement gnrer un chantillon de
validation.

Bote de dialogue

calculs.

Onglet Gnral :
Slectionnez la ou les variables rponse que vous souhaitez modliser. Si plusieurs variables
sont slectionnes, XLSTAT fera les calculs pour chacune des variables indpendamment. Si
des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption Libells des
Type de donnes : slectionnez le type de donnes correspondant aux variables
dpendantes.

303
X \ Variables explicatives :
Quantitatives : activez cette option pour pouvoir slectionner une ou plusieurs variables
explicatives quantitatives. Les donnes slectionnes doivent tre de type numrique. Si le
est active.
Qualitatives : activez cette option pour pouvoir slectionner une ou plusieurs variables
explicatives qualitatives. Les donnes slectionnes peuvent tre de tout type, mais les
donnes numriques sont automatiquement considres comme nominales. Si le libell des
variables a t slectionn, veuillez vrifier que loption Libells des variables est active.


actif.


Mthode : choisissez la mthode utiliser pour les calculs parmi CHAID, CHAID exhaustive,
CART et QUEST. La mthode QUEST nest utilisable que si la variable dpendante est
qualitative.
Mesure : dans le cas des mthodes CHAID ou CHAID exhaustive avec une variable
dpendante qualitative, vous pouvez choisir dutiliser le Khi de Pearson et le rapport des
vraisemblances. Dans le case de la mthode CART avec une variable dpendante qualitative,
vous avez le choix entre les indices de Gini et de Twoing.
304
Profondeur maximale de larbre : entrez la profondeur maximale de larbre.

Onglet Options :
Taille minimale dun nud :
- Taille minimale pour un parent : entrez la taille minimale (nombre dobjets) que doit
avoir un nud parent pour tre ventuellement subdivis.
- Taille minimale pour un fils : entrez la taille minimale (nombre dobjets) que doit avoir
un nud fils aprs une subdivision pour tre conserv.

Niveau de signification (%) : entrez le niveau de signification utiliser pour les tests F et
Khi. Des p-values infrieures cette valeur entranent une subdivision du nud.

Options CHAID : ces options ne sont actives quavec les mthodes CHAID et concernent les
variables explicatives qualitatives.
- Seuil de sparation : entrez la valeur du seuil de sparation. Si une p-value est
suprieure cette valeur, alors deux modalits ou groupes de modalits seront
fusionns.
- Autoriser la redivision : activez cette option si vous voulez permettre que des
modalits dune variable qualitative explicative pralablement fusionnes, puissent tre
nouveau subdivises.
- Seuil de regroupement : entrez la valeur du seuil de regroupement. Si une p-value est
infrieure cette valeur alors deux modalits ou plus pralablement fusionnes seront
divises.
- Correction de Bonferroni : activez cette option si vous souhaitez utiliser une
correction de Bonferroni lors du calcul des p-values associes aux modalits
fusionnes.

Nombre dintervalles : cette option nest active que si des variables explicatives quantitatives
ont t slectionnes. Vous pouvez choisir le nombre maximum dintervalles gnrs au cours
de la discrtisation des variables quantitatives avec lalgorithme de partitionnement univari de
Fisher. Le nombre maximum dintervalles autoris est 10.

305
Conditions darrt : si les observations sont pondres et que lalgorithme CHAID est utilis
certains calculs requirent une procdure itrative pour la discrtisation des variables
explicatives quantitatives.
1000.

Onglet Validation :

Onglet Prdiction :
306


Onglet Sorties :
Structure de larbre : activez cette option pour afficher le tableau des nuds, avec pour
chaque nud, le nombre d'objets, la p-value de la s sparation, et les deux premiers nuds-
fils. Dans le cas d'une variable dpendante qualitative, la modalit prdite est affiche. Pour
une variable dpendante quantitative, la valeur moyenne prdite du nud est affiche.
Frquences des nuds : activez cette option pour afficher le tableau des effectifs et des
frquences correspondant aux diffrentes modalits de la variable dpendante.
Rgles : activez cette option pour afficher le tableau des rgles en langage naturel
correspondant aux diffrents nuds et aux modalits de la variable dpendante. Par dfaut,
seules les rgles correspondant la modalit la plus frquente sont affiches. Activez loption
Toutes les modalits pour afficher les rgles pour toutes les modalits.
Rsultats par objet : activez cette option pour afficher pour chaque observation la modalit
observe, la modalit prdite, et, dans le cas o la variable dpendante est qualitative, la
probabilit correspondant chacune des modalits de la variable dpendante.
307
Matrice de confusion : activez cette option pour afficher le tableau permettant de visualiser
les nombres dobservations bien et mal classes pour chacune des classes.

Onglet Graphiques :
Arbre : activez cette option pour afficher larbre de classification ou de rgression.
- Diagrammes en btons : activez cette option pour afficher les nuds sous forme dun
diagramme en btons, o chaque bton correspond une modalit de la variable
dpendante.
o Effectifs : choisissez cette option pour afficher leffectif correspondant
chaque barre.
o % : choisissez cette option pour afficher le % de la population totale
correspondant chaque barre
- Diagrammes circulaires : activez cette option pour afficher les nuds sous forme dun
diagramme circulaire.

Menu contextuel pour les arbres
Une fois larbre affich, si vous cliquez sur lun des nuds de larbre, puis que cliquez sur le
bouton droit de votre souris, un menu contextuel est affich avec les commandes suivantes :
Afficher tout l'arbre : cliquez sur cette commande pour afficher tout larbre, si vous avez dj
cach une ou plusieurs branches.
Cacher la branche : cliquez sur cette commande pour cacher les branches partant du nud
slectionn.
Afficher la branche : cliquez sur cette commande pour afficher les branches partant du nud
slectionn.
Dfinir le niveau d'lagage : choisissez cette commande pour ensuite dfinir un niveau
dlagage gnral pour larbre.
Rinitialiser ce menu : cliquez sur cette commande pour rinitialiser ce menu et afficher le
menu Excel.

308
Rsultats

Structure de larbre : dans ce tableau sont affichs pour chaque nud, le nombre d'objets, la
p-value de la sparation, et les deux premiers nuds-fils. Dans le cas d'une variable
dpendante qualitative, la modalit prdite est affiche. Pour une variable dpendante
quantitative, la valeur moyenne prdite du nud est affiche.
Arbre de classification ou de rgression : une lgende permet de reprer quel code couleur
est utilis pour chacune des modalits (variable dpendante qualitative) ou chacun des
intervalles (variable dpendante quantitative) de la variable dpendante. La visualisation
graphique de larbre permet de rapidement voir comment il a t itrativement construit pour
aboutir des rgles daffectation aussi pures que possible, ce qui signifie quidalement les
feuilles de larbre ne devraient correspondre qu une seule modalit (ou intervalle).
Chaque nud est reprsent sous la forme dun diagramme en btons ou dun diagramme
circulaire. Pour les diagrammes circulaires, le disque intrieur permet de visualiser la
distribution des diffrentes modalits (ou intervalles) au niveau de ce nud. Lanneau
extrieur correspond la distribution de ces mmes modalits (ou intervalles au niveau du
nud parent.
Lidentifiant du nud, le nombre dobjets, leffectif du nud et sa puret dans le cas dune
variable quantitative dpendante sont affichs ct de chaque nud. Lorsque la variable
dpendante est qualitative, la prdiction est affiche la place de la puret.
La variable de sparation est affiche entre un nud parent et ses nuds fils. Les flches
pointent de cette variable vers les nuds fils. Les valeurs (des modalits pour une variable
dpendante qualitative, ou des intervalles pour une variable dpendante quantitative)
correspondant chacun des nuds fils sont affichs dans le rectangle en haut gauche de
chaque nud fils.
Llagage de larbre peut tre effectu grce au menu contextuel de larbre. Slectionnez un
nud, puis cliquez sur le bouton droit de la souris pour afficher le menu contextuel. Les
options disponibles sont dcrites dans la section consacre au menu contextuel.
Frquence des nuds : dans ce tableau sont fournis les effectifs et les % dobjets
correspondant aux diffrents nuds de larbre. Dans le cas o la variable dpendante est
309
quantitative, les nombres dobjets correspondant chacune des modalits au niveau de
chaque nud sont affichs.
Rgles : dans ce tableau sont affichs les rgles en langage naturel permettant de daffecter
les observations (ou objets) lune ou lautre des modalits de la variable dpendante. Ces
rgles, facilement comprhensibles sont facilement rutilisables. Par dfaut, seules les rgles
correspondant la modalit la plus frquente sont affiches. Si loption Toutes les
modalits est active, les rgles pour toutes les modalits sont affiches.
Rsultats par objet : ce tableau indique pour chaque observation la modalit observe, la
modalit prdite, et, dans le cas o la variable dpendante est qualitative, la probabilit
correspondant chacune des modalits de la variable dpendante. Les observations mal
classes sont affiches en gras.
Matrice de confusion : ce tableau permet de visualiser les nombres dobservations bien et
mal classes pour chacune des classes (voir la section description pour plus de dtails).

Exemple
Un exemple danalyse deffets de dose est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-dtrf.htm

Bibliographie
Bigss D., Ville B. and Suen E. (1991). A method of choosing multiway partitions for
classification and decision trees. Journal of Applied Statistics, 18(1), 49-62.
Goodman L. A. (1979). Simple models for the analysis of association in cross-classifications
having ordered categories. Journal of the American Statistical Association, 74, 537-552.
Kass G. V. (1980). An exploratory technique for investigating large quantities of categorical
data. Applied Statistics, 20(2), 119-127.
Breiman L., Friedman J.H., Olshen R., and Stone C.J. (1984). Classification and Regression
Tree Wadsworth & Brooks/Cole Advanced Books & Software, Pacific California.
Lim T. S., Loh W. Y. and Shih Y. S. (2000). A comparison of prediction accuracy, complexity,
and training time of thirty-three old and new classification algorithms. Machine Learning, 40(3),
203-228.
310
Loh W. Y. and Shih Y. S., (1997). Split selection methods for classification trees. Statistica
Sinica, 7, 815 - 840.
Morgan J.N. and Sonquist J.A. (1963). Problems in the analysis of survey data and a
proposal. Journal. Am. Statist. Assoc., 58, 415-434.
Rakotomalala R. (1997). Graphes dInduction, PhD Thesis, Universit Claude Bernard Lyon
1.
Rakotomalala R. (2005). TANAGRA : Une plate-forme dexprimentation pour la fouille de
donnes. Revue MODULAD, 32, 70-85.
Bouroche J. and Tenenhaus M. (1970). Quelques mthodes de segmentation, RAIRO, 42,
29-42.

311
Rgression PLS/PCR/OLS
Utilisez ce module pour modliser et prdire les valeurs dune ou plusieurs variables
quantitatives en fonction dune combinaison linaire dune ou plusieurs variables explicatives
quantitatives et/ou qualitatives.

Description
Les trois mthodes de rgression auxquelles ce module donne accs ont pour proprits
communes de gnrer des modles mettant en jeu des combinaisons linaires de variables
explicatives. La diffrence entre les trois mthodes vient essentiellement de la faon dont sont
traites les structures de corrlations entre les variables.

Rgression OLS
Des trois mthodes, cest la plus classique. La rgression OLS (Ordinary Least Squares) est
plus communment appele rgression linaire (simple ou multiple).
Dans le cas dun modle p variables explicatives, le modle statistique de la rgression OLS
scrit
0
1
p
j j
j
Y X | | c
=
= + +

o Y dsigne la variable dpendante, |
0
,est constante du modle, X
j
dsigne la j
ime
variable
explicative du modle (j= 1 p), et c une erreur alatoire desprance 0 et de variance o.
Dans le cas o lon dispose de n observations, lestimation de la valeur de la variable Y pour
lobservation i est donne par lquation suivante :
=
+ =
p
j
ij j i
x y
1
0
| | (i= 1, n)
La mthode OLS correspond la minimisation de la somme des carts quadratiques entre les
valeurs observes et les valeurs prdites. On montre que cette minimisation conduit aux
estimateurs des paramtres du modle suivants :
( )
1
2
1
' '
1
( )
n
i i i
i
X DX X Dy
w y y
W p
|
o
-
=

312
o
| dsigne le vecteur des estimateurs des paramtres |

i
, X est la matrice des variables
explicatives prcdes dun vecteur de 1, y est le vecteur des n valeurs observes pour la
variable dpendante, p* est le nombre de variables explicatives auquel on additionne 1 si la
constante nest pas fixe, w
i
est le poids associ lobservation i, et W est la somme des
poids w
i
. D est la matrice diagonale des poids w
i
.
Le vecteur des valeurs prdites scrit finalement :
( )
1
' ' y X X DX X Dy
=
Les limitations de la rgression OLS viennent de la contrainte issue du calcul de linverse de la
matrice XX : il faut que la matrice soit de rang p+1. En outre, certains problmes numriques
peuvent tre rencontrs. XLSTAT utilise des algorithmes notamment dus Dempster (1969)
qui permettent de contourner ces deux problmes : dans le cas o la matrice est de rang q o
q est strictement infrieur p+1, certaines variables sont supprimes du modle, soit parce
quelles sont constantes, soit parce quelles font partie dun bloc de variables colinaires.
Par ailleurs, une slection automatique des variables est effectue dans le cas o lutilisateur
slectionnerait un nombre de variables trop important pour le nombre dobservations (la limite
thorique est n-1, car au-del la matrice XX est non inversible).
La suppression de certaines variables peut ne pas tre optimale : dans certains cas, on
najoute pas une variable au modle en raison de colinarit avec une variable ou un bloc de
variables dj prsentes, mais il se pourrait quil soit plus pertinent de retirer une variable dj
prsente dans le modle et dajouter cette nouvelle variable.
En raison de ces problmes dautres mthodes ont t proposes.

Rgression PCR
La rgression PCR (Principal Components Regression) ou rgression sur composantes
principales comprend trois tapes : on ralise dabord une ACP (Analyse en Composantes
Principales) sur le tableau des variables explicatives, puis on effectue une rgression OLS sur
les composantes retenues, puis on calcule les paramtres du modle sur les variables
dorigine.
LACP permet de passer dun tableau X comprenant n observations dcrites par p variables
un tableau S de n observations dcrites par q composantes, o q est infrieur ou gal p et
tel que (SS) est inversible. Une slection supplmentaire peut tre effectue de telle sorte que
seuls les r composantes les plus corrles avec la variable Y soient gardes pour la
rgression OLS. On obtient alors le tableau R.
Le calcul de la rgression OLS seffectue sur le tableau R. On obtient alors les paramtres
correspondant chacun des r facteurs. Afin de palier le problme dinterprtation des
paramtres ainsi obtenus, XLSTAT effectue automatiquement les calculs ncessaires pour
obtenir les paramtres et les intervalles de confiance pour les variables de dpart.
313

Rgression PLS
Cette mthode est rapide, efficace et optimale pour un critre de minimisation des covariances
bien matris. Son utilisation est recommande dans le cas o un grand nombre de variables
explicatives est utilis, ou lorsquil y a de fortes colinarits entre les variables.
Lide de la rgression PLS (Partial Least Squares) est de crer partir dun tableau de n
observations dcrites par p variables, un ensemble de h composantes avec h<p. La mthode
de construction des composantes diffre de celle de lACP, et prsente lavantage de bien
saccommoder de la prsence de donnes manquantes. La dtermination du nombre de
composantes retenir est en gnral fonde sur un critre mettant en jeu une validation
croise. Lutilisateur peut aussi fixer lui-mme le nombre de composantes retenir.
On distingue souvent la PLS1 de la mthode PLS2. La PLS1 concerne le cas o il y a une
seule variable dpendante, la PLS2 celui o il y a plusieurs variables dpendantes. Les
algorithmes utiliss dans XLSTAT sont tels que la PLS1 est un cas particulier de la PLS2. La
distinction ne sera donc pas faite ici.
Dans le cas des mthodes OLS et PCR, si lon doit calculer les modles pour plusieurs
variables dpendantes, le calcul des modles consiste en une simple boucle sur les colonnes
du tableau des variables dpendantes. Dans le cas de la rgression PLS, la structure de
covariance du tableau des variables dpendantes influe aussi sur les calculs.
Lquation du modle de la rgression PLS est donne par
( )
'
'
1
' '
h h h
h h h
h h h h h
Y T C E
XW C E
XW PW C E
-
= +
= +
= +

o Y est la matrice des variables dpendantes, X celle des variables explicatives, et o T
h
, C
h
,
W*
h
, W
h
et P
h
, sont des matrices gnres par lalgorithme PLS, et o E
h
est la matrice des
rsidus.
La matrice B des coefficients de rgression de Y sur X en utilisant h composantes gnres
par lalgorithme de rgression PLS est donc dfinie par :
( )
1
' '
h h h h
B W PW C
=
Remarque : il sagit donc comme en rgression OLS ou PCR dun modle linaire.

Remarques :
314
Les trois mthodes donnent le mme rsultat si le nombre de composantes issues de lACP
(en rgression PCR) ou de la PLS (rgression PLS) est gal au nombre de variables
explicatives slectionnes.
En rgression PLS, les composantes sont cres de fait de telle sorte quelles expliquent au
mieux Y, alors quen PCR elles sont au dpart cres uniquement en fonction de X. XLSTAT
permet de corriger partiellement ce dsavantage en proposant de slectionner les
composantes les plus corrles avec Y.

Bote de dialogue

calculs.

Onglet Gnral :
Quantitatives : slectionnez la ou les variables dpendantes quantitatives. Les donnes
slectionnes doivent tre de type numrique. Si le libell des variables a t slectionn,
315
explicatives quantitatives. Slectionnez alors la ou les variables correspondantes sur la feuille
Excel. Les donnes slectionnes doivent tre de type numrique. Si le libell des variables a
est active.

Mthode : choisissez la mthode de rgression utiliser :
- PLS : activez cette option pour calculer une rgression avec la mthode des moindres
carrs partiels (Partial Least Squares).
- PCR : activez cette option pour calculer une rgression sur les composantes principales
(Principal Components Regression).
- OLS : activez cette option pour calculer une rgression avec la mthode des moindres
carrs ordinaires (Ordinary Least Squares).

actif.

(variables dpendantes, explicatives, poids et libells des observations) contient un libell.
Obs2, ).

316
Poids dans la rgression : cette option nest active que pour les rgressions PCR et OLS.
Activez cette option si vous voulez effectuer une rgression par les moindres carrs pondrs.
Si vous nactivez pas cette option, les poids seront tous considrs comme valant 1. Les poids

Onglet Options :
Options communes :
Options pour la rgression PLS :
Conditions darrt :
- Automatique : activez cette option que XLSTAT dtermine automatiquement le
nombre de composantes retenir.
- Seuil Qi : activez cette option pour fixer la valeur seuil du critre Qi utilise pour
dterminer si lapport dune composante est significatif ou non. La valeur par dfaut est
0.0975 et correspond 1-0.95.
- Amlioration du Qi : activez cette option pour fixer la valeur seuil du critre
damlioration du Qi utilise pour dterminer si lapport dune composante est
significatif ou non. La valeur par dfaut est 0.05 et correspond 5% damlioration. La
valeur de ce critre est donne par :
( )
( ) ( )
( )
1
Aml.
1
Q h Q h
Q h
Q h

=

- Press minimum : activez cette option pour que le nombre de composantes retenues
corresponde au modle donnant le coefficient de Press minimal.
- Max composantes : activez cette option pour fixer le nombre maximum de
composantes prendre en compte dans le modle. La valeur par dfaut est 2.
317
Options pour la rgression PCR :
ACP norme : activez cette option pour effectuer une ACP sur la matrice de corrlation.
Dsactivez cette option pour effectuer une ACP sur la matrice de covariance.
Filtrer les composantes : vous pouvez activer lune ou les deux options suivantes afin de
rduire le nombre de composantes utilises dans le modle :
variabilit totale que doivent reprsenter les composantes slectionnes.
- Nombre maximum : activez cette option pour fixer le nombre maximum de
composantes prendre en compte.
Trier les composantes : choisissez lune des options suivantes afin de dterminer quel critre
est utilis pour trier les composantes avant que soient pris en compte les critres %
minimum ou Nombre maximum :
- Corrlations avec les Y : activez cette option pour que la slection des composantes
se fasse aprs un tri dcroissant suivant le carr du coefficient de corrlation (R) entre
la variable Y et les composantes. Cette option est recommande.
- Valeurs propres : activez cette option pour que la slection des composantes se fasse
aprs un tri dcroissant suivant les valeurs propres associes aux composantes.
Options pour les rgressions PCR et OLS:
Options pour la rgression OLS:
Contraintes : cette option nest active que si vous avez slectionn des variables explicatives
qualitatives. Choisissez le type de contrainte :
- a1 = 0 : le paramtre de la premire modalit rencontre pour chaque variable
qualitative est fix 0. Ce type de contrainte est intressant lorsque l'on considre que
la premire modalit correspond un standard, ou un effet nul.
- Somme(ai) = 0 : pour chaque variable la somme des paramtres associs aux
diffrentes modalits vaut 0.
- Somme(ni.ai) = 0 : pour chaque variable la somme des paramtres associs aux
diffrentes modalits pondrs par la frquence des modalits respectives vaut 0.
318
dans le modle.
dans le modle.
seconde variable est telle que la probabilit associe son t est infrieure au Niveau
seuil , elle est ajoute au modle. De mme pour une troisime variable. A partir de
lajout de la troisime variable, aprs chaque ajout, on value pour toutes les variables
prsentes dans le modle quel serait limpact de son retrait (toujours au travers de la
statistique t). Si la probabilit est suprieure au Niveau seuil , la variable est retire.
La procdure se poursuit jusqu ce que plus aucune variable ne puisse tre
ajoute/retire.
- Niveau seuil : entrez la probabilit seuil correspondant la statistique t de Student
pour la slection des variables.

Onglet Validation :
319

Onglet Prdiction :

Ces options ne sont disponibles que dans le cas des rgressions PCR et OLS. Pour la
rgression PLS, la gestion des donnes manquantes fait partie de la mthode.
320

Onglet Sorties :
Options communes :
l'ensemble des variables slectionnes.
Options pour la rgression PLS :
Composantes t, u et u : activez cette option pour afficher les tableaux des composantes. Si
cette option nest pas active, les graphiques correspondants ne sont pas affichs.
Vecteurs c, w, w* et p : activez cette option pour afficher les tableaux des vecteurs gnrs
par lalgorithme PLS. Si cette option nest pas active, les graphiques correspondants ne sont
pas affichs.
VIP : activez cette option pour afficher le tableau et les graphiques correspondant aux Variable
Importance for the Projection (VIP).
Intervalles de confiance : activez cette option pour calculer et afficher les intervalles de
confiance autour des coefficients standardiss . Les calculs utilisent une mthode Jacknife.
Dtection des valeurs extrmes : activez cette option pour afficher le tableau et les
graphiques des valeurs extrmes.

Options pour la rgression PCR :
321
coordonnes sont ensuite utilises dans ltape OLS de la rgression PCR.

Options pour les rgressions PCR et OLS :
variance.
Type I SS : activez cette option pour afficher le tableau de lanalyse de limpact des variables
de Type I (Type I Sum of Squares).
Type III SS : activez cette option pour afficher le tableau de lanalyse de limpact des variables
de Type I (Type III Sum of Squares).

variance.
Prdictions ajustes : activez cette option pour calculer et afficher les prdictions ajustes
dans le tableau des prdictions et rsidus.
D de Cook : activez cette option pour calculer et afficher les distances de Cook dans le

Onglet Graphiques :
Options communes :
322
- Intervalles de confiance : activez cette option pour afficher les intervalles de confiance
sur les graphiques (1) et (4).

Options pour les rgressions PLS et PCR :
des corrlations entre des composantes et des variables initiales. Dans le cas de la PCR,
activez cette option pour afficher le cercle des corrlations.
vecteurs.
filtrage.
vecteurs.
323
Etiquettes colores : activez cette option pour afficher les tiquettes de variables et
dobservations de la mme couleur que les points correspondants
Filtrer : activez cette option pour fixer le nombre de points affichs sur les graphiques :

Rsultats
Rsultats de la rgression PLS :
Le premier tableau prsente des indices de qualit du modle sous forme de contribution
cumule des composantes aux indices :
- Lindice Qcum est une mesure de lapport global des h premires composantes la
qualit prdictive du modle (et de ses sous-modles sil y a plusieurs variables
dpendantes). Lindice Qcum(h) est dfini par :
( )
1
1
1
1
( ) 1
q
kj h
k
q
j
k j
k
PRESS
Q cum h
SCE
=
=
=
=

[

324
Cet indice fait intervenir un rapport des coefficients de PRESS (impliquant donc une
validation croise) et de la somme des carrs des erreurs (SCE) pour un modle utilisant
une composante de moins. La recherche du maximum de Qcum revient donc chercher le
modle le plus stable possible.
- Lindice RYcum est la somme des coefficients de dtermination entre les variables
dpendantes et les h premires composantes. Cest donc une mesure du pouvoir
explicatif des h premires composantes pour les variables dpendantes du modle.
- Lindice RXcum est la somme des coefficients de dtermination entre les variables
explicatives et les h premires composantes. Cest donc une mesure du pouvoir
explicatif des h premires composantes pour les variables explicatives du modle.
Un diagramme en btons est ensuite affich afin de permettre une visualisation de lvolution
des trois indices en fonction du nombre de composantes. Si les RYcum et RXcum croissent
ncessairement avec le nombre de composantes, ce nest pas le cas pour Qcum.
Le tableau suivant correspond la matrice de corrlation des variables explicatives et
dpendantes avec les composantes t et . Un graphique permet ensuite de visualiser les
corrlations avec les composantes t.
Le tableau des vecteurs w est ensuite affich, suivi des tableaux des vecteurs w* et des
vecteurs c qui, comme il est montr dans la section Description , interviennent directement
dans le modle. Si h=2 correspond un modle acceptable, il est dmontr que la projection
des vecteurs x sur les vecteurs y sur le graphique des variables sur les w*/c, fournit une
ide dune part du signe dans le modle des coefficients correspondant, dautre part du poids
relatif des variables de dpart pour lexplication des variables dpendantes.
Le tableau suivant correspond aux coordonnes des observations dans lespace des
composantes t. Le graphique est ensuite affich. Si des observations de validation ont t
slectionnes, elles sont affiches sur ce graphique.
Le tableau des coordonnes normalises est ensuite affich. Ces coordonnes sont gales
la corrlation entre les variables indicatrices des observations et les composantes t. Ces
coordonnes sont utilises pour le graphique des corrlations qui suit, et qui permet la
visualisation simultane des observations, des variables dpendantes et des variables
explicatives. Un exemple dinterprtation de ce graphique est disponible dans Tenenhaus
(2003).
Le tableau suivant correspond aux coordonnes des observations dans lespace des
composantes u puis dans celui des composantes u. Le graphique est ensuite affich. Si des
observations de validation ont t slectionnes elles sont affiches sur ce graphique.
Le tableau des indices de qualit Q permet de voir comment les composantes contribuent
lexplication des variables dpendantes. Le tableau des indices de qualit Q cumul permet
de mesurer la qualit associe un espace de dimension croissante.
Les tableaux des R et des redondances entre les variables de dpart (dpendantes et
explicatives) et les composantes t et u~ permettent de mesurer le pouvoir explicatif des
325
composantes t et u~ tant au sens du R quau sens de la redondance. La redondance entre un
tableau X (n lignes et p variables) et une composante c est la part de la variance de X
explique par c. On la dfinit comme la moyenne des carrs des coefficients de corrlation
entre les variables et la composante :
( )
2
1
1
, ( , )
p
j
j
Rd X c R x c
p
=
=

Des redondances on peut alors dduire les VIP (Variable Importance for the Projection) qui
mesurent limportance dune variable explicative pour la construction des composantes t. La
VIP pour la variable explicative j et la composante h est dfinie par :
( )
( )
2
1
1
,
,
h
hj i ij
h
i
i
i
p
VIP Rd Y t w
Rd Y t
=
=
=

Sur les graphiques des VIP (un diagramme en bton par composante), une limite est trace
pour identifier les VIP suprieures 0.8 ; il sagit dun seuil empirique propos par Wold (1995)
permettant didentifier les variables fortement contributrices au modle.
Le dernier suivant permet la dtection des valeurs extrmes. Les DModX (distances au
modle des observations dans lespace des X) permettent didentifier les valeurs anormales
des variables explicatives, tandis que les DModY (distances au modle des observations dans
lespace des Y) permettent didentifier les valeurs anormales des variables dpendantes. Sur
les graphiques correspondants sont affichs les seuils DCrit partir desquels on peut
considrer quune valeur de DMod est anormalement leve. Les DCrit sont calculs en
utilisant les valeurs seuil, classiquement calcules pour les box plots. La valeur de DModX
pour la i
ime
observation est dfinie par :
2
1
( , )
1
p
ij
j
i
e X t
n
DModX
n h p h
=
=

o les e(X,t)
ij
(i=1 n) sont les rsidus de la rgression de X sur la j
ime
composante. La valeur
de DModY pour la i
ime
observation est dfinie par :
2
1
( , )
q
ij
j
i
e Y t
DModY
q h
=
=

o q est le nombre de variables dpendantes, et o les e(Y,t)
ij
(i=1 n) sont les rsidus de la
rgression de Y sur la j
ime
composante.

326
Le tableau qui suit prsente les paramtres des modles pour les diffrentes variables
dpendantes, suivi des quations correspondantes si le nombre de variables explicatives est
infrieur 20.
Pour chacune des variables dpendantes est ensuite affiche une srie de tableaux et
graphiques.
Statistiques dajustement : dans ce tableau sont affiches les statistiques relatives
lajustement du modle de rgression, dont les dfinitions sont donnes dans la section
consacre
le poids relatif des variables dans le modle. Pour le calcul des intervalles de confiance, dans
le cadre de la PLS, les formules bases sur les hypothses de normalit utilises en
rgression OLS ne sont plus valables. Une mthode bootstrap propose par Tenenhaus et al
(2004) permet destimer les intervalles de confiance. Plus la valeur absolue dun coefficient est
leve, plus le poids de la variable correspondante est important. Lorsque lintervalle de
confiance autour des coefficients normaliss comprend la valeur 0 (cela est facilement visible
sur le graphique des coefficients normaliss), le poids dune variable dans le modle nest pas
significatif.
Dans le tableau des prdictions et rsidus sont donns pour chaque observation la valeur
observe de la variable dpendante, la prdiction du modle, les rsidus et les intervalles de
confiance. Deux types dintervalles de confiance sont affichs : un intervalle de confiance
autour de la moyenne (correspondant au cas o lon ferait la prdiction pour un nombre infini
dobservations avec un ensemble de valeurs donnes des variables explicatives) et un
intervalle autour de la prdiction ponctuelle (correspondant au cas dune prdiction isole pour
des valeurs donnes des variables explicatives). Le second intervalle est toujours plus grand
que le premier, les alas tant plus importants. Si des donnes de validation ont t
Les trois graphiques affichs ensuite permettent de visualiser respectivement
- lvolution des rsidus en fonction de la variable dpendante,
- la distance entre les valeurs prdites et observes (pour un modle idal, les points
seraient tous sur la bissectrice),
- le diagramme en btons des rsidus.
Si vous avez slectionn des donnes utiliser pour calculer des prdictions, le tableau des
prdictions est ensuite affich.
Rsultats de la rgression PCR :
La rgression PCR requrant le calcul dune Analyse en Composantes Principales, les
rsultats concernant cette dernire sont affichs.
327
Le nombre de valeurs propres est gal au nombre de valeurs propres non nulles. Si un filtrage
a t demand, il est appliqu au niveau de la rgression elle-mme.
Si les options de sorties correspondantes ont t actives, XLSTAT affiche ensuite les
coordonnes des variables dans le nouvel espace, puis les corrlations entre les variables
dorigine et les composantes dans le nouvel espace. Les corrlations sont gales aux
coordonnes des variables dans le cas dune ACP norme. Les coordonnes des
observations dans le nouvel espace sont affiches dans un troisime tableau, et constituent
les donnes utilises ensuite pour la rgression. Si des donnes de validation ont t
slectionnes, elles sont affiches en fin de tableau. Si loption correspondante a t active
les biplots sont affichs.
Si loption de filtrage des composantes, sappuyant sur les corrlations avec les variables
dpendantes a t choisie, les composantes retenues pour la rgression sont celles
prsentant les plus forts coefficients de dtermination (R) avec les variables dpendantes. La
matrice des coefficients de corrlation entre les composantes et les variables
dpendantes est alors affiche. Le nombre de composantes retenues dpend du nombre de
valeurs propres et des options choisies ( % minimum ou Max composantes ).
Si loption de filtrage des composantes sappuyant sur les valeurs propres a t choisie, les
composantes retenues pour la rgression sont celles prsentant les plus fortes valeurs
propres. Le nombre de composantes retenues dpend du nombre de valeurs propres et des
options choisies ( % minimum ou Max composantes ).
Rsultats communs la rgression PCR et OLS :
Statistiques dajustement : dans ce tableau sont affiches les statistiques relatives
erreurs).
( )
2
1
2
1
R 1
( )
n
i i i
i
n
i i
i
w y y
w y y
=
=
, avec
1
1
n
i i
i
y w y
n
=
=

328
- Le R sinterprte comme la proportion de la variabilit de la variable
dpendante explique par le modle. Plus le R est proche de 1, meilleur est le modle.
( )
1
R 1 1
1
W
R
W p
=

( )
2
1
1
*
n
i i i
i
MCE w y y
W p
=
=

la MCE.
1
100
n
i i
i
i
i
y y
MAPE w
W y
=
=

( ) ( )
( )
2
1 1
2
2
1

n
i i i i
i
n
i i i
i
y y y y
DW
w y y

=
=
(

=

Ce coefficient correspond au coefficient dautocorrlation dordre 1 et permet de vrifier que
les rsidus du modle ne sont pas autocorrls, sachant que lindpendance des rsidus est
lune des hypothses de base de la rgression linaire. Lutilisateur pourra se rfrer une
table des coefficients de Durbin-Watson pour vrifier si lhypothse dindpendance des
rsidus est acceptable.
2 *
SCE
Cp p W
o
= +
329
o SCE est la somme du carr des erreurs pour le modle avec p variables explicatives, et
o o correspond lestimateur de la variance des rsidus pour le modle comprenant
toutes les variables explicatives. Plus le coefficient Cp est proche de p* moins le modle est
biais.
ln 2 *
SCE
AIC W p
W
| |
= +
|
\ .

Ce critre propos par Akaike (1973) drive de la thorie de linformation, et sappuie sur la
mesure de Kullback et Leibler (1951). Cest un critre de slection de modles qui pnalise
les modles pour lesquels lajout de nouvelles variables explicatives napporte pas
suffisamment dinformation au modle, linformation tant mesure au travers de la SCE. On
cherche minimiser le critre AIC.
( ) ln ln *
SCE
SBC W W p
W
| |
= +
|
\ .

Ce critre propos par Schwarz (1978) est proche du critre AIC, et comme ce dernier on
cherche le minimiser.
( )( ) 1 *
*
R W p
PC
W p
+
=

Ce critre propos par Amemiya (1980) permet comme le R ajust de tenir compte de la
parcimonie du modle.
( )
2
( )
1
Press
n
i i i i
i
w y y

=
=

o
( )
i i
y

est la prdiction pour lobservation i lorsque cette dernire nest pas
utilise pour lestimation des paramtres. On obtient alors
Press
Press RMCE
- * W p
=
Le Press RMCE peut alors tre compar au RMCE. Une diffrence importante
entre les deux indique que le modle est sensible la prsence ou absence de
certaines observations dans le modle.
330

la constante fixe.
Dans le cas dune rgression PCR, le premier tableau des paramtres du modle correspond
aux paramtres du modle sappuyant sur les composantes principales slectionnes. Ce
tableau est difficilement interprtable. Pour cette raison, une transformation est opre afin
dobtenir les paramtres du modle correspondant aux variables dorigine. Ce dernier
tableau est obtenu directement dans le cas dune rgression OLS. Dans ce tableau, pour la
constante du modle et pour variable sont affichs lestimation du paramtre, lcart-type
correspondant, le t de Student et la probabilit associe, ainsi que lintervalle de confiance.
modle.
331
rsidus normaliss sous la forme dun diagramme en btons. Ce dernier graphique permet de

Rsultats spcifiques la rgression OLS :

Exemple
Un exemple dutilisation de la rgression PLS est disponible sur le site de Addinsoft
ladresse suivante :
http://www.xlstat.com/demo-plsf.htm

332
Bibliographie
Akaike H. (1973). Information Theory and the Extension of the Maximum Likelihood Principle.
In: Second International Symposium on Information Theory. (Eds: V.N. Petrov and F. Csaki).
Bastien P., Esposito Vinzi V. and Tenenhaus M. (2005). PLS generalised regression.
Computational Statistics and Data Analysis, 48, 17-46.
Reading.
Kullback S. and Leibler R. A. (1951). On information and sufficiency. Annals of Mathematical
Statistics, 22, 79-86.
Schwarz G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
Tenenhaus M. (1998). La Rgression PLS, Thorie et Pratique. Technip, Paris.
Tenenhaus M., Pags J., Ambroisine L. and Guinot C. (2005). PLS methodology for
studying relationships between hedonic judgements and product characteristics. Food Quality
and Preference. 16, 4, 315-325.
Wold, S., Martens H. and Wold H. (1983). The Multivariate Calibration Problem in Chemistry
solved by the PLS Method. In: Ruhe A.and Kgstrm B. (eds.), Proceedings of the Conference
on Matrix Pencils. Springer Verlag, Heidelberg. 286-293.
Wold S. (1995). PLS for Multivariate Linear Modelling. In: van de Waterbeemd H. (ed.), QSAR:
Chemometric Methods in Molecular Design. Vol 2. Wiley-VCH, Weinheim, Germany. 195-218.

333
Tests de corrlation
Utilisez cet outil pour calculer les coefficients de corrlation de Pearson, Spearman ou Kendall,
entre au moins deux variables, et pour ventuellement dterminer si les corrlations sont
significatives ou non. Des visualisations des matrices de corrlation sont aussi proposes.

Description
Trois coefficients sont proposs pour calculer la corrlation entre des variables quantitatives
continues, discrtes ou ordinales (les classes devant tre reprsentes par des valeurs
respectant lordre) :
- Le coefficient de corrlation de Pearson : cette statistique est le coefficient de corrlation
le plus communment utilis car bien adapt aux donnes quantitatives continues. Sa
valeur est comprise entre -1 et 1, et il mesure le niveau de relation linaire entre deux
variables. Remarque : le coefficient de Pearson au carr, appel R, donne une ide de la
proportion de variabilit dune variable explicable par lautre. Les p-values calcules pour
les coefficients de corrlation permettent de tester lhypothse nulle de corrlation non
significativement diffrente de zro entre les variables. Cependant, il convient dtre
prudent car, si lindpendance entre deux variables implique la nullit du coefficient de
corrlation entre les variables, la rciproque nest pas vraie : on peut avoir une corrlation
proche de zro entre deux variables parce que la relation nest pas linaire, ou parce
quelle est complexe et ncessite la prise en compte dautres variables.
- Le coefficient de corrlation de Spearman (rho) : ce coefficient utilise les rangs des
observations et non leur valeur en tant que telle. Ce coefficient est donc adapt aux
donnes ordinales. Comme pour le coefficient de Pearson, on peut aussi interprter ce
coefficient en termes de variabilit explique. Ici, il sagit bien entendu de la variabilit des
rangs.
- Le coefficient de corrlation de Kendall (tau) : comme pour le coefficient de Spearman, ce
coefficient est bien adapt aux variables ordinales car aussi bas sur les rangs. Il est
cependant conceptuellement trs diffrent. Il peut tre interprt comme en termes de
probabilit : cest la diffrence entre la probabilit pour que les variables varient dans le
mme sens et la probabilit pour quelles varient dans le sens contraire. Lorsque le
nombre dobservations est infrieur 50 et quil ny a pas dex-quo, XLSTAT fournit la p-
value exacte. Sinon une approximation est utilise. Cette dernire est rpute fiable, ds
lors quil y a plus de 8 observations.

334
Bote de dialogue

calculs.

Onglet Gnral :
Tableau observations/variables : slectionnez un tableau comprenant les observations. Si
des en-ttes de colonne ont t slectionns pour les variables, veuillez vrifier que loption

Type de corrlation : choisissez le type de corrlation utiliser pour les calculs (voir la
section description pour plus de dtails).

335
actif.

Libells des variables : activez cette option si la premire ligne (ou colonne en mode lignes)
des donnes slectionnes (tableau observations/variables et poids) contient un libell.
Niveau de signification (%) : entrez le niveau de signification qui permet de dterminer si les
corrlations sont significatives ou non (valeur par dfaut : 5%).

Suppression par paires : activez cette option pour supprimer les observations comportant
des donnes manquantes uniquement lorsque les variables impliques dans les calculs
comportent des donnes manquantes. Par exemple, lors du calcul dune corrlation entre
deux variables, une observation ne sera ignore que si la donne correspondant lune des
deux variables est manquante.

Onglet Sorties :
Corrlations : activez cette option pour afficher la matrice de corrlation correspondant au
type de corrlation choisi dans longlet Gnral . Si loption Corrlations significatives
en gras est active, les corrlations significatives au seuil de signification choisi sont
affiches en gras.
336
p-values : activez cette option pour calculer et afficher les p-values correspondant chacune
des corrlations.
Coefficients de dtermination : activez cette option pour calculer et afficher les coefficients
de dtermination qui sont les carrs des coefficients de corrlations.

Onglet Graphiques :
Cartes des corrlations : plusieurs reprsentations dune matrice des corrlations vous sont
proposes.
- Loption Echelle bleu-rouge vous permet de reprsenter les corrlations faibles par
des couleurs froides (bleu pour les corrlations proche de -1) et les corrlations leves
par des couleurs chaudes (rouge pour les corrlations proches de 1).
- Loption Noir et blanc vous permet soit de reprsenter en noir les corrlations
positives et en blanc les corrlations ngatives (la diagonale de 1 est reprsente en
gris), soit de reprsenter en noir les corrlations significativement non nulles, et en
blanc les corrlations non significativement diffrentes de 0.
- Loption Motifs vous permet de reprsenter les corrlations positives par des traits
montant de gauche droite, et les corrlations ngatives par des traits montant de
droite gauche. Plus la corrlation est leve en valeur absolue, plus les traits sont
espacs.

Nuages de points : activez cette option pour afficher les nuages de points pour toutes les
combinaisons possibles de variables deux deux.
- Matrice de graphiques : activez cette option pour afficher lensemble des
combinaisons possibles de variables deux deux sous la forme dun tableau deux
entres, avec en ligne et en colonne les diffrentes variables.
- Histogrammes : activez cette option pour que XLSTAT affiche les histogrammes des
variables sur la diagonale de la matrice de graphiques.
- Q-Q plots : activez cette option pour que XLSTAT affiche les Q-Q plots des variables
sur la diagonale de la matrice de graphiques.
- Ellipses de confiance : activez cette option pour afficher des ellipses de confiance.
Les ellipses de confiance correspondent un intervalle de confiance x% (x est
dtermin partir du niveau de signification spcifi dans longlet gnral) pour une loi
normale bivarie de mmes moyennes et de mme matrice de covariance que les
variables reprsentes en abscisse et en ordonne.

337

Rsultats
La matrice de corrlation et le tableau des p-values sont affichs. Les cartes de corrlation
permettent didentifier dventuelles structures dans les corrlations, ou didentifier rapidement
les corrlations intressantes.

Exemple
Un exemple de calcul du coefficient de corrlation de Spearman et du test de significativit
correspondant est disponible sur le site dAddinsoft ladresse suivante :
http://www.xlstat.com/demo-corrspf.htm

Bibliographie
Best D. J. and Roberts D. E. (1975). Algorithm AS 89: The upper tail probabilities of
Spearman's rho. Applied Statistics, 24, 377379.
Best D.J. and Gipps P.G. (1974). Algorithm AS 71, Upper tail probabilities of Kendall's tau.
Applied Statistics, 23, 98-100.
Hollander M. and Wolfe D. A. (1973). Nonparametric Statistical Inference. John Wiley &
Sons, New York.
Kendall M. (1955). Rank Correlation Methods, Second Edition. Charles Griffin and Company,
London.
Lehmann E.L (1975). Nonparametrics: Statistical Methods Based on Ranks. Holden-Day, San
Francisco.

338
Tests sur les tableaux de contingence (khi, ...)
Utilisez cet outil pour tudier le degr dassociation entre les lignes et les colonnes dun
tableau de contingence (tableau crois), et pour tester lindpendance entre les lignes et les
colonnes.
Remarque : pour construire un tableau de contingence partir de deux variables qualitatives,
vous pouvez utiliser loutil Crer un tableau de contingence .

Description
De nombreuses mesures dassociation et plusieurs tests ont t proposs afin dvaluer le lien
entre les R lignes et les C colonnes dun tableau de contingence.
Certaines mesures dassociation ont t spcifiquement dveloppes pour les tableaux 2x2.
Dautres ont t mises au point pour le cas o les catgories des variables sont ordinales.
XLSTAT affiche systmatiquement toutes les mesures. Nanmoins, les mesures concernant
les variables ordinales ne pourront tre interprtes que si les variables sont ordinales, et
classes en ordre croissant dans le tableau de contingence.

Tests dindpendance entre les lignes et les colonnes dun tableau de contingence
- La statistique du Khi de Pearson permet de tester lindpendance entre les lignes et
les colonnes du tableau en mesurant quel point le tableau est loign (au sens du
Khi) de ce que lon pourrait obtenir en moyenne, en conservant les mmes sommes
marginales. La statistique est donne par :
( )
2
. .
2
. .
1 1 1 1 1 1
, avec , , , ,
R C R C C R
ij ij i j
P ij ij i ij j ij
i j i j j i
ij
n f
n n
f n n n n n n
f n
_
= = = = = =
= = = = =

On montre que cette statistique suit une loi du Khi (R-1)(C-1) degrs de libert. Ce
rsultat tant asymptotique, il est prudent avant dutiliser ce test de vrifier que :
o Que n est suprieur ou gal 20,
o Quaucune somme marginale (ni. ou n.j) nest infrieure 5
o Quau moins 80% des fij sont suprieurs 5.
- Dans le cas o R=2 et C=2, une correction de continuit a t propose par Yates
(1934). On a alors :
339
( )
2
2 2
2
1 1
0.5
ij ij
Y
i j
ij
n f
f
_
= =

=

- Un test utilisant un rapport de vraisemblances a t propos. Il utilise la statistique du
G de Wilks, et consiste comparer la vraisemblance du tableau observ celui dun
tableau moyen dfini comme ci-dessus. On a :
( )
2
1 1
2 log /
R C
ij ij ij
i j
G n n f
= =
=

Comme pour la statistique de Pearson, on montre que cette statistique suit une loi du
Khi (R-1)(C-1) degrs de libert.
- Le test exact de Fisher permet de calculer la probabilit pour quun tableau montrant
une association encore plus forte entre les lignes et les colonnes soit observ, les
sommes marginales tant fixes, et sous hypothse nulle dindpendance entre les
lignes et les colonnes. Dans le cas dun tableau 2x2, lindpendance est mesure ici au
travers du odds ratio (voir ci-dessous) qui est le rapport u=(n11.n22)/(n12.n21).
Lindpendance correspond au cas o u=1. Il y a donc trois hypothses alternatives
possibles : lhypothse bilatrale u<>1, lhypothse unilatrale gauche u<1 et
lhypothse unilatrale droite u>1.
XLSTAT permet de calculer le test exact de Fisher bilatral pour les tableaux R2 et
C2. La mthode utilise est celle de Mehta (1986) et Clarkson (1993). Elle peut
chouer dans certains cas. Lutilisateur est alors prvenu.
- Test Monte Carlo : un test non paramtrique utilisant des simulations Monte Carlo
permet de tester lindpendance entre les lignes et les colonnes. Un nombre de
simulations dfini par lutilisateur est effectu afin de gnrer les tableaux de
contingence ayant les mmes sommes marginales que le tableau observ. La
statistique du Khi de Pearson est calcule pour chacun des tableaux simuls. La p-
value est alors dtermine en utilisant la distribution obtenue partir des simulations.

Mesures dassociation (1)
Une premire srie de coefficients dassociation entre les lignes et les colonnes dun tableau
de contingence est propose :
- Le coefficient Phi de Pearson permet de mesurer lassociation entre les lignes et les
colonnes dun tableau RxC. Dans le cas dun tableau 2x2, sa valeur, comprise entre -1
et 1, est donne par :
11 22 12 21
11 22 12 21
P
n n n n
n n n n
|

=
340
Lorsque R>2 et/ou C>2, il est compris entre 0 et le minimum des racines de R-1 et C-1.
Il est alors donn par :
2
/
P P
n | _ =
- Coefficient de contingence : ce coefficient, aussi driv du Khi de Pearson, est
donn par :
( )
2 2
/
P P
C n _ _ = +
- Le coefficient V de Cramer est aussi driv du Khi de Pearson. Dans le cas dun
tableau 2x2, sa valeur, comprise entre -1 et 1 est donne par :
P
V | =
Lorsque R>2 et/ou C>2, il est compris entre 0 et 1 et sa valeur est alors donne par :
2
/
min( 1, 1)
P
n
V
R C
_
=

Plus V est proche de 0, plus les lignes et les colonnes sont indpendantes.
- T de Tschuprow : ce coefficient, aussi driv du Khi de Pearson, est compris entre 0
et 1. Sa valeur est donne par :
2
/
( 1, 1)
P
n
T
R C
_
=

Plus T est proche de 0, plus les lignes et les colonnes sont indpendantes.
- Tau Goodman et Kruskal (L/C) et (C/L) : ce coefficient, proche dans lesprit du Khi de
Pearson, est asymtrique. Il permet de mesurer le degr de dpendance des lignes vis-
-vis des colonnes (L/C) ou vice versa (C/L).
- Kappa de Cohen : ce coefficient est utilis pour les tableaux RxR. Il est utile dans le
cas o lon veut tudier lassociation entre deux chantillons apparis (par exemple, on
pose la mme question aux mmes individus deux instants diffrents). La valeur de
Kappa est comprise entre 0 et 1 et vaut 1 lorsquil y a un lien total entre les deux
variables (les rponses sont identiques aux deux instants).
- Q de Yule : ce coefficient est utilis pour les tableaux 2x2. Il est calcul partir des
produits des donnes concordantes (n11.n22) et des donnes discordantes (n12.n21).
Sa valeur est comprise en -1 et 1. Une valeur ngative correspond une discordance
entre les deux variables, une valeur proche de 0 correspond lindpendance, et une
valeur proche de 1 une concordance. Le Q de Yule est gal au Gamma de Goodman
et Kruskal, lorsque ce dernier est calcul sur un tableau 2x2.
341
- Y de Yule : ce coefficient est utilis pour les tableaux 2x2. Son calcul est similaire
celui du Q de Yule et sa valeur est aussi comprise entre -1 et 1.

Mesures dassociation (2)
Une seconde srie de coefficients dassociation entre les lignes et les colonnes dun tableau
de contingence est propose, avec le calcul dintervalles de confiance autour des valeurs
estimes. Ces intervalles de confiance font appel des rsultats asymptotiques. La fiabilit
des intervalles dpend donc du nombre de donnes.
- Gamma de Goodman et Kruskal : ce coefficient permet de mesurer le degr de
concordance entre deux variables ordinales, sur une chelle allant de -1 1.
- Tau de Kendall : ce coefficient, aussi appel tau-b, permet de mesurer sur une chelle
de -1 1 le degr de concordance entre deux variables ordinales. Contrairement au
coefficient Gamma, le calcul du tau de Kendall permet de prendre en compte les ex
quo.
- Tau de Stuart : ce coefficient, aussi appel tau-c, permet de mesurer sur une chelle
de -1 1 le degr de concordance entre deux variables ordinales. Comme pour le tau
de Kendall, le tau-c permet de prendre en compte les ex quo. En outre, il permet
deffectuer un ajustement en fonction de la taille du tableau.
- D de Somers (L/C) et (C/L) : ce coefficient est une alternative asymtrique au tau de
Kendall. Dans le cas (L/C) les lignes sont supposes dpendre des colonnes, et
rciproquement dans le cas (C/L) ; la correction pour les ex quo nest apporte qu la
variable explicative .
- U de Theil (L/C) et (C/L) : le coefficient asymtrique dincertitude U de Theil (L/C)
permet de mesurer quelle proportion de lincertitude de la variable en ligne est
explique par la variable en colonne, et rciproquement pour le cas C/L. Ce coefficient
est compris entre 0 et 1. La version symtrique, aussi comprise entre 0 et 1 est calcule
partir des coefficients (L/C) et (C/L).
- Odds ratio et Log(Odds ratio) : le odds ratio est calcul dans le cas des tableaux 2x2
comme le rapport u=(n11.n22)/ (n12.n21). Odds signifie en anglais dans ce contexte
chance . u varie entre 0 et linfini. u peut tre interprt comme le surcrot de
chances dtre dans la colonne 1, lorsque lon est dans la ligne 1 du tableau par rapport
ce que lon aurait dans la ligne 2. Au cas u=1 ne correspond aucun avantage.
Lorsque u>1, la probabilit sera u fois suprieure pour la ligne 1 par rapport la ligne 2.
On calcule le logarithme du odds ratio parce que sa variance est aisment calculable,
et parce que ce coefficient est symtrique autour de 0, ce qui permet dobtenir un
intervalle de confiance, do lon dduit celui sur le odds ratio.

342

Bote de dialogue

calculs.

Onglet Gnral :
Tableau de contingence : slectionnez un tableau crois, avec les frquences correspondant
aux diffrentes catgories de deux variables qualitatives. Si les libells des lignes et des
active.

actif.

343

Onglet Options :
Test du rapport de vraisemblance : activez cette option pour effectuer le test du rapport de
vraisemblance de Wilks.
Mthode Monte Carlo : activez cette option pour calculer la p-value en utilisant des
simulations Monte Carlo.
Test exact de Fisher : activez cette option pour calculer le test exact de Fisher. Dans le cas
dun tableau 2x2 vous pouvez choisir lhypothse alternative. Dans les autres cas,
lhypothse alternative bilatrale sera automatiquement utilise (voir la section description

est donne par :
. .
( )
i j
ij
n n
E n
n
=
o n
i.
.j

Onglet Sorties :
344
Khi par case : activez cette option pour afficher les Khi correspondant chacune des
Coefficient dassociation : activez cette option pour afficher les diffrents coefficients
dassociation calculs.


Onglet Graphiques :
crois.

345
Rsultats
Les rsultats calculs correspondent aux diffrentes statistiques et coefficients prsents dans
la section description.

346
Bibliographie
Agresti A. (1990). Categorical data analysis. John Wiley & Sons, New York.
Agresti A. (1992). A survey of exact inference for contingency tables. Statistical Science, 7(1),
131-177.
Mehta C.R. and Patel N.R. (1986). Algorithm 643. FEXACT: A Fortran subroutine for Fisher's
exact test on unordered r*c contingency tables. ACM Transactions on Mathematical Software,
12, 154-161.
Clarkson D.B., Fan Y. and Joe H. (1993). A remark on algorithm 643: FEXACT: An algorithm
for performing Fisher's exact test in r x c contingency tables. ACM Transactions on
Mathematical Software, 19, 484-488.
Fleiss J.L. (1981). Statistical Methods for Rates and Proportions, Second Edition. John Wiley
& Sons, New York.
Biological Research, Third edition. Freeman, New York.
Theil H. (1972). Statistical Decomposition Analysis. North-Holland Publishing Company,
Amsterdam.
Yates F. (1934). Contingency tables involving small numbers and the Chi-square test. Journal
of the Royal Statistical Society, Suppl.1, 217-235.

347
Test de tendance de Cochran-Armitage
Utilisez cet outil pour tester si des proportions, ventuellement calcules partir dun tableau
de contingence, peuvent tre considres comme variant linairement en fonction dune
variable ordinale ou continue.

Description
Le test de Cochran-Armitage permet de tester si une srie de proportions peut tre considre
comme variant linairement en fonction dune variable ordinale ou continue.
Si X est la variable correspondant aux scores (les valeurs prises par la variable ordinale ou
continue), la statistique permettant de tester la linarit est donne par :
( )
( )
( )
1
2
2 1
2
1
1 1
avec
1
r
i i
r
i
i i
i
n X X
z s n X X
p p s
=
+
=
+ +
= =

Remarque : si X est une variable ordinale, la valeur du minimum de X na pas dinfluence sur
la valeur de z.

Dans le cas dun test bilatral, les hypothses nulle (H0) et alternative (Ha) sont les suivantes :
- H0 : z = 0
- Ha : z = D
Remarque : z est asymptotiquement distribue comme une variable normale standard.
Certains logiciels utilisent z pour tester la linarit. z est alors distribue suivant un Khi 1
degr de libert.
Dans le cas unilatral, il faut distinguer le test unilatral gauche (ou infrieur) et le test
unilatral droite (ou suprieur). Dans le test unilatral gauche, les hypothses sont les
suivantes :
- H0 : z = 0
- Ha : z < 0
Si Ha est retenue on conclura que les proportions dcroissent lorsque la variable score crot.
Pour le test unilatral droite, les hypothses sont les suivantes :
- H0 : z = 0
348
- Ha : z > 0
Si Ha est retenue on conclura que les proportions croissent lorsque la variable score crot.

Bote de dialogue

{bmct ok.bmp} : cliquez sur ce bouton pour lancer les calculs.
calculs.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les donnes.
Si la flche est vers le bas (mode colonnes), XLSTAT considre que les observations sont en
lignes et les variables en colonnes. Si la flche est vers la droite (mode lignes), XLSTAT
considre que les variables sont en lignes et les observations en colonnes.

Onglet Gnral :
Tableau de contingence : slectionnez un tableau de contingence. Si les libells des
colonnes du tableau ont t slectionns, veillez ce que loption libells des colonnes
soit active.
Proportions : slectionnez une colonne (ou une ligne dans le cas du mode lignes) contenant
les proportions. Si un libell de colonne a t slectionn, veillez ce que loption libells
des colonnes soit active.
349
Taille des chantillons : si vous avez slectionn des proportions, vous devez ensuite
slectionner les effectifs correspondant. Si un libell de colonne a t slectionn, veillez ce
que loption libells des colonnes soit active.

Libells des lignes : activez cette option pour slectionner les libells des lignes.

Format des donnes :
- Tableau de contingence : activez cette option si vos donnes sont contenues dans un
tableau de contingence.
- Proportions : activez cette option si vos donnes sont disponibles sous la forme de
proportions et deffectifs tests.

actif.

Libells des colonnes : activez cette option si des en-ttes de colonne ont t slectionns
dans les slections.

Scores : vous pouvez choisir entre des scores ordinaux (1, 2, 3, ...) ou des scores dont vous
entrez la valeur.
- Ordinaux : activez cette option pour utiliser des scores ordinaux.
- Dfinis par lutilisateur : activez cette option pour slectionnez les scores. Si un libell
de colonne a t slectionn, veillez ce que loption libells des colonnes soit
active.

Onglet Options :
Hypothse alternative : choisissez lhypothse alternative utiliser pour le test (voir
description).
350
p-value asymptotique : activez cette option pour calculer la p-value base sur la distribution
asymptotique de la statistique z.
Mthode Monte Carlo : activez cette option pour calculer la p-value en utilisant des
simulations Monte Carlo. Entrez alors le nombre de simulations.


Onglet Sorties :
descriptives.

Onglet Graphiques :
Proportions : activez cette option pour afficher un graphique avec sur laxe des abscisses les
scores et sur laxe des ordonnes les proportions.

Rsultats
Les rsultats affichs comprennent un tableau de synthse reprenant lensemble des
donnes, un graphique prsentant les proportions en fonction des scores, puis les rsultats et
linterprtation du test, bas sur la p-value calcule partir de la distribution asymptotique, et
la p-value calcule partir de la distribution obtenue partir des simulations Monte Carlo.

Bibliographie
Armitage P. (1955). Tests for linear trends in proportions and frequencies. Biometrics; 11,
375-386.
351
Cochran W.G. (1954). Some methods for strengthening the common Chi-square tests,
Snedecor G.W. and Cochran W.G. (1989). Statistical Methods, 8th Edition. Iowa State
University Press, Ames.

352
Test de Mantel
Utilisez ce test pour calculer la corrlation linaire entre deux matrices de proximit (test de
Mantel simple), ou pour calculer la corrlation linaire entre deux matrices connaissant leur
corrlation avec une troisime matrice (test de Mantel partiel).

Description
Mantel (1967) a propos une premire statistique pour mesurer la corrlation entre deux
matrices de proximit (similarit ou dissimilarit) symtriques A et B de taille n :
1
1
( )
n n
ij ij
i n j i
z AB a b
= = +
=

La statistique standardise de Mantel, plus pratique car variant entre -1 et 1, est le coefficient
de corrlation de Pearson entre les deux matrices :
( )
1
1
1
( )
1 / 2 1
n n
ij ij
i n j i
a b
a a b b
r AB
n n s s
= = +
| | | |
= |
|
|

\ .
\ .

Remarques :
- Dans le cas o les similarits ou les dissimilarits seraient de nature ordinale, on peut
utiliser les coefficients de corrlation de Spearman ou de Kendall de manire identique.
- Dans le cas o les matrices ne sont pas symtriques, le calcul est aussi possible.

Sil ne pose aucun problme de calculer un coefficient de corrlation entre des coefficients de
proximit obtenus partir de deux matrices de mme taille, les tests habituellement utiliss
partir de ces coefficients ne peuvent pas tre utiliss dans ce contexte, car ils ncessitent de
pouvoir faire lhypothse dindpendance entre les donnes, ce qui nest pas le cas ici. Un test
de permutation a donc t propos pour permettre de dterminer si le coefficient de corrlation
peut tre considr comme significativement diffrent de 0.
- H0 : r(AB) = 0
- Ha : r(AB) = D
suivantes :
353
- H0 : r(AB) = 0
- Ha : r(AB) < 0
- H0 : r(AB) = 0
- Ha : r(AB) > 0

Le test de Mantel consiste calculer quel coefficient de corrlation serait obtenu si lon
permutait les valeurs observes pour lune des matrices. La p-value est alors dtermine
partir de la distribution des S coefficients r(AB) obtenus aprs S permutations. Dans le cas o
n, le nombre de lignes et de colonnes des matrices, est infrieur 10, toutes les permutations
peuvent facilement tre tudies. Sinon, on est oblig de permuter la matrice de manire
alatoire, un grand nombre de fois, afin dobtenir une distribution approche.

Un test de Mantel pour plus de deux matrices a t propos (Smouse et al., 1986) : lorsque
lon dispose de trois matrices de proximit, A, B, C, la statistique partielle de Mantel pour les
matrices A et B, connaissant C, est note r(AB.C) et se calcule comme un coefficient de
corrlation partiel. Afin de dterminer si le coefficient est significativement diffrent de 0 un test
de Mantel partiel est calcul partir de permutations.

Bote de dialogue

calculs.
354

Onglet Gnral :
Matrice A : slectionnez la premire matrice de proximit. Si les libells des lignes et des
active.
Matrice B : slectionnez la seconde matrice de proximit. Si les libells des lignes et des
active.
Matrice C : activez cette option si vous voulez raliser un test de Mantel partiel. Slectionnez
alors la troisime matrice de proximit. Si les libells des lignes et des colonnes du tableau ont
t slectionns, veillez ce que loption libells inclus soit active.

actif.


Onglet Options :
description).
Niveau de signification (%) : entrez la valeur du niveau de signification pour le test (valeur
par dfaut : 5%).

355
p-values exactes : activez cette option pour que XLSTAT tente dans la mesure du possible
de calculer lensemble des permutations possibles pour obtenir une distribution exacte.
Nombre de permutations : entrez le nombre de permutations raliser dans le cas o toutes
les permutations possibles ne pourraient tre explores.
Type de corrlation : choisissez le type de corrlation utiliser pour le calcul de la statistique
standardise de Mantel.


Onglet Graphiques :
Nuage de points : activez cette option pour afficher un graphique dont les points ont pour
abscisse les valeurs de la matrice A et pour ordonne les valeurs de la matrice B.
Histogramme : activez cette option pour afficher lhistogramme calcul pour la distribution de
la statistique r(AB) partir des permutations.

Rsultats
Les rsultats fournis correspondent la statistique standardise de Mantel la p-value
correspondante pour lhypothse alternative choisie. Un dbut dinterprtation du test est
affich. Lhistogramme de la distribution de r(AB) est affich si loption correspondante a t
active. La valeur observe pour r(AB) est indique sur lhistogramme.

Exemple
Un exemple de test de Mantel est disponible sur le site dAddinsoft ladresse suivante :
http://www.xlstat.com/demo-mantelf.htm
356

Bibliographie
Legendre P. and Legendre L. (1998). Numerical Ecology, Second English Edition. Elsevier,
Amsterdam.
Mantel N. (1967). A technique of disease clustering and a generalized regression approach.
Cancer Research, 27, 209-220.
Smouse P.E., Long J.C. and Sokal R.R. (1986). Multiple regression and correlation
extension of the Mantel test of matrix correspondence. Systematic Zoology, 35, 627-632.

357
Test z pour une proportion
Utilisez cet outil pour comparer une proportion calcule partir dun chantillon une
proportion donne.

Description
Soit n le nombre dobservations vrifiant une certaine proprit parmi un chantillon de taille
N. On dfinit par p1 = n / N, la proportion de lchantillon vrifiant la proprit. Soit p2 une
proportion connue laquelle on veut comparer p1. Soit D la diffrence (exacte, minimale ou
maximale) suppose entre les deux proportions. Classiquement, D est fixe 0.
Le test bilatral correspond au test de la diffrence entre p1 - p2 et D, et les hypothses nulle
(H0) et alternative (Ha) sont les suivantes :
- H0 : p1 - p2 = D
- Ha : p1 - p2 = D
suivantes :
- H0 : p1 - p2 = D
- Ha : p1 - p2 < D
- H0 : p1 - p2 = D
- Ha : p1 - p2 > D

Ce test a t dvelopp en considrant que :
- les observations sont mutuellement indpendantes,
- la probabilit p1 de possder la proprit est la mme pour toutes les observations,
- l'effectif N est assez grand, et p1 n'est pas trop proche de 0 ou de 1.

Remarque : une rgle simple pour dterminer si N est assez grand, consiste vrifier que :
358
( )
( )
1 1 1
1 1 1
0 2 1 /
2 1 / 1
p p p N
p p p N
<
+ <

Bote de dialogue

calculs.

Effectif / Proportion : entrez la valeur de leffectif n pour lequel la proprit est observe (voir
description), ou la proportion correspondante (voir format de donnes , ci-dessous).
Taille dchantillon : entrez le nombre dobservations de lchantillon.
Proportion test : entrez la valeur de la proportion test laquelle la proportion observe doit
tre compare.

Format des donnes : choisissez ici si vous prfrez entrer la valeur de leffectif pour lequel
la proprit est observe, ou la proportion observe.

actif.
359

description).
Diffrence suppose : entrez la valeur de la diffrence suppose entre les proportions.

par dfaut : 5%).

Rsultats
Les rsultats affichs par XLSTAT correspondent aux diffrentes statistiques du test z
(diffrence observe, z observ, z critique, p-value, alpha), et linterprtation qui en dcoule.

Exemple
Un exemple de test de comparaison de proportions est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-propf.htm

Bibliographie
Fleiss J.L. (1981). Statistical Methods for Rates and Proportions. John Wiley and Sons, New
York.
Sincich T. (1996). Business Statistics by Example, 5th Edition. Prentice-Hall, Upper Saddle
River.

360
Test z pour deux proportions
Utilisez cet outil pour comparer deux proportions calcules pour deux chantillons.

Description
Soit n1 le nombre dobservations vrifiant une certaine proprit pour un chantillon E1 de
taille N1, et n2 le nombre dobservations vrifiant la mme proprit pour un chantillon E2 de
taille N2. On dfinit par p1 = n1 / N1, la proportion de lchantillon E1 vrifiant la proprit, et
par p2 = n2 / N2 la proportion pour E2. Soit D la diffrence (exacte, minimale ou maximale)
suppose entre les deux proportions. Classiquement, D est fixe 0.
Le test bilatral correspond au test de la diffrence entre p1 - p2 et D, et les hypothses nulle
(H0) et alternative (Ha) sont les suivantes :
- H0 : p1 - p2 = D
- Ha : p1 - p2 = D
suivantes :
- H0 : p1 - p2 = D
- Ha : p1 - p2 < D
- H0 : p1 - p2 = D
- Ha : p1 - p2 > D

Ce test a t dvelopp en considrant que :
- les observations sont mutuellement indpendantes,
- la probabilit p1 de possder la proprit est la mme pour toutes les observations de
lchantillon E1,
- la probabilit p2 de possder la proprit est la mme pour toutes les observations de
lchantillon E2,
- les effectifs N1 et N2 sont assez grands, et p1 et p2 ne sont pas trop proches de 0 ou
de 1.
361

Remarque : une rgle simple pour dterminer si N1 et N2 sont assez grands, consiste
vrifier que :
( )
( )
( )
( )
1 1 1 1 2 2 2 2
1 1 1 1 2 2 2 2
0 2 1 / 0 2 1 /
et
2 1 / 1 2 1 / 1
p p p N p p p N
p p p N p p p N

< <

+ < + <

Bote de dialogue

calculs.

Effectif 1 / Proportion 1 : entrez la valeur de leffectif n1 pour lequel la proprit est observe
(voir description), ou la proportion correspondante (voir format de donnes , ci-dessous).
Taille dchantillon 1 : entrez le nombre dobservations de lchantillon 1.
Effectif 2 / Proportion 2 : entrez la valeur de leffectif n2 pour lequel la proprit est observe
(voir description), ou la proportion correspondante (voir format de donnes , ci-dessous).
Taille dchantillon 2 : entrez le nombre dobservations de lchantillon 2.

Format des donnes : choisissez ici si vous prfrez entrer la valeur des effectifs pour
lesquels la proprit est observe, ou les proportions observes.

362
actif.

description).
Diffrence suppose : entrez la valeur de la diffrence suppose entre les proportions.

par dfaut : 5%).

Rsultats
Les rsultats affichs par XLSTAT correspondent aux diffrentes statistiques du test z
(diffrence observe, z observ, z critique, p-value, alpha), et linterprtation qui en dcoule.

Exemple
Un exemple de test de comparaison de proportions est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-propf.htm

Bibliographie
Fleiss J.L. (1981). Statistical Methods for Rates and Proportions. John Wiley and Sons, New
York.
River.

363
Comparaison de k proportions
Utilisez cet outil pour comparer k proportions et pour dterminer si elles peuvent tre
considres comme gales, ou si au moins 2 proportions parmi les k sont significativement
diffrentes.

Description
XLSTAT propose trois approches diffrentes pour dterminer si k proportions peuvent tre
considres comme tant toutes gales (hypothse nulle H0) ou si au moins deux proportions
sont diffrentes (hypothse alternative Ha) :
- test du Khi. Ce test est identique celui utilis pour les tableaux de contingence ;
- mthode Monte-Carlo. La mthode Monte Carlo permet de calculer une distribution de la
distance du Khi sur la base de simulations ayant pour contrainte de respecter les effectifs
totaux pour les k groupes. On obtient donc une distribution empirique donnant une valeur
critique plus fiable ( condition que le nombre de simulations soit important) que celle
donne par la distribution thorique du Khi qui correspond au cas asymptotique.
- procdure de Marascuilo. Il est conseill de n'utiliser la procdure de Marascuilo que si le
test du Khi ou si le test quivalent faisant intervenir des simulations de Monte Carlo ont
rejet H0. La procdure de Marascuilo consiste effectuer des tests de comparaison deux
deux pour tous les couples de proportions, ce qui permet d'identifier quelles sont les
proportions responsables de l'ventuel rejet de H0.

Bote de dialogue

calculs.
364

Effectifs / Proportions : slectionnez les donnes sur la feuille Excel.
Taille des chantillons : slectionnez les donnes correspondant aux tailles des chantillons.
Libells des chantillons : activez cette option si vous voulez utiliser des libells
dchantillons pour laffichage des rsultats. Si l'option Libells des colonnes est active, la
premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette option,
des libells seront automatiquement crs (Ech1, Ech 2, ).

Format des donnes : choisissez ici si vous prfrez entrer la valeur des effectifs pour
lesquels la proprit est observe, ou les proportions observes.

actif.

(effectifs/proportions, taille des chantillons et libells des chantillons) contient un libell.

Test du Khi : activez cette option pour utiliser le test du Khi.
Mthode Monte Carlo : activez cette option pour utiliser la mthode par simulations et entrez
le nombre de simulations.
Procdure de Marascuilo : activez cette option pour utiliser la procdure de Marascuilo.
Niveau de signification (%) : entrez la valeur du niveau de signification pour les trois tests
(valeur par dfaut : 5%).

365
Rsultats
Les rsultats du test du Khi sont affichs en premier si loption correspondante a t active.
Pour le test du Khi et la mthode Monte Carlo, la p-value est compare au niveau de
signification afin de valider ou non lhypothse nulle.
Les rsultats obtenus partir des simulations Monte Carlo seront d'autant plus proches des
rsultats du test du Khi que les effectifs totaux et le nombre de simulations sont levs. La
diffrence se manifeste au niveau de la valeur critique et de la p-value.
La procdure de Marascuilo permet d'identifier quelles sont les proportions responsables de
l'ventuel rejet de l'hypothse nulle. Dans la colonne Significatif on peut identifier quelles
proportions sont significativement diffrentes deux deux.
Remarque : il se peut que la procdure de Marascuilo n'identifie pas de diffrence significative
alors que le test du Khi rejette l'hypothse nulle. En gnral cela se produit lorsque deux
proportions sont presque significativement diffrentes au niveau de la procdure de
Marascuilo. Une analyse plus pousse sera alors ncessaire.

Exemple
Un exemple de test de comparaison de k proportions est disponible sur
http://www.xlstat.com/demo-kpropf.htm

Bibliographie
Marascuilo L. A. and Serlin R. C. (1988). Statistical Methods for the Social and Behavioral
Sciences. Freeman, New York.

366
Tests t et z pour un chantillon
Utilisez cet outil pour comparer la moyenne d'un chantillon distribu suivant une loi normale
une valeur donne.

Description
Soit un chantillon de moyenne . Pour comparer cette moyenne une valeur de rfrence,
deux tests paramtriques sont possibles :
- le test t de Student si on ne connat pas la vraie variance de la population dont est extrait
lchantillon ; on utilise alors comme estimateur de la variance, la variance de lchantillon
s.
- le test z si on connat la vraie variance o de la population.
Ces deux tests sont dits paramtriques car leur utilisation ncessite que lon suppose que les
chantillons sont distribus suivant une loi normale. Par ailleurs, on suppose aussi que les
observations sont indpendantes et identiquement distribues. La normalit de lchantillon
peut tre pralablement teste grce aux tests de normalit.

Trois types de tests sont possibles en fonction de lhypothse alternative choisie :
- Pour le test bilatral, les hypothses nulle H0 et alternative Ha sont les suivantes :
- H0 : = 0
- Ha : 0
- Pour le test unilatral gauche, les hypothses sont les suivantes :
- H0 : = 0
- Ha : < 0
- Pour le test unilatral droite, les hypothses sont les suivantes :
- H0 : = 0
- Ha : > 0

367

Bote de dialogue

calculs.

Onglet Gnral :

Format des donnes : choisissez le format des donnes.
- Une colonne/ligne par chantillon : activez cette option pour que XLSTAT considre
que chaque colonne (mode colonnes) ou ligne (mode lignes) correspond un
chantillon. Vous pourrez ainsi en une seule fois tester lhypothse sur plusieurs
chantillons.
- Un chantillon : activez cette option pour que XLSTAT considre que toutes les
donnes slectionnes, quelque soit le nombre de lignes ou de colonnes appartiennent
au mme chantillon.

368
actif.

Libells des colonnes/lignes : activez cette option si la premire ligne (mode colonnes) ou
colonne (mode lignes) des donnes slectionnes contient des libells.

Test z : activez cette option pour utiliser un test z.
Test t de Student : activez cette option pour utiliser un test t de Student.

Onglet Options :
description).
Moyenne thorique : entrez la valeur de la moyenne thorique laquelle la moyenne de
lchantillon doit tre compare.
Niveau de signification (%) : entrez la valeur du niveau de signification pour les tests (valeur
par dfaut : 5%).

Dans le cas o un test z est demand, la valeur de variance de la population doit tre entre.
Variance pour le test z :
- Estime partir de lchantillon : activez cette option pour que XLSTAT estime la
variance de la population partir des donnes de lchantillon. Cela devrait en principe
conduire un test t, mais cette option est propose titre pdagogique.
- Dfinie par lutilisateur : entrez la valeur de la variance connue de la population.

369

Onglet Sorties :
chantillons.

Rsultats
Les rsultats affichs par XLSTAT correspondent aux diffrentes statistiques des tests
slectionns, et linterprtation qui en dcoule.

Bibliographie
River.

370
Tests t et z pour deux chantillons
Utilisez cet outil pour comparer les moyennes de deux chantillons, indpendants ou apparis,
distribus suivant une loi normale.

Description
Lutilisation des tests paramtriques t et z permet de comparer les moyennes de deux
chantillons. La mthode de calcul est diffrente en fonction de la nature des chantillons. On
distingue le cas o les chantillons sont indpendants (par exemple, dans le cas dune
comparaison du chiffre daffaires annuel par magasin entre deux rgions pour une chane de
supermarchs), du cas o ils sont apparis (par exemple, dans le cas dune comparaison,
lintrieur dune mme rgion, des chiffres daffaires annuels entre deux annes).
Les tests t et z sont dits paramtriques car ils supposent que les chantillons sont distribus
suivant des lois normales. Cette hypothse pourra tre teste laide des tests de normalit.

Comparaison des moyennes de deux chantillons indpendants
Soit un chantillon E1, comprenant n1 observations, de moyenne 1 et de variance s1. Soit
un second chantillon E2 indpendant de E1, comprenant n2 observations, de moyenne 2 et
de variance s2. Soit D la diffrence suppose entre les moyennes (D vaut 0 lorsque lon
suppose lgalit).
Comme pour le cas des tests z et t sur un chantillon on utilise :
- le test t de Student si on ne connat pas la vraie variance des populations dont sont
extraits les chantillons ;
- le test z si on connat la vraie variance o de la population.

Test t de Student
Lutilisation du test t de Student ncessite de dcider pralablement si les variances des
chantillons doivent tre considres comme tant gales ou non. XLSTAT propose dutiliser
un test F de Fisher afin de tester lhypothse dgalit des variances, et de tenir compte du
rsultat du test pour la suite des calculs.
Si lon considre que les deux chantillons ont la mme variance, on estime la variance
commune par :
s = [(n1-1)s1 + (n2-1)s2] / (n1 + n2 - 2)
371
La statistique du test est alors donne par
( ) 1 2
1/ 1 1/ 2
D
t
s n n

=
+

La statistique t suit une loi de Student n1+n2-2 degrs de libert.

Si lon considre que les variances sont diffrentes la statistique est donne par
( ) 1 2
1 / 1 2 / 2
D
t
s n s n

=
+

Une modification du nombre de degrs de libert a t propose par Satterthwaite :
( )
( ) ( )
2
2 2
1 / 1 2 / 2
1 / 1 2 / 2
1 1 2 1
s n s n
df
s n s n
n n
+
=
+

Remarque : lorsque n1=n2, on a simplement df = 2(n1-1).
Cochran et Cox (1950) ont propos une approximation pour dterminer la p-value. Elle est
propose en option dans XLSTAT.

Test z
Pour le test z, la variance o de la population est suppose connue. Lutilisateur peut saisir
cette valeur ou lestimer partir des donnes (ce dernier cas tant propos uniquement titre
pdagogique). La statistique du test est donne par :
( ) 1 2
1/ 1 1/ 2
D
z
n n o

=
+

La statistique z suit une loi normale.

Comparaison des moyennes de deux chantillons apparis
Si deux chantillons sont apparis, ils sont ncessairement de mme taille. Dans le cas o
des valeurs seraient manquantes pour certaines observations, soit on supprime lobservation
des deux chantillons, soit on estime les valeurs manquantes.
372
On tudie la moyenne des diffrences calcules pour les n observations. Si d est la moyenne
des diffrences, s la variance des diffrences, et D la diffrence suppose, la statistique du
test t est donne par :
( )
/
d D
t
s n
=
La statistique t suit une loi de Student n-1 degrs de libert.
Pour le test z, la statistique, si o est la variance :
( )
/
d D
z
n o

=
La statistique z suit une loi normale.

Hypothses alternatives
- H0 : 1 - 2 = D
- Ha : 1 - 2 D
- H0 : 1 - 2 = D
- Ha : 1 - 2 < D
- H0 : 1 - 2 = D
- Ha : 1 - 2 > D

Bote de dialogue

373
calculs.

Onglet Gnral :
Donnes / Echantillon 1 : si le format de donnes slectionn est une colonne par
variable , slectionnez les donnes correspondant aux diffrents chantillons sur la feuille
Excel. Si le format de donnes slectionn est une colonne par chantillon ou
chantillons apparis , slectionnez une colonne de donnes correspondant au premier
chantillon.
Identifiant dchantillon / Echantillon 2 : si le format de donnes slectionn est une
colonne par variable, slectionnez les donnes identifiant les deux chantillons auxquels les
donnes slectionnes correspondent. Si le format de donnes slectionn est une colonne
par chantillon ou chantillons apparis slectionnez une colonne de donnes
correspondant au second chantillon.

- Une colonne/ligne par chantillon : activez cette option pour slectionner une
colonne (ou ligne en mode lignes) par chantillon.
- Une colonne/ligne par variable : activez cette option pour que XLSTAT fasse autant
de tests quil y a de colonnes/lignes, sachant que chaque colonne/ligne doit contenir le
mme nombre de lignes/colonnes, et quun identifiant dchantillon permettant
daffecter chaque observation un chantillon doit par ailleurs tre slectionn.
- Echantillons apparis : activez cette option pour faire des tests sur chantillons
apparis. Vous devez alors slectionner une colonne (ou ligne en mode lignes) par
chantillon, tout en veillant ce que les chantillons soient de mme taille.
374

actif.


Test z : activez cette option pour utiliser un test z.
Test t de Student : activez cette option pour utiliser un test t de Student.

Onglet Options :
description).
Diffrence suppose (D) : entrez la valeur de la diffrence suppose entre les moyennes des
chantillons.
par dfaut : 5%).

Dans le cas o un test z est demand, la valeur de variance connue des populations, ou, dans
le cas dun test sur chantillons apparis, la variance de la diffrence, doit tre entre.
Variances pour le test z :
- Estimes partir des chantillons : activez cette option pour que XLSTAT estime la
variance de la population partir des donnes des chantillons. Cela devrait en
principe conduire un test t, mais cette option est propose titre pdagogique.
- Dfinies par lutilisateur : entrez la valeur des variances connues des populations.

Variances des chantillons pour le test t :
375
- Supposer lgalit : activez cette option pour considrer que la variance des
chantillons est gale.
- Cochran-Cox : activez cette option pour calculer la p-value en utilisant la mthode de
Cochran et Cox dans le cas o les variances ne sont pas supposes gales.
- Utiliser un test F : activez cette option pour utiliser le test F de Fisher afin de
dterminer si les variances des deux chantillons peuvent tre considres comme
tant gales ou non.


Onglet Sorties :
chantillons.

Onglet Graphiques :
Diagramme de dominance : activez cette option pour afficher un diagramme de dominance
afin de comparer visuellement les chantillons.

Rsultats
Le diagramme de dominance permet de comparer visuellement deux chantillons. Le premier
chantillon est reprsent sur laxe des abscisses et le second sur laxe des ordonnes. Pour
construire ce diagramme, les donnes des chantillons sont dabord tries. Lorsquune
observation du second chantillon est suprieure une observation du premier chantillon, un
+ est affich. Lorsquune observation du second chantillon est infrieure une
376
observation du premier chantillon, un - est affich. Dans le cas dun ex aequo, un o
est affich.

Bibliographie
Cochran W.G. and Cox G.M. (1950). Experimental Designs. John Wiley and Sons, New York.
Satterthwaite F.W. (1946). An approximate distribution of estimates of variance components.
Biometrics Bulletin, 2, 110 -114.
River.

377
Tests de comparaison de moyennes pour k chantillons
Si vous souhaitez comparer les moyennes de k chantillons, vous devez utiliser loutil
dANOVA qui permet dutiliser les tests de comparaisons multiples.

378
Comparaison des variances de deux chantillons
Utilisez cet outil pour comparer les variances de deux chantillons.

Description
Trois tests paramtriques sont proposs pour la comparaison des variances de deux
chantillons. Soit un chantillon E1, comprenant n1 observations, de variance s1. Soit un
second chantillon E2, comprenant n2 observations, de variance s2. XLSTAT propose trois
tests pour comparer les variances des deux chantillons.

Test F de Fisher
Soit R le rapport suppos entre les variances (R vaut 1 lorsque lon suppose lgalit).
La statistique F du test est donne par :
2
2
1
. 2
s
F
R s
=
Cette statistique suit une loi de Fisher (n1-1) et (n2-1) de degrs de libert si les deux
chantillons suivent une loi normale.

- H0 : s1 = s2.R
- Ha : s1 s2.R
- H0 : s1 = s2.R
- Ha : s1 < s2.R
- H0 : s1 = s2.R
- Ha : s1 > s2.R
379

Test de Levene
Le test de Levene peut tre utilis pour comparer deux variances ou plus. Cest un test
bilatral pour lequel les hypothses nulle et alternative sont dans le cas o deux variances
sont compares :
- H0 : s1 = s2
- Ha : s1 s2
La statistique de ce test est plus complexe que celle du test de Fisher et fait intervenir les
carts absolus la moyenne (article original de Levene, 1960) ou la mdiane (Brown et
Forsythe, 1974). Lutilisation de la moyenne est recommande pour les distributions
symtriques, queues moyennement paisses. Lutilisation de la mdiane est recommande
pour les distributions asymtriques.
La statistique de Levene suit une loi de Fisher 1 et n1+n2-2 degrs de libert.

Test dhomognit des variances de Bartlett
Le test de Bartlett peut tre utilis pour comparer deux variances ou plus. Ce test est sensible
la normalit des donnes. Autrement dit, si lhypothse de normalit des donnes semble
fragile, on utilisera plutt le test de Levene ou de Fisher. En revanche, le test de Bartlett est
plus performant si les chantillons suivent une loi normale.
Il sagit aussi dun test bilatral qui peut tre utilis avec deux variances ou plus. Dans le cas
o deux variances sont compares les hypothses sont :
- H0 : s1 = s2
- Ha : s1 s2
La statistique de Bartlett suit une loi du Khi 1 degr de libert.

Bote de dialogue

380
calculs.

Onglet Gnral :
Excel. Si le format de donnes slectionn est une colonne par chantillon , slectionnez
une colonne de donnes correspondant au premier chantillon.
par chantillon , slectionnez une colonne de donnes correspondant au second chantillon.


381
actif.


Test F de Fisher : activez cette option pour utiliser un test F de Fisher (voir description).
Test de Levene : activez cette option pour utiliser le test de Levene (voir description).
- Moyenne : activez cette option pour utiliser le test de Levene bas sur la moyenne.
- Mdiane : activez cette option pour utiliser le test de Levene bas sur la mdiane.
Test Bartlett : activez cette option pour utiliser le test de Bartlett (voir description).

Onglet Options :
description).
Rapport suppos (R) : entrez la valeur du rapport suppos entre les variances des
chantillons.
par dfaut : 5%).


Onglet Sorties :
382
chantillons.

Rsultats

Bibliographie
Brown M. B. and Forsythe A. B. (1974). Robust tests for the equality of variances. Journal of
Levene H. (1960). In Contributions to Probability and Statistics: Essays in Honor of Harold
Hotelling, I. Olkin et al. Editors. Stanford University Press, 278-292.

383
Comparaison des variances de k chantillons
Utilisez cet outil pour comparer les variances de k chantillons.

Description
Deux tests paramtriques sont proposs pour la comparaison des variances de k chantillons
(k 2). Soit k chantillons E1, E2, , Ek, comprenant n1, n2, , nk observations et de
variance s1, s2, , sk.

Test de Levene
Le test de Levene peut tre utilis pour comparer deux variances ou plus. Cest un test
bilatral pour lequel les hypothses nulle et alternative sont :
- H0 : s1 = s2 = = sk
- Ha : il existe au moins un couple (i, j) tel que si sj
La statistique de ce test fait intervenir les carts absolus la moyenne (article original de
Levene, 1960) ou la mdiane (Brown et Forsythe, 1974). Lutilisation de la moyenne est
recommande pour les distributions symtriques, queues moyennement paisses.
Lutilisation de la mdiane est recommande pour les distributions asymtriques.
La statistique de Levene suit une loi de Fisher k-1 et n1+n2-2 degrs de libert.

Test dhomognit des variances de Bartlett
Le test de Bartlett peut tre utilis pour comparer deux variances ou plus. Ce test est sensible
la normalit des donnes. Autrement dit, si lhypothse de normalit des donnes semble
fragile, on utilisera plutt le test de Levene ou de Fisher. En, revanche le test de Bartlett est
plus performant si les chantillons suivent une loi normale.
Il sagit aussi dun test bilatral qui peut tre utilis avec deux variances ou plus. Dans le cas
o deux variances sont compares les hypothses sont :
- H0 : s1 = s2 = = sk
- Ha : il existe au moins un couple (i, j) tel que si sj
La statistique de Bartlett suit une loi du Khi k-1 degr de libert.

384

Bote de dialogue

calculs.

Onglet Gnral :
colonne par variable, slectionnez les donnes identifiant les k chantillons auxquels les
par chantillon slectionnez une colonne de donnes correspondant au second chantillon.

385

actif.


Test de Levene : activez cette option pour utiliser le test de Levene (voir description).
- Moyenne : activez cette option pour utiliser le test de Levene bas sur la moyenne.
- Mdiane : activez cette option pour utiliser le test de Levene bas sur la mdiane.
Test Bartlett : activez cette option pour utiliser le test de Bartlett (voir description).

Onglet Options :
par dfaut : 5%).


Onglet Sorties :
386
chantillons.

Rsultats

Bibliographie
Brown M. B. and Forsythe A. B. (1974). Robust tests for the equality of variances. Journal of
Levene H. (1960). In Contributions to Probability and Statistics: Essays in Honor of Harold
Hotelling, I. Olkin et al. Editors. Stanford University Press, 278-292.

387
Comparaison de deux distributions (Kolmogorov-Smirnov)
Utilisez cet outil pour comparer les distributions de deux chantillons et pour dterminer si
elles peuvent tre considres comme identiques.

Description
Le test de Kolmogorov-Smirnov permet de comparer deux distributions. Ce test est utilis pour
les tests dajustement d'une distribution pour comparer une distribution empirique dtermine
partir dun chantillon une distribution connue. Il peut aussi tre utilis pour comparer deux
distributions empiriques.
Remarque : ce test permet de tester lidentit des distributions, la fois quant leur forme et
leur position.
Soit un chantillon E1, comprenant n1 observations, et F 1 la fonction de rpartition empirique
correspondante. Soit un second chantillon E2, comprenant n2 observations, et F 2 la fonction
de rpartition empirique correspondante.
Lhypothse nulle du test de Kolmogorov-Smirnov est dfinie par :
H0 : F 1(x) = F 2(x)
La statistique de Kolmogorov est dfinie par :
( ) ( )
1
sup 1 2
x
D F x F x =
D1 est la diffrence absolue maximale entre les deux distributions empiriques. Sa valeur est
donc comprise entre 0 (cas dune identit parfaite des distributions) et 1 (cas dune sparation
parfaite des distributions). Lhypothse alternative associe cette statistique est :
Ha : F 1(x) F 2(x)

Les statistiques de Smirnov sont dfinies par :
( ) ( ) { }
2
sup 1 2
x
D F x F x =
( ) ( ) { }
3
sup 2 1
x
D F x F x =
Lhypothse alternative associe D
2
est :
Ha : F1(x) < F 2(x)
388
Lhypothse alternative associe D
3
est :
Ha : F 1(x) > F 2(x)

Nikoforov (1994) a propos une mthode de test exact pour le test de Kolmogorov-Smirnov
sur deux chantillons. Cette mthode est utilise par XLSTAT pour les trois hypothses
alternatives. XLSTAT permet aussi dintroduire la diffrence D suppose entre les
distributions. Cette valeur doit tre comprise entre 0 et 1.

Bote de dialogue

calculs.

Onglet Gnral :
389
par chantillon slectionnez une colonne de donnes correspondant au second chantillon.


actif.


Test de Kolmogorov-Smirnov : activez cette option pour utiliser le test de Kolmogorov-
Smirnov (voir description).

Onglet Options :
description).
Diffrence suppose (D) : entrez la valeur de la diffrence maximale suppose entre les
fonctions de rpartition empiriques des chantillons. La diffrence doit tre comprise entre 0 et
1.
390
par dfaut : 5%).


Onglet Sorties :
chantillons.

Onglet Graphiques :
Histogrammes cumuls : activez cette option pour afficher un graphique permettant de
visualiser les fonctions de rpartition empiriques des chantillons.

Rsultats

Bibliographie
391
Durbin J. (1973). Distribution Theory for Tests Based on the Sample Distribution Function.
SIAM, Philadelphia.
Kolmogorov A. (1941). Confidence limits for an unknown distribution function. Ann. Math.
Stat. 12, 461463
Nikiforov A.M. (1994). Algorithm AS 288: Exact two-sample Smirnov test for arbitrary
distributions. Applied.statistics, 43(1), 265-270.
Smirnov N. V. (1939). On the estimation of the discrepancy between empirical curves of
distribution for two independent samples. Bulletin Moscow University, 2, 3-14.

392
Comparaison de deux chantillons (Wilcoxon, Mann-Whitney,
...)
Utilisez cet outil pour comparer deux chantillons dcrits par des donnes quantitatives
ordinales ou discrtes, quils soient indpendants ou apparis.

Description
Afin de saffranchir de lhypothse de normalit des chantillons ncessaire pour lutilisation
des tests paramtriques (test z, test t de Student, test F de Fisher, test de Levene, test de
Bartlett), des tests non paramtriques ont t proposs.
Comme pour les tests paramtriques, on distingue le cas o les chantillons sont
indpendants (par exemple, dans le cas dune comparaison du chiffre daffaire annuels par
magasin entre deux rgions pour une chane de supermarchs), du cas o ils sont apparis
(par exemple, dans le cas dune comparaison, lintrieur dune mme rgion, des chiffres
daffaires annuels entre deux annes).
Si lon dsigne par D la diffrence de position suppose des chantillons (en gnral on teste
lgalit, et D vaut donc 0), et par P1-P2 la diffrence de position des chantillons, trois types
de tests sont possibles en fonction de lhypothse alternative choisie :
- H0 : P1 - P2 = D
- Ha : P1 - P2 D
- Pour le test unilatral, gauche, les hypothses sont les suivantes :
- H0 : P1 - P2 = D
- Ha : P1 - P2 < D
- Pour le test unilatral, droite les hypothses sont les suivantes :
- H0 : P1 - P2 = D
- Ha : P1 - P2 > D

Comparaison de deux chantillons indpendants
Trois chercheurs, Mann, Whitney, et Wilcoxon, ont mis au point sparment un test non
paramtrique trs similaire qui permet de dterminer si, sur la base des rangs des
393
chantillons, on peut considrer que les chantillons sont identiques ou non en terme de
position. Ce test est souvent appel test de Mann-Whitney, parfois test de Wilcoxon-Mann-
Whitney, ou encore Wilcoxon Rank-Sum test (Lehmann, 1975).
On lit parfois que ce test permet de dterminer si les chantillons proviennent de populations
ou de distributions identiques. Cela est totalement faux. Ce test permet uniquement dtudier
la position relative des chantillons. Par exemple, si on gnre un chantillon de 500
observations tir dans une loi N(0,1) et un chantillon de 500 observations tir dans une loi
N(0,4), le test de Mann-Whitney ne trouve aucune diffrence entre les chantillons.
Soit un chantillon E1, comprenant n1 observations (x1, x2, , xn1) et soit E2 un second
chantillon, comprenant n2 observations (y1, y2, , yn1) et indpendant de E1. Soit N la
somme de n1 et n2.
Pour calculer la statistique de Wilcoxon Ws mesurant la diffrence de position entre le premier
chantillon E1, et lchantillon E2 auquel on soustrait D, on regroupe les valeurs obtenues
pour les deux chantillons, puis on les ordonne. La statistique Ws est la somme des rangs de
lun des chantillons. Dans le cas de XLSTAT, la somme est calcule sur le premier
chantillon.
On a alors pour lesprance et la variance de Ws :
( ) ( )
1 1
E( ) 1 1 et V( ) 1 2 1
2 12
Ws n N Ws n n N = + = +
La statistique U de Mann-Whitney est quant elle la somme du nombre de couples (xi, yi) o
xi>yi, parmi tous les couples possibles. On montre que :
( )
1 2 1
E( ) et V( ) 1 2 1
2 12
n n
U U n n N = = +
On peut noter que les variances de Ws et U sont identiques. En fait, on a la relation suivante
entre U et Ws :
( ) 1 1 1
2
n n
Ws U
+
= +
Les rsultats proposs par XLSTAT sont ceux relatifs la statistique U de Mann-Whitney.
Lorsquil y a des ex aequo parmi les valeurs des deux chantillons, le rang affect aux valeurs
ex aequo est la moyenne de leur rang avant traitement (par exemple, pour deux chantillons
de taille respective, 3 et 3, si la liste des valeurs ordonnes est, {1, 1.2, 1.2, 1.4, 1.5, 1.5}, les
rangs sont dabord {1, 2, 3, 4, 5, 6} puis aprs prise en compte {1, 2.5, 2.5, 4, 5.5, 5.5}. Si cela
ne change pas lesprance de Ws et U, la variance est en revanche modifie :
( )
( )
( )
3
1
1 2
1
V( ) V( ) 1 2 1
12 12 1
nd
i i
i
n n d d
Ws U n n N
N N
=

= = +

394
o nd est le nombre de valeurs distinctes, et d
i
leffectif correspondant chacune de ces
valeurs.

Pour le calcul des p-values associes la statistique U, XLSTAT peut utiliser une mthode
exacte si lutilisateur le souhaite dans les cas suivants :
- U*n1*n2 10e7, si il ny a pas dex aequo
- U*nd 5000 si il y a des ex aequo.
Les calculs peuvent tre sensiblement ralentis dans le cas o il y a des ex aequo. Une
approximation normale a t propose afin de contourner ce problme. On a :
E( )
( )
V( )
u U c
P U u
U
| |
+
s ~ u |
|
\ .

o u est la fonction de rpartition de la loi normale centre rduite, et c est une correction de
continuit qui permet damliorer la qualit de lapproximation (c vaut ou -.en fonction de
la nature du test). Lapproximation est dautant plus fiable que n1 et n2 sont levs.
Si lutilisateur demande ce quun test exact soit utilis et que cela nest pas possible en
raison des contraintes nonces ci-dessous, XLSTAT indique, dans le rapport des rsultats,
quune approximation a t utilise.

Comparaison de deux chantillons apparis
Deux tests ont t proposs pour le cas o les chantillons sont apparis : le test du signe et
le test de Wilcoxon sign.
Soit un chantillon E1, comprenant n observations (x1, x2, , xn) et soit E2 un second
chantillon appari E1, comprenant aussi n observations (y1, y2, , yn). Soit (p1, p2, , pn)
les n paires de valeurs (xi, yi).

Test du signe
Soit N+ la statistique gale au nombre de paires telles que yi>xi, N0 la statistique gale au
nombre de paires telles que yi=xi, et N- la statistique gale au nombre de paires telles que
yi<xi. On montre alors que la statistique N+ suit une loi binomiale de paramtres (n-N0) et de
probabilit . Lesprance et la variance de N+ sont alors :
0 0
E( ) et V( )
2 4
n N n N
N N

+ = + =
395
La p-value associe la statistique N+ et au type de test choisi (bilatral, unilatral droite ou
unilatral gauche) peut donc tre dtermine de manire exacte.
Remarque : ce test est appel test du signe car il est construit partir du signe des diffrences
lintrieur des n paires. Ce test peut donc tre utilis pour comparer des volutions values
sur une chelle ordinale. Par exemple, on utilisera ce test pour dterminer si leffet dun
mdicament est positif, partir dune enqute o le patient doit simplement dclarer sil se
sent moins bien, pas mieux, ou mieux aprs la prise dun mdicament.
Linconvnient du test du signe est quil ne prend pas en compte limportance de la diffrence
entre chaque paire, information qui est pourtant souvent disponible.

Test de Wilcoxon sign
Wilcoxon a propos un test qui permet de prendre en compte le niveau de diffrence
lintrieur des paires. Ce test est appel test de Wicoxon sign (Wilcoxon signed rank test), car
le signe des diffrences intervient aussi.
Comme pour le test du signe, on calcule les diffrences pour lensemble des paires, puis on
les ordonne, puis on spare les diffrences positives S1, S2, , Sp des diffrences ngatives
R1, R2, , Rm (p+m=n).
La statistique permettant de tester si les deux chantillons ont la mme position ou non est
dfinie comme la somme des Si :
1
p
i
Vs Si
=
=

Lesprance et la variance de Vs sont :
( ) ( )( ) 1 1 2 1
E( ) et V( )
4 24
n n n n n
Vs Vs
+ + +
= =
Dans le cas o il y aurait des ex aequo parmi les diffrences, ou des diffrences nulles pour
certaines paires, on a :
( ) ( )
( ) ( ) ( )( )
( )
0 0
3
0 0 0
1
1 1
E( )
4
1 2 1 1 2 1
V( )
24 48
nd
i i
i
n n d d
Vs
d d
n n n d d d
Vs
=
+ +
=
( + + + +

=

o d
0
est le nombre de diffrences nulles, nd le nombre de diffrences distinctes, et d
i
leffectif
correspondant la i-ime valeur de diffrence distincte (il est quivalent de considrer que les
di est le nombre dex aequo pour la i-ime valeur de diffrence distincte).
396
Dans le cas o il ny a pas de diffrence nulle ou dex aequo parmi les diffrences, et si n est
infrieur ou gal 100, XLSTAT calcule une p-value exacte (Lehmann, 1975). Dans le cas o
il y a des ex aequo, une approximation normale est utilise. On a en effet :
E( )
( )
V( )
v Vs c
P Vs v
Vs
| |
+
s ~ u |
|
\ .

o u est la fonction de rpartition de la loi normale centre rduite, et c est une correction de
continuit qui permet damliorer la qualit de lapproximation (c vaut ou -.en fonction de
la nature du test). Lapproximation est dautant plus fiable que n est grand.

Bote de dialogue

calculs.

Onglet Gnral :
397
chantillon.


actif.


Test de Mann-Whitney : activez cette option pour utiliser le test de Mann-Whitney (voir
description).
Test du signe : activez cette option pour utiliser le test du signe (voir description).
Test de Wilcoxon sign : activez cette option pour utiliser le test de Wilcoxon sign (voir
description).

398
Onglet Options :
description).
Diffrence suppose (D) : entrez la valeur de la diffrence de position suppose entre les
chantillons.
par dfaut : 5%).

p-values exactes : activez cette option si vous souhaitez que XLSTAT calcule la p-value
exacte dans la mesure du possible (voir description).
Correction de continuit : activez cette option si vous souhaitez que XLSTAT utilise la
correction de continuit si le calcul de p-values exactes nest pas demand ou sil nest pas
possible (voir description).


Onglet Sorties :
chantillons.

Onglet Graphiques :

399
Rsultats

Bibliographie
Cheung Y.K. Klotz J.H. (1997). The Mann Whitney Wilcoxon distribution using linked lists.
Statistica Sinica, 7, 805-813.
Hollander M. and Wolfe D. A. (1999). Nonparametric Statistical Methods, Second Edition.
Francisco.
Siegel S. and Castellan N. J. (1988). Nonparametric Statistics for the Behavioral Sciences,
Second Edition. McGraw-Hill, New York.
Wilcoxon F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.

400
Comparaison de k chantillons (Kruskal-Wallis, Friedman, ...)
Utilisez cet outil pour comparer k chantillons indpendants (test de Kruskall-Wallis et
procdure de Dunn) ou apparis (test de Friedman et procdure de Nemenyi).

Description
Afin de saffranchir de lhypothse de normalit des chantillons ncessaire pour lutilisation
des tests de comparaisons multiples (proposs dans XLSTAT la suite dune ANOVA), des
tests non paramtriques ont t proposs.
Comme pour les tests paramtriques, on distingue le cas o les chantillons sont
indpendants (par exemple, dans le cas dune comparaison des rendements de champs ayant
des caractristiques similaires mais traits avec trois types dengrais diffrents), du cas o ils
sont apparis (par exemple, dans le cas dune comparaison des notations attribues par 10
juges 3 produits diffrents).

Comparaison de k chantillons indpendants
Le test de Kruskal-Wallis est souvent utilis comme une alternative lANOVA dans le cas
o lhypothse de normalit nest pas acceptable. Il permet de tester si k chantillons (k2)
proviennent de la mme population, ou de populations ayant des caractristiques identiques,
au sens dun paramtre de position (le paramtre de position est conceptuellement proche de
la mdiane, mais le test de Kruskal-Wallis prend en compte plus dinformation que la position
au seul sens de la mdiane).
Si on dsigne par Mi le paramtre de position lchantillon i, les hypothses nulle H0 et
alternative Ha du test de Kruskal-Wallis sont les suivantes :
- H0 : M1 = M2 = = Mk
- Ha : il existe au moins un couple (i, j) tel que Mi Mj
Le calcul de la statistique K du test de Kruskal-Wallis fait intervenir comme pour le test de
Mann-Whitney le rang des observations, une fois les k chantillons (ou groupes) mlangs. K
est dfini par :
( )
( )
2
1
12
3 1
1
k
i
i
i
R
K N
N N n
=
= +
+

o n
i
est la taille de lchantillon i, N la somme des n
i
, et R
i
la somme des rangs pour
lchantillon i.
401
Lorsque k=2 le test de Kruskal-Wallis est quivalent au test de Mann-Whitney, et la statistique
K est quivalente la statistique Ws.
Lorsquil y a des ex aequo, on utilise les rangs moyens pour les observations
correspondantes, comme dans le cas du test de Mann-Whitney. La statistique K est alors
dfinie par :
( )
( )
( ) ( )
2
1
3 3
1
12
3 1
1
1 /
k
i
i
i
nd
i i
i
R
N
N N n
K
d d N N
=
=
+
+
=

o nd est le nombre de valeurs distinctes, et d
i
leffectif correspondant chacune de ces
valeurs.
Pour le calcul de la p-value associe une valeur donne de K, XLSTAT utilise une
approximation de la loi de K par une loi du Khi (k-1) degrs de libert. Cette approximation
est fiable, sauf lorsque N est petit. Les p-values associes K, qui pour le cas exact
dpendent de la statistique K et des tailles k des chantillons, ont t tabules pour le cas o k
= 3 (Lehmann 1975, Hollander et Wolfe 1999).

Comparaison de k chantillons apparis
Le test de Friedman est une alternative non paramtrique lANOVA deux facteurs dans le
cas o lhypothse de normalit nest pas acceptable. Il permet de tester si k chantillons
apparis (k2) de taille n, proviennent de la mme population, ou de populations ayant des
caractristiques identiques, au sens dun paramtre de position. Le contexte tant souvent
celui de lANOVA deux facteurs, on parle parfois de test de Friedman k traitements et n
blocs.
Si on dsigne par Mi le paramtre de position de lchantillon i, les hypothses nulle H0 et
alternative Ha du test de Friedman sont les suivantes :
- H0 : M1 = M2 = = Mk
- Ha : il existe au moins un couple (i, j) tel que Mi
Soit n la taille des k chantillons apparis. La statistique Q du test de Friedman est donne
par :
( )
( )
2
1
12
3 1
1
k
i
i
Q R n k
nk k
=
= +
+

o R
i
est la somme des rangs pour lchantillon i.
402
Lorsquil y a des ex aequo, on utilise les rangs moyens pour les observations
correspondantes. La statistique Q est alors dfinie par :
( )
( )
( ) ( )
2
1
( )
3 3
1 1
12
3 1
1
1 / /
k
i
i
nd j N
ij ij
j i
R n k
nk k
Q
d d n k k
=
= =
+
+
=

o nd(j) est le nombre de valeurs distinctes pour le block j, et d
ij
leffectif correspondant
chacune de ces valeurs.
Comme pour le test de Kruskal-Wallis, la p-value associe une valeur donne de Q peut tre
approxime par une loi du Khi (k-1) degrs de libert. Cette approximation est fiable lorsque
kn est plus grand que 30, la qualit dpendant aussi du nombre dex aequo. Les p-values
associes Q ont t tabules pour le cas o (k = 3, n 15) et (k = 4, n 8) (Lehmann 1975,
Hollander et Wolfe 1999).

Comparaisons multiples par paires
Que ce soit pour le test de Kruskal-Wallis, ou le test de Friedman, si la p-value est telle que
lon doit rejeter lhypothse H0, alors au moins un chantillon (ou groupe) est diffrent dun
autre. Afin didentifier quels chantillons sont responsables du rejet de H0, il est possible
dutiliser une procdure de comparaisons multiples (Dunn, 1963, Nemenyi 1963). Afin de
prendre en compte le fait quil y a k(k-1)/2 comparaisons possibles, la correction du niveau de
signification propose par Bonferroni peut tre applique. Le niveau de signification utilis
pour les comparaisons deux deux est :
( )
2
'
1 k k
o
o =

403
Bote de dialogue

calculs.

Onglet Gnral :
chantillon.
colonne par variable, slectionnez les donnes identifiant les k chantillons auxquels les

404

actif.


Test de Kruskal-Wallis : activez cette option pour utiliser le test de Kruskal-Wallis (voir
description).
Test de Friedman : activez cette option pour utiliser le test de Friedman (voir description).
Comparaisons multiples par paires : activez cette option pour calculer les tests de
comparaisons multiples par paires (voir description).
- Correction de Bonferroni : activez cette option pour utiliser le niveau de signification
corrig de Bonferroni.

Onglet Options :
par dfaut : 5%).

405

Onglet Sorties :
chantillons.

Rsultats

Exemple
Un exemple de test de Friedman est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-friedmanf.htm

Bibliographie
Dunn O.J. (1964). Multiple Comparisons Using Rank Sums. Technometrics, 6(3), 241-252.
Hollander M. and Wolfe D. A. (1999). Nonparametric Statistical Methods, Second Edition.
Francisco.
Nemenyi P. (1963). Distribution-Free Multiple Comparisons. Unpublished Ph.D Thesis.
Second Edition. McGraw-Hill, New York.

406
Test Q de Cochran
Utilisez cet outil pour comparer k2 chantillons apparis dont les valeurs sont binaires.

Description
Le test Q de Cochran est prsent sous deux angles diffrents. Certains auteurs le prsentent
comme un cas particulier du test de Friedman (comparaison de k chantillons apparis) pour
le cas o la variable mesure est binaire (Lehmann, 1975), dautres le prsentent comme un
test dhomognit marginale pour un tableau de contingence k dimensions (Agresti, 1990).
Les hypothses nulles et alternatives associes au test Q de Cochran sont alors soit,
- H0 : les k traitements ne sont pas significativement diffrents.
- Ha : au moins lun des traitements est diffrent des autres.
Soit,
- H0 : les k distributions sont marginalement homognes.
- Ha : les k distributions sont marginalement inhomognes.

XLSTAT utilise la premire reprsentation, plus classique, et utilise la terminologie commune
de traitements pour les k chantillons compars.
Deux formats sont proposs pour la saisie des donnes :
- vous pouvez slectionner des donnes sous un format brut, correspondant la saisie
progressive des rsultats. Chaque colonne correspond un traitement et chaque ligne
correspond un individu.
- vous pouvez aussi slectionner des donnes sous un format group . Chaque colonne
correspond un traitement, et chaque ligne une combinaison de rponses possibles pour
les k traitements. Vous devez ensuite saisir les effectifs correspondant chacune des
combinaisons (champ Effectifs dans la bote de dialogue).

407
Bote de dialogue

calculs.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les donnes.
Si la flche est vers le bas (mode colonnes), XLSTAT considre que les observations sont en
lignes et les variables en colonnes. Si la flche est vers la droite (mode lignes), XLSTAT
considre que les variables sont en lignes et les observations en colonnes.

Onglet Gnral :
Tableau Individus/Traitements : slectionnez un tableau dont les lignes correspondent aux
individus (ou blocs) et les colonnes aux traitements dans le cas du mode colonnes , ou
vice-versa dans le mode lignes . Si les libells des traitements ont t slectionns, veillez
ce que loption libells des traitements soit active.

Format des donnes :
- Tableau Individus/Traitements :
Brut : choisissez cette option si les donnes sont brutes, par opposition groupes.
Group : choisissez cette option si les donnes correspondent un regroupement ou si elles
sont pondres. Vous devez alors choisir les poids associs chacune des lignes du tableau
slectionn.

408
actif.

Libells des traitements : activez cette option si des en-ttes de colonne ont t
slectionns.

Poids : slectionnez les poids associs aux individus. Les poids tre imprativement
suprieurs 0. Si un en-tte de colonne a t slectionn, veuillez vrifier que loption
Libells des traitements est active.

Onglet Options :

Onglet Sorties :
descriptives pour les diffrents traitements.

Rsultats
Statistiques descriptives : dans ce tableau sont affiches les statistiques descriptives
correspondant aux diffrents traitements.
Les rsultats qui correspondent au test de Cochran Q sont ensuite affichs. Une interprtation
du test est fournie.

Bibliographie
409
Cochran W.G. (1950). The comparison of percentages in matched samples. Biometrika, 37,
256-266.
Francisco.

410
Test de McNemar
Utilisez cet outil pour comparer 2 chantillons apparis dont les valeurs sont binaires, et
ventuellement synthtises dans un tableau de contingence 2x2.

Description
Le test de McNemar est quivalent au test du Q de Cochran dans le cas o lon a que deux
traitements. Comme pour le test de Cochran, la variable tudie est binaire. Le test de
McNemar prsente nanmoins deux avantages :
- Le calcul de la p-value exacte est possible (Lehmann, 1975) ;
- Les donnes peuvent tre prsentes sous la forme dun tableau de contingence deux
dimensions.

- H0 : Traitement 1 = Traitement 2
- Ha : Traitement 1 = Traitement 2
suivantes :
- Ha : Traitement 1 < Traitement 2
- Ha : Traitement 1 > Traitement 2

Trois formats sont proposs pour la saisie des donnes :
- vous pouvez slectionner des donnes sous un format brut, correspondant la saisie
progressive des rsultats. Chaque colonne correspond un traitement et chaque ligne
correspond un individu.
411
- vous pouvez aussi slectionner des donnes sous un format group . Chaque colonne
correspond un traitement, et chaque ligne une combinaison de rponses possibles pour
les deux traitements (il y a quatre combinaisons possibles). Vous devez ensuite saisir les
effectifs correspondant chacune des combinaisons (champ effectifs dans la bote de
dialogue).
- vous pouvez aussi slectionner un tableau de contingence deux lignes et deux colonnes.
Dans le cas o ce format est choisi, les traitements 1 et 2 sont considrs comme
correspondant respectivement aux lignes et aux colonnes. Les cas de succs des traitements
(ou rponse positive) sont considrs comme correspondant la premire ligne (traitement 1)
ou la premire colonne (traitement 2) du tableau de contingence.

Bote de dialogue

calculs.
donnes. Si la flche est vers le bas (mode colonnes), XLSTAT considre que les
observations sont en lignes et les variables en colonnes. Si la flche est vers la droite (mode
lignes), XLSTAT considre que les variables sont en lignes et les observations en colonnes.

Onglet Gnral :
Tableau Individus/Traitements / Tableau de contingence : dans le cas dun tableau
Individus/Traitements , slectionnez un tableau dont les lignes correspondent aux individus
(ou blocs) et les colonnes aux traitements dans le cas du mode colonnes , ou vice-versa
412
dans le mode lignes . Dans le cas dun tableau de contingence, slectionnez les donnes
du tableau de contingence. Si les libells des traitements ont t slectionns, veillez ce que
loption libells des traitements ou libells inclus soit active.

Format des donnes :
- Tableau Individus/Traitements : choisissez cette option si vos donnes correspondent
un tableau individus/traitements
Brut : choisissez cette option si les donnes sont brutes, par opposition groupes.
Group : choisissez cette option si les donnes correspondent un regroupement ou si elles
sont pondres. Vous devez alors choisir les poids associs chacune des lignes du tableau
slectionn.
- Tableau de contingence : activez cette option si vos donnes sont contenues dans un
tableau de contingence.

actif.

Libells des traitements/Libells inclus : activez cette option si des en-ttes ont t
slectionns. Dans le cas dun tableau de contingence, les libells des lignes et des colonnes
doivent tre slectionns.

Poids : slectionnez les poids associs aux individus. Les poids tre imprativement
suprieurs 0. Si un en-tte de colonne a t slectionn, veuillez vrifier que loption
Libells des traitements est active.

Code (rponse positive) : entrez le code qui correspond dans vos donnes une rponse
positive (ou un succs).

Onglet Options :
413
p-value exacte : activez cette option pour calculer la p-value exacte.

Onglet Sorties :
Cet onglet nest visible que lorsque le format choisi est Tableau individus/traitements .
descriptives pour les diffrents traitements.
Tableau de contingence : activez cette option pour afficher le tableau de contingence 2x2.

Rsultats
Statistiques descriptives : dans ce tableau sont affiches les statistiques descriptives
correspondant aux deux traitements.
Tableau de contingence : le tableau de contingence 2x2 est affich.
Les rsultats qui correspondent au test de McNemar sont ensuite affichs. Une interprtation
du test est fournie.

Bibliographie
McNemar Q. (1947). Note on the sampling error of the difference between correlated
proportions or percentages. Psychometrika, 12, 153-157.
Francisco.

414
Test des squences pour un chantillon
Utilisez cet outil pour comparer k2 chantillons apparis dont les valeurs sont binaires.

Description
La premire version de ce test non paramtrique a t prsente par Mood (1940) et utilise la
mme statistique que celle du test de comparaison de deux chantillons de Wald and
Wolfowitz (1940), ce qui peut expliquer que ce test soit parfois mentionn par erreur sous le
nom de test de Wald-Wolfowitz. Pour ajouter la confusion, larticle de Mood fait plusieurs fois
rfrence larticle de Wald and Wolfowitz, notamment pour le calcul de la distribution
asymptotique suivi par la statistique.
On dfinit par squence une srie dvnements identiques, prcds ou suivis par aucun
vnement ou des vnements diffrents. Le test propos par XLSTAT ne sapplique qu des
vnements binaires. Par exemple, pour ABBABBB, nous avons 4 squences (A, BB, A,
BBB).
XLSTAT accepte comme donnes dentre des donnes continues (binaires ou non) et des
donnes catgorielles binaires. Pour les donnes continues, un point de sparation doit tre
choisi, afin que les donnes puissant tre transformes en donnes binaires.
Un chantillon sera considr comme alatoirement distribu si aucune structure particulire
ne peut tre identifie. Les cas extrmes sont la rpulsion (les deux vnements sont
loppose dans la srie), et lintrication (les vnements sont aussi alterns que possible).
Avec lexemple cit prcdemment pour le cas de rpulsion il y a AABBBBB ou BBBBBAA,
et pour lintrication BABABBB ou BABBABB ou BBABABB ou BBABBAB ou encore
BBBABAB.
- H0 : Les donnes sont distribues au hasard.
- Ha : Les donnes ne sont pas distribues au hasard.
Dans le cas unilatral, il faut distinguer le test unilatral gauche et le test unilatral droite.
Dans le test unilatral gauche, les hypothses sont les suivantes :
- Ha : Il y a rpulsion entre les deux types d'vnements
Dans le test unilatral droite, les hypothses sont les suivantes :
- Ha : Il y a intrication entre les deux types d'vnements.
415

Lesprance du nombre de squences R est:
E(R) = 2mn/N
o m correspond au nombre dvnements du premier type, n au nombre dvnements du
second type, and N est la somme de m et n.
La variance du nombre de squences R est dfinie par :
V(R) = 2mn(2mn N)/[N(N-1)]
La valeur minimale possible de R est toujours 2. La valeur maximale est donne par 2Min(m,
n) - t, o t est 1 si n=m, et 0 sinon.
Si r est le is the nombre de squences observe sur lchantillon, il a t montr par Wald et
Wolfowitz quasymptotiquement, lorsque m ou n tendent vers linfinie, on a
( ) ( )
(0,1)
( )
r E R
N
V R

o N(0,1) est la loi normale centre rduite.

XLSTAT offre trois possibilits pour le calcul des p-value. Vous pouvez calculer la p-value
partir :
- de la distribution exacte de R,
- de la distribution asymptotique de R,
- dune distribution approche, calcule partir de P permutations Monte Carlo. Comme
le nombre de permutations possibles est gal N!, P doit tre fix une valeur leve
pour que lapproximation soit correcte.

Bote de dialogue

416
calculs.

Onglet Gnral :
Donnes : slectionnez la colonne (ou la ligne en mode ligne) de la srie de donnes
analyser
Type de donnes :
- Quantitative : activez cette option pour slectionner une colonne (ou une ligne en
mode ligne) de donnes quantitatives. Les donnes seront alors transformes en
fonction du point de sparation (voir plus bas).
- Qualitative : activez cette option pour slectionner une colonne (ou une ligne en mode
ligne) de donnes binaires.
Sparation : choisissez la valeur du point de sparation utilis pour discrtiser les donnes
continues en deux modalits.
- Moyenne : les observations sont spares en fonction de la comparaison de leur
valeur la moyenne de lchantillon.
- Mdiane : les observations sont spares en fonction de la comparaison de leur valeur
la mdiane de lchantillon.
- Dfini par utilisateur : choisissez cette option pour transformer les donnes en
fonction dune valeur saisir.

417
actif.

Libells des colonnes/lignes : activez cette option si des en-ttes de colonne/ligne ont t
slectionns.

Onglet Options :
description).
par dfaut : 5%).

p-values exacte : activez cette option si vous souhaitez que XLSTAT calcule la p-value
exacte (voir description).
p-values asymptotique : activez cette option si vous souhaitez que XLSTAT calcule la p-
value exacte (voir description).
Correction de continuit : activez cette option si vous souhaitez que XLSTAT utilise la
correction de continuit.
Mthode Monte Carlo : activez cette option si vous souhaitez que XLSTAT calcule la p-value
approche partir de simulations Monte Carlo (voir description). Entrez alors le nombre de
permutations alatoires raliser.


418
Rsultats
Les rsultats qui correspondent au test des squences sont ensuite affichs. Une
interprtation du test est fournie.

Bibliographie
Mood A. M. (1940). The distribution theory of runs. Ann. Math. Statist., 11(4), 367-392.
Second Edition. McGraw-Hill, New York, 58-54.
Wald A. and Wolfowitz J. (1940). On a test whether two samples are from the same
population, Ann. Math. Stat., 11(2), 147-162.

419
DataFlagger
Utiliser le DataFlagger pour faire ressortir des donnes qui sont comprises dans un intervalle
ou en dehors dun intervalle, ou qui sont gales certaines valeurs.

Bote de dialogue
calculs.

Marquer une valeur ou un texte : activez cette option si vous souhaitez identifier et faire
ressortir une valeur ou une srie de valeurs dans la plage slectionne.
- Valeur ou texte : choisissez cette option pour rechercher et marquer une seule valeur
ou une chane de caractres.
- Liste de valeurs ou textes : choisissez cette option pour rechercher et marquer une
srie de valeurs ou textes. Vous devez alors slectionner dans une feuille Excel la srie
de valeurs ou textes en question.
Marquer un intervalle : activez cette option si vous souhaitez identifier et faire ressortir des
valeurs comprises dans ou en dehors dun intervalle. Dfinissez ensuite lintervalle.
- Dedans : choisissez cette option pour rechercher et marquer les valeurs comprises
dans un intervalle. Choisissez ensuite les types de bornes pour lintervalle (ouvertes ou
fermes), puis entrez la valeur des bornes.
420
- Dehors : choisissez cette option pour rechercher et marquer les valeurs comprises en
dehors dun intervalle. Choisissez ensuite les types de bornes pour lintervalle (ouvertes
ou fermes), puis entrez la valeur des bornes.

Police : utilisez les options suivantes pour modifier la police des valeurs correspondant aux
rgles de marquage.
- Style : choisissez le style de la police.
- Taille : choisissez la taille de la police.
- Couleur : choisissez la couleur de la police.

Cellule : utilisez loption suivante pour modifier la couleur du fond de la cellule.
- Couleur : choisissez la couleur de la cellule.

421
Recherche du Min/Max
Utiliser cet outil pour reprer dans une plage de donnes les valeurs minimales et/ou
maximales. Si la valeur minimale est rencontre plusieurs fois, XLSTAT fait une slection
multiple des valeurs minimales vous permettant ensuite de naviguer de lune lautre
simplement en appuyant sur la touche Entre .

Bote de dialogue

recherche.

Trouver le minimum : activez cette option pour que XLSTAT recherche le ou les minimum
dans la slection. Si loption Slection multiple est active et que plusieurs valeurs
correspondant au minimum sont trouves, elles seront toutes slectionnes et vous pourrez
naviguer de lune lautre en cliquant sur la touche Entre du clavier.
Trouver le maximum : activez cette option pour que XLSTAT recherche le ou les maximum
dans la slection. Si loption Slection multiple est active et que plusieurs valeurs
correspondant au maximum sont trouves, elles seront toutes slectionnes et vous pourrez
naviguer de lune lautre en cliquant sur la touche Entre du clavier.
Slection multiple : activez cette option pour que les diffrentes valeurs correspondant au
minimum et/ou au maximum soient simultanment slectionnes.

422
Supprimer les valeurs textuelles
Utilisez cet outil pour supprimer le contenu de cellules dune feuille Excel qui contiennet des
valeurs textuelles. Cet outil est particulirement utile lorsque vous importez sous Excel des
donnes numriques et que certaines donnes manquantes sont interprtes par Excel
comme tant des chanes vides.

Bote de dialogue

modification.


Nettoyer uniquement les cellules avec des chanes vides : activez cette option pour que
seules les cellules contenant des chanes vides soient converties en cellules vides, sans
format prdfini.

423
Gestion des feuilles
Utilisez cet outil pour activer, afficher, cacher, ou supprimer une ou plusieurs feuilles
contenues dans lun des classeurs ouverts.

Bote de dialogue
Lorsque vous lancez cet outil, une bote de dialogue contenant la liste de toutes les feuilles
(caches ou non) de tous les classeurs est affiche.
Activer : cliquez sur ce bouton pour activer la premire des feuilles slectionnes.
Afficher : cliquez sur ce bouton pour afficher toutes les feuilles slectionnes.
Cacher : cliquez sur ce bouton pour cacher toutes les feuilles slectionnes.
Supprimer : cliquez sur ce bouton pour supprimer toutes les feuilles slectionnes. Attention,
la suppression des feuilles caches est irrversible.
Annuler : cliquez sur ce bouton pour fermer la bote de dialogue.
Aide : cliquez sur ce bouton pour afficher laide.

424
Supprimer les feuilles caches
Utilisez cet outil pour supprimer les feuilles caches gnres par XLSTAT ou dautres
applications. XLSTAT gnre des feuilles caches pour crer certains graphiques. Cet outil
permet de choisir les feuilles caches supprimer ou garder.

Bote de dialogue
Feuilles caches : la liste des feuilles caches est affiche. Slectionnez les feuilles caches
que vous voulez supprimer.
Toutes : cliquez sur ce bouton pour slectionner toutes les feuilles dans la liste.
Aucune : cliquez sur ce bouton pour dslectionner toutes les feuilles dans la liste.

Supprimer : cliquez sur ce bouton pour supprimer toutes les feuilles slectionnes. Attention,
la suppression des feuilles caches est irrversible.

425
Afficher les feuilles caches
Utilisez cet outil pour afficher les feuilles caches gnres par XLSTAT ou dautres
applications. XLSTAT gnre des feuilles caches pour crer certains graphiques. Cet outil
permet de choisir les feuilles caches afficher.

Bote de dialogue
Feuilles caches : la liste des feuilles caches est affiche. Slectionnez les feuilles caches
que vous voulez afficher.
Toutes : cliquez sur ce bouton pour slectionner toutes les feuilles dans la liste.
Aucune : cliquez sur ce bouton pour dslectionner toutes les feuilles dans la liste.

Afficher : cliquez sur ce bouton pour afficher toutes les feuilles slectionnes.

426
Exporter vers GIF/JPG/PNG/TIF
Utiliser cet outil pour exporter un graphique, une plage de donnes, un tableau, ou un objet
quelconque vers un fichier graphique au format GIF, JPG, PNG ou TIF.

Bote de dialogue
: cliquez sur ce bouton pour enregistrer lobjet slectionn dans un fichier.

Format : choisissez le format graphique pour le fichier gnrer.
Nom du fichier : entrez le nom du fichier gnrer, ou choisissez le dans un rpertoire
donn.

Modifier la taille : activez cette option pour modifier la taille du graphique gnr.
- Largeur : entrez la valeur en points de la largeur du graphique;
- Hauteur : entrez la valeur en points de la hauteur des graphique.

Afficher le quadrillage : activez cette option si vous souhaitez quen gnrant le graphique
XLSTAT laisse figurer le quadrillage sparant les cellules. Cette option nest active que
lorsque des cellules ou des tableaux sont slectionns.

427
Afficher la barre principale
Utilisez cet outil pour afficher la barre doutils principale de XLSTAT si elle nest plus affiche,
ou pour replacer la barre doutils principale en haut gauche de la feuille Excel.

Cacher les barres secondaires
Utilisez cet outil pour cacher les barres secondaires de XLSTAT.

428
Cartographie externe des prfrences (PREFMAP)
Utiliser cette mthode pour modliser et reprsenter graphiquement les prfrences de juges
pour une srie dobjets en fonction de critres objectifs, ou de combinaisons linaires de
critres.

Description
La cartographie externe des prfrences (en anglais external preference mapping -
PREFMAP) permet de visualiser sur une mme reprsentation graphique (en deux ou trois
dimensions) dune part des objets, et dautre part des indications montrant le niveau de
prfrence de juges (en gnral des consommateurs) en certains points de lespace de
reprsentation. Le niveau de prfrence est reprsent sur la carte de prfrence sous formes
de vecteurs, de points idaux ou anti-idaux, ou de courbes disoprfrence en fonction du
type de modle choisi.
Les modles sont eux-mmes construits partir de donnes objectives (par exemple des
descripteurs physico-chimiques, ou des notes fournies par des experts sur des critres bien
dtermins) ce qui permet dinterprter la position des juges et des produits en fonction des
critres objectifs.
Sil ny a que deux ou trois critres objectifs, les axes de lespace de reprsentation sont
dfinis par les critres eux-mmes (ventuellement centrs-rduits pour viter des effets
dchelle). En revanche, si le nombre de descripteurs est plus important, une mthode de
rduction du nombre de dimensions doit tre utilise. En gnral, lACP est utilise.
Nanmoins, il est aussi possible dutiliser lanalyse factorielle si lon souponne lexistence de
facteurs sous-jacents, ou un MDS (multidimensional scaling) si les donnes initiales sont des
distances entre les produits. Si les descripteurs utiliss par les experts sont des variables
qualitatives, on peut utiliser une ACM pour crer un espace 2 ou trois dimensions.
Le PREFMAP peut tre utilis pour rpondre aux questions suivantes :
- Comment se positionne un produit par rapport des produits concurrents ?
- Quel est le produit concurrent le plus proche dun produit donn ?
- Quel type de consommateur prfre un produit ?
- Pourquoi certains produits sont-ils prfrs ?
- Comment puis-je repositionner un produit pour quil soit encore davantage prfr par son
cur de cible ?
- Quels nouveaux produits peut-il tre pertinent de crer ?
429

Modles de prfrence
Pour modliser les prfrences des juges en fonction des critres objectifs ou de combinaison
de critres objectifs (si une ACP a permis de gnrer lespace 2 ou 3 dimensions) quatre
modles ont t proposs dans le cadre du PREFMAP. Pour un juge donn, si on dsigne par
y
i
sa prfrence pour le produit i, et par X1, X2, , Xp les p critres ou combinaisons de
critres (en gnral p=2) dcrivant le produit i, les modles sont :
- Vectoriel :
0
1
p
i j ij
j
y a a x
=
= +

- Circulaire :

= =
+ + =
p
j
ij
p
j
ij j i
x b x a a y
1
2
1
0

- Elliptique :

= =
+ + =
p
j
ij j
p
j
ij j i
x b x a a y
1
2
1
0

- Quadratique :
1
2
0
1 1 1 1
p p p p
i j ij j ij jk ij ik
j j j k j
y a a x b x c x x
= = = +
= + + +

Les coefficients a
j
sont estims par rgression linaire multiple. On peut remarquer que les
modles sont classs du plus simple au plus complexe. XLSTAT permet, soit de choisir un
modle utiliser pour tous les juges, soit de retenir pour un juge donn le modle donnant le
meilleur rsultat au sens de la p-value du F de Fisher ou du test du F-ratio.
Le modle vectoriel permet de reprsenter les individus sur la carte sensorielle sous forme de
vecteurs. La taille des vecteurs est fonction du R du modle : plus le vecteur est long, meilleur
est le modle correspondant. La prfrence du juge sera d'autant plus forte que l'on sera loin
dans la direction indique par le vecteur. L'interprtation de la prfrence peut se faire en
projetant sur les vecteurs les diffrents produits (prfrence produit). L'inconvnient du modle
vectoriel est qu'il nglige le fait que pour certains critres (le sal ou la temprature par
exemple), on peut avoir une croissance de la prfrence jusqu' un optimum puis une
dcroissance.
Le modle circulaire permet de prendre en compte cette notion doptimum. Si la surface
correspondant au modle a un maximum en terme de prfrence (cela se produit si le
coefficient b estim est ngatif), on parle de point idal (venant de langlais ideal point
comprendre comme point correspondant lidal ). Si la surface a au contraire un minimum
(cela se produit si le coefficient b estim est positif), on parle de point anti-idal (venant de
langlais anti-ideal point comprendre comme point correspondant loppos de lidal ).
Avec le modle circulaire, on peut tracer des lignes circulaires d'isoprfrence autour du point
idal ou anti-idal.
430
Le modle elliptique est proche du modle circulaire. Plus souple, il permet de mieux tenir
compte deffets dchelle. Linconvnient de ce modle est que loptimum du modle nexiste
pas toujours : comme avec le modle circulaire, on peut obtenir un point idal, ou un point
anti-idal, mais il arrive aussi que lon obtienne un point selle (de la forme de la surface,
rappelant une selle de cheval) si tous les coefficients b
j
.ne sont pas du mme signe. Le point
selle nest pas facilement interprtable. Il correspond uniquement une zone ou la prfrence
est moins sensible aux variations.
Enfin, le modle quadratique permet de modliser des structures de prfrence plus
complexes, en tenant notamment compte dinteractions. Comme avec le modle elliptique, on
peut obtenir un point idal, un point anti-idal, ou un point selle si tous les coefficients b
j
.ne
sont pas du mme signe.

Carte des prfrences
La carte des prfrences est une vision synthtique de trois types dlments :
- les juges (ou groupes de juges si une classification des juges a dabord t effectue)
reprsents au travers du modle correspondant par un vecteur, un point idal (not +),
un point anti-idal (not -), ou un point selle (not o) ;
- les objets dont la position sur la carte est dtermine par leurs coordonnes ;
- les descripteurs, qui correspondent aux axes de reprsentation, ou leur sont lis
(lorsquune ACP prcde le PREFMAP, on tudiera le biplot issu de lACP pour interprter
la position des objets en fonction des critres objectifs).
Le PREFMAP, avec linterprtation quen permet la carte des prfrences, est un outil daide
linterprtation et la dcision potentiellement trs puissant puisquil permet de relier des
donnes de prfrence des donnes objectives. Cependant, il faut que les modles associs
aux juges soient bien ajusts pour que linterprtation soit fiable.

Scores de prfrence
Le score de prfrence de chaque objet pour un juge donn, dont la valeur est comprise entre
0 (minimum) et 1 (maximum), est calcul partir de la prdiction du modle correspondant au
juge. Le score est dautant plus lev que le produit est prfr. Des scores de prfrence des
diffrents produits, on dduit un ordre de prfrence des objets, pour chacun des juges.

Contour plot
Le contour plot (courbes de niveau) permet de visualiser, sur un graphique dont les axes sont
les mmes que ceux de la carte des prfrences, les rgions correspondant diffrents
niveaux de consensus de prfrence. En chaque point du graphique, on calcule le
431
pourcentage de juges pour lesquels la prfrence calcule partir du modle est suprieure
leur prfrence moyenne. Dans les rgions correspondant aux couleurs froides (bleus), une
faible proportion de modles donne de prfrences leves. Au contraire, dans les rgions
correspondant aux couleurs chaudes (rouge), une forte proportion de modles donne des
prfrences leves.

Bote de dialogue

calculs.

Onglet Gnral :
Y / Donnes de prfrence : slectionnez les donnes de prfrence. Le tableau doit
contenir en ligne les diffrents objets (produits) tudis, et en colonne les juges (en mode
transpos, cela doit tre le contraire). Si des en-ttes de colonnes ont t slectionns,
Remarque : XLSTAT considre que les prfrences sont des donnes croissantes (plus un
juge apprcie un objet, plus la prfrence est leve).
432
Centrer : activez cette option si vous voulez centrer les donnes de prfrence avant de
commencer les calculs.
Rduire : activez cette option si vous voulez rduire les donnes de prfrence avant de
commencer les calculs.

X / Configuration : slectionnez les donnes qui correspondent aux descripteurs objectifs ou
une configuration en deux ou trois dimensions si une mthode a dj t utilise pour
gnrer la configuration. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que
Transformation prliminaire : activez cette option si vous souhaitez transformer les donnes.
- Normalisation : activez cette option pour centrer-rduire les donnes de la
configuration X avant de raliser le PREFMAP.
- ACP (Pearson) : activez cette option pour que XLSTAT transforme les descripteurs
slectionns au moyen dune Analyse en Composantes Principales (ACP) norme. Le
nombre de facteurs utiliss pour la suite des calculs est dtermin par le nombre de
dimensions choisi.
- ACP (Covariance) : activez cette option pour que XLSTAT transforme les descripteurs
slectionns au moyen dune Analyse en Composantes Principales (ACP) non norme.
Le nombre de facteurs utiliss pour la suite des calculs est dtermin par le nombre de
dimensions choisi.

actif.

(variables dpendantes et explicatives, libells des observations) contient un libell.
Libells des objets : activez cette option si vous voulez utiliser des libells dobjets pour
laffichage des rsultats. Si l'option Libells des variables est active, la premire cellule de
la slection doit comprendre un en-tte. Si vous nactivez pas cette option, des libells seront
automatiquement crs (Obs1, Obs2, ).

433
Modle : choisissez le type de modle utiliser pour relier les prfrences la configuration
X. Si loption Rechercher le meilleur modle (voir onglet Options).
Dimensions : entrez le nombre de dimensions utiliser pour le modle PREFMAP (valeur par
dfaut : 2).

Onglet Options :
Rechercher le meilleur modle : activez cette option afin de permettre XLSTAT de trouver
pour chaque juge quel est le modle le plus performant.
- F-ratio : activez cette option pour utiliser le test du F-ratio pour slectionner le modle
donnant la fois le mieux ajuster et le plus parcimonieux. Un modle plus complexe est
retenu si la p-value associe au F-ratio est infrieure au seuil de signification choisi ci-
dessous.
- F : activez cette option slectionner le modle donnant la meilleure p-value associe au
F de Fisher.

Niveau de signification (%) : entrez le niveau de signification. Les p-values des modles sont
affiches en gras lorsquelles sont infrieures ce niveau.

Poids : si vous voulez attribuer des poids aux diffrents juges (par exemple, parce quen
ralit ce sont des groupes de juges), vous pouvez activer cette option et slectionner les
poids correspondants.

Onglet Prdiction :
Cet onglet nest pas visible si une transformation prliminaire par ACP a t demande.
dans les slections. En revanche, vous ne devez pas slectionner de libells de variables : la
X / Configuration : activez cette option pour slectionner les donnes de la configuration
utiliser pour des prdictions. La premire ligne ne doit pas comprendre den-tte.
434
Libells des objets : activez cette option, si vous voulez utiliser des libells dobjets pour les
donnes de prdiction. La premire ligne ne doit pas comprendre den-tte. Si vous nactivez
pas cette option, des libells seront automatiquement crs (PredObs1, PredObs2, ).


Onglet Sorties :
Corrlations : activez cette option pour afficher la matrice de corrlation pour les diffrentes
variables slectionnes.
Analyse de la variance : activez cette option pour afficher le tableau danalyse de la variance
pour les diffrents modles.
Coefficients des modles : activez cette option pour afficher les paramtres des modles.
Prdictions des modles : activez cette option pour afficher les prdictions des modles.
Scores de prfrence : activez cette option pour afficher les scores de prfrence sur une
chelle de 0 1.
Rangs des scores de prfrence : activez cette option pour afficher les rangs correspondant
aux scores de prfrence.
Objets classs : activez cette option pour afficher les objets dans lordre dcroissant de
prfrence pour chacun des juges

Dans le cas o une transformation prliminaire par ACP a t demande, les options
suivantes sont disponibles :
435
coordonnes sont ensuite utilises pour le PREFMAP.

Onglet Graphiques (ACP) :
Cet onglet nest visible que dans le cas o une transformation prliminaire par ACP a t
demande.
vecteurs.
filtrage.
vecteurs.

description de lACP pour plus de dtails.
436


Onglet Graphiques :
Carte des prfrences : activez cette option pour afficher la carte des prfrences.
- Afficher les points idaux : activez cette option pour afficher les points idaux.
- Afficher les points anti-idaux : activez cette option pour afficher les points anti-
idaux.
- Afficher les points selle : activez cette option pour afficher les points selle.
- Restriction du domaine : activez cette option pour nafficher les points solution
(idaux, anti-idaux, selle) que sils se trouvent lintrieur dun domaine dfinir.
Entrez alors la taille de zone utiliser pour laffichage : cette taille est exprime en % de
la zone dlimite par la configuration X (valeur comprise entre 100 et 500).
- Longueur des vecteurs : les options ci-dessous permettent de dterminer la longueur
des vecteurs sur la carte de prfrence, lorsquun modle vectoriel est utilis.
Coefficients : choisissez cette option pour que la longueur des vecteurs soit uniquement
dtermine par les coefficients du modle vectoriel.
R : choisissez cette option pour que la longueur des vecteurs soit dtermine par la valeur du R
du modle. Ainsi, mieux un modle est ajust, plus long est le vecteur correspondant sur la carte.
= : choisissez cette option pour que tous les vecteurs soient de la mme taille.
Facteur dallongement : utilisez cette option pour multiplier la longueur de tous les vecteurs par
une valeur arbitraire (valeur par dfaut :1)

Modle circulaire :
- Afficher des cercles : entrez le nombre de cercles disoprfrence afficher.

Courbes de niveau : activez cette option pour afficher le contour plot (voir la section
Description). Vous pouvez alors choisir entre les options suivantes :
437
- Seuil / Moyenne (%) : entrez le niveau par rapport la moyenne des prfrences tous
juges confondus, exprim en %, partir duquel on peut considrer quun juge a une
prfrence pour un produit (la valeur par dfaut, 100, correspond la moyenne).
- Seuil (Valeur) : entrez le niveau absolu partir duquel on peut considrer quun juge a
une prfrence pour un produit.

Rsultats
Statistiques simples : dans ce tableau sont affichs pour tous les juges et toutes les
dimensions de la configuration X (avant transformation si une transformation a t demande),
le nombre de donnes non manquantes, la moyenne, et lcart-type (non biais).
Slection du modle : ce tableau permet de visualiser quel modle a t utilis pour chacun
des juges. Si le modle nest pas un modle vectoriel, le type de point solution est affich
(idal, anti-idal, selle) avec ses coordonnes.
Analyse de la variance : dans ce tableau sont affiches les statistiques permettant dvaluer
la qualit de lajustement du modle (R, F, et Pr>F). Lorsque la p-value (Pr>F) est infrieure
au niveau de signification choisi, elle est affiche en gras. Si loption F-ratio a t choisie dans
longlet Options , les rsultats du test du F-ratio sont affichs (valeur du F et p-value
associe).
Coefficients du modle : dans ce tableau sont affichs, pour chaque juge, les diffrents
coefficients du modle retenu.
Prdictions du modle : ce tableau correspond aux prfrences estimes par le modle pour
chaque juge et chaque produit. Remarque : si les prfrences ont t centres-rduites, ces
rsultats correspondent aussi des prfrences centres-rduites.
Scores de prfrence de 0 1 : ce tableau correspond aux prdictions remises sur une
chelle de 0 1.
Rangs des scores de prfrence : dans ce tableau sont affichs les rangs des scores de
prfrence. Plus le rang est lev, plus la prfrence est leve.
Objets classs par ordre croissant de prfrence : dans ce tableau sont affichs par ordre
croissant de prfrence, pour chaque juge, la liste des objets. Autrement dit, la dernire ligne
correspond aux objets prfrs des juges, selon les modles de prfrence.
438
La carte des prfrences et le contour plot sont ensuite affichs. Sur la carte de prfrence,
les points idaux sont figurs par (+), les points anti-idaux par (-) et les points selle par (o).

Exemple
Un exemple de Preference Mapping est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-prefmapf.htm

Bibliographie
Danzart M. and Heyd B. (1996). Le modle quadratique en cartographie des prfrences.
3me Congrs Sensometrics, ENITIAA.
Naes T. and Risvik E. (1996). Multivariate Analysis of Data in Sensory Science. Elsevier
Science, Amsterdam.
Schlich P. and McEwan J.A. (1992). Cartographie des prfrences. Un outil statistique pour
l'industrie agro-alimentaire. Sciences des aliments, 12, 339-355

439
Analyse Procrustenne Gnralise
Utilisez lanalyse procrustenne gnralise (Generalized Procrustes Analysis ou GPA en
anglais) pour transformer plusieurs configurations multidimensionnelles de manire les
rendre le plus semblables possible et pour ventuellement ensuite comparer les configurations
transformes.

Description
Procruste (ou Procuste), qui en grec ancien signifie celui qui allonge en tirant , est un
personnage de la mythologie grec. Le nom du bandit Procruste est associ au lit de torture
dont il se servait pour supplicier les voyageurs auxquels il proposait le gte. Procruste installait
sa future victime sur un lit dimensions variables : court pour les grands et long pour les
petits. Selon le cas, il tranchait d'un coup d'pe ce qui dpassait du lit ou allongeait le corps
du voyageur jusqu' amener la longueur du malheureux celle du lit, en utilisant un
mcanisme qu'Hphastos lui avait fabriqu. Thse anticipa le pige et se mit dans le lit en
biais. Lorsque Procuste vint ajuster le corps de Thse, il ne comprit pas immdiatement la
situation et resta perplexe le temps pour Thse de sectionner, d'un coup d'pe, le brigand
en deux parties gales.
Lanalyse procrustenne gnralise (Generalised Procrustes Analysis ou GPA en anglais) est
une mthode mathmatique qui permet de raliser des transformations sur des tableaux
multidimensionnels de manire rduire la distance euclidienne entre ces tableaux.
Lanalyse procrustenne gnralise est souvent utilise en analyse sensorielle en pralable
une cartographie des prfrences (Preference mapping) par exemple pour rduire les effets
dchelles et pour aboutir une configuration consensuelle. Elle peut aussi permettre
danalyser la proximit de certains termes utiliss par diffrents experts.

Principe
On dsigne par configuration une matrice n x p (n objets, p dimensions) correspondant la
description de n objets (ou individus/produits) suivant p dimensions (ou attributs/
variables/critres/descripteurs).
On appelle configuration consensuelle la configuration moyenne calcule partir des m
configurations. Lanalyse procrustenne gnralise est une mthode itrative qui permet de
rduire par une suite de transformations des m configurations (changement dchelle,
translations, rotations, rflexions), la distance des m configurations la configuration
consensuelle, cette dernire voluant aprs chaque transformation.
Prenons lexemple de 5 experts notant 4 fromages suivant 3 critres, les notes pouvant aller
de 1 10. On peut facilement envisager quun juge ait tendance tre plus dur dans sa
440
notation, entranant un dcalage vers le bas des notes, ou quun autre ait tendance mettre
des notes autour de la moyenne, sans oser se risquer utiliser des notes extrmes. Travailler
sur une configuration moyenne risquerait alors dentraner de fausses interprtations. On
comprend aisment quune translation des notes du premier juge est ncessaire, ou quune
remise lchelle des notes du second juge rendrait les notes de ce dernier ventuellement
plus proches de celles des autres juges.
Une fois la configuration consensuelle obtenue, il est possible de raliser une ACP de manire
permettre une visualisation optimale en deux ou trois dimensions des configurations aprs
transformation et de la configuration consensuelle. XLSTAT-MX ralise une ACP non norme
et affiche le cercle des corrlations et la carte des objets.

Structure des donnes
Il existe deux cas diffrents :
1. Si le nombre et la dsignation des p dimensions sont identiques pour les m configurations,
on parle en analyse sensorielle de profils conventionnels.
2. Si le nombre p et la dsignation des dimensions varie dune configuration lautre, on parle
en analyse sensorielle de profils libres, et les donnes ne peuvent alors tre reprsentes que
sous la forme dune suite de m matrices de taille n x p(k), k=1,2, , m.
Pour la saisie des donnes, XLSTAT vous demande de slectionner un tableau n x (p x m),
correspondant aux m configurations contigus. Si le nombre de dimensions varie dune
configuration lautre, et si P dsigne le nombre de dimensions maximal sur lensemble des
configurations, vous devrez pralablement ajouter des colonnes de 0 pour les dimensions
manquantes de chaque configuration, de manire quil y ait bien P x m colonnes dans le
tableau. Ces dimensions ne sont pas affiches sur le cercle des corrlations.
Si le nom des dimensions varie dune configuration lautre, XLSTAT indique par Var(i) le nom
de la i
ime
dimension des configurations, mais garde le nom original des dimensions pour
laffichage du cercle des corrlations.

Transposition des donnes
Il arrive frquemment que le nombre (m x p) de colonnes du tableau des configurations
dpasse la limite impose par Excel. Pour palier ce problme, XLSTAT vous permet dutiliser
des tableaux transposs. Pour utiliser des tableaux transposs (tous les tableaux slectionns
doivent alors tre transposs), il vous suffit que cliquer sur le bouton de transposition : la
flche bleue en bas gauche de la bote de dialogue devient alors rouge.

441

Bote de dialogue

calculs.

Onglet Gnral :
Configurations : slectionnez les donnes correspondant aux configurations. Si la premire
ligne de la slection comprend des en-ttes, l'option Libells des dimensions doit tre
active.
Nombre de configurations : entrez le nombre de configurations contenues dans la slection
ci-dessus. Remarque : chaque configuration doit avoir le mme nombre de colonnes.
Nombre de dimensions par configuration :
- Egal : choisissez cette option si le nombre de dimensions est identique pour toutes les
configurations. XLSTAT dtermine alors automatiquement le nombre de dimensions de
chacune des configurations.
- Dfini par lutilisateur : choisissez cette option pour slectionner une plage contenant
les nombres de dimensions correspondant chacune des configurations. Si l'option
442
Libells des dimensions est active, la premire cellule de la slection doit
comprendre un en-tte.
Libells des configurations : activez cette option si vous voulez utiliser les libells des
configurations pour laffichage des rsultats. Si l'option Libells des dimensions est
active, la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas
cette option, des libells seront automatiquement crs (C1, C2, ).

actif.

Libells des dimensions : activez cette option si la premire ligne des donnes
slectionnes (configurations, libells des configurations, libells des objets) contient un
libell.
Libells des objets : activez cette option si vous voulez utiliser des libells dobjets pour
laffichage des rsultats. Si l'option Libells des dimensions est active, la premire cellule
de la slection doit comprendre un en-tte. Si vous nactivez pas cette option, des libells
seront automatiquement crs (Obs1, Obs2, ).

Onglet Options :
Mise lchelle : activez cette option pour effectuer les mises lchelle (rescaling).
Rotation/Rflexion : activez cette option pour effectuer les rotations/rflexion.
ACP : activez cette option pour effectuer une Analyse en Composantes Principales en fin
danalyse.

nombre de facteurs pris en compte la suite de lACP :
prendre en compte.
443

Tests :
- Test de consensus : activez cette option pour utiliser un test de permutation
permettant de dterminer si un consensus est obtenu suite aux transformations.
- Test de dimensions : activez cette option pour utiliser un test de permutation
permettant de dterminer quel est le bon nombre de facteurs retenir.
Nombre de permutations : entrez le nombre de permutations raliser pour les tests (valeur
par dfaut : 300)
Niveau de signification (%) : entrez le niveau de signification pour les tests.

Conditions darrt :
100.
- Convergence : entrez la valeur seuil dvolution maximale du critre de convergence
dune itration lautre, qui une fois atteinte permet de considrer que lalgorithme a

Remplacer les donnes manquantes : activez cette option pour remplacer les donnes
manquantes par 0.
manquantes. La mthode utilise amne considrer que si une valeur est manquante pour
lobjet J et pour la dimension D de la configuration C, alors les valeurs sont manquantes pour
lobjet J pour toutes les dimensions de la configuration C. En revanche, les valeurs pour objet
J pour les autres configurations ne sont pas affectes.

Onglet Sorties :
Tableau de PANOVA : activez cette option pour afficher le tableau de PANOVA.
444
Rsidus par objet : activez cette option pour afficher les rsidus pour chacun des objets.
Rsidus par configuration : activez cette option pour afficher les rsidus pour chacune des
configurations.
Facteurs de mise lchelle : activez cette option pour afficher les facteurs de mises
lchelle appliqus chacune des configurations.
Matrices de rotation : activez cette option pour afficher les matrices de rotation associes
chaque configuration.

Les options ci-dessous ne sont disponibles que si une ACP a t demande :
Valeurs propres : activez cette option pour afficher les valeurs propres de lACP.
Configuration consensus : activez cette option pour afficher les coordonnes des
dimensions pour la configuration consensus (ou configuration moyenne).
Configurations : activez cette option pour afficher les coordonnes des dimensions pour
chacune des configurations.
Coordonnes des objets : activez cette option pour afficher les coordonnes objets aprs les
transformations.
- Prsentation par configuration : activez cette option pour afficher un tableau de
coordonnes par configuration.
- Prsentation par objet : activez cette option pour afficher un tableau de coordonnes
par objet.

Onglet Graphiques (ACP) :
Les options ci-dessous ne sont disponibles que si une ACP a t demande :
Valeurs propres : activez cette option pour afficher le diagramme en btons des valeurs
propres de lACP.
Graphiques de corrlations : activez cette option pour afficher les cercles des corrlations
pour la configuration consensus et pour les configurations individuelles.
- Vecteurs : activez cette option pour utiliser des vecteurs.
Coordonnes des objets : activez cette option pour reprsenter graphiquement les objets.
- Prsentation par configuration : activez cette option pour afficher un graphique o la
couleur dpend de la configuration.
445
- Prsentation par objet : activez cette option pour afficher un graphique o la couleur
dpend de lobjet.


observations et des variables.

Onglet Graphiques :
Rsidus par objet : activez cette option pour afficher le diagramme en btons des rsidus
pour chacun des objets.
Rsidus par configuration : activez cette option pour afficher le diagramme en btons des
rsidus pour chacune des configurations.
Facteurs de mise lchelle : activez cette option pour afficher le diagramme en btons des
facteurs de mises lchelle appliqus chacune des configurations.
Histogrammes des tests : activez cette option pour afficher les histrogrammes partir des
rsultats des tests de permutation.

446
Rsultats
Tableau de PANOVA : inspir du format du tableau danalyse de la variable du modle
linaire, ce tableau permet dvaluer lapport respectif des diffrentes transformations. Dans ce
tableau sont prsentes la variance rsiduelle finale, la variation de variance due la mise
lchelle des configurations la rotation et la translation. Le calcul de la statistique F de
Fisher permet de comparer les contributions relatives des diffrentes transformations. Les
probabilits correspondantes permettent dvaluer si les transformations ont un effet significatif
ou non en terme de rduction de la variance.
Rsidus par objet : ce tableau et le diagramme en btons correspondant permettent de
visualiser la rpartition de la variance rsiduelle par objet. On peut ainsi reprer pour quels
objets la GPA a t moins efficace, autrement dit, quels objets se dmarquent le plus de la
configuration consensuelle.
Rsidus par configuration : ce tableau et le diagramme en btons correspondant permettent
de visualiser la rpartition de la variance rsiduelle par configuration. On peut ainsi reprer
pour quelles configurations la GPA a t moins efficace, autrement dit, quelles configurations
se dmarquent le plus de la configuration consensuelle.
Facteurs de mise l'chelle pour chaque configuration : ce tableau et le diagramme
correspondant permettent de comparer les facteurs de mise lchelle pour les diffrentes
configurations. Il est utilis en analyse sensorielle pour comprendre comment les juges ou
experts utilisent diffremment les chelles de notation.
Matrices de rotation : les matrices de rotation appliques chaque configuration sont
affiches si lutilisateur la demand.

Rsultats du test de consensus : dans ce tableau sont affichs, le nombre de permutations
effectues, la valeur Rc qui correspond la proportion de variance totale explique par le
consensus, et le quantile correspondant Rc tant donne la distribution de Rc obtenue suite
aux permutations. Pour valuer si la GPA est efficace, on se fixe un intervalle de confiance
(typiquement 95%), et si le quantile est au-del de lintervalle de confiance, on conclut que la
GPA a significativement rduit la variance.
Rsultats du test de dimensions : dans ce tableau sont affichs, pour chaque facteur retenu
lissue de lACP, le nombre de permutations effectues, le F calcul suite la GPA (F est ici
le rapport de la variance entre les objets sur la variance entre les configurations), le quantile
correspondant au F tant donne la distribution de F obtenue suite aux permutations. Pour
valuer si un facteur contribue significativement la qualit de la GPA, on se fixe un intervalle
de confiance (typiquement 95%), et si le quantile est au-del de lintervalle de confiance, on
conclut que le facteur contribue significativement. A titre indicatif sont aussi affiches les
valeurs critiques et les p-values de la distribution F de Fisher pour le niveau alpha choisi. Il se
peut que les conclusions issues de la distribution F de Fisher soit trs diffrentes de ce
quindique le test de permutation : lutilisation de la distribution F de Fisher suppose la
normalit des donnes, ce qui nest pas ncessairement le cas.
447

Rsultats pour la configuration consensus :
Coordonnes des objets avant lACP : ce tableau correspond aux coordonnes moyennes
des objets, aprs les transformations de la GPA, et avant lACP.
Valeurs propres : si une ACP a t demande, le tableau des valeurs propres et le
diagramme en btons correspondant sont affichs. De ces valeurs propres est dduit le
pourcentage de variabilit totale correspondant chaque axe.
Corrlations des variables avec les facteurs : ces rsultats correspondent aux corrlations
entre les variables de la configuration consensus avant les transformations, avec les facteurs
obtenus aprs les transformations (GPA et ACP si cette dernire a t demande).
Coordonnes des objets : ce tableau correspond aux coordonnes moyennes des objets,
aprs les transformations de la GPA puis de lACP si cette dernire a t demande. Ces
rsultats sont utiliss pour la construction du graphique des objets.

Rsultats pour les configurations aprs transformations :
Variance par configuration et par facteur : ce tableau, et le diagramme en btons qui lui
correspond, permettent de visualiser comment se rpartit pour chaque configuration la
variance pour chacun des facteurs gnrs par lACP.
Corrlations entre les variables et les facteurs : ces rsultats correspondent aux
corrlations entre les coordonnes des configurations avant et aprs les transformations (GPA
et ACP si cette dernire a t demande). Ces rsultats sont utiliss pour construire le cercle
des corrlations si une ACP a t effectue. Sur le cercle des corrlations, les libells
explicites des variables utilises pour chaque configuration sont affichs.
Coordonnes des objets (prsentation par configuration) : cette srie de tableau
correspond aux coordonnes des objets pour chaque configuration, aprs les transformations
de la GPA puis de lACP si cette dernire a t demande. Ces rsultats sont utiliss pour la
construction de la premire srie de graphiques des objets.
Coordonnes des objets (prsentation par objet) : cette srie de tableaux correspond aux
coordonnes des objets pour chaque configuration, aprs les transformations de la GPA puis
de lACP si cette dernire a t demande. Ces rsultats sont utiliss pour la construction de
la seconde srie de graphiques des objets.

448
Exemple
Un exemple dAnalyse Procrustenne Gnralise est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-gpaf.htm

Bibliographie
Gower J.C. (1975). Generalised Procrustes Analysis. Psychometrika, 40(1), 33-51.
Naes T. and Risvik E. (1996). Multivariate Analysis of Data in Sensory Science. Elsevier
Science, Amsterdam.
Rodrigue N. (1999). A comparison of the performance of generalized procrustes analysis and
the intraclass coefficient of correlation to estimate interrater reliability. Department of
Epidemiology and Biostatistics. McGill University.
Wakeling I.N., Raats M.M. and MacFie H.J.H. (1992). A new significance test for consensus
in generalized Procrustes analysis. Journal of Sensory Studies, 7, 91-96.
Wu W., Gyo Q., de Jong S. and Massart D.L. (2002). Randomisation test for the number of
dimensions of the group average space in generalised Procrustes analysis. Food Quality and
Preference, 13, 191-200.

449
Penalty analysis
Utilisez cet outil pour analyser les rsultats dune enqute portant sur chelles 5 niveaux de
type JAR (Just About Right), pour lesquelles le niveau intermdiaire 3 correspond la
prfrence du consommateur.

Description
La penalty analysis (analyse des pnalits) est une mthode utilise en analyse sensorielle
pour identifier des axes damliorations possibles pour des produits, suite des enqutes
auprs de consommateurs ou dexperts.
Les donnes utilises sont de deux types :
- des donnes de prfrence correspondant des indices de satisfaction globaux sur un
produit (par exemple, une note dapprciation globale de 1 10 pour un chocolat), ou sur
une caractristique dun produit (le confort dune voiture not de 1 10).
- des donnes sur une chelle JAR (Just About Right) sur 5 niveaux. Ces donnes
correspondent des notes de 1 5 pour une ou plusieurs caractristiques des produits
tudis o 1 correspond Pas du tout assez , 2 Pas assez , 3 JAR (Just
About Right) un idal pour le consommateur, 4 Trop et 5 Beaucoup trop . Par
exemple, pour un chocolat, on pourra noter son amertume, et pour le confort dune voiture,
le volume sonore du moteur.
La mthode consiste identifier, en utilisant des ANOVA pour chacune des caractristiques
tudies sur lchelle JAR, si une diffrence de notation JAR est associe une diffrence
significative au niveau des donnes globales de prfrence. Par exemple, le fait quun
chocolat soit trop amer, est-il responsable dun abaissement significatif de la note globale
donne un chocolat ou non ?
Le terme de pnalit vient donc de ce que lon recherche les caractristiques susceptibles de
pnaliser la satisfaction des consommateurs pour un produit donn. La pnalit est la
diffrence de la moyenne des donnes de prfrence pour la catgorie JAR, avec la moyenne
des donnes pour les autres catgories.
Lanalyse de pnalits se subdivise en trois phases :
1. On regroupe les donnes 1 et 2 dune part et 4 et 5 dautre part, ce qui permet dune
dobtenir une chelle sur trois niveaux, Pas assez , JAR et Trop .
2. On calcule puis on compare les moyennes des trois groupes pour les donnes de
prfrence pour identifier dventuelles diffrences significatives.
3. On calcule la pnalit puis on teste si elle est significativement diffrente de 0.
450

Bote de dialogue

calculs.

Onglet Gnral :
Donnes de prfrence : slectionnez les donnes de prfrence. Plusieurs colonnes
peuvent ventuellement tre slectionnes. Si des en-ttes de colonnes ont t slectionns,
Donnes sur lchelle JAR : slectionnez les donnes mesures sur lchelle JAR. Plusieurs
colonnes peuvent tre slectionnes. Si des en-ttes de colonnes ont t slectionns,
veuillez vrifier que loption Libells des colonnes est active..
Libells des 3 niveaux JAR : activez cette option si vous voulez utiliser des libells pour les 3
niveaux JAR. Cela peut vous permettre de rendre les rsultats plus lisibles. Si l'option
en-tte.

actif.
451

(donnes de prfrence, donnes sur lchelle JAR, libells des 3 niveaux JAR) contient un
libell.

Onglet Options :
Taille seuil pour la population : entrez le pourcentage de la population totale que doit
reprsenter une catgorie pour tre prise en compte dans les comparaisons multiples.

manquantes.

Onglet Sorties :
lensemble des variables slectionnes.
Corrlations : activez cette option pour afficher la matrice des corrlations des variables
quantitatives slectionnes. Si toutes les donnes sont ordinales, il est recommand dutiliser
le coefficient de corrlation de Spearman.
Tableau trois niveaux : activez cette option pour afficher le tableau des donnes JAR une
fois effectu le regroupement des 5 catgories en 3 catgories.
452
Tableau des pnalits : activez cette option pour afficher le tableau prsentant les impacts
sur la moyenne ainsi que les pnalits.
Comparaisons multiples : activez cette option pour effectuer et afficher des comparaisons
multiples de moyennes. Plusieurs mthodes de comparaison multiples sont proposes,
regroupes en deux catgories : les comparaisons par paires, et les comparaisons un
groupe tmoin, en loccurrence le groupe JAR.
diffrences sont significatives ou non.

Onglet Graphiques :
Barres empiles : activez cette option pour affich un graphique sous forme de barres
empiles, permettant de visualiser les effectifs relatifs des diffrents groupes de lchelle JAR.
- 3D : activez cette option pour afficher des barres en trois dimensions.

Synthse : activez cette option pour afficher les graphiques rsumant les analyses.
Effets sur la moyenne vs % : activez cette option pour afficher un graphique permettant de
visualiser les effets sur les moyennes (pas assez, ou trop) en fonction du % de testeurs
correspondant.

Rsultats
Aprs laffichage des statistiques simples pour lensemble des donnes slectionnes
(prfrence et JAR), et de la matrice des corrlations correspondante, XLSTAT affiche un
tableau prsentant pour chacune des variables JAR les effectifs pour les 5 niveaux. Le
diagramme en barres empiles correspondant est ensuite affich.
Le tableau des donnes agrges sur trois niveaux est ensuite affich suivi du tableau des
effectifs agrgs sur 3 niveaux. Le diagramme en barres empiles correspondant est
ensuite affich.
Le tableau des pnalits fourni ensuite les statistiques pour les 3 niveaux, y compris les
moyennes, les impacts sur la moyenne, les pnalits, et les rsultats des tests de
comparaison.
Enfin les graphiques de synthse permettent de rapidement identifier les caractristiques JAR
pour lesquelles les diffrences entre le groupe JAR et les groupes 2 et 4 sont
significativement diffrentes : lorsque la diffrence est significative les barres sont affiches en
rouge, alors quelles sont affiches en vert lorsque la diffrence nest pas significative. Les
453
barres apparaissent en gris lorsque leffectif dun groupe est infrieur au seuil choisi (voir
longlet Options de la bote de dialogue).
Le dernier graphique (effets sur la moyenne vs %) permet de visualiser les effets sur les
moyennes (pas assez, ou trop) en fonction du % de testeurs correspondant. Le % de
population seuil choisi pour considrer quun rsultat est significatif est affich sur la forme
dune ligne pointille.

Exemple
Un exemple de penalty analysis est disponible sur le site Internet d'Addinsoft l'adresse
http://www.xlstat.com/demo-penf.htm

Bibliographie
Popper P., Schlich P., Delwiche J., Meullenet J.-F., Xiong R., Moskovitz H., Lesniauskas
R.O., Carr T.B., Eberhardt K., Rossi F., Vigneau E. Qannari, Courcoux P. and Marketo C.
(2004). Workshop summary : Data Analysis workshop : getting the most out of just-about-right
data. Food Quality and Preference, 15, 891-899.

454
Graphiques smantiques diffrentiels
Utilisez cette mthode pour visualiser les notes attribues par des juges des objets pour
diffrents critres.

Description
Le psychologue Charles E. Osgood a dvelopp la fin des annes 1950 une mthode de
visualisation dnomme Semantic differential dans le but de reprsenter graphiquement les
diffrentes connotations associes un mot par diffrents individus. Osgood a demand aux
participants de ses tudes de noter un mot sur une srie dchelles allant dun extrme
lautre (par exemple favorable/dfavorable). De la distance observe entre les diffrents profils
observs pour des individus ou des groupes dindividus, Osgood a dduit la distance
psychologique et ventuellement comportementale entre les individus ou les groupes.
Cette mthode peut aussi tre applique dans dautres situations :
- Analyse des perceptions dexperts propos dun produit (par exemple un yaourt) dcrit
par divers attributs (par exemple, acidit, sal, sucr, texture, ) sur des chelles
similaires (soit dun extrme lautre, soit sur les chelles de notation). La visualisation en
graphique smantique diffrentiel permet de rapidement identifier sil y a des diffrences
entre les experts et quel niveau se situent les diffrences.
- Analyse denqutes de satisfaction.
- Analyse des profils de candidats dans le cadre dun recrutement.

Cet outil peut tre utilis en analyse sensorielle. Voici deux exemples dapplication dans ce
contexte :
- Un panel de juges note un produit alimentaire sur une chelle ordinale (code de 1 5) en
fonction de plusieurs critres (les attributs ) tels que la texture, lapparence visuelle,
lodeur, le got, le prix etc. Dans ce cas, le tableau de donnes sera constitu de telle
sorte que la case (i,j) du tableau corresponde la note donne au produit par le juge i
pour lattribut j. Le graphique smantique diffrentiel permet alors de comparer
visuellement les juges.
- Un panel de juges note des produits alimentaires (les objets ) sur une chelle ordinale
(code de 1 5) en fonction de plusieurs critres (les attributs ) tels que la texture,
lapparence visuelle, lodeur, le got, le prix etc. Dans ce cas, le tableau de donnes sera
constitu de telle sorte que la case (i,j) du tableau corresponde la note moyenne donne
par les juges au produit i pour lattribut j. Le graphique smantique diffrentiel permet de
comparer visuellement les produits pour les diffrents attributs.
455

Bote de dialogue

calculs.

Onglet Gnral :
Donnes : slectionnez les donnes sur la feuille Excel. Si la premire ligne de la slection
comprend des en-ttes, l'option Libells des descripteurs doit tre active.
Les lignes correspondent des :
- Objets : choisissez cette option pour crer un graphique o sur laxe des abscisses se
trouvent les valeurs, en ordonnes les descripteurs, et o il y a autant de lignes que
dobjets.
- Descripteurs : choisissez cette option pour crer un graphique o sur laxe des
abscisses se trouvent les valeurs, en ordonnes les objets, et o il y a autant de lignes
que de descripteurs.

actif.
456

Libells des descripteurs : activez cette option si la premire ligne des donnes
slectionnes (donnes et libells des observations) contient un libell.
dobservations disponibles sur une feuille Excel. Si l'option Libells des descripteurs est
active, la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas
cette option, des libells seront automatiquement crs (Obs1, Obs2, ).

Onglet Graphiques :
Couleur : activez cette option pour utiliser une couleur diffrente pour chacun des
objets/individus/experts.
Quadrillage : activez cette option pour afficher le quadrillage sur le graphique.
Valeurs : activez cette option pour indiquer les valeurs sur le graphique.

Rsultats
Le rsultat affich est le graphique smantique diffrentiel. Comme il sagit dun graphique
Excel, vous pouvez ensuite modifier votre guise les diffrents lments.

Exemple
Un exemple de graphique smantique diffrentiel est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-sdf.htm

457
Bibliographie
Judd C.M., Smith E.R. and Kidder L.H (1991). Research Methods in Social Relations. Holt,
Rinehart & Winston, New York.
Osgood C.E., Suci G.J. and Tannenbaum P.H. (1957). The Measurement of Meaning.
University of Illinois Press, Urbana.
Oskamp S. (1977). Attitudes and Opinions. Prentice-Hall, Englewood Cliffs, New Jersey.
Snider J. G. and Osgood C.E. (1969). Semantic Differential Technique. A Sourcebook. Aldine
Press, Chicago.

458
Analyse descriptive
Utilisez cet outil pour calculer les statistiques descriptives adaptes aux sries chronologiques.

Description
Lune des phases essentielles de lanalyse des sries chronologiques consiste dterminer si
une valeur observe un temps t dpend de ce qui a t observ dans le pass ou non. Si la
rponse est affirmative, alors ltape suivante essaiera de rpondre comment se manifeste
cette dpendance.
Les fonctions dautocovariance (FACV) et dautocorrlation (FAC) estimes sur un chantillon
donne une ide de la dpendance entre les donnes dune srie. La visualisation de la FAC
ou de la fonction dautocorrlation partielle (FACP) aide lidentification de modles
susceptibles de permettre dexpliquer un phnomne sur la base de ce qui a t observ, puis
de prdire des valeurs futures. Par exemple la thorie montre que pour un modle
autorgressif dordre p, AR(p), la fonction FACP doit tre nulle pour un dcalage suprieur p.
Les fonctions de corrlations croises (FCC) permettent quant elles de lier deux sries
chronologiques et de dterminer si elles covarient, et si oui, dans quelle mesure.
Les fonctions FACV, FAC, FACP, FCC sont toutes calcules par cet outil.
Une autre tape importante de lanalyse des sries chronologiques consiste en la
transformation des sries de manire ne plus obtenir quun bruit blanc (voir Transformation
de sries). Obtenir un bruit signifie que lon a russi supprimer les autocorrlations, et les
composants dterministes impliquant les variations de la srie. Plusieurs tests sont proposs
par XLSTAT pour tester, sur la base de la srie elle mme ou de sa FAC, si elle est
significativement diffrente dun bruit blanc ou non (Jarque Bera, Box-Pierce, Ljung-Box,
McLeod-Li).

Bote de dialogue

459
calculs.

Onglet Gnral :
Sries temporelles : slectionnez la ou les sries temporelles dont vous voulez analyser le
spectre. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
Libells des sries est active.

actif.

Libells des sries : activez cette option si la premire ligne des donnes slectionnes

Onglet Options :
Nombre de pas de temps : le nombre de pas de temps pour lesquels les statistiques sont
calcules et affiches peut tre soit dtermin de manire automatique par XLSTAT, soit fix
par lutilisateur.

460
Remplacer par la moyenne des valeurs prcdente et suivante : activez cette option pour
estimer les donnes manquantes par la moyenne de la premire valeur prcdente non
manquante et de la premire valeur suivante non manquante.
manquantes.

Onglet Sorties :
sries slectionnes.
Autocorrlations : activez cette option pour estimer la fonction dautocorrlation des sries
slectionnes.
Autocovariances : activez cette option pour estimer la fonction dautocovariance des sries
slectionnes.
Autocorrlations partielles : activez cette option pour calculer la fonction des
autocorrlations partielles.
Corrlations croises : activez cette option pour calculer la fonction des corrlations
croises.

Intervalles de confiance : activez cette option pour afficher des intervalles de confiance. La
valeur que vous entrez (comprise entre 1 et 99) est utilise pour dterminer les intervalles de
confiance sur les estimations. Les intervalles de confiance sont automatiquement affichs sur
les graphiques.
- Hypothse de bruit blanc : activez cette option pour que les intervalles de confiance
soient calculs sous hypothse de bruit blanc.

Tests du bruit blanc : activez cette option pour que XLSTAT affiche les rsultats concernant
les tests du bruit blanc et le test de normalit de Jarque-Bera.
- h1 : entrez le nombre minimum de pas de temps prendre en compte pour le calcul
des tests de bruit blanc.
- h2 : entrez le nombre maximum de pas de temps prendre en compte pour le calcul
des tests de bruit blanc.
461
- s : entre le nombre de pas de temps entre deux sries de tests. s doit tre un multiple
de (h2-h1).

Onglet Graphiques :
Autocorrlogramme : activez cette option pour afficher lautocorrlogramme des sries
slectionnes.
Autocorrlogramme partiel : activez cette option pour afficher lautocorrlogramme partiel
des sries slectionnes.
Corrlations croises : activez cette option pour afficher le diagramme des corrlations
croises dans le cas o plusieurs sries ont t slectionnes.

Rsultats
Pour chaque srie les rsultats suivants sont affichs :
Statistiques simples : dans ce tableau sont affichs le nombre dobservations, le nombre
dobservations manquantes, le minimum, le maximum, la moyenne, et lcart-type non biais
de la srie.
Tests de normalit et de bruit blanc : dans ce tableau sont affichs les rsultats des divers
tests. Le test de normalit de Jarque-Bera est calcul une fois pour chacune des sries, alors
que les tests du bruit blanc (Box-Pierce, Ljung-Box, Mcleod-Li) sont calculs pour chaque pas
indiqu dans la bote de dialogue. Le nombre de degrs de libert (DDL), la valeur des
statistiques et la p-value calcule sur la base dune distribution du Khi(DDL) sont affichs.
Pour le test de Jarque-Bera, plus la p-value est faible, plus la normalit de lchantillon degr
est probable. Pour les trois autres tests, plus la p-value est faible, plus il est vraisemblable que
les donnes correspondent un bruit blanc.
Analyse descriptive : dans ce tableau sont affichs pour chaque pas de temps les valeurs
des diffrentes fonctions descriptives, et les intervalles de confiance correspondants.
Graphiques : pour chaque fonction slectionne, un graphique est affich si loption
correspondante a t active dans la bote de dialogue.
Si plusieurs sries ont t slectionnes et que loption corrlations croises a t
slectionne, les rsultats suivants sont affichs :
Tests du bruit blanc : dans ce tableau sont affichs les rsultats des tests de Box-Pierce,
Ljung-Box, et Mcleod-Li, pour chaque nombre de pas de temps indiqu dans la bote de
dialogue. Le nombre de degrs de libert (DDL), la valeur des statistiques et la p-value
calcule sur la base dune distribution du Khi(DDL) sont affichs.
462
Corrlations croises : dans ce tableau sont affiches pour chaque couple de variables les
corrlations croises. Le graphique correspondant est ensuite affich.

Exemple
Un exemple danalyse descriptive dune srie chronologique est disponible en permanence sur
le site dAddinsoft. Pour accder cet exemple, veuillez vous connecter sur :
http://www.xlstat.com/demo-descf.htm

Bibliographie
Box G. E. P. and Jenkins G. M. (1976). Time Series Analysis: Forecasting and Control.
Holden-Day, San Francisco.
Box G. E. P. and Pierce D.A. (1970). Distribution of residual autocorrelations in
autoregressive-integrated moving average time series models. J Amer. Stat. Assoc., 65, 1509-
1526.
Brockwell P.J. and Davis R.A. (1996). Introduction to Time Series and Forecasting. Springer
Verlag, New York.
Cryer, J. D. (1986). Time Series Analysis. Duxbury Press, Boston.
Fuller W.A. (1996). Introduction to Statistical Time Series, Second Edition. John Wiley & Sons,
New York.
Jarque C.M. and Bera A.K. (1980). Efficient tests for normality, heteroscedasticity and serial
independence of regression residuals. Economic Letters, 6, 255-259.
Ljung G.M. and Box G. E. P. (1978). On a measure of lack of fit in time series models.
Biometrika, 65, 297-303.
McLeod A.I. and Li W.K. (1983). Diagnostic checking ARMA times series models using
squares-residual autocorrelation. J Time Series Anal., 4, 269-273.
Shumway R.H. and Stoffer D.S. (2000). Time Series Analysis and Its Applications. Springer
Verlag, New York.

463

464
Transformation de sries temporelles
Utilisez cet outil pour transformer une srie en une nouvelle srie ayant de meilleures
proprits : tendance et saisonnalit retires, normalit et stationnarit accrues.

Description
XLSTAT offre plusieurs possibilits pour transformer une srie {X
t
} en une srie {Y
t
},
(t=1,,n) :

Transformation Box-Cox : elle permet daugmenter la normalit des donnes; lquation de
Box-Cox est dfinie par :
( ) ( )
1
, 0, 0 ou 0, 0
ln( ), 0, 0
t
t t
t
t t
X
X X
Y
X X

> = > >
=

> =

XLSTAT accepte soit une valeur fixe pour , soit de trouver la valeur optimale permettant de
maximiser la vraisemblance pour le modle linaire simple avec le temps pour variable
explicative.

Diffrenciation: permet de supprimer les tendances et la saisonnalit, et dobtenir la
stationnarit des sries. Lquation de diffrenciation est donne par :
( ) ( )
t
D
s d
t
X B B Y = 1 1
o d est lordre de diffrenciation pour la composante tendancielle, s est la priode de la
composante saisonnire, et D est lordre de la composante saisonnire. B est loprateur
mathmatique de dcalage, dfini par :
1
=
t t
X BX
Les valeurs de (d, D, s) peuvent tre choisies par essais successifs, ou suggres par
lanalyse descriptive des sries (fonctions FAC ou FACP par exemple). Des valeurs
communes sont (1,0,0), (1,1,s), (2,1,s). s vaut 12 pour des donnes mensuelles avec une
saisonnalit annuelle, 0 lorsquil ny a pas de saisonnalit.

465
Detrending et dsaisonnalisation par utilisation du modle classique de dcomposition
donn par :
t t t t
s m X c + + =
o m
t
est la composante tendancielle, et s
t
la composante saisonnire et c
t
un bruit blanc qui
suit une loi N(0,1). XLSTAT permet dajuster ce modle en deux tapes spares ou
successives :
1 Ajustement du modle de detrending suivant :
t
k
i
i
i t t t
t a m X c c + = + =

=0

o k est le degr du polynme. Les paramtres a
i
sont obtenus par ajustement dun modle
linaire sur les donnes. La srie transforme scrit :
=
= =
p
i
i
i t t t
t a X Y
0
c
2 Ajustement dun modle de dsaisonnalisation :
t i t t t
b s X c c + + = + = , i = t modulo p
o p est la priode. Les paramtres b
i
sont obtenus par ajustement dun modle linaire aux
donnes. La srie transforme est donne par :
c = =
i t t t
b X Y
Remarque : il existe de nombreuses autres transformations possibles. Des filtres linaires
peuvent aussi tre utiliss. Un lissage par moyenne mobile peut tre utilis pour filtrer des
bruits. Les mthodes de lissage sont proposes dans la section Lissage.

Bote de dialogue

466
calculs.

Onglet Gnral :
Donnes de date : activez cette option pour slectionner des donnes de date. Ces donnes
doivent tre au format de data Excel, ou des valeurs numriques.
Vrifier les intervalles : activez cette option si vous voulez que XLSTAT vrifie que les
donnes de date sont bien rgulirement espaces.

actif.


Onglet Options :
Transformation Box-Cox : activez cette option pour faire une transformation de Box-Cox.
Vous pouvez soit imposer une valeur de Lambda, soit dcider que XLSTAT doit loptimiser
(voir la description pour plus de dtails).
Diffrenciation : activez cette option pour calculer la srie diffrencie. Vous devez saisir les
valeurs des paramtres (d, D, s). Voir la description pour plus de dtails.
467
Rgression polynomiale : activez cette option pour retirer la composante tendancielle dune
srie chronologique. Vous devez saisir le degr du polynme. Voir la description pour plus de
dtails.
Ajustement saisonnier : activez cette option pour retirer la composante saisonnire dune
srie chronologique. Vous devez saisir la priode. Voir la description pour plus de dtails.

manquantes.

Onglet Sorties :
sries slectionnes.

Onglet Graphiques :
Afficher les graphiques : activez cette option pour afficher les graphiques permettant de
comparer les sries avant et aprs transformation.

Rsultats
Statistiques simples : dans ce tableau sont affichs, pour chacune des sries slectionnes,
le nombre dobservations, le nombre dobservations manquantes, le minimum, le maximum, la
moyenne, et lcart-type non biais.

468
Transformation de Box-Cox :
Paramtres du modle : ce tableau nest affich que si loption doptimisation de Lambda a
t choisie. Il prsente les estimateurs des trois paramtres du modle, qui sont Lambda, la
constante du modle linaire, et le coefficient de pente.
Srie avant et aprs transformation : dans ce tableau sont affiches la srie avant
transformation et la srie aprs transformation. Si Lambda a t optimis, la srie aprs
optimisation correspond aux rsidus du modle. Si Lambda est fix, la srie aprs
transformation correspond lapplication directe de la transformation de Box-Cox.

Diffrenciation :
transformation et la srie aprs transformation. Les d+D+s premires observations ne sont pas
affiches pour la srie transforme en raison des contraintes lies la mthode.

Rgression polynomiale :
Coefficients dajustement : dans ce tableau sont affichs les coefficients dajustement du
modle polynomial.
Paramtres du modle : dans ce tableau sont affichs les estimateurs des paramtres du
modle.
transformation et la srie aprs transformation. La srie aprs transformation correspond aux
rsidus du modle.

Dsaisonnalisation :
modle polynomial.
modle.
transformation et la srie aprs transformation. La srie aprs transformation correspond aux
rsidus du modle.

469

Exemple
Un exemple de transformation de sries chronologiques est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-descf.htm

Bibliographie
Box G. E. P. and Jenkins G. M. (1976). Time Series Qnalysis: Forecasting and Control.
Verlag, New York.
Verlag, New York.

470
Lissage
Utilisez cet outil pour lisser une srie temporelle et pour ventuellement prvoir des valeurs
futures de la srie.

Description
Plusieurs mthodes de lissage sont disponibles. On dfinit par {Y
t
}, (t=1,,n), la srie
temporelle tudie, par P
t
Y
t+h
la prvision de Y
t+h
qui minimise la moyenne du carr des
erreurs (MCE) et par c
t
un bruit blanc distribu selon une N(0,1). Les mthodes de lissage sont
dfinies par les quations suivantes :

Lissage exponentiel simple
Ce modle est aussi parfois appel lissage exponentiel simple de Brown, ou le modle
moyenne mobile exponentiellement pondre. Les quations du modle sont donnes par :
( )
= = =
< < + =
= =
+ =
+ +
+
1,2,... h ,
2 0 , 1
1,2,... h ,
1
t h t t h t
t t t
t h t t
t t t
S Y P Y
S Y S
Y P
Y
o o o

c

Le domaine de dfinition donn pour o correspond au domaine dadditivit et dinvertibilit du
modle.
Le lissage exponentiel simple permet de prdire une valeur en fonction des donnes passes,
en donnant aux donnes un poids dautant plus faible quelles correspondent un pass
loign. La pondration volue de faon exponentielle, do le nom du modle. En matire de
prvision, ce modle est assez limit, puisque les prvisions sont constantes au-del de n+1.

Lissage exponentiel double
Ce modle est parfois appel Lissage exponentiel double de Brown ou lissage exponentiel
linaire de Brown. Les prvisions tiennent ici compte dune tendance observe sur les
donnes prcdentes. Les quations du modle sont donnes par :
471
( )
( )
= = = =
= = |
.
|
\
|
+ |
.
|
\
|
+ = =
+ =
< < + =
= + =
+ + =
+ +
+ +
+
1,2,... h 0 ,
1,2,... h 1 ,
1
1
1
2
1
2 0 , 1
1,2,... h
1
1
1
1
o
o
o
o
o
o
o o
o o o
|
c |
t h t t h t
t t h t t h t
t t t
t t t
t h t t
t t t
Y Y P Y
T
h
S
h
Y P Y
T S T
S Y S
t Y P
t Y

Le domaine de dfinition donn pour o correspond au domaine dadditivit et dinvertibilit du
modle.

Lissage exponentiel linaire de Holt
Ce modle est parfois appel algorithme non-saisonnier de Holt-Winters. Comme le
prcdent, il permet de prendre en compte une composante tendancielle, mais avec plus de
souplesse, car il fait intervenir un paramtre de plus. Les prvisions pour t>n prennent en
compte la composante tendancielle. Les quations du modle sont donnes par :
( )( )
( ) ( )
= + = =
< < + =
< < + + =
= + =
+ + =
+ +

+
1,2,... h ,
2 / 4 0 , 1
2 0 , 1
1,2,... h
1 1
1 1
1
1
t t h t t h t
t t t t
t t t t
t h t t
t t t
hT S Y P Y
T S S T
T S Y S
t Y P
t Y
o | | |
o o o
|
c |

Les domaines de dfinition donns pour o et | correspondent au domaine dadditivit et
dinvertibilit du modle.

Modle de Holt-Winters saisonnier additif
Cette mthode permet de prendre en compte une tendance qui varie avec le temps, et une
composante saisonnire de priode p. Les prvisions tiennent compte de la tendance et de la
saisonnalit. Ce modle met en jeu trois paramtres. On lappelle additif car la composante
saisonnire est stable dans le temps. Les quations du modle sont donnes par :
472
( ) ( )( )
( ) ( )
( ) ( )
= + + = =
+ =
+ =
+ + =
= + + =
+ + + =
+ + +

+
1,2,... h ,
1
1
1
1,2,... h ) (
) (
1 1
1 1
1
1
h p t t t h t t h t
p t t t t
t t t t
t t p t t t
p t h t t
t p t t
D hT S Y P Y
D S Y D
T S S T
T S S Y S
t s t Y P
t s t Y

| |
o o
|
c |

Pour la dfinition de la rgion dadditivit-invertibilit, lutilisateur peut se rfrer Archibald
(1990).

Modle de Holt-Winters saisonnier multiplicatif
Cette mthode permet de prendre en compte une tendance qui varie avec le temps, et une
composante saisonnire de priode p. Les prvisions tiennent compte de la tendance et de la
saisonnalit. Ce modle met en jeu trois paramtres. On lappelle multiplicatif car la
composante saisonnire varie avec le temps. Plus les carts entre les observations sont
importants, plus la composante saisonnire augmente. Les quations du modle sont donnes
par :
( )
( )
( ) ( )( )
( ) ( )
( ) ( )
( )
= + = =
+ =
+ =
+ + =
= + =
+ + =
+ + +

+
1,2,... h ,
1 /
1
1 /
1,2,... h ) (
) (
1 1
1 1
1
1
h p t t t h t t h t
p t t t t
t t t t
t t p t t t
p t h t t
t p t t
D hT S Y P Y
D S Y D
T S S T
T S S Y S
t s t Y P
t s t Y

| |
o o
|
c |

Pour la dfinition de la rgion dadditivit-invertibilit, lutilisateur peut se rfrer Archibald
(1990).

Remarque 1 : pour les modles dfinis ci-dessus, XLSTAT estime les paramtres en
cherchant la solution du minimum de la somme du carr des erreurs (SCE). Il est aussi
possible de rechercher la solution qui maximise la vraisemblance, sachant quen dehors du
modle de Holt-Winters multiplicatif, il est possible dexprimer les modles sous la forme dun
modle ARIMA. Par exemple, le lissage exponentiel simple est quivalent un modle
ARIMA(0,1,1) et le modle de Holt-Winters additif peut scrire sous la forme dun modle
ARIMA (0,1,p+1)(0,1,0)
p
. Si vous prfrez maximiser la vraisemblance, nous vous invitons
utiliser la procdure ARIMA de XLSTAT.
473
Remarque 2 : pour les modles ci-dessus, des valeurs initiales pour S, T et D, sont
ncessaires. XLSTAT offre diffrentes options, y compris du backcasting, pour dfinir les
valeurs initiales. Lorsque le backcasting est choisi, lalgorithme renverse la srie, prend des
valeurs initiales correspondant loption de base Y(x), puis calcule des estimateurs, qui sont
ensuite utiliss comme valeurs initiales sur la srie originale. Les options disponibles pour les
diffrents modles sont dfinies par:
Lissage exponentiel simple:
Optimis
g Backcastin
6 / : Moyenne(6)
: Y(1)
6
1
1
1 1
=
=
=
i
i
Y S
Y S

Lissage exponentiel double:
g Backcastin
) ( , 6 / : Moyenne(6)
, : Y(2)
1 2 1
6
1
2
1 2 2 2 2
o Y S T Y S
Y Y T Y S
i
i
= =
= =
=

Lissage exponentiel linaire de Holt :
g Backcastin
, : p) Y(1
1 2 2 2 2
Y Y T Y S = = +

Modle de Holt-Winters saisonnier additif :
( ) ( )
g Backcastin
,..., 1 , 1 , , : p) Y(1
1 1 1 1 1 1 1
p i i T Y Y D Y Y T Y S
p i i p p p p
= + = = = +
+ + + + +

Modle de Holt-Winters saisonnier multiplicatif :
( ) ( )
g Backcastin
,..., 1 , 1 / , , : p) Y(1
1 1 1 1 1 1 1
p i i T Y Y D Y Y T Y S
p i i p p p p
= + = = = +
+ + + + +

Moyenne mobile
Cette moyenne permet de prendre en compte de manire simple et contrle des
observations passes pour prdire le futur. Nanmoins lutilit de la mthode rside plus dans
sa nature de filtre, permettant de retirer une srie son bruit de fond, et de faire alors ressortir
les grandes tendances. Alors que pour les mthodes prcdentes, toute observation a une
influence, aussi lgre soit-elle, sur les prvisions suivantes, ici, le nombre dobservations du
474
pass prises en compte est limit q. Les moyennes mobiles servant souvent de filtre, on
appelle q la bande passante. Les quations du modle sont donnes par :

t t t
ql
i t i
i q
t
ql
i
i q
Y
wY
w
c
+
=
=
= +

o l est une constante qui, fixe zro, fait en sorte que la prvision dpend des q valeurs
passes et de la valeur actuelle. Si l est fixe un, la prvision dpend aussi des q valeurs
suivantes.
o w
i
(i=1q) correspondant aux poids des observations autour de Y
t
. Les poids peuvent tre
constants, fixs par lutilisateur, ou fonds sur des dfinitions de poids optimaux correspondant
certains objectifs ; XLSTAT permet lutilisation de la pondration Spencer 15-point qui laisse
passer des polynmes de degr 3.

Lissage de Fourier
Le principe du lissage de Fourier est deffectuer une transforme de Fourier, et ne retenir
quune partie du spectre, puis de faire une transforme inverse afin dobtenir la srie lisse.

Bote de dialogue

calculs.
475

Onglet Gnral :
Donnes de date : activez cette option pour slectionner des donnes date. Ces donnes
- Vrifier les intervalles : activez cette option si vous voulez que XLSTAT vrifie que les

actif.


Modle : choisissez le modle de lissage utiliser (voir description pour plus de dtails sur les
diffrents modles).

Onglet Options :
Mthode : choisissez la mthode pour le modle choisi.

Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme doptimisation. Les
par dfaut : 500.
476
itration lautre qui, une fois atteinte, permet de considrer que lalgorithme a
Intervalles de confiance : entrez la valeur de lintervalle de confiance pour les prdictions
effectues sur lchantillon de validation et de prdiction.

S1 : choisissez la mthode destimation pour les valeurs de dpart. Voir la description pour
plus de dtails.
En fonction du type de modle et de la mthode choisie, diffrentes options sont affiches
dans la bote de dialogue. Dans la section description, vous trouverez des informations sur les
diffrents modles et leurs paramtres.
Dans le cas des modles exponentiels ou de Holt-Winters, vous pouvez choisir de fixer ou
doptimiser les paramtres. Pour les modles de Holt-Winters saisonniers vous devez saisir la
valeur de la priode.
Dans le cas du lissage de Fourier, vous devez entrer la proportion p du spectre conserver
aprs le filtrage des hautes frquences.
Pour la moyenne mobile vous devez spcifier le nombre de pas de temps q utiliser autour de
la valeur prdite. Vous pouvez ventuellement ne considrer que la partie gauche (valeurs
prcdentes uniquement) de la srie.

Onglet Validation :
Pas de temps : entrez le nombre de pas de temps la fin de la srie slectionne qui doit tre
utilis pour valider le modle choisi.

Onglet Prdiction :
Prdiction : activez cette option pour effectuer des prdictions de nouvelles valeurs.
Pas de temps : entrez le nombre de pas de temps prdire.

477

Onglet Sorties :
sries slectionnes.
Paramtres du modle : activez cette option pour afficher le tableau des paramtres du
modle.

Onglet Graphiques :
Afficher les graphiques : activez cette option pour afficher les graphiques prsentant les
sries avant et aprs lissage, ainsi que le diagramme en btons des rsidus.

Rsultats
modle. Remarque : les coefficients ne sont calculs que sur la base des donnes utilises
pour lajustement et les donnes de validation ne sont donc pas prises en compte.
modle. Remarque : S1 correspond la premire valeur calcule pour la srie S, et T1
correspond la premire valeur calcule pour la srie T. Voir la description pour plus de dtails.
Srie avant et aprs lissage : dans ce tableau sont affichs la srie originale et la srie lisse
ainsi que les rsidus et les intervalles de confiance dans le cas o une validation ou des
prdictions ont t demandes.
478
Graphiques : deux graphiques sont affichs. Le premier graphique permet de visualiser les
donnes, le modle, les prvisions (validation et nouvelles observations) de mme que les
intervalles de confiance sur les prvisions. Le second graphique permet de visualiser les
rsidus du modle.

Exemple
Un exemple de lissage par la mthode de Holt-Winters est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-hwf.htm

Bibliographie
Archibald B.C. (1990). Parameter space of the Holt-Winters' model. International Journal of
Forecasting, 6, 199-209.
Box G. E. P. and Jenkins G. M. (1976). Time Series Analysis: Forecasting and control.
Verlag, New York.
Brown R.G. (1962). Smoothing, Forecasting and Prediction of Discrete Time Series. Prentice-
Hall, New York.
Brown R.G. and Meyer R.F. (1961). The fundamental theorem of exponential smoothing.
Operations Research, 9, 673-685.
Chatfield, C. (1978). The Holt-Winters forecasting procedure. Applied Statistics, 27, 264-279.
Holt C.C. (1957). Forecasting seasonals and trends by exponentially weighted moving
averages. ONR Reseach Memorandum 52, Carnegie Institute of Technology, Pittsburgh.
Makridakis S.G., Wheelwright S.C. and Hyndman R.J. (1997). Forecasting : Methods and
Applications. John Wiley & Sons, New York.
Verlag, New York.
Winters P.R. (1960). Forecasting sales by exponentially weighted moving averages.
Management Science, 6, 324-342

479

480
ARIMA
Utilisez cet outil pour ajuster un modle ARMA (Autoregressive Moving Average), un modle
ARIMA (Autoregressive Integrated Moving Average) ou un modle SARIMA (Seasonal
Autoregressive Integrated Moving Average), et faire des prvisions sur la base de modles
dont les coefficients sont connus ou estimer.

Description
Les modles de la famille ARIMA permettent de reprsenter sous une forme succincte certains
phnomnes variant avec le temps, et de faire des prvisions pour les valeurs futures du
phnomne, avec un intervalle de confiance autour des prvisions.
Lcriture mathmatique des modles ARIMA varie dun auteur lautre, ceci impliquant
notamment des diffrences pour les signes des coefficients. La notation utilise dans XLSTAT-
Time correspond celle de la plupart des logiciels.
Soit {X
t
} une srie chronologique de moyenne . Si la srie suit un modle
ARIMA(p,d,q)(P,D,Q)
s
, alors on peut crire :
( ) ( )
( ) ( ) ( ) ( ) ( )
O = u
=
, 0 , B B B B
1 1
s s
o u | N Z Z Y
X B B Y
t t t
t
D
s d
t

avec
( ) ( )
( ) ( )
O + = O + =
u = u =

= =
= =
Q
i
i
i
q
i
i
i
P
i
i
i
p
i
i
i
z z
z z
1 1
1 1
1 z , 1 z
1 z , 1 z
u u
| |

p est lordre de la partie autorgressive du modle.
q est lordre de la partie moyenne mobile du modle.
d est lordre de diffrentiation du modle.
D est lordre de diffrentiation du modle pour la partie saisonnire.
s est la priode du modle (par exemple 12 si les donnes sont mensuelles et que lon a
repr une cyclicit lchelle de lanne.
P est lordre de la partie autorgressive saisonnire du modle.
Q est lordre de la partie moyenne mobile saisonnire du modle.
481

Remarque 1 : le processus {Y
t
} est causal si et seulement si pour tout z tel que |z| <=1, |(z)0
et u(z) 0.
Remarque 2 : si D=0, on se trouve dans le cas dun modle ARIMA(p,d,q). Dans ce cas, P, Q
et s sont considrs comme tant nuls.
Remarque 3 : si d=0 et D=0, on se trouve dans le cas dun modle ARMA(p,q).
Remarque 4 : si d=0, D=0 et q=0, on se trouve dans le cas dun modle AR(p).
Remarque 5 : si d=0, D=0 et p=0, on se trouve dans le cas dun modle MA(q).

Si les coefficients des polynmes |, u, u, O sont inconnus, une fois les paramtres (p,d,q),
(P,D,Q) et s saisis, XLSTAT-Time permet destimer les coefficients des polynmes, puis de
calculer diffrentes statistiques dajustement, et si lutilisateur le souhaite, de calculer des
prvisions de valeurs futures.
Si les coefficients des polynmes |, u, u, O sont connus, lutilisateur peut les saisir. XLSTAT
calcule ensuite diffrentes statistiques dajustement, et si lutilisateur le demande, des
prvisions de valeurs futures.
Dans le cas o D = 0, il est possible deffectuer une estimation prliminaire des coefficients
des polynmes | et u en utilisant la mthode propose :
- Si q = 0, deux mthodes destimation prliminaire sont proposes. La premire utilise
lalgorithme de Yule-Walker, le seconde celui de Burg.
- Si p = 0, la mthode utilise est lalgorithme des innovations.
- Si p 0 et q 0, la mthode utilise est lalgorithme de Hannan-Rissanen.
Dans le cas o D 0, XLSTAT-Time effectue lui-mme la recherche dun point de dpart
raisonnable.

Bote de dialogue

482
calculs.

Onglet Gnral :
Centrer : activez cette option pour centrer les sries avant de calculer le modle.
Variance : activez cette option puis entrez la valeur de la variance si vous souhaitez imposer
une variance des erreurs pour le modle.

Donnes de date : activez cette option pour slectionner des donnes de date. Ces donnes
- Vrifier les intervalles : activez cette option si vous voulez que XLSTAT vrifie que les

actif.


483
Paramtres du modle : entrez la valeur des diffrents ordres intervenant dans le modle :
- p : entrez lordre de la partie autorgressive du modle. Par exemple, entrez 1 pour un
modle AR(1) ou pour un modle ARMA(1,2).
- d : entrez lordre de diffrentiation du modle. Par exemple, entrez 1 pour un modle
ARIMA(0,1,2).
- q : entrez lordre de la partie moyenne mobile du modle. Par exemple, entrez 2 pour
un modle MA(2) ou pour un modle ARIMA(1,1,2).
- P : entrez lordre de la partie autorgressive saisonnire du modle. Par exemple,
entrez 1 pour un modle ARIMA(1,1,0)(1,1,0). Vous ne pouvez modifier cette valeur
que si D=0. Si D=0, on considre que P=0.
- D : entrez lordre de diffrentiation du modle pour la partie saisonnire. Par exemple,
entrez 1 pour un modle ARIMA(0,1,1)(0,1,1).
- Q : entrez lordre de la partie moyenne mobile saisonnire du modle. Par exemple,
entrez 1 pour un modle ARIMA(0,1,1)(0,1,1). Vous ne pouvez modifier cette valeur
que si D=0. Si D=0, on considre que Q=0.
- s : entrez la priode du modle. Vous ne pouvez modifier cette valeur que si D=0. Si
D=0, on considre que s=0.

Onglet Options :
Estimation prliminaire : activez cette option si vous souhaitez utiliser une mthode
dajustement prliminaire. Cette option nest disponible que si D=0.
- Yule-Walker : activez cette option pour estimer les coefficients du modle autorgressif
AR(p) avec l'algorithme de Yule-Walker.
- Burg : activez cette option pour estimer les coefficients du modle autorgressif AR(p)
avec l'algorithme de Burg.
- Innovations : activez cette option pour estimer les coefficients du modle moyenne
mobile MA(q) avec l'algorithme des Innovations.
- Hannan-Rissanen : activez cette option pour estimer les coefficients du modle
ARMA(p,q) avec l'algorithme de Hannan-Rissanen.
m/Auto : si vous choisissez la mthode des Innovations ou de Hannan-Rissanen, vous devez
entrez la valeur m spcifique de chacun des algorithmes. Si vous choisissez Auto, XLSTAT
dtermine automatiquement quelle est la bonne valeur de m.

Coefficients initiaux: activez cette option pour slectionner des valeurs initiales des
coefficients du modle.
484
- Phi : slectionnez ce niveau la valeur des coefficients correspondant la partie
autorgressive du modle (y compris pour la partie saisonnire). Le nombre de valeurs
slectionn ici doit tre gal p+P.
- Theta : slectionnez ce niveau la valeur des coefficients correspondant la partie
moyenne mobile du modle (y compris pour la partie saisonnire). Le nombre de
valeurs slectionn ici doit tre gal q+Q.

Optimiser : activez cette option pour estimer les coefficients selon l'une des deux mthodes
proposes :
- Vraisemblance : activez cette option pour maximiser la vraisemblance.
- Moindres carrs : activez cette option pour minimiser la somme des carrs des
erreurs.
Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme doptimisation. Les
par dfaut : 500.
itration lautre qui, une fois atteinte, permet de considrer que lalgorithme a

Intervalles de confiance : entrez la valeur de lintervalle de confiance pour les prdictions
effectues sur lchantillon de validation et de prdiction.

Onglet Validation :
Pas de temps : entrez le nombre de pas de temps la fin de la srie slectionne qui doit tre
utilis pour valider le modle choisi.

Onglet Prdiction :
Prdiction : activez cette option pour effectuer des prdictions de nouvelles valeurs.
Pas de temps : entrez le nombre de pas de temps prdire.
485


Onglet Sorties :
sries slectionnes.
Paramtres du modle : activez cette option pour afficher le tableau des paramtres du
modle.

Onglet Graphiques :
Afficher les graphiques : activez cette option pour afficher le graphique prsentant les
donnes originales et les prdictions du modle, ainsi que le diagramme en btons des
rsidus.

Rsultats
Statistiques simples : tableau dans lequel sont affichs le nombre dobservations, le nombre
dobservations manquantes, le minimum, le maximum, la moyenne, la variance de la
population (1/n) et lcart type (1/n).
486
Si une estimation prliminaire et une optimisation ont t demandes, les rsultats de
lestimation prliminaire sont affichs, suivis de ceux de loptimisation. Si des coefficients
initiaux ont t saisis, les rsultats concernant ces coefficients sont dabord affichs.

Coefficients dajustement :
- Observations : le nombre de donnes utilises pour lajustement.
- SCE : la somme des carrs des rsidus. Ce critre est minimis lorsque loption
Moindres carrs est slectionne.
- Variance du bruit blanc : cette statistique est gale SCE divis par N. Dans certains
logiciels cette statistique est dsigne par sigma2.
- Variance du bruit blanc (estime) : cette statistique est en principe gale la
prcdente. Dans le cas des algorithmes de Yule-Walker et de Burg, une estimation
lgrement diffrente est fournie.
- -2Log(Vrais.) : ce critre est minimis dans le cas dune optimisation base sur le
maximum de vraisemblance. Elle vaut loppos de deux fois le logarithme nprien de
la vraisemblance.
- FPE : ce critre est d Akaike (Final Prediction Error). Ce critre est adapt pour les
modles autorgressifs.
- AIC : ce critre est d Akaike (Akaike Information Criterion).
- AICC : ce critre est d Brockwell (Akaike Information Criterion Corrected).
- SBC : ce critre est d Schwarz (Schwarzs Bayesian Criterion).

Paramtres du modle :
Constante : la constante est systmatiquement nulle dans le cas de modles ne comprenant
pas de composante autorgressive. Dans le cas de modles comprenant une composante
autorgressive, la constante vaut .|(1).u(1). La constante est aussi nulle si loption
Centrer nest pas active.
Le tableau suivant donne lestimateur de chaque coefficient de chaque polynme, ainsi que
lcart-type obtenu soit directement par la mthode destimation (estimation prliminaire) soit
partir de la matrice dinformation de Fisher lissue de loptimisation (dsigne par Hess., pour
Hessienne). Les carts-types asymptotiques sont aussi calculs. Pour chaque coefficient et
chaque cart-type est fourni un intervalle de confiance. Les coefficients sont identifis de la
manire suivante :
AR(i) : coefficient correspondant au coefficient dordre i du polynme |(z).
SAR(i) : coefficient correspondant au coefficient dordre i du polynme u(z).
MA(i) : coefficient correspondant au coefficient dordre i du polynme u(z).
SMA(i) : coefficient correspondant au coefficient dordre i du polynme O(z).
487

Prdictions et rsidus : dans ce tableau sont affichs la srie de dpart, les prdictions
calcules partir du modle, et les rsidus correspondants. Si lutilisateur la demand, des
prdictions pour les donnes de validation et pour les valeurs futures sont calcules, ainsi que
les cart-types et les intervalles de confiance correspondants.
Graphiques : deux graphiques sont affichs. Le premier graphique permet de visualiser les
donnes, les valeurs calcules partir du modle, les prvisions de validation et des valeurs
futures, de mme que les intervalles de confiance. Le second graphique permet de visualiser
les rsidus du modle.

Exemple
Un exemple dutilisation de la mthode ARIMA est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-arimaf.htm

Bibliographie
Box G. E. P. and Jenkins G. M. (1984). Time Series Analysis: Forecasting and Control, 3
rd

edition. Pearson Education, Upper Saddle River.
Brockwell P.J. and Davis R.A. (2002). Introduction to Time Series and Forecasting, 2
nd

edition. Springer Verlag, New York.
Brockwell P. J. and Davis R. A. (1991). Time series: Theory and Methods, 2
nd
edition.
Springer Verlag, New York.
New York.
Hannan E.J. and Rissanen J. (1982). Recursive estimation of mixed autoregressive-moving
average models order. Biometrika, 69, 1, 81-94.
Mlard G. (1984). Algorithm AS197: a fast algorithm for the exact likelihood of autoregressive-
moving average models. Journal of the Royal Statistical Society, Series C, Applied Statistics,
33, 104-114.
Percival D. P. and Walden A. T. (1998). Spectral Analysis for Physical Applications.
Cambridge University Press, Cambridge.
488

489
Analyse spectrale
Utilisez cet outil pour transformer une srie chronologique en ses coordonnes dans lespace
des frquences, et pour analyser ses caractristiques dans le nouvel espace.

Description
La reprsentation spectrale dune srie chronologique {X
t
}, (t=1,,n), consiste en la
dcomposition de {X
t
} en une sommes de sinusodes avec des coefficients alatoires non
corrls. On peut en dduire une dcomposition des fonctions de variance et dautocovariance
en une somme de sinusodes.
La densit spectrale correspond en thorie la dcomposition dune srie chronologique.
Cependant, dans la pratique, on na accs qu un nombre limit de donnes, chantillonnes
en gnral intervalles rguliers de temps. Pour cette raison, on doit dans un premier temps
obtenir les coordonnes de la transforme de Fourier (partie relle et partie imaginaire), puis le
priodogramme, partir duquel, grce une mthode de lissage on pourra obtenir une
estimation de la densit spectrale qui est une meilleure reprsentation du spectre.
XLSTAT calcule automatiquement les parties relles et imaginaires pour chaque frquence en
sappuyant sur des mthodes rapides et performantes de calcul de la transformation de
Fourier, puis calcule et affiche les rsultats prsents ci-dessous.
Si n est la taille de lchantillon, et si [i] dsigne lentier le plus grand plus petit ou gal i, alors
les frquences de Fourier sont donnes par :

n
k
k
t
e
2
= , k =
(
2
,...,
2
1 n n

Les composantes cosinus et sinus de la transforme de Fourier sont donnes par :

=
=
n
t
k t k
t X
n
a
1
)) 1 ( cos(
2
e

=
=
n
t
k t k
t X
n
b
1
)) 1 ( sin(
2
e
Le priodogramme est donn par :
( )
=
+ =
n
t
k k k
b a
n
I
1
2 2
2

Lestimateur de la densit spectrale de la srie chronologique {X
t
} est donn par :
490

> + =
< + =
s + s =
=
+ +
+ +
+ +
=
+
n i k I J
i k I J
n i k I J
J w f
i k n i k
i k i k
i k i k
p
p i
i k i k
,
0 ,
0 ,
avec
) (
) (

o p, la bande passante, et w
i
, les poids, sont soit fixs par lutilisateur, soit dtermins par le
choix dun noyau.
Si on dfinit,
e
q c p . = , q = [n/2]+1, et p i
i
/ = , les noyaux proposs par XLSTAT sont :
Bartlett :

=
s =
= =
sinon 0
1 si 1
3 / 1 , 2 / 1
i
i i i
w
w
e c

Parzen :

( )
=
s s =
s + =
= =
sinon 0
1 0.5 si 1 2
5 . 0 si 6 6 1
5 / 1 , 1
3
3 2
i
i i i
i i i i
w
w
w
e c

Quadratic spectral :

|
|
.
|
\
|
=
= =
) 5 / 6 cos(
5 / 6
) 5 / 6 sin(
12
25
5 / 1 , 2 / 1
2 2
i
i
i
i
i
w
e c
t
t
t
t

Tukey-Hanning :

=
s + =
= =
sinon 0
1 si 2 / )) cos( 1 (
5 / 1 , 3 / 2
i
i i i
w
w
e c
t
Tronqu :

=
s =
= =
sinon 0
1 si 1
5 / 1 , 4 / 1
i
i i
w
w
e c

491
Remarque : la bande passante p est une fonction de n, la taille de lchantillon. Les poids w
i

doivent tre positifs et avoir pour somme 1. Si tel nest pas le cas, XLSTAT les normalise
automatiquement.
Si une seconde srie est disponible, plusieurs fonctions supplmentaires peuvent tre
calcules pour estimer le spectre crois.
La partie relle du priodogramme crois de {X
t
} et {Y
t
} est donne par :
( )
=
+ =
n
t
k Y k X k Y k X k
b b a a
n
Real
1
, , , ,
2

La partie imaginaire du priodogramme crois de {X
t
} et {Y
t
} est donne par :
( )
=
=
n
t
k Y k X k Y k X k
a b b a
n
Imag
1
, , , ,
2

Lestimation du cospectre (partie relle du spectre crois) des sries {X
t
} et {Y
t
} est donn par :
> + =
< + =
s + s =
=
+ +
+ +
+ +
=
+
n i k Real R
i k Real R
n i k Real R
R w C
i k n i k
i k i k
i k i k
p
p i
i k i k
,
0 ,
0 ,
avec
) (
) (

Lestimation du spectre quadratique (partie imaginaire du spectre crois) des sries {X
t
} et {Y
t
}
est donne par :
> + =
< + =
s + s =
=
+ +
+ +
+ +
=
+
n i k Imag H
i k Imag H
n i k Imag H
H w Q
i k n i k
i k i k
i k i k
p
p i
i k i k
,
0 ,
0 ,
avec
) (
) (

La phase du spectre crois de {X
t
} et {Y
t
} est donne par :
) / arctan(
k k k
C Q = u
Lamplitude de spectre crois de {X
t
} et {Y
t
}est donne par :
2 2
k k k
Q C A + =
La cohrence carre des sries {X
t
} et {Y
t
} est donne par :
k Y k X
k
k
f f
A
K
, ,
2

=
492

Tests du bruit blanc : XLSTAT vous propose en option de calculer deux statistiques et la p-
value associe, afin de dterminer si la srie est significativement diffrente dun bruit blanc ou
non : le Kappa de Fisher et la statistique du Kolmogorov-Smirnov de Bartlett.

Bote de dialogue

calculs.

Onglet Gnral :
Donnes de date : activez cette option pour slectionner des donnes date. Ces donnes
Vrifier les intervalles : activez cette option si vous voulez que XLSTAT vrifie que les

493
actif.



Onglet Sorties (1) :
Tests de bruit blanc : activez cette option pour afficher les rsultats des tests de bruit blanc.
Partie cosinus : activez cette option pour afficher la partie relle de la transforme de Fourier.
Partie sinus : activez cette option pour afficher la partie imaginaire de la transforme de
Fourier.
Amplitude : activez cette option pour afficher lamplitude du spectre.
Phase : activez cette option pour afficher la phase du spectre.

Densit spectrale : activez cette option pour afficher une estimation de la densit spectrale.
Deux options vous sont proposes :
- Pondration par noyau : choisissez alors la fonction noyau utiliser (voir la section
description).
c : entrez la valeur du paramtre c. Ce paramtre est dcrit dans la partie description.
e : entrez la valeur du paramtre e. Ce paramtre est dcrit dans la partie description.
- Pondration fixe : slectionnez sur une feuille Excel les donnes correspondant aux
poids utiliss pour le lissage. Le nombre de poids doit tre impair. Lutilisation de poids
symtriques est recommande (exemple : 1,2,3,2,1).
494

Onglet Sorties (2) :
Spectre crois : activez cette option pour faire lanalyse des spectres croiss. Ces calculs ne
sont effectus que si au moins deux sries temporelles ont t slectionnes.
- Partie relle : activez cette option pour afficher la partie relle du spectre crois.
- Partie imaginaire : activez cette option pour afficher la partie imaginaire du spectre
crois.
- Cospectre : activez cette option pour afficher le cospectre.
- Spectre de quadrature : activez cette option pour afficher le spectre de quadrature.
- Cohrence carre : activez cette option pour afficher la cohrence carre.

Onglet Graphiques :
Priodogramme : activez cette option pour afficher le priodogramme des sries.
Densit spectrale : activez cette option pour afficher le graphique des densits spectrales.

Rsultats
Tests du bruit blanc : vous trouverez dans ce tableau pour chaque srie, le Kappa de Fisher
et la statistique du Kolmogorov-Smirnov de Bartlett ainsi que les p-values correspondantes. Si
les p-values sont infrieures au niveau de signification que vous vous tes fix (typiquement
0.05), alors vous devez rejeter lhypothse que les sries sont un simple bruit blanc.
Analyse spectrale : ce tableau est affich pour toutes les sries slectionnes. Les rsultats
affichs correspondent aux diffrentes options de sortie slectionnes. Le priodogramme,
qui correspond lamplitude du spectre crois, et le graphique de la densit spectrale sont
affichs la suite du tableau.
Analyse du spectre crois : ce tableau est affich pour tous les couples de sries
slectionns.

495
Exemple
Un exemple danalyse spectrale est disponible en permanence sur le site dAddinsoft :
http://www.xlstat.com/demo-spectralf.htm

Bibliographie
Bartlett M.S. (1966). An Introduction to Stochastic Processes, Second Edition. Cambridge
University Press, Cambridge.
Verlag, New York.
Davis H.T. (1941). The Analysis of Economic Time Series. Principia Press, Bloomington.
Durbin J. (1967). Tests of Serial Independence Based on the Cumulated Periodogram.
Bulletin of Int. Stat. Inst., 42, 1039-1049.
Chiu S-T (1989). Detecting periodic components in a white Gaussian time series. Journal of
the Royal Statistical Society, Series B, 51, 249-260.
New York.
Nussbaumer H.J. (1982). Fast Fourier Transform and Convolution Algorithms, Second
Edition. Springer-Verlag, New York.
Parzen E. (1957). On Consistent Estimates of the Spectrum of a Stationary Time Series.
Annals of Mathematical Statistics, 28, 329-348.
Verlag, New York.

496
Transforme de Fourier
Utilisez cet outil pour transformer une srie chronologique (ou un signal) en ses coordonnes
dans lespace des frquences, ou pour effectuer lopration inverse.

Description
Utilisez cet outil pour transformer une srie chronologique (ou un signal) en ses coordonnes
dans lespace des frquences, ou pour effectuer lopration inverse. Alors que la fonction
quivalente de Excel vous limite des tailles dchantillon en puissance de 2, XLSTAT
accepte une taille quelconque de signal.

Bote de dialogue
calculs.

Partie relle : activez cette option pour slectionner le signal transformer, ou la partie relle
dans le cas dune transformation inverse.
Partie imaginaire : activez cette option pour slectionner la partie imaginaire dans le cas
dune transformation inverse.

497
actif.

(partie relle, partie imaginaire) contient un libell.

Transforme inverse : activez cette option pour calculer linverse de la transforme de
Fourier.
Amplitude : activez cette option pour afficher lamplitude du spectre.
Phase : activez cette option pour afficher la phase du spectre.

Rsultats
Partie relle: partie relle obtenue aprs la transforme ou la transforme inverse.
Partie imaginaire: partie imaginaire obtenue aprs la transforme ou la transforme inverse.
Amplitude : amplitude du spectre.
Phase : phase du spectre.

Bibliographie
New York.

498
Analyse de Kaplan-Meier
Utilisez cet outil pour crer des courbes de survie en utilisant la mthode de Kaplan-Meier
(aussi appele product-limit), et pour obtenir des informations essentielles comme le temps
mdian de survie. La mthode de Kaplan-Meier permet destimer les fonctions de survie, sans
que les intervalles de temps soient ncessairement rguliers, contrairement la mthode des
tables actuarielles. XLSTAT permet le traitement de donnes censures et de comparer
diffrents groupes au sein de la population.

Description
La mthode de Kaplan-Meier permet dobtenir rapidement une courbe de survie, ainsi que des
statistiques essentielles comme le temps mdian rsiduel de survie. La mthode de Kaplan-
Meier permet destimer les fonctions de survie, sans ncessiter que les intervalles de temps
soient rguliers, contrairement la mthode des tables actuarielles de survie.
Les courbes de survie permettent danalyser lvolution de leffectif dune population donne
avec le temps. Cette technique est utilise pour lanalyse de donnes de survie, quil sagisse
dindividus (recherche sur le cancer par exemple), ou de produits (rsistance au temps dun
outil de production par exemple) : certains individus meurent (les produits cassent), mais
dautres sortent de ltude parce quils gurissent, que lon perd leur trace (dmnagement par
exemple) ou parce que ltude est interrompue. Le premier type dinformation est appel
donnes vnement , tandis que le second est appel donnes censures .
Il existe plusieurs types de censure pour les donnes de survie :
- Censure gauche : lorsquun vnement est enregistr au temps t=t(i), cela signifie quil a
eu lieu t * t(i).
- Censure droite : lorsquun vnement est enregistr au temps t=t(i), cela signifie quil a
eu lieu t * t(i), sil na jamais eu lieu.
- Censure par intervalle : lorsquun vnement est enregistr au temps t=t(i), cela signifie
quil a eu lieu pendant lintervalle de temps [t(i-1); t(i)].
- Censure exacte : lorsquun vnement est enregistr au temps t=t(i), cela signifie quil a
eu lieu exactement t=t(i).
Lutilisation de la mthode Kaplan-Meier implique que lon fait lhypothse que les observations
sont indpendantes. De mme, on fait lhypothse que la censure est indpendante : soient
deux individus pris au hasard, inclus dans ltude au temps t-1 ; si lun deux est censur au
temps t, alors leur chance de survie est gale au temps t. On distingue quatre types de
censure indpendante :
- Type I simple : tous les individus sont censurs aprs une mme dure.
499
- Type I progressif : tous les individus sont censurs la mme date, quelle que soit la
dure pendant laquelle ils ont t suivis (fin de ltude par exemple).
- Type II : les individus sont suivis jusqu ce que lon ait observ n vnements.
- Alatoire : le temps auquel se produit une censure est indpendant du temps de survie.

Si les donnes vnement sont souvent mesures par intervalle ou une date exacte, les
donnes censures sont quant elles, en gnral censures droite, la censure tant
indpendante et alatoire.
La mthode de Kaplan-Meier permet aussi de comparer des populations, en sappuyant sur
leur courbe de survie. Par exemple, il peut tre intressant de comparer les temps de survie
des hommes et des femmes face une mme maladie, ou de comparer les temps de casse
pour un mme produit fabriqu sur deux chanes de production diffrentes.

Bote de dialogue

calculs.

Onglet Gnral :
500
Donnes de dates : slectionnez les donnes correspondant aux dates auxquelles se
produisent les vnements ou les censures. Si un en-tte a t slectionn sur la premire
ligne, veillez ce que loption libells des colonnes soit active.
Donnes pondres : activez cette option si, pour un temps donn, plusieurs vnements ont
pu tre enregistrs (par exemple, au temps 218, 10 dcs et 2 donnes censures ont t
enregistrs). Si vous activez cette option, Indicateur dvnement remplace indicateur
dtat , et l indicateur de censure remplace les Code vnement et Code censur .
Indicateur dtat : slectionnez ici les donnes correspondant une donne vnement
ou une donne censure . Ce champ nest pas disponible si loption Donnes
pondres est active. Si un en-tte a t slectionn sur la premire ligne, veillez ce que
loption libells des colonnes soit active.

Code vnement : entrez le code utilis pour identifier une donne vnement . La valeur
par dfaut est 1.
Code censur : entrez ici le code utilis pour identifier une donne censure . La valeur
par dfaut est 0.
Indicateur dvnement : slectionnez ici les donnes correspondant aux comptages des
vnements enregistrs chaque temps. Ce champ nest disponible que si loption Donnes
Indicateur de censure: slectionnez ici les donnes correspondant aux comptages des
donnes censures enregistres chaque temps. Ce champ nest disponible que si loption
Donnes pondres est active. Si un en-tte a t slectionn sur la premire ligne, veillez
ce que loption libells des colonnes soit active.

actif.


501
Groupes : activez cette option puis slectionnez ici les donnes dappartenance des
groupes si vous souhaitez que les calculs soient effectus sur chaque groupe sparment.
- Comparer : activez cette option si vous souhaitez que les courbes soient compares
pour les diffrents groupes, et si vous souhaitez que les tests de comparaison soient
calculs.

Onglet Options :
Niveau de signification (%) : entrez la valeur du niveau de signification utiliser pour les
tests (valeur par dfaut : 5%). Cette valeur est aussi utilise pour dterminer les intervalles de
confiance pour les statistiques calcules.


Onglet Graphiques :
Fonction de survie cumule : activez cette option pour afficher les graphiques relatifs la
fonction de survie cumule.
-Log(FSC) : activez cette option si vous souhaitez que XLSTAT affiche le Log() de la fonction
de survie (FSC).
Log(-Log(FSC)) : activez cette option si vous souhaitez que XLSTAT affiche le Log(Log()) de
la fonction de survie (FSC).
Donnes censures : activez cette option si vous souhaitez que les donnes pour lesquelles
des donnes censures ont t observes soient identifies sur le graphique (un o est
utilis pour lidentification).

Rsultats
Statistiques simples : vous trouverez dans ce tableau le nombre total dindividus pris en
compte dans lanalyse, le nombre dvnements, et le nombre de donnes censures.
Tableau de Kaplan-Meier: dans ce tableau sont affichs plusieurs rsultats :
502
- Dbut de lintervalle : borne infrieure de lintervalle de temps.
- A risque : nombre dindividus risque.
- Evnements : nombre dvnements enregistrs.
- Censures : nombre de donnes censures enregistres.
- Proportion dvnements : proportion dindividus qui na pas survcu.
- Taux de survie : proportion dindividus qui a survcu.
- Fonction de survie (FSC) : probabilit pour un individu de survivre au moins jusquau
temps considr.
- Ecart-type de la fonction de survie : cart-type de la quantit prcdente.

Temps moyen et mdian de survie : dans le premier tableau sont affichs le temps moyen
rsiduel de survie et lcart-type correspondant. Dans un second tableau sont affichs le
temps rsiduel pour trois quartiles au dbut de lexprience. La mdiane correspond au
quartile 50%. Un intervalle de confiance sur ces statistiques est aussi fourni.
Graphiques : en fonction des options choisies, jusqu trois graphiques peuvent tre affichs :
Fonction de survie cumule (FSC), -Log(FSC) et Log(-Log(FSC)).

Si loption "Comparer" a t active, XLSTAT affiche les rsultats suivants:
Tests dgalit des fonctions de survie : ce tableau affiche les statistiques correspondant
trois tests : le Log-rank test, le test de Wilcoxon, et le test de Tarone Ware. Ces tests utilisent
la distribution du Khi. Plus la p-value est faible, plus la diffrence entre les courbes est
significative.
Graphiques : en fonction des options choisies, jusqu trois graphiques peuvent tre affichs,
avec pour chacun, une courbe par groupe : Fonction de survie (FSC), -Log(FSC) et Log(-
Log(FSC)).

Exemple
Un exemple danalyse de survie par la mthode de Kaplan-Meier est disponible sur le site
dAddinsoft :
http://www.xlstat.com/demo-kmf.htm

503

Bibliographie
Brookmeyer R. and Crowley J. (1982). A confidence interval for the median survival time.
Collett D. (1994). Modeling Survival Data In Medical Research. Chapman and Hall, London.
Cox D.R. and Oakes D. (1984). Analysis of Survival Data. Chapman and Hall, London.
Elandt-Johnson R.C. and Johnson N.L. (1980). Survival Models and Data Analysis. John
Wiley & Sons, New York.
Kalbfleisch J.D. and Prentice R.L. (1980). The Statistical Analysis of Failure Time Data. John

504
Tableaux de survie
Utilisez cet outil pour crer des courbes de survie, et pour obtenir des informations essentielles
comme le temps mdian de survie. Lanalyse des tableaux actuariels, se fonde sur des
intervalles de temps rguliers, contrairement la mthode de Kaplan-Meier qui traite les
vnements au fur et mesure de leur apparition. XLSTAT permet le traitement de donnes
censures et la comparaison de diffrents groupes au sein de la population.

Description
Lanalyse de tableaux actuariels appartient aux mthodes descriptives de lanalyse de survie,
de mme que lanalyse de Kaplan-Meier, mthode plus rcente et qui savre plus
performante dans certaines conditions.
Lanalyse de tableaux actuariels permet dobtenir rapidement une courbe de survie, ainsi que
des statistiques essentielles comme le temps mdian rsiduel de survie.
Les tables actuarielles permettent danalyser lvolution de leffectif dune population donne
avec le temps. Cette technique est utilise pour lanalyse de donnes de survie, quil sagisse
dindividus (recherche sur le cancer par exemple), ou de produits (rsistance au temps dun
outil de production par exemple) : certains individus meurent (les produits cassent), mais
dautres sortent de ltude parce quils gurissent, que lon perd leur trace (dmnagement par
exemple) ou parce que ltude est interrompue. Le premier type dinformation est appel
donnes vnement , tandis que le second est appel donnes censures .
Il existe plusieurs types de censure pour les donnes de survie :
- Censure gauche : lorsquun vnement est enregistr au temps t=t(i), cela signifie quil a
eu lieu t * t(i).
- Censure droite : lorsquun vnement est enregistr au temps t=t(i), cela signifie quil a
eu lieu t * t(i), sil na jamais eu lieu.
- Censure par intervalle : lorsquun vnement est enregistr au temps t=t(i), cela signifie
quil a eu lieu pendant lintervalle de temps [t(i-1); t(i)].
- Censure exacte : lorsquun vnement est enregistr au temps t=t(i), cela signifie quil a
eu lieu exactement t=t(i).
La mthode des tables actuarielles implique lhypothse que les observations sont
indpendantes. De mme, on fait lhypothse que la censure est indpendante : soient deux
individus pris au hasard, inclus dans ltude au temps t-1 ; si lun deux est censur au temps t,
alors leur chance de survie est gale au temps t. On distingue quatre types de censure
indpendante :
505
- Type I simple : tous les individus sont censurs aprs une mme dure.
- Type I progressif : tous les individus sont censurs la mme date, quelle que soit la
dure pendant laquelle ils ont t suivis (fin de ltude par exemple).
- Type II : les individus sont suivis jusqu ce que lon ait observ n vnements.
- Alatoire : le temps auquel se produit une censure est indpendant du temps de survie.

Si les donnes vnement sont souvent mesures par intervalle ou une date exacte, les
donnes censures sont quant elles, en gnral censures droite, la censure tant
indpendante et alatoire.
Lanalyse de tableaux actuariels permet de comparer des populations, en sappuyant sur leur
courbe de survie. Par exemple, il peut tre intressant de comparer les temps de survie des
hommes et des femmes face une mme maladie, ou de comparer les temps de casse pour
un mme produit fabriqu sur deux chanes de production diffrentes.

Bote de dialogue

calculs.

Onglet Gnral :
506
Donnes de dates : slectionnez les donnes correspondant aux dates auxquelles se
produisent les vnements ou les censures. Si un en-tte a t slectionn sur la premire
ligne, veillez ce que loption libells des colonnes soit active.
Donnes pondres : activez cette option si, pour un temps donn, plusieurs vnements ont
pu tre enregistrs (par exemple, au temps 218, 10 dcs et 2 donnes censures ont t
enregistrs). Si vous activez cette option, Indicateur dvnement remplace indicateur
dtat , et l indicateur de censure remplace les Code vnement et Code censur .
Indicateur dtat : slectionnez ici les donnes correspondant une donne vnement
ou une donne censure . Ce champ nest pas disponible si loption Donnes

Code vnement : entrez le code utilis pour identifier une donne vnement . La valeur
par dfaut est 1.
Code censur : entrez ici le code utilis pour identifier une donne censure . La valeur
par dfaut est 0.
Indicateur dvnement : slectionnez ici les donnes correspondant aux comptages des
vnements enregistrs chaque temps. Ce champ nest disponible que si loption
Donnes pondres est active. Si un en-tte a t slectionn sur la premire ligne,
veillez ce que loption libells des colonnes soit active.
Indicateur de censure: slectionnez ici les donnes correspondant aux comptages des
donnes censures enregistres chaque temps. Ce champ nest disponible que si loption
Donnes pondres est active. Si un en-tte a t slectionn sur la premire ligne,
veillez ce que loption libells des colonnes soit active.

actif.


507
Groupes : activez cette option, puis slectionnez ici les donnes dappartenance des
groupes si vous souhaitez que les calculs soient effectus sur chaque groupe sparment.
- Comparer : activez cette option si vous souhaitez que les courbes soient compares
pour les diffrents groupes, et si vous souhaitez que les tests de comparaison soient
calculs.

Onglet Options :
Niveau de signification (%) : entrez la valeur du niveau de signification utiliser pour les
tests (valeur par dfaut : 5%). Cette valeur est aussi utilise pour dterminer les intervalles de
confiance pour les statistiques calcules.

Intervalles de temps :
- Amplitude constante : activez cette option, puis entrez lamplitude des intervalles de
temps utiliser pour lanalyse. La valeur par dfaut est 1.
- Dfinis par lutilisateur : activez cette option, puis slectionnez la borne infrieure du
premier intervalle de temps et les bornes suprieures de tous les intervalles de temps
que vous voulez utiliser pour lanalyse.


Onglet Graphiques :
Fonction de survie cumule : activez cette option pour afficher les graphiques relatifs la
fonction de survie cumule.
-Log(FSC) : activez cette option si vous souhaitez que XLSTAT affiche le Log() de la fonction
de survie (FSC).
Log(-Log(FSC)) : activez cette option si vous souhaitez que XLSTAT affiche le Log(Log()) de
la fonction de survie (FSC).
508
Donnes censures : activez cette option si vous souhaitez que les donnes pour lesquelles
des donnes censures ont t observes soient identifies sur le graphique (un o est
utilis pour lidentification).

Rsultats
Statistiques simples : vous trouverez dans ce tableau le nombre total dindividus pris en
compte dans lanalyse, le nombre dvnements, et le nombre de donnes censures.
Table de survie : dans ce tableau sont affichs les rsultats suivants :
- Intervalle : intervalle de temps.
- A risque : nombre dindividus risque pendant lintervalle de temps.
- Evnements : nombre dvnements enregistrs pendant lintervalle de temps.
- Censures : nombre de donnes censures enregistres pendant lintervalle de temps.
- Effectivement risque : nombre dindividus effectivement risque pendant lintervalle
de temps.
- Taux de survie : proportion dindividus qui ont survcu (lvnement ne sest pas
produit) pendant lintervalle de temps. Ratio des individus qui ont survcu sur les
individus effectivement risque.
- Probabilit conditionnelle d'vnement : ratio des individus qui ont nont pas survcu
sur les individus effectivement risque.
- Ecart-type de la probabilit conditionnelle d'vnement : cart-type de la quantit
prcdente.
- Fonction de survie (FSC) : probabilit pour un individu de survivre au moins jusquau
temps considr.
- Ecart-type de la fonction de survie : cart-type de la quantit prcdente.
- Densit de probabilit : fonction de densit estime au milieu de lintervalle de temps
considr.
- Ecart-type de la densit de probabilit : cart-type de la quantit prcdente.
- Taux de hasard : estimation du taux de hasard au milieu de lintervalle de temps
considr. Cet indicateur, aussi appel taux dchec, correspond au taux dchec
observ pour les survivants.
509
- Ecart-type du taux de hasard : cart-type de la quantit prcdente.
- Temps mdian rsiduel de survie: quantit de temps restant pour rduire la taille de
la population de 50% (individus risque).
- Ecart-type du temps mdian rsiduel de survie : cart-type de la quantit
prcdente.

Temps de survie mdian : vous trouverez dans ce tableau le temps mdian rsiduel de
survie au dbut de lexprience, ainsi que lcart-type de ce dernier. Cette statistique permet
dvaluer le temps au bout duquel la taille de la population tudie a rduit de moiti.
Graphiques : en fonction des options choisies, jusqu cinq graphiques peuvent tre affichs :
Fonction de survie cumulative (FSC), densit de probabilit, Taux de hasard, -Log(FSC) et
Log(-Log(FSC)).

Si loption "Comparer" a t active, XLSTAT affiche les rsultats suivants :
Tests dgalit des fonctions de survie : ce tableau affiche les statistiques correspondant
trois tests : le Log-rank test, le test de Wilcoxon, et le test de Tarone Ware test. Ces tests
sappuient tous sur le test du Khi. Plus la p-value est faible, plus la diffrence entre les
courbes est significative.
Graphiques : en fonction des options choisies, jusqu cinq graphiques peuvent tre affichs,
avec pour chacun une courbe par groupe : Fonction de survie (FSC), densit de probabilit,
Taux de hasard, -Log(FSC) et Log(-Log(FSC)).

Exemple
Un exemple danalyse de survie par la mthode des tables actuarielles est disponible sur le
site dAddinsoft :
http://www.xlstat.com/demo-lifef.htm

Bibliographie
Brookmeyer R. and Crowley J. (1982). A confidence interval for the median survival time.
510
Collett D. (1994). Modeling Survival Data In Medical Research. Chapman and Hall, London.
Cox D.R. and Oakes D. (1984). Analysis of Survival Data. Chapman and Hall, London.
Elandt-Johnson R.C. and Johnson N.L. (1980). Survival Models and Data Analysis. John
Kalbfleisch J.D. and Prentice R.L. (1980). The Statistical Analysis of Failure Time Data. John

511
Analyse Canonique des Corrlations
Utilisez l'Analyse Canonique des Corrlations (aussi dnomme analyse des corrlations
canoniques ou CCorA), pour tudier la corrlation entre deux tableaux de donnes et pour
extraire de ces tableaux un ensemble de variables canoniques telles que ces dernires soient
le plus corrles possible avec les deux tableaux et orthogonales entre elles.

Description
Lanalyse canonique des corrlations (CCorA, aussi dnomme analyse des corrlations
canoniques) est lune des mthodes permettant dtudier les relations entre deux tableaux de
donnes. Dcouverte par Hotelling (1936) cette mthode a t trs utilise en cologie mais
elle est depuis supplante par la RDA (Analyse de Redondance) et par lACC (Analyse
Canonique des Correspondances).
Contrairement la RDA, cette mthode est symtrique et na donc pas pour but de crer des
facteurs susceptibles de prdire les variables dun tableau Y partir des variables dun tableau
X. Etant donns deux tableaux Y1 et Y2, la CCorA a pour but dobtenir des vecteurs a(i) et b(i)
tels que
cov(Y1 ( ), Y2 ( ))
( ) (Y1 ( ), Y2 ( ))
var(Y1 ( )). var(Y2 ( ))
a i b i
i cor a i b i
a i b i
= =
soit maximis. Des contraintes doivent tre introduites afin que la solution pour a(i) et b(i) soit
unique. Comme on cherche finalement maximiser la covariance entre Y1a(i) et Y2b(i) et
minimiser leur variance respective, il est possible dobtenir des composantes bien corrles
entre elles, mais finalement peu reprsentatives des tableaux Y1 et Y2. Une fois la solution
obtenue pour i=1, on cherche la solution pour i=2 o a(2) et b(2) doivent tre respectivement
orthogonaux a(1) et b(2), et ainsi de suite. Le nombre de vecteurs que lon peut obtenir est
au maximum gal min(p, q) o p est le nombre de variables de Y1 et q le nombre de
variables de Y2.
Lanalyse inter-batteries de Tucker (1958) est une alternative o lon cherche maximiser
uniquement la covariance entre les composantes Y1a(i) et Y2b(i).

Bote de dialogue
512

calculs.
donnes. Si la flche est vers le bas (mode colonnes), XLSTAT considre que les sites sont
en lignes et les objets/variables en colonnes. Si la flche est vers la droite (mode lignes),
XLSTAT considre que les objets/variables sont en lignes et les sites en colonnes.

Onglet Gnral :
Y1 : slectionnez les donnes correspondant au premier tableau. Si des en-ttes de colonnes
ont t slectionns (mode colonnes), veuillez vrifier que loption Libells des colonnes
est active. Si des en-ttes de lignes ont t slectionns (mode lignes), veuillez vrifier que
loption Libells des lignes est active.
Y2 : slectionnez les donnes correspondant au second tableau. Si des en-ttes de colonnes
ont t slectionns (mode colonnes), veuillez vrifier que loption Libells des colonnes
est active. Si des en-ttes de lignes ont t slectionns (mode lignes), veuillez vrifier que

actif.

Libells des colonnes/lignes : activez cette option si, en mode colonnes, la premire ligne
des donnes slectionnes contient un libell, ou si en mode lignes, la premire colonne des
donnes slectionnes contient un libell.
513
Libells des observations : activez cette option si vous voulez utiliser des libells les
observations pour laffichage des rsultats. Si l'option Libells des colonnes est active
(modes colonnes), la premire cellule de la slection doit comprendre un en-tte. Si vous
nactivez pas cette option, des libells seront automatiquement crs (Obs1, Obs2, ).

Onglet Options :
Type danalyse : choisissez partir de quel type de matrice de similarit doivent tre
calcules les corrlations canoniques.
Y1 :
- Centrer : activez cette option si vous voulez centrer les variables du tableau Y1.
- Rduire : activez cette option si vous voulez rduire les variables du tableau Y1.
Y2 :
- Centrer : activez cette option si vous voulez centrer les variables du tableau Y2.
- Rduire : activez cette option si vous voulez rduire les variables du tableau Y2.
Remarque : si les deux tableaux sont centrs-rduits, choisir le type danalyse covariance ou
corrlations donne le mme rsultat.

prendre en compte.

514

Onglet Sorties :
Covariance/Corrlations/[Y1Y2]'[Y1Y2] : activez cette option pour afficher la matrice de
similarit utilise.

valeurs propres.
Test du Lambda de Wilks : activez cette option pour afficher les rsultats du test du Lambda
de Wilks.
Corrlations canoniques : activez cette option pour afficher les corrlations canoniques. Ces
dernires, comprises entre 0 et 1 seront dautant plus leves que la corrlation entre Y1 et Y2
est leve.
Coefficients de redondance : activez cette option pour afficher les coefficients de
redondance.
Coefficients canoniques : activez cette option pour afficher les coefficients canoniques. Ils
correspondent aux coefficients associs chacune des variables initiales pour la construction
des variables canoniques. Ils sont standardiss si les variables initiales sont centres rduites.
variables initiales et les variables canoniques.
Coefficients dadquation des variables canoniques : activez cette option pour afficher les
coefficients dadquation des variables canoniques.
Cosinus carrs : activez cette option pour afficher les cosinus carrs des variables initiales
dans lespace des variables canoniques.
Scores : activez cette option pour afficher les coordonnes des observations dans lespace
des variables canoniques.

Onglet Graphiques :
515
vecteurs.

Rsultats
Statistiques simples : le tableau de statistiques descriptives prsente pour les deux tableaux
slectionns des statistiques simples.
Matrice de similarit : la matrice utilise pour les calculs et correspondant au choix fait dans
la bote de dialogue dans longlet Options est affiche.
Valeurs propres et pourcentages dinertie : dans ce tableau sont affichs les valeurs
propres, linertie associe, et les pourcentages de variabilit associs chacune des variables
canoniques. Remarque : dans dautres logiciels, les valeurs propres fournies sont gales L /
(1-L), o L est la valeur propre fournie par XLSTAT.
Test du Lambda de Wilks : le test du Lambda de Wilks permet de dterminer si les deux
tableaux Y1 et Y2 sont significativement lis chacune des variables canoniques.
Corrlations canoniques : les corrlations canoniques, comprises entre 0 et 1, sont dautant
plus leves que la corrlation entre Y1 et Y2 est leve. Elles nindiquent cependant pas
quel point les variables canoniques sont reprsentatives ou non de Y1 et Y2. Le carr dune
corrlation canonique est gal aux valeurs propres, et correspond donc au pourcentage de
variabilit reprsent par la variable canonique en question.

Les rsultats ci-dessous sont calculs sparment pour chacun des deux groupes de
variables initiales.
Coefficients de redondance : ces coefficients permettent pour chacun des deux tableaux de
mesurer quel proportion de la variabilit des variables initiales est prdite par chacune des
variables canoniques.
Coefficients canoniques : ces coefficients (en anglais Canonical weights, ou Canonical
function coefficients ou Canonical coefficients) indiquent comment sont construites les
variables canoniques, puisquils correspondent aux coefficients de la combinaison linaire qui
permet de construire les variables canoniques partir des variables initiales. Ils sont
standardiss si les variables initiales sont centres rduites. Dans ce cas, les poids relatifs des
variables peuvent tre compars.
516
Les corrlations entre les variables initiales et les variables canoniques (appeles en
anglais parfois Structure correlation coefficients, ou Canonical factor loadings). Elles
permettent dinterprter les variables canoniques.
Coefficients dadquation des variables canoniques : ces coefficients correspondent pour
une variable canonique la somme quadratique des corrlations entre variables initiales et
variables canoniques, divise par le nombre de variables initiales. Ils donnent le pourcentage
de variabilit pris en compte par la variable canonique en question.
Cosinus carrs : les cosinus carrs des variables initiales dans lespace des variables
canoniques (qui correspondent aux carrs des corrlations entre variables initiales et variables
canoniques), permettent de savoir si une variable initiale est bien reprsente ou non dans
lespace des variables canoniques. La somme des cosinus carrs pour une variable initiale
donne est gale 1 pour lensemble des variables canoniques. Lorsque lon calcule cette
somme pour un nombre rduit daxes on parle de communalit (comme en analyse factorielle
des variables latentes).
Scores : les scores correspondent aux coordonnes des observations dans lespace des
variables canoniques.

Exemple
Un exemple dAnalyse Canonique des Corrlations est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-ccoraf.htm

Bibliographie
Hotelling H. (1936). Relations between two sets of variables. Biometrika, 28, 321-327.
Multivariate Methods. Springer-Verlag, New York.
Amsterdam.
Tucker L.R. (1958). An inter-battery method of factor analysis. Psychometrika, 23(2),111-136.

517
Analyse de Redondance (RDA)
Utilisez l'Analyse de Redondance (Redundancy Analysis ou RDA en anglais), aussi appele
Analyse en Composantes Principales sur Variables Instrumentales (ACPVI), pour analyser un
tableau de variables rponse tout en tenant compte de l'information fournie par des variables
explicatives, et pour visualiser sur la mme graphique les deux ensembles de variables, et les
observations.

Description
L'Analyse de Redondance (RDA) a t dveloppe par Van den Wollenberg (1977) comme
alternative l'Analyse Canonique des Corrlations (CCorA). La RDA permet dtudier la
relation entre deux tableaux de variables Y et X. Tandis que la CCorA est une mthode
symtrique, la RDA est dissymtrique. Avec la CCorA, les composantes extraites des deux
tableaux sont telles que leur corrlation est maximise. Avec la RDA, les composantes
extraites partir de X sont telles qu'elles sont autant que possible corrls avec les variables
de Y. Les composantes de Y sont ensuite extraites de telle sorte qu'elles soient autant que
possible corrles avec les composantes extraites de X.

Principe de la RDA
Soit Y un tableau de variables rponse comprenant n observations et p variables. Ce tableau
peut tre analys avec une analyse en composantes principales, afin dobtenir une
visualisation simultane (biplot) des observations et des variables en deux ou trois
dimensions.
Soit X un second tableau correspondant aux mesures pour les mmes n observations de q
variables quantitatives et/ou qualitatives.
L analyse de redondance permet danalyser la relation entre Y et X, et dobtenir une
reprsentation simultane des observations, des variables rponse, et des variables
explicatives en deux ou trois dimensions, optimale pour un critre de covariance (Ter Braak
1986).
Lanalyse de redondance peut tre dcompose en deux sous-parties :
- une analyse sous contraintes dans un espace de dimension min(n-1, p, q). Cette partie est
celle qui prsente le plus dintrt car elle permet de relier lanalyse du tableau Y X.
Cette analyse est dnomme RDA contrainte
- une analyse de la partie rsiduelle, non contrainte, dans un espace de dimension min(n-1,
p). Cette analyse est dnomme RDA non-contrainte.
518

RDA partielle
La RDA partielle ajoute une tape prliminaire. Le tableau X est subdivis en deux groupes de
variables : X(1) comprend des variables de conditionnement dont on veut supprimer leffet,
dj connu ou sans intrt pour ltude. Des rgressions de Y et X(2) par X(1) sont calculs, et
les rsidus de ces rgressions sont ensuite utiliss pour la RDA. La RDA partielle permet donc
dtudier leffet du second groupe de variables, sans que les variables du premier groupe ne
viennent perturber lanalyse.

La terminologie Observations/Variables rponse/Variables explicatives a t choisie dans
XLSTAT. Dans le cadre dune tude en cologie, Sites pourrait tre utilis la place d
Observations , Espces la place de Variables rponse , et Variables
environnementales la place de Variables explicatives .

Problmatique des facteurs de mise lchelle (scaling) pour les biplots
XLSTAT propose trois types de mise lchelle. Le type de mise lchelle change la faon
sont calcules dont les coordonnes (aussi appels scores) des variables rponse et des
observations, ce qui modifie par consquent, leur position respective sur la reprsentation
graphique. Soit u(ik) la coordonne normalise de la variable rponse i sur l'axe k, v(ik) la
coordonne normalise de l'observation i sur l'axe k, L(k) la valeur propre correspondant
l'axe k, et T l'inertie totale (la somme des L(k) pour les RDA contrainte et non-contrainte). Les
trois mises lchelle proposes dans XLSTAT, identiques celles de vegan (un module pour
le logiciel de R, Oksanen, 2007). Les u(ik) sont multiplis par c, et les v(ik) par d, et r est une
constante dfinie par ( )
4
1 T n r = , o n est le nombre d'observations.
Scaling 1: ( ) T k L r c / = r d =
Scaling 2: r c = ( ) T k L r d / =
Scaling 3: ( )
4
/ T k L r c = ( )
4
/ T k L r d =

En plus des observations et des variables rponse, les variables explicatives peuvent tre
affiches sur le graphique. Les coordonnes de ces dernires sont obtenues en calculant les
corrlations entre les variables du tableau X et les coordonnes des observations.

519
Bote de dialogue

calculs.

Onglet Gnral :
Variables rponse Y : slectionnez le tableau correspond aux variables rponse. Si des en-
ttes de colonnes ont t slectionns (mode colonnes), veuillez vrifier que loption Libells
des colonnes est active. Si des en-ttes de lignes ont t slectionns (mode lignes),
veuillez vrifier que loption Libells des lignes est active.
Variables explicatives X : slectionnez le tableau correspondant aux variables explicatives
mesures pour les mmes observations que Y.
- Quantitatives : activez cette option si vous disposez de variables quantitatives.
- Qualitatives : activez cette option si vous disposez de variables qualitatives.

actif.
520

RDA partielle : activez cette option pour raliser une RDA partielle. Si vous activez cette
option une bote de dialogue sera affiche au cours des calculs afin de vous permettre de
slectionner quelles variables sont des variables de conditionnement (voir la section
description).

Libells des observations : activez cette option si vous voulez utiliser des libells les
observations pour laffichage des rsultats. Si l'option Libells des colonnes est active
(modes colonnes), la premire cellule de la slection doit comprendre un en-tte. Si vous
nactivez pas cette option, des libells seront automatiquement crs (Obs1, Obs2, ).

Onglet Options :
prendre en compte.

Test de permutation : activez cette option si vous voulez utiliser un test de permutation pour
tablir sil existe ou non une relation entre les deux tableaux.
- Nombre de permutations : entrez le nombre de permutations raliser pour les tests
(valeur par dfaut : 300)
- Niveau de signification (%) : entrez le niveau de signification pour les tests.

Variables rponse :
- Centrer : activez cette option si vous voulez centrer les variables rponse avant de
lancer la RDA.
521
- Rduire : activez cette option si vous voulez rduire les variables rponse avant de
lancer la RDA.
- Centrer : activez cette option si vous voulez centrer les variables explicatives avant de
lancer la RDA.
- Rduire : activez cette option si vous voulez rduire les variables explicatives de lancer
la RDA.

Type de biplot : choisissez le type de biplot afficher. Les coordonnes (scores) des
variables rponse et des observations sont calcules diffremment en fonction du type choisi
(voir la section description pour plus de dtails).


Onglet Sorties :
Rsultats de la RDA : activez cette option pour afficher les rsultats de la RDA contrrainte.
Rsultats de lACC non contrainte : activez cette option pour afficher les rsultats de la RDA
non contrainte.

522
valeurs propres.
Scores (Observations) : activez cette option pour afficher les coordonnes (scores) des
observations.
Scores (Variables rponse) : activez cette option pour afficher les coordonnes (scores) des
variables rponse.
- WA scores: activez cette option pour calculer et afficher les Weighted Average
scores.
- LC scores: activez cette option pour calculer et afficher les Linear Combinations
scores.

Contributions : activez cette option pour afficher les contributions des observations et des
variables rponse aux axes factoriels.
Cosinus carrs : activez cette option pour afficher les cosinus carrs des observations et des
variables rponse avec les axes factoriels.

Onglet Graphiques :
Choisissez linformation que vous voulez afficher sur le biplot/triplot :
- Observations : activez cette option pour afficher les observations sur le graphique.
- Variables rponse : activez cette option pour afficher les variables rponse sur le
graphique.
- Variables explicatives : activez cette option pour afficher les variables explicatives sur
le graphique.

Etiquettes : activez cette option pour afficher les tiquettes sur les graphiques.
Vecteurs : activez cette option pour afficher des vecteurs.
affichs.

523

Rsultats
Valeurs propres et pourcentages dinertie : dans ces tableaux sont affichs pour la RDA
contrainte et la RDA non contrainte, les valeurs propres, linertie associe, et les pourcentages
correspondant, soit en terme dinertie contrainte (ou non-contrainte), soit en terme dinertie
totale.

Les coordonnes (ou scores) des observations, des variables rponse et explicatives sont
ensuite affiches. Ces coordonnes sont utilises pour le graphique (simple, biplot ou triplot).

Le graphique permettent de visualiser la relation entre les observations, les variables rponse
et explicatives. Lorsque des variables qualitatives ont t utilises, les modalits
correspondantes apparaissent en rouge avec un cercle vid sur les graphiques. La lgende
les prsente comme modalits afin de les diffrencier des autres variables explicatives.

Exemple
Un exemple dAnalyse de Redondance est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-rdaf.htm

Bibliographie
Amsterdam.
Oksanen J., Kindt R., Legendre P. and O'Hara R.B. (2007). vegan: Community Ecology
Package version 1.8-5. http://cran.r-project.org/.
Ter Braak, C. J. F. (1992). Permutation versus bootstrap significance tests in multiple
regression and ANOVA. in K.-H. Jckel, G. Rothe, and W. Sendler, Editors. Bootstrapping and
Related Techniques. Springer Verlag, Berlin.
Van den Wollenberg, A.L. (1977). Redundancy analaysis. An alternative for canonical
correlation analysis. Psychometrika, 42(2), 207-219.
524

525
Analyse Canonique des Correspondances (ACC)
Utilisez lanalyse canonique des correspondances (en anglais, Canonical Correspondence
Analysis, ou CCA), aussi appele Analyse Factorielle des Correspondances sur Variables
Instrumentales (ACPVI), pour analyser un tableau de contingence (typiquement un tableau de
comptages, croisant sites et espces) tout en tenant compte de linformation fournie par des
variables quantitatives ou qualitatives mesures sur les mmes sites.

Description
Lanalyse canonique des correspondances (en anglais, Canonical Correspondence Analysis,
ou CCA) a t dveloppe dans le cadre dapplications en cologie (Ter Braak, 1986).
Nanmoins, cette mthode dont le cadre conceptuel est bien dfini, peut tre utilise dans
dautres domaines. Le gomarketing et les analyses dmographiques devraient pouvoir en
tirer profit.

Principe de lACC
Soit T1 un tableau de contingence correspondant au comptage en n sites des effectifs de p
objets. Ce tableau peut tre analys avec une analyse factorielle des correspondances (AFC)
afin dobtenir une visualisation simultane des sites et des objets en deux ou trois dimensions.
Soit T2 un tableau correspondant aux mesures en les mmes n sites de q variables
quantitatives et/ou qualitatives.
Lanalyse canonique des correspondances permet danalyser la relation entre T1 et T2, et
dobtenir une reprsentation simultane des sites, des objets, et des variables en deux ou trois
dimensions, optimale pour un critre de variance (Ter Braak 1986, Chessel 1987).
Lanalyse canonique des correspondances peut tre dcompose en deux parties :
- une analyse sous contraintes dans un espace de dimension q. Cette partie est celle qui
prsente le plus dintrt car elle permet de relier lanalyse du tableau T1 T2.
- une analyse de la partie rsiduelle, non contrainte, dans un espace de dimension min(n-1-
q, p-1). Cette analyse est dnomme ACC non-contrainte.

ACC partielle
LACC partielle ajoute une tape prliminaire. Le tableau T2 est subdivis en deux groupes de
variables : le premier contient des variables de conditionnement dont on veut supprimer leffet,
dj connu ou sans intrt pour ltude, en ralisant une premire ACC ; le second contient les
526
variables dont on veut tudier leffet. Une ACC est alors ralise sur le tableau des rsidus de
la premire ACC. LACC partielle permet donc dtudier leffet du second groupe de variables,
sans que les variables du premier groupe ne viennent perturber lanalyse.

La terminologie Sites/Objets/Variables a t choisie dans XLSTAT. Individus ou
observations pourraient tre utiliss la place de sites , et espces pourrait tre
utilis la place de objets dans le cadre dune tude en cologie.

Bote de dialogue

calculs.

Onglet Gnral :
Donnes Sites/Objets : slectionnez le tableau de contingence correspondant aux
comptages des diffrents objets en chacun des sites. Si des en-ttes de colonnes ont t
slectionns (mode colonnes), veuillez vrifier que loption Libells des colonnes est
active. Si des en-ttes de lignes ont t slectionns (mode lignes), veuillez vrifier que
527
Donnes Sites/Variables : slectionnez le tableau correspondant aux diffrentes variables
mesures en chacun des sites.
- Quantitatives : activez cette option si vous disposez de variables quantitatives.
- Qualitatives : activez cette option si vous disposez de variables qualitatives.

actif.

ACC partielle : activez cette option pour raliser une ACC partielle. Si vous activez cette
option une bote de dialogue sera affiche au cours des calculs afin de vous permettre de
slectionner quelles variables sont des variables de conditionnement (voir la section
description).

Libells des sites : activez cette option si vous voulez utiliser des libells des sites
disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option Libells des
colonnes est active (modes colonnes), la premire cellule de la slection doit comprendre
un en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs
(Obs1, Obs2, ).

Onglet Options :
prendre en compte.

528
Test de permutation : activez cette option si vous voulez utiliser un test de permutation pour
tablir sil existe ou non une relation entre les deux tableaux.
- Nombre de permutations : entrez le nombre de permutations raliser pour les tests
(valeur par dfaut : 300)
- Niveau de signification (%) : entrez le niveau de signification pour les tests.


Onglet Sorties :
Profils lignes et colonnes : activez cette option pour afficher les profils lignes et les profils
colonnes.
Rsultats de lACC : activez cette option pour afficher les rsultats de lACC.
Rsultats de lACC non contrainte : activez cette option pour afficher les rsultats de lACC
non contrainte.

valeurs propres.
529
Coordonnes principales : activez cette option pour afficher les coordonnes principales des
sites, des objets et des variables.
Coordonnes standard : activez cette option pour afficher les coordonnes standard des
sites, des objets et des variables.
Contributions : activez cette option pour afficher les contributions.
Cosinus carrs : activez cette option pour afficher les cosinus carrs avec les axes factoriels.

Moyennes pondres : activez cette option pour afficher les moyennes pondres associes
aux variables du tableau sites/variables.
Coefficients de rgression : activez cette option pour afficher les coefficients de rgression
associs aux diffrentes variables dans lespace factoriel.

Onglet Graphiques :
Sites et objets :
- Sites et objets / Symtriques : activez cette option pour afficher le graphique
symtrique des sites et des objets. Les coordonnes principales sont utilises pour les
sites et les objets.
- Sites / Asymtrique : activez cette option pour afficher le graphique asymtrique des
sites. Les coordonnes principales sont utilises pour les sites, et les coordonnes
standard pour les objets.
- Objets / Asymtrique : activez cette option pour afficher le graphique asymtrique des
objets. Les coordonnes principales sont utilises pour les objets, et les coordonnes
standard pour les sites.
- Sites : activez cette option pour afficher un graphique sur lequel ne figurent que les
sites. Les coordonnes principales sont utilises.
- Objets : activez cette option pour afficher un graphique sur lequel ne figurent que les
objets. Les coordonnes principales sont utilises.
Variables :
- Corrlations : activez cette option pour afficher les variables quantitatives et
qualitatives sur les graphiques, en utilisant comme coordonnes leurs corrlations
(gales aux coordonnes standard).
- Coefficients de rgression : activez cette option pour afficher les variables
quantitatives et qualitatives sur les graphiques, en utilisant comme coordonnes les
coefficients de rgression correspondant.
530

Etiquettes : activez cette option pour afficher les tiquettes sur les graphiques.

Vecteurs : activez cette option pour afficher des vecteurs.
affichs.

Rsultats
Inertie : dans ce tableau est affiche la rpartition de linertie entre lACC contrainte et lACC
non contrainte.
Valeurs propres et pourcentages dinertie : dans ces tableaux sont affichs pour lACC et
lACC non contrainte, les valeurs propres, linertie associe, et les pourcentages
correspondant, soit en terme dinertie contrainte (ou non-contrainte), soit en terme dinertie
totale.

Moyennes pondres : dans ce tableau sont affiches les moyennes pondres pour chacun
des sites, ainsi que les moyennes pondres globales.
Pour lensemble des sites, des objets et des variables sont ensuite affiches les coordonnes
principales, et les coordonnes standard. Ces coordonnes sont utilises pour les diffrents
graphiques gnrs ensuite.
Coefficients de rgression : dans ce tableau sont affichs les coefficients de rgression des
variables sur les axes factoriels.

Les graphiques permettent de visualiser la relation entre les sites, les objets et les variables.
Lorsque des variables qualitatives ont t utilises, les modalits correspondantes
apparaissent en rouge avec un cercle vid sur les graphiques. La lgende les prsente
comme modalits afin de les diffrencier des variables explicatives.

531

Exemple
Un exemple dAnalyse Canonique des Correspondances est disponible sur le site dAddinsoft :
http://www.xlstat.com/demo-ccaf.htm

Bibliographie
Chessel D., Lebreton J.D and Yoccoz N. (1987). Proprits de l'analyse canonique des
correspondances; une illustration en hydrobiologie. Revue de Statistique Applique, 35(4), 55-
72.
Amsterdam.
McCune B. (1997). Influence of noisy environmental data on canonical correspondence
analysis. Ecology, 78(8), 2617-2623.
Palmer M.W. (1993). Putting things in even better order: The advantages of canonical
correspondence analysis. Ecology, 74(8), 2215-2230.
Ter Braak C. J. F. (1986). Canonical Correspondence Analysis: a new eigenvector technique
for multivariate direct gradient analysis. Ecology, 67(5), 1167-1179.
Ter Braak C. J. F. (1992). Permutation versus bootstrap significance tests in multiple
regression and ANOVA. in K.-H. Jckel, G. Rothe, and W. Sendler, Editors. Bootstrapping and
Related Techniques. Springer Verlag, Berlin.

532
Analyse Factorielle Multiple (AFM)
Utilisez lAnalyse Factorielle Multiple (AFM) pour analyser simultanment plusieurs tableaux
de variables, et obtenir des rsultats, notamment des reprsentations graphiques, qui
permettent dtudier la relation entre les observations, les variables et les tableaux. A lintrieur
dun tableau les variables doivent tre de mme nature (quantitative ou qualitative), mais les
tableaux peuvent tre de diffrents types.

Description
LAnalyse Factorielle Multiple (AFM), permet danalyser simultanment plusieurs tableaux de
variables, et dobtenir des rsultats, notamment des reprsentations graphiques, qui
permettent dtudier la relation entre les observations, les variables et les tableaux (Escofier et
Pags, 1984). A lintrieur dun tableau les variables doivent tre de mme nature (quantitative
ou qualitative), mais les tableaux peuvent tre de diffrents types.
LAFM est une synthse de lACP (Analyse en Composantes Principales) et lACM (Analyse
des Correspondances Multiples) quelle permet de gnraliser des variables htrognes.
La mthodologie de lAFM se dcompose en deux tapes :
1. On ralise successivement pour chacun des tableaux une ACP ou une ACM en fonction
de la nature des variables. On conserve la valeur de la premire valeur propre de chacune
des analyses pour pondrer ensuite les diffrents tableaux dans la seconde partie de
lanalyse.
2. On ralise ensuite une ACP pondre sur les colonnes de lensemble des tableaux,
sachant que les tableaux de variables qualitatives sont transforms en tableaux disjonctifs
complets, chacune des indicatrices des tableaux disjonctifs ayant un poids fonction de la
frquence de la modalit concerne. La pondration des tableaux permet dviter que les
tableaux comprenant plus de variables ne psent trop dans lanalyse.

Cette mthode peut tre trs utile pour analyser des enqutes lorsque les questions peuvent
tre regroupes par thmes, ou lorsque les mmes questions sont poses plusieurs
intervalles de temps.
Les auteurs ayant dvelopp la mthode (Escofier et Pags, 1984) ont particulirement insist
sur lutilisation des rsultats qui dcoulent de lAFM. Loriginalit premire de cette mthode
vient de ce quelle permet une visualisation dans un espace deux ou trois dimensions, des
tableaux (chaque tableau tant reprsent par un point), des variables (dans un cercle des
corrlations), des facteurs principaux des analyses de la premire phase, et des individus. Par
ailleurs, on peut tudier limpact des autres tableaux sur une observation en visualisant
533
simultanment lobservation dcrite par lensemble des variables, et par seulement chacun
des tableaux. On parle alors de nuages partiels.
Remarque 1 : comme en ACP les variables qualitatives sont reprsentes par le barycentre
associ chacune des modalits sur le graphique des observations.
Remarque 2 : une AFM ralise sur k tableaux contenant chacun une variable qualitative est
quivalente une ACM.

Bote de dialogue

calculs.

Onglet Gnral :
Tableau observations/variables : slectionnez un tableau comprenant N observations
dcrites par P variables quantitatives regroupes dans K tableaux. Si des en-ttes de
colonnes ont t slectionns, veuillez vrifier que loption Libells des variables est
active.
Nombre de tableaux : entrez le nombre K de tableaux constituant le tableau principal des
observations variables.
534
Libells des tableaux : activez cette option si vous voulez utiliser des libells pour les K
tableaux. Si l'option Libells des variables est active, la premire cellule de la slection
doit comprendre un en-tte. Si vous nactivez pas cette option, des libells seront
automatiquement crs (Tableau1, Tableau2, ).
Nombre de variables par tableau :
- Egal : choisissez cette option si le nombre de variables est identique pour tous les
tableaux. XLSTAT dtermine alors automatiquement le nombre de variables de chacun
des tableaux.
- Dfini par lutilisateur : choisissez cette option pour slectionner une plage contenant
le nombre de variables contenu dans chaque tableau. Si l'option Libells des
variables est active, la premire cellule de la slection doit comprendre un en-tte.

actif.

(Tableau observations/variables, libells des observations, poids, ) contient un libell.

Onglet Options :
Type dACP : choisissez le type de matrice qui doit tre utilis pour les ACP. Le cas Pearson
(n) se distingue du cas Pearson (n-1) par la faon dont sont normalises les variables. Cela
na dinfluence que sur les coordonnes des observations.
Type de donnes : prcisez quel est le type des donnes des diffrents tableaux, sachant
que le type de donnes doit tre homogne lintrieur dun sous-tableau. Dans le cas ou le
535
type est mixte, pour indiquer XLSTAT quel est le type des tableaux, vous devez alors
slectionner une plage indiquant le type des K tableaux. Utilisez 0 pour un tableau contenant
des variables quantitatives, et 1 pour un tableau contenant des variables qualitatives.

prendre en compte.

Graphiques sur deux axes : activez cette option si vous souhaitez que les diffrentes
reprsentations graphiques des ACP, ACM, AFM ne soient affiches que sur les deux
premiers axes.


Tableaux supplmentaires : activez cette option si vous voulez utiliser certains tableaux
comme tableaux illustratifs. Les variables de ces tableaux ne sont alors pas prises en compte
pour le calcul des axes factoriels de lAFM. Les analyses spares sont en revanche
effectues pour les tableaux supplmentaires. Slectionnez la plage des indicateurs (0/1) afin
dindiquer XLSTAT quels sont, parmi les K tableaux, ceux qui sont actifs (1) ou illustratifs (0).
536

Stratgies adaptes : activez cette option pour choisir des stratgies adaptes au type des
donnes.
- Variables quantitatives :
Suppression par paires : activez cette option pour supprimer les observations comportant des
donnes manquantes uniquement lorsque les variables impliques dans les calculs comportent
des donnes manquantes. Par exemple, lors du calcul dune corrlation entre deux variables,
une observation ne sera ignore que si la donne correspondant lune des deux variables est
manquante.
Moyenne : activez cette option pour estimer les donnes manquantes en utilisant la moyenne.
Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une
- Variables qualitatives :
Nouvelle modalit : une nouvelle catgorie Manquant est cre pour les variables
qualitatives comprenant des valeurs manquantes.
Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une

Onglet Sorties :
Longlet Sorties est subdivis en plusieurs sous-onglets :
Gnral :
Ces sorties concernent toutes les analyses :
lensemble des variables slectionnes.
Corrlations : activez cette option pour afficher la matrice des corrlations des variables
quantitatives slectionnes.

Valeurs propres : activez cette option pour afficher les tableaux et les graphiques (scree plot)
des valeurs propres.
Contributions : activez cette option pour afficher les tableaux des contributions.
Cosinus carrs : activez cette option pour afficher les tableaux des cosinus carrs.
537

ACP :
Ces sorties concernent uniquement les ACP :
variables dans lespace des facteurs (factor loadings en anglais).
observations (factor scores en anglais) dans le nouvel espace cr par lACP.

ACM :
Ces sorties concernent uniquement les ACM :
correspondant aux variables qualitatives slectionnes.
Tableau de Burt : activez cette option pour afficher le tableau de Burt.

Affichez les rsultats pour :
- Observations : activez cette option pour afficher les rsultats concernant les
observations.
- Variables : activez cette option pour afficher les rsultats concernant les variables.

modalits soient tries alphabtiquement pour chacune des variables qualitatives.
Libells Variable/Catgorie : activez cette option pour utiliser des libells longs pour
l'affichage des rsultats. Les libells Variable-Modalit sont composs du nom de la variable
comme prfixe, et de la modalit comme suffixe.

valeurs propres.
Coordonnes principales : activez cette option pour afficher les coordonnes principales.
538
Coordonnes standard : activez cette option pour afficher les coordonnes standard.
Valeurs test : activez cette option pour afficher les valeurs test pour les variables.
valeurs test sont significatives ou non.

AFM :
Ces sorties concernent uniquement les rsultats de seconde phase de lAFM :
Tableaux :
- Coordonnes : activez cette option pour afficher les coordonnes des tableaux dans
lespace rsultant de lAFM. Remarque : les contributions et les cosinus sont aussi
affichs si les options correspondantes ont t actives dans longlet Sorties/Gnral.
- Coefficients Lg : activez cette option pour afficher les coefficients Lg de liaison entre
les tableaux.
- Coefficients RV : activez cette option pour afficher les coefficients RV de liaison entre
les tableaux.

Variables :
- Coordonnes des variables : activez cette option pour afficher les coordonnes des
variables dans lespace rsultant de lAFM.
- Corrlations Variables/Facteurs : activez cette option pour afficher les corrlations
entre les facteurs principaux et les variables.

Axes partiels :
- Nombre maximum : entrez le nombre maximum de facteurs retenir des analyses de
la premire phase, que vous voulez ensuite analyser dans lespace de lAFM.
- Coordonnes : activez cette option pour afficher les coordonnes des axes partiels
dans lespace rsultant de lAFM.
- Corrlations : activez cette option pour afficher les corrlations entre les facteurs
principaux et les axes partiels.
- Corrlations entre les axes : activez cette option pour afficher les corrlations entre
les axes partiels.
539

Observations :
- Coordonnes des observations : activez cette option pour afficher les coordonnes
des observations dans le nouvel espace cr par lAFM.
- Coordonnes des nuages partiels : activez cette option pour afficher les coordonnes
des nuages partiels dans lespace rsultant de lAFM. Les nuages partiels
correspondent aux projections des observations dans des espaces rduits aux
dimensions de chacun des tableaux.

Onglet Graphiques :
Gnral :
Ces options concernent toutes les analyses :
ACP :
Ces options concernent uniquement les ACP :
vecteurs.
540
filtrage.
vecteurs.


ACM :
Ces options concernent uniquement les ACM :
observations et les variables jouent un rle symtrique.
- Observations et variables : activez cette option pour afficher un graphique sur lequel
sont affiches les observations et les variables.
uniquement les observations.
- Variables : activez cette option pour afficher un graphique sur lequel sont affiches
uniquement les variables.
541
les observations et les variables jouent un rle asymtrique. Ces graphiques utilisent les
coordonnes principales pour les observations, et les coordonnes standard pour les
variables.
les observations avec leurs coordonnes principales, et les variables avec leurs
- Variables : activez cette option pour afficher un graphique sur lequel sont affiches les
variables avec leurs coordonnes principales, et les observations avec leurs

affichs.

AFM :
Ces options concernent uniquement les rsultats de seconde phase de lAFM :
Graphiques des tableaux : activez cette option pour afficher les graphiques de reprsentation
des tableaux pour les diffrents axes choisis.
Graphiques des corrlations : activez cette option pour afficher le cercle des corrlations
pour les variables quantitatives utilises pour lAFM.
Graphiques des observations : activez cette option pour afficher le cercle des corrlations
pour les variables quantitatives utilises pour lAFM.
- Colorer les observations : activez cette option pour que les observations soient
affiches avec des couleurs diffrentes selon la valeur de la premire variable
qualitative supplmentaire.
- Afficher les barycentres : activez cette option pour afficher les barycentres
correspondant aux modalits des diffrentes variables qualitatives supplmentaires
slectionnes.
Graphiques des corrlations (axes partiels) : activez cette option pour afficher le graphique
des observations dans lespace de lAFM.
542
Graphiques des nuages partiels : activez cette option pour afficher le graphique
reprsentant la fois les observations, et les observations projets dans le sous-espace de
chacun des tableaux.
- Libells des observations : activez cette option pour afficher les libells des
observations sur les graphiques.
- Libells des nuages partiels : activez cette option pour afficher les libells des points
des nuages partiels.

Rsultats
variables slectionnes des statistiques simples. Sont affichs, le nombre dobservations, le
Matrice de corrlation : la matrice des corrlations est calcule pour lensemble des variables
quantitatives slectionnes. Le type de corrlation dpend de loption qui a t choisie dans
longlet Options de la bote de dialogue.

Sont ensuite affichs pour chacun des tableaux, les analyses spares. Pour les tableaux de
variables quantitatives, les rsultats affichs sont identiques ceux affichs aprs une ACP.
Pour les tableaux de variables qualitatives, les rsultats affichs sont identiques ceux
affichs aprs une ACM.

A la suite des rsultats des analyses spares sont affichs les rsultats de seconde phase de
lAFM.
Le nombre de valeurs propres affiches est gal au nombre de valeurs propres non nulles.
Vecteurs propres : les vecteurs propres issus de la dcomposition spectrale sont ensuite
affichs. Ces vecteurs prennent en compte les poids des variables utiliss dans lAFM.
Les coordonnes des tableaux sont affiches et utilises pour crer les graphiques des
tableaux. Ces derniers permettent notamment de visualiser la distance entre les tableaux. Les
coordonnes des tableaux supplmentaires sont affiches dans la seconde partie du tableau.
Contributions (%) : les contributions sont une aide linterprtation. Les tableaux influenant
le plus la construction des axes sont deux dont les contributions sont les plus leves.
543
position du tableau en question.
Coefficients Lg : les coefficients Lg de liaison entre les tableaux permettent de mesurer
quel point les tableaux sont lis deux deux. La liaison sera dautant plus forte que lensemble
des variables dun tableau seront lies celle du second.
Coefficients RV : les coefficients RV de liaison entre les tableaux sont une autre mesure de la
liaison entre les tableaux. Les coefficients RV dont la valeur est comprise entre 0 et 1,
correspondent une normalisation des coefficients Lg.

Suivent ensuite les rsultats concernant les variables quantitatives. Comme pour une ACP,
les coordonnes des variables, leurs corrlations avec les facteurs, ainsi que les contributions
et les cosinus carrs sont affichs.

Les coordonnes des axes partiels et notamment leur corrlations permettent de visualiser
dans le nouvel espace le lien entre les facteurs gnrs par les analyses de la premire phase
de lAFM, et ceux de la seconde tape.

Dans les tableaux suivants sont affiches les coordonnes, les contributions et les cosinus des
variables et des observations aprs rotation.

Les rsultats concernant les observations sont ensuite affichs, comme pour une ACP
(coordonnes, contributions en %, et cosinus carrs).

Enfin, les coordonnes des nuages partiels dans lespace rsultant de lAFM sont affiches.
Les nuages partiels correspondent aux projections des observations dans des espaces rduits
aux dimensions de chacun des tableaux. La reprsentation des points des nuages partiels
superpose avec celles des observations compltes permet de visualiser la fois la diversit
de linformation apporte par les diffrents tableaux pour une observation donne, et de
visualiser les distances relatives de deux observations en fonction des diffrents tableaux.

544
Exemple
Un exemple dAnalyse Factorielle Multiple est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-mfaf.htm

Bibliographie
Escofier B. and Pags J. (1984). L'analyse factorielle multiple: une mthode de comparaison
de groupes de variables. In : Sokal R.R., Diday E., Escoufier Y., Lebart L., Pags J. (Eds),
Data Analysis and Informatics III, 41-55. North-Holland, Amsterdam.
Escofier B. and Pags J. (1994). Multiple Factor Analysis (AFMULT package). Computational
Statistics and Data Analysis, 18, 121-140.
Escofier B. and Pags J. (1998). Analyses Factorielles Simples et Multiples : Objectifs,
Mthodes et Interprtation. Dunod, Paris.
Robert P. and Escoufier Y. (1976). An unifying tool for linear multivariate methods. The RV
coefficient. Applied Statistics, 25 (3), 257-265.

545
Analyse d'effets de dose
Utilisez cette fonction pour modliser les effets dune dose sur une variable rponse, en
prenant ventuellement en compte un effet de mortalit naturelle.

Description
Cet outil sappuie sur la rgression logistique (modles Logit, Probit, Log-log complmentaire,
Gompertz) pour modliser limpact de doses de composants chimiques (par exemple un
mdicament, un produit phytosanitaire) sur un phnomne binaire (gurison ou non, mort ou
non).
Plus dinformation sur la rgression logistique est disponible dans la section de laide ddie
ce sujet.

Mortalit naturelle
Cet outil permet de prendre en compte la mortalit naturelle afin de modliser plus
prcisment le phnomne tudi. En effet, si lon considre une exprience ralise sur des
insectes, certains priront en raison de la dose injecte, dautres en raison dun autre
phnomne. Lensemble de ces phnomnes connexes nest pas intressant pour
lexprience concernant les effets de dose, mais il peut tre pris en compte. Si p est la
probabilit issue dun modle de rgression logistique correspondant uniquement leffet de la
dose, et si m est la mortalit naturelle, alors la probabilit observe pour que linsecte
succombe est :
P(obs) = m + (1- m) * p
La formule dAbbott (Finney, 1971) scrit
p = (P(obs) m) / (1 m)
La mortalit naturelle m peut tre entre par lutilisateur parce que connu grce des
expriences pralables, ou dtermine par XLSTAT.

ED 50, ED 90, ED 99
XLSTAT permet de calcul les doses ED 50 (ou dose mdiane), ED 90 et ED 99 qui
correspondent aux doses entranant un effet sur respectivement 50%, 90% et 99% de la
population.
546

Bote de dialogue

calculs.

Onglet Gnral :
Variables dpendantes :
Variable(s) rponse : slectionnez la ou les variables rponse que vous souhaitez modliser.
Si plusieurs variables sont slectionnes, XLSTAT fera les calculs pour chacune des variables
Type de rponse : choisissez le type de variable rponse que vous avez slectionn :
- Variable binaire : si vous slectionnez cette option, vous devez slectionner une
variable contenant exactement deux valeurs distinctes. Si la variable est constitue de
0 et de 1, XLSTAT fera en sorte que les probabilits leves du modle correspondent
la catgorie 1, et que les probabilits faibles correspondent la catgorie 0. Si la
variable comprend deux autres valeurs (par exemple Oui / Non), la premire
547
catgorie rencontre correspondront les faibles probabilits et la seconde les
probabilits leves.
- Somme de variables binaires : si votre variable rponse correspond une somme de
variables binaires, elle doit tre de type numrique et contenir le nombre dvnements
positifs (vnement 1) parmi tous ceux observs. La variable correspondant au nombre
total dvnements observs pour cette observation (vnements 1 et 0 combins) doit
alors tre slectionne dans le champs poids des observations . Ce cas correspond
par exemple une exprience o lon administre une dose D dun mdicament (D est la
variable explicative) 50 patients (50 est la valeur du poids des observations), et o
lon observe que 40 sont guris sous leffet de la dose (40 correspond la valeur de la
variable rponse).

est active.

Modle : choisissez le type de fonction utiliser (voir description).

actif.

548
Poids des observations : ce champ est remplir imprativement si loption somme de
binaires a t choisie. Sinon ce champ nest pas actif. Si un en-tte de colonne a t

Onglet Options :
Mthode de Firth : activez cette option pour utiliser la vraisemblance pnalise de Firth (voir
description).
Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme de Newton-
Raphson. Les calculs sont interrompus ds que le nombre maximal d'itrations est
- Convergence : entrez la valeur seuil dvolution maximale de log vraisemblance dune

Utiliser le logarithme : activez cette option pour utiliser le logarithme des variables
quantitatives dans le modle.
Paramtre de mortalit naturelle : activez cette option pour inclure un paramtre de mortalit
naturelle dans le modle.
- Optimis : choisissez cette option pour que XLSTAT trouve la valeur du paramtre
maximisant la vraisemblance du modle.
- Dfini par lutilisateur : entrez la valeur de la mortalit naturelle. Cette valeur doit tre
comprise entre 0 et 0.9. Valeur par dfaut : 0,1.

Onglet Validation :
549

Onglet Prdiction :

550

Onglet Sorties :
explicatives.
Analyse de type III : activez cette option pour afficher le tableau danalyse de la variable de
type III.
Coefficients du modle : activez cette option pour afficher le tableau des coefficients du
modle. Optionnellement les intervalles de confiance de type profile likelihood peuvent
tre calculs (voir description).


Analyse des probabilits : si une seule variable explicative a t slectionne, activez cette
option pour que XLSTAT calcule la valeur de la variable explicative correspondant divers
niveaux de probabilit.

Onglet Graphiques :
- Prdictions : activez cette option pour afficher la courbe de rgression.
551

Rsultats
XLSTAT propose un nombre important de tableaux et de graphiques afin de faciliter l'analyse
et l'interprtation des rsultats.
explicatives.

Correspondance entre les modalits de la variable rponse et les probabilits : ce
tableau permet de visualiser quelles modalits de la variable dpendante ont t affectes
les probabilits 0 et 1.
Coefficients d'ajustement : dans ce tableau est affiche une srie de statistiques pour le
modle indpendant (correspondant au cas o la combinaison linaire des variables
explicatives se rduit une constante) et pour le modle ajust.
- Observations : le nombre total d'observations prises en compte (somme des poids des
observations) ;
- Somme des poids : le nombre total d'observations prises en compte (somme des poids des
observations multiplis par les poids dans la rgression) ;
- DDL : degrs de libert ;
- -2 Log(Vrais.) : le logarithme de la fonction de vraisemblance associe au modle;
- R (McFadden) : coefficient compris comme le R entre 0 et 1 qui mesure le bon ajustement
du modle. Ce coefficient est gal 1 moins le rapport de la vraisemblance du modle
ajust sur la vraisemblance du modle indpendant.
- R(Cox et Snell) : coefficient compris comme le R entre 0 et 1 qui mesure le bon
ajustement du modle. Ce coefficient est gal 1 moins le rapport de la vraisemblance du
modle ajust sur la vraisemblance du modle indpendant, le rapport tant port
lexposant 2/Sw, o Sw est la somme des poids ;
- R(Nagelkerke) : coefficient compris comme le R entre 0 et 1 qui mesure le bon ajustement
du modle. Ce coefficient est gal au rapport du R de Cox et Snell, divis par 1 moins le la
vraisemblance du modle indpendant porte lexposant 2/Sw ;
552
- AIC : le critre dinformation dAkaike (Akaikes Information Criterion) ;
- SBC : le critre baysien de Schwarz (Schwarzs Bayesian Criterion).

Test de l'hypothse nulle H0 : Y=p0 : lhypothse H0 correspond au modle indpendant qui
donne la probabilit p0 quelques soient les valeurs des variables explicatives ; on cherche
vrifier si le modle ajust est significativement plus performant que ce modle. Trois tests
sont proposs : le test du rapport des vraisemblance (-2 Log(Vrais.)), le test du Score, et le
test test de Wald. Les trois statistiques suivent une loi du Khi dont les degrs de libert sont
indiqus.

Analyse de Type III : ce tableau na dintrt que sil y a plus dune variable explicative. On
test ici le modle ajust contre un test dont on aurait retir la variable de la ligne du tableau en
question. Si la probabilit Pr > LR est infrieur un seul de signification que lon se fixe
(typiquement 0.05), alors la contribution de la variable lajustement du modle est
significative. Sinon, elle peut tre retire du modle.
Paramtres du modle : pour la constante du modle et pour chaque variable sont affichs
lestimation du paramtre, lcart-type correspondant, le Khi de Wald, la p-value
correspondante, ainsi que lintervalle de confiance. Si loption correspondante a t active,
les intervalles profile likelihood sont aussi affichs.
modle.
variable dpendante, la prdiction du modle, les mmes valeurs divises par le poids, les
rsidus standardiss, ainsi quun intervalle de confiance.
Le tableau danalyse des probabilits nest affich que si une seule variable explicative
quantitative a t slectionne. Il permet de visualiser quel niveau de la variable explicative
correspond une probabilit donne.

553
Exemple
Un exemple danalyse deffets de dose est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-dosef.htm

Bibliographie
Abbott W.S. (1925). A method for computing the effectiveness of an insecticide. Jour. Econ.
Entomol. 18 : 265-267.
Finney D.J. (1971). Probit Analysis, 3rd Edition. Cambridge, London and New-York.
Firth D (1993). Bias reduction of maximum likelihood estimates. Biometrika, 80, 27-38.
Furnival G. M. and Wilson R.W. Jr. (1974). Regressions by leaps and bounds.
Heinze G. and Schemper M. (2002). A solution to the problem of separation in logistic
regression.Statistics in Medicine, 21, 2409-2419.
Hosmer D.W. and Lemeshow S. (2000). Applied Logistic Regression, Second Edition. John
Lawless J.F. and Singhal K. (1978). Efficient screening of nonnormal regression Models.
Tallarida R.J. (2000). Drug Synergism & Dose-Effect Data Analysis. CRC/Chapman and Hall,
Boca Raton.
Venzon, D. J. and Moolgavkar S. H. (1988). A method for computing profile likelihood based
confidence intervals. Applied Statistics, 37, 87-94.

554
Rgression logistique 4 paramtres et courbes parallles
Utilisez cet outil pour modliser leffet dune variable quantitative sur une variable rponse
(densit optique, concentration, ect.), en utilisant le modle logistique 4 paramtres, et en
tenant ventuellement compte de contraintes lies lexistence dun chantillon standard.

Description
Le modle logistique 4 paramtres est donn par lquation suivante :
b
c
x
a d
a y
|
.
|
\
|
+
=
1
(1)
o a, b, c, d sont les paramtres du modle, et x est la variable explicative, et y la variable
rponse. Les paramtres a et d sont des paramtres dasymptotes (a tant le minimum et d le
maximum), et b est le paramtre de pente. Le paramtre c correspond labscisse du point de
mi-pente dont lordonne est (a+b)/2. Lorsque a est infrieur d, la courbe descends de d a
et, lorsque a est suprieur d, la courbe monte de a d.
Pour lajustement parallle 4 paramtres, le modle utilis est le suivant :

b
c
x
sp
c
x
st
a d
a y
|
.
|
\
|
+ +
=
2 1
1
(2)
o st vaut 1 si la donne x provient de lchantillon standard, et 0 sinon, et o sp vaut 1 si la
donne x provient de lchantillon tudi, et 0 sinon. Ce modle est dit sous contrainte, car
pour lestimation des paramtres a, b, et d, les valeurs obtenues pour lchantillon standard
sont prises en compte. De la description des paramtres ci-dessus, on comprend que ce
modle gnre deux courbes parallles, dont la seule diffrence est la position, le dcalage
tant donn par (c2-c1). Si c2 est suprieur c1, la courbe correspondant lchantillon
tudi sera dcale droite de la courbe correspondant lchantillon standard, et vice-versa.
XLSTAT permet dajuster :
a) soit le modle (1), un chantillon standard ou un chantillon tudi,
b) soit le modle (2), la fois lchantillon standard et lchantillon tudi (EE).
Si lutilisateur le souhaite, XLSTAT peut tester pour chaque chantillon (standard et
tudi) si des valeurs extrmes perturbent lajustement. Dans le cas (a) le test de Dixon est
appliqu une fois le modle (1) ajust. Si une valeur anormale est dtecte, elle est
supprime, et le modle est recalcul, et ainsi de suite jusqu ce que plus aucune valeur
555
extrme ne soit dtecte. Dans le cas (b), on effectue dabord un test de Dixon avec le modle
sur lchantillon standard, puis sur lchantillon tudi, puis le modle (2) est ajust au
regroupement des deux chantillons sans les observations supprimes.
Dans le cas (b) un test de Fisher est effectu afin de dterminer si les paramtres a, b et d
obtenus avec le modle (1) ne sont pas significativement diffrents pour les deux chantillons
pris sparment.

Bote de dialogue

calculs.

Onglet Gnral :
556

X / Variables explicatives : slectionnez alors la ou les variables quantitatives explicatives
sur la feuille Excel. Les donnes slectionnes doivent tre de type numrique. Si le libell
des variables a t slectionn, veuillez vrifier que loption Libells des variables est
active.

actif.


Sous-chantillons : activez cette option si vous souhaitez distinguer parmi les donnes
slectionnes, un chantillon standard (identifiant 1) dun chantillon tudi (identifiant 0).
Slectionnez alors la colonne des identifiants. Si le libell des variables a t slectionn,

Onglet Options :
Valeurs de dpart : activez cette option pour donner un point de dpart XLSTAT.
Slectionnez alors les cellules correspondant aux valeurs initiales des paramtres. Le nombre
de lignes slectionnes doit correspondre au nombre de paramtres.
Bornes des paramtres : activez cette option pour indiquer XLSTAT une rgion possible
pour lensemble des paramtres du modle choisi. Vous devez alors slectionner une plage
de deux colonnes, celle de gauche correspondant aux bornes infrieures, et celle de droite
aux bornes suprieures. Le nombre de lignes slectionnes doit correspondre au nombre de
paramtres.
Libells des paramtres : activez cette option si vous voulez prciser les noms des
paramtres. Au lieu dafficher les noms gnriques pr1, pr2, etc., pour les paramtres,
XLSTAT affichera les rsultats en utilisant les libells slectionns. Le nombre de lignes
slectionnes doit correspondre au nombre de paramtres.
557

Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme dajustement. Les
par dfaut : 50.
- Convergence : entrez la valeur seuil dvolution maximale de la somme des carrs des
erreurs (SCE) dune itration lautre, qui une fois atteinte permet de considrer que
lalgorithme a converg. Valeur par dfaut : 0,0001.

Test de Dixon : activez cette option pour utiliser le test de Dixon pour supprimer les valeurs
extrmes de lchantillon destimation.
Intervalles de confiance : activez cette option pour entre la taille de lintervalle de confiance
pour le test de Dixon.

Onglet Sorties :

Paramtres du modle : activez cette option pour afficher les valeurs des paramtres du
modle aprs ajustement.
Equation du modle : activez cette option pour afficher lquation du modle.
558

Graphiques :
- Donnes et prdictions : activez cette option pour afficher le graphique des donnes
observes et la courbe de la fonction ajuste.
- Rsidus : activez cette option pour afficher le diagramme en btons des rsidus.

Rsultats
Statistiques simples : le tableau de statistiques descriptives prsente pour toutes les
variables slectionnes des statistiques simples : le nombre dobservations, le nombre de
donnes manquantes, le nombre de donnes non manquantes, la moyenne, et lcart-type
(non biais).
Test de Fisher du paralllisme entre les courbes : le test de Fisher est utilis pour
dterminer si on peut considrer que lchantillon standard et lchantillon tudi ont des
paramtres a, b, d significativement identiques ou non. Si la probabilit associe la valeur F
obtenue est infrieure au seuil de signification que lon se fixe (5% par exemple), alors on peut
considrer que les deux chantillons ont des paramtres a, b, d significativement diffrents.
- le nombre dobservations ;
- le nombre de degrs de libert (DDL) ;

Paramtres du modle : dans ce tableau sont affichs les estimateurs de chacun des
paramtres du modle, ainsi que lcart-type correspondant.
Prdictions et rsidus : ce tableau donne pour chaque observation, la valeur de la variable
dchantillon, les donnes de dpart, la valeur prdite pour le modle, les rsidus. Si des
559
observations ont t supprimes suite au test de Dixon, elles sont affiches dans la seconde
partie du tableau.
Graphiques : sur le premier graphique sont figures en bleu les donnes et la courbe
correspondant lchantillon standard, et en rouge les donnes et la courbe correspondant
lchantillon tudi. Sur le deuxime graphique sont affichs les rsidus centrs rduits en
fonction de la variable explicative, tandis que sur le troisime graphique, ils sont reprsents
en fonction de la variable rponse.

Bibliographie
Dixon W.J. (1953). Processing data for outliers, Biometrics, 9, 74-89.
Tallarida R.J. (2000). Drug Synergism & Dose-Effect Data Analysis. CRC/Chapman & Hall,
Boca Raton.

560
XLSTAT-PLSPM
XLSTAT-PLSPM is a module of XLSTAT that is dedicate to the Partial Least Squares Path
Modeling approach, an innovative method for representing complex relationships between
observed variables and latent variables.

Description
Partial Least Squares Path Modeling (PLS-PM) is a statistical approach for modeling complex
multivariable relationships (structural equation models) among observed and latent variables.
Since a few years, this approach has been enjoying increasing popularity in several sciences
(Esposito Vinzi et al., 2007). Structural Equation Models include a number of statistical
methodologies allowing the estimation of a causal theoretical network of relationships linking
latent complex concepts, each measured by means of a number of observable indicators.
The first presentation of the finalized PLS approach to path models with latent variables has
been published by Wold in 1979 and then the main references on the PLS algorithm are Wold
(1982 and 1985).
Herman Wold opposed LISREL (Jreskog, 1970) "hard modeling" (heavy distribution
assumptions, several hundreds of cases necessary) to PLS "soft modeling" (very few
distribution assumptions, few cases can suffice). These two approaches to Structural Equation
Modeling have been compared in Jreskog and Wold (1982).
From the standpoint of structural equation modeling, PLS-PM is a component-based approach
where the concept of causality is formulated in terms of linear conditional expectation. PLS-PM
seeks for optimal linear predictive relationships rather than for causal mechanisms thus
privileging a prediction-relevance oriented discovery process to the statistical testing of causal
hypotheses. Two very important review papers on PLS approach to Structural Equation
Modeling are Chin (1998, more application oriented) and Tenenhaus et al. (2005, more theory
oriented).
Furthermore, PLS Path Modeling can be used for analyzing multiple tables and it is directly
related to more classical data analysis methods used in this field. In fact, PLS-PM may be also
viewed as a very flexible approach to multi-block (or multiple table) analysis by means of both
the hierarchical PLS path model and the confirmatory PLS path model (Tenenhaus and Hanafi,
2007). This approach clearly shows how the data-driven tradition of multiple table analysis
can be somehow merged in the theory-driven tradition of structural equation modeling so as
to allow running the analysis of multi-block data in light of current knowledge on conceptual
relationships between tables.

The PLS Path Modeling algorithm
561

A PLS Path model is described by two models: (1) a measurement model relating the manifest
variables to their own latent variable and (2) a structural model relating some endogenous
latent variables to other latent variables. The measurement model is also called the outer
model and the structural model the inner model.

1. Manifest variables standardization
There exist four options for the standardization of the manifest variables depending upon three
conditions that eventually hold in the data:
- Condition 1: The scales of the manifest variables are comparable. For instance, in the ECSI
example the item values (between 0 and 100) are comparable. On the other hand, for
instance, weight in tons and speed in km/h would not be comparable.
- Condition 2: The means of the manifest variables are interpretable. For instance, if the
difference between two manifest variables is not interpretable, the location parameters are
meaningless.
- Condition 3: The variances of the manifest variables reflect their importance.
If condition 1 does not hold, then the manifest variables have to be standardized (mean 0 and
variance 1).
If condition 1 holds, it is useful to get the results based on the raw data. But the calculation of
the model parameters depends upon the validity of the other conditions:
- Condition 2 and 3 do not hold: The manifest variables are standardized (mean 0 variance
1) for the parameter estimation phase. Then the manifest variables are rescaled to their
original means and variances for the final expression of the weights and loadings.
- Condition 2 holds, but not condition 3: The manifest variables are not centered, but are
standardized to unitary variance for the parameter estimation phase. Then the manifest
variables are rescaled to their original variances for the final expression of the weights and
loadings (to be defined later).
- Conditions 2 and 3 hold: Use the original variables.

Lohmller (1989) introduced a standardization parameter to select one of these four options:

562

2. The measurement model
A latent variable (LV) is an unobservable variable (or construct) indirectly described by a
block of observable variables x
h
which are called manifest variables (MV) or indicators. There
are three ways to relate the manifest variables to their latent variables, respectively called the
reflective way, the formative one, and the MIMIC (Multiple effect Indicators for Multiple
Causes) way.

2.1. The reflective way
2.1.1. Definition
In this model each manifest variable reflects its latent variable. Each manifest variable is
related to its latent variable by a simple regression:

(1) x
h
= t
h0
+ t
h
+ c
h
,

where has mean m and standard deviation 1. It is a reflective scheme: each manifest
variable x
h
reflects its latent variable . The only hypothesis made on model (1) is called by H.
Wold the predictor specification condition:

(2) E(x
h
| ) = t
h0
+ t
h
.
This hypothesis implied that the residual c
h
has a zero mean and is uncorrelated with the latent
variable .

2.1.2. Check for unidimensionality
In the reflective way the block of manifest variables is unidimensional in the meaning of factor
analysis. On practical data this condition has to be checked. Three main tools are available to
check the unidimensionality of a block: use of principal component analysis of each block of
manifest variables, Cronbach's o and Dillon-Goldstein's .

a) Principal component analysis of a block
A block is essentially unidimensional if the first eigenvalue of the correlation matrix of the block
MVs is larger than 1 and the second one smaller than 1, or at least very far from the first one.
The first principal component can be built in such a way that it is positively correlated with all
563
(or at least a majority of) the MVs. There is a problem with MV negatively correlated with the
first principal component.

b) Cronbach's o
Cronbach's o can be used to check unidimensionality of a block of p variables x
h
when they
are all positively correlated. Cronbach has proposed the following procedure for standardized
variables:

(3)
h h'
h h'
h h'
h h'
cor( , )
p
p cor( , ) p 1
=
=
o =
+
x x
x x
.
The Cronbachs alpha is also defined for original (raw) variables as:

(4)
h h'
h h'
h
h
cov( , )
p
p 1
var
=
o =
| |
|
\ .
x x
x
.
A block is considered as unidimensional when the Cronbach's alpha is larger than 0.7.

c) Dillon-Goldstein's

The sign of the correlation between each MV x
h
and its LV is known by construction of the
item and is supposed here to be positive. In equation (1) this hypothesis means that all the
loadings t
h
are positive. A block is unidimensional if all these loadings are large.
The Goldstein-Dillon's is defined by:
(5)
p
2
h
h 1
p p
2
h h
h 1 h 1
( ) Var( )
( ) Var( ) Var( )
=
= =
t
=
t +

.
Let's now suppose that all the MVs x
h
and the latent variable are standardized. An
approximation of the latent variable is obtained by standardization of the first principal
component t
1
of the block MVs. Then t
h
is estimated by cor(x
h
, t
1
) and, using equation (1),
Var(c
h
) is estimated by 1 cor
2
(x
h
, t
1
). So we get an estimate of the Dillon-Goldstein's :

564
(6)
2
p
h 1
h 1
2
p p
2
h 1 h 1
h 1 h 1
cor( , )
cor( , ) 1 cor ( , )
=
= =
(
(

=
(
( +
(

x t
x t x t
.

A block is considered as unidimensional when the Dillon-Goldstein's is larger than 0.7. This
statistic is considered to be a better indicator of the unidimensionality of a block than the
Cronbach's alpha (Chin, 1998, p.320).

PLS Path Modeling is a mixture of a priori knowledge and data analysis. In the reflective way,
the a priori knowledge concerns the unidimensionality of the block and the signs of the
loadings. The data have to fit this model. If they do not, they can be modified by removing
some manifest variables that are far from the model. Another solution is to change the model
and use the formative way that will now be described.

2.2. The formative way
In the formative way, it is supposed that the latent variable is generated by its own manifest
variables. The latent variable is a linear function of its manifest variables plus a residual term:

(7)
h h
h
= = +
x o .
In the formative model the block of manifest variables can be multidimensional.The predictor
specification condition is supposed to hold as:

(8)
j
1 p h h
h
( | ,..., ) E = =
x x x .
This hypothesis implies that the residual vector o has a zero mean and is uncorrelated with the
MVs x
h
.

2.3. The MIMIC way
The MIMIC way is a mixture of the reflective and formative ways.
The measurement model for a block is the following:

565
(9) x
h
= t
h0
+ t
h
+ c
h
, for h = 1 to p
1

where the latent variable is defined by:

(10)
1
p
h h
h=p 1

+
= = +
x
.
The p
1
first manifest variables follow a reflective way and the (p p
1
) last ones a formative
way. The predictor specification hypotheses still hold and lead to the same consequences as
before on the residuals.

3. The structural model
The causality model leads to linear equations relating the latent variables between them (the
structural or inner model):

(11)
0 j j ji i j
i
= | + | +
.
The predictor specification hypothesis is still applied.
A latent variable, which never appears as a dependent variable, is called an exogenous
variable. Otherwise it is called an endogenous variable.

4. The Estimation Algorithm
4.1. Latent variables Estimation
The latent variables
j
are estimated according to the following procedure.

4.1.1. Outer estimate y
j
of the standardized latent variable (
j
m
j
)
The standardized latent variables (mean = 0 and standard deviation = 1) are estimated as
linear combinations of their centered manifest variables:

(12)
j jh jh jh
[ w ( x )]
y x ,
where the symbol means that the left variable represents the standardized right variable
and the sign shows the sign ambiguity. This ambiguity is solved by choosing the sign
making y
j
positively correlated to a majority of x
jh
.
566
The standardized latent variable is finally written as:

(13)
j jh jh jh
w ( x ) =
y x .
The coefficients
jh
w and
jh
w
~
are both called the outer weights.
The mean m
j
is estimated by:

(14)
j jh jh
m w x =

,
and the latent variable
j
by

(15)
j jh jh j j
w m = = +
x y .
When all manifest variables are observed on the same measurement scale, it is nice to
express (Fornell (1992)) latent variables estimates in the original scale as:

(16)
jh jh *
jh
w

w
j
=

.
Equation (16) is feasible when all outer weights are positive. Finally, most often in real
applications, latent variables estimates are required on a 0-100 scale so as to have a
reference scale to compare individual scores. From the equation (16), for the i-th observed
case, this is easily obtained by the following transformation:
(17)
( )
( )
*
min
0 100
max min
100
ij
ij
x
x x
,
where x
min
and x
max
are, respectively, the minimum and the maximum value of the
measurement scale common to all manifest variables.

4.1.2. Inner estimate z
j
j
m
j
)
The inner estimate z
j
j
m
j
) is defined by:

(18)
j' j
j jj' j'
j' : is connected with
e

z y ,
where the inner weights e
jj
are equal to the signs of the correlations between y
j
and the y
j
's
connected with y
j
. Two latent variables are connected if there exists a link between the two
567
variables: an arrow goes from one variable to the other in the arrow diagram describing the
causality model. This choice of inner weights is called the centroid scheme.

Centroid scheme:
This choice shows a drawback in case the correlation is approximately zero as its sign may
change for very small fluctuations. But it does not seem to be a problem in practical
applications.
In the original algorithm, the inner estimate is the right term of (18) and there is no
standardization. We prefer to standardize because it does not change anything for the final
inner estimate of the latent variables and it simplifies the writing of some equations.
Two other schemes for choosing the inner weights exist: the factorial scheme and the path
weighting (or structural) scheme. These two new schemes are defined as follows:

Factorial scheme:
The inner weights e
ji
are equal to the correlation between y
i
and y
j
. This is an answer to the
drawbacks of the centroid scheme described above.

Path weighting scheme (structural):
The latent variables connected to
j
are divided into two groups: the predecessors of
j
, which
are latent variables explaining
j
, and the followers, which are latent variables explained by
j
.
For a predecessor
j
of the latent variable
j
, the inner weight e
jj
is equal to the regression
coefficient of y
j
in the multiple regression of y
j
on all the y
j
s related to the predecessors of
j
. If
j
is a successor of
j
then the inner weight e
jj
is equal to the correlation between y
j
and y
j
.
These new schemes do not significantly influence the results but are very important for
theoretical reasons. In fact, they allow to relate PLS Path modeling to usual multiple table
analysis methods.

4.2. The PLS algorithm for estimating the weights
4.2.1. Estimation modes for the weights w
jh

There are three classical ways to estimate the weights w
jh
: Mode A, Mode B and Mode C.
Mode A:
568
In mode A the weight w
jh
is the regression coefficient of z
j
in the simple regression of x
jh
on the
inner estimate z
j
:

(19) w
jh
= cov(x
jh
, z
j
),
as z
j
is standardized.

Mode B:
In mode B the vector w
j
of weights w
jh
is the regression coefficient vector in the multiple
regression of z
j
on the manifest centered variables (x
jh
-
jh
x ) related to the same latent
variable
j
:

(20) w
j
= (X
j
'
X
j
)
-1
X
j
'
z
j
,
where X
j
is the matrix with columns defined by the centered manifest variables x
jh
-
jh
x related
to the j-th latent variable
j
.

Mode A is appropriate for a block with a reflective measurement model and Mode B for a
formative one. Mode A is often used for an endogenous latent variable and mode B for an
exogenous one. Modes A and B can be used simultaneously when the measurement model is
the MIMIC one. Mode A is used for the reflective part of the model and Mode B for the
formative part.

In practical situations, mode B is not so easy to use because there is often strong
multicollinearity inside each block. When this is the case, PLS regression may be used instead
of OLS multiple regression. As a matter of fact, it may be noticed that mode A consists in
taking the first component from a PLS regression, while mode B takes all PLS regression
components (and thus coincides with OLS multiple regression). Therefore, running a PLS
regression and retaining a certain number of significant components may be meant as a new
intermediate mode between mode A and mode B.

Mode C:
In mode C the weights are all equal in absolute value and reflect the signs of the correlations
between the manifest variables and their latent variables:

(21) w
jh
= sign(cor(x
jh
, z
j
).
569
These weights are then normalized so that the resulting latent variable has unitary variance.
Mode C actually refers to a formative way of linking manifest variables to their latent variables
and represents a specific case of Mode B whose comprehension is very intuitive to
practitioners.

4.2.2. Estimating the weights
The starting step of the PLS algorithm consists in beginning with an arbitrary vector of weights
w
jh
. These weights are then standardized in order to obtain latent variables with unitary
variance.
A good choice for the initial weight values is to take w
jh
= sign(cor(x
jh
,
h
)) or, more simply, w
jh

= sign(cor(x
jh
,
h
)) for h = 1 and 0 otherwise or they might be the elements of the first
eigenvector from a PCA of each block.
Then the steps for the outer and the inner estimates, depending on the selected mode, are
iterated until convergence (guaranteed only for the two-blocks case, but practically always
encountered in practice even with more than two blocks).
After the last step, final results are yielded for the inner weights
jh
w
~
, the standardized latent
variable
j jh jh jh
w ( ) x =
y x , the estimated mean

j jh jh
m w x =

of the latent
variable
j
, and the final estimate
j jh jh j j
w m = = +
x y of
j
. The latter estimate can be
rescaled according to transformations (16) and (17).
The latent variable estimates are sensitive to the scaling of the manifest variables in Mode A,
but not in mode B. In the latter case, the outer LV estimate is the projection of the inner LV
estimate on the space generated by its manifest variables.

4.3. Estimation of the structural equations
The structural equations (11) are estimated by individual OLS multiple regressions where the
latent variables
j
are replaced by their estimates
j
. As usual, the use of OLS multiple

regressions may be disturbed by the presence of strong multicollinearity between the
estimated latent variables. In such a case, PLS regression may be applied instead.

5. Missing Data Treatment
In XLSTAT-PLSPM, there exists a specific treatment for missing data (Lohmller, 1989):
1. When some cells are missing in the data, means and standard deviations of the manifest
variables are computed on all the available data.
570
2. All the manifest variables are centered.
3. If a unit has missing values on a whole block j, the value of the latent variable estimate y
j
is
missing for this unit.
4. If a unit i has some missing values on a block j (but not all), then the outer estimate y
ji
is
defined by:
jhi
ji jh jhi jh
jh: x exists
y w (x -x ) =

.

That means that each missing data of variable x
jh
is replaced by the mean
jh
x .
5. If a unit i has some missing values on its latent variables, then the inner estimate z
ji
is
defined by:

k j
ki
ji jk ki
k : is connected with
and exists
z e y
y
=

.

That means that each missing data of variable y
k
is replaced by its mean 0.
6. The weights w
jh
are computed using all the available data on the basis of the following
procedures:
- For mode A: The outer weight w
jh
is the regression coefficient of z
j
in the regression of
jh jh
( x ) x on z
j
calculated on the available data.
- For mode B: When there are no missing data, the outer weight vector w
j
is equal to:
w
j
= (X
j
X
j
')
-1
X
j
'z
j
.
The outer weight vector w
j
is also equal to
w
j
= [Var(X
j
)]
-1
Cov(X
j
,z
j
),

where Var(X
j
) is the covariance matrix of X
j
and Cov(X
j
,z
j
) the column vector of the
covariances between the variables x
jh
and z
j
.
When there are missing data, each element of Var(X
j
) and Cov(X
j
,z
j
) is computed using
all the pairwise available data and w
j
is computed using the previous formula.
571
This pairwise deletion procedure shows the drawback of possibly computing
covariances on different sample sizes and/or different statistical units. However, in the
case of few missing values, it seems to be very robust. This justifies why the
blindfolding procedure, that will be presented in the next section, yields very small
standard deviations for parameters.
7. The path coefficients are the regression coefficients in the multiple regressions relating
some latent variables to some others. When there are some missing values, the procedure
described in point 6 (Mode B) is also used to estimate path coefficients.

Nevertheless, missing data con be also treated with other classical procedures, such as mean
imputation, listwise deletion, multiple imputation, the NIPALS algorithm (discussed below) and
so on so forth.

6. Model Validation

A path model can be validated at three levels: (1) the quality of the measurement model, (2)
the quality of the structural model, and (3) each structural regression equation.
6.1. Communality and redundancy
The communality index measures the quality of the measurement model for each block. It is
defined, for block j, as:
(22)
( )
j
p
2
j jh j
h 1 j
1
Communality cor ,
p
=
=

x y .
The average communality is the average of all the
( )
2
jh j
cor , x y :
(23)
J
j j
j 1
1
Communality p Communality
p
=
=

,
where p is total number of manifest variables in all blocks.
The redundancy index measures the quality of the structural model for each endogenous
block. It is defined, for an endogenous block j, as:

(24)
{ } ( )
2
j j j j' j
Redundancy Communality R , 's explaining = y y y
.
The average redundancy for all endogenous blocks can also be computed.
A global criterion of goodness-of-fit (GoF) can be proposed (Amato, Esposito Vinzi and
Tenenhaus 2004) as the geometric mean of the average communality and the average R
2
:
572

(25)
2
GoF Communality R = .

As a matter of fact, differently from LISREL, PLS Path Modeling does not optimize any global
scalar function so that it naturally lacks of an index that can provide the user with a global
validation of the model (as it is instead the case with _
2
and related measures in LISREL). The
GoF represents an operational solution to this problem as it may be meant as an index for
validating the PLS model globally, as looking for a compromise between the performances of
the measurement and the structural model, respectively.

6.2. The Blindfolding approach: cross-validated communality and redundancy
The cv-communality (cv stands for cross-validated) index measures the quality of the
measurement model for each block. It is a kind of cross-validated R-square between the block
MVs and their own latent variable calculated by a blindfolding procedure.
The quality of each structural equation is measured by the cv-redundancy index (i.e. Stone-
Geissers Q
2
). It is a kind of cross-validated R-square between the manifest variables of an
endogenous latent variable and all the manifest variables associated with the latent variables
explaining the endogenous latent variable, using the estimated structural model.
Following Wold (1982, p. 30), the cross-validation test of Stone and Geisser fits soft modeling
like hand in glove. In PLS Path Modeling statistics on each block and on each structural
regression are available.
The significance levels of the regression coefficients can be computed using the usual
Students t statistic or using cross-validation methods like jack-knife or bootstrap.
Here is the description of the blindfolding approach proposed by Herman Wold:.
1. The data matrix is divided into G groups. The value G = 7 is recommended by Herman
Wold. We give in the following table an example on a dataset made by 12 statistical units
and 5 variables. The first group is related to letter a, the second one to letter b, and so on.

573
2. Each group of cells is removed at its turn from the data. So a group of cells appears to be
missing (for example all cells with letter a).
3. A PLS model is run G times by excluding each time one of the groups.
4. One way to evaluate the quality of the model consists in measuring its capacity to predict
manifest variables using other latent variables. Two indices are used: communality and
redundancy.
5. In the communality option, we get prediction for the values of the centered manifest
variables not included in the analysis, using the latent variable estimate, by the following
formula:
( ) ( )
jhi jh jh -i j -i
Pred(x x ) y = ,
where
( ) jh -i
and y
j(-i)
are computed on data where the i-th value of variable x
jh
is missing.
The following terms are computed:
Sum of squares of observations for one MV:
2
jh jhi jh
i
SSO = (x -x )
.
Sum of squared prediction errors for one MV:

( ) ( )
2
jh jhi jh jh -i j -i
i
SSE (x -x - y ) =
.
Sum of squares of observations for Block j:
j jh
h
SSO SSO =
.
Sum of squared prediction errors for Block j:
j jh
h
SSE SSE =
.
CV-Communality measure for Block j:
j 2
j
j
SSE
H 1
SSO
= .
The index
2
j
H is the cross-validated communality index. The mean of the cv-communality
indices can be used to measure the global quality of the measurement model if they are
positive for all blocks.
6. In the redundancy option, we get a prediction for the values of the centered manifest
variables not used in the analysis by using the following formula:
( )
jhi jh j(-i) jh -i
Pred(x -x )= Pred(y ) ,
where
( ) jh -i
is the same as in the previous paragraph and Pred(y
j(-i)
) is the prediction for
the i-th observation of the endogenous latent variable y
j
using the regression model
computed on data where the i-th value of variable x
jh
is missing.
574
The following terms are also computed:
Sum of squared prediction errors for one MV:
( )
' 2
jh jhi jh j(-i) jh -i
i
SSE = ( x -x - Pred( y ))

Sum of squared prediction errors for block j:
' '
j jh
h
SSE = SSE

CV-Redundancy measure for an endogenous block j:
'
j 2
j
j
SSE
F =1-
SSO

The index
2
j
F is the cross-validated redundancy index. The mean of the various cv-
redundancy indices related to the endogenous blocks can be used to measure the global
quality of the structural model if they are positive for all endogenous blocks.

6.3. Resampling: Jackknife and Bootstrap
The significance of PLS-PM parameters, coherently with the distribution-free nature of the
estimation method, is assessed by means of non-parametric procedures. As a matter of fact,
besides the classical blindfolding procedure, Jackknife and Bootstrap resampling options are
available.

6.3.1. Jackknife
The Jackknife procedure builds resamples by deleting a certain number of units from the
original sample (with size N). The default option consists in deleting 1 unit at a time so that
each Jackknife sub-sample is made of N-1 units. Increasing the number of deleted units leads
to a potential loss in robustness of the t-statistic because of a smaller number of sub-samples.
The complete statistical procedure is described in Chin (1998, p.318-320).

6.3.2. Bootstrap
The Bootstrap samples, instead, are built by resampling with replacement from the original
sample. The procedure produces samples consisting of the same number of units as in the
original sample. The number of resamples has to be specified. The default is 100 but a higher
number (such as 200) may lead to more reasonable standard error estimates.
575
We must take into account that, in PLS-PM, latent variables are defined up to the sign. It
means that
j jh jh jh
w ( -x ) =

y x and -y
j
are both equivalent solutions. In order to remove
this indeterminacy, Wold (1985) suggests retaining the solution where the correlations
between the manifest variables x
jh
and the latent variable y
j
show a majority of positive signs.
Referring to the signs of the elements in the first eigenvector obtained on the original sample is
also a way of controlling the sign in the different bootstrap re-samples.

The NIPALS algorithm

The roots of the PLS algorithm are in the NILES (Non linear Iterative LEast Squares
estimation), which later became NIPALS (Non linear Iterative PArtial Least Squares), algorithm
for Principal Component Analysis (Wold, 1966). We now remind the original algorithm of H.
Wold and show how it can be included in the PLS-PM framework. The interests of the NIPALS
algorithm are double as it shows: how PLS handles missing data and how to extend the PLS
approach to more than one dimension.
The original NIPALS algorithm is used to run a PCA in presence of missing data. This original
algorithm can be slightly modified to go into the PLS framework by standardizing the principal
components. Once this is done, the final step of the NIPALS algorithm is exactly the Mode A of
the PLS approach when only one block of data is available. This means that PLS-PM can
actually yield the first-order results of a PCA whenever it is applied to a block of reflective
manifest variables.
The other dimensions are obtained by working on the residuals of X on the previous
standardized principal components.

The PLS approach for two sets of variables

PLS Path Modeling can be also used so as to find the main data analysis methods to relate
two sets of variables. Table 1 shows the complete equivalence between PLS Path Modeling of
two data tables and four classical multivariate analysis methods. In this table, the use of the
deflation operation for the research of higher dimension components is mentioned.

Table 1: Equivalence between the PLS algorithm applied to two blocks of variables X
1
and X
2

and various method
576

The analytical demonstration of the above mentioned results can be found in Tenenhaus et al.,
2005.

The PLS approach for J sets of variables

The various options of PLS Path Modeling (Modes A or B for outer estimation; centroid,
factorial or path weighting schemes for inner estimation) allow to find also many methods for
multiple tables analysis: Generalized Canonical Analysis (the Horst's one (1961) and the
Carroll's one (1968)), Multiple Factor Analysis (Escofier & Pags, 1994), Lohmller's split
principal component analysis (1989), Horst's maximum variance algorithm (1965).

The links between PLS and these methods have been studied on practical examples in Guinot,
Latreille and Tenenhaus (2001) and in Pags and Tenenhaus (2001).

Let us consider a situation where J blocks of variables X
1
,, X
J
are observed on the same set
of statistical units. For estimating these latent variables
j
, Wold (1982) has proposed the
hierarchical model defined as follows:
A new block X is constructed by merging the J blocks X
1
,, X
J
into a super
block.
The super block X is summarized by one latent variable .
A path model connects each exogenous LV
j
to the endogenous LV .

An arrow scheme describing a hierarchical model for three blocks of variables is shown in
Figure 1.
577

Figure 1: A hierarchical model for a PLS analysis of J blocks of variables.
Table 2 summarizes the links between Hierarchical PLS-PM and several multiple table
analysis organized with respect to the choice of the outer estimation mode (A or B) and of the
inner estimation scheme (Centroid, Factorial or Path Weighting).
Table 2: PLS Path modeling and Multiple Table Analysis

In the methods described in Table 2, the higher dimension components are obtained by re-
running the PLS model after deflation of the X-block.
It is also possible to obtain higher dimension orthogonal components on some X
j
-blocks (or on
all of them). The hierarchical PLS model is re-run on the selected deflated X
j
-blocks.
The orthogonality control for higher dimension components is a tremendous advantage of the
PLS approach (see Tenenhaus (2004) for more details and an example of application).
Finally, PLS Path Modeling may be meant as a general framework for the analysis of multiple
tables. It is demonstrated that this approach recovers usual data analysis methods in this
context but it also allows for new methods to be developed when choosing different mixtures of
estimation modes and schemes in the two steps of the algorithm (internal and external
578
estimation of the latent variables) as well as different orthogonality constraints. Therefore, we
can state that PLS Path Modeling provides a very flexible environment for the study of a multi-
block structure of observed variables by means of structural relationships between latent
variables. Such a general and flexible framework also enriches the data analysis methods with
non-parametric validation procedures (such as bootstrap, jackknife and blindfolding) for the
estimated parameters and fit indices for the different blocks that are more classical in a
modeling approach than in data analysis.

Projets
Les projets XLSTAT-PLSPM sont des classeurs Excel particuliers. Lorsque vous crez un
nouveau projet, son nom par dfaut commence par PLSPMBook. Vous pouvez ensuite le
sauvegarder sous un nom de votre choix, mais veillez bien utiliser les boutons Enregistrer
ou Enregistrer sous de la barre doutils XLSTAT-PLSPM pour les enregistrer dans le
rpertoire ddi aux projets PLSPM, en utilisant lextension *.ppm.
Un projet brut XLSTAT-PLSPM contient toujours deux feuilles qui ne doivent pas tre
supprimes :
- D1 : cette feuille est vide, et vos donnes doivent y tre copies/colles.
- PLSPMGraph : cette feuille est vide au dpart, et doit tre utilise pour crer le modle.
Lorsque vous slectionnez cette feuille, la barre doutils Path modeling est affiche. Cette
dernire est rendue invisible lorsque vous quittez cette feuille.
Une fois quun modle a t cr, vous pouvez lancer lestimation des paramtres du modle.
Les rsultats sont ensuite affichs dans des feuilles Excel, la suite de la feuille
PLSPMGraph.
Il est possible denregistrer un modle avant de le modifier, afin de pouvoir ventuellement le
modifier par la suite (voir la section Barre doutils pour plus de dtails).

Options
Pour afficher la bote de dialogue des options, cliquez sur le bouton de la barre doutils
XLSTAT-PLSPM. Utilisez cette bote de dialogue pour definer les options gnrales du
module XLSTAT-PLSPM.

Onglet Gnral :
579
Chemin pour les projets XLSTAT-PLSPM : ce chemin peut tre modifi si et seulement si
vous accs en lecture/criture au chemin en question. Vous pouvez modifier le chemin en
cliquant sur le bouton [] puis en choisissant le dossier adquat. Ce dossier doit tre
accessible en lecture/criture.

Onglet Format :
Utilisez ces options pour dfinir le format des diffrents objets qui sont affichs sur la feuille
PLSPMGraph :
- Variables latentes : vous pouvez choisir la couleur et lpaisseur de la bordure des
ellipses qui correspondent aux variables latentes, de mme que la couleur du fond et, la
couleur et la taille de la police.
- Variables manifestes : vous pouvez choisir la couleur et lpaisseur de la bordure des
rectangles qui correspondent aux variables manifestes, de mme que la couleur du
fond, et, la couleur et la taille de la police.
- Flches (MV-LV): vous pouvez choisir la couleur et lpaisseur des flches reliant les
variables manifestes aux latentes.
- Flches (LV-LV): vous pouvez choisir la couleur et lpaisseur des flches reliant les
variables latentes entre elles.
Remarque 1: pour que les changements soient effectifs vous devez cliquer sur le bouton OK,
puis cliquer sur le bouton de la barre Path modeling .
Remarque 2: ces options ne vous empchent pas de change le format dun ou plusieurs objets
sur la feuille PLSPMGraph. En utilisant la barre de dessin dExcel vous pouvez facilement
modifier la couleur du fond ou des bordures des objets.

Barres doutils
XLSTAT-PLSPM dispose de deux barres doutils, XLSTAT-PLSPM et Path modeling.
La barre doutils XLSTAT-PLSPM peut tre affiche en cliquant sur le bouton de la barre
XLSTAT.

Cliquez sur ce bouton pour ouvrir un nouveau projet PLSPM (voir la section Projets pour
plus de dtails).
580
Cliquez sur ce bouton pour ouvrir un projet PLSPM existant.
Cliquez sur ce bouton pour enregistrer le projet PLSPM actif. Ce bouton nest accessible
que si des modifications ont t effectues dans le projet.
Cliquez sur ce bouton pour enregistrer le projet dans un nouveau dossier ou sous un
autre nom.
Cliquez sur ce bouton pour afficher la bote de dialogue des options XLSTAT-PLSPM.
Cliquez sur ce bouton si vous souhaitez continuer utiliser XLSTAT mais pas XLSTAT-
PLSPM. Ferme XLSTAT-PLSPM permet de librer de la mmoire.

La seconde barre doutils, Path modeling est uniquement visible lorsque vous tes sur la
feuille PLSPMGraph dun projet PLSPM.

Cliquez sur ce bouton pour ajouter des variables latentes. Si vous double-cliquez sur ce
bouton, vous pouvez ensuite ajouter plusieurs variables latentes la suite, sans avoir
recliquer sur ce bouton.
Cliquez sur ce bouton pour ajouter des liens entre les variables latentes. Si vous double-
cliquez sur ce bouton, vous pouvez ensuite ajouter plusieurs liens la suite, sans avoir
recliquer sur ce bouton. Lorsque vous ajouter un lien, slectionnez dabord la variable latente
qui sera lorigine de la flche, puis glissez le curseur de la souris jusqu la variable qui se
trouvera lextrmit finale (la point) de la flche.
Cliquez sur ce bouton pour ne plus afficher les variables manifestes. Si une variable
latente est slectionne lorsque vous cliquez sur ce bouton, seules ses variables manifestes
seront caches.
Cliquez sur ce bouton pour afficher les variables manifestes. une variable latente est
slectionne lorsque vous cliquez sur ce bouton, seules ses variables manifestes seront
affiches.
Cliquez sur ce bouton pour optimiser laffichage.
Cliquez sur ce bouton pour dfinir des groupes. Une fois que des groupes sont dfinis,
une liste avec les libells des groupes est affiche sur la feuille PLSPMGraph. Cette icne
devient alors ; cliquez sur ce bouton pour ne plus tenir compte des groupes.
581
Cliquez sur ce bouton pour sauvegarder le modle actuel dans le projet sous un nom de
votre choix.
Cliquez sur ce bouton pour recharger un modle pralablement sauvegard.
Cliquez sur ce bouton pour supprimer un ou plusieurs modles pralablement
sauvegards.
Dprotg/Protg(1)/Protg(2): La premire option permet lutilisateur de modifier le
modle et la position des objets. La seconde option permet de modifier uniquement la position
des objets. La troisime option ne permet pas lutilisateur de modifier quoi que ce soit.
Cliquez sur ce bouton pour supprimer tous les objets de la feuille PLSPMGraph.
Cliquez sur ce bouton pour afficher les rsultats de lestimation des paramtres du
modle, si elle a dj t effectue. Si les rsultats sont dj affichs, le bouton suivant est
affich: ; cliquez alors ce bouton pour cacher les rsultats.
Cliquez sur ce bouton pour afficher la bote de dialogue des options daffichage des
rsultats sur la feuille PLSPM.
Cliquez sur ce bouton pour dmarrer loptimisation du modle puis pour afficher les
rsultats dans les feuilles de rsultats et sur la feuille PLSPMGraph.

Ajouter des variables manifestes
Une fois quune ou plusieurs variables latentes ont t ajoutes sur la feuille PLSPMGraph en
utilisant la fonction de la barre doutils Path modeling, vous pouvez dfinir les variables
manifestes qui correspondent ces variables. Une variable latente est forcment lie des
variables manifestes variables, mme dans le cas o il sagit dune variable superbloc. Une
variable superbloc est une variable latente constitue elle-mme de plusieurs variables
latentes (les flches vont des variables constitutives la variable latente).
582

Pour un superbloc, lajout des variables manifestes est rendu trs simple par linterface de
XLSTAT.
Pour ajouter des variables manifestes, vous pouvez :
- Double-cliquer sur la variable latente ;
- Cliquer sur le bouton droit de la souris, puis choisir Ajouter des variables manifestes.
Ces actions entranent laffichage dune bote de dialogue dont les options sont les suivantes :

Nom de la variable latente : entrez le nom de la variable latente.
Variables manifestes : slectionnez sur la feuille D1 les donnes qui correspondent aux
variables manifestes. Les variables peuvent tre quantitatives ou qualitatives.
- Quantitatives : activez cette option si vous souhaitez utiliser des variables quantitatives
puis slectionnez ces variables.
- Qualitatives : activez cette option si vous souhaitez utiliser des variables qualitatives
puis slectionnez ces variables.

comprend un en-tte.
Position : choisissez la position o les variables manifestes doivent tre positionnes par
rapport la variable latente.

Signe oppos: activez cette option si vous souhaitez changer le signe de la variable latente.
Cette option est utile si vous observez que linfluence dune variable latente est contraire ce
quelle devrait tre.
583
Mode: choisissez le mode qui dtermine comment la variable latente est construite partir des
variables manifestes. Les options possibles sont Mode A (mode rflectif, les flches sont
diriges des variables latentes vers les variables manifestes), Mode B (mode formatif, les
flches sont diriges des variables manifestes vers les variables latentes), Centrode, PCA,
PLS, et Mode MIMIC (un mlange des Mode A et Mode B). Dans le cas du mode MIMIC,
vous devez slectionner une colonne avec une ligne par variable manifeste (et un en-tte si
loption Libells des variables est active), avec des A pour les variables en Mode A, et
des B pour les variables en mode B. Pour plus de dtails sur les modes, vous pouvez
consulter la section description. Le mode Automatique nest disponible que pour les
superblocs. Il permet de faire en sorte que les modes des variables manifestes des variables
latentes constitutives du superbloc soient rutiliss.
Dflation : choisissez le mode de dflation. La dflation est utilise lorsque le modle est
calcul sur la seconde dimension et les dimensions suivantes.
- Pas de dflation : quelque soit la dimension, les scores de la variable latente sont
constants.
- Externe : Pour les dimensions successives, les rsidus sont calculs partir du modle
externe.
- Interne : Pour les dimensions successives, les rsidus sont calculs partir du modle
interne.
- Interne(W) : Pour les dimensions successives, les rsidus sont calculs partir du
modle interne aprs r-estimation des poids.

Supberbloc : vous ne pouvez activer cette option que si des variables latentes ont dj t
cres, et si des variables manifestes ont t ajoutes pour ces mmes variables. La liste des
variables latentes dont les variables manifestes ont t dfinies est alors ajoute. You Vous
pouvez ensuite dfinir quelles variables latentes sont inclure dans la variable superbloc.
Interaction : vous ne pouvez activer cette option que si des variables latentes ont dj t
cres, et si des variables manifestes ont t ajoutes pour ces mmes variables. Une
variable dinteraction est le produit de deux variables latentes qui ont la mme variable
successeur. La variable dinteraction aura le mme successeur que les variables qui ont servi
la gnrer.

Options pour la rgression PLS dans le modle structurel :
Conditions darrt :
584

Options pour la rgression PLS dans le modle de mesure (actif uniquement si le mode PLS
a t choisi) :
Conditions darrt :

Dfinir des groupes
Si une variable qualitative est disponible et si vous pensez quil pourrait y avoir des diffrences
au niveau des valeurs des paramtres du modle (et non de sa structure) pour les diffrentes
catgories de cette variable, alors vous pouvez lutiliser pour dfinir des groupes.
Pour dfinir des groupes, allez sur la feuille PLSPMGraph, puis cliquez sur licne . Cela
entrane lapparition de la bote de dialogue des Groupes, dont les entres sont :
Groupes: slectionnez sur la feuille D1 les donnes qui correspondent la variable qualitative
qui indique quel groupe chaque observation appartient.
Libell de colonne : activez cette option si la premire ligne de la slection correspond un
en-tte.
Trier alphabtiquement : activez cette option si vous voulez que XLSTAT trie
alphabtiquement les noms des groupes (les modalits de la variable qualitative slectionne).
Si cette option nest pas active, les modalits sont listes selon leur ordre dapparition.
Lorsque que vous cliquez sur OK, une liste est ajoute dans le coin suprieur gauche de la
feuille PLSPMGraph. Une fois que le modle a t calcul, vous pouvez utiliser cette liste pour
afficher les rsultats des diffrents groupes sur la feuille PLSPMGraph. Les rsultats du
modle correspondant aux diffrents groupes sont aussi affichs sur des feuilles spares.
Remarque : si vous souhaitez ne plus tenir compte de la variable de groupe, il vous suffit de
cliquer sur le bouton de la barre doutils Path modeling.

585

Ajuster le modle
Une fois le modle conu sur la feuille PLSPMGraph, et une fois que les variables manifestes
ont t dfinies pour chaque variable latente, vous pouvez cliquer sur le bouton de la
barre Path modeling pour afficher la bote de dialogue de dfinition des options pour
lajustement du modle.

Onglet Gnral :
Traitement des variables manifestes : Choisissez si et comment les variables manifestes
doivent tre transformes.
- Standardises, poids non mis l'chelle : les variables manifestes sont
standardises avant lajustement du modle, et les poids externes correspondants sont
estims.
- Standardises, poids mis l'chelle : les variables manifestes sont standardises
avant lajustement du modle, et les poids externes sont estims pour les variables
brutes.
- Rduites, poids non mis l'chelle : les variables manifestes sont rduites (divises
par leur cart type) avant lajustement du modle, et les poids externes correspondants
sont estims.
- Brutes : les variables manifestes ne sont pas transformes.


actif.

586
contient un libell.
Obs2, ).

Onglet Options :
Estimation interne : choisissez la mthode destimation du modle interne (voir la section
description pour plus de dtails).
- Structurel : les poids internes sont gaux la corrlation entre les variables latentes
lorsque lon estime une variable latente explicative (prdcesseur). Sinon ils sont gaux
aux coefficients de la rgression OLS.
- Factoriel : les poids internes sont gaux la corrlation entre les variables latentes.
- Centrode : les poids internes sont gaux au signe de la corrlation entre les variables.
- PLS : les poids internes sont gaux la corrlation entre les variables latentes lorsque
lon estime une variable latente explicative (prdcesseur). Sinon ils sont gaux aux
coefficients de la rgression PLS.

Rgression: choisissez la mthode de rgression pour lestimation des path coefficients :
- OLS: rgression par les moindres carrs.
- PLS: rgression par les moindres carrs partiels.

Dimensions : entrez le nombre de dimensions jusquauquel le modle doit tre calcul.
Conditions darrt :
100.

587
Intervalles de confiance : activez cette option pour calculer les intervalles de confiance.
Choisissez ensuite la mthode utiliser pour calculer les intervalles :
- Bootstrap : activez cette option pour utiliser la mthode bootstrap. Entrez ensuite le
nombre de rchantillonnages gnrs pour calculer les intervalles de confiance.
- Jackknife: activez cette option pour utiliser la mthode jackknife. Entrez ensuite la taille
des groupes gnrs pour calculer les intervalles de confiance.
Intervalle de confiance (%) : entrez la taille en % des intervalles de confiance.

Qualit du modle :
- Blindfolding: activez cette option pour valuer la qualit du modle en utilisant
lapproche blindfolding (voir la section description pour plus de dtails). Des valeurs
de validation croise seront alors calcules pour la redondance et les communalits.

Utiliser NIPALS: activez cette option pour utiliser lalgorithme NIPALS pour la gestion des
donnes manquantes (voir la section description pour plus de dtails).
Lohmller: activez cette option pour utiliser la procdure de Lohmller pour la gestion des
donnes manquantes : suppression par paires pour calculer les moyennes et les carts-types,
et imputation par la moyenne pour le calcul des scores.

Onglet Sorties :
588
Modle : activez cette option pour afficher les spcifications du modle.
fonction du type doptions choisi dans longlet Gnral .
- Tester la significativit : dans le cas o une corrlation a t choisie dans longle
Gnral de la bote de dialogue, activez cette option pour tester la significativit des
corrlations.
- Test de sphricit de Bartlett : activez cette option pour effectuer le test de sphricit
de Bartlett.

Modle interne : activez cette option pour afficher les rsultats qui correspondent au modle
interne.
Modle externe : activez cette option pour afficher les rsultats qui correspondent au modle
externe.
R et communalits: activez cette option pour afficher les R2 des variables latentes du
modle structurel et les communalits des variables manifestes.
Qualit du modle : activez cette option pour afficher les rsultats de la procdure
blindfolding.
Scores factoriels :
- Standardiss : activez cette option pour calculer et afficher les scores standardiss.
- Utilisant les poids normaliss : activez cette option pour afficher les scores calculs
avec des poids normaliss.
- Standardiss (0-100): activez cette option pour calculer les scores standardiss, et
pour ensuite les transformer et les afficher sur une chelle 0-100.
- Utilisant les poids normaliss (0-100): activez cette option pour calculer les scores
factor scores en utilisant les poids normaliss, puis pour transformer et afficher les
scores sur une chelle 0-100.

589

Options pour les rsultats
De nombreux rsultats peuvent tre affichs sur la feuille PLSPMGraph, une fois que le
modle a t ajust. Pur afficher la bote des options correspondante, cliquez sur licne
de la barre Path modeling.

Variables latentes :
Ces options permettent de dfinir quels rsultats sont affichs sous les variables latentes.
- Moyenne : activez cette option pour afficher la moyenne de la variable latente.
- Moyenne (Bootstrap): activez cette option pour afficher la moyenne de la variable
latente, calcule en utilisant une procdure bootstrap.
- Intervalle de confiance : activez cette option pour afficher lintervalle de confiance
autour de la moyenne.
- R : activez cette option pour afficher le coefficient de dtermination R entre les
variables manifestes et la variable latente.
- R ajust : activez cette option pour afficher le coefficient de dtermination R ajust
entre les variables manifestes et la variable latente.
- R (Boot/Jack): activez cette option pour afficher le coefficient de dtermination R entre
les variables manifestes et la variable latente, calcul en utilisant une procdure
bootstrap ou jackknife.
- R (int. de conf.): activez cette option pour afficher lintervalle de confiance du
coefficient de dtermination R entre les variables manifestes et la variable latente,
calcul en utilisant une procdure bootstrap ou jackknife.
- Communalit : activez cette option pour afficher la communalit entre la variable latente
et les variables manifestes.
- Redondance : activez cette option pour afficher la redondance entre la variable latente
et les variables manifestes.
- rho de D.G.: activez cette option pour afficher le coefficient rho de Dillon-Goldstein.
- alpha de Cronbach: activez cette option pour afficher le alpha de Cronbach.
- Communalit (Blindfolding): activez cette option pour afficher la communalit entre la
variable latente et les variables manifestes, calcule en utilisant la procdure de
blindfolding.
590
- Redondance (Blindfolding): activez cette option pour afficher la redondance entre la
variable latente et les variables manifestes, calcule en utilisant la procdure de
blindfolding.

Flches (Variables latentes) :
Ces options permettent de dfinir quels rsultats sont affichs sur les flches qui relient les
variables latentes.
- Corrlation : activez cette option pour afficher le coefficient de corrlation coefficient
entre les deux variables latentes.
- Contribution : activez cette option pour afficher la contribution des variables latentes au
R.
- Path coefficient : activez cette option pour afficher le coefficient de rgression qui
correspond la rgression de la variable latente qui se trouve la pointe de la flche
(variable dpendante) par les variables latentes qui se trouvent lorigine de la flche
(variable prdcesseur ou explicative).
- Path coefficient (B/J): activez cette option pour afficher le coefficient de rgression qui
correspond la rgression de la variable latente qui se trouve la pointe de la flche
(variable dpendante) par les variables latentes qui se trouvent lorigine de la flche
(variable prdcesseur ou explicative), calcul en utilisant une mthode bootstrap ou
jackknife.
- Ecart-type : activez cette option pour afficher lcart-type correspondant au coefficient
de rgression.
- Intervalle de confiance : activez cette option pour afficher lintervalle de confiance
correspondant au coefficient de rgression.
- Coefficient standardis: activez cette option pour afficher le coefficient de rgression
standardis.
- t de Student: activez cette option pour afficher la valeur du t de Student.
- Pr > |t|: activez cette option pour afficher la p-value qui correspond au t de Student.
- Lpaisseur des flches dpend de : Lpaisseur des flches peut tre lie :
o La p-value associe au t de Student (plus la valeur est faible, plus la flche est
paisse).
o La corrlation (plus son carr est lev, plus les flches sont paisses; une
flche bleue correspond une corrlation ngative, une flche rouge une
corrlation positive).
591
o La contribution (plus la valeur est leve, plus la flche est paisse).

Flches (Variables manifestes) :
Ces options permettent de dfinir quels rsultats sont affichs sur les flches qui relient les
variables manifestes leur variable latente.
- Poids : activez cette option pour afficher le poids.
- Poids (Bootstrap): activez cette option pour afficher le poids calcul avec une mthode
bootstrap.
- Poids normalis: activez cette option pour afficher le poids normalis.
- Ecart-type : activez cette option pour afficher lcart-type du poids.
- Intervalle de confiance: activez cette option pour afficher lntervalle de confiance sur le
poids.
- Corrlation : activez cette option pour afficher le coefficient de corrlation entre la
variable manifeste et la variable latente.
- Corrlation (Boot/Jack) : activez cette option pour afficher le coefficient de corrlation
entre la variable manifeste la variables latente, calcule en utilisant une procdure
bootstrap ou jackknife.
- Corrlation (cart-type) : activez cette option pour afficher lcart-type du coefficient de
corrlation entre la variable manifeste et la variable latente, calcul en utilisant une
procdure bootstrap ou jackknife.
- Corrlation (intervalle de confiance) : activez cette option pour afficher lintervalle de
confiance pour le coefficient de corrlation entre la variable manifeste et la variable
latente, calcul en utilisant une procdure bootstrap ou jackknife.
- Communalit : activez cette option pour afficher la communalit entre la variable latente
et la variable manifeste.
- Redondance: activez cette option pour afficher la redondance entre la variable latente
et la variable manifeste.
- Communalit (Blindfolding): activez cette option pour afficher la communalit entre la
variable latente et la variable manifeste, calcule en utilisant la procdure de
blindfolding.
- Redondance (Blindfolding): activez cette option pour afficher la redondance entre la
variable latente et la variable manifeste, calcule en utilisant la procdure de
blindfolding.
- Lpaisseur des flches dpend de : Lpaisseur des flches peut tre lie :
592
o La corrlation (plus son carr est lev, plus les flches sont paisses; une
flche bleue correspond une corrlation ngative, une flche rouge une
corrlation positive).
o Poids normaliss.

Rsultats
The first results are general results which computation is done prior to fitting the path modeling
model:
Summary statistics: This table displays for all the manifest variables, the number of
observations, the number of missing values, the number of non-missing values, the mean and
the standard deviation.
Model specification (measurement model): This table displays for each latent variable, the
number of manifest variables, the mode, the type (a latent variable which never appears as a
dependent variable is called exogenous).
Model specification (structural model): This square matrix shows on its lower triangular part
if there is an arrow that goes from the column variable to the row variable.
Composite reliability: This table allows to check the dimensionality of the blocks. For each
latent variable, a PCA is run on the covariance or correlation matrix of the manifest variables in
order to determine the dimensionality. The Cronbachs alpha, the Dillon-Goldsteins rho, the
critical eigenvalue (that can be compared to the eigenvalues obtained from the PCA) and the
condition number are displayed to facilitate the determining of the dimensionality.
Variables/Factors correlations (Latent variable X / Dimension Y): These tables display for
each latent variable the correlations between the manifest variables and the factors extracted
from the PCA. When a block is not unidimensional, these correlations allow to identify how the
corresponding manifest variables can be split into unidimensional blocks.

The results that follow are obtained once the path modeling model has been fitted:
Goodness of fit index (Dimension Y): This table displays the goodness of fit index (GoF)
computed using bootstrap or not and its confidence interval for
- Absolute: Value of the GoF index.
- Relative: Value of the relative GoF index obtained by dividing the absolute value by its
maximum value achievable for the analyzed dataset.
- Outer model: Component of the GoF index based on the communalities (performance
of the measurement model).
593
- Inner model: Component of the GoF index based on the R2 of the endogenous latent
variables (performance of the structural model).

Cross-loadings (Monofactorial manifest variables / Dimension Y): This table allows to
check whether a given manifest variable is really monofactorial, i.e. mostly related to its latent
variable or if it is also related to other variables. Ideally, if the model has been well specified, it
should appear as being mostly related to its latent variable.
Outer model (Dimension Y):
- Weights (Dimension Y): Coefficients of each manifest variable in the linear
combination used to estimate the latent variable scores.
- Correlations (Dimension Y): Correlations (standardized loadings) between each
manifest variable and the corresponding latent variable.
Inner model (Dimension Y):
- R (Latent variable X / Dimension Y): Value of the R2 index for the endogenous
variables in the structural equations.
- Path coefficients (Latent variable X / 1): Value of the regression coefficients in the
structural model estimated on the standardized factor scores.
- Impact and contribution of the variables to Latent variable X (Dimension Y): Value
of the path coefficients and the contributions (in percent) of the predecessor latent
variables to the R2 index of the endogenous latent variables.

Model assessment (Dimension Y):
Discriminant validity (Dimension Y): This table allows to check whether each latent variable
is really representing a concept different from the other or if some latent variables are actually
representing the same concept. In this table, the R2 index for any pair of latent variables shall
be smaller than the mean communalities for both variables which indicates that more variance
is shared between each latent variable and its block of manifest variables than with another
latent variable representing a different block of manifest variables.

Scores (Dimension Y):
- Scores / Direct effects (Dimension Y): Value of the impact (path coefficients) of latent
variables on the adjacent endogenous ones.
- Scores / Indirect effects (Dimension Y): Value of the impact of the latent variables on
those endogenous latent variables that can be reached by following the path diagram.
594
- Scores / Total effects (Dimension Y): Sum of the direct and the indirect effects.
- Scores / R (Latent variable X / Dimension Y): Value of the R2 index for the
endogenous variables in the structural equations.
- Scores / Path coefficients (Latent variable X / Dimension Y): Values of the regression
coefficients (path coefficients) in the structural model estimated on the factor scores.
- Mean / Scores (Dimension Y): Mean values of the individual factor scores.
- Summary statistics / Factor scores (Dimension Y): Descriptive statistics of the latent
variable scores computed from the measurement model.
- Factor scores (Dimension Y): Individual latent variable scores estimated as a linear
combination of the corresponding manifest variables.
- Summary statistics / Predicted scores (Dimension Y): Descriptive statistics of the latent
variable scores computed from the structural model.
- Predicted Scores (Dimension Y): Latent variable scores computed as the predicted
values from the structural model equations.

Model assessment / Outer model (Blindfolding): Cross-validated values of the
communalities obtained by means of the blindfolding procedure.
Model assessment / Inner model (Blindfolding): Cross-validated values of the redundancies
obtained by means of the blindfolding procedure.

Exemple
A tutorial on how to use the XLSTAT-PLSPM module is available on the Addinsoft website:
http://www.xlstat.com/demo-plspm.htm

Bibliographie
Amato S., Esposito Vinzi V. and Tenenhaus M. (2004). A global Goodness-of-Fit index for
PLS structural equation modeling. in: Proceedings of the XLII SIS Scientific Meeting, vol.
Contributed Papers, 739-742, CLEUP, Padova, 2004.
595
Carroll J.D. (1968). A generalization of Canonical Correlation Analysis to three or more sets of
variables. Proc. 76th Conv. Am. Psych. Assoc., 227-228.
Chin W.W. (1998). The Partial Least Squares approach for structural equation modeling. In:
G.A. Marcoulides (Ed.), Modern Methods for Business Research, Lawrence Erlbaum
Associates, 295-336.
Escofier B. and Pags J. (1994). Multiple Factor Analysis, (AFMULT Package).
Computational Statistics and Data Analysis, 18, 121-140.
Esposito Vinzi V., Chin W., Henseler J. and Wang H. (2007). Handbook of Partial Least
Squares: Concepts, Methods and Applications, Springer-Verlag.
Fornell C. and Cha J. (1994). Partial Least Squares. In: R.P. Bagozzi (Ed.), Advanced
Methods of Marketing Research, Basil Blackwell, Cambridge, Ma., 52-78.
Guinot C., Latreille J. and Tenenhaus M. (2001). PLS Path Modelling and Multiple Table
Analysis. Application to the cosmetic habits of women in Ile-de-France. Chemometrics and
Intelligent Laboratory Systems, 58, 247-259.
Horst P. (1961). Relations among M sets of variables. Psychometrika, 26, 126-149.
Horst P. (1965). Factor Analysis of data matrices. Holt, Rinehart and Winston, New York.
Jreskog K.G. (1970). A General Method for Analysis of Covariance Structure. Biometrika,
57, 239-251.
Jreskog, K.G. and Wold, H. (1982). The ML and PLS Techniques for Modeling with Latent
Variables: Historical and Comparative Aspects. In: K.G. Jreskog and H. Wold (Eds.), Systems
Under Indirect Observation, Part 1, North-Holland, Amsterdam, 263-270.
Lohmller J.-B. (1989). Latent Variables Path Modeling with Partial Least Squares. Physica-
Verlag, Heildelberg.
Pags J. and Tenenhaus, M. (2001). Multiple Factor Analysis combined with PLS Path
Modelling. Application to the analysis of relationships between physicochemical variables,
sensory profiles and hedonic judgements. Chemometrics and Intelligent Laboratory Systems,
58, 261-273.
Tenenhaus M. (1998). La Rgression PLS. ditions Technip, Paris.
Tenenhaus M. (1999). Lapproche PLS. Revue de Statistique Applique, 47(2), 5-40.
Tenenhaus M., Esposito Vinzi V., Chatelin Y.-M. and Lauro C. (2005). PLS Path Modeling.
Computational Statistics & Data Analysis, 48(1), 159-205.
Tenenhaus M. and Hanafi M. (2007). A bridge between PLS path modeling and multi-block
data analysis. In: Esposito Vinzi V.et al. (Eds.), Handbook of Partial Least Squares: Concepts,
Methods and Applications, Springer-Verlag.
596
Wold H. (1966). Estimation of Principal Components and Related Models by Iterative Least
Squares. In: P.R. Krishnaiah (Ed.), Multivariate Analysis, Academic Press, New York, 391-420.
Wold H. (1973). Non-linear Iterative PArtial Least Squares (NIPALS) modelling. Some current
developments. In: P.R. Krishnaiah (Ed.), Multivariate Analysis III, Academic Press, New York,
383-407.
Wold H. (1975). Soft Modelling by latent variables: the Non-linear Iterative PArtial Least
Squares (NIPALS) Approach. In: J. Gani (Ed.), Perspectives in Probability and Statistics:
Papers, in Honour of M.S. Bartlett on the occasion of his sixty-fifth birthday, Applied Probability
Trust, Academic, London, 117-142.
Wold H. (1979). Model construction and evaluation when theoretical knowledge is scarce: an
example of the use of Partial Least Squres. Cahier 79.06 du Dpartement d'conomtrie,
Facult des Sciences conomiques et Sociales. Genve: Universit De Genve.
Wold H. (1982). Soft Modeling: The basic design and some extensions. In: K.G. Jreskog and
H. Wold (Eds.), Systems under indirect observation, Part 2, North-Holland, Amsterdam, 1-54.
Wold H. (1985). Partial Least Squares. In: S. Kotz and N.L. Johnson (Eds.), Encyclopedia of
Statistical Sciences, John Wiley & Sons, New York, 6, 581-591.

Xlstat Aide

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Xlstat Aide

Transféré par

Droits d'auteur :

Formats disponibles

XLSTAT 2007

Copyright 2007, Addinsoft

| dsigne le vecteur des estimateurs des paramtres |

y x , the estimated mean

. As usual, the use of OLS multiple

Vous aimerez peut-être aussi