Tout Sur Spatial Correlation

Le progiciel R
Analyse multidimensionnelle, analyse spatiale

Versions CMS (IBM), VMS (VAX) et Macintosh
Pierre Legendre / Alain Vaudor
Universit de Montral
Le progiciel R
Analyse multidimensionnelle, analyse spatiale
Versions CMS (IBM), VMS (VAX) et Macintosh
Pierre Legendre et Alain Vaudor

Dpartement de sciences biologiques Universit de Montral C.P. 6128, Succursale A Montral, Qubec Canada H3C 3J7 Courrier lectronique P. Legendre: Legendre @ Ere.UMontreal.CA A. Vaudor: Vaudor @ Ere.UMontreal.CA
Ce manuel a t prpar avec lassistance ditoriale de Chantal Ouimet, Franois-Joseph Lapointe et Gilles Lavoie
Universit de Montral, septembre 1991 Mise jour:
Avertissement
Ces programmes vous sont fournis sans aucune garantie implicite ou explicite de bon fonctionnement. Il s'agit de programmes mis au point dans le cadre de recherches universitaires. Cependant, si vous prouvez des problmes avec l'un ou l'autre des programmes de ce progiciel, nous serons heureux de tenter de vous dpanner (voir section 5, page 6). Les chercheurs peuvent utiliser ces programmes pour les fins de leurs recherches, mais le code-source des programmes demeure la proprit des auteurs de ce manuel.
V ous devez disposer des polices de caractres suivantes pour imprimer ce document: Times, Courier et Symbol. La mise en page a t effectue en fonction dune imprimante laser de type PostScript.
Rfrence de ce manuel: Legendre, P. et A. Vaudor. 1991. Le progiciel R Analyse multidimensionnelle, analyse spatiale. Dpartement de sciences biologiques, Universit de Montral. iv + 144 p.
ii
Table des Matires

Un peu dhistoire Accs aux programmes 1. En interactif, systme CMS (IBM) 2. En interactif, systme VMS (VAX) 3. En lot (Batch), systme CMS (IBM) 4. Version Macintosh 5. Documentation d'un problme Description des programmes AUTOCORRLATIONMacintosh ou AUTOCORCMS/VMS BIOGO CHRONO COCOPA N CONNEXIONSMacintosh CONVERSIONMacintosh ou CONVERTCMS/VMS DISTANCES GOGRAPHIQUESMacintosh ou DISTCMS/VMS E X P NT SCMS EXPORTCMS/VMS GROUPEMENTSMacintosh IMPORTCMS/VMS IMPORT-EXPORTMacintosh INTERLNKCMS/VMS K-MEANSMacintosh ou K ME ANSCMS/VMS LANCECMS/VMS MANTEL PCOORD PRIODOGRAPHEMacintosh ou PERIODCMS/VMS PNCOMPMacintosh REGARDE SIMIL VERNORM Rfrences 8 19 24 31 41 48 50 51 52 53 57 58 60 62 71 76 87 93 100 109 111 126 141 1 2 4 5 6 iv
iii
iv
LE PROGICIEL R
UN PEU DHISTOIRE
Cet ensemble de programmes d'ordinateur a t crit au fil des ans par Alain Vaudor (Analyste de l'Informatique) et Pierre Legendre. Le dveloppement du progiciel dbuta en 1978, l'Universit du Qubec Montral, sur machines PDP-10 et CDC/CYBER. En 1980, le progiciel dmnagea en mme temps que nous l'Universit de Montral, o son dveloppement s'est poursuivi depuis. Des programmes furent d'abord mis au point pour les mthodes gnrales d'analyse de donnes (mesures de similarit et de distance, diffrentes mthodes de groupement, des ordinations, etc., en plus des programmes utilitaires ncessaires); les programmes correspondant des mthodes plus spcifiques, rpondant des questions plus particulires, furent dvelopps ensuite (priodogramme de contingence, groupement chronologique, groupements avec contrainte de contigut spatiale, autocorrlation spatiale, tests de Mantel, Cocopan). Les programmes furent graduellement amliors et devinrent plus conviviaux, grce aux commentaires de gnrations successives d'tudiants diplms et d'autres usagers. De premires versions pour machines IBM furent mises au point, indpendamment, l'University of Waterloo (Ontario) et l'Universit de Sherbrooke (Qubec), pour utilisation en lot seulement. La version conversationnelle IBM a t dveloppe par P. Legendre depuis 1985, dabord sur les ordinateurs du C.N.U.S.C. (Montpellier, France) et du Department of Ecology and Evolution, State University of New York (Stony Brook, U.S.A.), puis sur celui de lcole Polytechnique de Montral. Cette version fut adapte au VAX lUniversit de Montral en 1989. Les programmes devinrent bilingues (franais/anglais) l'occasion de l'implantation Stony Brook. Il aura fallu 13 ans pour complter le dveloppement de ce progiciel et la rdaction de sa documentation; cette priode inclut le temps ncessaire au dveloppement, en notre laboratoire, de plusieurs des mthodes qui y sont mises en oeuvre, ainsi que la rdaction des publication concomitantes. Les programmes eux-mmes sont crits en PASCAL alors que les programmes d'appel sur IBM sont en REXX et en DCL sur VAX. Ils ont t fournis nombre d'tablissements universitaires en Amrique du Nord, en Europe et en Amrique du Sud. Les versions disponibles en ce moment sont: ________________________________________________________________________________ Type d'ordinateur Conversation Systme Programmes avec l'usager d'exploitation d'appel ________________________________________________________________________________ IBM (grands ordinateurs) Franais ou anglais VM/CMS Fichiers EXEC (REXX) V AX Franais ou anglais V AX/VMS Fichiers DCL Apple Macintosh Franais ou anglais Cliquez sur l'icne! ________________________________________________________________________________ On peut se procurer ces programmes contre 25 $ (Can., US ou Aust.), ce qui couvre le prix de la disquette et dune copie de la documentation ainsi que les frais de poste. Prcisez la version dsire; pour les versions CMS et VMS, indiquez si vous dsirez recevoir une disquette devant tre relue par un Macintosh ou par un micro-ordinateur oprant sous MS/DOS (si vous prfrez des disquettes de 5.25 pouces, prcisez-le). Une copie de la documentation accompagnera tout envoi; spcifiez la langue dsire (franais ou anglais). Des programmes individuels pourront tre expdis par courrier lectronique. La version Macintosh est fournie dj compile, alors que les versions pour grands ordinateurs sont fournies sous la forme de fichiers-source, ce qui permet aux usagers de changer la taille des matrices pouvant tre traites par les programmes, ainsi que la langue de la conversation; ceci implique cependant que les usagers doivent compiler eux-mmes les programmes avant de pouvoir les utiliser (compilateur PASCALVS ou VSPASCAL sur IBM; compilateur PASCAL sur VAX). Le nom du progiciel, "R", provient de nos travaux sur machine PDP-10 en 1978. Sur ce type de machine, "R" (pour Run) est la commande de dmarrage d'un programme. Sur les machines Control Data, "R" tait un grand fichier de commande en langage CCL, partir duquel l'usager pouvait mettre en marche n'importe quel programme du progiciel; cette faon de faire simulait la faon de procder sur machine PDP. Le nom de ce fichier s'est impos pour devenir le nom du progiciel.
LE PROGICIEL R
ACCES AUX PROGRAMMES

1. En interactif, systme CMS (IBM) Pour utiliser les programmes de ce progiciel partir de sa propre machine virtuelle, l'usager doit d'abord s'attacher au minidisque contenant les fichiers EXEC et les programmes constituant "R", moins quil ne travaille directement sur la machine virtuelle contenant tous ces fichiers. Inscrire ici les commandes ncessaires sur votre machine:
Les commandes EXEC disponibles sont les suivantes. Chacune provoque l'excution du programme correspondant. * * * * * * * * * AUTOCOR BIOGEO CHRONO COCOPA N CONVERT DIST EXPNTS EXPORT IMPORT * * * * * * * * * INTERLNK KMEANS LANCE MANTEL PCOORD PERIOD REGARDE SIMIL VERNORM
Ces commandes mettent en route les programmes suivants: * AUTOCOR: Autocorrlation spatiale unidimensionnelle (coefficients I de Moran et c de Geary). Ce programme permet galement de calculer une liste de liens selon diffrents algorithmes, utilise par les programmes Biogeo, KMeans (lorsqu'il est employ avec contrainte) et Cocopan. * BIOGEO: Groupement avec contrainte de contigut spatiale. Mthode: liens intermdiaires. * CHRONO: Groupement chronologique (avec contrainte de contigut temporelle, ou spatiale en une seule dimension). * COCOPA N: Analyse de variance en prsence d'autocorrlation spatiale. * CONVERT: Convertit les S imilarits en Distances, ou les Distances en S imilarits. * DIST: Calcul des distances en suivant la courbure de la terre, partir de longitudes et de latitudes. * EXPNTS: Convertit une matrice binaire de type SIMIL en une matrice binaire de type NT-SYS (Numerical Taxonomy and Multivariate Analysis System de F. James Rohlf). * EXPORT: Convertit une matrice binaire de type SIMIL en une matrice ASCII carre. * IMPORT: Convertit une matrice ASCII carre en une matrice binaire de type SIMIL. * INTERLNK: Groupement liens intermdiaires (algorithme de liaison proportionnelle). * K-MEANS: Groupement selon la mthode K-Means (variance minimum), avec ou sans contrainte de contigut spatiale. * LANCE: Groupement selon l'algorithme gnral de Lance & Williams, incluant Ward. * MANTEL: test de Mantel, tests partiels de Mantel, corrlogramme multidimensionnel. * PCOORD: Analyse en coordonnes principales. * PERIOD: Calcul du priodogramme de contingence. * REGARDE: pour regarder ou imprimer un fichier binaire produit par SIMIL. * SIMIL: 50 mesures de ressemblance. Les coefficients sont calcules uniquement entre les LIGNES d'un fichier de donnes. Pour les coefficients en mode Q, les lignes de la matrice de donnes doivent correspondre aux objets; en mode R, les lignes doivent correspondre aux descripteurs. * VERNORM: Vrification et normalisation des colonnes (variables) d'un fichier de donnes.
LE PROGICIEL R
Certains programmes requirent plus de mmoire que la quantit attribue par dfaut aux usagers. Ce problme peut aussi surgir si on a augment les dimensions d'un programme pour traiter des fichiers de donnes particulirement grands. L'usager doit alors recourir a la commande DEF STOR pour avoir accs de l'espace-mmoire supplmentaire. Par ailleurs, lors de l'excution des programmes conversationnels, le texte affich par les programmes de mme que les rponses de l'usager aux questions apparaissent normalement uniquement l'cran. Enfin, les programmes CHRONO, MANTEL et PERIOD par exemple ne prsentent qu' l'cran le rsultat de leurs calculs. Si on dsire conserver cet ensemble de questions, de rponses et de rsultats dans un fichier, en vue de le consulter ou de le faire ventuellement imprimer, il faut donner la commande suivante avant de dmarrer l'excution du programme:
CP SPOOL CONS START TO *
Cette commande doit tre excute en dehors de tout FILELIST. De nouveau, on peut prfrer inscrire l'avance cette commande dans un fichier EXEC (appel par exemple le fichier RETIENS EXEC). Aprs avoir fait excuter un ou plusieurs programmes, et de nouveau en dehors de tout FILELIST, on crit:
CLOSE CONS NAME MEMOIRE CONSOLE CP SPOOL CONS STOP
(ces commandes peuvent se trouver dans un fichier EXEC). Le fichier contenant les interactions, auquel on donne par exemple le nom MEMOIRE CONSOLE comme ci-dessus, se retrouve dans le "Reader list", auquel on accde par la commande RDRL. On peut videmment diter ce fichier pour lui enlever des sections inutiles, avant de le faire imprimer. 2. En interactif, systme VMS (VA X ) Sur machine VAX, les programmes sont appels par des fichiers de commandes DCL quivalents aux EXEC de l'IBM: VERNORM.COM, SIMIL.COM, etc. L'usager possdant une copie du progiciel "R" sur son propre compte peut donc appeler directement les programmes en tapant le signe @ suivi du nom du programme dsir; par exemple: @VERNORM, @SIMIL, etc. Une deuxime possibilit consiste activer le fichier de commande R.COM en tapant @R. Ce fichier donne les noms et adresses des auteurs du progiciel et numre les programmes disponibles dans le progiciel "R". Son excution permet ensuite l'usager d'appeler les programmes sans le symbole @; par exemple: VERNORM, SIMIL, etc. On peut installer le progiciel de faon ce qu'il soit accessible aux autres usagers du VAX. Le "dpositaire" du progiciel devra modifier tous les fichiers de commandes (y compris R.COM) en ajoutant son adresse-machine partout o un programme ou un autre fichier de commande est appel (par RUN ou par @). Par exemple:
@VERNORM RUN SIMIL
peut devenir peut devenir
@DUA1:[Tartempion]VERNORM @DUA1:[Tartempion]SIMIL
Il demandera chaque usager d'ajouter dans son fichier LOGIN.COM une instruction du type:
$ R:=="@DUA1:[Tartempion]R.COM"
LE PROGICIEL R
Prparation des donnes

Fichier 1 (ASCII)
Version CMS/VMS
Sries temporelles: analyse priodique PERIOD
- priodogramme de contingence (variables nominales)
VERNORM
- transposition - normalisation - transformations - division en classes - histogrammes - tests de normalit - rcriture du fichier
Programmes utilitaires
- regarder ou imprimer une mat. bin. de type SIMIL
Fichier 2 (ASCII)
REGARDE EXPNTS
DIST
- distances suivant la courbure de la terre
SIMIL
- calcul de similarits, distances, ou coeff. en mode R entre les lignes du fichier 1 ou 2
- convertit mat. type SIMIL: en mat. bin. type NT-SYS
EXPORT
- transforme une matrice de type SIMIL en mat. carre
Fichier 4 (ASCII) - matrice de similarits/ distances/corrlations
Fichier 3 (binaire) - Matrice de ressemblance Probab (binaire) - Matrice de probabilits
IMPORT
- convertit mat. carre en mat. binaire de type SIMIL
AUTOCOR
- diffrentes mthodes de connexion gogr. Fichier 5 (ASCII) - liste de liens
CONVERT
- convertit une matrice S en D ou vice-versa
Analyse de donnes sans contrainte INTERLNK

- groupements liens (liaison proportionnelle)
Groupement sous contrainte CHRONO

- contrainte en 1 dimension (temps ou transect spatial)
Analyse spatiale MANTEL

- test de Mantel, 2 matr. - tests de Mantel partiels - corrlogr. de Mantel
LANCE
- Lance & Williams, Ward - analyse en coordonnes principales
BIOGEO
- contrainte en deux dimensions ou plus (algorithme: liaison proportionnelle)
AUTOCOR
(mme programme que l'utilitaire ci-dessus) - corrlogrammes spatiaux (I de Moran, c de Geary)
PCOORD
K-MEANS K-MEANS
- groupement "k-means" - contrainte en deux dimensions ou plus (algorithme: "k-means")
COCOPAN
- analyse de variance pour donnes rgionalises
LE PROGICIEL R
Aprs avoir valid son LOGIN de commandes, le nouvel usager n'aura plus qu' taper
R
ce qui fera apparatre le message d'entre. Ds lors, pour la session VAX en cours, chaque programme pourra tre appel simplement par son nom. 3. En lot (Batch), systme CMS (IBM) Pour l'excution en lot, les noms des fichiers de donnes et de rsultats sont spcifis dans des fichiers EXEC. Les rponses aux questions poses par le programme, aprs le message informatif "EXECUTION BEGINS ...", doivent se trouver dans un fichier de rponses dont le nom sera plac dans le fichier EXEC. Quatre programmes demandent parfois d'tre accessibles en lot lorsqu'on dsire traiter des fichiers de grande taille; il s'agit de SIMIL, MANTEL, AUTOCOR et PCOORD. Les fichiers EXEC correspondant (SIMILOT, MANTELOT, AUTOLOT, PCOORLOT) peuvent se trouver sur la machine PROGICIEL-R o rside le progiciel. Pour une excution en lot, il est ncessaire de copier l'EXEC dsir de la machine PROGICIEL-R vers la vtre et d'y apporter les adaptations ncessaires. Un programme se lance en lot par la commande habituelle; par exemple:
SUBMIT SIMILOT (CPU ...
Exemple: fichier SIMILOT EXEC /* Ces lignes sont des commentaires */

/* Fichier de lancement du programme SIMIL en lot. */ GLOBAL TXTLIB VSPASCAL FI OUTPUT PRINTER /* Nom du fichier contenant les rponses aux questions: */ FI INPUT DISK reponses simil a /* Nom du fichier de donnees: */ FI ENTREEC DISK fichier donnees a /* Nom du fichier contenant la matrice de ressemblance calculee par SIMIL: */ FI SORTIE DISK fichier binaire a /* Nom du fichier contenant les matrices de similarites partielles: */ FI PART DISK fichier partiel a /* Nom du fichier contenant la matrice des probabilites, sil y a lieu: */ FI PROBAB DISK fichier probab a /* La ligne suivante lance la version redimensionnee du programme SIMIL: */ "LOAD SIMILOT (START" /* Changer si ncessaire le nom de la machine do mane cette passe en LOT: */ "SENDFILE fichier binaire a TO PROGICIELR" "SENDFILE fichier partiel a TO PROGICIELR" "SENDFILE fichier probab a TO PROGICIELR"
Les noms des diffrents fichiers doivent tre adapts vos donnes. Le fichier de rponses ne doit contenir que les rponses aux questions poses par les programmes pour cette passe prcise. Exemple de fichier de rponses aux questions du programme SIMIL:
Un titre de votre choix. 380 [nombre de lignes ou de 109 [nombre de colonnes]
blocs de lignes]
LE PROGICIEL R
N S01 5
[il ny a pas de noms dobjets en col. 1-10] [code dsignant le coefficient dsir] [linformation sera code 1 partir de la valeur 5]
Une faon simple d'obtenir la liste des questions est de lancer l'excution de manire interactive sur un fichier bidon ou sur une partie du fichier rel. 4. Version Macintosh Dans la version Macintosh, les programmes sont essentiellement les mmes que dans les versions CMS et VMS. Dans quelques cas, des rarrangements ont t raliss qui permettent de tirer meilleur partie de linterface-usager du Macintosh. Les programmes disponibles sont les suivants: * AUTOCORRLATION: Autocorrlation spatiale unidimensionnelle (coefficients I de Moran et c de Geary). * BIOGO: Groupement avec contrainte de contigut spatiale. Mthode: liens intermdiaires. * CHRONO: Groupement chronologique (avec contrainte de contigut temporelle, ou spatiale en une seule dimension). * COCOPA N: Analyse de variance en prsence d'autocorrlation spatiale. * CONNEXIONS: Calcule une liste de liens selon diffrents algorithmes. Cette liste est utilise par les programmes Biogo, K-Means (employ avec contrainte), Cocopan et Autocorrlation. * CONVERSION: Convertit les S imilarits en Distances, ou les Distances en S imilarits (quivalent de CONVERT des versions CMS et VMS). * DISTANCES GOGRAPHIQUES: Calcul des distances en suivant la courbure de la terre, partir de longitudes et de latitudes. * GROUPEMENTS: Liens intermdiaires, Lance & Williams, Ward (remplace LANCE et INTERLNK des versions CMS et VMS). * IMPORT-EXPORT: Pour importer des matrices de ressemblance et les transformer en format binaire de type SIMIL, ou pour exporter des matrices produites par SIMIL vers d'autres programmes. Remplace IMPORT et EXPORT des versions pour grands ordinateurs. * K-MEANS: Groupement selon la mthode K-Means (variance minimum), avec ou sans contrainte de contigut spatiale. * MANTEL: test de Mantel, tests partiels de Mantel, corrlogramme multidimensionnel. * PCOORD: Analyse en coordonnes principales. * PRIODOGRAPHE: Calcul du priodogramme de contingence. * PNCOMP: Analyse en composantes principales. * REGARDE: pour regarder ou imprimer un fichier binaire produit par SIMIL. * SIMIL: 50 mesures de ressemblance. Les coefficients sont calculs uniquement entre les LIGNES d'un fichier de donnes. Pour les coefficients en mode Q, les lignes de la matrice de donnes doivent correspondre aux objets; en mode R, les lignes doivent correspondre aux descripteurs. * VERNORM: Vrification et normalisation des colonnes (variables) d'un fichier de donnes. Pour l'utilisation courante, il est prfrable de transfrer les programmes sur disque rigide, ou encore de travailler avec deux disquettes; assurez-vous que votre environnement de travail comprend un SYSTEM FILE, une icne correspondant votre type d'imprimante, ainsi qu'un diteur de programmation (voir la raison plus bas). Si vous dsirez utiliser l'imprimante (par exemple, pour obtenir les rsultats des groupements), assurez-vous que la disquette o se trouve le systme contient au moins de 30 50K d'espace libre, ce qui permettra au systme de crer ses fichiers temporaires lors de l'impression.
LE PROGICIEL R
Les fichiers de donnes doivent tre des matrices rectangulaires de nombres entiers ou rels, du type "texte seulement" (code ASCII). On peut les extraire en "texte seulement" de chiffriers ou de programmes de traitement de texte, ou mieux encore, on peut les fabriquer l'aide d'un diteur de programmation, tel que celui fourni sur la disquette. Les fichiers de donnes transfrs par MODEM partir de grands ordinateurs sont habituellement de type ASCII. Pour slectionner le fichier d'entre d'un programme, il suffit de cocher "OUVRIR" aprs avoir noirci le nom du fichier dsir. Ne sont prsents que les fichiers de la disquette qui sont d'un type appropri pour le programme en question: fichiers "texte seulement" pour l'entre de VERNORM, SIMIL, PRIODOGRAPHE et IMPORT-EXPORT (selon l'option); fichiers binaires de type "SIMIL" pour IMPORT-EXPORT (selon l'option) et pour la plupart des autres programmes. Fichiers de sortie: pour les fichiers de sortie de SIMIL, on change le nom propos et on coche "ENREGISTRER". Pour les programmes d'analyse de donnes, les sorties se font normalement sur l'imprimante. Si on est d'accord, on coche la case "ENREGISTRER"; sinon, il suffit de changer le mot "imprimante" pour un nom de fichier de son choix et de cocher la case "ENREGISTRER". Ce fichier, de type ASCII, pourra tre relu l'aide d'un diteur de programmation. Lorsqu'on doit fournir des nombres en rponse aux questions du programme, il faut se rappeler que les programmes sont crits en PASCAL; il faut donc crire " 0.5 " et non pas " .5 " , par exemple. Il en est de mme des fichiers de donnes. Cette recommandation est galement valable pour les versions CMS et VMS. Dans la version Macintosh, les programmes numrots 3 et plus sont librs de cette contrainte et peuvent lire des donnes du type .2, -.57, +0.1, -0., 5E+2, +1.0e-8, etc. 5. Documentation d'un problme Ces programmes vous sont fournis sans aucune garantie implicite ou explicite de bon fonctionnement. Il s'agit de programmes mis au point dans le cadre de recherches universitaires. Cependant, si vous prouviez des problmes avec l'un ou l'autre des programmes de ce progiciel, nous serons heureux de tenter de vous dpanner et, du mme coup, de rgler ce problme pour l'ensemble des usagers de "R". Pour cela, il importe de nous fournir un maximum d'informations, et en particulier: - La version du programme que vous utilisez (voir la ligne Version dans la fentre Info); date du programme (galement dans la fentre Info) ou date laquelle vous l'avez reu. - Les fichier(s) d'entre; dans bien des cas, les problmes qui nous sont soumis concernent simplement des erreurs de structure ou de contenu de ces fichiers. Sur Macintosh, les fichiers binaires de type SIMIL peuvent tre compacts (par BINHEX ou STUFFIT) puis transmis par courrier lectronique. Sur les grands ordinateurs IBM, les fichiers binaires de type SIMIL peuvent tre transmis directement par courrier lectronique. - Les fichier(s) de sortie, incluant les messages que peuvent contenir ces fichiers. - Tout autre message reu l'cran. Veuillez soumettre ces informations Alain Vaudor par courrier lectronique, l'adresse en couverture, ou dfaut, par courrier rgulier (papier ou disquette). Si vous installez ces programmes sur des machines diffrentes de celles sur lesquels ils ont t tests, il vous sera ncessaire de vrifier en dtail le bon fonctionnement des programmes ainsi que la justesse des rsultats. Il existe des diffrences de dialecte entre compilateurs PASCAL; de plus, les diffrences de longueur des mots-machine, ainsi que dans les valeurs minimum et maximum que peuvent prendre les nombres rels sur diffrentes machines, sont des sources potentielles de problmes.
LE PROGICIEL R
Prparation des donnes

Fichier 1 (ASCII)
Version Macintosh
Sries temporelles: analyse priodique PRIODOGRAPHE
- priodogramme de contingence (variables nominales)
VERNORM
- transposition - normalisation - transformations - division en classes - histogrammes - tests de normalit - rcriture du fichier
Programmes utilitaires
Fichier 2 (ASCII)
REGARDE
- regarder ou imprimer le contenu d'une matrice binaire de type SIMIL
DISTANCES GOGRAPHIQUES
- distances suivant la courbure de la terre Fichier 4 (ASCII) - matrice de similarits/ distances/corrlations
SIMIL
- calcul de similarits, distances, ou coeff. en mode R entre les lignes du fichier 1 ou 2
IMPORT-EXPORT
- convertit mat. carre en mat. binaire de type SIMIL - transforme une matrice de type SIMIL en mat. carre
Fichier 3 (binaire) - Matrice de ressemblance Probab (binaire) - Matrice de probabilits
CONNEXIONS
- diffrentes mthodes de connexion gogr. Fichier 5 (ASCII) - liste de liens
CONVERSION
- convertit une matrice S en D ou vice-versa
Analyse de donnes sans contrainte GROUPEMENTS

- groupements liens - Lance & Williams, Ward - analyse en coordonnes principales
Groupement sous contrainte CHRONO

- contrainte en 1 dimension (temps ou transect spatial)
Analyse spatiale MANTEL

- test de Mantel, 2 matr. - tests de Mantel partiels - corrlogr. de Mantel
PCOORD
BIOGO
- contrainte en deux dimensions ou plus (algorithme: liaison proportionnelle)
AUTOCORRLATION
- corrlogrammes spatiaux (I de Moran, c de Geary)
PNCOMP
- analyse en composantes principales
K-MEANS
- contrainte en deux dimensions ou plus (algorithme: "k-means")
COCOPAN
- analyse de variance pour donnes rgionalises
K-MEANS
- groupement "k-means"
LE PROGICIEL R
DESCRIPTION DES PROGRAMMES AUTOCORRLATIONMacintosh ou AUTOCORCMS/VMS

Que fait AUTOCOR ? Le programme AUTOCOR analyse l'autocorrlation spatiale dune variable selon diffrents schmas de connexions et de distances entre les points. Cette mthode est strictement univariable; voir le programme MANTEL pour l'quivalent multivariable. L'autocorrlation est mesure par les indices I de Moran et c de Geary, sil sagit de donnes quantitatives. Si les donnes sont ordinales ou nominales, les S.N.D. (standard normal deviates) sont calculs pour chaque classe de distance. Chaque valeur est accompagne de la probabilit que celle-ci ne soit pas significativement diffrente de zro (test unilatral). Linterprtation des corrlogrammes est discute par Legendre & Fortin (1989). En version CMS ou VMS, ce mme programme peut tre employ pour produire une liste de paires d'objets (points) voisins dans une grille rgulire (selon diffrentes stratgie de connexion), une triangulation de Delaunay ou un graphe de Gabriel. Ce fichier LIENS pourra servir par la suite de contrainte aux groupements raliss par les programmes BIOGEO et KMEANS, ou en conjonction avec tout autre programme exigeant une liste de paires d'objets voisins, tel COCOPAN. Dans la version Macintosh, la fonction de fabrication du fichier de LIENS a t spare et se trouve dans le programme CONNEXIONS. Enfin, ce programme peut aussi produire un fichier contenant une matrice triangulaire suprieure de classes de distance entre les objets. Ce fichier, appel CLASSEF par dfaut, est requis par le programme MANTEL pour calculer un corrlogramme multidimensionnel. Fichiers d'entre et de sortie Les questions poses par le programme propos des fichiers d'entre et de sortie sont nombreuses et refltent la multiplicit des options offertes. Lisez-les attentivement avant d'y rpondre. Le programme requiert qu'on lui fournisse des informations quant (a) la valeur que prend la variable en chaque point et (b) la position relative des points. Il existe cinq types de fichiers d'entre pour les versions VMS et CMS. Pour la version Macintosh, le fichier de donnes de type (2) n'est pas permis, car la fonction de fabrication des schmas de connexion et l'criture du fichier de liens ont t transfres au nouveau programme CONNEXIONS. (1) Liste des valeurs (Z) Ce fichier d'entre ne contient que les valeurs de la variable (appele ici Z); il sagit de nombre rels, ou encore dentiers POSITIFS dans le cas dune variable nominale. Dans ce fichier, on peut crire les valeurs l'une la suite de l'autre, spares par un ou plusieurs espaces, suivant l'ordre des points, mais sans noms d'objets ou autres indicateurs; le programme assumera que le premier objet de la liste porte le numro 1. La liste scrit de gauche droite, en lignes successives, comme on lit une page de texte. Si on le dsire, on peut n'inscrire qu'une seule valeur par ligne. Ce fichier de valeurs est le seul type quadmet la version Macintosh; sa longueur est limite 16000 observations. Dans les versions CMS et VMS, on nemploie ce fichier que dans le cas dune grille rgulire de points. Le schma de connexions sera alors choisi par analogie avec le jeu d'checs (voir Legendre & Legendre, 1984a, Tome 2, p. 257-259): mouvement de la tour (liens horizontaux et verticaux), du fou (diagonaux) ou de la reine (combinaison du fou et de la tour). (2) Liste des coordonnes (X, Y) et des valeurs (Z)
En versions CMS et VMS, lorsque les points ne forment pas une grille rgulire, les coordonnes des points sont fournies dans le mme fichier que les valeurs de la variable. Chaque
LE PROGICIEL R
ligne de ce fichier doit donc contenir trois informations, comme suit: Coordonne en X Coordonne en Y Valeur de la variable
Les coordonnes sont crites sous la forme de nombres entiers ou rels (avec dcimales) mais pas sous la forme de degrs-minutes-secondes. Elles sont lues en format libre; il n'est donc pas ncessaire de les disposer dans des colonnes prcises. Comme pour les autres programmes CMS et VMS de ce progiciel, il faut crire par exemple 0.376 et non pas .376. Voir p. 6 pour la version Macintosh. (3) Matrice de distances DISTANCES GOGR. Coord. XY ou autres donnes Matrice de similarits
SIMIL
Fich. ASCII de distances
IMPORTEXPORT
Matrice bin. de distances de type SIMIL
CONVERSION
Les positions relatives des objets peuvent tre dcrites sous la forme d'une matrice de distances binaires calcule par SIMIL, ou transfre dun autre programme par IMPORT (versions CMS et VMS) ou par IMPORT-EXPORT (version Macintosh). Le programme assumera qu'il s'agit d'une matrice de distances et non d'une matrice de similarits. Une matrice de similarits peut tre aisment convertie en une matrice de distances l'aide du programme utilitaire CONVERT. Le fichier partir duquel SIMIL calcule la distance euclidienne (D01) doit doit contenir deux informations seulement: Coordonne en X Coordonne en Y
Les coordonnes sont fournies sous la forme de nombres entiers ou de rels (i.e., avec dcimales) et non sous la forme de degrs-minutes-secondes. Ces donnes sont lues en format libre. L'avantage d'un tel fichier est que l'utilisateur peut choisir de calculer une distance autre que la distance gographique (euclidienne) entre objets. Le programme DIST peut aussi tre mis contribution pour calculer des distances suivant la courbure de la terre; ces distances se prsentent sous la forme d'une matrice carre (fichier ASCII) qu'il est ais de convertir en format SIMIL l'aide de l'utilitaire IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh). (4) Matrice de classes de distances entre objets Ce fichier en caractres lisibles (fichier ASCII et non binaire) peut reprsenter toute la matrice des distances dj divises en classes, ou encore la partie triangulaire suprieure seulement de cette matrice de distances, auquel cas elle se prsente de la mme faon que le fichier CLASSEF (type 8) dcrit ci-dessous. Les classes de distance sont numrotes par les entiers successifs, dbutant par 1. Cette matrice est de format n n o n est le nombre de stations. Ce type de fichier permet l'utilisateur qui le dsire de soumettre une matrice qui n'est pas symtrique, c'est--dire une matrice dans laquelle la distance de a b n'est pas ncessairement gale la distance de b a. (5) Liste des liens entre les objets Ce fichier en caractres lisibles (fichier ASCII et non binaire), fournit au programme une liste de
10
LE PROGICIEL R
liens entre paires de points-objets. Chaque lien est reprsent par une paire de numros d'objets, crits en format libre et spars par au moins un espace. Ce fichier, qui peut tre produit par ce mme programme (version CMS/VMS) ou par le programme CONNEXIONS (version Macintosh), peut avoir par exemple l'apparence suivante (grille de 3 lignes et 4 colonnes, mouvement de la tour), o chaque paire de numros reprsente un lien entre deux objets:
1 2 11 12 12 8 2 5 3 1 3 6 4 2 5 7 6 3 6 8 7 4 7 9 8 5 9 10 10 6 10 11 11 7
Trois fichiers de sortie peuvent tre crs par ce programme: (6) Fichier des rsultats contenant les statistiques du corrlogramme Par dfaut, ce fichier est appel "SORTIE CORR A" dans la version CMS/VMS. Ce fichier ASCII diffre dans sa prsentation selon que l'analyse porte sur des donnes quantitatives ou qualitatives (nominales). Un exemple pour chacun est donn plus bas. Lors de l'analyse de donnes quantitatives, les indices I de Moran et le c de Geary sont calculs pour chaque classe de distance d (Legendre & Legendre, 1984a, Tome 2, p. 258). I(d) = [n w i j(y i - y-moy)(y j - y-moy)]/[W (y i - y-moy)2 ] c(d) = [(n-1) w i j(y i - y j )2 ]/[2W (y i - y-moy)2 ] pour i j pour i j
Les valeurs de la variable sont les y; y-moy dsigne la moyenne de ces valeurs. Les w i j prennent la valeur 1 quand la paire (i,j) appartient la classe de distance d (celle pour laquelle on est en train de calculer la valeur du coefficient) et zro dans les autres cas. W est la somme des valeurs w i j, donc le nombre de paires dans toute la matrice carre des distances entre points dont on a tenu compte pour calculer la valeur du coefficient pour la classe de distance sous considration. Le coefficient de Moran varie gnralement de -1 1, mais il peut dans certains cas excder -1 ou +1; les valeurs positives du I de Moran correspondent de l'autocorrlation positive. Le coefficient de Gary varie de 0 une valeur positive indtermine qui n'excde que rarement 3 dans la plupart des cas rels; les valeurs de c infrieures 1 correspondent de l'autocorrlation positive. Ces statistiques sont calcules pour chaque classe de distance disponible; chaque valeur est accompagne de la probabilit que celle-ci ne soit pas significativement diffrente de zro (test unilatral). Les formules de calcul de l'erreur type de ces statistiques se trouvent dans Cliff & Ord (1981), Sokal & Oden (1978) et Legendre & Legendre (1984a). Les hypothses sont les suivantes: H0 : il n'y a pas d'autocorrlation spatiale. Les valeurs de la variable sont spatialement indpendantes les unes des autres. Chaque valeur du coefficient I est gale E(I) = -(n - 1) -1 0, o E(I) est l'esprance de I alors que n est le nombre de points d'observation; chaque valeur du coefficient c est gale E(c) = 1. H1 : il y a de l'autocorrlation significative. Les valeurs de la variable sont spatialement dpendantes les unes des autres. La valeur du coefficient I diffre significativement de E(I) = -(n - 1)-1 0; la valeur du coefficient c diffre significativement de E(c) = 1. Tel que recommand par Oden (1984), on pourra employer la correction de Bonferroni pour vrifier si le corrlogramme contient des valeurs significatives. Cette correction consiste employer un niveau de signification alpha' = alpha/(le nombre de tests raliss simultanment); par exemple, un corrlogramme de 5 classes de distance sera globalement significatif au niveau de 5% seulement s'il contient des valeurs significatives au niveau individuel de alpha' = 0.05/5 = 0.01.
LE PROGICIEL R
11
V oici un exemple de fichier de sortie obtenu pour des donnes quantitatives, version Macintosh du programme; la sortie de la version CMS/VMS est virtuellement identique. Le corrlogramme correspondant est publi la figure 3 de Legendre & Troussellier (1988).
P R O G R A M M E A u t o C o r r l a t i o n
Version Macintosh 1.0 Auteur: A. Vaudor Matrice de distances: FICHIER D'ENTREE: XY, Thau TITRE: Distances gographiques, Thau (63 stations) DATE: 10/8/88 FONCTION: D01 Nombre d'objets : 63 Nombre de descripteurs : 2 Classes quidistantes Classe Limite sup. Frq. 1 1.00518 97 2 2.01036 162 3 3.01553 250 etc. etc. 17 17.08802 4 Fichier de donnes: CHLAtr Nombre d'objets : 63 Option du mouvement: Matrice SIMIL Notes: Les probabilits sont plus significatives prs de zro. Les probabilits sont donnes plus ou moins 0.00100 H0: H1: Dist.,I(Moran), 1 0.4646 2 0.3833 3 0.3284 4 0.3382 5 0.2251 6 0.0773 7 -0.1109 8 -0.1992 9 -0.3517 10 -0.5869 11 -0.6228 12 -0.8550 13 -0.7459 14 -0.8355 15 -0.6122 16 -0.6631 17 -1.4980 Total I = 0 I > 0 p(H0), 0.000 0.000 0.000 0.000 0.000 0.101 I = 0 I < 0 p(H0), C(Geary), 0.3355 0.4151 0.5352 0.5280 0.6708 0.8055 0.121 1.0151 0.011 1.1111 0.000 1.3626 0.000 1.7343 0.000 1.8906 0.000 2.2102 0.000 2.4051 0.000 2.5375 0.001 2.4070 0.023 2.4416 0.001 3.3191 C = 1 C < 1 p(H0), 0.000 0.000 0.000 0.000 0.000 0.018 C = 1 C > 1 p(H0),Paires 194 324 500 450 484 336 0.373 280 0.085 288 0.000 274 0.000 222 0.000 154 0.000 138 0.000 120 0.000 68 0.000 48 0.003 18 0.002 8 3906
[donnes pour histogramme de frquences des classes, dans la matrice triangulaire des distances]
En colonne 2 se trouve la valeur du I de Moran, et en colonne 5 la valeur du c de Geary, pour les diffrentes classes de distance (colonne 1). Les probabilits des tests unilatraux pour le I de Moran sont prsentes en colonnes 3 et 4; elles sont spares en deux colonnes, selon que la valeur du coefficient est positive ou ngative, de faon en faciliter la lecture. Il en va de mme pour les probabilits associes aux valeurs du c de Geary. Les hypothses (H0 , H 1 ) sont spcifies en haut de
12
LE PROGICIEL R
ces colonnes. Par ailleurs, le nombre de paires de points correspondant chaque classe de distance (cardinalit) forme la colonne de droite. Chaque nombre est le double de la valeur donne dans l'histogramme de frquence; c'est la valeur que l'on obtiendrait si on travaillait dans une matrice carre, diagonale principale exclue, et non dans une matrice triangulaire de distances. Dans la version Macintosh, le programme trace les corrlogrammes l'cran et permet de les imprimer ou de les prserver dans des fichiers de type PICT. Un corrlogramme est un graphique dans lequel on porte les valeurs du coefficient d'autocorrlation spatiale (en ordonne) en fonction des classes de distance (abscisse) (voir par exemple la figure 11.22 de Legendre et Legendre, 1984a). Voir aussi Legendre & Fortin (1989) pour l'interprtation des corrlogrammes spatiaux. Pour les donnes nominales (qualitatives), ou encore pour les donnes ordinales traites comme si elles taient nominales, le programme calcule, pour chaque distance, les carts normaux (S.N.D.: standard normal deviates) ainsi que les probabilits associes, pour chaque classe de distance et chaque paire d'tats de la variable. La thorie relative ces calculs est prsente par Sokal & Oden (1978), par Cliff & Ord (1981) ainsi que par Upton & Fingleton (1985). Voici un exemple de fichier de sortie obtenu pour des donnes nominales 4 classes, obtenu l'aide de la version CMS du programme. Peu de comparaisons sont significatives dans cet exemple.
A U T O C O R R E L A T I O N S P A T I A L E
pour donnes quantitatives ou qualitatives. Version IBM 2.0B Auteur: Alain VAUDOR Option du mouvement: 13
NOTE: Les probabilits les plus significatives sont prs de zro Les probabilits sont imprimes la prcision de 0.00100 H0: H1: DISTANCE S.N.D.=0, S.N.D.>0, P(H0) , S.N.D.=0 S.N.D.<0 P(H0), PAIRES 312 0.434 0.301 0.143 0.342
CLASSES S.N.D. 1 [1][1] -0.272 [1][2] -0.522 [1][3] -1.068 [1][4] -0.408 [2][2] 1.721 0.052 [2][3] 0.889 0.187 [2][4] -1.687 0.046 [3][3] CARD. CLASSE [3]/NOBJ < 0.2 ou > 0.8 [3][4] -1.523 0.064 [4][4] 3.047 0.004 [Total diff.] -2.821 0.002 2 [1][1] -2.204 [1][2] -1.822 [1][3] -0.246 [1][4] 2.001 0.023 [2][2] 1.510 0.069 [2][3] 1.485 0.069 [2][4] 0.348 0.364 [3][3] CARD. CLASSE [3]/NOBJ < 0.2 ou > 0.007 0.034 0.403
DISTANCE
586
0.8
LE PROGICIEL R
13
[3][4] [4][4] [Total diff.] DISTANCE 3 etc. DISTANCE 4 etc. DISTANCE 5 etc. DISTANCE 6 etc. DISTANCE 7 etc. TOTAL
-2.406 -0.082 -0.056
0.008 0.495 0.478 732
716
544
254
48
3192
(7)
Fichier des liens
Seules les versions CMS et VMS du programme peuvent produire ce fichier, qui est appel "LIENS DATA A" par dfaut. Ce fichier ASCII contient une liste de paires d'objets reconnus comme voisins par le schma de connexion (options 1 13) utilis lors de l'excution du programme. Ce fichier LIENS pourra alors servir de contrainte aux groupements raliss par les programmes BIOGEO et KMEANS, ou en conjonction avec tout autre programme exigeant une liste de paires d'objets voisins, tel COCOPAN. Dans la version Macintosh, ce fichier est produit par le programme CONNEXIONS. Un exemple de ce fichier est illustr en (5) ci-dessus. Il est noter que l'utilisateur peut diter ce fichier ASCII; il peut enlever des liens ou en ajouter, selon les besoins de son tude. (8) Fichier contenant la matrice CLASSEF Ce fichier ASCII est appel "CLASSEF DATA A" par dfaut dans la version CMS/VMS. Il contient la matrice triangulaire suprieure de classes de distance, permettant de calculer par la suite un corrlogramme de Mantel (voir la description du programme MANTEL). Les options du programme Les versions VMS et CMS offrent 16 options de calcul, numrotes de 0 15 (voir l'exemple, plus bas). On ne trouve que les options 0, 14 et 15 dans la version Macintosh. Ces options peuvent tre regroupes dans les cinq catgories suivantes, en fonction des fichiers d'entre dont on dispose. (1) Option 0 Matrice de distances de SIMIL Pour cette option, deux fichiers d'entre sont ncessaires: la Liste des valeurs (fichier de type 1) et la Matrice des distances (fichier de type 3) calcule partir du coefficient de distance qui a t choisi par l'utilisateur (voir le tableau 4 pour la liste des coefficients du programme SIMIL). Pour cette option, il n'est pas ncessaire que les points soient disposs sur un grille rgulire. Le programme pose les questions suivantes l'utilisateur: - Classes quidistantes (0) ou quifrquentes (1) ? Les classes quidistantes sont de mme
14
LE PROGICIEL R
largeur dintervalle de distances; les classes quifrquentes contiennent toutes le mme nombre de paires, sauf dans les cas de donnes lies (distances gales) qui peuvent forcer certaines classes contenir davantage de paires. On ne peut avoir lun ET lautre. - Nombre de classes ? Lusager doit dterminer combien de classes il dsire obtenir. - Dsirez-vous voir l'histogramme ? Un histogramme permet dapprcier la forme de la distribution des distances. - Prfreriez-vous un nombre/type diffrent de classes ? On a ici la possibilit de changer la division en classes en retournant aux deux premires questions. - Dsirez-vous faire crire la matrice CLASSEF des classes de distance, pour le corrlogramme de Mantel ? Voir la description de cette matrice au point (8) ci-dessus. - Dsirez-vous crire la liste des premiers liens sur le fichier "LIENS" ? Voir la description de ce fichier au point (7) ci-dessus. L'usager obtiendra les trois fichiers de sorties dcrits aux points (6), (7) et (8) ci-dessus. Le fichier de sortie CLASSEF n'est disponible qu' partir de cette option 0. Liste des liens
Liste des valeurs (Z) AUTOCOR Matrice de distances
Fichier des rsultats Liste des classes de distances
(2) Options 1 11 Grille rgulire Ces options ne peuvent tre utilises que pour des points disposs selon une grille rgulire; un seul fichier d'entre est ncessaire: la Liste des valeurs (fichier de type 1). Ces options font rfrence pour la plupart des types de connexion qui dcrivent les mouvements du jeu d'checs (rf : Legendre & Legendre, 1984, Tome 2, pp. 257-259), sauf pour ce qui est du calcul de la distance euclidienne entre les points de la grille. Le programme demandera quelle est la largeur et la hauteur de la grille quil devra confectionner. La distance entre deux points est le nombre minimum de liens qui les sparent. L'usager peut obtenir le fichier des rsultats (fichier de type 6) et le fichier des liens (type 7). Liste des liens Liste des valeurs (Z) AUTOCOR Fichier des rsultats
LE PROGICIEL R
15
(3) Options 12 et 13 Points disposs de faon irrgulire Pour ces options, un seul fichier d'entre est ncessaire, soit la Liste des coordonnes et des valeurs (fichier de type 2). Les connexions entre points sont alors calcules selon le graphique de Gabriel avec l'option 12 (Gabriel & Sokal, 1969) ou le systme de triangulation de Delaunay avec l'option 13 (Dirichlet, 1850; Miles, 1970; Ripley, 1981; Watson, 1981; Upton & Fingleton, 1985; Isaaks & Srivastava, 1989). Voir le programme CONNEXIONS pour une description dtaille de ces mthodes. La distance entre deux points est calcule par le nombre minimum de liens qui les sparent. Dans la triangulation de Delaunay (option 13), il y a deux faons dimposer des contraintes la formation de la triangulation plane. Voir la section portant sur la triangulation de Delaunay dans la description du programme CONNEXIONS. Rappelons quune contrainte est un ensemble de points supplmentaires, disposs la priphrie des points-objets rels de ltude. Dans la solution finale, tous les liens qui impliquent ces points supplmentaires sont limins; les points supplmentaires ont cependant, entre-temps, empch la formation de longs liens entre les points priphriques du nuage de points, liens qui ne reprsentent pas des affinits relles dans le cas des points priphriques distants mais sont simplement un effet de bordure de l'chantillonnage ralis. Deux mthodes sont disponibles dans le programme AUTOCOR pour imposer de telles contraintes la formation de la triangulation. La question pose par le programme est la suivante:
Nombre de points de contrainte? (-1 = contrainte rectangulaire)
1) Si on ne dsire pas imposer de contrainte, on rpond 0. 2) Si on dsire imposer des contraintes rectangulaires, il n'est pas ncessaire de dcrire ce cadre explicitement; il suffit de rpondre -1. Quatre points supplmentaires sont alors gnrs par le programme. Voir la description la section portant sur la triangulation de Delaunay dans la description du programme CONNEXIONS. 3) Si lusager dsire imposer des "contraintes" en des endroits quil a lui-mme judicieusement choisis, celles-ci doivent tre dcrites la fin du fichier contenant la Liste des coordonnes et des valeurs. Chaque contrainte se prsente sous la forme des coordonnes en X et en Y des deux points extrmes du segment de droite formant la "contrainte"; donc, chaque "contrainte" est reprsente par quatre chiffres: X 1 Y1 X2 Y2 . Le programme calcule alors les coordonnes du point milieu de ce segment et lutilise comme contrainte dans les calculs subsquents. En rponse la question, on indique le nombre de telles contraintes fournies au programme dans le fichier. Cette faon de faire diffre de la procdure dcrite dans le programme CONNEXIONS. L'usager peut obtenir le fichier des rsultats (fichier de type 6) et le fichier des liens (type 7). Liste des liens XYZ AUTOCOR Fichier des rsultats (4) Option 14 Votre propre matrice de classes de distance Deux fichiers d'entre sont ncessaires: la Liste des valeurs (fichier de type 1) et la Matrice des classes de distance (fichier de type 4). La connexion entre les objets sera telle que dcrite dans la matrice des classes de distance. Il n'est pas ncessaire que les points forment une grille rgulire. En
16
LE PROGICIEL R
sortie, l'usager peut obtenir le fichier des rsultats (fichier de type 6) et le fichier des liens (type 7).
Liste des valeurs (Z) AUTOCOR Matrice de distances
Liste des liens
Fichier des rsultats
(5) Option 15 Votre propre liste de liens Pour cette option, deux fichiers d'entre sont ncessaires: la Liste des valeurs (fichier de type 1) et la Liste des liens (fichier de type 5). La connexion entre les objets sera telle que dcrite dans la liste des liens. Il n'est pas ncessaire que les points forment une grille rgulire. La distance entre deux points est mesure par le nombre minimum de liens qui les sparent. L'usager ne pourra obtenir en sortie que le fichier des rsultats (de type 6). Liste des valeurs (Z) AUTOCOR Liste des liens Les questions du programme Lexemple ci-dessous montre le dialogue que propose le programme en version CMS/VMS; les rponses donnes par l'usager sont soulignes et en caractre gras. Les questions poses par la version Macintosh sont essentiellement les mmes, quoique leur formulation pourra parfois diffrer lgrement. Les explications qui suivent correspondent aux numros en marge gauche de lexemple. (1) L'usager dclare d'abord que ses donnes ne sont pas nominales. (2) Entre les points d'observation, une triangulation de Delaunay sera calcule (option 13); la distance entre les points est le nombre de liens formant le plus court chemin entre deux points, en suivant les liens de la triangulation. (3) Il y a 57 points dans le fichier l'tude. Si on avait dcrit une contrainte par une liste de points supplmentaires, ces points ne seraient pas compts en rponse cette question. (4) On opte pour une "contrainte" rectangulaire (voir ci-dessus). (5) Dans le cas d'une grille rgulire ou partiellement rgulire, il pourra arriver que deux solutions soient totalement quivalentes et que deux traits se croisent. L'usager pourra dcider soit de garder ces deux traits quivalents, soit d'liminer l'un des deux. Une telle situation ne peut se produire avec l'algorithme mis en oeuvre dans la version Macintosh (programme CONNEXIONS). (6) L'utilisateur demande que la liste des liens soit inscrite dans le fichier LIENS, pour usage ultrieur. Fichier des rsultats
LE PROGICIEL R
17
Exemple
Analyse de l'AUTOCORRELATION SPATIALE. Pour toutes les options sauf 12 et 13, vous aurez besoin d'un fichier de VALEURS. Pour les options 12 et 13, vous aurez besoin d'un fichier de COORDONNEES contenant aussi, en troisieme position, les VALEURS de la variable. Pour l'option 13 (Delaunay), si vous desirez imposer des segments de contrainte, ceux-ci doivent apparaitre dans ce meme fichier, a la fin de la liste des points-objets, sous la forme de 2 points (4 coordonnees) decrivant chaque segment. Quel est le nom de ce fichier? (Par defaut: "... data a") *** Vous DEVEZ fournir un fichier de donnees, meme si vous *** ne desirez que la liste des liens et n'etes pas interesse *** au correlogramme. fichier data a Pour l'option 0, vous aurez besoin d'une matrice binaire de DISTANCES, produite par SIMIL ou IMPORT. Assurez-vous qu'il ne s'agit PAS d'une matrice de similarites. Quel est le nom du fichier contenant cette matrice s'il y a lieu? (Par defaut: "... data a")
Pour l'option 14, quel est le nom de la matrice de classes de distance, s'il y a lieu (carree ou triangulaire superieure) ? (Par defaut: "... data a")
Pour l'option 15, quel est le nom du fichier de liens que vous avez prepare, s'il y a lieu? (Par defaut: "... data a")
Quel nom desirez-vous donner au fichier de sortie, contenant le correlogramme? (Par defaut: "Sortie corr a")
Quel nom desirez-vous donner au fichier de LIENS produit par ce programme, s'il y a lieu? (Par defaut: "Liens data a")
Quel nom desirez-vous donner au fichier contenant la matrice CLASSEF (matrice triangulaire superieure de classes de distance, permettant de calculer par la suite un correlogramme de Mantel), s'il y a lieu ? (Par defaut: "Classef data a")
18
LE PROGICIEL R
A U T O C O R R E L A T I O N
S P A T I A L E
pour donnees quantitatives ou qualitatives. Version IBM 2.0B Auteur: Alain VAUDOR Votre fichier de donnees est-il deja en classes ? Autrement dit, desirez-vous analyser des DONNEES QUALITATIVES ? n OPTIONS: 0: Matrice de distances de SIMIL (Fichier "ENTREEB") MOVEMENTS DANS UNE SEULE DIRECTION: 1: Mouvement horizontal (Lignes) 2: Mouvement vertical (Colonnes) 3: Mouvement diagonal (pente positive) 4: Mouvement diagonal (pente negative) JEU 5: 6: 7: JEU 8: 9: 10: D'ECHECS, Mouvement Mouvement Mouvement D'ECHECS, Mouvement Mouvement Mouvement MOUVEMENTS DIRECT SEULEMENT: de la tour du fou de la reine MOUVEMENTS DIRECTS ET INDIRECTS: de la tour du fou de la reine
(1)
11: Distance euclidienne, points en grille reguliere POINTS DISPOSES DE FACON IRREGULIERE: 12: Graphique de Gabriel 13: Triangulation de Delaunay 14: Votre propre matrice de classes de distance 15: Votre propre liste de liens (attacher fichier "LIENS") (2) 13 Nombre total de points ? 57 Nombre de points de contrainte? (-1 = contrainte rectangulaire) -1 Elimination des traits qui se coupent? o Desirez-vous ecrire la liste des premiers liens sur le fichier "LIENS" ? o *** 312 liens ont ete ecrits sur le fichier de LIENS *** Fin du programme.
(3)
(4)
(5)
(6)
LE PROGICIEL R
19
BIOGO
Que fait BIOGO ? Ce programme calcule un groupement agglomratif avec contrainte de contigut spatiale, tel que propos par Legendre & Legendre (1984b), et prsente les rsultats sous forme d'une srie de cartes, une pour chaque niveau de groupement. Puisque le groupement est bas sur une matrice de similarits et que cette matrice est le plus souvent calcule partir d'un grand nombre de descripteurs, cette mthode peut donc tre considre comme une mthode de cartographie multidimensionnelle. Le groupement agglomratif procde selon un algorithme liaison proportionnelle; un autre programme de ce progiciel, K-MEANS, permet de raliser du groupement sous contrainte laide dun algorithme non-hirarchique. La connexit est fixe par lusager entre 0 (groupement liens simples) et 1 (groupement liens complets). Legendre (1987) a montr la stabilit des rsultats du groupement avec contrainte travers une large gamme de valeurs de connexit. Si les dimensions actuelles du programme (version CMS ou VMS) sont insuffisantes, celles-ci peuvent aisment tre modifies en changeant la valeur des paramtres en dbut de programme et en le recompilant. Tel est galement le cas de tous les autres programmes de ce progiciel. Dans la version Macintosh, une limite du programme impose de ne jamais avoir plus de 150 groupes simultanment. Des problmes comportant plus de 1000 objets ont t traits par ce programme; il peut tre ncessaire, dans de tels cas, de demander plus de mmoire que la quantit attribue par dfaut aux usagers. Fichiers d'entre et de sortie Matrice de similarits (type SIMIL) Liste des liens (1) Fichier de similarits Le fichier de similarits produit par les programmes SIMIL, IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh), qui dcrit les relations de ressemblance entre points, est toujours ncessaire ce programme. Une matrice de distances devra tre convertie en matrice de similarits par le programme CONVERSION avant d'tre utilisable par BIOGO. (2) Fichier de liens Les relations spatiales entre les points doivent tre fournies au programme sous la forme dune liste de liens (fichier LIENS, en ASCII et non en binaire). Chaque lien est reprsent par une paire de numros d'objets, crits en format libre et spars par au moins un espace. Ce fichier, qui peut tre produit par les programmes AUTOCOR (version CMS/VMS) ou CONNEXIONS (version Macintosh), peut avoir par exemple l'apparence suivante (grille de 12 points disposs en 3 lignes et 4 colonnes, mouvement de la tour), o chaque paire de numros reprsente un lien entre deux objets:
1 2 11 12 12 8 2 5 3 1 3 6 4 2 5 7 6 3 6 8 7 4 7 9 8 5 9 10 10 6 10 11 11 7
BIOGO
Dtails du groupement
Coordonnes X, Y
Cartes
20
LE PROGICIEL R
Ce fichier peut tre modifi laide dun diteur ASCII si on dsire ajouter ou retrancher des liens de la liste. Le fichier peut galement tre entirement crit laide de lditeur; on peut ainsi, par exemple, fournir la liste des premiers ET des deuximes voisins de chaque point, ou toute autre combinaison juge intressante en fonction de la problmatique de ltude. Si la liste inclut toutes les paires possibles de points-objets, le groupement devient sans contrainte; cette option est disponible dans la version Macintosh. Il peut tre intressant dutiliser BIOGEO de cette faon, puisquon peut ainsi obtenir une carte pour chaque tape du groupement. Avant de faire dmarrer le programme, assurez-vous que vous connaissez le nombre de liens (paires de points) qui doivent tre lus par le programme dans le fichier de LIENS. Suggestion: intgrez ce nombre au nom du fichier. (3) Fichier de coordonnes spatiales (X, Y) Si on dsire demander au programme de tracer les cartes correspondant chaque niveau de groupement (option du programme), il faut lui fournir un fichier contenant les coordonnes des points analyser. C'est partir de ces coordonnes que la position des points sera tablie sur ces cartes. Les coordonnes sont fournies en format lisible (non en binaire) sous la forme d'entiers ou de nombres rels en degrs dcimaux. Les coordonnes ne doivent pas tre en degrs-minutes-secondes. Le nombre de coordonnes dans ce fichier doit correspondre au nombre d'objets. Avec les versions CMS et VMS, noubliez pas de mettre un zro avant le point dcimal (0.376 et non pas .376). Pour certaines reprsentations didactiques, on pourra fournir dans ce fichier des coordonnes qui ne correspondent pas exactement aux positions gographiques. Par exemple, pour analyser dun seul bloc des chantillonnages rpts dun mme territoire au cours du temps, on pourra prvoir la position des objets de ltude de faon ce que chaque tranche de temps forme une partie spare de limage finale. Les coordonnes fournies dans ce fichier ne servent qu lillustration; les relations spatiales ou spatio-temporelles qui sont tenues en compte lors du groupement sont uniquement celles que contient le fichier de liens. (4) Fichier des similarits tries Dans les versions CMS et VMS, il est possible de conserver le fichier des similarits tries pour un calcul subsquent. Cette option est particulirement intressante lorsquon dsire tudier les rsultats obtenus avec plusieurs valeurs diffrentes de connexit, alors que la matrice de similarit est grande et donc longue trier. (5) Fichier de rsultats En versions CMS et VMS, la seule sortie de BIOGO est le fichier de rsultats contenant les dtails du groupement et les cartes. Le nombre de cartes disponibles correspond au nombre d'tapes du groupement, soit n - 1. L'usager peut cependant prfrer ne pas faire inscrire toutes les cartes dans le fichier, les premires cartes, qui correspondent des niveaux levs de similarit, tant souvent peu informatives; on peut donc indiquer combien des dernires cartes on dsire obtenir dans le fichier de rsultats. Voir la section Contenu du fichier de rsultats pour plus de dtails sur le fichier de sortie. Dans la version Macintosh, la fonction cartographique est spare du fichier dtaillant les rsultats du groupement. Le fichier contenant le dtail des tapes de groupement est optionnel. Par ailleurs, si on dsire obtenir les cartes, celles-ci sont prsentes lcran une une. Lusager peut choisir la carte dsire soit par son niveau de similarit, soit laide dun curseur qui indique le nombre de groupes obtenu chaque niveau de similarit (le dbut du groupement, et donc les similarits leves, sont au bas de lcran); on fixe la position du curseur un niveau de similarit donn, connaissant le nombre de groupes prsents ce niveau, et on clique la souris. Voir galement les autres options dans le menu droulant Choix de cartes du programme. Notez que plusieurs
LE PROGICIEL R
21
tant illustr par une carte spare. Sur la carte qui apparat lcran, les membres dun mme groupe sont entours dun trait formant une enveloppe, si la situation le permet; les enveloppes peuvent tre prolonges par des traits dendritiques au besoin. Si on nest pas certain de la sparation des groupes dans une portion de limage, on peut agrandir nimporte quelle partie de celle-ci en traant un rectangle autour de ladite portion laide de la souris. Une nouvelle section de la partie agrandie peut son tour tre agrandie; la commande Terminer du menu droulant permet de revenir la carte prcdente. Lusager pourra demander dimprimer les cartes de son choix ou de les conserver dans des fichiers de type PICT; les cartes sont identifies par un titre et un niveau de similarit de groupement. Les options du programme Les options du programme sont les suivantes. Les numros se rfrent aux numros en marge gauche de lexemple ci-dessous. - Le choix du niveau de connexit (Co) du groupement agglomratif liaison proportionnelle (4). - La possibilit dobtenir les cartes, ou non (2 et 5). - La possibilit, en version Macintosh, dobtenir ou non le dtail des groupes forms chaque niveau. - La possibilit, en versions VMS et CMS, de conserver le fichier des similarits tries (1 et 3). Exemple Lexemple ci-dessous illustre lutilisation du programme pour calculer un groupement sous contrainte de contigut spatiale. Le fichier dappel, dont le dialogue forme la premire partie de lexemple, demande le nom des divers fichiers. Cet exemple a t ralis sous CMS. Les questions poses par la version Macintosh sont essentiellement les mmes, quoique leur formulation peut parfois diffrer lgrement. Le premier point signaler concerne le fichier des similarits tries (1): on donne un nom en rponse cette question si on dsire conserver le fichier tri, ou encore si, ayant conserv un tel fichier au cours dune passe prcdente, on dsire maintenant lutiliser (auquel cas il faut galement rpondre oui en (3) en rponse la question du programme). Le second point est que le fichier des coordonnes est optionnel (2); il nest requis que si lon dsire les cartes que ce programme peut produire (auquel cas il faut galement rpondre oui en (5) la question du programme). Pour le traage des cartes en versions CMS et VMS, la premire colonne du fichier de coordonnes sera labscisse (valeurs croissantes de gauche droite) et la seconde colonne lordonne (valeurs croissantes du bas vers le haut); lusager doit dterminer quelle largeur aura sa carte, en rponse la question (6). En version Macintosh, la coordonne prsentant la plus grande plage de variation est toujours labscisse, avec rotation de limage au besoin de faon occuper lcran au mieux.
BIOGEO: Groupement sous contrainte de contiguite spatiale. Quel est le nom du fichier contenant la matrice de SIMILARITES de type SIMIL? (Par defaut: "... data a") (Il faut fournir ce fichier meme si vous fournissez un fichier de similarites triees, en reponse a la question suivante.) fichier s16 a (1) Desirez-vous conserver le fichier de similarites triees pour utilisation future? Ou encore, possedez-vous deja ce fichier? Dans l'un ou l'autre cas, quel est son nom? (Par defaut: "FICHTRI data a") fichier fichtri a Quel est le nom du fichier contenant la liste des LIENS DE
22
LE PROGICIEL R
PROXIMITE a employer comme contrainte du groupement? (Par defaut: "... data a") fichier liens146 a (2) Quel est le nom du fichier des COORDONNEES des localites, s'il y a lieu? (Par defaut: "... data a") fichier coord a Quel nom doit recevoir le fichier de sortie de BIOGEO? (Par defaut: "CARTES BIOGEO a") fichier cartes a P r o g r a m m e Auteur: A. Vaudor (3) n Titre de ce travail Groupement sous contrainte spatiale Nombre de paires dans le fichier de liens? 146 Connexite desiree (Max: quatre chiffres significatifs) 1.0 Il y a 56 etapes de groupement. Combien des dernieres etapes vous interessent? 20 Desirez-vous les cartes? (O ou N) o Largeur des cartes (en caracteres, sans compter le cadre): 60 Fin du programme. Avez-vous fourni un fichier de similarites deja triees (FICHTRI) ? (O ou N) B I O G E O
(4)
(5) (6)
Contenu du fichier de rsultats Le fichier prsent ci-dessous est une sortie du programme en version CMS. Pour chaque niveau de groupement, les cartes ont t demandes, en plus du dtail du groupement. La connexit du groupement liaison proportionnelle a t fixe Co = 1.0. Les relations de voisinage spatial entre les points, dcrites par le fichier des liens, sont les suivantes (image produite par CONNEXIONS):
LE PROGICIEL R
23
B I O G E O : Groupement sous contrainte spatiale Auteur: A. Vaudor Niveau: Connexit: Nombre de groupes: 1.00000 1.00000 9
Dans la liste des 57 objets, ci-dessous, chaque objet est identifi par le numro de son groupe. Les numros de groupes ne sont pas ncessairement squentiels. Les objets non encore groups reoivent un zro.
16 2 13 16 2 12
1 0 0 1 1 0 1 1 1 5 5 0 5 1 1 16 1 0 1 1 1 1 1 0 2 2 2 2 2 2 2 6 2 6 6 0 4 4 4 4 0 0 4 12 12 0 13 13 15 15 13 Nombre de localites groupes: 47 -------------------------------------------------------------! 1 ! ! ! ! 1 ! ! + 2 2 1 ! ! % 2 1 1 1 ! ! % % 1 1 1 ! ! * 2 2 1 ! ! * * 4 2 2 1 5 5 ! !+ 4 4 6 1 5 ! ! * 4 62 2 = = = 1 1 ! ! 4 6 2 ! --------------------------------------------------------------
Aprs le no 9, les symboles utiliss dans la carte nont plus de rapport avec le numro du groupe.
Niveau: Connexit: Nombre de groupes: 0.12500 1.00000 4 1 2 4 1 2 2
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 4 2 4 4 4 4 4 4 4 3 3 4 2 2 2 4 4 2 2 4 Nombre de localites groupes: 57 -------------------------------------------------------------! 1 ! ! 1 ! ! 1 1 ! ! 2 2 2 1 1 ! ! 2 2 1 1 1 1 ! ! 2 22 1 1 1 ! ! 4 2 2 1 ! ! 4 4 34 2 2 1 1 1 ! !2 4 3 4 4 1 1 1 1 ! ! 4 4 42 2 1 1 1 1 1 ! ! 4 4 4 2 ! --------------------------------------------------------------
Les cartes produites par la version Macintosh sont de meilleure qualit graphique (voir section K-MEANS). Les objets y sont reprsents par leur numro dordre dans le fichier dentre. Les groupes sont matrialiss par des enveloppes entourant les points membres dun mme groupe.
24
LE PROGICIEL R
CHRONO
Que fait CHRONO ? Ce programme calcule le groupement chronologique propos par Legendre, Dallot & Legendre (1985). Cette mthode de groupement, d'abord dcrite pour les sries temporelles de donnes multivariables, peut aussi tre employe pour l'analyse des sries spatiales (Galzin & Legendre, 1987). Le groupement non-hirarchique procde selon un algorithme agglomratif liaison proportionnelle, dont le degr de connexit (Co) est fix par l'usager en rponse une question du programme; cest le test de signification, dcrit au paragraphe suivant, qui rend le rsultat nonhirarchique. La contrainte de contigut temporelle ou spatiale impose au groupement signifie que seuls les objets ou les groupes d'objets adjacents le long de la srie peuvent se grouper. Fait noter, il est peu probable que de changer la connexit change de faon notoire les rsultats du groupement, comme on peut le voir dans les exemples de la publication de Legendre, Dallot & Legendre (1985). chaque tape du groupement agglomratif, un test par permutation est ralis pour dcider si on doit, ou non, fusionner les deux groupes dont la fusion est propose par l'algorithme agglomratif. L'hypothse nulle de ce test est dcrite explicitement dans la liste de sortie des versions CMS et VMS:
H est la probabilite que l'hypothese principale soit vraie. Selon celle-ci, les deux groupes soumis au test sont un artefact et devraient etre fusionnes en un seul groupe. La fusion est accomplie si H est plus eleve que le seuil de probabilite ALPHA etabli plus haut par l'usager.
En rponse une question du programme, l'usager doit fixer lui-mme le niveau alpha de rejet de l'hypothse nulle (souvent 0.01, 0.05 ou 0.10; il est cependant possible de tester un niveau plus lev pour identifier les singletons voir ci-dessous, ainsi que lexemple). Il faut raliser quil ne sagit pas dun vritable test dhypothse statistique, les donnes servant au test tant les mmes que celles qui ont servi gnrer lhypothse de division en groupes. Des simulations, dcrites dans la rfrence principale, ont cependant montr que pour des donnes alatoires, la probabilit que ce test produise un rsultat significatif est bien gal alpha. Le programme permet didentifier les singletons, ou prlvements aberrants se trouvant le long de la srie. La prsence dun singleton peut empcher la formation dun groupe qui aurait inclus des objets situs de part et dautre du prlvement aberrant. Trois raisons au moins peuvent entraner la formation de prlvements aberrants: (1) des vnements alatoires, tels que des strates modifies dans une carotte de sdiments, ou encore des mouvements de masses deau lors dun chantillonnage rpt au cours du temps une station fixe en milieu aquatique; (2) des problmes dchantillonnage ou de prservation des chantillons; (3) des variations stochastiques extrmes, qui font que lhypothse nulle sera rejete alors quil ny a pas eu brisure dans la succession (erreur de type II). Si lusager demande didentifier les singletons, ceux-ci seront limins de la srie et le groupement sera repris depuis le dpart (voir lexemple); font exception cette rgle les singletons situs en bout de srie (dbut ou fin), puisque aucun groupe nest bloqu par leur prsence. Il est peu probable que lon russisse identifier des singletons si le niveau alpha est faible (moins de 10 %), parce quil devient difficile, lors du test dun seul objet contre p objets, dobtenir une valeur infrieure celles de la premire colonne du tableau 1. Enfin, si un objet a une similarit de zro avec tous ses voisins immdiats, le groupement agglomratif ne se rend pas jusquau niveau S = 0 pour tenter de linclure dans un groupe; un tel objet non group est reprsent par un tiret (-) dans le groupement final, ou encore par un carr blanc dans le dessin de la version Macintosh. Lusager devra vrifier les donnes de tout objet ainsi identifi; il est recommand de lliminer de lanalyse, sil sagit dun objet aberrant ou exceptionnel ayant une similarit nulle avec ses voisins, au cas o sa prsence dans la srie ait interrompu la formation dun groupe englobant des objets situs de part et dautre.
LE PROGICIEL R
25
Tableau 1 Les plus faibles probabilits de fusion possibles pour deux groupes de taille p 1 et p2 respectivement (except dans des cas dgalit des valeurs de similarit). Tir de Legendre et al. (1985), Tableau C1. ________________________________________________________________________________ p1 ______________________________________________________________________ p2 1 2 3 4 5 ________________________________________________________________________________ 2 0.66667 0.33333 3 0.25000 0.10000 0.10000 4 0.20000 0.06667 0.02857 0.02857 5 0.16667 0.04762 0.01786 0.00794 0.00794 6 0.14286 0.03571 0.01190 0.00476 0.00217 7 0.12500 0.02778 0.00833 0.00303 0.00126 8 0.11111 0.02222 0.00666 0.00202 0.00078 9 0.10000 0.01818 0.00455 0.00140 0.00050 10 0.09091 0.01515 0.00350 0.00100 0.00033 11 0.08333 0.01282 0.00275 0.00073 0.00023 12 0.07692 0.01099 0.00220 0.00055 0.00016 13 0.07143 0.00952 0.00179 0.00042 0.00012 14 0.06667 0.00833 0.00147 0.00033 0.00009 15 0.06250 0.00735 0.00123 0.00026 0.00006 16 0.05882 0.00654 0.00103 0.00021 0.00005 17 0.05556 0.00585 0.00088 0.00017 0.00004 18 0.05263 0.00526 0.00075 0.00014 0.00003 19 0.05000 0.00476 0.00065 0.00011 0.00002 20 0.04762 0.00433 0.00056 0.00009 0.00002 ________________________________________________________________________________ Fichiers d'entre et de sortie
Matrice de similarits (type SIMIL) (1) Le fichier d'entre
CHRONO
Fichier de rsultats
Le fichier d'entre doit imprativement tre un fichier de similarits, et NON PAS de distances, produit par le programme SIMIL, ou encore par IMPORT (en versions CMS et VMS) ou IMPORTEXPORT (en version Macintosh). Une matrice de distances peut tre aisment convertie en une matrice de similarits l'aide de lutilitaire CONVERSION (CONVERT en version VMS/CMS). Le programme assume que lordre chronologique ou temporel est le mme que lordre des objets. (2) Les rsultats Les rsultats du calcul, qui sont prsents lcran (versions CMS et VMS) ou la fois dans un fichier et lcran (version Macintosh), montrent d'abord le groupement. Quoique la mthode pour y arriver soit hirarchique, le rsultat final est non-hirarchique. Ce rsultat est illustr par le dessin lcran dans la version Macintosh. Il est galement prsent la dernire ligne de la liste illustrant les tapes du groupement ( lcran pour les versions CMS et VMS; dans un fichier pour la version
26
LE PROGICIEL R
Macintosh); les lignes qui prcdent, peu informatives, ne sont prsentes que pour indiquer l'usager que le programme est en train de travailler pour lui. Seule la dernire ligne de cette liste est donc conserver et reproduire dans les publications. Des tests a posteriori peuvent tre raliss, qui permettent de procder l'expansion de chaque groupe tour de rle, en supposant que les autres groupes nexistent pas et que leurs objets sont encore des points-observations isols; cette expansion des groupes permet de dterminer si les groupes forms lors du groupement sont spars de faon brusque les uns des autres (succession par sauts), ou si au contraire la transition entre eux est douce (succession graduelle). Dautres tests a posteriori permettent de connatre les relations entre groupes distants et de dterminer si certains seraient semblables (on se rfrera lhypothse nulle pour comprendre dans quel sens interprter ces tests; voir aussi lexemple ci-dessous). Le programme fait de mme avec les singletons, tentant de dterminer sils ressemblent lun ou lautre des groupes distants. Dans ces tests a posteriori, plusieurs fusions entre petits groupes seront ralises simplement cause du fait quil est impossible aux tests de prendre des valeurs de probabilits infrieures aux valeurs minimales dcrites au tableau 1 spcialement si le seuil alpha fix en dbut de groupement est faible. On notera que les tests a posteriori, et en particulier lexpansion des groupes, sont coteux en temps de calcul. On ne les ralise habituellement pas au cours des analyses exploratoires dun fichier de donnes; on attendra plutt que la combinaison la plus informative des paramtres du programme (connexit et niveau alpha) ait t dtermine. Dans les versions pour grands ordinateurs, si on dsire conserver ces rsultats et les faire imprimer, il faut les faire inscrire dans un fichier de "trace de la console" (version CMS) tel qu'expliqu la page 2 du prsent document. Les options du programme Les options du programme sont les suivantes. Les numros se rfrent aux numros en marge gauche de lexemple ci-dessous. - Le choix du niveau de connexit (Co) du groupement agglomratif liaison proportionnelle (1). - Le choix du niveau de signification alpha du test par permutation (2). - La possibilit dliminer les singletons (3). - Les tests a posteriori: expansion des groupes (4), tests entre les groupes distants (5). Exemple Lexemple ci-dessous illustre lutilisation du programme pour calculer un groupement sous contrainte de contigut en une dimension (spatiale, dans ce cas). Le fichier de donnes reprsente un transect spatial (i.e., une radiale) de 24 stations o 41 espces ont t identifies. Le coefficient de similarit de Steinhaus (S17) a t employ pour comparer les stations. Dans cet exemple ralis sous CMS, le dialogue du fichier dappel demande seulement le nom du fichier contenant la matrice de similarit. En version Macintosh, le dialogue demande galement le nom du fichier de sortie. La dernire ligne du groupement (6), qui seule reprsente linformation conserver, se lit comme suit. Les 24 stations dchantillonnage du transect sont reprsentes par autant de caractres:
AABBBB*BBCC-DDDDDDEEEEEE S: 0.26667 H: 0.30000
La premire station se trouve lextrmit gauche. Les groupes forms sont reprsents par des lettres; ainsi, dans cet exemple, il y a cinq groupes forms, reprsents par les lettres A E. Les stations non groupes sont reprsentes par des tirets (-) et les singletons par des astrisques (*); la diffrence rside en ce que les singletons ont t dment tests par rapport aux groupes situs leur gauche et
LE PROGICIEL R
27
section Que fait CHRONO?, ainsi que ci-dessous). La valeur qui suit S reprsente le niveau de similarit auquel sest effectue la dernire fusion, la valeur qui suit H reprsentant la probabilit de lhypothse nulle ayant conduit cette fusion. La version Macintosh produit limage suivante qui rsume le groupement; le programme permet dinscrire cette image directement sur un fichier de type PICT, ce qui permet de lditer et de linclure directement dans une publication. Dans cette image, les groupes successifs sont reprsents par des zones alternes de gris et de noir. Lobjet 7, reprsent par un carr blanc barr, est un singleton; celuici se distingue de lobjet 12, qui forme un groupe dun seul prlvement et reprsente un cas spcial. La diffrence rside dans le fait que lobjet 12 prsente des similarits de zro avec ses voisins immdiats; puisque le groupement sarrte avant le niveau de similarit S = 0, cet objet nest jamais group, et il se retrouve donc seul; comme il nest pas test non plus, il nest donc pas identifi comme singleton. De tels objets peuvent, par leur prsence dans une srie, interrompre la formation de groupes; lorsquil sen trouve dans une analyse, on doit se demander sil ne sagirait pas dobjets aberrants un titre ou un autre, auquel cas ils doivent tre limins de ltude. Transect spatial
10 20
GROUPEMENT Connexit: 0.50000
CHRONO (avec contrainte) Fichier/s17
Fichier de similarits Probabilit: 0.20000
On pourrait galement reprsenter les objets dans un espace rduit (analyse des correspondances, analyse en coordonnes principales de la matrice S17, cadrage multidimensionnel non-mtrique, etc.) et relier par des traits les stations membres dun mme groupe.
Quel est le nom du fichier contenant la MATRICE DE SIMILARITES? (Par defaut: "... data a") fichier s17 a Execution begins... Execution begins... G R O U P E M E N T
Annonce le dbut de lexcution du programme de tri Annonce le dbut de lexcution du programme de groupement
C H R O N O L O G I Q U E
DEPARTEMENT DE SCIENCES BIOLOGIQUES UNIVERSITE DE MONTREAL C. P. 6128, SUCC "A" MONTREAL, QUEBEC H3C 3J7. Reference decrivant la methode: Legendre, P., S. Dallot, and L. Legendre. 1985 -Succession of species within a community: chronological clustering, with applications to marine and freshwater zooplankton. The American Naturalist, 125 (2): 257-288. (1) CONNEXITE DU GROUPEMENT ?
28
LE PROGICIEL R
0.5 Connexite: (2)
0.50
NIVEAU ALPHA POUR LE TEST DE FUSION DES GROUPES ? 0.20 Niveau de fusion des groupes (ALPHA): 0.20000 ELIMINATION DES OBJETS ABERRANTS (O ou N) ? n Pas delimination des objets aberrants. LARGEUR DE VOTRE TERMINAL, EN N. DE COLONNES? 80 La largeur habituelle dun
(3)
cran est de 80 ou 132 caractres
(4,5) DESIREZ-VOUS LES TESTS A POSTERIORI (O ou N) ? o H est la probabilite que l'hypothese principale soit vraie. Selon celle-ci, les deux groupes soumis au test sont un artefact et devraient etre fusionnes en un seul groupe. La fusion est accomplie si H est plus eleve que le seuil de probabilite ALPHA etabli plus haut par l'usager. ------------------AA---S: 0.84615 ----------------AABB---S: 0.84211 AA--------------BBCC---S: 0.81818 AA--------------BBCCC--S: 0.81481 H: 0.66667 AABB------------CCDDD--S: 0.71429 AABB-----------CCCDDD--S: 0.66667 H: 0.66667 AABBB----------CCCDDD--S: 0.53333 H: 0.66667 AABBBB---------CCCDDD--S: 0.53333 H: 1.00000 AABBBB-------CCDDDEEE--S: 0.50000 AABBBB------CCCDDDEEE--S: 0.50000 H: 0.66667 AABBBB---CC-DDDEEEFFF--S: 0.44444 AABBBB---CC-DDDDDDEEE--S: 0.42105 H: 0.40000 AABBBB-CCDD-EEEEEEFFF--S: 0.40000 AABBBB-CCCC-DDDDDDEEE--S: 0.30769 H: 0.33333 AABBBB-CCCC-DDDDDDEEEFFS: 0.30000 AABBBB-CCCC-DDDDDDEEEFFF S: 0.28571 H: 0.66667 AABBBB-CCCC-DDDDDDEEEEEE S: 0.26667 H: 0.30000 L'OBJET: 7 EST ELIMINE H: 0.20000 0.20000 ------*-----------AA---------*---------AABB---AA----*---------BBCC---AA----*---------BBCCC--AABB--*---------CCDDD--AABB--*--------CCCDDD--AABBB-*--------CCCDDD--AABBBB*--------CCCDDD--AABBBB*------CCDDDEEE--AABBBB*-----CCCDDDEEE--AABBBB*--CC-DDDEEEFFF--AABBBB*--CC-DDDDDDEEE--S: S: S: S: S: S: S: S: S: S: S: S: 0.84615 0.84211 0.81818 0.81481 0.71429 0.66667 0.53333 0.53333 0.50000 0.50000 0.44444 0.42105
H: 0.66667 H: 0.66667 H: 0.66667 H: 1.00000 H: 0.66667 H: 0.40000
LE PROGICIEL R
29
(6)
AABBBB*BBCC-DDDDDDEEE--AABBBB*BBCC-DDDDDDEEEFFAABBBB*BBCC-DDDDDDEEEFFF AABBBB*BBCC-DDDDDDEEEEEE TEMPS ECOULE: 0.7143 SEC
S: S: S: S:
0.40000 H: 0.26667 0.30000 0.28571 H: 0.66667 0.26667 H: 0.30000
Rsultat du groupement
(4)
EXPANSION DES GROUPES [ 1 .. [ 1 .. [etc.] [ 1 .. [ 1 .. [ 1 .. 2] 3] 9] 10] 11]
H: H: H: H:
0.66667 1.00000 0.44444 0.30000
Le premier groupe [1 .. 2] sert de point de dpart lexpansion
Expansion ralise de 1 11 tour de rle, chaque groupe form sert de point de dpart lexpansion
etc. etc.
[ [ [ [
19 18 17 16
.. .. .. ..
24] 24] 24] 24]
H: H: H:
0.85714 1.00000 1.00000
Le dernier groupe [19 .. 24] sert de point de dpart lexpansion Expansion ralise de 16 24
TEMPS ECOULE: 1.0083 SEC (5) TESTS ENTRE LES GROUPES [ 1 .. 2] contre [ 3 [ 10 [ 12 [ 13 [ 19 [ 3 .. 9] contre [ 10 [ 12 [ 13 [ 19 [ 10 .. 11] contre [ 12 [ 13 [ 19 [ 12 .. 12] contre [ 13 [ 19 [ 13 .. 18] contre [ 19 *
.. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
9] 11] 12] 18] 24] 11] 12] 18] 24] 12] 18] 24] 18] 24] 24]
H: H: H: H: H: H: H: H: H: H: H: H: H: H: H:
0.03571 0.33333 0.33333 0.03571 0.03571 0.03571 0.14286 0.14286 0.02814 0.33333 0.10714 0.03571 0.14286 0.14286 0.07359
Pas de fusion car H alpha * ** Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha ** Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha
Cette valeur reprsente la plus faible probabilit de fusion possible entre ces deux groupes, attendu leur taille (voir le tableau 1). Elle ne reprsente donc pas ncessairement le nonrejet de H0 . ** Il sagit galement de la plus faible valeur possible de
30
LE PROGICIEL R
TESTS SUR LES OBJETS ELIMINES [ 7] contre [ 1 .. [ 3 .. [ 10 .. [ 13 .. [ 19 .. 2] 9] 11] 18] 24] H: H: H: H: H: 0.66667 0.14286 0.66667 0.14286 0.28571
* Pas de fusion car H alpha * Pas de fusion car H alpha Fusion de [7] et de [19 .. 24]
TEMPS ECOULE: 1.6521 SEC
FICHIER D'ENTREE: NOMBRE D'OBJETS : 24 NOMBRE DE VARIABLES : 41 TITRE : Fichier de donnees DATE : 02/04/91 FONCTION : s17 Fin du programme.
Identification du fichier dentre
LE PROGICIEL R
31
COCOPA N
Que fait COCOPAN ? Le programme COCOPAN permet de raliser une analyse de variance un critre de classification pour des donnes quantitatives spatialement autocorrles, lorsque le critre de classification consiste en une partition du territoire ltude en des sous-rgions connexes par exemple des pays, des comts, des groupes linguistiques, des subdivisions gomorphologiques, et ainsi de suite, comme on en rencontre dans nombre de problmes dont les donnes peuvent tre reprsentes sur une carte. La mthode a t dcrite par Legendre, Oden, Sokal, Vaudor et Kim (1990). Lacronyme COCOPAN vient du nom anglais de la mthode, C ontiguity-c onstrained permutational A NOVA. Le principe de ce test par permutations consiste garder les localits immobiles, chacune conservant ses valeurs des diffrentes variables, de faon prserver la structure dautocorrlation. On permute plutt le critre de classification, soit la division de la carte en sous-rgions, avec les contraintes suivantes: chaque pseudo-rgion doit contenir le mme nombre de localits que la rgion dorigine quelle reprsente; chaque pseudo-rgion doit demeurer connexe, i.e., former une surface continue sur la pseudo-carte; enfin, les pseudo-rgions doivent occuper toute la carte dorigine, sans omission de localits ni dpassement. Le programme contient deux algorithmes permettant de rsoudre ce problme informatique: lalgorithme des cercles concentriques, conu par Alain Vaudor, et la mthode de larborescence alatoire, dveloppe par Junhyong Kim. Plusieurs variables peuvent tre analyses en une seule passe. La statistique utilise dans le test permutationnel est la somme, pour tous les groupes, des sommes de carrs intragroupes (SCE). Aprs chaque permutation, on recalcule la statistique SCE pour cette pseudo-carte; on compare enfin la valeur SCE obtenue pour la vraie carte la distribution des valeurs de SCE obtenues pour les pseudo-cartes. Le test est donc unilatral et la rgion critique se trouve lextrmit gauche de la distribution. Si vous utilisez une version du programme pour grands ordinateurs, vrifiez les constantes au dbut du programme (dclaration CONST) pour vous assurer quil pourra traiter votre problme; vrifiez en particulier la valeur de MAXLOC (nombre maximum de localits), MAXGROUPES (nombre maximum de groupes, limit 255 dans la version Macintosh) et MAXVAR (nombre maximum de variables). Vous pouvez changer ces valeurs pour traiter des problmes plus importants. Choisissez galement la langue de conversation du programme: LANG = 1 pour le franais. Fichiers dentre et de sortie
Donnes brutes
COCOPAN
Rsultats statistiques
Liste des liens
Coordonnes
Cartes
Outre les fichiers INPUT et OUTPUT qui reprsentent le clavier et lcran du terminal ou du microordinateur, trois fichiers dentre sont ncessaires ce programme; celui-ci produit, par ailleurs, deux fichiers de sortie. Le premier fichier dentre est le mme quen analyse de variance ordinaire, soit les diffrentes variables analyser ainsi que le critre de classification. Pour tenir compte de la structure spatiale, un second fichier est ncessaire, qui indique au programme quelles sont les localits
32
LE PROGICIEL R
voisines sur la carte. Enfin, si on dsire obtenir des cartes, il faut fournir au programme un troisime fichier prcisant les coordonnes gographiques de chaque localit. En sortie, on peut obtenir un fichier de statistiques ainsi que des cartes, qui sont crites sur un second fichier dans les versions pour grands ordinateurs. Tous ces fichiers sont crits en caractres lisibles (ASCII). (1) Fichier des donnes Les lignes de ce fichier correspondent aux diffrentes localits (objets). Les premires N colonnes sont les N variables analyser; la dernire colonne contient le critre de classification (groupe gographique), cod en entiers de 1 jusquau nombre de groupes k; cette valeur doit tre strictement infrieure la constante MAXGROUPES, dans la liste des constantes en tte du programme, pour les versions VMS/CMS. Ce fichier, qui porte le nom de DATAFILE dans le programme PASCAL, devrait tre compatible avec les formats dentre de la plupart des logiciels statistiques standards, ce qui permet de raliser aisment une ANOVA standard, pour fins de comparaison. Le programme COCOPAN ne peut traiter les donnes manquantes; lutilisateur doit sassurer que les localits avec donnes manquantes ont t limines des trois fichiers dentre, ou que les valeurs manquantes ont t estimes, par interpolation ou autre mthode, avant cette analyse. (2) Liste des liens entre les objets Ce fichier, qui porte le nom de LINKS dans le programme PASCAL, fournit au programme une liste des liens entre paires de localits voisines. Chaque lien est reprsent par une paire de numros de localits, crits en format libre et spars par au moins un espace. Ce fichier peut tre fabriqu laide du programme CONNEXIONS (version Macintosh) ou du programme AUTOCOR (versions VMS ou CMS); voir la description de ces programmes. Puisquil est crit en ASCII, ce fichier peut tre dit par lusager (addition ou limination de certains liens), ou encore crit entirement par lui, laide de son diteur ASCII. Cet lment de flexibilit permet de traiter des problmes reprsentant un volume plutt quune surface, pour autant que lon fournisse au programme une liste de liens reprsentant les relations de voisinage entre points-objets en trois dimensions. (3) Liste des coordonnes (X, Y) Ce fichier, qui porte le nom de COORD dans le programme PASCAL, contient la liste des coordonnes gographiques (X et Y) des localits. Il est requis si lon dsire imprimer des cartes, soit la carte dorigine ainsi que les cartes permutes, ainsi que pour le calcul de la statistique de Diamtre de l'Ensemble (DE) pour chaque pseudo-groupe. Pour que les cartes soient imprimes correctement, les coordonnes en abscisse doivent aller de la droite vers la gauche, comme les longitudes louest de Greenwich, et les valeurs en ordonne du bas vers le haut, comme les latitudes de lhmisphre nord. Autrement, les cartes pourront tre inverses. La version Macintosh peut tourner les cartes, si ncessaire, pour les adapter la forme de lcran. (4) Fichier des rsultats statistiques Le premier fichier de rsultats, qui porte le nom de STATIS dans le programme PASCAL, contient les statistiques dtailles (voir ci-dessous). (5) Fichier des cartes Ce fichier, qui porte le nom de GRAPHICS dans le programme PASCAL, est optionnel et ne sera fourni que si lusager demande que les cartes soient produites. Il sagit dun fichier spar dans les versions pour grands ordinateurs; dans la version Macintosh, les cartes sont produites directement lcran. On peut ainsi reproduire et examiner la carte dorigine ainsi que les cartes permutes (pseudo-cartes). Voir lexemple ci-dessous.
LE PROGICIEL R
33
Les questions du programme Les questions prsentes par le programme sont dcrites dans les paragraphes qui suivent. (1) Combien de permutations de la carte faut-il raliser ? On indique combien de permutations sont requises. Puisque les probabilits sont calcules en incluant les statistiques de la vraie carte parmi les rsultats que lon peut obtenir sous H 0 (mthode de Hope, 1968: voir plus bas), il convient de compter une permutation de moins que le nombre de cas dsirs. Par exemple, pour un total de 1000 statistiques dans la distribution, il faut demander 999 permutations alatoires des rgions dfinies par le critre de classification. Selon la taille du problme, la vitesse de lordinateur disponible et la prcision dsire, on demande souvent de 249 999 permutations, ou plus. (2) Initialisation du gnrateur de nombres alatoires: Tapez un ENTIER entre 1 et 100. Avant que ne commencent les calculs proprement dits, le gnrateur de nombres pseudo-alatoires est appel pour rien le nombre de fois spcifi en rponse cette question; chaque appel change le point de dmarrage du gnrateur pour la valeur suivante. Le changement du point de dmarrage de ce gnrateur est un moyen simple dobtenir un jeu diffrent de cartes permutes, pour un mme problme. (3) Mthode des cercles concentriques, plutt que l'arborescence alatoire ? (Tapez O pour la mthode des cercles concentriques, N pour l'arborescence alatoire.) Les deux algorithmes sont dcrits en annexe de larticle cit plus haut, dcrivant la mthode COCOPAN. Leurs avantages respectifs sont les suivants: la mthode des cercles concentriques produit des groupes moins allongs, alors que lalgorithme de larborescence alatoire est plus rapide; il a t employ pour traiter des problmes comportant plus de 1300 localits, et ceci est encore loin de sa limite. (4) Si on a choisi lalgorithme des cercles concentriques, le programme prsente la question suivante: Combien de fois peut-on tenter de dplacer les groupes ? (Recommand: 3-5) Ceci correspond ltape 1.3.2 dans la description de lalgorithme, en annexe de larticle (op. cit.). Aprs avoir essay le nombre de fois spcifi en rponse cette question, la carte est mise de ct si elle na pas t complte. (5) galement pour lalgorithme des cercles concentriques: Jusqu' combien de points manquants doit-on tenter de complter une carte de force ? (Recommand: 1) Il sagit ici de ltape 1.3.3 dans la description de lalgorithme. Sil ne manque que quelques points pour complter la dernire pseudo-rgion (le nombre maximum de points manquants tant spcifi en rponse cette question), le programme trouve le chemin le plus court entre les cases encore inoccupes et le pseudo-groupe complter, et dplace toute la chane des assignations le long de ce parcours pour forcer la cration de cases libres adjacentes ce groupe, lui permettant ainsi de complter son jeu de localits. (6) FICHIER DES CARTES: Dessiner les cartes ? (O ou N) Lusager peut demander que les cartes (la carte dorigine ainsi que toutes les pseudo-cartes) soient copies dans un fichier (versions VMS ou CMS), ou encore, dans la version Macintosh, quelles apparaissent lcran, do elles pourront tre imprimes. (7) Inscrire en reprsentation code quelles localits forment chaque groupe ? (O ou N) Cette sortie est crite dans le fichier des cartes (versions VMS et CMS) ou dans le fichier des rsultats statistiques (version Macintosh). Elle se prsente comme suit:
----++++--++++++-+++++----+---------------------------------------------------------------+++----+++----+++----++++----+++--+++ ++++----++------+-----++++----++++---++++---++++----++++---++-----------------------------------------------------------------16 19 29 0
34
LE PROGICIEL R
Dans cet exemple, il y a trois groupes correspondant respectivement la premire, la deuxime et la troisime ligne, identifies par les cardinalits 16, 19 et 29. La quatrime ligne (cardinalit de 0) reprsenterait les localits non assignes, dans le cas de cartes non compltes. Pour chaque groupe de la vraie carte (et de la mme faon pour chaque groupe de chacune des pseudo-cartes), on trouve une ligne de caractres reprsentant toutes les localits de ltude, dans lordre o elles apparaissent dans le fichier de donnes. Ces caractres sont des plus (+) pour les localits prsentes dans le groupe en question, et des moins (-) pour les localits ne faisant pas partie de ce groupe. Lorsquil y a plus de 80 localits dans ltude, la chane de caractres reprsentant chaque groupe prend plus dune ligne; dans ce cas, la premire ligne est dabord crite pour tous les groupes, puis la seconde ligne pour tous les groupes, et ainsi de suite. Puisque cette reprsentation code contient toute linformation quant lappartenance des localits, dabord pour la vraie carte puis pour chacune des pseudo-cartes, elle peut donc tre employe comme fichier dentre pour dautres programmes. Ainsi, les pseudo-cartes produites par COCOPAN pourront tre employes pour calculer des statistiques additionnelles sur la forme des pseudo-groupes ou la distribution des localits, ou encore pour raliser dautres analyses bases sur les pseudo-cartes COCOPAN (MANOVA, analyse de variance non paramtrique, analyse discriminante, etc.). Cette sortie nest pas utile dans les applications routinires de COCOPAN. (8) Inscrire quel no de groupe a t attribu chaque localit ? (O ou N) Voici une autre sortie qui contient toute linformation quant la position des localits parmi les groupes, pour la vraie carte ainsi que pour chacune des pseudo-cartes. Cette sortie est crite dans le fichier des cartes (versions VMS ou CMS) ou encore dans le fichier des rsultats statistiques (version Macintosh). Elle se prsente comme une liste des localits, avec le numro du groupe attribu chacune delles. En voici un exemple:
3 3 3 2 3 1 3 2 3 1 2 2 3 1 2 2 1 1 2 3 1 1 3 3 1 3 3 3 1 3 3 3 3 3 3 2 3 3 2 2 1 1 2 2 1 2 2 3 1 2 3 3 1 2 3 2 1 3 3 2 1 3 3 2
Dans cet exemple, on apprend que les quatre premires localits appartiennent au groupe 3, les quatre suivantes au groupe 1, et ainsi de suite (comparer avec la reprsentation code du paragraphe prcdent). Cette sortie peut servir aux mmes fins que la sortie du paragraphe prcdent. Elle nest pas utile dans les applications routinires de COCOPAN. (9) DEBUG: Inscrire toutes les cartes et/ou les listes de bits, mme pour les cartes rejetes ? (O ou N) Il sagit ici des sorties dcrites aux points (6) (8) ci-dessus; cette question napparat que si on a choisi lalgorithme des cercles concentriques. On rpond Oui si on dsire en savoir davantage sur les cartes qui ont t rejetes. Elle a t prvue en vue didentifier les problmes qui empchent la formation de pseudo-cartes, tels que les tranglements dans la chane des liens de voisinage. (10) Largeur des cartes (en nombre de caractres) ? Dans les versions VMS et CMS du programme, vous pouvez choisir la largeur des cartes requises la question 6, en fonction du terminal que vous utilisez et de la taille des cartes dsires. Ces cartes simples sont composes laide des caractres du clavier et leur largeur est calcule en nombre de caractres (voir lexemple plus bas). Cette question napparat pas dans la version Macintosh, qui produit lcran des cartes au trait pouvant tre reproduites sur imprimante Laser. (11) Nombre de variables analyser ? Indiquer ici combien il y a de variables dans le fichier de donnes, sans compter le critre de classification qui forme la dernire colonne de ce fichier (voir la description du fichier des donnes, ci-dessus). (12) Diamtre des ensembles (Set Diameter) ? (O ou N) Cette statistique (DE) est dcrite plus en dtail dans larticle (op. cit., voir Set Diameter). Il sagit du diamtre du plus petit cercle qui contient toutes les localits membres dun groupe ou dun pseudo-groupe. Ce diamtre est calcul en tenant compte de la courbure de la terre, sous lhypothse que les coordonnes X et Y du fichier de coordonnes sont exprimes en degrs; le diamtre, pour sa part, est exprim en minutes darcs (ce qui
LE PROGICIEL R
35
est quivalent des milles marins). Ces statistiques permettent de comparer le diamtre des pseudogroupes produits par le programme au diamtre des groupes dorigine. (13) Probabilits des diamtres d'ensembles ? (O ou N) Si on choisit cette option, le fichier des statistiques contiendra un tableau donnant la probabilit, pour chaque groupe, de trouver parmi les permutations effectues des pseudo-groupes ayant un diamtre plus petit ou gal au diamtre de ce groupe sur la vraie carte. Voir les remarques ci-dessous sur le calcul des probabilits permutationnelles; voir aussi lexemple. (14) Diamtre en nombre de liens (Path Length) ? (O ou N) (Attention: temps de calcul lev s'il y a beaucoup de points.) Cette seconde statistique (DNL) de la forme des groupes nest pas dcrite dans larticle. Le but est le mme quavec la mesure des diamtres densembles: il sagit de comparer le diamtre des pseudo-groupes produits par le programme au diamtre des groupes dorigine. Le diamtre est cependant mesur diffremment; la mesure est le nombre minimum de liens (voir la description du fichier des liens ci-dessus) ncessaires pour rejoindre les deux localits les plus loignes (galement en terme de nombre de liens) dans le groupe ou le pseudo-groupe. Le message rappelle lusager que cette statistique est trs coteuse calculer pour de grands jeux de donnes. (15) Probabilits des diamtres en nombre de liens ? (O ou N) Ces probabilits sont calcules comme dcrit en (13), pour les diamtres en nombre de liens. (16) Statistiques pour CHAQUE carte ? (O ou N) Si on choisit cette option, la statistique de Somme des Carrs des carts (SCE) est rapporte pour chaque groupe (i) sparment [SCE(i)] et pour lensemble du problme [SCE = somme des SCE(i)], et ce pour chaque carte (cest--dire pour la vraie carte et pour chacune des pseudo-cartes). Si elles ont t demandes aux questions (12) et (14), les statistiques de forme des groupes, DE et DNL, sont aussi fournies pour chaque carte. V lexemple oir ci-dessous. Que lon ait choisi ou non cette option, un tableau-synthse est prsent lcran ainsi que dans le fichier des statistiques. Voir lexemple ci-dessous. Pour chaque groupe, ce tableau prsente la probabilit de trouver, parmi les permutations effectues, des pseudo-groupes ayant une SCE(i) plus petite ou gale celle de ce mme groupe sur la vraie carte. Ceci nous informe sur lhomognit interne de chaque groupe de la vraie carte, par comparaison lhomognit de groupes connexes, forms au hasard sur la carte, possdant le mme nombre de localits. La dernire ligne de ce tableau (TOTAL) prsente les rsultats principaux de lanalyse de variance, cest--dire la probabilit de trouver parmi les permutations effectues des valeurs SCE plus petites ou gales celle de la vraie carte. Ce tableau est rpt pour chaque variable de ltude. (17) Statistiques quant la frquence des localits dans chaque groupe? (O ou N) Pour chaque groupe tour de rle, une liste est crite sur le fichier des statistiques qui nous informe sur le nombre de fois o chaque localit a t choisie pour faire partie du groupe en question; par exemple (pour 500 permutations alatoires):
Frquence des localits dans le groupe 1 100 107 101 112 120 124 119 117 139 135 119 115 113 135 141 136 159 148 139 113 97 87 111 157 109 117 148 144 139 124 119 105 130 119 111 94 123 134 145 151 112 127 129 128 Frquence des localits dans le groupe 2 170 166 167 149 130 129 131 132 136 128 133 133 159 148 140 148 107 135 149 122 128 120 127 135 147 127 126 114 125 141 98 136 138 128 136 109
169 134
167 128
147 166
163 164
36
LE PROGICIEL R
134 128 139 133 127 124 176 146 129 172 167 129 125 138 139 143 137 144 148 147 176 176 158 144 187 162 157 148 Frquence des localits dans le groupe 3 230 227 232 239 250 247 250 251 225 237 248 252 228 217 219 216 207 224 222 254 276 289 213 197 262 211 185 227 236 238 242 252 233 237 241 259 201 190 197 205 201 211 214 224
135 182 154
123 170 148
144 163 150
140 136 185
224 231 216 196 218
213 245 242 183 225
227 220 231 196 252
201 198 232 228 206
Pour ce problme comportant 64 localits (les trois groupes comportant respectivement 16, 19 et 29 localits), on apprend par exemple que la premire localit de la liste a t choisie 100 fois (sur 500 tentatives) pour faire partie du groupe 1, alors qu 170 reprises elle a fait partie du groupe 2 et 230 reprises du groupe 3. Pour les problmes o la densit des connexions nest pas uniforme, cette liste informe le chercheur si lattribution des localits aux diffrents groupes sest faite au hasard ou non. Ce problme est discut plus fond dans la section 3.2 de larticle (op. cit.), o il est montr que lattribution des localits aux pseudo-groupes peut tre ingale dans des rseaux densit de connexion trs variable. (18) Si on a choisi lalgorithme de larborescence alatoire, la question suivante est pose: Combien d'arbres alatoires permettez-vous d'avorter avant que le programme ne s'arrte? On recommande 10*(N de permutations). Il peut tre ncessaire dans certains problmes daccrotre cette valeur pour permettre de complter les pseudo-cartes. Il y a cependant peu de chances que cela se produise. Prire de nous rapporter ces cas. Les probabilits obtenues par permutations sont calcules selon la mthode de Hope (1968), mthode recommande galement par Edgington (1987); celle-ci consiste inclure la valeur observe parmi les gaux de la distribution de rfrence, de sorte qu'il n'est jamais possible d'obtenir 0% de valeurs plus petites ou gales la valeur observe. Selon Edgington, cette faon de faire introduit un biais mais elle a le mrite d'tre valide. La prcision de cette probabilit est l'inverse du nombre de permutations demandes par l'usager. Exemple Lexemple ci-dessous illustre lutilisation du programme sur grands ordinateurs (systme VMS ou CMS; cet exemple a t ralis sous VMS). Le programme de lancement demande d'abord l'usager d'identifier les fichiers qui seront utiliss; les rponses sont soulignes. Puis, aprs l'en-tte du programme, viennent les questions poses par le programme lui-mme pour identifier quelles sont les options de calcul que dsire l'usager.
Programme COCOPAN Quel est le nom du fichier principal de DONNEES, contenant les variables ainsi que le critere de classification? (Par defaut: "... data a") donnees Quel est le nom du fichier contenant les LIENS entre localites? (Par defaut: "... data a") liens Quel est le nom du fichier des COORDONNEES geographiques?
LE PROGICIEL R
37
Ce fichier n'est requis que si vous desirez imprimer les cartes, ou encore si vous demandez a calculer le diametre des groupes (defaults are "... data a") coordxy Sur quel fichier les CARTES devront-elles etre imprimees? (Optionnel; par defaut: "CARTES data a")
Sur quel fichier les STATISTIQUES detaillees devront-elles etre inscrites? (Par defaut: "STATIS data a")
P r o g r a m m e
C O C O P A N
--
C a r t e s
(ANOVA par permutations sous contrainte de contiguite) Reference: Legendre, P., N.L. Oden, R.R. Sokal, A. Vaudor and J. Kim. 1990. Approximate analysis of variance of spatially autocorrelated regional data. J. Class. 7: 53-75. Credits -Programme et algorithme des cercles concentriques: Alain Vaudor, Departement de sciences biologiques, Universite de Montreal, C.P. 6128, Succursale A, Montreal, Quebec H3C 3J7. Algorithme de l'arborescence aleatoire: Junhyong Kim, State University of New York at Stony Brook. Combien de permutations de la carte faut-il realiser ? 999 Initialisation du generateur de nombres aleatoires: Tapez un ENTIER entre 1 et 100. 50 Methode des cercles concentriques, plutot que l'arborescence aleatoire ? (Tapez O pour la methode des cercles concentriques, N pour l'arborescence aleatoire.) n FICHIER DES CARTES: Dessiner les cartes ? (O ou N) n Inscrire en representation codee quelles localites forment chaque groupe? (O ou N) n Inscrire quel no de groupe a ete attribue a chaque localite ? (O ou N) n Nombre de variables a analyser ? 1 FICHIER DES STATISTIQUES: Diametre des ensembles (Set Diameter) ? (O ou N) o
38
LE PROGICIEL R
Probabilites des diametres d'ensembles ? (O ou N) o Diametre en nombre de liens (Path Length) ? (O ou N) (Attention: temps de calcul eleve s'il y a beaucoup de points.) o Probabilites des diametres en nombre de liens ? (O ou N) o Statistiques pour CHAQUE carte ? (O ou N) o Statistiques quant a la frequence des localites dans chaque groupe? (O ou N) n Combien d'arbres aleatoires permettez-vous d'avorter avant que le programme ne s'arrete? On recommande 10*(N de permutations). 10000 Probabilites des statistiques SCE: Variable Groupe 1 A 1 B 1 C 1 total Fin du programme. Plus petits 597 170 249 22 Egaux 1 1 1 1 N.cartes Prob(H0) 1000 0.5980 1000 0.1710 1000 0.2500 1000 0.0230
Contenu du fichier de rsultats statistiques Dans ce fichier de rsultats, les numros lextrme gauche rfrent aux numros de la section Les questions du programme ci-dessus.
C O C O P A N - Fichier des statistiques Le fichier des liens contient: Nombre total de liens: 203 Nombre moyen de liens: 3.17187 Ecart type : 1.84493 Variance du n. liens : 3.40377 DE est le diametre de l'ensemble (pour chaque groupe, en min. d'arc) DNL est le diametre en nombre de liens (pour chaque groupe) SCE pour chaque groupe, puis pour l'ANOVA, pour les variables V(1) a V(n) N. loc. (16) Carte no DE DNL SCE v 1 Carte no DE DNL 0 402.259 6 117.726 1 515.492 8 515.492 8 515.492 7 423.800 6 94.234 509.695 9 188.758 16 19 29
[Nombre de localits dans chaque groupe] [La carte 0 est la vraie carte]
400.719
[v 1 signifie variable 1]
LE PROGICIEL R
39
Carte no DE DNL SCE v 1
2 423.219 5 121.579 383.449 5 55.596 592.866 9 236.485
413.660
[etc.]
Carte no DE DNL SCE v 1 Carte no DE DNL SCE v 1 998 383.569 5 42.540 999 423.800 5 102.966 483.294 7 214.898 636.466 11 245.102
502.540
383.449 5 58.035
515.492 8 322.877
483.878
(16) Probabilites des statistiques de SCE:
[Les gaux incluent la carte 0, qui est la vraie carte]

Variable 1 1 1 1 Groupe A B C total Plus petits 597 170 249 22 Egaux 1 1 1 1 N.cartes Prob(H0) 1000 0.5980 1000 0.1710 1000 0.2500 1000 0.0230
(13) Probabilites des statistiques DE: Groupe 1 2 3 Plus petits 462 257 137 Egaux Prob(H0) 23 0.4850 43 0.3000 13 0.1500
(15) Probabilites des statistiques DNL: Groupe 1 2 3 Plus petits 389 195 582 Egaux Prob(H0) 216 0.6050 203 0.3980 172 0.7540
40
LE PROGICIEL R
Fichier des cartes Les trois cartes ci-dessous illustrent le type de cartes qui peuvent tre imprimes sur une imprimante rgulire, laide des versions VMS et CMS du programme. Ces cartes montrent comment les groupes dorigine (carte 0) peuvent tre dplacs par lalgorithme. La version Macintosh, quant elle, produit des cartes au trait dans lesquelles chaque groupe est dlimit par une enveloppe.
Carte no 0 -----------------------!C C B B B ! ! ! !C C C C B B B ! ! ! !C C C C B B B B! ! ! !C C C C B B B ! ! ! !C C C C B B B ! ! ! !C C C C A B B B! ! ! !C A A A A A ! ! ! !C C A A A A A A! ! ! !C C C C A A A A! -----------------------Carte no 1 -----------------------!B B A A A ! ! ! !B B B A A A A ! ! ! !B B B A A A A A! ! ! !B B B B A A A ! ! ! !B B B B A C C ! ! ! !B B C C C C C C! ! ! !B C C C C C ! ! ! !C C C C C C C C! ! ! !C C C C C C C C! -----------------------Carte no 2 -----------------------!C C C C C ! ! ! !C C C C C C C ! ! ! !C C C C C C C C! ! ! !B C C C C C C ! ! ! !B B A A A A C ! ! ! !B B B A A A C C! ! ! !B B A A A A ! ! ! !B B B B B A A A! ! ! !B B B B B B A A! ------------------------
LE PROGICIEL R
41
CONNEXIONSMacintosh
Que fait CONNEXIONS ? Ce programme permet de raliser diffrents schmas de connexions entre localits voisines dans lespace (1 ou 2 dimensions) et dinscrire les liens de proximits dans un fichier; certains programmes danalyse spatiale, tels que le programme dautocorrlation spatiale, les programmes de groupement avec contrainte de contigut spatiale BIOGO et K-MEANS, ainsi que la mthode danalyse de variance COCOPAN, utilisent ces fichiers comme information relative aux liens de voisinage qui existent entre les localits. Le programme CONNEXIONS nexiste quen version Macintosh. La plupart de ses fonctions sont disponibles, pour les versions CMS et VMS, dans le programme AUTOCOR. Lorsque les points forment une grille rgulire sur la carte, il est ais de relier les plus proches voisins par des schmas de connexions simples nomms par rfrence au jeu dchecs (Cliff & Ord, 1981): mouvement de la tour (en carr), du fou (en diagonale) ou du roi (appel aussi mouvement de la reine: en carr et en diagonale). Lorsque les localits sont disposes de faon irrgulire, on peut employer des mthodes de connexion gomtriques telles que le critre de connexion de Gabriel (Gabriel & Sokal, 1969), la triangulation de Delaunay (Upton & Fingleton, 1985) ou le schma de voisinage relatif. Il existe une relation dinclusion entre ces schmas de connexion: tous les liens qui peuvent tre tablis par le schma de voisinage relatif sont aussi inclus dans le schma de connexion de Gabriel, ceux-ci se retrouvant tous dans la triangulation de Delaunay: V oisinage relatif Critre de Gabriel Triangulation de Delaunay Fichiers dentre et de sortie Fichier de coordonnes (1) Fichier des coordonnes Pour la triangulation de Delaunay, le schma de connexion de Gabriel et le schma de voisinage relatif, il faut fournir au programme un fichier des coordonnes gographiques des localits. Chaque ligne de ce fichier doit contenir deux informations, comme suit: Coordonne en X Coordonne en Y CONNEXIONS Fichier de liens
Les coordonnes doivent tre fournies sous la forme de nombres entiers ou de rels ( i.e., nombres dcimaux) et non sous la forme de degrs-minutes-secondes. Ces donnes sont lues en format libre; autrement dit, le nombre despaces avant ou aprs chaque chiffre nimporte pas. Pour une grille rgulire de localits, aucun fichier dentre nest requis. (2) Sortie: Fichier des liens Ce fichier ASCII contient une liste de liens entre paires d'objets (points) voisins, tel que le permet la connexion (option) qui a t utilise lors de l'excution du programme. Chaque lien est reprsent par le numro des deux points quil relie. Lexemple qui suit correspond une grille rgulire de 4 lignes et 5 colonnes (20 localits), mouvement du roi:
42
LE PROGICIEL R
1 11 6 14 7 17 13
2 12 1 9 3 13 7
2 12 7 15 8 18 14
3 13 2 10 4 14 8
3 13 8 16 9 19 15
4 14 3 11 5 15 9
4 14 9 17 11 7 17
5 15 4 12 7 1 11
6 16 10 18 12 8 18
7 17 5 13 8 2 12
7 17 11 19 13 9 19
8 18 6 14 9 3 13
8 18 12 20 14 10 20
9 19 7 15 10 4 14
9 19 13 6 16 12
10 20 8 2 12 6
Il est noter que l'utilisateur peut diter ce fichier ASCII; il peut enlever des liens ou en ajouter, selon les besoins de son tude. Options Lexpos des options du programme contient galement des exemples dutilisation. (1) Grille rgulire Si les points sont disposs selon une grille rectangulaire rgulire, il nest pas ncessaire de fournir une liste des coordonnes. Le programme demande dabord la taille de cette grille (nombre de colonnes, nombre de lignes), puis les traits qui sont dsirs: traits horizontaux, verticaux, de pente positive et de pente ngative. La figure de gauche, ci-dessous, illustre une connexion de la tour (traits horizontaux et verticaux), alors que celle de droite prsente une connexion du roi (traits dans les quatre directions). Pour lexemple de droite, la liste des liens est fournie ci-dessus, les points tant numrots par ligne, de 1 20, comme on lit un texte.
tant donn une grille rgulire dune certaine taille, le programme offre la possibilit dliminer certains points de la grille. On doit dabord indiquer combien de points devront tre limins, puis identifier ces points, en supposant une numrotation de gauche droite sur chaque ligne, et du haut vers le bas. Ainsi, on pourrait liminer les points nos 1, 4, 14 et 16 des grilles de 20 points ci-dessus et obtenir le schma suivant (connexion de la tour) qui ne contient plus que 16 points:
1 4 9 5 10 13 2 6 11 14 15 7 3 8 12 16
(2) Transposition des axes Aprs avoir lu le fichier des coordonnes des points, le programme prsente lcran un aperu (i.e., une carte) de la position des points. Lusager peut alors transposer labscisse (ordonnant les points de droite gauche plutt que de gauche droite) ainsi que lordonne (ordonnant les points du haut vers le bas plutt que du bas vers le haut). Les figures suivantes conserveront lordre ainsi tabli.
LE PROGICIEL R
43
(3) Triangulation de Delaunay Le critre de la triangulation de Delaunay (Dirichlet, 1850; Upton & Fingleton, 1985) est le suivant. Etant donn trois points A, B et C, le triangle reliant ces trois points sera inclus dans la triangulation si et seulement si le cercle (illustr gauche) qui passe par ces trois points ninclut aucun autre point de lensemble ltude. Ainsi, le fichier de coordonnes (au centre) donnera naissance la triangulation prsente droite (N.B. ne PAS inclure les numros de points dans VOTRE fichier): No des points A B
1 2 3 4 5 6 7 8 9
Coordonnes
0 1 2 2 4 5 8 7.5 8 3 5 2 1 4 2 0 3 5
5 8 3 6 4
Cette triangulation compte les 19 liens suivants:

1 5 7 4 6 9 1 3 7 2 6 8 1 2 8 3 5 9 2 5 3 9 2 4 9 6 3 5 4 8 4 6 7 8 5 6 3 7
De longs liens peuvent se former en priphrie dun nuage de points, simplement parce que lchantillonnage ninclut pas dautres points situs plus loin (effet de bordure); par exemple, les liens 2 - 9 et 7 - 9 ci-dessus pourraient ne pas avoir t forms si le nuage de points avait t plus grand. On peut toujours diter le fichier des liens et liminer les liens (paires de chiffres) entre objets priphriques trop loigns. Une autre possibilit consiste demander au programme de raliser cette opration pour nous. Pour ce faire, on imposera des contraintes au nuage de points. Ces contraintes sont des points supplmentaires, placs des endroits judicieux et inclus dans lanalyse, dont la prsence empchera la formation des longs liens priphriques indsirables; les liens entre ces points supplmentaires et les vrais points ne seront cependant pas transcrits dans le fichier des liens. Ces points supplmentaires peuvent tre fournis de deux faons diffrentes. On indiquera la manire choisie en rponse au dialogue propos par le programme:
Contraintes - Contraintes rectangulaires - Pas de contrainte - Contraintes dans le fichier dentre
Contraintes rectangulaires Le programme CONNEXIONS contient un algorithme permettant de gnrer automatiquement des contraintes rectangulaires. Pour les points de lexemple ci-dessus, dont le rsultat est prsent de nouveau gauche ci-dessous, les deux traits gras sont ceux qui seront limins par les contraintes. Lalgorithme inclut dabord quatre objets supplmentaires aux coins dun cadre rectangulaire imaginaire lgrement plus grand que le nuage de points ltude; ces objets supplmentaires sont reprsents droite par des points foncs. la suite du calcul de la triangulation, ces points supplmentaires forment des liens avec les vrais points-objets, et cest la prsence de ces liens (en tirets) qui empche la formation des deux liens en gras gauche. Les liens
44
LE PROGICIEL R
les points supplmentaires ne sont pas inclus dans la liste des liens.
Contraintes dans le fichier dentre Lusager peut galement fournir lui-mme comme contraintes, dans le fichier dentre, des points supplmentaires judicieusement disposs; ces points sont dcrits dans le fichier par leurs coordonnes en X et en Y, comme les vrais points-objets de lanalyse. Si, par exemple, on avait inclus 6 points supplmentaires de contrainte dans le fichier dentre la suite des 9 points-objets rels, on aurait d indiquer au programme quil y a 9 vrais points dans lanalyse; puis, en rponse une question supplmentaire prsente aprs quon ait indiqu que les contraintes se trouvent dans le fichier dentre, il aurait fallu dire quil y a galement 6 points de contrainte dans le fichier. Pas de contrainte Aucun point supplmentaire nest inclus dans le calcul de la triangulation. On pourra toujours diter le fichier des liens laide dun diteur ASCII ou dun traitement de texte et liminer la main les liens (paires de chiffres) entre objets priphriques trop loigns, sil y a lieu. (4) Polygones dinfluence Il peut tre intressant de dterminer la zone dinfluence gomtrique de chacun des points. La zone dinfluence dun point-objet A inclut tous les autres points du plan qui sont plus prs de A que de tout autre point-objet de ltude. Les zones dinfluence ainsi dfinies ont la forme de polygones, appels aussi des tesselles (n.f.). La figure quils forment sappelle une mosaque ou un pavement (tessellation en anglais; adjectif en franais: tessell); on sy rfre souvent comme la mosaque de Dirichlet (1850), les polygones de Vorono (1909) ou les polygones de Thiessen (1911), du nom des auteurs qui ont dabord dcrit ces structures mathmatiques. On peut aisment construire ces polygones partir dune triangulation de Delaunay, dont ils forment le complment logique. Il suffit en effet de trouver la mdiatrice de chaque trait de la triangulation; lintersection des mdiatrices dlimite les polygones recherchs. Upton & Fingleton (1985) ainsi que Isaaks & Srivastava (1989) prsentent diffrentes applications de ces mosaques en analyse spatiale. Le programme offre lusager les choix suivants:
Choix des traits - Triangulation seulement - Polygones seulement - Triangulation et polygones
Pour la figure qui suit, on a choisi loption Triangulation et polygones; la triangulation de Delaunay est en gris et la mosaque de Dirichlet en noir. Les points-objets, numrots, se trouvent prs du centre des tesselles, mais pas ncessairement en leur centre de masse. La raison en est que la position de la division entre deux tesselles dpend de lloignement des plus proches voisins dans cette direction.
LE PROGICIEL R
45
2 5 1 3 6 4 8
7 Lusager a accs aux diffrentes options qui se trouvent dans le menu droulant intitul Dessin:
Dessin - Afficher le nombre de liens - Imprimer le dessin - Dessiner sur fichier PICT - Ecrire surfaces - Terminer
Ce menu est accessible aprs toutes les options de schmas de connexion, mais loption Ecrire surfaces nest disponible quaprs avoir produit la mosaque de Dirichlet. Cest pourquoi ce menu est prsent ici. Afficher le nombre de liens Le nombre de liens qui ont t crits dans le fichier est affich lcran. Comme certains programmes qui utilisent ce fichier demanderont connatre ce nombre, il est prudent de linclure dans le nom du fichier de liens. Imprimer le dessin Le dessin est imprim par limprimante branche lordinateur. En particulier, puisque les imprimantes laser et les photocopieuses acceptent les transparents, le dessin pourra tre reproduit sur transparent si on dsire le superposer un fond de carte existant. Dessiner sur fichier PICT Le contenu du dessin est conserv en format PICT sur un fichier dont le nom est fourni par lusager. Ce fichier peut tre relu par tout programme graphique Macintosh, tel MacDraw, SuperPaint, etc. Le dessin peut donc tre dit avant dtre imprim, ou encore incorpor un texte (MacWrite, Word, LaserWriter, etc.). Les figures prsentes dans cette section ont t en grande partie produites par ce moyen. crire surfaces Il peut tre utile de connatre laire de chaque polygone. Ces mesures de surface peuvent tre inscrites dans un fichier (ci-dessous), dont le nom est fourni par lusager. Les surfaces sont dans les mmes units (au carr) que les mesures de coordonnes dorigine. Dans certains cas, les polygones priphriques sont ferms, mme si leur limite se situe en dehors de la surface reproduite sur le dessin (taille de lcran). Dans dautres cas, les polygones priphriques sont ouverts et nots comme tels dans le fichier ci-dessous.
1 2 3 4 5 6 7 Ouvert Ouvert 4.62500 Ouvert 15.49844 10.06532 Ouvert
46
LE PROGICIEL R
8 11.95391 9 Ouvert
(5) Schma de connexion de Gabriel Le critre du schma de connexion de Gabriel (Gabriel & Sokal, 1969) diffre de celui de Delaunay, de la faon suivante. Relions deux points A et B par un trait. Ce trait fera partie du schma de connexion si aucun autre point C ne se trouve lintrieur du cercle dont ce trait est le diamtre. En dautres termes, le trait entre A et B sera retenu pour faire partie du schma de connexion si D 2 A , B < D2 A , C + D2 B , C pour tout autre point C de ltude (D2 A , B reprsente le carr de la distance gographique entre les points A et B). Une autre faon dexprimer ce critre est la suivante: si Centre reprsente le point central entre A et B, alors le trait entre A et B sera retenu pour faire partie du schma de connexion si DA , B/2 < DC e n t r e , C pour tout autre point C de ltude. Lexemple ci-dessous ( droite) reprsente le schma de connexion de Gabriel pour les mmes points que dans lexemple de la triangulation de Delaunay. On peut voir que les 12 traits formant le schma de Gabriel sont un sous-ensemble des 19 traits retenus pour la triangulation de Delaunay (cidessus). En effet, comme on le voit dans le schma ci-dessous (gauche), les cercles (en gras) correspondant au critre de Gabriel peuvent inclure, dans les zones ombres du ct extrieur au cercle de Delaunay (ligne fine), certains points-objets que le cercle du critre de Delaunay ninclut pas, si bien que certains traits autoriss par le critre de Delaunay seront exclus par celui de Gabriel.
2 A B
1
5 8 3 6 4
Dans cette option, il nest pas utile de demander si on dsire imposer une contrainte (voir cidessus), car les longs traits qui pourraient se former en priphrie de lensemble de points sont automatiquement limins par le critre de Gabriel. (6) Schma de voisinage relatif Le critre de voisinage relatif (relative neighborhood graph, en anglais) diffre de celui de Gabriel de la faon suivante. Relions deux points A et B par un trait; traons un cercle centr en A et un second centr en B, ces deux cercles ayant pour rayon le trait de A B. Ce trait fera partie du schma de connexion si aucun autre point C de ltude ne se trouve inclus dans lintersection de ces deux cercles. En dautres termes, le trait entre A et B sera retenu pour faire partie du schma de connexion si DA , B max (DA , C, DB , C) pour tout autre point C de ltude. Lexemple ci-dessous ( droite) reprsente le schma de voisinage relatif pour les mmes points que dans les exemples cidessus. On peut voir que les 8 traits (8 = nombre dobjets - 1) formant le schma de voisinage relatif sont un sous-ensemble des 12 traits formant le schma de Gabriel (ci-dessus). En effet, comme on le voit dans le schma ci-dessous (gauche), lintersection des deux cercles (en gras) formant le critre de voisinage relatif peut inclure, dans la partie ombre, des points-objets que le cercle de Gabriel (petit cercle, ligne fine) ninclut pas, si bien que certains traits autoriss par le critre de Gabriel seront exclus par celui du voisinage relatif.
LE PROGICIEL R
47
2 5 1 A B 3 6 4 8
48
LE PROGICIEL R
CONVERSIONMacintosh ou CONVERTCMS/VMS
Que fait CONVERSION ? Ce programme utilitaire permet de convertir une matrice de similarit (S) de type SIMIL en une matrice de distance (D) ou vice-versa. Les versions CMS et VMS nutilisent que la formule S i j = 1 - Di j ou Di j = 1 - Si j
alors que la version Macintosh permet galement de convertir laide des formules Si j = [1 - Di j] et Si j = 1 - [ (Di j - Dmin)/(Dmax - Dmin) ] ou Di j = [1 - Si j] ou Di j = 1 - [ (Si j - Smin)/(Smax - Smin) ]
Ce programme a t crit parce que la plupart des programmes de R requirent, pour le fichier SIMIL qui leur est fourni, quil soit du type SIMILARITS. Les fichiers de distance doivent donc dans bien des cas tre convertis; dans le cas o les distances sont plus grandes que 1, la premire forme de la transformation produira des "similarits" ngatives, mais les programmes subsquents sont conus de faon traiter celles-ci convenablement. La dernire forme de la transformation garantit que les similarits obtenues seront obligatoirement bornes entre 0 et 1. Fichiers d'entre et de sortie
Matrice de similarits (1) Fichier d'entre
CONVERSION
Matrice de distances
Le fichier d'entre du programme CONVERSION est un fichier binaire de type SIMIL. Il contient une matrice de similarit ou de distance produite soit par SIMIL, ou encore par IMPORTEXPORT (version Macintosh) ou IMPORT (versions CMS et VMS). (2) Fichier de sortie La sortie de CONVERSION est aussi un fichier binaire de type SIMIL contenant la matrice transforme. Le fichier binaire converti porte la mention "(CONVERT)" dans le bloc d'informations qui est imprim automatiquement par plusieurs des programmes. On peut avoir recours par exemple au programme REGARDE, qui permet de lire ces informations ainsi que le contenu des fichiers de type SIMIL:
TITRE: Matrice de similarites DATE 20/02/91 FONCTION s15 (CONVERT) NOMBRE D' OBJETS : 57 NOMBRE DE DESCRIPTEURS : 3
LE PROGICIEL R
49
Exemple (Les rponses de l'utilisateur sont en caractres gras)

Quel est le nom du fichier SIMIL a transformer S-D ou D-S ? (Par defaut: "... data a") fichier s15 Quel nom doit recevoir le fichier produit par ce programme? (Par defaut: "... data a") fichier dist Execution begins... P R O G R A M M E C O N V E R T Convertit une matrice S en D ou une matrice D en S VERSION 3.0b TRANSFORMATION SIMILARITE <-> DISTANCE AUTEUR: A. VAUDOR Fin du programme.
50
LE PROGICIEL R
DISTANCES GOGRAPHIQUESMacintosh ou DISTCMS/VMS

Que fait DISTANCES GOGRAPHIQUES ? partir dun fichier de coordonnes cartographiques de localits, ce programme calcule les distances gographiques entre ces localits en suivant la courbure de la terre. Fichiers dentre et de sortie Coordonnes (fichier ASCII) (1) Fichier des coordonnes (entre) Le fichier des coordonnes est un fichier ASCII rectangulaire, o les lignes correspondent aux stations alors que les colonnes correspondent aux coordonnes latitude et longitude (avec la latitude en premier). Il peut tre prsent de l'une des faons dcrites la section des Options ci-dessous. Notez par ailleurs que si les points chevauchent le 0 degr de longitude, les longitudes l'ouest de Greenwich peuvent tre prsentes soit avec un signe ngatif (-), soit sur 360 degrs. La latitude des points au sud de l'quateur doit tre prsente avec un signe ngatif (-). videmment, si tous les points sont l'ouest de Greenwich, ou encore dans l'hmisphre sud, le signe devient inutile. (2) Matrice de distances (sortie) Le fichier contenant la matrice de distances est en ASCII, cest--dire en caractres lisibles. La matrice de distances est carre, avec des zros sur la diagonale. De plus, dans la version Macintosh, la premire ligne du fichier de sortie reproduit le nom du fichier dentre (fichier des coordonnes). Pour en faire une matrice binaire de type SIMIL, il faudra transformer cette matrice l'aide de IMPORT (versions CMS et VMS) ou de IMPORT-EXPORT (version Macintosh). Les distances peuvent tre exprimes de l'une ou l'autre des faons dcrites la section des Options ci-dessous. Options Les options disponibles pour le fichier dentre sont dcrites par le menu suivant, prsent par le programme aux usagers:
0: 1: 2: 3: 4: degrs degrs degrs degrs degrs dcimaux point minutes (ex.: 35.04) espace minutes (ex.: 35 04) point minutes point secondes (ex.: 35.04.05) espace minutes espace secondes (ex.: 35 04 05)
DISTANCES GOGR.
Matrice de distances (ASCII)
Quant au fichier de sortie, les options suivantes sont disponibles:

0: 1: 2: 3: 4: distances distances distances distances distances en en en en en radians degrs milles marins (ou minutes d'arc) milles kilomtres
LE PROGICIEL R
51
EXPNTSCMSQue fait EXPNTS ?
partir d'un fichier contenant une matri duite par SIMIL, ce programme permet de crer un nouveau fichier binaire contenant une matrice de distances, utilisable par le logiciel d'analyses multidimensionnelles NT-SYS (Numerical Taxonomy SYSte m : Rohlf e t al., 1971). Le progiciel NT-SYS contient dans son e un programme de cadrage multidimensionnelle non-mtrique (programme MDSCALE). Puisque cette analyse trs utile nest pas disponible dans le progiciel R, le programme EXPNTS permet de transfrer au NT-SYS, sur grands ordinateurs IBM, les matrices de ressemblance (similarits ou distances) calcules laide du progiciel R. En effet, plusieurs mesures de ressemblance disponibles dans le programme SIMIL de R ne sont pas disponibles dans NT-SYS. Pour lutilisation de NTSYS en version MS-DOS, on aura plutt recours lutilitaire EXPORT (versions CMS et VMS de R) ou IMPORT-EXPORT (version Macintosh), puisque la version MS-DOS de NT-SYS nutilise que des matrices crites en ASCII. Le progiciel NT-SYS, dvelopp par le Prof. F. James Rohlf, est distribu par Exter Software Inc., 100 North Country Road, Bldg. B, Setauket, New York 11733, USA (versions disponibles: pour machines MS-DOS et pour grands ordinateurs). Fichiers d'entre et de sortie Matrice de ressemblance en format SIMIL (1) Fichier d'entre Le fichier d'entre de EXPNTS est un fichier binaire structur produit par SIMIL, IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh); la structure des matrices de ressemblance binaires est dcrite au chapitre du programme SIMIL. C'est donc le fichier de sortie du programme SIMIL qui sert de fichier d'entre EXPNTS. Ce fichier contient la matrice de ressemblance (similarits ou distances) crite en binaire. Le programme EXPNTS lira lui-mme sur le fichier dentre linformation quant au nombre dobjets que contient cette matrice. (2) Fichier de sortie Le fichier de sortie est un nouveau fichier binaire contenant une matrice de distances, crite sous une forme compatible avec le progiciel NT-SYS. Il contient la mme matrice triangulaire suprieure de distances que le fichier d'entre, mais des termes diagonaux gaux zro lui sont ajouts. Ce fichier ne contient aucune en-tte, contrairement aux fichiers de type SIMIL. Il nest pas possible de relire cette matrice binaire grce REGARDE, ni laide dun diteur ASCII ou dun traitement de texte. Questions du programme Le programme dappel demande simplement quel est le nom du fichier dentre et du fichier de sortie. Le programme lui-mme ne pose quune seule question: Transformation SimilaritsDistances ? Si le fichier dentre contient une matrice de similarits, cette question offre la possibilit de transformer les similarits en distances (D = 1 - S), puisque le programme NT-SYS sattend ce que son fichier dentre contienne une matrice de distances. Matrice de distances en format NT-SYS
EXPNTS
52
LE PROGICIEL R
EXPORTCMS/VMS
Que fait EXPORT ? Ce programme permet de transformer des matrices de ressemblance binaires produites par le programme SIMIL en des matrices carres crites en ASCII (caractres lisibles). EXPORT remplit lune des fonctions du programme IMPORT-EXPORT de la version Macintosh. De telles matrices carres crites en caractres lisibles peuvent tre utiles, - soit pour les prsenter dans des publications, - soit pour les passer des programmes appartenant dautres progiciels, - soit encore sil est ncessaire de transfrer des matrices de ressemblance dun type dordinateur un autre, les matrices binaires produites par SIMIL ntant pas transfrables entre machines ayant des reprsentations diffrentes pour les nombres en points flottants. Les matrices carres produites par ce programme peuvent tre relues par le programme IMPORT (versions CMS et VMS) ou IMPORTEXPORT (version Macintosh) sil est ncessaire de les reconvertir en format binaire de type SIMIL.
Fichiers d'entre et de sortie
Matrice de ressemblance (format SIMIL)
EXPORT
Matrice de ressemblance (fichier ASCII)
Le fichier dentre est une matrice de ressemblance (similarits, distances ou coefficients de dpendance entre variables) en format SIMIL. La structure des matrices de ressemblance binaires est dcrite au chapitre du programme SIMIL. Le fichier de sortie est une matrice carre en caractres lisibles (ASCII) crit en format (8F10.7), avec des 1.0000000 sur la diagonale. Ces valeurs peuvent aisment tre converties en des 0.0000000 laide dun diteur ASCII, si cela est ncessaire. Questions du programme Le programme dappel demande simplement quel est le nom du fichier dentre et du fichier de sortie. Le programme lui-mme ne pose aucune question lusager. Voir la fin de la section portant sur le programme IMPORT-EXPORT, o est prsent un exemple de matrice carre ASCII produite en sortie.
LE PROGICIEL R
53
GROUPEMENTSMacintosh
Que fait GROUPEMENTS ? Le programme GROUPEMENTS ralise des groupements agglomratifs selon une gamme de mthodes, dcrites succinctement ci-dessous. Ce programme remplit pour la version Macintosh le mme rle que les programmes INTERLNK et LANCE des versions CMS et VMS. Fichiers dentre et de sortie Fichier de similarits GROUPEMENTS Dendrogramme et statistiques
Le fichier dentre est une matrice de similarits de type SIMIL. La sortie est un dendrogramme, accompagn ou non de certaines statistiques (voir ci-dessous); il peut tre envoy soit une imprimante, soit un fichier. Si on dispose dune imprimante laser, les dendrogrammes produits sont de haute qualit graphique et peuvent tre inclus directement dans des publications; lusager peut dcider de leur taille (largeur en cm) ainsi que des polices de caractres employes pour les raliser. Les dendrogrammes inscrits dans un fichier ont la mme facture que ceux produits par INTERLNK et LANCE des versions CMS et VMS (leur largeur est compte en nombre de caractres dimprimerie). Options On demande dabord lusager de choisir entre lalgorithme de Lance & Williams (1966a, 1967), utilis galement par le programme LANCE des versions CMS et VMS, et lalgorithme liaison proportionnelle (Sneath, 1966), employ aussi par le programme INTERLNK.
Type de calcul: Lance & Williams Liens intermdiaires
Si on a choisi lalgorithme liaison proportionnelle (Liens intermdiaires), on doit fournir la connexit dsire (Proportion des liens). Par contre, si on prfre lalgorithme gnral de groupement agglomratif de Lance & Williams, le choix suivant est offert:
Type de groupement: Association moyenne (UPGMA) Poids proportionnels (WPGMA) Groupement centrode (UPGMC) Groupement mdian (WPGMC) Mthode de Ward Autre
Si on choisit loption Autre, on doit encore fournir la valeur des paramtres alpha[j], alpha[m], bta et gamma requis par cet algorithme; voir la description du programme LANCE. Enfin, aprs chaque groupement, lusager doit encore rpondre deux questions pour indiquer sil dsire, ou non, obtenir les statistiques complmentaires au groupement (voir leur description ci-dessous):
Chane des liens primaires? Corrlations cophntiques, distance de Gower et entropie? [oui ou non] [oui ou non]
On peut enfin faire crire la matrice des distances cophntique dans un fichier de type SIMIL. Statistiques de groupement
54
LE PROGICIEL R
Les statistiques suivantes sont disponibles pour permettre de juger ladquation qui existe entre le groupement produit et la matrice de similarit dorigine. (1) La chane des liens primaires La chane des liens primaires, ou dendrites, porte aussi le nom de rseau, rseau de Prim, squelette arborescent ou arbre de longueur minimum, (minimum spanning tree, minimum length tree ou shortest spanning tree en anglais) est lensemble des liens entre paires dobjets qui reprsente la structure fondamentale du groupement. Un lien primaire est dfini formellement comme le premier lien qui rend un objet membre dun groupe, ou encore qui produit la fusion de deux groupes, dans le cas du groupement liens simples (Legendre & Legendre, 1984a). Dans les programmes de groupement agglomratif du progiciel R, la notion de lien primaire est ici tendue pour reprsenter, lors de la fusion de deux groupes, le lien de similarit unissant les deux objets (un dans chacun des deux groupes) qui sont les plus prs lun de lautre (i.e., plus forte similarit); la chane des liens primaires sera donc lensemble de ces premiers liens de similarit, quelle que soit la mthode ayant donn naissance aux groupes. Reprenant lexemple des 5 mares utilis par Legendre & Legendre (1984a) comme exemple dans leur chapitre sur le groupement, un groupement liens simples a t ralis. Le dendrogramme est prsent dans la section portant sur le programme INTERLNK. La chane des liens primaires fournie par le programme pour le groupement liens simples est la suivante:
L i e n s p r i m a i r e s
Niveau Distance Chane -----------------------------------------------0.40000 0.78600 0.70000 0.50000 0.40000 0.78600 0.70000 0.50000 (MARE (MARE (MARE (MARE 214 432 431 432 , , , , MARE MARE MARE MARE 212 214 233 431 ) ) ) )
Cette liste signifie quau niveau de groupement D = 0.4, la chane des liens primaires senrichit dun premier lien entre les mares qui portent le nom de 212 et 214; ces deux objets sont situs la distance D = 0.4 (ou S = 1 - 0.4 = 0.6) dans la matrice de similarits dorigine; et ainsi de suite. Dans le cas du groupement liens simples, les niveaux de fusion sont toujours gaux aux distances entre les objets les plus proches, par dfinition de la mthode. Dans dautres types de groupement, tel nest pas le cas. Ainsi, dans le groupement selon lassociation moyenne (UPGMA: ci-dessous), les deux valeurs diffrent sur la seconde et la troisime lignes; le niveau est toujours le niveau de fusion des groupes dans le dendrogramme, alors que la distance est le complment de la valeur de similarit (D = 1 - S) entre les deux objets les plus voisins des deux groupes:
L i e n s p r i m a i r e s
Niveau Distance Chane -----------------------------------------------0.40000 0.94200 0.75000 0.50000 0.40000 0.78600 0.70000 0.50000 (MARE (MARE (MARE (MARE 214 432 431 432 , , , , MARE MARE MARE MARE 212 214 233 431 ) ) ) )
Notez que dans la chane des liens primaires, tout comme dans le dendrogramme, les niveaux de fusion et les ressemblances entre objets formant la chane sont exprims en distances et non en
LE PROGICIEL R
55
fusion et les ressemblances entre objets formant la chane sont exprims en distances et non en similarits; ce choix rsulte du fait que pour des coefficients de distance prenant des valeurs dans lintervalle [0, ], les dendrogrammes pourraient avoir des niveaux de fusion ngatifs sils taient exprims en similarits S = (1 - D); cela naurait pas deffet sur le groupement, mais rendrait la lecture de ces niveaux de fusion plus difficile pour lutilisateur. (2) Les corrlations cophntiques Tout groupement hirarchique peut tre reprsent par une matrice cophntique entre objets (Sokal & Rohlf, 1962; Legendre & Legendre, 1984a; Jain & Dubes, 1988; etc.). Dans cette matrice, la similarit entre deux objets est gale la valeur du niveau de fusion qui permet de joindre les deux objets en question dans le dendrogramme. Pour toutes les mthodes de groupement agglomratif sauf (occasionnellement) pour le groupement centrode, le groupement mdian, ainsi que les groupements obtenus par lemploi de certaines combinaisons non habituelles des paramtres du modle gnral de groupement agglomratif de Lance & Williams (1966, 1967) la matrice cophntique ainsi obtenue reprsente une ultramtrique. La corrlation linaire entre la matrice cophntique et la matrice de similarits dorigine (en excluant la diagonale) porte le nom de corrlation cophntique, corrlation de matrices ou statistique de Mantel centre-rduite. Cette corrlation mesure quel point le groupement correspond la matrice de similarits dorigine, puisquun groupement qui rendrait totalement compte des similarits de la matrice dorigine produirait une corrlation cophntique de 1. Notez que cette corrlation ne peut, logiquement, tre teste quant sa signification statistique, puisque la matrice cophntique nest pas indpendante de la matrice de similarits dorigine, tant issue delle via lalgorithme de groupement. Pour tester cette corrlation, il faudrait prtendre que les deux matrices sont indpendantes lune de lautre sous H0 ; autrement dit, il faudrait admettre comme probable que lalgorithme de groupement ait une efficacit nulle, ce qui nest pas le cas des algorithmes de groupement courants Si on trace un graphique (diagramme de Shepard) des similarits (ou des distances) de la matrice cophntique en fonction des similarits (ou distances) dorigine, il peut arriver que la relation soit curviligne plutt que linaire. Si on sintresse davantage la structure topologique du dendrogramme qu la longueur exacte de ses branches, il convient de rechercher une relation monotone plutt quune relation ncessairement linaire entre les deux matrices. Dans ce cas, le calcul dune corrlation nonparamtrique sera appropri, plutt quune corrlation linaire de Pearson; la corrlation nonparamtrique de Kendall (b ) entre la matrice cophntique et la matrice dorigine est fournie par le programme. Les coefficients de corrlation prennent des valeurs qui se situent dans lintervalle [-1, 1]. On sattend ce que le signe de la corrlation cophntique soit positif, puisque la comparaison se fait entre la matrice des similarits dorigine et la matrice de similarits cophntiques. Plus la valeur de la corrlation cophntique est leve, plus lajustement est bon. Voici un exemple des mesures dajustement fournies par le programme, pour le groupement par la mthode de lassociation moyenne (UPGMA) des 5 mares:
Corrlations cophntiques tau b de Kendall 0.77364 r de Pearson 0.95111 distance de Gower 0.03962
La distance de Gower, la dernire mesure dajustement disponible dans les programmes de groupement agglomratif de R, est dcrite ci-dessous. (3) La distance de Gower La distance de Gower (1983) est la somme des carrs des carts entre les valeurs de la matrice de similarits cophntiques et des similarits dorigine. Cette mesure dajustement prend des valeurs qui
56
LE PROGICIEL R
se situent dans lintervalle [0, ]. Plus la distance de Gower est faible, plus lajustement est bon. Comme cest le cas pour les corrlations cophntiques, cette mesure a une valeur comparative entre des groupements obtenus partir dune mme matrice de similarits. (4) Les coefficients d'efficacit Les coefficients defficacit (Lance & Williams, 1966b) se calculent par 1/, o (delta) reprsente la valeur de rduction de linformation dans la classification, rduction produite par la fusion de groupes. Cette rduction se calcule comme lentropie de la classification avant la fusion, moins lentropie aprs la fusion. Un coefficient defficacit est fourni par le programme pour chaque niveau de fusion. Lorsque lalgorithme ne regroupe que des objets individuels ou encore de petits groupes, les valeurs de sont faibles; par consquent, les valeurs correspondantes du coefficient defficacit sont fortes. Si on trace un graphique des valeurs du coefficient defficacit en fonction des tapes du groupement agglomratif, les minima de ce graphique indiquent quelles sont les fusions les plus importantes. Si on cherche slectionner un point de coupure dans le dendrogramme, le coefficient defficacit peut aider prendre cette dcision. Il ne sagira cependant en aucun cas dun critre de dcision obligatoire puisquaucun test de signification statistique na t ralis.
Coefficients defficacit Niveau Entropie delta 1/delta ------------------------------------------------0.00000 1.60944 0.40000 0.27726 3.60674 1.33218 0.50000 0.27726 3.60674 1.05492 0.75000 0.38191 2.61843 0.67301 0.94200 0.67301 1.48586 0.00000
Le graphique suivant prsente les valeurs du coefficient defficacit (1/) en fonction des niveaux de fusion (distances). Dans cet exemple simple, la partition la plus efficace est la dernire. La meilleure coupure verticale dans le dendrogramme se situerait donc avant ce dernier niveau, ce qui produirait deux groupes.
3.75 3.5
Coeff. d'efficacit (1/)
3.25 3 2.75 2.5 2.25 2 1.75 1.5 1.25 .3 .4 .5 .6 .7 .8 .9 1
Niveau (D)
LE PROGICIEL R
57
IMPORTCMS/VMS
Que fait IMPORT ? Ce programme permet dimporter des matrices de ressemblance, les transformant du format ASCII au format binaire SIMIL requis pour quelles puissent tre lues par les autres programmes de R. IMPORT remplit lune des fonctions du programme IMPORT-EXPORT de la version Macintosh. Les matrices carres en caractres lisibles peuvent avoir t crites par des programmes appartenant dautres progiciels. Il peut galement sagir de matrices de ressemblance calcules par SIMIL sur un autre type dordinateur, matrices qui auront t converties au format ASCII par le programme EXPORT avant dtre transfres dune machine lautre, pour tre reconverties au format binaire de type SIMIL laide de IMPORT. Enfin, dans certains cas (tudes du comportement, sociologiques, de gntique molculaire, etc.), les donnes brutes se prsentent sous la forme de matrices dassociation entre individus; de telles matrices peuvent tre saisies sur fichier laide dun diteur ASCII, puis importes grce au programme IMPORT pour tre analyses par les programmes de R. Fichiers d'entre et de sortie
IMPORT
Le fichier d'entre contient une matrice carre crite en ASCII (caractres lisibles), produite de lune des faons dcrite ci-dessus. Le fichier de sortie est un fichier binaire de type SIMIL contenant les mmes informations. La structure des matrices de ressemblance binaires est dcrite au chapitre du programme SIMIL. Questions du programme Aprs que le programme dappel ait demand le nom des fichiers dentre et de sortie, le programme lui-mme demande:
TAILLE DE LA MATRICE (nombre d'objets ou de variables)
On rpond cette question par un seul nombre entier, correspondant au nombre dobjets (en mode Q) ou de descripteurs (en mode R) qui sont compars dans ladite matrice. La question suivante est:
NOMBRE INITIAL D'OBJETS s'il s'agit d'une matrice de corrlations; Dans le cas contraire, donnez de nouveau la taille de la matrice.
En dernier lieu, le programme demande un titre. Ces informations servent dabord complter le bloc dinformations joint doffice tout fichier de type SIMIL (voir lexemple dans la description du programme IMPORT-EXPORT, ci-dessous). Linformation concernant le nombre dobjets, pour une matrice de ressemblance calcule en mode R (matrice de covariance ou de corrlation), est ncessaire pour certains autres programmes, tel notre programme de calcul de corrlations partielles (non inclus pour le moment dans la version de R qui vous est fournie), afin que les tests de signification soient raliss de faon adquate. Dans les autres cas, le nombre donn en rponse cette question sera simplement inscrit dans le bloc dinformations, mais il ne sera pas utilis par les programmes danalyse subsquents. Notez que dans le bloc dinformations, la FONCTION indiquera que le fichier binaire de type SIMIL a t produit par le programme IMPORT.
58
LE PROGICIEL R
IMPORT-EXPORTMacintosh
Que fait IMPORT-EXPORT ? Ce programme permet dimporter des matrices de ressemblance, les transformant du format ASCII au format binaire SIMIL ncessaire pour quelles puissent tre lues par les autres programmes de ce progiciel. IMPORT-EXPORT peut galement raliser lopration contraire et transformer des matrices de ressemblance du format SIMIL au format ASCII. Ce programme Macintosh remplit les mmes fonctions que les programmes IMPORT et EXPORT des versions CMS et VMS. Fichiers d'entre et de sortie
IMPORTEXPORT
Les matrices de ressemblance en format SIMIL ou en format ASCII peuvent tre employes soit comme fichier dentre de ce programme, soit comme fichier de sortie. La structure des matrices de ressemblance binaires est dcrite au chapitre du programme SIMIL. Les matrices de ressemblance en ASCII peuvent se prsenter sous diffrentes formes, dcrites ci-dessous. Options La premire question pose par le programme concerne le type de conversion demand, soit de la gauche vers la droite dans le schma ci-dessus, ou de la droite vers la gauche:
Type de conversion De fichier caractres fichier SIMIL De fichier SIMIL fichier caractres
Si on a choisi de convertir un fichier binaire de type SIMIL en fichier ASCII (en caractres lisibles), le programme ne demande que le nom du fichier dentre ainsi que le nom que lon dsire attribuer au fichier de sortie en caractres. Ce fichier ASCII sera une matrice carre symtrique avec des 1.0000000 sur la diagonale. Ces valeurs peuvent aisment tre converties en des 0.0000000 laide dun diteur ASCII, si cela est ncessaire. Si on a plutt choisi de convertir un fichier ASCII, on doit dcrire dabord la taille de la matrice (i.e., le nombre dobjets ou de descripteurs qui y sont compars), puis sa forme:
Fichier dentre: Taille de la matrice
[Dans le menu: donner le nom du fichier dentre] [On rpond par un seul nombre entier]
Type de matrice: Carre avec diagonale Carre sans diagonale Triangulaire suprieure avec diagonale Triangulaire suprieure sans diagonale
Le programme demande enfin de fournir deux informations qui auraient t disponibles si les matrices de ressemblance avaient t calcules par le progiciel SIMIL, soit la taille du tableau de
LE PROGICIEL R
59
donnes dorigine dans lautre dimension, ainsi que le titre que lusager veut bien joindre cette matrice:
Nombre dobjets (en mode Q) ou de descripteurs (en mode R) Titre de ce travail [On rpond par un titre dau
[Un entier] plus 80 caractres]
Explication Soit un tableau de donnes de n lignes et p colonnes. Si les mesures de ressemblance contenues dans la matrice transformer ont t calcules entre les lignes de ce tableau, alors le programme veut maintenant connatre le nombre de colonnes. Si au contraire cest entre les colonnes que cette matrice de ressemblance a t calcule, il faut maintenant fournir le nombre de lignes du tableau de donnes dorigine. Cette information sert dabord complter le bloc dinformations joint doffice tout fichier de type SIMIL:
FICHIER D'ENTREE: Fichier dentre TITRE: Hydrologie des lacs de la Baie de James DATE: 2/5/91 FONCTION: (ImpExp) Nombre d'objets: 32 Nombre de descripteurs: 10
(Notez que la FONCTION indique que ce fichier binaire a t produit par le programme IMPORTEXPORT.) Linformation concernant le nombre dobjets, pour une matrice de ressemblance calcule en mode R (matrice de covariance ou de corrlation), est ncessaire pour certains autres programmes, tel notre programme de calcul de corrlations partielles (non inclus pour le moment dans la version de R qui vous est fournie), afin que les tests de signification soient raliss de faon adquate. Exemple La matrice triangulaire suprieure suivante, sans diagonale, mesure les distances routires en km entre 6 villes du Qubec. Les chiffres ont t aligns pour en faciliter la lecture, mais cela nest pas requis par le programme (lecture en format libre). Les valeurs peuvent tre des nombres entiers, ou encore des nombres rels avec ou sans chiffre prcdant le point dcimal (.138, 0.138 ou -.57 sont admis).
198 368 57 882 311 549 238 1063 482 311 517 80 824 253 594
Aprs transformation en matrice binaire (qui ne peut tre illustre ici), puis retour en matrice ASCII, on obtient le rsultat suivant:
1.0000000 198.00000 198.00000 1.0000000 368.00000 549.00000 57.00000 238.00000 882.00000 1063.00000 311.00000 482.00000 368.00000 549.00000 1.0000000 311.00000 517.00000 80.00000 57.00000 882.00000 311.00000 238.00000 1063.00000 482.00000 311.00000 517.00000 80.00000 1.0000000 824.00000 253.00000 824.00000 1.0000000 594.00000 253.00000 594.00000 1.0000000
Bien entendu, dans cette matrice de distances routires, les 1 sur la diagonale nont pas de sens et devront tre remplacs par des zros, sils nuisent la suite du calcul. La valeur 1 a t choisie parce quelle est la valeur approprie dans deux situations courantes: dabord pour toutes les matrices de similarits, ensuite pour les matrices de corrlations. Les 1.0000000 sont facilement identifiables pour lditeur car ce sont les seules valeurs 7 dcimales dans le fichier de sortie ASCII.
60
LE PROGICIEL R
INTERLNKCMS/VMS
Que fait INTERLNK ? Ce programme ralise un groupement agglomratif liaison proportionnelle (liens intermdiaires). La connexit du groupement (Co), qui est fixe par lusager, peut varier de 0 100%, ce qui reprsente toute la gamme des solutions depuis les liens simples (Co = 0) jusquaux liens complets (Co = 1). connexit voisine de 50%, le groupement respecte approximativement les proprits mtriques de l'espace de rfrence; connexit faible, il est sujet lenchanement (contraction de lespace de rfrence), alors qu connexit leve se produit le phnomne inverse, soit la dilatation apparente de lespace autour des noyaux de groupement (Lance & Williams, 1967). Le programme dappel INTERLNK lance tour de rle trois programmes diffrents: (1) un programme de tri qui rcrit la matrice de similarits en ordre de similarits dcroissantes, (2) le programme de groupement lui-mme, et finalement (3) le programme qui trace le dendrogramme. L'usager peut demander ce dernier programme de calculer diffrentes statistiques (chane des liens primaires, corrlations cophntiques, distance de Gower, coefficients defficacit) qui ont t dcrites la fin de la section portant sur le programme GROUPEMENTS. Fichiers d'entre et de sortie
Matrice de similarits (format SIMIL) (1) Le fichier d'entre
INTERLNK
Dendrogramme et statistiques
Le fichier d'entre doit imprativement tre un fichier de similarits, et NON PAS de distances, crit par les programmes SIMIL ou IMPORT; INTERLNK nexiste quen versions CMS et VMS. Une matrice de distances peut aisment tre convertie en une matrice de similarits l'aide du programme utilitaire CONVERT. Le nombre maximum dobjets qui peuvent tre traits par ce programme, ainsi que le nombre maximum de groupes simultans, sont fixs par les paramtres MAXDIM et MAXGROUPES respectivement, en dbut du programme. Ces paramtres peuvent tre ajusts la taille des problmes traiter, avant la compilation. (2) Le fichier de sortie Ce fichier contient le dendrogramme dcrivant le groupement agglomratif, ainsi que les statistiques de groupement. Celles-ci sont dcrites en dtail la section relative au programme GROUPEMENTS. Si on a attribu des noms aux objets dans le fichier de donnes brutes soumis SIMIL (10 premiers caractres), le dendrogramme prsente ces identificateurs, au lieu des numros d'ordre que le programme attribuera autrement aux objets. Questions du programme Aprs que le programme dappel ait demand le nom des fichiers dentre et de sortie, le programme de groupement lui-mme demande seulement quel degr de connexit (Co) devra tre employ par lalgorithme de groupement liaison proportionnelle.
LE PROGICIEL R
61
PROPORTION DES LIENS (Connexit) ?
La connexit varie de 0 pour les liens simples 1.0 pour les liens complets. On rpond cette question par un nombre rel compris entre 0 et 1. Pour les nombres fractionnaires, le langage PASCAL exige que lon crive par exemple 0.75 et non .75. Les questions suivantes sont poses par le programme DENDRO qui se charge de tracer le dendrogramme et de calculer les statistiques de groupement; voir la description de ces statistiques la section portant sur le programme GROUPEMENTS. La largeur du dendrogramme qui sera dessin est fixe par lutilisateur, qui doit dterminer le nombre de caractres dimprimerie qui seront utiliss pour tracer le dendrogramme. la question
LARGEUR DU DENDROGRAMME EN CARACTERES (MINIMUM 10, MAXIMUM 279)
il faut rpondre par un nombre entier compris entre 10 et 279, selon la largeur de lcran ou du papier disponible pour limpression. Notez que la largeur demande ne concerne que le dendrogramme luimme; cela il faut ajouter 12 caractres gauche pour les noms dobjets et la marge du dendrogramme, et 10 caractres droite pour les niveaux de fusion (voir lexemple ci-dessous). Exemple Lexemple ci-dessous, ralis sous CMS, est le rsultat dun groupement liaison proportionnelle avec Co = 0.5, pour les 5 mares dj utilises pour illustrer les statistiques de groupement, la section du programme GROUPEMENTS. La corrlation cophntique ( r de Pearson) est de 0.94680. gauche du dendrogramme se trouvent les noms des objets. dfaut de noms, le programme de groupement leur attribuera les numros de 1 n. Chaque niveau de fusion (exprim en distances), indiqu droite, correspond au trait vertical qui commence sa gauche et se dirige vers le bas. Ainsi, le trait vertical identifi par la flche a la valeur de D = 0.40000, indique droite.
P R O G R A M M E D E N D R O
Logiciel R, Version 3.0b NOMBRE D OBJETS : 5 [Bloc dinformations concernant NOMBRE DE VARIABLES: 8 la matrice de similarits utilise] TITRE: 5 mares de Legendre & Chodorowski (1977) DATE 03/03/91 FONCTION s20 D E N D R O G R A M M E NIVEAU(D) --------------------------------------------------------------
MARE 214 MARE 212 MARE 432 MARE 431 MARE 233
|<---------------|<---------------------|<---------------| |< |<-------------------| |<-------| |<-------------------| | |<--------|<-----------------------------
0.40000 0.93700
0.50000 0.70000
62
LE PROGICIEL R
K-MEANSMacintosh ou KMEANSCMS/VMS
Que fait K-MEANS ? Ce programme ralise le groupement non-hirarchique par minimisation de la variance intragroupe, selon diffrentes variantes de la mthode propose d'abord par MacQueen (1967), laquelle celui-ci a donn le nom de mthode k-means. Il sagit dune mthode de partition dun groupe dobjets, et non dune mthode de classification hirarchique. L'usager prcise quel est le nombre, k, de groupes qu'il dsire obtenir au terme du groupement. L'algorithme k-means suivi ici est celui dcrit la page 163 de Anderberg (1973). Ce programme ralise le groupement avec ou sans contrainte de contigut (spatiale ou temporelle), selon les dsirs de l'usager. Il complmente donc les programmes de groupement hirarchique du progiciel R, programmes qui mettent en oeuvre divers algorithmes de groupement sans contrainte (GROUPEMENTS pour la version Macintosh, INTERLNK et LANCE pour les versions CMS et VMS) ou avec contrainte de contigut (BIOGO et CHRONO). Fichiers d'entre et de sortie
Donnes brutes
K-MEANS
Liste des liens
Configuration initiale
Coordonnes
Cartes
Les flches en tirets indiquent des fichiers optionnels. (1) Fichier de donnes brutes Contrairement aux autres programmes de groupement de ce progiciel qui requirent comme fichier d'entre une matrice de similarits, les donnes sont fournies au programme K-MEANS sous la forme d'une matrice rectangulaire (p x n) de donnes brutes o les lignes sont les objets et les colonnes sont les variables, le tout sans identificateurs de lignes ou de colonnes. Par exemple: 23.4 12.6 33.4 45.1 50.7 12.4 13.2 11.8 12 11.7 3.2 4.9 5.5 3.1 4.6 77 44.1 55.3 109 67.9 22.6 23.6 21 22.8 23.5
Dautres algorithmes de type k-means utilisent plutt une matrice de distances comme point de dpart des calculs. Ce programme ne sait pas traiter les absences dinformation. Celles-ci devront tre combles par lune ou lautre mthode dinterpolation avant le groupement; une autre mthode consiste supprimer les objets (lignes) porteurs dinformations absentes. N . B . Le programme minimise en fait la somme des carrs des distances euclidiennes des objets au centrode de leur groupe respectif. Si on dsire appliquer la mthode des donnes pour lesquelles la distance euclidienne est juge inapproprie (par exemple des donnes d'abondance d'espces contenant beaucoup de zro), on peut procder selon les tapes suivantes (voir aussi lexemple): 1) Calculer la matrice de similarits ou de distances de son choix l'aide de SIMIL. 2) Raliser une analyse en coordonnes principales.
LE PROGICIEL R
63
2) Raliser une analyse en coordonnes principales. 3) Demander au programme PCOORD d'inscrire sur un fichier de sortie un certain nombre de coordonnes principales (en gnral, 10 ou 15 coordonnes principales suffisent rendre compte de presque toute la variabilit). 4) Ces coordonnes principales peuvent maintenant tre fournies au programme K-MEANS comme nouvelles donnes brutes. (2) Fichier de liens (optionnel) Si l'usager dcide de raliser un groupement avec contrainte de contigut spatiale, il faudra en plus du fichier de donnes brutes fournir au programme un fichier de LIENS, comme dans BIOGEO. V lexemple dans la description de ce programme. Le fichier de liens, qui peut avoir t produit par oir les programmes AUTOCOR (version CMS/VMS) ou CONNEXIONS (version Macintosh), aurait par exemple l'apparence suivante pour une grille de 12 points disposs en 3 lignes et 4 colonnes, mouvement de la tour; chaque paire de numros reprsente un lien entre deux objets: 1 2 11 12 12 8 2 5 3 1 3 6 4 2 5 7 6 3 6 8 7 4 7 9 8 5 9 10 10 6 10 11 11 7
(3) Fichier de coordonnes spatiales (X, Y) (optionnel) Si on dsire demander au programme de tracer la carte correspondant chaque groupement, ce qui reprsente une option du programme, il faut lui fournir un fichier contenant les coordonnes des points. Ces coordonnes ne serviront qu pointer les objets sur la carte. Les coordonnes sont fournies en format lisible (ASCII, non en binaire) sous la forme d'entiers ou de nombres rels en degrs dcimaux. Les coordonnes ne doivent pas tre en degrs-minutes-secondes. Le nombre de paires de coordonnes doit correspondre au nombre dobjets partitionner. Pour les versions CMS et VMS, il faut crire un zro avant le point dcimal (par exemple, 0.376 plutt que .376). Pour certaines reprsentations didactiques, on pourra fournir dans ce fichier des coordonnes qui ne correspondent pas exactement aux positions gographiques. Par exemple, pour analyser en une seule fois des chantillonnages rpts dun mme territoire au cours du temps, on pourra prvoir la position des objets de ltude de faon ce que chaque tranche de temps forme une partie spare de limage finale. Les coordonnes fournies dans ce fichier ne servent qu lillustration; les relations spatiales ou spatio-temporelles qui sont tenues en compte lors du groupement sont uniquement celles que contient le fichier de liens. (4) Fichier de configuration initiale (optionnel) Seul le fichier de donnes brutes est ncessaire si un groupement sans contrainte est dsir. Dans bien des cas, cependant, un fichier contenant une ou plusieurs configurations initiales possibles des objets sera inclus pour amliorer la performance de lalgorithme et viter de se trouver coinc dans un minimum local de la fonction objective (voir options 1b et 2b); on utilisera galement cette option lorsquon utilise le programme K-MEANS pour amliorer un groupement obtenu de faon agglomrative. Ce fichier se prsente sous la forme de la liste des objets que l'on attribue chaque groupe. ATTENTION: la liste de chaque groupe doit se terminer par un zro. Si on inscrit plusieurs configurations initiales dans ce fichier, celles-ci seront traites tour de rle par le programme. Par exemple, si on dsire tester deux configurations initiales d'un problme comportant quatre groupes et un total de 13 objets, le fichier pourrait se prsenter comme suit:
1 7 3 12 0 8 2 0 10 13 4 5 0 6 9 1 0
[fin de la premire configuration initiale]
64
LE PROGICIEL R
2 4 10 0 9 1 3 13 12 5 6 0 7 8 1 0
[ceci complte la seconde configuration initiale]
Si un objet n'a t assign aucun groupe, le programme demandera en mode conversationnel quel groupe lusager dsire assigner l'objet en question; si on a assign par erreur un objet plusieurs groupes, c'est la dernire assignation qui est retenue. (5) Fichier de rsultats Les rsultats sont prsents sous la forme d'une liste d'objets membres de chaque groupe. Dans les versions CMS et VMS, les rsultats du groupement avec contrainte ne sont pas prsents sous la forme de cartes; ils le sont dans la version Macintosh. Le programme peut ne fournir que les configurations initiale et finale, ou encore toutes les tapes intermdiaires. Outre la liste des membres de chaque groupe, il indique pour chaque groupe la valeur de la statistique (E) de somme des carrs des distances au centrode, ainsi que la valeur de la statistique D (qui est la somme des valeurs de E) pour l'ensemble de la solution. Voir la section des rsultats pour plus de dtails sur le fichier de sortie. Les options du programme La difficult de cette mthode consiste tablir une configuration initiale des objets, c'est--dire une division initiale des objets en k groupes, configuration qui soit suffisamment prs de la solution minimisant la somme des variances intra-groupes pour permettre l'algorithme de converger vers celle-ci. Les solutions ce problme qui sont incluses dans le programme sont les suivantes. (1) Groupement sans contrainte Pour les groupements sans contrainte de contigut, trois options sont disponibles. 1a) La mthode dite de Stony Brook, car employe par R. R. Sokal cette universit. Elle consiste raliser N itrations, chacune dmarrant partir d'une distribution initiale alatoire des objets dans les k groupes. chaque itration, on calcule une statistique D et la solution qui minimise D est retenue comme solution finale. D est la somme, pour tous les groupes, des sommes des carrs des distances des membres du groupe leur centrode (Spth, 1980, p. 73).
Donnes brutes
K-MEANS
1b) L'usager peut fournir sa propre configuration initiale. La manire de le faire est dcrite plus haut. Une configuration initiale prsumment proche de la solution optimale peut avoir t obtenue d'une autre mthode de groupement ou d'ordination; ceci est certainement la mthode la plus rapide et la plus efficace pour viter de se trouver coinc dans un minimum local de la fonction D. Dans dautres cas, la solution initiale tester peut tre connue par hypothse.
LE PROGICIEL R
65
Donnes brutes K-MEANS Configuration initiale 1c) La mthode MODULO (Spth, 1980, p. 67) qui consiste tablir la configuration initiale en attribuant l'objet 1 au groupe 1, l'objet 2 au groupe 2, ... , l'objet k au groupe k, l'objet k +1 au groupe 1, etc. (2) Groupement avec contrainte Pour les groupements avec contrainte de contigut, si la contrainte est uni-dimensionnelle (squence temporelle d'chantillonnage ou transect), il suffit de le prciser en rponse l'une des questions du programme et l'algorithme assumera que dans la liste, les objets successifs sont adjacents. Si au contraire les objets sont rpartis dans un espace deux dimensions ou plus, on fournit les contraintes sous la forme d'un fichier de LIENS, comme dans BIOGEO. Les deux solutions suivantes sont disponibles pour tablir la configuration initiale. 2a) La mthode de Stony Brook, comme dans (1a) ci-dessus. Donnes brutes K-MEANS Liste des liens 2b) Votre propre configuration initiale, connue de par la thorie ou encore obtenue dune autre mthode de groupement ou dordination, comme dans (1b) ci-dessus. cause de la nature mme de son algorithme (minimisation de la variance intragroupe), ce programme peut tre utile pour prciser la position des frontires entre les groupes tablis par le programme de groupement agglomratif sous contrainte BIOGEO. Donnes brutes Liste des liens Configuration initiale Dtails du groupement Dtails du groupement Dtails du groupement
K-MEANS
66
LE PROGICIEL R
Exemples Les deux exemples ci-dessous illustrent lutilisation du programme pour calculer un groupement sous contrainte de contigut spatiale. Dans le premier cas, le groupement sera ralis partir de 10 configurations au hasard; voir (1) [les numros se rfrent aux numros en marge gauche des exemples ci-dessous]. Dans le second cas (2), un fichier comportant deux configurations initiales sera fourni au programme. Le programme dappel, dont le dialogue est prsent ci-dessous (exemples raliss sous CMS), demande le nom des divers fichiers tour de rle; les rponses de lusager sont soulignes et en gras. Les questions poses par la version Macintosh sont essentiellement les mmes, quoique leur formulation pourra parfois diffrer lgrement. Les donnes analyses ci-dessous sont les mmes qui ont servi dexemple pour illustrer le programme BIOGO. Puisque le programme K-MEANS travaille partir dun fichier de donnes rectangulaire (objets x variables), la matrice de similarits a t soumise au pralable au programme danalyse en coordonnes principales PCOORD, qui a calcul les coordonnes de chaque objet dans un espace euclidien (voir la note la fin de la section portant sur le fichier de donnes brutes); les deux premires coordonnes principales ont t retenues, car elles seules correspondaient des valeurs propres positives. Puisque lanalyse en coordonnes principales fournit une reprsentation euclidienne du nuage de points et puisque lon dsire justement que le groupement minimise la somme des carrs de ces mmes distances euclidiennes au centrode des diffrents groupes, on demandera au programme (3) de ne pas faire de transformation des donnes. Si on avait eu affaire une srie de variables non commensurables, on aurait alors demand au programme deffectuer dabord un centrage et une rduction des donnes, suivant la mme logique quen analyse des composantes principales. Exemple 1: partir de 10 configurations au hasard
Kmeans ATTENTION! Ce programme ne traite pas l'absence d'information. Quel est le nom du fichier des donnees brutes (lignes = objets, colonnes = variables)? (Par defaut: "... data a") fichier pcoord a Quel est le nom du fichier des LIENS entre localites (sil y a lieu)? (Par defaut: "... data a") fichier liens a Quel est le nom du fichier contenant la ou les CONFIGURATION(s) INITIALE(s), si vous desirez en fournir? (Par defaut: "... data a") Quel est le nom du fichier ou les RESULTATS devront etre ecrits? (Optionnel; par defaut: "RESKM OUT a") fichier res1 a Execution begins... P R O G R A M M E Auteur: Alain Vaudor Nombre d'objets 57 Nombre de variables 2 Nombre de groupes 4 Type de groupement:
K - M E A N S
avec contraintes
LE PROGICIEL R
67
Type 0: 1: 2: 2
de groupement: Groupement sans contrainte Groupement avec contrainte de contiguite en 1 dimension Groupement avec contraintes generales (fichier de liens obligatoire)
Options: 1: Au hasard (methode de Stony Brook) 2: Votre fichier de configuration(s) initiale(s) (1) (1) 1 Nombre d'essais ? 10 Options: 1: Imprimer tous les resultats intermediaires 2: Configurations initiale et finale seulement 2 Options: 0: Pas de transformation des donnees 1: Transformation en variables centrees reduites 0 Tapez un chiffre (petit entier) pour indiquer le point de depart du generateur de nombres aleatoires 5 Fin du programme.
(3)
Exemple 2: partir dun fichier comportant deux configurations initiales

Kmeans ATTENTION! Ce programme ne traite pas l'absence d'information. Quel est le nom du fichier des donnees brutes (lignes = objets, colonnes = variables)? (Par defaut: "... data a") fichier pcoord a Quel est le nom du fichier des LIENS entre localites (sil y a lieu)? (Par defaut: "... data a") fichier liens a Quel est le nom du fichier contenant la ou les CONFIGURATION(s) INITIALE(s), si vous desirez en fournir? (Par defaut: "... data a") fichier init a Quel est le nom du fichier ou les RESULTATS devront etre ecrits? (Optionnel; par defaut: "RESKM OUT a") fichier res2 a Execution begins... P R O G R A M M E Auteur: Alain Vaudor Nombre d'objets 57 Nombre de variables 2 Nombre de groupes 4
(2)
K - M E A N S
avec contraintes
68
LE PROGICIEL R
Type 0: 1: 2: 2
de groupement: Groupement sans contrainte Groupement avec contrainte de contiguite en 1 dimension Groupement avec contraintes generales (fichier de liens obligatoire)
Options: 1: Au hasard (methode de Stony Brook) 2: Votre fichier de configuration(s) initiale(s) (2) 2 Nombre d'essais ? 2 Options: 1: Imprimer tous les resultats intermediaires 2: Configurations initiale et finale seulement 2 Options: 0: Pas de transformation des donnees 1: Transformation en variables centrees reduites (3) 0 Fin du programme.
Contenu du fichier de rsultats, exemple 2 Les sorties prsentes ci-dessous ont t produites par la version Macintosh du programme. Les versions CMS et VMS produisent un fichier de sortie ASCII identique, mais sont incapables de tracer les cartes. Premire configuration initiale: La premire configuration initiale soumise au programme divisait les objets en quatre groupes, comme suit (la fin de chaque groupe est marque par un zro):
42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 0 22 23 24 25 26 27 28 29 30 31 0 14 15 16 17 18 19 20 21 32 33 34 35 36 37 38 39 40 41 1 2 3 4 5 6 7 8 9 10 11 12 13 0
En se rfrant la carte ci-dessous, on voit que selon cette hypothse, les localits seraient divises en quatre blocs d peu prs gale importance: le premier gauche, les deux suivants au centre (partie du haut, partie du bas) et le dernier droite. La statistique D, qui reprsente la somme, pour les diffrents groupes, des sommes (E) des carrs des distances au centrode, a au dpart la valeur de 11.72596; en dplaant certains objets, lalgorithme russit rduire cette valeur D (ou: Somme des E) = 8.35474. On verra avec lexemple suivant que ce rsultat est encore trs loign de la valeur optimale; cet exemple a justement t prsent pour montrer que les algorithmes de type k-means peuvent souvent, selon la configuration initiale qui leur est fournie, ne pas converger vers la valeur minimum de la statistique D.
Essai no 1 Etape initiale Groupe 1: 42 43 44 57 E = 3.68762 Groupe 2: 22 23 24
45
46
47
48
49
50
51
52
53
54
55
56
25
26
27
28
29
30
31
LE PROGICIEL R
69
2: 22 23 24 25 E = 1.75314 Groupe 3: 14 15 16 17 39 40 41 E = 3.84957 Groupe 4: 1 2 3 4 E = 2.43562 Somme E = 11.72596 Etape 1 Groupe 1: 40 43 44 46 E = 2.75096 Groupe 2: 19 20 21 22 47 50 E = 2.35024 Groupe 3: 12 14 15 16 E = 2.48375 Groupe 4: 1 2 3 4 E = 2.44078 Somme E = 10.02573 Etape 2 Groupe 1: 46 48 49 51 E = 1.48061 Groupe 2: 20 21 27 28 47 50 E = 2.21594 Groupe 3: 10 11 12 13 E = 2.82830 Groupe 4: 1 2 3 4 E = 1.82989 Somme E = 8.35474
Groupe
26 18
27 19
28 20
29 21
30 32
31 33 34 35 36 37 38
10
11
12
13
48 23
49 27
51 28
52 29
53 30
54 31
55 32
56 33
57 41 42 45
17 5
18 6
34 7
35 8
36 9
37 10
38 11
39 13 24 25 26
52 29
53 30
54 31
55 32
56 33
57 40 41 42 43 44 45
14 5
15 6
16 7
17 8
18 9
34 19
35 22
36 23
37 24
38 25
39 26
La carte produite par le programme est la suivante. Les groupes sont entours dune enveloppe; les points individuels qui apparaissent lintrieur dune enveloppe, par exemple 2, 3, 5 et 7, sont membres du mme groupe que 1, 4, 6, etc.
1 2 5 5 4 9 5 4 5 1 5 5 3 2 5 6 5 7 4 4 4 5 4 3 5 4 0 8 3 1 4 7 33 32 4 6 4 2 4 1 4 3 0 9 3 4 3 7 3 8 36 35 2 9 30 22 21 20 19 18 17 16 13 15 14 11 12 27 26 28 25 23 24 5 6 8 7 9 10 3 4
Nombre de groupes 4
Seconde configuration initiale:
70
LE PROGICIEL R
La seconde configuration initiale fournie au programme K-MEANS est la solution quatre groupes quavait produite BIOGO; voir la section Contenu du fichier de rsultats de ce programme:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 36 37 48 49 50 54 55 56 0 45 46 0 34 38 39 40 41 42 43 44 47 51 52 53 57 0 0
Cette configuration initiale produit une statistique D (ou: Somme des E) = 7.71485 que le programme na pas russi amliorer par interchange dobjets entre les groupes.
Essai no 2 Etape initiale Groupe 1: 1 2 3 4 5 6 7 8 16 17 18 19 20 21 22 23 E = 4.48868 Groupe 2: 27 28 29 30 31 32 33 35 56 E = 0.87511 Groupe 3: 45 46 E = 0.17951 Groupe 4: 34 38 39 40 41 42 43 44 E = 2.17156 Somme E = 7.71485 La solution initiale na pu tre amliore.
9 24 36
10 25 37
11 26 48
12
13
14
15
49
50
54
55
47
51
52
53
57
La carte produite par le programme est la suivante. Elle montre les mmes assignations de groupes que la carte prsente dans lexemple du programme BIOGO, ltape 4 groupes. On remarque que le groupe (45, 46) est lintrieur du beigne form par les deux enveloppes (extrieure et intrieure) dessines pour le groupe (34 57). N . B . Pour augmenter la rsolution, on peut agrandir nimporte quelle partie de limage en lentourant dun cadre laide de la souris.
1 2 5 5 4 9 5 4 5 1 5 3 5 2 5 6 5 7 5 44 4 4 4 3 2 4 7 4 6 4 1 3 4 36 35 18 17 16 5 4 0 8 3 1 2 9 3 0 3 32 3 21 27 26 22 28 25 23 24 11 19 15 14 13 12 5 6 8 7 9 10 3 4
20
3 7 4 3 3 0 9 8
Nombre de groupes 4
LE PROGICIEL R
71
LANCECMS/VMS
Que fait LANCE ? Ce programme ralise le groupement agglomratif selon l'algorithme propos par Lance & Williams (1966, 1967). Les mthodes disponibles incluent les groupements liens simples, liens complets, selon l'association moyenne (UPGMA), poids proportionnels (WPGMA), centrode (UPGMC), mdian (WPGMC), ainsi que la famille de mthodes connues sous le vocable de groupement flexible. La mthode de Ward (1963), ou mthode de minimisation de la variance intragroupe, a rcemment t introduite dans ce mme programme, suivant en cela la proposition de Everitt (1980). Pour les mthodes autres que liens simples, liens complets, UPGMA, UPGMC, WPGMA, WPGMC et Ward, le programme demande l'usager de fournir les quatre paramtres alphaj , alpham, bta et gamma qui dterminent la stratgie de groupement que ralisera l'algorithme de Lance & Williams. Le tableau 2 dcrit les valeurs de ces paramtres dans les diffrents cas. On consultera les ouvrages en rfrence dans len-tte du tableau pour connatre le rle de ces paramtres dans la stratgie de groupement. Tableau 2 Valeurs des paramtres alphaj , alpham , bta et gamma de l'quation gnrale de Lance & Williams (1966), pour les diffrents types combinatoires de groupement squentiel agglomratif. Inspir de Sneath & Sokal (1973), Legendre & Legendre (1984a) et Jain & Dubes (1988). ________________________________________________________________________________
Mthode de groupement Paramtres du modle combinatoire
j m ________________________________________________________________________________
Liens simples Liens complets Groupements moyens: Association moyenne (UPGMA) Poids proportionnels (WPGMA) Centrode (UPGMC) Mdian (WPGMC) Groupement flexible Mthode de Ward
0.5 0.5
0.5 0.5
0 0
-0.5 0.5
nj /(nj +nm) nm/(nj +nm) 0.5 0.5 nj /(nj +nm) nm/(nj +nm) 0.5 0.5 [ j + m + = 1; j = m ;
0 0 - j m -0.25 -1 1]
0 0 0 0 0
(nj +ng )/(nj +nm+ng ) (nm+ng )/(nj +nm+ng ) -ng /(nj +nm+ng ) 0 ________________________________________________________________________________ Le programme dappel LANCE met en route tour de rle trois programmes diffrents: (1) un programme de tri qui rcrit la matrice de similarits en ordre de similarits dcroissantes (ncessaire pour les tests a posteriori du groupement), (2) le programme de groupement lui-mme, et finalement (3) le programme qui trace le dendrogramme. L'usager peut demander ce dernier programme de calculer diffrentes statistiques (chane des liens primaires, corrlations cophntiques, distance de Gower, coefficients defficacit) qui ont t dcrites la fin de la section portant sur le programme GROUPEMENTS. Le programme LANCE nexiste que dans les versions CMS et VMS de R.
72
LE PROGICIEL R
Fichiers d'entre et de sortie
Matrice de ressemblance (format SIMIL) (1) Le fichier d'entre
LANCE
Dendrogramme et statistiques
Le fichier d'entre peut contenir une matrice de similarits ou de distances, crit par SIMIL ou IMPORT (puisque le programme LANCE nexiste quen versions CMS et VMS). Le nombre maximum dobjets qui peuvent tre traits par ce programme est fix par le paramtre MAXNOBJ, en dbut du programme. Ce paramtre peut tre ajust la taille des problmes traiter, avant la compilation. (2) Le fichier de sortie Ce fichier contient le dendrogramme dcrivant le groupement agglomratif, ainsi que les statistiques de groupement. Celles-ci sont dcrites en dtail la section relative au programme GROUPEMENTS. Si on a attribu des noms aux objets dans le fichier de donnes brutes soumis SIMIL (10 premiers caractres), le dendrogramme prsente ces identificateurs, au lieu des numros d'ordre que le programme attribuera autrement aux objets. Les questions du programme Aprs que le programme dappel ait demand le nom des fichiers dentre et de sortie, le programme de groupement lui-mme demande lusager de choisir la mthode de groupement quil dsire employer. Si le choix se porte sur loption 6, il aura encore fournir les paramtres alphaj , alpham, bta et gamma dont le programme a besoin pour raliser les calculs. Voir le tableau 2.
DESIREZ-VOUS 1- Association moyenne (UPGMA) 2- Poids proportionnels (WPGMA) 3- Groupement centrode (UPGMC) 4- Groupement mdian (WPGMC) 5- Mthode de Ward (1963) 6- Autres groupements combinatoires
Ce programme est le seul parmi les programmes de groupement de R permettre lemploi dune matrice de distances aussi bien que dune matrice de similarits. La question suivante est pose pour dterminer de quel type de matrice il sagit:
LA MATRICE D'ENTREE EST DE SIMILARITES OU DE DISTANCES? (S ou D)
cette question, on doit rpondre par une lettre: S ou s sil sagit dune matrice de similarits, D ou d pour une matrice de distances. Il reste cependant que le mode normal de fonctionnement de ce programme demande une matrice de similarits, si bien que lajustement des calculs ne stend pas jusquaux statistiques associes au dendrogramme, qui est calcul par un programme diffrent. Lavertissement suivant est fourni lusager qui aura choisi de traiter une matrice de distances:
Lecture de la matrice de DISTANCES.
LE PROGICIEL R
73
Lecture de la matrice de DISTANCES. Les tests a posteriori ne sont tous corrects que pour les matrices de SIMILARITE. Si vous les demandez, - la chane des liens primaires sera donc errone; - le signe des corrlations cophntiques sera invers; - la distance de Gower sera incorrecte; - les mesures d'entropie seront correctes.
Les questions suivantes sont poses par le programme DENDRO qui se charge de tracer le dendrogramme et de calculer les statistiques de groupement; voir la description de ces statistiques la section portant sur le programme GROUPEMENTS. La largeur du dendrogramme qui sera dessin est fixe par lutilisateur, qui doit dterminer le nombre de caractres dimprimerie qui seront utiliss pour tracer le dendrogramme. la question
LARGEUR DU DENDROGRAMME EN CARACTERES (MINIMUM 10, MAXIMUM 279)
il faut rpondre par un nombre entier compris entre 10 et 279, selon la largeur de lcran ou du papier disponible pour limpression. Notez que la largeur demande ne concerne que le dendrogramme luimme; cela il faut ajouter 12 caractres gauche pour les noms dobjets et la marge du dendrogramme, et 10 caractres droite pour les niveaux de fusion (voir lexemple ci-dessous). Note sur la mthode de Ward La mthode de minimisation de la variance de Ward (1963) fusionne les objets ou les groupes de faon minimiser la somme des carrs des distances au centrode de chaque groupe. Les calculs par lalgorithme gnral de Lance & Williams se font sur la matrice des distances au carr D2 . Les dendrogrammes peuvent tre reprsents de diffrentes faons, selon les auteurs. Ainsi, Jain & Dubes (1988) utilisent directement comme chelle horizontale du dendrogramme les niveaux de fusion obtenus de lalgorithme de groupement, exprims en distances au carr. Everitt (1980) utilise plutt une statistique de somme, pour les diffrents groupes, des sommes des carrs des carts au centrode de chaque groupe, ou E.S.S. dans le livre de Everitt, qui peut galement se calculer comme la somme, pour les diffrents groupes k, des valeurs ek2 = (D2 )/nk . Lchelle de Jain & Dubes est une simple transformation linaire de lchelle utilise par Everitt. Dans le manuel SAS (1985), enfin, on recommande demployer lune ou lautre des statistiques suivantes comme chelle du groupement: soit la statistique E.S.S. de Everitt divise par la somme totale des carrs des carts, ce qui produit des proportions de variance (manuel SAS 1985, p. 267), soit encore le R-carr semipartiel qui se calcule comme la somme des carrs des carts inter-groupes divise par la somme totale des carrs des carts (manuel SAS 1985, p. 272 et 281); il sagit de nouveau de transformations linaires des chelles de Everitt et de Jain & Dubes. Notez que toutes les mesures ci-dessus sont essentiellement des distances au carr. Dans le programme LANCE, nous employons plutt la racine carre des distances de fusion au carr produites par lalgorithme combinatoire de Lance & Williams et utilises par Jain & Dubes. Il y a cela deux avantages. Dune part, les dendrogrammes ont une apparence mieux balance que ceux produits par les mthodes numres ci-dessus. Dautre part, cest la distance la plus approprie lorsquon veut comparer, par corrlation de matrices ou par la distance de Gower, la matrice cophntique du dendrogramme la matrice des distances ou des similarits dorigine. Exemple Lexemple ci-dessous, ralis sous CMS, est le rsultat dun groupement selon la mthode de Ward, pour les 5 mares dj utilises pour illustrer les statistiques de groupement, la section du programme GROUPEMENTS. Quatre nouvelles variables ont t obtenues dune analyse en
74
LE PROGICIEL R
coordonnes principales de la matrice de similarits (coefficient S20) calcule partir des donnes dorigine; la distance euclidienne (D01) a ensuite t calcule entre les objets (mares) pour ces nouvelles variables, ce afin dillustrer les rponses du programme lorsque le fichier dentre contient une matrice de distances.
Quel est le nom du fichier contenant la matrice de SIMILARITES de type SIMIL? (Par defaut: "... data a") mares d1 a Quel nom doit recevoir le fichier contenant le dendrogramme et les tests? (Par defaut: "RESULTAT listing a") mares dendr-d1 a Execution begins... Execution begins... P R O G R A M M E
Annonce le dbut de lexcution du programme de tri Annonce le dbut de lexcution du programme de groupement
L A N C E -- Modele general de groupement agglomeratif.
Version 2.2b (Modifie pour SIMIL 3.0 / Inclut Ward) Auteur: A. VAUDOR DESIREZ-VOUS 1- Association moyenne (UPGMA) 2- Poids proportionnels (WPGMA) 3- Groupement centroide (UPGMC) 4- Groupement median (WPGMC) 5- Methode de Ward (1963) 6- Autres groupements combinatoires 5 LA MATRICE D'ENTREE EST DE SIMILARITES OU DE DISTANCES? (S ou D) d Lecture de la matrice de DISTANCES. Les tests a posteriori ne sont tous corrects que pour les matrices de SIMILARITE. Si vous les demandez, - la chaine des liens primaires sera donc erronee; - le signe des correlations cophenetiques sera inverse; - la distance de Gower sera incorrecte; - les mesures d'entropie seront correctes. Fin du groupement. Execution begins... P R O G R A M M E
Dbut de lexcution du programme qui trace le dendrogramme

D E N D R O
Dendrogramme, chaine des liens primaires, tests entre les groupes Version 3.0b AUTEUR: A. VAUDOR VOULEZ-VOUS LA CHAINE DES LIENS PRIMAIRES ( o ou n) ? o VOULEZ-VOUS LES TESTS A POSTERIORI: CORRELATIONS COPHENETIQUES, DISTANCE DE GOWER ET ENTROPIE?
LE PROGICIEL R
75
n LARGEUR DU DENDROGRAMME EN CARACTERES ( MINIMUM: 50 Fin du programme. 10 MAXIMUM 279)
Contenu du fichier de rsultats gauche du dendrogramme se trouvent les noms des objets. dfaut de noms, le programme de groupement leur aurait attribu les numros de 1 n. Chaque niveau de fusion (exprim en distances), indiqu droite, correspond au trait vertical qui commence sa gauche et se dirige vers le bas. Ainsi, le trait vertical identifi par la flche a la valeur de D = 0.50000, indique droite.
P R O G R A M M E D E N D R O
Logiciel R, Version 3.0b NOMBRE D OBJETS : 5 [Bloc dinformations concernant NOMBRE DE VARIABLES: 4 la matrice de similarits utilise] TITRE: 5 mares de Legendre & Chodorowski (1977) DATE 03/03/91 FONCTION d01 D E N D R O G R A M M E NIVEAU(D) ------------------------------------------------------------------------
MARE 431 MARE 432 MARE 233 MARE 212 MARE 214
|<-----------------|<-----------|<-----------------| |<----------------|<------------------------------| |< |<-------------| |<---------------------------------|<--------------
0.50000 0.81854 1.29596
0.40000
76
LE PROGICIEL R
MANTEL
Que fait MANTEL ? Ce programme calcule la statistique Z de Mantel (1967) entre deux matrices de similarit ou de distance, ainsi que les formes drives dcrites ci-dessous: tests de Mantel partiels, corrlogramme de Mantel. La signification de la statistique de Mantel peut tre value par permutations, ou encore par lapproximation normale dcrite par Mantel (statistique appele t par Mantel, dont la distribution est asymptotiquement normale). Comme la probabilit obtenue du test approximatif converge rapidement vers la probabilit obtenue par permutations, il devient inutile d'employer le test par permutations l o il serait le plus coteux en temps machine, soit les problmes comportant de nombreux objets. Legendre & Fortin (1989) prsentent un bref expos de cette mthode de test par permutations. Notez que la statistique Z fournie par ce programme a comme valeur la moiti de celle de Mantel (1967), car les calculs sont effectus sur des demi-matrices symtriques de similarit ou de distance; cependant, la statistique t de Mantel de mme que la valeur standardise de Z selon Hubert sont calcules comme si les matrices taient carres. La statistique de Mantel centre rduite (r) n'est pas affecte par le calcul sur la demi-matrice. Outre ses applications lanalyse spatiale, le test de Mantel est utilis dans une foule dautres situations statistiques. Hubert et al. (1982), de mme que McCune & Allen (1985), Burgman (1987), Hudon & Lamarche (1989) et Legendre & Fortin (1989) ont test la conformit de modles des donnes par la mthode du test de Mantel. Legendre & Troussellier (1988) de mme que Legendre & Fortin (1989) ont employ les tests de Mantel partiels de Smouse-Long-Sokal pour une modlisation de type causal. Sokal et al. (1987) ont propos de limiter les permutations lors du test de Mantel de faon valuer laquelle de deux hypothses concurrentes (H1 ) est la plus conforme aux donnes; un exemple est fourni la section portant sur les permutations limites (Options du programme, section 8, ci-dessous). Fichiers d'entre et de sortie Les questions poses par le programme EXEC propos des fichiers d'entre sont nombreuses et refltent la multiplicit des options offertes par le programme. Lisez-les attentivement avant d'y rpondre. Les tests de MANTEL simples requirent deux matrices, A et B. Les tests partiels exigent la prsence d'une troisime matrice C en plus des fichiers A et B. Enfin, les corrlogrammes requirent B et un fichier contenant les classes de distance. (1) Fichier d'entre B La matrice B doit toujours tre prsente, et il doit toujours s'agir d'un fichier binaire produit par SIMIL, IMPORT-EXPORT (version Macintosh) ou IMPORT (version VMS ou CMS). Cette matrice peut aussi bien reprsenter une matrice de SIMILARITS qu'une matrice de DISTANCES. (2) Fichier d'entre A La matrice A, quant elle, peut prendre plusieurs formes, numres ci-dessous. (2.1) Fichier binaire de similarits La matrice A peut tre fournie au programme sous la forme d'un fichier binaire de type SIMIL, IMPORT-EXPORT (version Macintosh) ou IMPORT (version VMS ou CMS), si l'usager le dsire.
LE PROGICIEL R
77
Tout comme la matrice B, cette matrice peut tre de type SIMILARITES ou DISTANCES. Il est cependant souhaitable que les matrices A et B soient de type identique. (2.2) Fichier de classes de distance Dans le cas d'un corrlogramme, une srie de matrices A seront calcules par le programme partir des informations donnes dans le fichier des classes de distance (dcrit ci-dessous), et utilises tour de rle pour le calcul des tests de Mantel correspondant chaque classe de distance. Le fichier de classes de distances, utilis pour le calcul d'un corrlogramme de Mantel, est appel par CLASSEF dans la dclaration des noms de fichiers du programme, ainsi que dans les fichier EXEC et COM des versions pour grands ordinateurs. Ce fichier est en caractres lisibles (et non en binaire). Il contient une matrice triangulaire suprieure de classes de distance entre les objets, sans la diagonale. Pour les petits problmes, ce fichier peut tre crit la main par l'usager l'aide de son diteur ASCII. Pour les problmes plus importants, il peut tre prpar l'aide du programme AUTOCOR (voir ce programme), ou l'aide de tout autre programme spcifique crit par l'usager. Dans ce fichier, les entiers 1, 2, 3, etc. reprsentent les classes de distance. Un test de Mantel sera ralis pour chaque classe de distance prsente dans le fichier: le programme fabriquera une matrice A contenant des "1" pour toutes les paires d'objets appartenant la classe de distance qu'il est en train de tester et des "0" pour toutes les autres paires d'objets. Si une classe 0 ou ngative est prsente, aucun test de Mantel ne sera ralis pour cette classe. Le fichier suivant serait une matrice CLASSEF acceptable pour un ensemble de 6 objets: 1 1 1 2 2 2 3 3 3 1 3 3 3 1 1
(2.3) Grille rgulire La matrice A peut tre calcule par le programme sur dclaration de la largeur de la grille rectangulaire rgulire que forment les points. Le programme lit le nombre total de points dans l'entte du fichier contenant la matrice B, d'o il peut dduire la hauteur de la grille rgulire. (2.4) Fichiers de coordonnes gographiques (DMS ou dcimales) Le fichier des coordonnes partir duquel sera calcule la matrice A est un fichier ASCII. Les coordonnes sont crites en format libres. Il peut s'agir de coordonnes sur un plan cartsien, ou encore de coordonnes terrestres en degrs, minutes et secondes (DMS) ou en degrs dcimaux. Par exemple, on pourra crire 45 15 36 (en DMS), ce qui est quivalent 45.26 (en degrs dcimaux). On inscrit la latitude d'abord, la longitude ensuite. Le programme offre le choix de calculer la distance par la formule de la distance euclidienne (coordonnes planes) ou en suivant la courbure de la terre (coordonnes sur une sphre); dans ce dernier cas, les distances sont exprimes en milles marins. (3) Fichier d'entre C La matrice C employe pour les tests de Mantel partiels est toujours une matrice binaire de similarits ou de distances de type SIMIL, IMPORT-EXPORT (version Macintosh) ou IMPORT (version VMS ou CMS), tout comme la matrice B. (4) Fichier de sortie Sur grands ordinateurs, les rsultats du test de Mantel sont prsents l'cran et non pas dans un fichier de SORTIE. L'utilisateur CMS peut utiliser la procdure CON dcrite en page 2 pour
78
LE PROGICIEL R
conserver les rsultats sur fichier, s'il le dsire. Sur Macintosh au contraire, les rsultats n'apparaissent pas l'cran mais sont plutt inscrits sur un fichier de sortie; l'usager se voit offrir la possibilit de dsigner directement l'imprimante comme son mdium de sortie, ou encore de conserver les rsultats dans un fichier auquel il est invit donner un nom. Voir la section Rsultats pour plus de renseignements sur la signification des rsultats. Limites du programme Les versions du programme pour grands ordinateurs sont limites par deux paramtres que l'on trouvera en dbut de programme. Il s'agit du nombre maximum d'objets qui peuvent tre traits (ex. MAXNOBJ = 1000), puis du plus grand nombre d'objets pour lesquels on autorise les tests par permutations (ex. PETITNOBJ = 200). La version Macintosh ne contient aucune de ces limites; le programme utilise de faon dynamique la mmoire disponible dans l'appareil. Un message devrait apparatre (sous FINDER) si l'ordinateur manque de mmoire vive pour raliser le calcul. Notez que le temps de calcul augmente approximativement comme le carr du nombre d'objets. Les options du programme Les options disponibles dans ce programme permettent la comparaison de deux matrices, les tests de Mantel partiels de mme que le calcul du corrlogramme de Mantel. (1) Option 0: Mantel entre deux matrices Le programme demande le nom des deux matrices (A et B) en plus du type de la matrice A. Matrice B de type SIMIL MANTEL Matrice A: typeSIMIL ou coord.
Fichier de rsultats
Avec les options (2.3) et (2.4) relatives la matrice A (grille rgulire, ou fichier de coordonnes en degrs-minutes-secondes ou en degrs dcimaux: voir ci-dessus), l'usager peut demander de transformer les distances calcules par le programme pour la matrice A en 1/D ou en 1/D2 . (2) Options 1 3: Tests de Mantel partiels Le programme propose un choix de tests partiels. Ces diffrentes mthodes exigent toutes que trois matrices soient prsentes (A, B et C). Encore ici, les matrices B et C sont toujours obligatoirement de type SIMIL alors que la matrice A peut prendre l'une ou l'autre des formes dcrites ci-dessus.
LE PROGICIEL R
79
Matrice B de type SIMIL Matrice A: typeSIMIL ou coord. Matrice C de type SIMIL Option 1: Mthode de Dow & Cheverud (1985). Statistique: (A * (B - C)) o * reprsente la somme des produits de Mantel et permet de reconnatre les deux blocs permuter. On peut exprimer cette statistique comme suit: [ai j * (b'i j - c' i j)] (statistique non centre rduite) ou [a'i j * (b'i j c 'i j)']/(n-1) (statistique centre rduite), o le signe prime (') reprsente une valeur centre rduite. Option 2: Mthode de Smouse, Long & Sokal (1986). Statistique: (A*B.C). Cette statistique est en fait la corrlation partielle entre les valeurs de A et de B conditionnellement C. Le calcul est ralis en calculant d'abord A ' qui est la matrice des rsidus de la rgression des valeurs de A contre celles de C, puis B ' qui est la matrice des rsidus de la rgression des valeurs de B contre celles de C, aprs avoir centr et rduit les valeurs au sein de chacune de ces matrices; on fait ensuite un test de Mantel entre A ' et B '. Ceci n'est qu'une autre faon de calculer la corrlation partielle recherche. Option 3: Mthode de Hubert (1985). Statistique: (A * (BC)). On peut exprimer le dtail de cette statistique comme suit: [ai j * (bi j * ci j)] (statistique non centre rduite) ou [a'i j * (bi j * ci j)']/(n-1) (statistique centre rduite), o le signe prime (') reprsente une valeur centre rduite. Le test partiel le plus couramment employ dans notre laboratoire est le second, qui a la mme valeur qu'une corrlation partielle paramtrique entre les valeurs qui se trouvent dans les matrices A et B, conditionnellement aux valeurs de la matrice C. Seule l'option (2) parat actuellement acceptable en analyse spatiale (Oden & Sokal, soumis). (3) Option 4: Le corrlogramme de Mantel Ce programme peut calculer un corrlogramme de Mantel (Sokal, 1986; Oden & Sokal, 1986). Celui-ci prsente sur le programme AUTOCOR l'avantage de permettre le calcul d'un corrlogramme partir de donnes multidimensionnelles, puisque le corrlogramme lui-mme est calcul sur une matrice de similarits ou de distances produite par SIMIL, matrice qui utilise dans la plupart des cas des donnes multidimensionnelles; voir Legendre & Fortin (1989) pour un exemple. On obtient le corrlogramme de Mantel en demandant l'option de calcul "0" ainsi que l'option "0" pour la matrice A; un test de Mantel est alors calcul pour chacune des classes de distances du corrlogramme. MANTEL Fichier de rsultats
Matrice B de type SIMIL MANTEL Fichier A de classes de distances (4) Statistique utilise
Fichier de rsultats
80
LE PROGICIEL R
Le programme peut fournir soit la statistique Z de Mantel, qui est simplement la somme des produits croiss des valeurs correspondantes des deux matrices, l'exclusion de la diagonale: Z = xi j yi j pour toutes les paires de valeurs (i, j) des deux matrices,
soit une forme centre rduite r de cette statistique, tel que propos par Smouse, Long & Sokal (1986). Pour calculer cette statistique, on centre et on rduit d'abord les valeurs au sein de chacune des matrices de distance ( l'exclusion de la diagonale), avant de calculer la somme des produits croiss; puis on divise par (n - 1) o n est le nombre de paires de distances considres dans le calcul. Cette statistique est donc quivalente au calcul d'un coefficient de corrlation de Pearson entre les valeurs des deux matrices (diagonale exclue), si bien que les valeurs obtenues sont situes entre -1 et +1. Que la statistique soit centre rduite ou non, les probabilits associes sont exactement les mmes. (5) Probabilits Les probabilits peuvent tre calcules de deux faons: soit par permutations, ou encore par l'entremise d'une transformation du Z ou du r en une autre statistique, appele t par Mantel (1967), qui est distribue de faon asymptotiquement normale centre-rduite. Ce test donne une bonne approximation de la probabilit lorsque le nombre d'objets est suffisamment grand, si un certain nombre d'autres conditions sont galement remplies (voir Mielke, 1978). Lorsque le nombre d'objets est grand, le test par permutations devient trs long raliser. L'usager a alors la possibilit de demander au programme de ne calculer que le test approximatif; il suffit de ne demander aucune permutation. Pour les tests par permutations, une limite de 200 objets est inscrite dans le programme. [versions CMS et VMS seulement ?] Si le nombre d'objets du problme excde cette valeur, le programme ne ralise, d'autorit, que le test par approximation dans le cas de l'option 0 (Mantel entre deux matrices ou corrlogramme simple); le programme s'arrte dans le cas des tests partiels (options 1 3). Cette borne est tablie par un paramtre en en-tte du programme (PETITNOBJ = 200), que l'usager pourra modifier selon ses besoins dans les versions pour grands ordinateurs. On a souvent prsent les probabilits des tests de Mantel en tant que surface sous la courbe gauche de la valeur observe; ainsi, une statistique de Mantel ngative et significative avait une probabilit prs de 0, alors qu'une statistique positive et significative avait une probabilit prs de 1. Notre programme prsente plutt la probabilit estime (test unilatral) que l'hypothse nulle (H0 : pas de relation linaire entre les deux matrices) soit vraie, comme cest la coutume dans les tests statistiques. Ainsi, les statistiques de Mantel significatives ont une probabilit prs de zro, que la statistique elle-mme ait un signe positif ou ngatif. (6) Les tests par permutations Si l'usager demande d'effectuer le test par permutations, il doit indiquer le nombre de permutations dsires. Si on ne dsire pas que le test par permutations soit ralis, il suffit d'indiquer au programme de raliser zro permutations. Lorsque les matrices sont trs grandes, le test par permutations devient inutile puisque le test par approximation converge asymptotiquement vers la loi normale centre-rduite. Les probabilits obtenues par permutations sont calcules selon la mthode de Hope (1968), mthode recommande galement par Edgington (1987); celle-ci consiste inclure la valeur observe parmi les valeurs de la distribution de rfrence, de sorte qu'il n'est jamais possible d'obtenir 0% de valeurs "aussi extrmes ou plus extrmes que la valeur observe". Selon Edgington, cette faon de faire est biaise mais elle a le mrite d'tre valide. tout vnement, les probabilits doivent tre interprtes en termes de "strictement plus petit" ou "strictement plus grand" que la valeur seuil; ainsi, si la probabilit obtenue par permutation est de 0.05 alors la probabilit que l'hypothse nulle soit vraie est strictement plus petite que 0.05 dans un test unilatral. La prcision de cette probabilit est toujours
LE PROGICIEL R
81
l'inverse du nombre de permutations demandes par l'usager. (7) Standardisation de Hubert La standardisation propose par Hubert (1985), qui produit aussi des valeurs entre -1 et +1, consiste centrer la valeur relle de Z ou de r par rapport aux valeurs extrmes (minimum et maximum) obtenues au cours des permutations, puis attribuer cette statistique le signe qu'avait Z ou r. Une valeur standardise selon Hubert gale +1 signifie essentiellement que la valeur observe de la statistique est la plus grande de la distribution de rfrence, alors quune valeur gale -1 signifie que la valeur observe est la plus petite de la distribution de rfrence. (8) Permutations limites Ce programme permet d'effectuer des permutations limites des changes entre les objets membres de certains sous-groupes dfinis par l'usager (Sokal et al., 1987). L'usager doit indiquer combien de sous-groupes il dsire reconnatre, puis il doit donner la liste des objets membres de chaque sous-groupe. Les numros d'objets peuvent tre donns un par un, ou encore par blocs l'aide d'un tiret (versions CMS ou VMS seulement); par exemple: 1 4 7 9-32 38 67 serait une rponse valide. Si on ne dsire pas se prvaloir de cette option, on rpond 1 la question Nombre de groupes permuter ? (Problme gnral: 1). Le principe de ce test est expliqu ci-dessous. Considrons le cas dun test de conformit dun modle des donnes. La mthode consiste formuler lhypothse alternative (H 1 ) par exemple, lexistence de groupes distinguables dans les donnes sous la forme dune matrice-modle, contenant par exemple des 1 entre les objets supposs appartenir au mme groupe et des 0 ailleurs. Une matrice de ressemblance est galement calcule pour les donnes. Lhypothse nulle (H0 ) de non-conformit du modle aux donnes est teste en comparant la valeur de la statistique de Mantel une distribution de rfrence obtenue par permutations successives de lune des matrices suivies du re-calcul de la statistique de Mantel. Si deux hypothses alternatives concurrentes dappartenance des groupes sont toutes deux significativement conformes aux donnes (matrice A), on peut procder comme suit pour valuer si lune des deux rend mieux compte des donnes: 1- Exprimer chacune des deux hypothses alternatives sous la forme dune matrice-modle, que nous appellerons B 1 et B 2 . Les paires dobjets groups par lhypothse alternative 1 reoivent des 1 dans la matrice B 1 alors que celles qui sont groupes par lhypothse 2 reoivent des 1 dans B 2 . 2- On ralise un test de Mantel entre la matrice A correspondant aux donnes et la matrice-modle B 1 , en ne permutant qu lintrieur des groupes reconnus par la seconde hypothse alternative; B 2 devient en fait lhypothse nulle de ce test. 3- De mme, on ralise un test de Mantel entre la matrice A correspondant aux donnes et la matricemodle B 2 , en ne permutant qu lintrieur des groupes reconnus par lhypothse alternative 1; B 1 devient en fait lhypothse nulle de ce test. 4- Si un seul test demeure significatif, on retient lhypothse alternative qui lui correspond. Lexemple suivant a t trait par Legendre & Lessard (en prp.). La question est de savoir si des filets de maille diffrente pchent essentiellement les mmes espces de poissons une srie de stations dchantillonnage. Lhypothse nulle est que les diffrences entre chantillons sont indpendantes des stations ou des types de filets. La premire hypothse alternative est que les deux types de filets chantillonnent la mme communaut de poissons chaque station; si cette hypothse est supporte par les donnes, il devient possible de regrouper les rsultats de pche par les deux types de filets, pour ltudes des communauts de poissons. La seconde hypothse alternative affirme au contraire que le premier filet chantillonne une premire communaut (petites espces) toutes les
82
LE PROGICIEL R
stations, alors que le second filet, de plus grande maille, chantillonne une seconde communaut (espces plus grandes). Ces trois hypothses peuvent tre reprsentes par les vecteurs suivants; les chiffres reprsentent des types de communauts, en supposant quil y a 5 stations dchantillonnage: ____________________________________________________________________________ Station 1 Station 2 Station 3 Station 4 Station 5 Filet 1 Filet 2 Filet 1 Filet 2 Filet 1 Filet 2 Filet 1 Filet 2 Filet 1 Filet 2 Observation no 1 2 3 4 5 6 7 8 9 10 ____________________________________________________________________________ Hypothse nulle 1 1 1 1 1 1 1 1 1 1 Hypothse alternative 1 1 1 2 2 3 3 4 4 5 5 Hypothse alternative 2 1 2 1 2 1 2 1 2 1 2 ____________________________________________________________________________ Chacun de ces vecteurs de nombres peut aisment tre transform en une matrice-modle par le calcul dun coefficient de Jaccard pour donnes multiclasses, laide des coefficients S15 ou S16 du programme SIMIL. Dans le premier test par permutations limites, on teste entre la matrice A (similarits bases sur les donnes relles) et la matrice-modle B 1 en ne permutant qu lintrieur des groupes-filets (1-3-5-7-9) et (2-4-6-8-10). Ensuite, on ralise le test de Mantel entre A et la matricemodle B 2 en ne permutant qu lintrieur des groupes-stations (1-2), (3-4), (5-6), (7-8) et (9-10). Les questions du programme La premire question du programme concerne le type de calcul. On doit choisir entre le test de Mantel simple ou l'un des tests partiels. Si on dsire un corrlogramme de Mantel, celui-ci est le plus souvent ralis par l'option 0 (Mantel simple); le programme permettrait cependant de calculer un corrlogramme partiel, cest--dire un corrlogramme fait de tests de Mantel partiels. Voir la faon de spcifier les classes de distances dans le fichier d'entre A, au point (2.2) ci-dessus. La seconde question concerne les options pour la matrice A. Ces options sont dcrites en (2) cidessus. Si on indique au programme que les points forment une grille rgulire, la question suivante concerne la largeur de cette grille (nombre de colonnes); le nombre total de points tant connu du programme (puisqu'il est inscrit dans l'en-tte binaire du fichier B produit par SIMIL), le nombre de lignes de la grille est calcul automatiquement. Si par ailleurs on a choisi de fournir au programme un fichier de coordonnes gographiques (options 3 ou 4), une question subsquente du programme permettra de spcifier comment seront calcules les distances: soit par la formule de la distance euclidienne (coordonnes planes), soit en suivant la courbure de la terre (coordonnes sur une sphre); dans ce dernier cas, les distances sont exprimes en milles marins. On devra ensuite dterminer si on dsire obtenir la statistique Z de Mantel originale, ou encore la statistique centre rduite r qui est borne entre les valeurs -1 et +1. Cette question n'est cependant pas pose lorsqu'on a demand un test partiel de Smouse, Long & Sokal, car la statistique dans ce cas doit tre une corrlation partielle. L'usager doit maintenant prciser combien de permutations il dsire obtenir; s'il en demande zro, seul le test par approximation est ralis. Les utilisateurs du test de Mantel demandent souvent 999 permutations (pour un total de 1000 avec la valeur relle); il est cependant recommand d'accrotre substantiellement ce nombre lorsqu'on s'approche du seuil de signification pr-tabli, cause de l'instabilit des probabilits obtenues par la mthode des permutations (Jackson & Somers, 1988). La dernire question concerne le nombre de groupes permuter; voir la section (8) ci-dessus. Si ce nombre est diffrent de 1, le programme demandera le nombre d'objets appartenant chaque groupe, puis les numros de ces objets; on doit fournir les numros squentiels des objets dans la
LE PROGICIEL R
83
matrice d'entre, et non les noms attribus aux objets dans les 10 premires colonnes de cette matrice. Exemple L'exemple ci-dessous illustre l'utilisation du programme pour calculer une relation partielle de Smouse, Long & Sokal (1986) sur grand ordinateur (systme CMS ou VMS; cet exemple a t ralis sous CMS). Le programme de lancement demande d'abord l'usager d'identifier les fichiers qui seront utiliss; les rponses sont soulignes. Puis, aprs l'en-tte, viennent les questions poses par le programme lui-mme pour identifier quelles sont les options de calcul que dsire l'usager. Cet exemple est l'un des rsultats rapports par Legendre & Troussellier (1989): il s'agit du test de Mantel partiel entre les variables MA et CHLA sur l'tang de Thau, en contrlant l'effet de la matrice des distances gographiques (XY).
Programme MANTEL3, decembre 1989. Ce programme utilise 2 ou 3 matrices de distances; deux pour les tests de Mantel (elles s'appellent alors A et B), et trois pour les tests de Mantel partiels (elles s'appellent alors A, B et C). On peut employer des matrices de similarites plutot que des matrices de distances, mais il n'est pas recommande de meler les types, ce qui compliquerait inutilement l'interpretation MATRICE "A" : La matrice "A" peut etre une matrice de distances de type SIMIL. Si tel est le cas, quel est le nom du fichier qui la contient? (Par defaut: "... data a") MA D01 B COORDONNEES DES POINTS : Si les points forment une grille rectangulaire reguliere, il n'est besoin d'aucun fichier pour calculer la matrice "A" des distances geographiques entre ces points. Dans le cas contraire, et si vous n'avez pas declare ci-dessus de fichier pour la matrice "A", le programme aura besoin d'un fichier contenant les coordonnees des objets. Quel est le nom de ce fichier, s'il y a lieu? (Par defaut: "... data a") MATRICE "B" : "B" est une matrice de distances de type SIMIL. Quel est le nom du fichier qui la contient? (Par defaut: "... data a") CHLA D01 B MATRICE "C" : Si le calcul demande une matrice "C", celle-ci est aussi une matrice de distances de type SIMIL. Quel est le nom du fichier qui la contient, s'il y a lieu? (Par defaut: "... data a") XY D01 B CLASSES DE DISTANCE : Pour calculer un correlogramme de Mantel, le programme aura besoin d'un fichier contenant une matrice triangulaire superieure de classes de distances; cette matrice se presente sans la diagonale. Quel est le nom de ce fichier, s'il y a lieu? (Par defaut: "... data a") P R O G R A M M E M A N T E L avec test par permutations
84
LE PROGICIEL R
Auteur: A. Vaudor Departement de Sciences biologiques, Universite de Montreal, C.P. 6128, Succursale a, Montreal, Quebec H3C 3J7. Type de calcul: (0) Mantel entre deux matrices (1) Dow & Cheverud (A.(B-C)) (2) Smouse, Long & Sokal (AB.C) (3) Hubert (A.(BC)) 2 Options pour la matrice "A": (0) Fichier d'entree en classes (pour correlogramme) (1) Grille reguliere (aucun fichier n'est requis) (2) Fichier de distances (ou de similarites) de simil (3) Fichier de coordonnees en degres, minutes et secondes (4) Fichier de coordonnees en degres decimaux 2 Nombre d'iterations ? -- (Recommande >= 250) 999 Nombre de groupes a permuter ? (Probleme general: 1) 1 Test unilateral a gauche ou a droite: Les probabilites sont significatives pres de zero. PP signifie Plus Petits, EG EGaux et PG, Plus Grands que la stat. originale. La valeur originale est ajoutee aux EGaux, suivant Hope (1968).
Calcul: r r stand. **Hubert** 0.96420 PP EG PG
Permutations Prob(r) (Hope,1968) 0.00300
Approximation t Prob(t)
AB.C
0.25210
997
4.19588
0.00001
Fin du programme.
Contenu du fichier de rsultats (version Macintosh) La version Macintosh inscrit les rsultats dans un fichier, alors que les versions CMS et VMS les prsentent plutt lcran, comme on la vu dans lexemple ci-dessus. Le fichier rappelle d'abord quelles sont les matrices de ressemblance qui ont t utilises pour le calcul, en reproduisant le bloc d'informations inscrites (en binaire) au dbut de chacun des fichiers produits par SIMIL. Dans le cas d'un test de Mantel simple, il n'y a pas d'identification de mthode la gauche de la ligne des rsultats. Lexemple qui suit a t calcul sur Macintosh. Les rsultats ci-dessus nous apprennent que la relation de Mantel (r = 0.25210) est positive et significative au seuil = 5% (p1000 permutations = 0.003, papproximation = 0.00001). Il s'agit du test de Mantel simple entre les matrices MA et XY, traites galement ci-dessus. Le dtail des permutations est rapport: 997 permutations ont conduit des valeurs de la statistique infrieures (PP) la valeur obtenue pour les matrices originales; aucune
LE PROGICIEL R
85
des valeurs de la statistique infrieures (PP) la valeur obtenue pour les matrices originales; aucune valeur obtenue par permutation n'tait gale la vraie valeur, puisque le nombre rapport sous "EG" comprend d'abord la valeur elle-mme, suivant la mthode de Hope. Enfin, 2 rsultats obtenus par permutations taient suprieurs la vraie valeur. La probabilit estime par les permutations est obtenue par (EG + PG)/(nombre de permutations + 1) = 3/1000 dans cet exemple. Pour un test unilatral gauche, cette probabilit serait calcule par (PP + EG)/(nombre de permutations + 1). Notez qu'avec un problme de cette taille (63 observations), il n'aurait pas t ncessaire de procder par permutations, les rsultats obtenus par le test t approximatif se rapprochant suffisamment des rsultats permutationnels si le seuil de signification pr-tabli est de 5%. Si on s'intressait plutt un seuil de 0.001, il faudrait alors augmenter substantiellement le nombre de permutations, d'abord pour minimiser l'effet de la correction de Hope, ensuite afin de vrifier de quel ct du seuil tombe le rsultat.
Nombre d' itrations: 999 Test unilatral gauche ou droite: Les probabilits sont significatives prs de zro. PP signifie plus petits, EG gaux et PG, plus grands que la stat. originale. La valeur originale est ajoute aux EGaux, suivant Hope (1968). Calcul: r r stand. --Hubert-1.00000 PP EG PG Permutations Prob(r) (Hope,1968) 0.00100 Approximation t Prob(t)
0.22338
999
4.69498
0.00000
Dans un corrlogramme, une ligne de rsultats est prsente pour chacune des classes de distances demandes. L'exemple suivant a t calcul sur le Macintosh.
**** Notez que dans ce corrlogramme, l'autocorrlation positive produit des z ngatifs faible distance Nombre d' itrations: 249 Test unilatral gauche ou droite: Les probabilits sont significatives prs de zro. PP signifie plus petits, EG gaux et PG, plus grands que la stat. originale. La valeur originale est ajoute aux EGaux, suivant Hope (1968). Calcul: r r stand. --Hubert-PP EG PG Permutations Prob(r) (Hope,1968) Approximation t Prob(t)
classe classe classe classe classe
1 -0.19512 2 -0.23068 3 -0.22218 4 0.07324 5 0.12409 0.28565 203 1 46 0.18800 0.87896 0.18971 0.17663 178 1 71 0.28800 0.48162 0.31504 -0.64604 17 1 232 0.07200 -1.60212 0.05457 -0.58478 13 1 236 0.05600 -1.60066 0.05473 -0.50163 30 1 219 0.12400 -1.26150 0.10356
classe
86
LE PROGICIEL R
0.12082 classe classe 7 0.24780 8 0.38124
0.32244 0.59178 1.00000
191 230 245
1 1 5
58 19 0
0.23600 0.08000 0.02000
0.73562 1.50877 2.25543
0.23098 0.06568 0.01205
Notez que dans ce type de corrlogramme, si la matrice B est une matrice de distances, la statistique de Mantel aura un signe ngatif en cas d'autocorrlation positive; c'est l'inverse si la matrice B est plutt de type similarits, le signe positif indiquant alors la prsence d'autocorrlation positive. Tel est le sens de la note initiale. Pour tracer le corrlogramme, il suffira de porter les valeurs de r en ordonne en fonction des classes de distances en abscisse. La signification pourra tre prise soit dans la colonne du test par permutations, soit dans celle du test approximatif; il convient dutiliser la correction de Bonferroni pour valuer le degr de signification dun tel corrlogramme, tel que recommand galement pour les programmes AUTOCORRLATION SPATIALE et PRIODOGRAPHE. Dans cet exemple o la matrice B tait une matrice de distances, il convient de changer tous les signes des statistiques de Mantel avant de tracer le corrlogramme.
LE PROGICIEL R
87
PCOORD
Que fait PCOORD ? Ce programme produit une ordination en espace rduit par la mthode des coordonnes principales (Gower, 1966). Comme lanalyse en composantes principales, cette mthode ralise un cadrage multidimensionnel mtrique. Cependant, les calculs sont effectus partir d'une matrice de similarits ou de distances plutt qu partir dun tableau de donnes brutes; tel est galement le cas avec les mthodes de cadrage multidimensionnel non-mtrique (nonmetric multidimensional scaling en anglais). Chaque distance d est dabord transforme en une nouvelle distance d' = -d2 /2 avant deffectuer un centrage par la formule alpha = d' - d'bari - d'barj + d'bar o d'bari et d'barj sont respectivement la moyenne de la ligne i et de la colonne j dans la matrice de distances d', alors que d'bar est la moyenne de toutes les valeurs de la matrice. Les nouvelles coordonnes des objets dans lespace rduit sont les vecteurs propres de cette matrice centre, aprs normalisation la racine carre de leur valeur propre. La taille des matrices de distances qui peuvent tre traites par ce programme est limite, dans les versions CMS et VMS, par le paramtre DIMENSION au dbut du programme. Si cette limite s'avre insuffisante, il suffit de recompiler le programme aprs avoir modifi cette constante. Il ny a en principe pas de limite quant la taille des matrices de ressemblance qui peuvent tre traites par la version Macintosh du programme. Le programme occupe tout lespace mmoire (RAM) qui lui est disponible, si bien que la taille des matrices que le programme peut traiter en pratique sera une fonction, non seulement de la taille de la mmoire disponible dans la machine, mais galement de lutilisation simultane de MultiFinder, dune mmoire-cache ou dautres programmes. Sous le systme 6.04, des matrices de taille ??? peuvent tre traites avec 1 Meg de mmoire RAM. Fichiers d'entre et de sortie Matrice de ressemblance (format SIMIL) - Graphique des objets - Diagramme de Shepard (comparaison des distances)
PCOORD
Fichier des coordonnes
Tableaux: - valeurs propres () - vecteurs propres (position des objets)
(1) Fichier d'entre Le fichier d'entre est une matrice (p x p) de similarits ou de distances de type binaire tel que produite par les programmes SIMIL, IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh) dcrivant la ressemblance entre p objets pour n variables. En principe, la matrice soumise ce calcul doit correspondre une distance mtrique permettant
88
LE PROGICIEL R
une reprsentation euclidienne des objets. Dans ce cas, p objets produiront au maximum (p - 1) valeurs propres positives et une valeur propre nulle, puisquil suffit de (p - 1) dimensions pour reprsenter la position relative de p objets dans un espace euclidien. Des valeurs propres ngatives sont produites lorsque les distances entre objets ne peuvent tre entirement reprsentes de faon euclidienne. Gower (1982) a montr que dans certains cas, une mesure de distances mtriques peut produire une reprsentation non-euclidienne des objets, alors que Gower et Legendre (1986) ont dcrit les conditions permettant une reprsentation euclidienne dune matrice de ressemblance. Quoiquil en soit, la fraction non-euclidienne de la reprsentation en espace rduit na pas beaucoup dimportance pourvu quelle soit, en valeur absolue, nettement moins importante que la variabilit exprime par les premires coordonnes principales. (2) Fichiers des rsultats Ce fichier contient les valeurs propres et la position des objets par rapport aux trois premiers vecteurs propres, si ceux-ci ont une valeur propre positive. Si certaines des valeurs propres sont ngatives, le pourcentage de variance correspondant chaque valeur propre i est corrig par la valeur absolue de la plus grande valeur propre ngative (Cailliez & Pags, 1976), par la formule i ' = ( i + | p | ) / [ j + (p - 1) | p | ]
j=1 p-1
o | p | est la valeur absolue de la plus grande valeur propre ngative et p est le nombre dobjets; p reprsente galement le nombre de valeurs propres calcules. Trois graphiques des objets sont ensuite fournis: un premier pour les axes I et II, un second pour I et III et un troisime pour II et III. Dans les versions CMS et VMS, ces graphiques, qui sont imprims latralement, prsentent le premier axe verticalement et le second pointant vers la gauche. Cette reprsentation est justifie par le fait que puisque l'axe I est toujours plus variable que l'axe II, il sera donc probablement plus long. Tournez ces graphiques de 90 avant reproduction. (3) Fichier des coordonnes Un second fichier, nomm par dfaut "COORD data a" dans la version CMS et crit en ASCII, contiendra la position des objets par rapport autant daxes principaux que requis par lusager; ce nombre ne peut cependant tre plus grand que le nombre de valeurs propres positives. Si on dsire obtenir des graphiques de plus de trois axes principaux, il est facile de transfrer ce fichier un microordinateur o il pourra tre trait par un logiciel statistique. Ce fichier pourra galement servir de base un groupement non-hirarchique par la mthode k-means, tel quexpliqu au chapitre portant sur le programme K-MEANS. Ces deux mmes types de fichiers (2 et 3) peuvent tre produits par la version Macintosh. Les graphiques sont de qualit de publication, comme on peut le voir dans les exemples ci-dessous; lusager peut obtenir toutes les combinaisons daxes quil dsire. Les graphiques sont dabord prsents lcran; on peut les faire imprimer, ou encore les conserver dans un fichier de type PICT pour usage futur. La version Macintosh peut galement produire un diagramme de Shepard (diagramme de dispersion comparant les distances dorigine et les distances dans lespace de dimension rduite: voir lexemple). Les questions du programme Les questions prsentes par le programme lcran du Macintosh sont dcrites dans les paragraphes qui suivent. Les questions poses par les versions CMS et VMS sont essentiellement les mmes, comme on le verra dans lexemple ci-dessous, sauf pour ce qui est des diagrammes de
LE PROGICIEL R
89
mmes, comme on le verra dans lexemple ci-dessous, sauf pour ce qui est des diagrammes de Shepard qui ne sont pas disponibles dans les versions du programme pour grands ordinateurs. Pour faire dmarrer le programme sur le Macintosh, il faut cliquer sur licne, puis donner la commande Ouvrir dans le menu Fichier. (1) Titre de ce travail ... On fournit un titre, qui sera repris en en-tte des graphiques reproduits par limprimante. (2) Est-ce une matrice de distances plutt que de similarits? [Oui, Non] On rpond Oui sil sagit dune matrice de distances. (3) Fichier dentre Le programme prsente le menu des fichiers de type SIMIL disponibles, puisque la matrice de ressemblance soumise ce programme doit provenir soit du programme SIMIL, soit du programme IMPORT-EXPORT (version Macintosh) ou IMPORT (versions CMS et VMS). (4) Combien de valeurs propres extraire? Lalgorithme utilis dans la version Macintosh pour le calcul des valeurs propres est un algorithme pas pas [nom?] qui calcule dabord les valeurs propres les plus importantes. Lusager peut limiter le calcul aux quelques premires valeurs propres (habituellement de 2 5) qui contiennent habituellement la plus grande partie de la variance; cela peut reprsenter un gain de temps apprciable pour les problmes comportant de nombreux objets. (5) Combien de dimensions voulez-vous dessiner? Des graphiques successifs seront produits pour toutes les paires daxes principaux demands. Ainsi, si on demande de reprsenter 3 dimensions, trois graphiques seront produits, correspondant respectivement aux axes I et II, I et III, II et III. Pour augmenter la rsolution, on peut agrandir nimporte quelle partie de limage en lentourant dun cadre laide de la souris. (6) Numrotation sur le graphique? [Oui, Non] Si on rpond Oui, des numros squentiels permettent didentifier les objets sur chacun des graphiques. La liste des valeurs propres est disponible dans le menu Calculs (dtails). On peut monter ou descendre dans ce tableau en pointant le curseur de la souris dans le bas ou le haut du tableau. Ces rsultats peuvent tre envoys directement limprimante ou copis dans un fichier de rsultats pour rfrence future. De mme, partir du menu Graphiques, les graphiques peuvent tre envoys limprimante, ou encore on peut les prserver dans un fichier de type PICT, ce qui permettra de les diter laide dun programme graphique ou de les inclure dans un fichier de texte. Il faut Terminer chaque graphique pour passer au suivant, ou encore pour passer la question suivante. (7) Dans combien de coordonnes dsirez-vous rcrire les objets? L'usager indique combien de coordonnes (nombre entier) il dsire voir crire sur un fichier; un nom de fichier lui sera demand. On rpond 0 (zro) si on ne dsire pas ce fichier. (8) Comparaison des distances? [Oui, Non] Cette question napparat pas dans les versions CMS et VMS. Si on rpond Oui, les questions suivantes permettent de prciser comment se fera la comparaison (diagramme de Shepard) entre les distances dans la matrice de ressemblance dorigine et les distances dans lespace rduit 2, 3, dimensions. Dans ce graphique, un nuage de points troit, situ sous la diagonale mais prs de celle-ci, indique une bonne reprsentation des distances dorigine dans lespace rduit. Si on a utilis une distance qui ne peut tre entirement reprsente dans un espace euclidien, des points pourront apparatre au-dessus de la diagonale. (8.1) Nombre de valeurs propres comparer? On indique combien de dimensions de lespace rduit seront incluses dans cette comparaison des distances (en gnral, 2 ou 3). (8.2) XX distances calculer; prfrez-vous chantillonner celles-ci? [Oui, Non] Il y a XX = p(p-1)/2 distances entre p objets. Lorsque ce nombre devient trop grand (plus de quelques centaines:
90
LE PROGICIEL R
calcul trop long), lusager peut demander lordinateur de choisir au hasard un certain nombre de ces distances. Le nombre en question sera dtermin la question (8.3), la slection tant ralise au hasard laide dun gnrateur de nombres pseudo-alatoires initialis la question (8.4). (8.3) Combien de distances chantillonner? On inscrit le nombre de distances dsir. (8.4) Gnrateur de nombres alatoires: entrer un (petit) chiffre On inscrit un petit entier positif, par exemple 2, 5 ou 10. (8.5) Autre comparaison des distances? [Oui, Non] Si on rpond Oui cette question, on retourne la question (8.1). La rponse Non met fin lexcution du programme. Exemple Dans lexemple qui suit, un fichier de distances de Mahalanobis a t calcul au pralable entre 9 groupes dobservations. Le fichier de distances calcul par SIMIL porte le nom de mahal d5 a; il sert de fichier dentre lors de cette analyse en coordonnes principales. Lexemple ci-dessous a t calcul sous CMS. Le fichier dappel CMS ou VMS pose les questions suivantes, qui sont suivies des questions poses par le programme. Noter la question portant sur la largeur des graphiques (point 1, en marge gauche): si par exemple on dsire un graphique de 8 pouces de largeur (20 cm), on rpond 8 cette question; lalgorithme utilis exige que toutes les rponses soient des multiples de 4. La matrice utilise tant une matrice de distances, on rpond d la question (2). Enfin (3), on demande que la position des objets par rapport aux 5 premires coordonnes principales soit crite sur fichier.
Pcoord Quel est le nom du fichier de type SIMIL? (Par defaut: "... data a") mahal d5 a Quel nom doit recevoir le fichier de sortie (valeurs propres et graphiques)? (Par defaut: "... listing a") mahal sortie a Quel nom doit recevoir le fichier de sortie COORD (contenant les coordonnees des objets), s'il y a lieu? (Par defaut: "COORD data a") Execution begins... (1) 8 LA MATRICE D'ENTREE EST DE SIMILARITES OU DE DISTANCES? (S ou D) (2) d REECRITURE DES OBJETS DANS LE NOUVEL ESPACE (Fichier "COORD"): COMBIEN DE COORDONNEES VOULEZ-VOUS ? (0 si aucun) (3) 5 TITRE DU TRAVAIL ? Distances de Mahalanobis, Fin du programme. 9 groupes LARGEUR DU GRAPHIQUE? (en pouces: multiples de 4)
LE PROGICIEL R
91
Graphiques et contenu du fichier de rsultats Le premier fichier contient les valeurs propres, ainsi que le pourcentage de variance expliqu par chacune. Puisquil y a des valeurs propres ngatives, la correction dcrite la section du fichier de rsultats a t utilise.
Valeurs propres 9.43558 3.55587 3.06849 1.62149 0.70898 0.30302 0.02664 -0.00000 -0.00004 % de variance 50.40291 18.99487 16.39137 8.66186 3.78740 1.61886 0.14252 0.00022 0.00000
Un autre fichier contient le nombre de coordonnes principales que lon a demand dcrire (ici, 5 coordonnes). Chaque ligne de ce fichier reprsente donc les coordonnes dun objet par rapport 5 dimensions.
1.03108 1.03064 0.42006 -0.12718 0.45717 -0.99884 -2.26578 -0.35435 0.80720 1.06888 -0.85473 0.88857 -0.23230 -0.34516 0.43152 0.01133 -0.66460 -0.30352 0.80571 0.17086 -0.96345 -0.08304 0.69916 -0.34929 0.59580 -0.66777 -0.20799 0.12374 0.84875 0.28882 -0.38978 -0.44539 -0.14860 0.27563 0.04047 -0.59363 -0.27798 0.15406 0.08743 -0.45709 0.31628 0.41268 -0.03772 -0.32255 0.12490
Le graphique de la position des objets dans les deux premires dimensions est prsent ci-aprs (version Macintosh):
92
LE PROGICIEL R
1 3
7 4 5
8 2 | ^ Axe 2 <--> Axe 1
Le diagramme de Shepard ci-dessous, qui compare les distances dorigine (abscisse) aux distances dans lespace des deux premires coordonnes principales (ordonne), fait tat dun nuage de points troit et prs de la diagonale; cela nous indique que les distances dorigine sont bien reprsentes par deux dimensions seulement. Nombre de valeurs propres:2 Rgression (Mthode de l'axe principal) D*= -1.00 + 1.27 D Ellipse 95 %
Comparaison des distances
LE PROGICIEL R
93
PRIODOGRAPHEMacintosh ou PERIODCMS/VMS
Que fait le PRIODOGRAPHE ? Ce programme calcule et trace un priodogramme de contingence (Legendre et al., 1981) pour une srie temporelle ou spatiale de donnes unidimensionnelles. Les donnes peuvent tre qualitatives (nominales), semi-quantitatives (ordinales) ou quantitatives. Les donnes quantitatives et semiquantitatives doivent dabord tre divises en classes avant le calcul de ce priodogramme; le programme se charge de raliser cette division selon un critre doptimisation. Pour le priodogramme, le programme calcule la statistique de contingence pour toutes les priodes comprises dans la fentre d'observation, soit les priodes de T = 2 T = n/2 o n est la longueur de la srie; dans la version Macintosh du programme, lusager peut choisir une fentre de calcul plus troite. Legendre & Legendre (1984a, tome 2, pages 228-231), de mme que l'article cit ci-dessus, fournissent plus de dtails sur la mthode. Outre sa capacit danalyser des sries de donnes semi-quantitatives ou qualitatives, la mthode prsente galement lavantage de permettre lanalyse de sries courtes, ce qui nest pas le cas avec le priodogramme de Schuster ou lanalyse spectrale, par exemple. Pour lanalyse de sries multidimensionnelles, on prfrera calculer un corrlogramme de Mantel (voir ce programme) plutt quun priodogramme de contingence aprs classification multivariable des donnes, tel que nous lavions propos dans larticle de 1981; de plus, la mthode du corrlogramme de Mantel ne requiert pas que le pas dchantillonnage soit rgulier. La division dune variable quantitative ou semi-quantitative en classes est ralise laide dune procdure qui optimise les deux critres suivants, de faon tenir compte des valeurs lies (ex aequo) dans la srie des donnes: 1- pour un nombre de classes donn, on minimise la somme des variabilits intra-classes (calcul effectu sur les valeurs brutes ou sur les rangs); 2- on cherche le nombre de classes qui maximise la quantit dentropie par classe forme. Un algorithme pas pas, transcrit dans la procdure APPROX du programme, est dcrit dans larticle de Legendre et al. (1981: 969-973); dans cette procdure, on cherche dabord la division en deux classes qui minimise le premier critre puis, gardant cette premire division fixe, on cherche un second point de coupure qui cre trois classes minimisant de nouveau le critre de variance, et ainsi de suite jusqu maximisation du second critre. Un second algorithme a t rcemment mis au point par A. Vaudor; cette mthode, traduite dans la procdure EXACT du programme, trouve chaque tape la partition optimale des observations en k classes, et ce indpendamment des bornes de classes trouves ltape prcdente; la partition qui maximise linformation par classe est retenue. Le programme emploie la procdure EXACT toutes les fois o cela est possible. Notons que dans ces algorithmes, le second critre trouve souvent son optimum pour trois classes. Lusager peut toujours imposer au programme de calculer un autre nombre de classes sil le dsire. Fichier des donnes PRIODOGRAPHE Fichier des rsultats
Fichiers d'entre et de sortie (1) Fichier d'entre Le fichier d'entre est un fichier en caractres lisibles (ASCII) qui peut contenir soit des classes (catgories), soit des sries de valeurs entires ou relles. La version Macintosh impose les limites suivantes: pas plus de 2 000 valeurs relles, ou 10 000 valeurs entires, ou encore 60 classes. Dans
94
LE PROGICIEL R
les versions CMS et VMS, lusager fixe lui-mme les paramtres du programme qui dterminent ces limites, avant la compilation; le paramtre LIMITE tablit le nombre maximum de valeurs que l'on peut traiter dans une srie de donnes, alors que le paramtre LIMCLASSES fixe le nombre maximum de classes dans chaque srie de donnes qualitatives. Les observations sont entres dans leur ordre temporel ou dans le sens du transect pour des donnes spatiales, sans identificateur, une srie aprs l'autre. Il y a trois points vrifier propos du fichier dentre: 1- Toutes les donnes doivent tre strictement positives. Cette restriction vient du fait que la mthode a dabord t mise au point pour des donnes nominales, codes en k classes numrotes habituellement de 1 k. Si on dsire analyser des donnes quantitatives comportant des valeurs nulles ou ngatives, il faut les transformer avant de les soumettre ce programme; il est facile de rendre des donnes strictement positives laide du programme VERNORM, ou encore laide des nombreux logiciels statistiques disponibles sur micro-ordinateur. 2- Si on dsire analyser simultanment plusieurs sries de donnes, chaque srie doit former une ligne du fichier de donnes, ou encore tre crite sur une srie de lignes conscutives. Toutes les sries analyses dans une seule passe doivent tre de mme longueur. Il est facile de transposer un fichier de donnes laide du programme VERNORM, si ncessaire. 3- Comme avec les autres mthodes danalyse des sries temporelles, le programme suppose que les donnes sont stationnaires (i.e., mme moyenne et mme variance pour diffrentes portions de la srie) et que le pas dchantillonnage (i.e., lintervalle entre les observations) est constant. Si tel nest pas le cas, on peut le rendre constant par interpolation. Ce programme ne peut traiter les absences dinformations; celles-ci doivent galement tre combles par interpolation ou par une autre forme destimation. Le fichier suivant, qui contient 2 sries de 16 observations, serait un fichier acceptable pour le programme PRIODOGRAPHE:
1 1 2 3 3 2 1 2 3 2 1 1 2 3 3 1 2 2 4 7 10 5 2 5 8 4 1 2 5 9 6 3
(2) Fichier de rsultats Le fichier de sortie contient les informations concernant la division des variables quantitatives ou semi-quantitatives en classes, ainsi que les dtails du priodogramme de contingence. Voir lexemple ci-dessous. Cette sortie apparat lcran seulement dans les versions CMS et VMS; il est possible de la faire transcrire dans un fichier de mmoire de console en suivant la procdure de la page 2. En plus de ce fichier, la version Macintosh produit galement des graphiques (priodogrammes) illustrs plus bas. Cette option graphique nest pas disponible dans les versions CMS et VMS. Les questions du programme Les questions poses par les versions CMS et VMS du programme sont illustres la section suivante (Exemple). Ces questions sont essentiellement les mmes que celles qui apparaissent lcran du Macintosh, quoique leur formulation puisse lgrement diffrer dans certains cas. Pour faire dmarrer le programme sur le Macintosh, il faut cliquer sur licne, puis donner la commande Ouvrir dans le menu Fichiers. (1) Fichier de rsultats Le programme prsente un menu permettant de nommer le fichier appel contenir les rsultats des calculs. Un nom est suggr par dfaut.
LE PROGICIEL R
95
contenir les rsultats des calculs. Un nom est suggr par dfaut. (2) Fichier de donnes Le programme prsente le menu des fichiers ASCII disponibles. (3) Nombre dobservations On inscrit le nombre dobservations prsentes dans chacune des sries de donnes. (4) Nombre de variables On inscrit le nombre de sries de donnes analyser. (5) Le fichier est-il dj en classes (Donnes qualitatives)? [Oui, Non] On rpond Oui sil sagit de donnes qualitatives (nominales). Si on rpond Non, les questions suivantes apparaissent lcran: (5.1) Nombre de classes? (0 pour calcul par le programme) Lusager peut imposer le nombre de classes quil dsire obtenir, satisfaisant le premier critre de lalgorithme de division en classes (minimisation de la somme des sommes de carrs dcarts intra-classes), tel quexpliqu au paragraphe dintroduction ci-dessus. Sil rpond 0, le programme dterminera le nombre optimum de classes selon le deuxime critre de lalgorithme (maximisation de la quantit dentropie par classe). (5.2) Calcul sur les rangs plutt que sur les donnes brutes? [Oui, Non] Si on rpond Oui, les calculs se feront aprs avoir remplac les valeurs quantitatives brutes par leur rang. Les donnes semiquantitatives ne sont pas modifies par cette procdure, sauf pour ce qui est des valeurs lies (e x aequo) qui sont traites comme en statistique non-paramtrique. (6) Fichier de sortie. Intervalle de confiance - Valeur de rejet: La rponse se donne en pressant lun des quatre boutons [ 0.005 0.01 0.05 0.10] Le niveau de signification tabli ici sert au calcul de la valeur critique de la statistique du priodogramme. La valeur critique apparat, dans le fichier de rsultats, comme une valeur numrique ainsi que comme un symbole + dans le graphique. Les premiers calculs (lecture des donnes, division en classes) sont effectus ce point-ci. (7) Intervalle de lanalyse: de x 1 x 2 [OK] Les priodes incluses dans la fentre dobservation dun priodogramme vont de T = 2 T = n/2 o n est le nombre total d'observations dans la srie; la valeur affiche pour x 1 est donc 2 alors que la valeur de x 2 est n/2. Si la srie est longue, lusager peut dsirer une fentre de calcul plus troite; il peut changer les valeurs de x 1 et de x 2 volont, avant de presser le bouton OK. Cette question nest pose que dans la version Macintosh du programme. On dtermine ainsi le nombre de classes qui seront illustres dans le priodogramme et incluses ventuellement dans le calcul de la correction de Bonferroni. Le priodogramme est calcul et apparat lcran. Les priodes significatives sont mises en vidence par diffrentes teintes de gris correspondant aux niveaux de probabilit suivants:
Niveau de signif.: Symbole:
p0.001 ****
p0.01 ***
p0.05 **
p0.10 *
p>0.10
Le menu Dessin permet dimprimer le graphique ou de le conserver dans un fichier de type PICT, ce qui permettra de lditer laide dun programme graphique ou de linclure dans un fichier de texte. On peut galement demander la Correction de Bonferroni partir de ce mme menu si on dsire corriger leffet des tests multiples sur le niveau de signification employ. Cette correction consiste employer un niveau de signification plus contraignant ' = / (nombre de tests raliss simultanment); voir Cooper (1968) ou Miller (1977). Si par exemple on ralise 7 tests simultans (7 priodes), la correction de Bonferroni modifie le niveau de signification en ' = / 7, ce qui peut changer la signification de certaines priodes du priodogramme (voir lexemple). Pour la mme
96
LE PROGICIEL R
raison, et suivant Oden (1984), nous avons recommand demployer la correction de Bonferroni dans le cas des corrlogrammes (programmes AUTOCORRLATION SPATIALE et MANTEL). Il suffit de Terminer le graphique pour retourner au menu Fichiers qui permet de traiter immdiatement un autre fichier. La commande Interrompre dans le menu R: Period permet de quitter le programme. Exemple Lexemple suivant illustre lutilisation du programme en version pour grands ordinateurs. La srie de donnes comprend les 16 valeurs semi-quantitatives suivantes:
2 2 4 7 10 5 2 5 8 4 1 2 5 9 6 3
Le fichier dappel, dont le dialogue forme la premire partie de lexemple, demande le nom du fichier dentre; cet exemple a t ralis sous CMS.
*** *** *** *** Avez-vous verifie ... si toutes les valeurs sont STRICTEMENT positives? ... si les variables forment bien les LIGNES du fichier? ... si le pas entre les donnees est constant?
Quel est le nom du fichier de DONNEES? (Par defaut: "... data a") semiq 16 a Execution begins... P E R I O D O G R A M M E VERSION 2.0b UNIVERSITE DE MONTREAL DEPARTEMENT DE SCIENCES BIOLOGIQUES CASE POSTALE 6128, SUCC. "A" MONTREAL, P.Q. H3C 3J7 AUTEUR: A. VAUDOR D E C O N T I N G E N C E
NOMBRE D'OBSERVATIONS 16 NOMBRE DE VARIABLES 1 LES DONNEES SONT-ELLES DEJA DIVISEES EN CLASSES? (O ou N) n Noter que ce programme emploie la procedure EXACT, lorsque cela est possible, pour diviser une variable en classes. Ceci peut conduire a une meilleure partition que la procedure pas a pas decrite par Legendre et al. (1981: 969-973), procedure qui porte le nom de APPROX dans ce programme. NOMBRE DE CLASSES ? (0 POUR CALCUL PAR LE PROGRAMME) 0 DESIREZ-VOUS TRANSFORMER LES DONNEES EN RANGS ?
LE PROGICIEL R
97
DESIREZ-VOUS TRANSFORMER LES DONNEES EN RANGS ? o CHOIX DE L'INTERVALLE DE CONFIANCE: 1 pour 0.005 , 2 pour 0.01, 3 pour 3 TABLEAU DE CONTINGENCE: NOMBRE DE CLASSES: 3 CLASSE BORNE SUPERIEURE 1 3.00000 2 6.00000 3 10.00000 H(S)/S : 0.52043 EN LOG BASE 2 D E C O N T I N G E N C E 0.05, 4 pour 0.10
P E R I O D O G R A M M E
(+=INTERVALLE DE CONFIANCE, *==>(+=B) ) T=_ 0 0.27 . . 2B + . 3. B .+ 4. B . + 5. . 6. B 7. . 8. . B Fin du programme. 0.54 . . . . + . .+ . B + . 0.81 . . . . B . . + . 1.08 . . . . . . . .
L'ECHELLE DE B EST EN LOG. NAT. VALEUR CRITIQUE 0.18719 0.29656 0.39375 0.48437 0.57187 0.65625 0.74062
B 0.00000 0.07630 0.12912 0.82227 0.25824 0.58357 0.38905
PROB(2NB) 1.00000 0.65514 0.65885 0.00093 **** 0.60311 0.09670 * 0.57025
Graphiques et contenu du fichier de rsultats Les deux graphiques reproduits plus bas sont les priodogrammes de contingence tels quils apparaissent lcran du Macintosh. Le fichier suivant, soumis lanalyse, contient une srie de 16 valeurs pour une variable qualitative:
1 1 2 3 3 2 1 2 3 2 1 1 2 3 3 1
Cet exemple est galement analys dans larticle de Legendre et al. (1981). Selon que lon demande ou non la correction de Bonferroni sur les probabilits, on obtient lun ou lautre des deux graphiques suivants:
98
LE PROGICIEL R
B=
B=
0.668
0.668
0.501
0.501
0.334
0.334
0.167
0.167
Priodes
Priodes
Sans correction pour tests multiples
Aprs correction de Bonferroni
Lorsquon applique la correction de Bonferroni, le niveau de signification change. Dans le cas despce, il y a 16 valeurs, donc le programme pourra analyser les priodes de 2 8, soit 7 priodes; puisquon ralise 7 tests simultans, la correction de Bonferroni modifie le niveau de signification en ' = / 7, ce qui change la signification de la probabilit de la priode 5: ___________________________________ Niveau de signif. Aprs correction de avant correction Bonferroni: ' = / 7 ___________________________________ 0.10 * 0.01429 * 0.05 ** 0.00714 ** 0.01 *** 0.00143 *** 0.001 **** 0.00014 **** ___________________________________ _________________________________________ Priode Prob.(H0 ) Signification Signification avant correct. aprs correct. _________________________________________ 2 0.81762 3 0.77290 4 0.94024 5 0.00079 **** *** 6 0.56404 7 0.17769 8 0.53819 _________________________________________
Le fichier de sortie Macintosh contient les informations concernant la division des variables quantitatives ou semi-quantitatives en classes, ainsi que des dtails additionnels sur le priodogramme de contingence. La liste ci-dessous rsulte de lanalyse du fichier suivant, o la variable (16 valeurs) est semi-quantitative (mme fichier quau paragraphe Exemple ci-dessus):
2 2 4 7 10 5 2 5 8 4 1 2 5 9 6 3
Cet exemple, qui est galement analys dans larticle de Legendre et al. (1981), nest donc pas le mme que celui ayant servi produire les deux graphiques ci-dessus.
PERIOD: Priodogramme de contingence (Version 3.0)
LE PROGICIEL R
99
Auteur: A. Vaudor Dpartement de sciences biologiques, Universit de Montral, C. P. 6128, succursale A, Montral, Qubec H3C 3J7. FICHIER DE DONNEES: 16 donnes quantitatives Tableau de contingence Nombre de classes: Classe Limite 1 3.00000 2 6.00000 3 10.00000 h(s)/s : 0.52043 3
Cette premire partie nest prsente que lorsque le programme a d diviser une variable ordonne (quantitative ou semi-quantitative) en classes. La limite suprieure de chaque classe est fournie par le programme, de mme que la quantit dentropie par classe pour cette division [h(s)/s]. V la remarque dans le paragraphe dintroduction propos de lalgorithme EXACT utilis dans le oir programme, par rapport lalgorithme pas pas dcrit dans larticle de Legendre et al. (1981). La liste de sortie se poursuit par le priodogramme de contingence lui-mme:
Priodogramme de contingence (+=Intervalle de confiance, *==>(+=B) ) T=\ 0 . 2B + 3. B 4. B 5. 6. 7. 8. 0.27 . . +. . + . + B . . B 0.54 . . . . . + . .+B . + 0.81 . . . . B . . . Echelle en log. nat. 1.08 . . . . . . . . Valeur B 0.00000 0.07630 0.12912 0.82227 0.25824 0.58357 0.38905
critique 0.14406 0.24313 0.33125 0.41875 0.50000 0.57812 0.65938
prob(2nb) 1.00000 0.65514 0.65885 0.00093 **** 0.60311 0.09670 * 0.57025
Ce graphique reprsente un priodogramme dont labscisse (priodes T) va du haut vers le bas alors que lordonne (entropie commune B calcule en logarithmes naturels) va de la gauche vers la droite. Le symbole B est employ dans le graphique pour reprsenter les valeurs de la statistique B. La valeur critique, pour la probabilit fournie en rponse la question (6) (sans correction de Bonferroni), est reprsente par des +; la probabilit demande pour lintervalle de confiance est ici de 0.1. Les trois colonnes de nombres fournissent la valeur prcise de la statistique B, la valeur critique au seuil de probabilit prdtermin ainsi que la probabilit de lhypothse nulle (probabilit que cette valeur de B ne soit pas diffrente de zro). Enfin, une dernire colonne met en vidence les valeurs significatives aux seuils de signification de 0.10 (*), 0.05 (**), 0.01 (***) ou 0.001 (****), avant que la correction de Bonferroni ne soit applique. Lorsque la srie est suffisamment longue, il ne faut pas se surprendre de voir apparatre comme significatives les multiples des priodes de base du phnomne.
100
LE PROGICIEL R
PNCOMPMacintosh
Que fait PNCOMP ? Ce programme produit une ordination en espace rduit par la mthode des composantes principales dcrite dans tous les ouvrages de statistiques multidimensionnelles. Cette mthode trs gnrale danalyse comporte de nombreuses variantes; les principales sont brivement discutes au tableau 3. Tableau 3 Questions que lon se pose propos de lanalyse en composantes principales (adapt du tableau 9.I de Legendre & Legendre, 1984a). ________________________________________________________________________________ Avant de faire une analyse en composantes principales: 1) Les descripteurs sont-ils appropris?
Descripteurs quantitatifs; normalit; pas trop de zros; en principe, plus dobjets que de descripteurs Question 7
2) Les descripteurs sont-ils dimensionnellement homognes?

Si oui: ACP sur la matrice de dispersion (variances-covariances) Si non: ACP sur la matrice de corrlations Question 8
3) But vis par lordination en espace rduit:

Reprsenter la position relative des objets: normalisation des vecteurs propres 1 Reprsenter la corrlation entre les descripteurs: normalisation des vecteurs propres Reprsenter la fois les objets et les descripteurs: double projection (normalisation 1)
En examinant les rsultats dune analyse en composantes principales: 1) Quelles sont les valeurs propres significatives?

V description du fichier de rsultats oir
Test: i est-il plus grand que la moyenne des ? Test: le % de variance de i est-il plus grand que prvu par le modle du bton bris?
2) Quels sont les descripteurs qui contribuent davantage la formation de lespace rduit?
V le graphique des descripteurs, dans lequel les variables sont reprsentes par des axes oir (flches), ou encore le tableau des coordonnes des descripteurs Question 14 V les descripteurs qui dpassent le cercle de contribution quilibre oir Examiner galement les corrlations entre les descripteurs et les axes principaux 3) Comment trouver la position des objets dans lespace rduit?
V le graphique et le tableau des coord. des objets dans lespace rduit oir
Question 15
4) Les distances entre objets sont-elles bien prserves dans lespace rduit?
V le diagramme de Shepard (comparaison des distances) oir
Question 16
________________________________________________________________________________
LE PROGICIEL R
101
Il nexiste quune version Macintosh de ce programme, de nombreux logiciels statistiques permettant de raliser cette analyse sur les grands ordinateurs. Les calculs sont effectus partir d'une matrice de donnes brutes qui peut contenir des informations absentes. Le programme produit des graphiques ainsi quun fichier de rsultats, si lusager en fait la demande. Le programme ne peut pour le moment traiter plus de 55 variables [revoir]. Graphiques: - descripteurs - position des objets - diagr. de Shepard Tableau de donnes brutes PNCOMP Tableaux: - covariances - et vecteurs propres - position des variables - position des objets Fichiers dentre et de sortie (1) Fichier de donnes brutes Le fichier de donnes brutes est un tableau rectangulaire (lignes = objets, colonnes = descripteurs) de donnes quantitatives, crit en ASCII sans aucun identificateur de ligne ou de colonne. Ce tableau est souvent extrait dun chiffrier (option: texte seulement) comportant davantage de lignes et/ou de colonnes, dans lequel ces renseignements sont consigns. Les nombres peuvent tre spars par des espaces, des tabulateurs, etc. et nont pas besoin de suivre un format rgulier (colonnes bien alignes). Ce tableau peut comporter des absences dinformations, codes par une valeur numrique (par exemple -9, ou -999, etc.) ne portant pas confusion avec dautres valeurs prsentes dans le tableau. Le tableau peut galement comporter des objets supplmentaires (en fin de liste), ainsi que des variables supplmentaires (aprs les variables actives), qui seront positionns dans lespace rduit sans avoir t inclus dans le calcul des valeurs et des vecteurs propres. Enfin, si les objets appartiennent des groupes identifis au pralable, une variable (nombres entiers positifs) dcrivant cette appartenance peut tre incluse dans le tableau des donnes, ce qui permettra au programme didentifier les groupes dobjets par des symboles diffrents dans le graphique; cette variable peut tre situe nimporte o parmi les colonnes du fichier. (2) Fichier de rsultats Le fichier de rsultats contiendra les tableaux que lusager aura demand dy inscrire partir du menu Calculs (dtails), savoir: le tableau des covariances ou des corrlations, les valeurs et vecteurs propres, la position des variables et la position des objets par rapport aux premires composantes principales. Les options du programme Ce programme permet de raliser les calculs des valeurs et des vecteurs propres partir soit de la matrice des covariances, soit de la matrice des corrlations (qui sont les covariances des donnes centres rduites). Les vecteurs propres peuvent tre norms la longueur 1 (si on est intress avant tout exprimer dans lespace rduit les relations de distance euclidienne entre les objets) ou encore la racine carre de leur valeur propre (si on est davantage intress exprimer les corrlations entre descripteurs). Deux types de rotations sont galement disponibles. Des objets ou des variables
102
LE PROGICIEL R
supplmentaires peuvent tre projets dans lespace rduit, suivant en cela la tradition de lcole franaise danalyse des donnes. Sil y a des absences dinformation dans le tableau des donnes, deux stratgies sont disponibles dans ce programme. Dune part, les objets porteurs de telles informations absentes peuvent tre simplement limins de lanalyse (listwise deletion of missing values). Dautre part, lors du calcul des covariances ou des corrlations, toute paire impliquant une absence dinformation peut tre limine des calculs (pairwise deletion of missing values); ceci donne naissance des covariances possdant un nombre ingal de degrs de libert, ce qui permet ventuellement lapparition de petites valeurs propres ngatives qui devront tre ngliges lors de linterprtation (voir aussi la discussion des valeurs propres ngatives, la section du programme PCOORD). La solution qui consiste estimer les valeurs absentes nest pas disponible pour le moment dans R. Les questions du programme Les questions prsentes par le programme lcran du Macintosh sont dcrites dans les paragraphes qui suivent. Pour faire dmarrer le programme, il faut cliquer sur licne, puis donner la commande Ouvrir dans le menu Fichier. (1) Nombre dobjets (lignes), lexception des objets supplmentaires On inscrit le nombre dobjets qui seront inclus dans le calcul des valeurs et des vecteurs propres, y compris les objets porteurs dinformations absentes. (2) Nombre de variables (colonnes), lexception des variables supplmentaires et de la variable identifiant les groupes On inscrit le nombre de variables qui seront incluses dans le calcul des valeurs et des vecteurs propres. (3) Nombre dobjets supplmentaires Les objets supplmentaires, qui seront positionns dans le graphique-objets sans toutefois avoir t inclus dans le calcul des valeurs et des vecteurs propres, doivent occuper les dernires lignes du tableau. (4) Nombre de variables supplmentaires Les variables supplmentaires doivent occuper des colonnes situes plus droite que les colonnes portant les variables incluses dans le calcul des valeurs et des vecteurs propres. (5) Y a-t-il de labsence dinformation? [Oui, Non] Voir la description des mthodes dexclusion des informations absentes, au dernier paragraphe de la section prcdente (Options du programme). (5.1) Supprimer tous les objets contenant cette absence? [Oui, Non] Si on rpond Oui, la premire mthode est employe (suppression des objets porteurs dinformations manquantes). Si on rpond Non, cest la seconde mthode qui sera employe (calcul de covariances ou de corrlations bases sur un nombre ingal de paires dobjets). (5.2) Valeur indiquant labsence dinformation On inscrit quelle valeur numrique a t utilise dans le fichier pour indiquer quune information est absente (souvent: -1, -9, -999, etc.) (6) Fichier de donnes Le programme prsente le menu des fichiers ASCII disponibles. (7) Calculs sur la matrice de corrlations plutt que sur les covariances? [Oui, Non] On neffectue les calculs partir de la matrice de corrlations (qui sont les covariances des variables centres rduites) que lorsque les variables ne sont pas de mme nature ou ne sont pas dimensionnellement homognes (mesures dans les mmes units physiques); la rduction (division par lcart type) limine les effets des chelles de mesure en produisant des variables sans dimensions
LE PROGICIEL R
103
physiques. Lorsque les descripteurs sont de mme nature et mesurs dans les mmes units, cest la matrice de dispersion quil faut employer comme base des calculs. Les composantes principales extraites de la matrice de corrlations ne sont pas les mmes que celles extraites de la matrice de dispersion. (8) Normalisation par les (lambdas) ? [Oui, Non] La normalisation des vecteurs propres 1 prserve la distance euclidienne entre les objets, dans lespace de pleine dimension; les axes dorigine demeurent orthogonaux lors de cette normalisation. La reprsentation en espace rduit produit donc une projection du nuage de points dorigine en quelques dimensions. Par ailleurs, la normalisation la racine carre de la valeur propre () fait en sorte que les axes-descripteurs forment entre eux un angle proportionnel leur covariance. Langle varie de 0 (covariance positive maximale) 180 (covariance ngative maximale), un angle de 90 signifiant une covariance nulle. On utilise donc cette normalisation lorsque le but de lanalyse est de reprsenter les relations entre descripteurs par des projections angulaires. Les relations de distance entre les points sont dformes lors de cette transformation. (9) Combien de valeurs propres extraire? Lalgorithme utilis pour le calcul des valeurs propres est un algorithme pas pas [nom?] qui calcule dabord les valeurs propres les plus importantes. Lusager peut limiter le calcul aux quelques premires valeurs propres (habituellement de 2 5) qui contiennent habituellement la plus grande partie de la variance; cela peut reprsenter un gain de temps apprciable pour les analyses comportant de nombreux descripteurs. (10) Le fichier dentre contient-il des identificateurs de groupes? [Oui, Non] Si les objets appartiennent des groupes identifis au pralable, une variable (nombres entiers positifs) dcrivant cette appartenance peut tre incluse dans le tableau des donnes, ce qui permettra au programme didentifier les groupes dobjets par des symboles diffrents dans le graphique. Cette variable peut tre situe nimporte o parmi les colonnes du fichier; sa position est prcise la question (10.1). (10.1) Numro de la variable identifiant les groupes dobjets Cette variable, dans laquelle les numros de groupes sont cods par des entiers positifs, peut tre situe nimporte o dans le fichier. On indique ici quelle colonne elle occupe. Si la colonne dsigne contient autre chose que des entiers positifs, le programme met un message derreur et sarrte. Le fichier de donnes est lu ce point-ci. (11) Titre de ce travail ... On fournit un titre, qui sera repris en en-tte des graphiques reproduits par limprimante. Les valeurs propres et les vecteurs propres sont calculs ce point-ci. (12) Rotation Varimax? [Oui, Non] La rotation Varimax normalise (Kaiser, 1958) est une rotation orthogonale du nuage de points qui tente de simplifier les colonnes du tableau des vecteurs propres (normaliss au pralable 1) en maximisant la variance du carr des saturations de chaque colonne; lorsque la variance des saturations est grande, celles-ci ont tendance tre prs de 0 ou de 1. La rotation Varimax maximise la somme de ces variances pour tous les facteurs soumis la rotation. Des groupes daxes-descripteurs ont ainsi plus de chance de se trouver prs (i.e., angle faible) des axes factoriels aprs rotation, ce qui simplifie linterprtation de ces facteurs en termes des variables dorigine. La quantit de variance explique par un sous-espace factoriel demeure inchange aprs rotation. Les facteurs demeurent non corrls aprs cette rotation orthogonale. La rotation est ralise pour le nombre daxes principaux que lusager aura indiqu en rponse la question (9). (13) Rotation de Harris-Kaiser? [Oui, Non] La rotation de Harris & Kaiser (1964), appele aussi orthoblique, introduit une dformation des angles entre axes-descripteurs. La rotation procde en trois tapes: (1) dformation des vecteurs propres, dont lintensit est dtermine la question (13.1); (2) rotation Varimax; (3) dformation inverse de celle de ltape 1. Les facteurs deviennent corrls aprs
104
LE PROGICIEL R
cette rotation oblique. (13.1) Coefficient de dformation de lespace La dformation de lespace est dtermine en spcifiant lexposant donner la racine carre des valeurs propres. Les valeurs peuvent aller de 0 1, la valeur 1 correspondant la solution Varimax. Ce coefficient est le mme que le paramtre HKPOWER de la procdure FACTOR de SAS. (14) Graphique des descripteurs? [Oui, Non] Ces graphiques montrent la projection des axesdescripteurs dans lespace rduit; les axes-descripteurs y sont donc reprsents comme des axes. (14.1) Numrotation des variables sur le graphique? [Oui, Non] Si on rpond Oui, des numros squentiels permettent didentifier les variables sur chacun des graphiques. (14.2) Nombre de dimensions reprsenter? Des graphiques successifs seront produits pour toutes les paires daxes principaux demands. Ainsi, si on demande de reprsenter 3 dimensions, trois graphiques seront produits, correspondant respectivement aux axes I et II, I et III, II et III. Les graphiques des descripteurs sont produits ce point-ci. Pour augmenter la rsolution, on peut agrandir nimporte quelle partie de limage en lentourant dun cadre laide de la souris. Si on a choisi de raliser les calculs sur la matrice de corrlations, ou encore sur la matrice de covariances avec une normalisation des vecteurs propres une longueur de 1 la question 8, le cercle de contribution quilibre apparat galement sur les graphiques. Legendre & Legendre (1984a) ont montr que si tous les n descripteurs contribuaient de faon gale la formation de lespace rduit en d dimensions (d tant le nombre de dimensions choisi en rponse la question 14.2), alors chacun deux aurait une longueur de d/n. Par consquent, si on trace un cercle de rayon gal d/n, alors tout axedescripteur qui dpasse ce cercle contribue davantage lespace rduit que ne le prdit le modle de la contribution quilibre des descripteurs. Lorsque les calculs sont raliss partir de la matrice de covariances et que les vecteurs propres sont norms , la formule de calcul des contributions quilibres est un peu plus complexe et ne donne plus naissance un cercle (Legendre & Legendre, 1984a); cest pourquoi le cercle de contribution quilibre nest pas trac dans ce cas. Les tableaux suivants sont disponibles dans le menu Calculs (dtails): le tableau des covariances ou des corrlations, les valeurs et vecteurs propres, ainsi que la position des variables par rapport aux composantes principales slectionnes en rponse la question (9). On peut monter ou descendre dans ces tableaux en pointant le curseur de la souris dans le bas ou le haut du tableau. Ces rsultats peuvent tre envoys directement limprimante ou copis dans un fichier de rsultats pour rfrence future. De mme, partir du menu Graphiques, les graphiques peuvent tre envoys limprimante, ou encore on peut les prserver dans un fichier de type PICT, ce qui permettra de les diter laide dun programme graphique ou de les inclure dans un fichier de texte. Il faut Terminer chaque graphique pour passer au suivant, ou encore pour passer la question suivante. (15) Graphique des objets? [Oui, Non] Ces graphiques montrent la projection des objets dans lespace rduit; les objets y sont donc reprsents par des points. (15.1) Numrotation des objets sur le graphique? [Oui, Non] Si on rpond Oui, des numros squentiels permettent didentifier les objets sur chacun des graphiques. (15.2) Nombre de dimensions reprsenter? Des graphiques successifs seront produits pour toutes les paires daxes principaux. Ainsi, si on demande de reprsenter 3 dimensions, trois graphiques seront produits, correspondant respectivement aux axes I et II, I et III, II et III. Les graphiques des objets sont produits ce point-ci. Pour augmenter la rsolution, on peut agrandir nimporte quelle partie de limage en lentourant dun cadre laide de la souris. La liste des Positions des objets par rapport aux composantes principales slectionnes en rponse la question (9) devient maintenant disponible dans le menu Dtails de calcul. Il faut Terminer chaque
LE PROGICIEL R
105
(9) devient maintenant disponible dans le menu Dtails de calcul. Il faut Terminer chaque graphique pour passer au suivant, ou encore pour passer la question suivante. (16) Comparaison des distances (Diagramme de Shepard)? [Oui, Non] Cette question napparat que si on a choisi de faire les calculs partir de la matrice des covariances. Si on y rpond Oui, les questions suivantes permettent de prciser comment se fera la comparaison entre les distances dorigine (distances euclidiennes entre les objets, calcules partir du fichier de donnes brutes) et les distances dans lespace rduit 2, 3, dimensions. Dans ce graphique, un nuage de points troit, situ sous la diagonale mais prs de celle-ci, indique une bonne reprsentation des distances dorigine dans lespace rduit. Occasionnellement, des points pourront apparatre au-dessus de la diagonale; lorsque cela se produit, ces points correspondent des objets pour lesquels des informations absentes ont t remplaces par le programme (voir la question 5.1). (16.1) Diagramme de Shepard: combien de vecteurs propres? On indique combien de dimensions de lespace rduit seront incluses dans cette comparaison des distances (en gnral, 2 ou 3). (16.2) XX distances calculer; prfrez-vous chantillonner celles-ci? [Oui, Non] Il y a XX = p(p-1)/2 distances entre p objets. Lorsque ce nombre devient trop grand (plus de quelques centaines: calcul trop long), lusager peut demander lordinateur de choisir au hasard un certain nombre de ces distances. Le nombre en question sera dtermin la question (16.3), la slection tant ralise au hasard laide dun gnrateur de nombres pseudo-alatoires initialis la question (16.4). (16.3) Nombre de distances chantillonner On inscrit le nombre dsir. (16.4) Gnrateur de nombres alatoires: entrer un (petit) chiffre On inscrit un petit entier positif, par exemple 2, 5 ou 10. (16.5) Autre comparaison des distances? [Oui, Non] Si on rpond Oui cette question, on retourne la question (16.1). (17) Calculs termins? [Oui, Non] On rpond Non si on dsire effectuer une rotation, par exemple; dans ce cas, les questions (12) (16) sont prsentes nouveau. La rponse Oui provoque la fin du programme. Exemple Lexemple ci-dessous prsente une analyse en composantes principales dun fichier de donnes physico-chimiques portant sur 71 stations dchantillonnage en milieu aquatique; 11 variables ont t mesures. Comme celles-ci sont exprimes dans des units physiques diffrentes (mg/L, C, etc.), il convient de raliser lanalyse partir de la matrice des corrlations entre descripteurs. Une douzime variable dcrit lappartenance des observations lun ou lautre de 6 groupes, qui seront reprsents par diffrents symboles dans les graphiques. On a demand le calcul de 3 valeurs propres. Graphiques et contenu du fichier de rsultats Le fichier de rsultats peut contenir lun ou lautre des tableaux que lon aura demand dy inscrire, savoir: le tableau des covariances ou des corrlations, les valeurs et vecteurs propres, la position des variables ainsi que la position des objets par rapport aux composantes principales slectionnes en rponse la question (9). Puisquil est crit en ASCII, ce fichier peut aisment tre dit si on dsire transfrer certains de ces rsultats un autre programme. Un exemple de diagramme de Shepard est prsent avec le fichier de rsultats du programme PCOORD.
106
LE PROGICIEL R
Matrice de corrlations 1 1.0000 0.2861 -0.2737 -0.4857 -0.4207 -0.0502 0.0115 -0.6607 -0.3879 0.2577 0.2701 8 1.0000 0.4824 -0.4594 -0.6025 2 1.0000 -0.0784 -0.8501 -0.6456 -0.0926 -0.2906 -0.4657 -0.1814 0.5017 0.4822 9 1.0000 -0.1870 -0.2748 3 4 5 6 7
1 2 3 4 5 6 7 8 9 10 11
1.0000 0.0283 -0.1422 0.2120 0.1854 0.0515 -0.1466 0.0006 0.0529 10
1.0000 0.8441 -0.0019 0.4446 0.7033 0.3345 -0.6069 -0.5764 11
1.0000 -0.0187 0.3940 0.7368 0.4184 -0.5282 -0.5810
1.0000 0.0088 0.0875 0.2141 0.0195 0.0861
1.0000 0.2165 -0.1736 -0.3897 -0.1803
8 9 10 11
1.0000 0.6542
1.0000
Valeurs et vecteurs propres Moyenne des valeurs propres : 1.00000 ON PEUT INTERPRETER LES LAMBDAS PLUS GRANDS QUE CETTE VALEUR (Ref.: Ecologie numrique T.2, P. 123) VALEURS PROPRES 4.72621 1.49324 1.36044 % DE VARIANCE 42.96551 13.57489 12.36767 % BATON BRISE 27.45343 18.36252 13.81707
Les critres suivants peuvent aider dterminer combien de valeurs propres il faut retenir. Dune part, on peut dcider de ne retenir que les valeurs propres qui sont plus grandes que la moyenne des , puisquon peut dmontrer quune variable issue dun gnrateur de nombres pseudo-alatoires deviendrait dominante partir de cette valeur propre; notez que lorsque les calculs sont raliss partir de la matrice de corrlations, comme cest le cas ici, la moyenne des valeurs propres est gale 1. Dautre part, on peut comparer le pourcentage de variance expliqu par les valeurs propres successives la distribution alatoire du bton bris (voir Frontier, 1976, ou encore cologie numrique, tome 2, page 124). Toute valeur propre qui explique davantage de variance que la fraction correspondante du modle alatoire du bton bris vaut la peine dtre examine.
VECTEURS PROPRES SELECTIONNES (PAR COLONNES, NORME = 1) 1 0.26817 0.38985 2 0.35148 -0.15842 3 -0.01744 0.01350 4 -0.42825 0.10752 5 -0.40733 0.02935 6 -0.02329 -0.30288 7 -0.18527 0.53790 8 -0.38760 -0.22506 9 -0.21302 -0.56205 10 0.33065 -0.23811 11 0.33929 -0.07738 POSITION DES OBJETS DANS LE NOUVEL ESPACE -0.22411 -0.07806 0.75352 0.02143 -0.13672 0.46169 0.26671 0.02097 -0.17144 0.05607 0.19866
LE PROGICIEL R
107
POSITION DES OBJETS DANS LE NOUVEL ESPACE 1 2 3 1 2.2939 -0.7890 0.5123 2 2.2939 -0.7890 0.5123 3 2.5417 -0.6558 0.8178 [etc.] 70 -0.2559 1.5296 -0.9209 71 -0.2559 1.5296 -0.9209
POSITION DES VARIABLES DANS LE NOUVEL ESPACE (Mthode (VARimax)) 1 2 3 1 -0.3435 0.3767 0.1193 2 -0.0835 -0.0635 0.3791 3 0.7243 0.2081 0.0174 4 0.0511 -0.0208 -0.4386 5 -0.0852 -0.1286 -0.4021 6 0.5194 -0.1619 0.0972 7 0.1531 0.5109 -0.3321 8 0.1244 -0.3145 -0.2949 9 -0.0036 -0.6242 -0.0327 10 0.0673 -0.1070 0.3914 11 0.1652 0.0811 0.3560
Les graphiques suivants sont produits la demande de lusager. Voici dabord le graphique de la projection des descripteurs dans lespace rduit, sans rotation:
7 1
4 5 3 11 2 8 6 10
9 | ^ Axe 2 <--> Axe 1 Relations entre variables Le second graphique reprsente les descripteurs dans lespace rduit, aprs une rotation Varimax
108
LE PROGICIEL R
sur les trois dimensions de lespace factoriel: 7 1 3 11 2 5 4 10 6 8
9 | ^ Axe 2 <--> Axe 1 Relations entre variables (VARimax)
Le troisime graphique montre la position des objets dans lespace rduit des deux premires composantes principales. Notez les symboles identifiant les groupes dobjets.
6 0 3 7 5 4 6 4 5 4 4 3 2 1 5 7 4 3 0 9 3 6 4 30 2 3 9 2 8 7 3 1 0 1 3 8 1 3 1 2 7 6 6 4 5 49 3 2 1 0 9 8 7 5 6 5 2 5 4 3 2 1 0 9 9 6 3 2 5 5 4 6 5 5 9 6 1 8 6 | ^ Axe 2 6 7 <--> Axe 1 Objets 2 1 6 5 4 3 1 0 8 2 7 1 4 1 7 6 5 2 2 1 8 2 1
LE PROGICIEL R
109
REGARDE
Que fait REGARDE ? Ce programme permet de voir en clair le contenu des fichiers binaires produits par SIMIL, IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh); ces matrices, qui sont crites en binaire et non en ASCII, ne peuvent tre lues directement. Comme lusager nest souvent intress qu examiner le contenu du bloc dinformations gnrales du fichier (titre, date de fabrication, fonction, nombre dobjets et nombre de descripteurs), une premire fentre, dans la version Macintosh, prsente uniquement ces informations; ensuite, lusager est invit demander la transcription du fichier binaire sur un fichier ASCII, sil le dsire. Dans le fichier de sortie, aprs le bloc didentification du fichier, seul le triangle suprieur de la matrice de ressemblance est prsent, accompagn des noms dobjets identifiant les lignes et les colonnes. Fichiers d'entre et de sortie Matrice de ressemblance (format SIMIL) (1) Le fichier d'entre Le fichier d'entre est un fichier binaire de similarits, de distances ou de mesures de dpendance entre descripteurs, crit par les programmes SIMIL, IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh). Dans la version Macintosh, ces fichiers sont reprsents par une icne triangulaire portant le nom SIMIL. (2) Le fichier de sortie Le fichier de sortie contient deux types dinformations: dabord, le bloc dinformations gnrales du fichier (titre, date de fabrication, fonction, nombre dobjets et nombre de descripteurs), qui est suivi par la matrice triangulaire suprieure des mesures de ressemblance. La diagonale nest pas crite; selon quil sagit dune similarit, dune distance ou dun coefficient de dpendance entre descripteurs, la diagonale prend implicitement la valeur 0 ou 1. Les identificateurs dobjets sont crits gauche et au haut de la demi-matrice; si aucun identificateur na t fourni lors de la cration de la matrice de ressemblance, ceux-ci sont remplacs par des numros squentiels. Si on dsire une sortie ASCII de toute la matrice (carre), et non seulement sa partie suprieure, en vue de traitements ultrieurs, il faut employer plutt le programme EXPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh). Les questions du programme En versions CMS et VMS, les questions du programme se rapportent seulement aux noms des fichiers dentre et de sortie. Aprs prsentation de len-tte lcran, la version Macintosh du programme demande si lusager dsire recopier la matrice de ressemblance sur le fichier de sortie; dans bien des cas, en effet, on ne dsire que consulter len-tte. Aprs avoir trait un premier fichier, le programme demande sil y a un Autre fichier traiter ? Si cest le cas, on choisit le fichier dans le menu. Il suffit de presser le bouton Cancel pour indiquer quil ny a plus de fichiers traiter; ceci entrane la fin du programme. - En-tte du fichier - Triangle suprieur de la matrice de ressemblance (ASCII)
REGARDE
110
LE PROGICIEL R
Exemple V oici un exemple dutilisation du programme sur grands ordinateurs; cet exemple a t ralis sous CMS.
Quel est le nom du fichier de type SIMIL? (Par defaut: "... data a") localite d1 a Quel nom doit recevoir le fichier de sortie de ce programme, contenant la matrice traduite en clair? (Par defaut: "MAT data a") localite sortie a Execution begins...
Contenu du fichier de rsultats V oici un exemple du fichier de sortie. On y trouve dabord le bloc dinformations concernant le fichier dentre (titre, date de fabrication, fonction, nombre dobjets et nombre de descripteurs), suivi de la demi-matrice de ressemblance.
P R O G R A M M E R E G A R D E pour examiner une matrice produite par SIMIL VERSION M1.2 Auteur: A. Vaudor FICHIER D'ENTREE : 7 localits/D1 TITRE: 7 localits du Qubec / Distances en km DATE: 7/9/91 FONCTION: D01 Nombre d'objets : 7 Nombre de descripteurs : 2
i m i a l t h a u s c o a r e c p u t b i s g n h a i o u C G M M Q 485.60595 349.75490 378.53672 180.15916 161.00831 781.74651 551.23544 621.47124 392.58719 233.77626
Chicoutimi Gasp Miguasha Montral Qubec Rimouski
e i m k s r u o J m i t R S 185.63113 368.84501 302.05421 792.79199 165.79426 633.74548 502.99525 44.29501 269.67142 241.57762 506.65426
LE PROGICIEL R
111
SIMIL
Que fait SIMIL ? SIMIL est un programme de calcul de mesures de ressemblance, calculant des coefficients pour donnes binaires (prsence-absence) ou pour donnes quantitatives. Ce programme permet le calcul de toutes les mesures exposes au chapitre 7 du manuel de Legendre & Legendre (1984a), l'exception des coefficients de corrlation partielle. Le tableau 4 donne la liste des coefficients disponibles, alors que les tableaux 5 7 rsument les critres qui doivent guider lusager dans le choix dun coefficient. Quatre types de fichiers, dont le rle est expliqu en dtail la section suivante, peuvent tre utiliss en conjonction avec ce programme; les flches en tirets indiquent des fichiers qui ninterviennent que pour certains coefficients.
Fichier de donnes (ASCII) SIMIL Demi-matrices de similarits partielles (ASCII)
Matrice de probabilits (format SIMIL)
Tableau 4 - Les coefficients d'association du programme SIMIL. Le code reconnu par le programme pour chaque coefficient se trouve dans la colonne de gauche. Les coefficients symtriques incluent les doubles zros dans la mesure de la ressemblance alors que les coefficients asymtriques nen tiennent pas compte. ________________________________________________________________________________________________ Coefficients binaires incluant les doubles zros (symtriques) S01 S02 S03 S04 S05 S06 (a+d)/(a+b+c+d) Coefficient de simple concordance (Sokal & Michener) (a+d)/(a+2b+2c+d) (Rogers & Tanimoto) (2a+2d)/(2a+b+c+2d) (a+d)/(b+c) (1/4) [ a/(a+b) + a/(a+c) + d/(b+d) + d/(c+d) ] ad/[(a+b)(a+c)(b+d)(c+d)]
Coefficients binaires excluant les doubles zros (asymtriques) S07 a/(a+b+c) Coefficient de communaut (Jaccard) S08 2a/(2a+b+c) (Srensen, Dice) S09 3a/(3a+b+c) S10 a/(a+2b+2c) S11 a/(a+b+c+d) (Russell & Rao) S12 a/(b+c) (Kulczynski) S13 (1/2) [ a/(a+b) + a/(a+c) ] (Kulczynski) S14 a/[(a+b)(a+c)] (Ochiai) S26 [ a + (d/2) ]/(a+b+c+d) (Faith) ________________________________________________________________________________________________
112
LE PROGICIEL R
Tableau 4 (suite) ________________________________________________________________________________________________ Coefficients quantitatifs incluant les doubles zros (symtriques) S15 S16 (w[i] s[i]) / (w[i]) (w[i] s'[i]) / (w[i]) (Gower, symtrique) (Estabrook & Rogers)
Coefficients quantitatifs excluant les doubles zros (asymtriques) S17 S18 S19 S20 S21 2W/(A+B) (1/2) [ (W/A) + (W/B) ] (w[i] s[i]) / (w[i]) (w[i] s'[i]) / (w[i]) (Steinhaus) (Kulczynski) (Gower, asymtrique) (Legendre & Chodorowski) Similarit du khi carr (Roux & Reyssac)
Coefficients probabilistes S22 S23 Similarit probabiliste du khi carr Coefficient probabiliste de Goodall
Coefficients binaires pour l'analyse en mode R (associations d'espces, etc.) S24 S25 [a/((a+b)(a+c))] - 0.5(a+c) 1 - p(khi carr) (Fager & McGowan) (Krylov)
Coefficient de similarit gntique NEI Coefficients de distance D01 D02 D03 D04 D05 D06 D07 D08 D09 D10 D11 D12 D13 D14 Coefficients de dpendance (mode R) RP r de Pearson RS r de Spearman TAU tau de Kendall KHI Statistique G (khi carr de Wilks) HT Coefficient de contingence de Tschuproff HS0 B/(A+B+C) Coefficient dinformation rciproque (Estabrook) HS1 [ 1 - (HD)**2 ] Coefficient de cohrence (Rajski) HS2 B/(A+2B+C) Coefficient symtrique d'incertitude HD (A+C)/(A+B+C) Mtrique de Rajski ________________________________________________________________________________________________ Distance euclidienne Distance moyenne (taxonomique) Mesure de corde Mtrique godsique Distance gnralise de Mahalanobis (entre groupes) Mtrique de Minkowski (l'usager spcifie la puissance) Mtrique de Manhattan Diffrence moyenne des descripteurs (Czekanowski) Indice d'association (Whittaker) Mtrique de Canberra (Lance & Williams) Coefficient de divergence (Clark) Coefficient de ressemblance raciale (entre groupes; Pearson) Coefficient non-mtrique (Watson, Williams & Lance) Diffrence de pourcentages (Odum; Bray & Curtis) Similarit gntique de Nei (borne entre 0 et 1)
LE PROGICIEL R
113
Tableau 5 - Le choix dune mesure dassociation asymtrique entre objets (mode Q) pour tableau dabondances despces ou autres descripteurs pour lesquels les doubles zros ne sont pas indicateurs de ressemblance. Modifi de Legendre & Legendre (1984a), tableau 7.III. ________________________________________________________________________________________________ 1) Donnes de prsence-absence, ou chelle dabondance relative sans similarit partielle entre les classes voir 2 2) Coefficients mtriques: S07, S10, S11, S26 2) Coefficients semi-mtriques: S08, S09, S13, S14 2) Coefficient non-mtrique: S12 1) Donnes quantitatives voir 3 3) Donnes brutes voir 4 4) Sans niveau de probabilit voir 5 5) Sans standardisation par objet; une mme diffrence entre deux objets, pour des espces abondantes ou rares, a la mme contribution la similarit: S17, S18 5) Standardisation par vecteur-objet; les diffrences entre objets pour les espces les plus abondantes (dans lensemble du fichier) contribuent davantage la similarit (moins la distance): S21 4) Coefficient probabiliste: S22 3) Donnes normalises (ou, du moins, distribution non asymtrique) ou sur chelle dabondance relative voir 6 6) Sans niveau de probabilit voir 7 7) Sans standardisation par objet voir 8 8) Une mme diffrence entre les deux objets, pour des espces abondantes ou rares, a la mme contribution la similarit: S17, S18, D08, D14 8) Les diffrences entre objets pour les espces abondantes (dans les deux objets considrs) contribuent davantage la similarit (moins la distance): D10, D11 8) Les diffrences entre objets pour les espces les plus abondantes (dans lensemble du fichier) contribuent davantage la similarit (moins la distance): S19, S20 7) Standardisation par vecteur-objet; pour des objets dimportance gale, ces mesures donnent la mme contribution aux espces abondantes ou rares: D03, D04 (o limportance se calcule par la longueur du vecteur), D09 (o elle se calcule par leffectif total du vecteur) 6) Coefficient probabiliste: S23 ________________________________________________________________________________________________
Fichiers d'entre et de sortie (1) Fichier d'entre principal Dans le fichier d'entre, les donnes sont des nombres entiers ou rels, positifs ou ngatifs, crits en ASCII. Le programme SIMIL calcule toujours ses mesures de ressemblance entre les lignes du fichier dentre; il faudra sassurer que les lignes reprsentent les objets si on dsire calculer une similarit ou une distance (mode Q danalyse), et les descripteurs si on dsire calculer un coefficient de dpendance (mode R). Le programme VERNORM permet de vrifier le contenu des fichiers de donnes, de transposer les matrices et de normaliser les descripteurs, si besoin est: Tableau de donnes n descripteurs x p objets
Tableau de donnes p objets x n descripteurs
Transposition par VERNORM
114
LE PROGICIEL R
Tableau 6 - Le choix dune mesure dassociation symtrique entre objets (mode Q) pour tableau de descripteurs physiques, chimiques, gologiques, etc. Modifi de Legendre & Legendre (1984a), tableau 7.IV. ________________________________________________________________________________________________ 1) Comparaison dobjets individuels voir 2 2) Descripteurs binaires, ou descriptions multiples sans similarits partielles voir 3 3) Coefficients mtriques: S01, S02, S06 3) Coefficients semi-mtriques: S03, S05 3) Coefficient non-mtrique: S04 2) Descripteurs descriptions multiples voir 4 4) Descripteurs quantitatifs, dimensionnellement homognes voir 5 5) Diffrences soulignes par mise au carr: D01, D02 5) Diffrence attnue: D07, D08 4) Descripteurs sans homognit dimensionnelle; des poids gaux (ou diffrents, selon les valeurs w i imposes) sont attribus aux diffrents descripteurs voir 6 6) Descripteurs qualitatifs (sans similarits partielles) et descripteurs quantitatifs avec similarits partielles bases sur lcart de variation de chaque descripteur: S15 6) Descripteurs qualitatifs (possibilit de matrices de similarits partielles entre les classes) et descripteurs quantitatifs ou semi-quantitatifs avec fonction de similarit partielle pour chaque descripteur: S16 1) Comparaison de groupes dobjets voir 7 7) Tenant compte de la corrlation entre descripteurs: D05 7) Sans tenir compte de la corrlation entre descripteurs: D12 ________________________________________________________________________________________________
Pour le mode Q danalyse, les objets forment les lignes successivement de cette matrice; sur une ligne, les diffrents descripteurs sont inscrits en ordre, la suite. Cependant, un objet peut prendre autant de lignes dans le fichier qu'il est ncessaire pour accommoder tous ses descripteurs. Comme la lecture des donnes sera effectue en format libre, les descripteurs doivent tre spars par un ou plusieurs espaces (le nombre d'espaces n'a pas d'importance; la limite, on peut mme n'inscrire qu'une donne par ligne du fichier). Une consquence de cette flexibilit de lecture est que les absences dinformations ne peuvent tre reprsentes par des espaces blancs, qui sont ignors lors de la lecture des donnes; les informations absentes doivent tre matrialises par un code numrique (on emploie souvent 0, -1, -9 ou -999), qui sera dclar en rponse une question du programme. Ce code doit diffrer de faon non-ambigu de toute valeur numrique pouvant lgitimement se trouver dans le fichier. Dans le cas des coefficients de distances D05 et D12, le calcul se fera entre des groupes d'objets. Il est ncessaire que les objets membres d'un mme groupe se retrouvent l'un la suite de l'autre dans le fichier d'entre. On ne peut spcifier laide dun code quel groupe appartient chaque objet; le programme demandera de donner, dans lordre, le nombre d'objets membres de chaque groupe. Il ny a en principe pas de limite quant la taille des matrices qui peuvent tre traites par la version Macintosh de ce programme. Le programme occupe tout lespace mmoire (RAM) qui lui est disponible, si bien que la taille des matrices que le programme peut traiter en pratique sera une fonction, non seulement de la taille de la mmoire disponible dans la machine, mais galement de la version du Systme utilise ainsi que de lutilisation simultane de MultiFinder, dune mmoire-cache ou dautres programmes. Les versions 3.0 et plus de SIMIL ralisent tous les calculs en mmoire centrale afin de les acclrer; sil ny a pas suffisamment despace disponible pour traiter le tableau de donnes, le message suivant sera mis:
Manque de mmoire! Essayez une ancienne version de SIMIL
LE PROGICIEL R
115
Tableau 7 - Le choix dun coefficient de dpendance entre descripteurs (mode R). Modifi de Legendre & Legendre (1984a), tableau 7.V. ________________________________________________________________________________________________ 1) Descripteurs: abondances despces voir 2 2) Donnes brutes: S21, RS, TAU 2) Donnes normalises voir 3 3) Sans niveau de probabilit: RP (aprs avoir limin des doubles zros, autant que possible); RS, TAU 3) Coefficients probabilistes: probabilit associe RP, RS et TAU; S23 2) Donnes de prsence-absence voir 4 4) Sans niveau de probabilit: S7, S8, S24 4) Coefficient probabiliste: S25 1) Autres descripteurs: physiques, chimiques, gologiques, etc. voir 5 5) Sans niveau de probabilit voir 6 6) Descripteurs quantitatifs en relation linaire: RP 6) Autres descripteurs ordonns, en relation monotone: RS, TAU 6) Descripteurs ordonns en relation non monotone et descripteurs qualitatifs: KHI, HT, HS0, HS1, HS2, HD 5) Coefficients probabilistes voir 7 7) Descripteurs quantitatifs en relation linaire: probabilit associe RP 7) Autres descripteurs ordonns, en relation monotone: probabilit associe RS, TAU 7) Descripteurs ordonns en relation non monotone et descripteurs qualitatifs: probabilit associe KHI ________________________________________________________________________________________________
La premire solution consiste quitter MultiFinder si on sy trouve; si le problme ne sen trouve pas rsolu, on peut tenter demployer une version de SIMIL dun numro infrieur 3; celles-ci gardent sur disque la plus grande partie du tableau de donnes et peuvent donc traiter des tableaux plus grands, au prix dune rapidit dexcution moins grande. Notez que les versions de SIMIL dun numro infrieur 3 sont gourmandes en espace-disque ncessaire lexcution du programme, ce qui a justifi la mise au point de la version 3. Quant aux versions CMS et VMS, la taille maximale des fichiers qui peuvent tre traits est limite par les paramtres inscrits au dbut du programme; lusager pourra les ajuster ses besoins avant la compilation. Le programme permet lusager qui le dsire d'inscrire un identificateur au dbut de chaque vecteur-objet, mais pas en tte des colonnes. Si on dclare au programme quil y a de tels identificateurs, le programme assumera que ceux-ci occupent les 10 premiers caractres de chaque vecteur-objet (ligne ou ensemble de lignes); tout caractre alphanumrique peut tre employ pour ces identificateurs, y compris les blancs. Dans ce cas, la liste des descripteurs commencera en colonne 11 ou plus loin. Cette convention est la mme que celle du progiciel danalyse phylogntique PHYLIP du Prof. Joseph Felsenstein. Le fichier suivant, avec identificateurs, serait un fichier acceptable pour SIMIL (rsultats de pche: 6 objets, 4 descripteurs; l'absence d'information est note -9); les 10 espaces rservs aux identificateurs sont matrialiss ci-dessous par un soulign:
poisson1 1 poisson2 b.conserve 2 0.9 -9 -9 sac Glad 2 15.0 -9 -9 poisson3 1 vieux pneu2 3.2 4 5 1 2.9 3 4
3.5 4 20 75.4 -9 -9
116
LE PROGICIEL R
Notons cependant que les fichiers de donnes soumis SIMIL sont souvent extraits de fichiers plus grands grs par des programmes de bases de donnes ou des logiciels statistiques; ils ont donc plus souvent lapparence suivante, sils prsentent des identificateurs dans les colonnes 1 10:
Stat.100 Stat.200 Stat.320 Stat.330 Stat.340 2 2 2 2 2 4 4 4 4 4 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 4 4 4 4 4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 4 4 4
ou encore, sans identificateurs:

-0.38566 -0.01005 0.10436 0.33647 0.30748 -1.42712 0.77932 0.94391 0.71295 0.52473 37.1 37.5 37.1 37.4 37.3 8.24931 7.34987 7.09589 6.79571 6.57508 0.02627 0.01033 0.16279 0.09373 0.14691 0.85015 0.77932 0.49348 0.57098 1.39128
ATTENTION: Comme pour tous les autres programmes de ce progiciel, il faut crire par exemple "0.376" et non pas ".376", et -0.42 et non pas -.42 lorsquon utilise une version de SIMIL antrieure la version 3, ou encore les versions CMS ou VMS; voir la remarque cet effet la page 6. (2) Fichier d'entre des matrices de similarits partielles Pour les coefficients S16 et S20, le programme demande combien on a de matrices de similarits partielles. Si de telles matrices sont utilises pour quantifier les relations entre les classes de variables semi-quantitatives, qualitatives ou circulaires (Legendre & Legendre, 1984a), il faut crer un second fichier qui, pour chaque matrice de similarits partielles, doit contenir les informations suivantes: 1- Le numro du descripteur (colonne) auquel s'applique cette matrice. 2- La taille de la matrice partielle, qui est gale au nombre maximum de valeurs (ou classes) que peut prendre ce descripteur. 3- Cette matrice elle-mme, en nombres rels, sous forme triangulaire infrieure, diagonale exclue. Si le descripteur qualitatif en question comporte n classes, il doit donc y avoir (n*(n-1))/2 valeurs dans la matrice de similarits partielles. Supposons par exemple que les descripteurs 2 et 4 demandent les matrices suivantes de similarits partielles (chacune tant ici d'ordre 5): descripteur 2 (5 classes): 1 0.4 1 0.5 0.6 1 0.5 0.4 0.45 1 0.46 0.47 0.5 0.5 descripteur 4 (5 classes): 1 0.4 1 0.3 0.8 0.9 0.2 0.48 0.9
1 0.55 0.2
1 0.8
LE PROGICIEL R
117
Le fichier d'entre des matrices de similarits partielles serait alors le suivant:

2 5 0.4 0.5 0.6 0.5 0.4 0.45 0.46 0.47 0.5 0.5 4 5 0.4 0.3 0.8 0.9 0.2
0.55
0.48
0.9
0.2
0.8
La premire ligne donne le numro de descripteur et le nombre de classes pour la premire matrice partielle; la ligne 6 donne les mmes informations pour la seconde. Les lignes successives de la premire matrice sont crites sur des lignes physiques distinctes, alors que les lignes successives de la seconde matrice sont crites la suite, sur une seule ligne physique; les deux formats sont acceptables. (3) Fichier de sortie principal Le fichier de sortie contenant les rsultats des calculs, dcrit ci-dessous, est crit en binaire, prt tre relu par les diffrents programmes danalyse de donnes du progiciel R (voir pages 3 et 7 de ce manuel). Il est possible de lire le contenu de cette matrice binaire grce au programme utilitaire REGARDE qui la transcrira en caractres lisibles, ou encore laide de la procdure ci-dessous. Notez que les matrices binaires construites par SIMIL sur un type dordinateur ne peuvent pas tre utilises par les programmes de R rsidant sur un autre type dordinateur, cause des diffrences qui existent entre les machines des diffrentes marques quant la structure des mots-machine. La structure de ce fichier binaire est la suivante: - Premier mot (entier): nombre de lignes (ou de blocs de lignes) entre lesquels les mesures de ressemblance ont t calcules. - Second mot (entier): Nombre de colonnes dans le fichier des donnes brutes. - Mots 3 12 (caractres): Titre donn au fichier par lusager. - Mot 13 (caractres): Date de cration du fichier. - Mots 14 et 15 (caractres): Nom de la mesure de ressemblance employe. - Mot 16 (entier): Nombre k didentificateurs lire; sil ny avait pas didentificateurs au dbut des lignes du tableau des donnes,k = 0. Si k > 0, cette information est suivie dune liste de k motsmachine contenant chacun un identificateur de ligne (10 caractres). - Suit la liste des ressemblances, selon les lignes successives de la matrice triangulaire suprieure, lexclusion de la diagonale. Un mot-machine (nombre rel) est utilis pour chaque mesure de ressemblance.
118
LE PROGICIEL R
La procdure PASCAL qui suit indique comment lire cette matrice binaire de similarits. Notez que cette procdure est crite pour CMS; si on veut lemployer pour relire les matrices de type SIMIL produites en version Macintosh, il faut savoir quil faut crire READ(ENTREE,VAL); par exemple, plutt que VAL:=ENTREE@;GET(ENTREE);. De plus, alors que les versions CMS et VMS de SIMIL utilisent des rels de 8 bytes, la version Macintosh de SIMIL utilise des rels de 10 bytes (dfinis comme Extended en MPW PASCAL). Lusager suffisamment familier avec PASCAL pour vouloir incorporer cette procdure dans son propre programme connatra vraisemblablement les autres adaptations qui sont ncessaires pour sa machine ainsi que pour le compilateur quil utilise.
PROCEDURE TypeSIMIL; CONST NBMOTS=1; NBCAR=10; (* ================================================================== (* Cette procdure lit une matrice binaire de type SIMIL et la (* transcrit en clair. Les valeurs de ressemblance sont galement (* crites en binaire dans une matrice carre MAT. (* ================================================================== TYPE MATRICE = ARRAY[1..500, 1..500] OF REAL; VARIABLE= RECORD CASE INTEGER OF 1:(INT:INTEGER); 2:(RE:REAL); 3:(CAR:PACKED ARRAY[1..NBCAR] OF CHAR); END; VAR I,J,NOBJ,NBDESC:INTEGER; ENTREE: FILE OF VARIABLE; MAT: MATRICE; VAL: VARIABLE; PROCEDURE ECRITDATA; VAR I,J,K:INTEGER; BEGIN J:=0; FOR I:=1 TO NBMOTS DO BEGIN VAL:=ENTREE@;GET(ENTREE); FOR K:=1 TO NBCAR DO BEGIN J:=J+1; IF J<=10 THEN WRITE(SORTIE,VAL.CAR [K]); END; END; END;
*) *) *) *) *)
(* Fin de ECRITDATA *)
BEGIN RESET(ENTREE); WRITELN(SORTIE,'FICHIER D''ENTREE:'); VAL:=ENTREE@;GET(ENTREE); NOBJ:=VAL.INT; (* NOBJ: nombre de lignes de la matrice de donnes *) WRITELN(SORTIE,' NOMBRE D''OBJETS: ',NOBJ:4); (* Impression de NOBJ *) VAL:=ENTREE@;GET(ENTREE); NBVAR:=VAL.INT; (* NBVAR: nombre de colonnes *) WRITELN(SORTIE,' NOMBRE DE VARIABLES: ',NBVAR:4); (* Impression de NBVAR *) WRITE (SORTIE,' TITRE: ');
LE PROGICIEL R
119
FOR I:=1 TO 10 DO ECRITDATA; (* Impression du titre *) WRITELN(SORTIE); WRITE (SORTIE,' DATE: '); ECRITDATA; (* Impression de la date *) WRITELN(SORTIE); WRITE (SORTIE,' MESURE DE RESSEMBLANCE: '); ECRITDATA;ECRITDATA; (* Impression de la mesure de ressemblance *) WRITELN(SORTIE); WRITELN(SORTIE); WRITELN(SORTIE,'LISTE DES IDENTIFICATEURS:'); VAL:=ENTREE@;GET(ENTREE); (* Lecture du nombre didentificateurs prsents *) IF VAL.INT<> 0 THEN (* Lecture des identificateurs *) BEGIN FOR I:=1 TO NOBJ DO BEGIN FOR J:=1 TO NBMOTS DO ECRITDATA; (* Impression des identificateurs *) WRITELN(SORTIE); END; END; WRITELN(SORTIE); WRITELN(SORTIE,'LISTE DES VALEURS DE RESSEMBLANCE:'); FOR I:=1 TO NOBJ DO (* Lecture des valeurs de ressemblance *) BEGIN MAT[I,I]:=1.0; FOR J:=I+1 TO NOBJ DO BEGIN VAL:=ENTREE@;GET(ENTREE); WRITELN(SORTIE,VAL.RE:10:5); (* Impression des valeurs de ressemblance *) MAT[I,J]:=VAL.RE; (* Valeurs crites en binaire dans MAT *) MAT[J,I]:=MAT[I,J]; END; END; END;
(4) Fichier de sortie de la matrice de probabilits Lorsquun test de signification statistique est associ un coefficient (S23, S25, D05, RP, RS, TAU, KHI), une matrice des probabilits crite galement en binaire peut tre obtenue dans un second fichier de sortie, la demande de lusager. Par dfaut, ce fichier de sortie est appel "PROBAB DATA A" dans la version CMS. Cest le complment de la probabilit de lhypothse nulle qui est note, en fait, dans ce fichier [revoir ?]. Ainsi, on obtient des valeurs leves pour un coefficient significatif et une valeur basse lorsquil ny a pas de relation entre les deux objets ou descripteurs en question; ces valeurs de probabilits se comportent donc comme des mesures de similarit et peuvent tre utilises comme tel dans les programmes de groupement ou dordination. Contrairement aux coefficients de corrlation, par exemple, o les deux extrmes de lchelle correspondent lexistence dune relation entre deux descripteurs, les valeurs de probabilit ont, quant elles, un comportement monotone sur leur chelle de variation [0, 1]. On peut consulter ce fichier laide du programme REGARDE. Les options du programme Le programme offre comme options les 50 mesures de ressemblance numres au tableau 4. Lexpos dtaill de ces mesures dpasse le cadre du prsent document; on pourra se rfrer au texte de Legendre & Legendre (1984a) ou lune des revues suivantes de certains coefficients de ressemblance: Sokal & Sneath (1963), Williams & Dale (1965), Cheetham & Hazel (1969), Sneath & Sokal (1973), Clifford & Stephenson (1975), Daget (1976), Blanc et al. (1976), Orlci (1978),
120
LE PROGICIEL R
Gower (1985). Les critres devant guider lusager dans le choix dun coefficient sont rsums aux tableaux 5 7. La section suivante montre en quoi le dialogue du programme avec lusager diffre selon la mesure de ressemblance slectionne. Les questions du programme Les questions prsentes par le programme lcran du Macintosh sont dcrites dans les paragraphes qui suivent. Les questions poses par les versions CMS et VMS sont essentiellement les mmes, comme on peut le vrifier avec lexemple prsent la section suivante. Pour faire dmarrer le programme, il faut cliquer sur licne, puis donner la commande Ouvrir dans le menu Fichiers. (1) Fichier dentre Le programme prsente la liste des fichiers ASCII disponibles. (2) Titre: On fournit un titre, qui sera inscrit dans le bloc dinformations de chaque fichier de ressemblance produit par SIMIL; voir le programme REGARDE pour dtails. (3) Nombre de lignes (ou de blocs de lignes) La rponse doit tre un nombre entier positif. En mode Q, il sagit du nombre dobjets, chaque objet pouvant occuper une ou plusieurs lignes; en mode R, o la matrice est transpose, il sagit du nombre de variables, chaque variable pouvant galement occuper une ou plusieurs lignes; voir la description du fichier dentre principal. (4) Nombre de colonnes En mode Q, on inscrit le nombre de descripteurs dcrivant chaque objet du fichier, lexclusion des identificateurs de lignes si le fichier en possde. En mode R, o le fichier est transpos, on inscrit le nombre dobjets composant chaque vecteur-variable, lexclusion des identificateurs de descripteurs. (5) Code indiquant labsence dinformation (par dfaut: 0) On inscrit quelle valeur numrique a t utilise dans le fichier pour indiquer quune information est absente (souvent: -1, -9, -999, etc.). On doit rpondre cette question par une valeur numrique mme sil ny a pas de donnes manquantes dans le fichier. (6) Les 10 premiers caractres de chaque ligne sont des identificateurs [Oui, Non] On rpond Oui si les 10 premires colonnes de chaque vecteur-objet ou descripteur contient un identificateur de cet objet ou descripteur; voir la section sur le fichier dentre principal. (7) Calculs [Similarits, Distances, Autres; Information] Si on choisit les Similarits, un nouveau menu offre le choix entre les similarits S1 S26 du tableau 4; si on choisit Distances, le menu prsent donne le choix entre les distances D1 D14; enfin, Autres mne un nouveau menu offrant le choix entre les fonctions Tau, R de Pearson, R de Spearman, Khi, Ht, Hs0, Hs1, Hs2, Hd et Nei. Informations donne accs un fichier contenant le tableau 4 lui-mme. On peut monter ou descendre dans ce tableau en pointant le curseur de la souris dans le haut ou le bas de lcran; le tableau peut galement tre envoy limprimante si lusager le dsire. Dans les versions CMS et VMS, la question se prsente de la faon suivante, qui contient les mmes possibilits de choix:
QUELLE FONCTION Similarites : Distances : Mode R: rp = rs = tau= khi= DESIREZ-VOUS CALCULER ? s01 a s26, ou Nei d01 a d14 r de Pearson r de Spearman Tau de Kendall Khi-carre (statistique G)
LE PROGICIEL R
121
ht = hs0= hs1= hs2= hd =
Coefficient de contingence de Tschuproff Information reciproque S=B/(A+B+C) Coherence de Rajski S'=SQRT(1-(hd)**2) Coeff. symetr. d'incertitude S"=B/(A+2B+C) Metrique de Rajski D =(A+C)/(A+B+C)
(8) Fichier de sortie Le programme prsente le menu permettant de donner un nom au fichier binaire de mesures de ressemblance quil produira. partir de ce point, les questions divergent selon le type de coefficient que lon dsire calculer. Ces questions sont suivies du calcul des coefficients, aprs quoi on retourne au menu Fichiers qui permet de traiter immdiatement un autre fichier de donnes. La commande Interrompre dans le menu R: Simil permet de quitter le programme. Les coefficients binaires: S1 S14, S24, S25, S26, D13 (9) Seuil partir duquel linformation sera code 1 (plus petit: 0) Si le fichier de donnes ne contient que des 0 et des 1, on rpond 1 cette question. Si par ailleurs le fichier contient des donnes quantitatives, il est possible de les faire traiter par le programme comme sil sagissait de donnes de prsence-absence. On aurait pu tablir que toute valeur plus grande que zro doit tre recode 1; avec des donnes dabondance despces par exemple, il se peut cependant que lusager dcide de considrer comme absente toute espce qui nest pas reprsente, par exemple, par au moins 10 individus la station dchantillonnage; sa rponse serait alors 10. En gnral, la rponse cette question indique partir de quelle valeur numrique lusager demande au programme de considrer lespce comme prsente. La plus petite valeur admissible est 0. Les coefficients quantitatifs simples: D1 D4, D7 D11, D14, NEI Aucune question supplmentaire nest pose par le programme avant le calcul de ces coefficients. La mtrique de Minkowski: D6 (9) Puissance pour cette fonction On rpond par un entier positif, qui fournit lexposant r de la mtrique de Minkowski dont la formule est D6(x 1 , x 2 ) = [ |y i 1 - yi 2|r ](1/r). La mtrique de Manhattan (D7) correspond la mtrique de Minkowski lexposant 1, alors que la distance euclidienne (D1) est la mtrique de Minkowski lexposant 2. Les distances entre groupes dobjets: D5 et D12 (9) Fichier de probabilits associes [Oui, Non] Cette question nest pose que pour le coefficient D5 (distance gnralise de Mahalanobis), car le coefficient D12 (coefficient de ressemblance raciale) ne conduit pas un test de signification statistique des diffrences calcules entre les groupes. Si on rpond Oui, le programme demande le nom que doit recevoir le fichier binaire de probabilits. (10) Cardinalit du groupe 1 On indique ici le nombre (entier positif) dobjets dans le premier groupe. Le programme demande ensuite la Cardinalit du groupe 2, etc. jusqu puisement des objets dont le nombre a t fourni en rponse la question 3. Les coefficients de Gower: S15 et S19 (9) Ecart sur les donnes plutt que celui de la population [Oui, Non] Le coefficient de Gower a comme formule D(x 1 , x 2 ) = w i12 si12 / w i12. Les poids w i seront traits la question (10). Nous nous intressons ici la fonction de similarit partielle si12 entre les objets x 1 et x 2 pour les descripteurs quantitatifs. Dans ce cas, la diffrence entre les valeurs du descripteur pour ces deux
122
LE PROGICIEL R
objets, |y i 1 - y i 2|, est rapporte lcart maximum R i que peuvent prendre les valeurs de ce descripteur; la question cherche dterminer si cet cart R i doit tre calcul partir du tableau de donnes lui-mme (rponse Oui), ou si lusager dsire fournir lui-mme les valeurs dcart R i quil connat par ailleurs partir de la population de rfrence dont est extrait lchantillon ltude (rponse Non). La similarit partielle si12 entre les objets x 1 et x 2 est calcule par si12 = 1 - [ |y i 1 - y i 2| / Ri ]. (9.1) Ecart pour variable 1 Si on a rpondu Non la question prcdente, indiquant par l que lon dsire fournir les valeurs de Ri , le programme demande maintenant la valeur de lcart pour la premire variable (nombre rel positif). Le programme demande ensuite: Ecart pour variable 2, etc. jusqu puisement des variables. On doit fournir une valeur-bidon pour les variables qualitatives multiclasses, qui ne seront identifies qu la question (11). (10) Tous les poids (W[i]) sont binaires (0 ou 1) [Oui, Non] Les valeurs w i ont deux rles distincts dans la formule de ces coefficients. Dune part, elles servent donner des poids variables aux diffrents descripteurs, si lusager le dsire; si on ne dsire pas se prvaloir de cette option, on rpond Oui la question, ce qui donne par dfaut des poids gaux tous les descripteurs dans le calcul de la similarit globale. Le second rle de ces valeurs est de permettre dliminer du calcul global tout descripteur pour lequel lun des deux objets souffre dune absence dinformation (dont le code a t tabli en rponse la question 5); ds quil y a absence dinformation, le descripteur se voit attribuer un poids w i = 0. Enfin, dans la forme asymtrique du coefficient (S19), w i = 0 lorsque lespce est absente des deux vecteurs-objets (y i 1 + y i 2 = 0). (10.1) W[1] Si on a rpondu Non la question (10), on doit maintenant indiquer le poids dsir pour le descripteur no 1. La rponse doit tre un nombre rel 0; un poids de zro quivaut liminer le descripteur des calculs. Le programme demande ensuite: W[2], etc. jusqu puisement des variables. (11) Nombre de descripteurs qualitatifs multiclasses Les descripteurs qualitatifs multiclasses sont traits par le coefficient S15 de la mme faon que le coefficient de simple concordance pour donnes multiclasses: on compte une similarit partielle si12 = 1 sil y a accord entre les deux objets pour ce descripteur, et 0 sil y a dsaccord. Si le fichier contient des descripteurs qualitatifs qui doivent tre traits de cette faon, on doit indiquer ici combien il y a de descripteurs de ce type. Cette question nest pose que pour la forme symtrique du coefficient (S15); dans la forme asymtrique (S19), rserve aux donnes de frquence (abondances despces, en cologie), cette question naurait pas de sens. (11.1) Identificateur du descripteur 1 On indique ici quel est le numro du premier descripteur qualitatif, parmi les descripteurs du fichier de donnes. Le programme demande ensuite: Identificateur du descripteur 2, etc. jusqu puisement des descripteurs qualitatifs. Si le nombre dclar de descripteurs qualitatifs (question 11) est gal au nombre total de descripteurs (question 4), cette question nest pas pose. Les coefficients S16 et S20 (9) Nombre de matrices de similarits partielles Les coefficients S16 et S20 ont la mme formule gnrale que les coefficients de Gower, soit D(x 1 , x 2 ) = w i12 si12 / w i12. Les poids w i seront traits la question (11). Nous nous intressons ici la fonction de similarit partielle si12 entre les objets x 1 et x 2 ; cest l que S16 et S20 diffrent de S15 et S19 respectivement. La valeur de si peut tre dtermine de deux faons diffrentes: soit par une fonction monotone dcroissante dcrite la question (10), soit en imposant des valeurs de similarits partielles entre les diffrentes classes dun descripteur qualitatif, semi-quantitatif ou circulaire. Legendre & Legendre (1984a, tome 2, p. 15) fournissent un exemple dune telle matrice de similarits partielles. Ces matrices, une pour chacun des descripteurs devant tre trait de cette faon, doivent tre inscrites lune la suite de lautre dans un fichier spar, en suivant les indications fournies la section Fichier dentre des matrices de similarits partielles. La rponse doit tre un entier 0; on rpond 0 (zro) si aucune matrice de
LE PROGICIEL R
123
similarits partielles nest fournie. Si on rpond par un entier positif, le programme prsente un menu des fichiers ASCII disponibles; on indiquera lequel contient les matrices de similarits partielles. Ces matrices reprsentent le seul moyen disponible dimposer des similarits partielles entre les classes dun descripteur qualitatif ou dune variable circulaire. Les coefficient S16 et S20 sont trs utiles pour le traitement des tableaux comportant des descripteurs appartenant plusieurs types (quantitatifs, semiquantitatifs, qualitatifs). (10) Mme valeur de K[i] pour tous les descripteurs [Oui, Non] Estabrook & Rogers (1966) ont propos destimer la similarit partielle entre les valeurs dun descripteur quantitatif laide dune fonction de similarit partielle empirique qui est une fonction la fois de la distance di12 = |y i 1 - y i 2| entre les valeurs prises par deux objets pour ce descripteur et dune borne k i fixe par lusager, borne qui limite lextension de la similarit partielle une distance maximum k i . Cette fonction empirique a pour quation si12 = f(di12, k i ) = 2 (k i + 1 - di12) / (2 k i + 2 + di12 k i ) si di12 k i et si12 = 0 lorsque di12 > k i . De plus, avec des donnes dabondance despces (coefficient S20), si12 = 0 lorsque y i 1 ou y i 2 ont la valeur zro (Legendre & Chodorowski, 1977). Des exemples dutilisation de cette fonction se trouvent dans larticle de Estabrook & Rogers (1966) ainsi que dans Legendre & Legendre (1984a, tome 2, p. 13-14). Cette question du programme cherche dterminer si des valeurs diffrentes de k i seront attribues aux diffrents descripteurs. (10.1) K[i] Si on a rpondu Oui la question (10), on fournit ici la valeur unique de k i qui sera utilise pour tous les descripteurs. Cette valeur est un nombre rel 0. Lorsque k i = 0, le descripteur est trait de la mme faon que le coefficient de simple concordance (dans le cas de S16) ou le coefficient de Jaccard (dans le cas de S20) pour donnes multiclasses: on compte une similarit partielle si12 = 1 sil y a accord entre les deux objets pour ce descripteur, et 0 sil y a dsaccord. (10.2) K[1] Si on a rpondu Non la question (10), on fournit ici la valeur de k qui sera utilise pour le premier descripteur. Le programme demande ensuite: K[2], etc. jusqu puisement des descripteurs. On doit fournir une valeur-bidon pour les variables qualitatives multiclasses, qui faisaient lobjet de la question (9). (11) Tous les poids (W[i]) sont binaires (0 ou 1) [Oui, Non] Les valeurs w i ont deux rles distincts dans la formule de ces coefficients. Dune part, elles servent donner des poids variables aux diffrents descripteurs, si lusager le dsire; si on ne dsire pas se prvaloir de cette option, on rpond Oui la question, ce qui donne par dfaut des poids gaux tous les descripteurs dans le calcul de la similarit globale. Le second rle de ces valeurs est de permettre dliminer du calcul global tout descripteur pour lequel lun des deux objets souffre dune absence dinformation (dont le code a t tabli en rponse la question 5); ds quil y a absence dinformation, le descripteur se voit attribuer un poids w i = 0. Enfin, dans la forme asymtrique du coefficient (S20), w i = 0 lorsque lespce est absente des deux vecteurs-objets (y i 1 + y i 2 = 0). (11.1) W[1] Si on a rpondu Non la question (11), on doit maintenant indiquer le poids dsir pour le descripteur no 1. La rponse doit tre un nombre rel 0; un poids de zro quivaut liminer le descripteur des calculs. Le programme demande ensuite: W[2], etc. jusqu puisement des variables. La similarit probabiliste du khi carr: S22 (9) Khi carr de Wilks plutt que de Pearson [Oui, Non] Le coefficient S22 est le complment de la probabilit associe la statistique khi carr calcule sur le tableau de frquences form par deux chantillons et n espces, aprs avoir exclu les doubles zros des calculs. Lusager a le choix entre la statistique khi carr de Wilks (ou statistique G: rpondre Oui) ou la statistique de Pearson (rpondre Non).
124
LE PROGICIEL R
Le coefficient probabiliste de Goodall: S23 (9) Calcul sur indice de Gower plutt que Steinhaus [Oui, Non] Le coefficient S23 est le complment de la probabilit que deux chantillons pris au hasard soient aussi similaires ou plus similaires que la paire dchantillons en question. Les similarits partielles par espce sur lesquelles sont bass les calculs peuvent tre calcules la faon de lindice de Gower S19 (rponse Oui) ou celle de lindice de Steinhaus S17 (rponse Non), tel quexpliqu par Legendre & Legendre (1984a, tome 2, p. 22). Les coefficients de dpendance entre descripteurs (mode R): de RP HD (9) Fichier de probabilits associes [Oui, Non] Si on dsire obtenir le fichier des probabilits associes, on rpond Oui cette question; dans ce cas, le programme demande de donner un nom ce fichier binaire, qui est dcrit la section Fichier de sortie de la matrice de probabilits. On peut consulter ce fichier laide du programme REGARDE. (10) Calcul de Tau A et B plutt que Tau A, B & C [Oui, Non] Il existe trois versions du coefficient de corrlation non-paramtrique tau de Kendall: taua est employ lorsquil ny a pas dobservations lies, taub lorsquil y a des observations lies et que les deux variables comportent le mme nombre de classes semi-quantitatives, et tauc lorsquil y a des observations lies mais que le nombre de classes nest pas le mme pour les deux descripteurs. Le programme SIMIL choisit la version qui convient dans chaque situation. Cependant, certains auteurs recommandent de ne plus employer la formule de correction du tauc, mais dutiliser plutt taub dans tous les cas o il y a des observations lies; lusager de SIMIL peut ici dcider de ne faire calculer que taua et taub (rponse Oui) sil le dsire. Cette question nest pose que si le coefficient choisi est le tau de Kendall. Exemple V oici un exemple dutilisation du programme SIMIL sur grands ordinateurs. Le fichier de donnes contient 71 objets et 11 descripteurs; labsence dinformation est code -9. Le coefficient S15 sera calcul entre les lignes de ce fichier; voir les questions particulires cette fonction, la section prcdente. Ce coefficient ne permet pas davoir recours des matrices de similarits partielles; donc, aucune rponse nest fournie lorsquun nom est demand pour ce fichier (voir 1 en marge gauche). De mme, aucune rponse ne sera fournie la demande dun nom pour le fichier des probabilits puisque le coefficient S15 ne produit pas de probabilits associes (voir 2 en marge gauche). Le dialogue, ralis sous CMS, est reproduit ci-dessous.
Quel est le nom du FICHIER DE DONNEES? (Par defaut: "... DATA A") lacs donnees a Quel doit etre le nom du FICHIER DE SORTIE contenant la matrice de ressemblance? (Par defaut: "... DATA A") lacs s15 a Quel est le nom du fichier contenant les MATRICES DE SIMILARITES PARTIELLES, si ce probleme en comporte? (Par defaut: "... DATA A") (1) Quel doit etre le nom du fichier contenant la MATRICE DES PROBABILITES, si vous desirez l'obtenir? (Par defaut: "PROBAB DATA A") (2)
LE PROGICIEL R
125
S I M I L : Calcul de matrices de ressemblance. VERSION 3.0b AUTEUR: A. VAUDOR REFERENCE: Chapitre 7 de Legendre, L. et P. Legendre. 1984 -- Ecologie numerique, 2ieme edition. Tome 2: La structure des donnees ecolgiques. Collection d'Ecologie, 13. Masson, Paris et les Presses de l'Universite du Quebec. viii + 335 p. TITRE: physico-chimie de 71 lacs. NOMBRE D'OBJETS (LIGNES)? 71 NOMBRE DE DESCRIPTEURS (COLONNES)? 11 CODE REPRESENTANT L'ABSENCE D'INFORMATION? -9 LES 10 PREMIERES COLONNES CONTIENNENT-ELLES LES NOMS DES OBJETS? (o ou n) o QUELLE FONCTION DESIREZ-VOUS CALCULER ? Similarites : s01 a s26, ou Nei Distances : d01 a d14 Mode R: rp = r de Pearson rs = r de Spearman tau= Tau de Kendall khi= Khi-carre (statistique G) ht = Coefficient de contingence de Tschuproff hs0= Information reciproque S=B/(A+B+C) hs1= Coherence de Rajski S'=SQRT(1-(hd)**2) hs2= Coeff. symetr. d'incertitude S"=B/(A+2B+C) hd = Metrique de Rajski D =(A+C)/(A+B+C) s15 LES ECARTS MAXIMA DES VARIABLES (R[i]) DOIVENT-ILS ETRE CALCULES A PARTIR DES DONNEES? (o ou n) o LES POIDS W[i] DOIVENT-ILS ETRE SIMPLEMENT 0 OU 1? (o ou n) o Combien y a-t-il de descripteurs QUALITATIFS multi-classes? 0 Fin du programme.
Contenu du fichier de rsultats Le fichier de sortie contenant les rsultats des calculs est crit en binaire; il est donc impossible de le consulter directement laide dun diteur de texte. Il en est de mme du fichier des probabilits associes certains coefficients. On peut cependant consulter ces fichiers grce au programme utilitaire REGARDE qui les transcrira en caractres lisibles.
126
LE PROGICIEL R
VERNORM
Que fait VERNORM ? VERNORM est un programme multiples usages destin tre utilis en dbut de traitement dun tableau de donnes. Ce programme a t cr pour rpondre des besoins gnraux concernant les fichiers d'entre. Son nom signifie VRifier et NORMaliser; il peut aussi transposer une matrice, reformater les donnes, enlever ou ajouter des identificateurs d'objets, dessiner des histogrammes, diviser les variables en classes, centrer et rduire les donnes ou les transformer de diverses faons. VERNORM sait tenir compte des absences d'information. Llimination de lignes et de colonnes dun fichier de donnes pourra tre ralise laide des programmes de bases de donnes ou des diteurs disponibles sur micro-ordinateurs; de mme, des programmes statistiques pourront tre employs pour raliser certaines transformations de donnes non disponibles dans VERNORM. Afin d'effectuer l'opration dsire, il suffit simplement de choisir l'option voulu et de rpondre aux questions poses par VERNORM. Laissez-vous guider par le programme. Fichiers d'entre et de sortie Fichier de donnes (ASCII) VERNORM Fichier "TITRE" (1) Fichier de donnes brutes Ce fichier, crit en ASCII (caractres lisibles), se prsente sous la forme d'un tableau p x n de donnes brutes o les lignes sont habituellement les p objets et les colonnes sont les n variables. Il peut contenir des identificateurs dans les 10 premires colonnes, si lusager le dsire; son format gnral est prsent la section Fichier d'entre principal dans la description du programme SIMIL. Il peut avoir t tap laide dun diteur, ou encore tir dun chiffrier (en format texte). Il peut galement tre le rsultat de calculs raliss par un logiciel statistique (SPSS, SAS, STATVIEW, etc.) ou par un autre programme capable dcrire ses rsultats sur un fichier texte (EBCDIC ou ASCII). (2) Fichier d'identificateurs Si le tableau de donnes ne comporte pas d'identificateurs d'objets, ou encore si on la transpos, il est possible d'ajouter des noms aux lignes en fournissant VERNORM un fichier contenant une liste d'identificateurs de lignes. Dans les versions CMS et VMS, ce fichier porte par dfaut le nom de "TITRE" et se prsente sous la forme d'une liste de noms d'objets inscrits dans un fichier lisible (EBCDIC ou ASCII). Attention : Sur Macintosh, ces identificateurs doivent possder au minimum 10 caractres, incluant les espaces et les tabulateurs; les 10 premiers caractres de chaque ligne seront utiliss. Sil y en a moins et si on na pas complt laide de blancs, le programme compltera en utilisant des caractres de la ligne suivante, si bien quil manquera didentificateurs en fin de liste. Dans les versions CMS et VMS, il suffit dinscrire les identificateurs sur les lignes successives du fichier; les 10 premiers caractres de chaque ligne seront utiliss. Exemple dun fichier de noms despces de kangourous: Donnes transformes Fichier de rsultats (version Mac)
LE PROGICIEL R
127
Setonix Thylog. Petrog. Wallab. Macrop.
b. c. g. v. w.
(3) Fichier de donnes transformes Aprs transformation du fichier, les donnes peuvent tre inscrites dans un nouveau fichier si lusager en fait la demande. Ce fichier, dune largeur nexcdant pas 80 caractres, est dun format appropri pour servir dentre au programme SIMIL. (4) Fichier de rsultats statistiques Dans la version Macintosh, les rsultats des calculs de VERNORM sont prsents dans un fichier contenant des informations statistiques diverses, selon les oprations qui ont t demandes. Son contenu est dcrit plus en dtail la section Contenu du fichier de rsultats. Dans les versions pour grands ordinateurs, ces mmes informations sont prsentes lcran (voir lexemple); elles pourront tre conserves dans un fichier de mmoire de console, en suivant les instructions de la p. 2. Les options du programme Ce programme offre une large gamme d'options. Les options prliminaires permettent de vrifier les donnes, de transposer la matrice de dpart ou de rendre les donnes positives; les options principales, numrotes de 0 8 dans les versions CMS et VMS, permettent de tester la normalit des donnes, de les transformer de plusieurs faons et de tracer des histogrammes. Les dtails dutilisation des diffrentes options dcrites ci-dessous se trouvent la section suivante (Les questions du programme). Voyons ces options une une. (1) Vrification du fichier d'entre Cette option permet dabord de s'assurer que le fichier est complet et qu'il comporte le bon nombre de lignes et de colonnes. Sil y a moins de donnes que dclar par lusager, ou encore si des nombres sont accols (pas despace) ou contiennent des caractres illgaux, un message derreur est mis et le programme sarrte. Cette vrification fournit galement les bornes globales des valeurs dans le tableau (minimum, maximum), ainsi que le nombre de valeurs et les bornes par ligne, toutes informations utiles pour dtecter les problmes; voir lexemple. (2) Transposition de la matrice de donnes Cette option offre la possibilit de transposer la matrice p x n de dpart en une matrice n x p, ou linverse. Ainsi on pourra, partir du mme fichier, avoir accs des analyses en mode Q et en mode R en transposant la matrice initiale. En ayant recours un Fichier d'identificateurs (voir plus haut), on peut munir les lignes du fichier transpos didentificateurs (10 caractres) au moment de la rcriture des donnes. (3) Rendre les donnes positives Cette option permet dliminer les valeurs nulles ou ngatives du fichier, par addition dune constante diffrente pour chaque colonne, ou encore dune valeur unique pour tout le fichier. Cette translation est obligatoire si on dsire utiliser la transformation de Taylor, de Box-Cox ou de BoxCox-Bartlett, car ces transformations requirent le calcul de logarithmes des donnes; elle peut galement tre utile comme prliminaire au calcul de certains indices de similarit.
128
LE PROGICIEL R
(4) OPTION 0: Transformation de Taylor Cette transformation a pour but premier d'homogniser les variances des variables de la matrice initiale. Il faut pralablement avoir rendu les donnes strictement positives pour utiliser cette transformation, car elle requiert le calcul des logarithmes des donnes. Lorsque le jeu de donnes comprend plusieurs groupes d'objets (formant les colonnes du tableau), ou encore lorsqu'on traite un groupe de descripteurs quantitatifs dimensionnellement homognes (ex.: abondances d'espces) auxquels on dsire faire subir la mme transformation, la loi des puissances de Taylor fournit une transformation gnrale qui tend rendre les variances homognes. Les donnes ont ainsi plus de chances de se conformer aux conditions requises par la statistique paramtrique, ce qui inclut la normalit. Si on trace un graphique de la variance de chacune des variables considres par rapport sa moyenne, la loi de Taylor relie les moyennes aux variances par l'quation Var(y) = a (Moy(y))b qui permet de calculer la valeur des paramtres a et b par rgression non-linaire. On peut aussi en calculer une approximation par rgression linaire (modle I ou modle II) sur la forme logarithmique de la mme quation. VERNORM offre les options suivantes pour le calcul de cette rgression: - Modle I: rgression linaire simple. - Modle II: mthode de laxe majeur rduit. - Modle II: mthode des trois groupes de Bartlett. - Modle II: mthode de laxe principal. - Rgression non-linaire. On peut galement demander au programme de calculer toutes les solutions ci-dessus. Les diffrences entre ces mthodes sont exposes la section 4.3 de Legendre & Legendre (1984a) ainsi que dans de nombreux manuels de statistique. (5) OPTION 1: Transformation de Box et Cox Cette option permet de normaliser individuellement les variables de la matrice de donnes. La mthode de Box-Cox permet de dterminer empiriquement quel est l'exposant produisant une distribution qui s'approche le plus d'une normale, dans la fonction gnrale de la transformation et y' = (y lambda - 1)/lambda y' = ln(y) si lambda 0 si lambda = 0.
La valeur de lambda est trouve en maximisant une fonction de vraisemblance, par recherche itrative (Sokal & Rohlf, 1981: 423). Toutes les valeurs de y doivent tre strictement positives car la fonction de vraisemblance requiert le calcul des logarithmes des donnes. Lorsque lambda est gal 1, la fonction serait une simple transformation linaire; en pratique, aucune transformation nest effectue dans ce cas. Si lambda est gal 0.5, la fonction produit la transformation ; lorsque lambda est gal 0, la transformation est log; enfin, lorsque lambda est gal -1, on obtient la transformation inverse. Cette mthode, trs efficace pour rduire lasymtrie des donnes, ne saurait en aucun cas rendre normale une distribution possdant plusieurs modes. (6) OPTION 2: Transformation de Box-Cox-Bartlett Cette option permet galement de normaliser les variables tout en homognisant leurs variances. Dans cette variante, on utilise la statistique 2 dhomognit des variances de Bartlett dans lquation du maximum de vraisemblance de la mthode de Box-Cox (Sokal & Rohlf, 1981: 425); elle conduit une transformation unique, pour toutes les variables du fichier, qui homognise au mieux les
LE PROGICIEL R
129
variances tout en normalisant les distributions. Comme la transformations de Taylor, cette option est utilisable dans le cas o on dsire faire subir la mme transformation tout un groupe de variables quantitatives. Toutes les valeurs de y doivent tre strictement positives car la fonction de vraisemblance requiert le calcul des logarithmes des donnes. (7) OPTION 3: Division en classes Cette option offre l'utilisateur la possibilit de diviser les variables du fichier d'entre en classes. Il peut choisir de diviser toutes les variables ou seulement certaines de celles-ci. Il peut de plus dcider dun nombre de classes pour chaque variable, ou encore il peut dcider de diviser toutes les variables en un mme nombre de classes. VERNORM proposera un nombre de classes k en fonction du nombre dobservations p, selon la rgle de Sturge: k = 1 + (3.3 log1 0p) avec arrondi de k la valeur entire la plus proche. (8) OPTION 4: Votre choix de transformations Cette option permet de choisir entre quatre familles de transformations: 1) y' = a + by 2) y' = y a 3) y' = exp(y) 4) y' = ln(a + by) Le cas chant, l'usager devra indiquer les valeurs des constantes a et b. Cette option permet de transformer toutes les variables du fichier, ou certaines seulement. Notons quil est souvent plus facile de raliser ces transformations lintrieur de chiffriers (ex. EXCEL) ou de logiciels statistiques (ex. STATVIEW) disponibles sur microordinateurs. (9) OPTION 5: Histogrammes Cette option dessine les histogrammes de frquence pour toutes les variables. Ceci permet de visualiser graphiquement les distributions des descripteurs avant de choisir comment les transformer. Dans les versions CMS et VMS, l'histogramme est reprsent latralement l'cran (voir lexemple), alors que dans la version Macintosh, il sagit dun histogramme dessin de la faon habituelle (voir le Contenu du fichier de rsultats). Le nombre de classes est dtermin par l'usager; VERNORM lui propose un nombre de classes k en fonction du nombre dobservations p, selon la rgle de Sturge: k = 1 + (3.3 log1 0p) avec arrondi de k la valeur entire la plus proche. (10) OPTION 6: Centrage et rduction Cette option permet de centrer et rduire les variables choisies par l'utilisateur (z-scores en anglais). En utilisant cette transformation aprs une normalisation des donnes, on obtient des variables normales centres-rduites. ( 11) OPTION 7: Tests de normalit Cette option calcule le test de normalit Kolmogorov-Smirnov en se rfrant la table des valeurs critiques propose par Lilliefors (1967); cette table tient compte du fait que la moyenne et la variance de la population ne sont pas connues par hypothse mais sont plutt estimes partir des donnes elles-mmes. Le test de Kolmogorov-Smirnov est prfrable au test khi-carr par exemple, car ce dernier ne prend pas en compte la nature ordonne des donnes. Le calcul est ralis pour toutes les variables du fichier d'entre. Les rsultats sont fournis pour le seuil de signification choisi par l'utilisateur; on se rappellera quun seuil de signification plus bas (1% par exemple) est plus permissif quant la distribution des donnes, car il est alors plus difficile de rejeter lhypothse de normalit.
130
LE PROGICIEL R
(12) OPTION 8: Rcriture du fichier des donnes transformes Cette option est utilise aprs transformation des variables ou transposition de la matrice, pour rcrire les donnes transformes dans un nouveau fichier; les donnes rcrites auront subi toutes les transformations ralises jusqualors. Une srie de questions sont poses par le programme pour dterminer la structure dcriture des donnes dans le fichier. Il est possible cette tape de recoder l'absence d'information, d'imposer une chelle aux donnes en fixant le minimum et le maximum et d'inclure des identificateurs de lignes, en fournissant un fichier didentificateurs. Les questions du programme Les questions prsentes par le programme lcran du Macintosh sont dcrites dans les paragraphes qui suivent. Les questions poses par les versions CMS et VMS sont essentiellement les mmes, comme on peut le vrifier avec lexemple prsent la section suivante. Pour faire dmarrer le programme, il faut cliquer sur licne, puis donner la commande Ouvrir dans le menu Fichiers. (1) Fichier dentre Le programme prsente la liste des fichiers ASCII disponibles. (2) Fichier de rsultats statistiques Le programme prsente le menu permettant de donner un nom au fichier de rsultats statistiques calculs par le programme. Cette question nest pas pose par les versions CMS et VMS car les rsultats statistiques apparaissent lcran. (3) Le fichier est-il identifi (10 premiers caractres)? [Oui, Non] On rpond Oui si les 10 premires colonnes de chaque vecteur-objet ou vecteur-descripteur contiennent des identificateurs. (4) Nombre de lignes (ou de blocs de lignes) La rponse doit tre un nombre entier positif. Dans le cas dune matrice p lignes (objets) x n colonnes (variables), on demande ici le nombre dobjets, chaque objet pouvant occuper une ou plusieurs lignes; si la matrice est transpose, il sagit du nombre de variables, chaque variable pouvant galement occuper une ou plusieurs lignes; voir la description du fichier de donnes brutes. (5) Nombre de colonnes Dans le cas dune matrice p lignes (objets) x n colonnes (variables), on inscrit le nombre de descripteurs dcrivant chaque objet du fichier, lexclusion des identificateurs de lignes si le fichier en possde. Si le fichier est transpos, on inscrit le nombre dobjets composant chaque vecteur-variable, lexclusion des identificateurs de descripteurs. (6) Valeur indiquant labsence dinformation On inscrit quelle valeur numrique a t utilise dans le fichier pour indiquer quune information est absente (souvent: -1, -9, -999, etc.). On doit rpondre cette question par une valeur numrique mme sil ny a pas de donnes manquantes dans le fichier. (7) Vrification du fichier dentre? [Oui, Non] Voir la description de cette fonction au paragraphe (1) des options. Si on rpond Oui, le programme demande des informations additionnelles quant au contenu du fichier dentre: (7.1) Fichier dentre ne contenant que des entiers? [Oui, Non] Selon la nature numrique des donnes, entires ou relles, le programme emploie des procdures diffrentes pour lire les donnes. Aprs la rponse cette question, le programme (versions Macintosh aussi bien que grands ordinateurs) liste lcran le nombre de valeurs ainsi que le minimum et le maximum de chaque ligne; voir lexemple. la fin de cette liste, le programme fournit la plus petite et la plus grande valeur du fichier; cliquez la souris pour obtenir la question suivante. (8) Transposition de la matrice de donnes? [Oui, Non] On rpond Oui si on dsire que la matrice de donnes soit transpose. Les identificateurs de lignes, qui deviennent les colonnes au cours de cette
LE PROGICIEL R
131
opration, sont perdus. Une nouvelle srie de noms, fournis dans un fichier didentificateurs, pourront tre ajouts au dbut des nouvelles lignes si lusager le dsire. (9) Rendre les donnes positives (plus particulirement pour Taylor, Box-Cox, Box-Cox-Bartlett) ? [Oui, Non] Voir la description de cette fonction au paragraphe (3) des options. Si on rpond Oui, le programme prsente lcran doptions suivant: (9.1)
Comme on le voit, lusager peut dcider dimposer la valeur minimum quil dsire (une valeur pour chaque variable, ou encore une valeur unique pour tout le fichier), ou il peut charger le programme dimposer la valeur minimum de 0.1 (sparment pour chaque variable, ou encore comme si le fichier ne contenait quune seule variable). (10) Opration sur les donnes Lcran permettant lusager de choisir lopration dsire se prsente comme suit:
Dans les versions CMS et VMS, cet cran est divis en deux questions. Dabord, Dsirez-vous effectuer une manipulation sur le fichier? (O ou N). Si on rpond Non, le programme sarrte immdiatement; si on rpond Oui, le menu des 9 options ci-dessous est prsent; voir lexemple. partir de ce point, les questions divergent selon loption choisie. Aprs le calcul de chaque option, le menu ci-dessus est prsent de nouveau. Pour arrter le cycle, il faut pousser le bouton Termin pour ce fichier; on retourne alors au menu Fichiers qui permet de traiter un autre fichier de donnes. La commande Interrompre dans le menu R: Vernorm permet de quitter le programme.
132
LE PROGICIEL R
Bouton: Taylor (Stabilisation de la variance) V le paragraphe (4) des options oir (11) Modle de Taylor: options Le programme prsente lcran suivant:
Bouton: Box-Cox (Normalisation des donnes) Voir le paragraphe (5) des options (11) Combien de variables transformer? On indique le nombre de variables devant subir la transformation de Box & Cox. Si on demande de transformer toutes les variables, aucune autre question nest pose. Dans le cas contraire, le programme demande: (11.1) Numro de la variable [1] Si par exemple la cinquime variable du fichier est la premire devant tre transforme, on rpond 5. Le programme demande ensuite: Numro de la variable [2], etc. jusqu puisement du nombre de variables transformer. Bouton: Box-Cox-Bartlett (Normalisation et Stabilisation) Paragraphe (6) des options Aucune question additionnelle nest pose par le programme. Une transformation unique est calcule pour lensemble des variables. Cette transformation nest pas la mme que celle qui aurait t obtenue si on avait demand la transformation de Box-Cox ci-dessus (paragraphe 5 des options) aprs avoir dclar tout le fichier comme formant une seule variable. Bouton: Division en classes Voir le paragraphe (7) des options (11) Combien de variables transformer? On indique le nombre de variables devant subir la division en classes. Si on nordonne pas de transformer toutes les variables, le programme demande: (11.1) Numro de la variable [1] Si par exemple la cinquime variable du fichier est la premire devant tre divise en classes, on rpond 5. Le programme demande ensuite: Numro de la variable [2], etc. jusqu puisement du nombre de variables diviser. (12) Mme nombre de classes pour chacune des variables? [Oui, Non] On rpond Non si on dsire diviser chaque variable en un nombre diffrent de classes. (12.1) Si on a rpondu Oui en (12), le programme pose la question suivante: Nombre de classes? (Nombre de Sturge = k) On indique le nombre de classes dsir. (12.2) Si on a rpondu Non en (12), le programme pose la question suivante: Nombre de classes de la variable [1]? (Nombre de Sturge = k) On indique le nombre de classes dsir pour la premire variable. Le programme rpte la question pour les autres variables identifies la question (11.1).
LE PROGICIEL R
133
Bouton: Votre choix de transformations Voir le paragraphe (8) des options (11) Transformations Le programme prsente lcran suivant:
(12) Valeur de a et/ou Valeur de b Selon la rponse en (11), le programme demande la valeur des paramtres de la transformation dsire. Pour la transformation classique des abondances despces, y = ln(y + 1), par exemple, il suffit de presser le dernier bouton et de donner les valeurs suivantes pour les paramtres: a = 1, b = 1. (13) Combien de variables transformer? On indique le nombre de variables devant subir la transformation choisie. Si on nordonne pas de transformer toutes les variables, le programme demande: (13.1) Numro de la variable [1] Si par exemple la cinquime variable du fichier est la premire devant tre transforme, on rpond 5. Le programme demande ensuite: Numro de la variable [2], etc. jusqu puisement du nombre de variables transformer. Bouton: Histogrammes Voir le paragraphe (9) des options (11) Nombre de classes? (Nombre de Sturge = k) On indique le nombre de classes dsir. Les histogrammes apparaissent lcran; il faut terminer chaque graphique pour obtenir le suivant. Les dessins peuvent galement tre imprims ou conservs sur un fichier de type PICT pour utilisation future. Bouton: Variables centres et rduites Voir le paragraphe (10) des options (11) Combien de variables transformer? On indique le nombre de variables devant subir cette transformation. Si on nordonne pas de transformer toutes les variables, le programme demande: (11.1) Numro de la variable [1] Si par exemple la cinquime variable du fichier est la premire devant tre transforme, on rpond 5. Le programme demande ensuite: Numro de la variable [2], etc. jusqu puisement du nombre de variables transformer. Bouton: Tests de normalit Voir le paragraphe (11) des options (11) Tests de normalit de Kolmogorov-Smirnov-Lilliefors. Seuil de signification: [1%, 5%, 10%, 15%, 20%] On indique le niveau de signification dsir en appuyant sur le bouton correspondant.
134
LE PROGICIEL R
Bouton: Sauver le fichier Voir le paragraphe (12) des options (11) Nombre de caractres dans lesquels les nombres seront crits On indique, en nombre de caractres, la largeur du champ qui doit tre consacr chaque variable. Voir lexemple. (12) Nombre de chiffres aprs le point On indique le nombre de dcimales qui seront retenues pour chaque variable. Voir lexemple. (13) Remplacement de labsence dinformation par On indique le code de labsence dinformation dans le fichier transform. Ce code peut tre le mme que dans le fichier dentre, ou non. On doit fournir une valeur numrique mme sil ny a pas de donnes manquantes dans le fichier. (14) Dsirez-vous fixer les min et max du fichier de sortie? [Oui, Non] On rpond Non si on ne dsire pas imposer une chelle aux donnes en fixant leur minimum et leur maximum. Si on rpond plutt Oui, le programme pose les questions suivantes: (14.1) Valeur minimum La valeur fournie sert de borne minimum pour lensemble du fichier. (14.2) Valeur maximum La valeur fournie sert de borne maximum pour lensemble du fichier. (15) Existe-t-il un fichier didentificateurs? [Oui, Non] On rpond Oui si on a prpar un fichier didentificateurs de lignes; le programme prsente alors le menu des fichiers ASCII disponibles. Les identificateurs seront transcrits dans les 10 premires colonnes de chaque ligne (ou bloc de lignes). Exemple V oici un exemple dutilisation du programme VERNORM sur grands ordinateurs. Le fichier de donnes contient 60 objets et 3 descripteurs. Mme sil ny a pas dabsence dinformation dans ce fichier, on doit quand mme fournir une rponse cette question (les rponses de lusager sont en soulign gras). On demande dabord au programme de calculer des tests de normalit de KolmogorovSmirnov sur les donnes brutes et de tracer des histogrammes; on demande ensuite de rechercher la meilleure transformation normalisatrice suivant Box & Cox, puis de raliser nouveau des tests de normalit et de tracer des histogrammes pour les variables transformes. Enfin, on demande de rcrire les donnes dans un format de 10 caractres avec 5 dcimales (format Fortran 3F10.5). Le dialogue, ralis sous CMS, est reproduit ci-dessous. Le fichier trait est le mme que dans lexemple du Contenu du fichier de rsultats ci-dessous, o il est analys sur Macintosh.
Vernorm Quel est le nom du FICHIER DE DONNEES? (Par defaut: "... data a") 60x3 data a Quel doit etre le nom du fichier de DONNEES TRANSFORMEES? (Par defaut: "... data a") 60x3 transfor a Quel est le nom du fichier contenant les NOMS DES OBJETS, s'il y a lieu? (Par defaut: "TITRES data a") Execution begins... P R O G R A M M E V E R N O R M pour VERifier et NORMaliser les tableaux de donnees VERSION 3.0b AUTEUR: A. VAUDOR.
LE PROGICIEL R
135
LES 10 PREMIERES COLONNES CONTIENNENT-ELLES LES NOMS DES OBJETS? (o ou n) n NOMBRE D'OBJETS (LIGNES)? 60 NOMBRE DE DESCRIPTEURS (COLONNES)? 3 CODE DESIGNANT L'ABSENCE D'INFORMATION? -999 DESIREZ-VOUS EFFECTUER LA VERIFICATION DU FICHIER DE DONNEES? o S'AGIT-IL D'UN FICHIER DE DONNEES NE CONTENANT QUE DES ENTIERS? n LIGNE N. DE VALEURS MIN MAX 1 3 3.08 48.70 2 3 2.84 48.20 3 3 3.12 49.00 4 3 3.37 48.40 [etc.] 59 3 2.90 42.20 60 3 0.86 42.20 PLUS PETITE VALEUR DANS LE FICHIER: PLUS GRANDE VALEUR DANS LE FICHIER: 0.23 50.10
DESIREZ-VOUS TRANSPOSER LE FICHIER DE DONNEES? n DESIREZ-VOUS RENDRE TOUTES LES DONNEES POSITIVES? (CECI EST NECESSAIRE POUR LES TRANF. DE TAYLOR, BOX-COX ET BOX-COX-BARTLETT) n DESIREZ-VOUS EFFECTUER UNE MANIPULATION SUR LE FICHIER? (O ou N)? o OPTIONS 0: TAYLOR (homogeneise les variances) 1: BOX-COX (normalise les donnees) 2: BOX-COX-BARTLETT (normalise les donnees ET homogeneise les variances) 3: DIVISION EN CLASSES 4: VOTRE CHOIX DE TRANSFORMATION 5: HISTOGRAMMES 6: VARIABLES CENTREES REDUITES) 7: TESTS DE NORMALITE Kolmogorov-Smirnov-Lilliefors 8: REECRITURE DU FICHIER DE DONNEES 7 SEUIL DE SIGNIFICATION DESIRE: INSCRIVEZ 1 = 1 %, 2 = 5 %, 3 = 10 %, 4 = 15 %, 5 = 20 % 2 TEST DE KOLMOGOROV-SMIRNOV (TABLE DE LILLIEFORS ) HYPOTHESE : R=REJETEE, NR=NON REJETEE, NC=NON CALCULABLE VARIABLE : 1 2 3 DISTANCE : 0.1667 0.2629 0.0821 VAL. CRIT.: 0.1144 0.1144 0.1144 HYPOTHESE : R R NR
136
LE PROGICIEL R
DESIREZ-VOUS EFFECTUER UNE MANIPULATION SUR LE FICHIER? (O ou N)? o OPTIONS 0: TAYLOR (homogeneise les variances) 1: BOX-COX (normalise les donnees) 2: BOX-COX-BARTLETT (normalise les donnees ET homogeneise les variances) 3: DIVISION EN CLASSES 4: VOTRE CHOIX DE TRANSFORMATION 5: HISTOGRAMMES 6: VARIABLES CENTREES REDUITES) 7: TESTS DE NORMALITE Kolmogorov-Smirnov-Lilliefors 8: REECRITURE DU FICHIER DE DONNEES 5 HISTOGRAMMES NOMBRE DE CLASSES? (LA REGLE DE STURGE SUGGERE 7 CLASSES; MAX = 60 CLASSES) 7 VARIABLE : 1 |************* |************************* |************ |**** |** |*** |* --------------------------------------------------------------------------25 VARIABLE : 2 |** |************** |**** | |* |******************** |******************* --------------------------------------------------------------------------20 VARIABLE : 3 |*** |***** |************* |******************* |**************** |** |** --------------------------------------------------------------------------19 DESIREZ-VOUS EFFECTUER UNE MANIPULATION SUR LE FICHIER? (O ou N)? o
LE PROGICIEL R
137
OPTIONS 0: TAYLOR (homogeneise les variances) 1: BOX-COX (normalise les donnees) 2: BOX-COX-BARTLETT (normalise les donnees ET homogeneise les variances) 3: DIVISION EN CLASSES 4: VOTRE CHOIX DE TRANSFORMATION 5: HISTOGRAMMES 6: VARIABLES CENTREES REDUITES) 7: TESTS DE NORMALITE Kolmogorov-Smirnov-Lilliefors 8: REECRITURE DU FICHIER DE DONNEES 1 COMBIEN DE VARIABLES VOULEZ-VOUS TRANSFORMER ? 3 TRANSFORMATION DE BOX ET COX VARIABLE 1 LIMITE DE L'I.C. DE LAMBDA LAMBDA LIMITE DE L'I.C. DE LAMBDA VARIABLE 2 LIMITE DE L'I.C. DE LAMBDA LAMBDA LIMITE DE L'I.C. DE LAMBDA VARIABLE 3 LIMITE DE L'I.C. DE LAMBDA LAMBDA LIMITE DE L'I.C. DE LAMBDA
-6.31388 -3.96688 -1.78488 3.62280 8.77780 14.08280 0.59872 1.03672 1.52372
DESIREZ-VOUS EFFECTUER UNE MANIPULATION SUR LE FICHIER? (O ou N)? o OPTIONS 0: TAYLOR (homogeneise les variances) 1: BOX-COX (normalise les donnees) 2: BOX-COX-BARTLETT (normalise les donnees ET homogeneise les variances) 3: DIVISION EN CLASSES 4: VOTRE CHOIX DE TRANSFORMATION 5: HISTOGRAMMES 6: VARIABLES CENTREES REDUITES) 7: TESTS DE NORMALITE Kolmogorov-Smirnov-Lilliefors 8: REECRITURE DU FICHIER DE DONNEES 8 NOMBRE D'ESPACES DANS LESQUELS LES NOMBRES SERONT ECRITS? 10 COMBIEN DE DECIMALES APRES LE POINT? 5 CODE DESIRE POUR LES VALEURS ABSENTES: -999 DESIREZ-VOUS IMPOSER UNE ECHELLE AUX VALEURS EN FIXANT VOUS-MEME LE MINIMUM ET LE MAXIMUM? n AVEZ-VOUS PREPARE UN FICHIER DE NOMS D'OBJETS? (Fichier "TITRE")? n
138
LE PROGICIEL R
TRANSFORMATIONS EFFECTUEES SUR LE FICHIER DE SORTIE: 0=pas de transformation, A=Box-Cox, B=division en classes C=votre choix de transformation, D=var. centree reduite AA0 [Explication: CHAMP INSUFFISANT; NOUVEAU FORMAT: 3F22.5 Fin du programme.
section suivante]
[Explication: section suivante]
Contenu du fichier de rsultats Le fichier de rsultats statistiques produit par la version Macintosh contient diffrentes informations, selon les options du programme qui ont t choisies. Voici un exemple de contenu dun tel fichier; les commentaires sont intercals parmi les rsultats. Ces mmes informations apparaissent lcran dans les versions pour grands ordinateurs; voir ci-dessus. (1) Comme dans lexemple de la section prcdente (mmes donnes), on a dabord demand de calculer des tests de normalit de Kolmogorov-Smirnov, au seuil de signification de 5%. Les histogrammes correspondants, qui taient prsents lcran, ont t repiqus sur un fichier PICT et recopis ci-dessous; la frquence des diffrentes colonnes est indique gauche, alors que le numro de la variable est inscrit au bas de chaque graphique (texte trop petit pour tre lu sur ces copies fortement rduites). Le test rejette lhypothse de normalit pour les variables 1 et 2. Les histogrammes en montrent les raisons: la distribution de la variable 1 est fortement asymtrique vers la droite et devrait tre normalisable; la variable 2 prsente une distribution bimodale qui nest pas normalisable par une transformation telle que celles proposes dans ce programme; enfin, la variable 3 est dj reconnue comme normale par le test K-S et prsente une distribution unimodale et symtrique.
Tests de Kolmogorov-Smirnov-Lilliefors Hypothses: r=Rejete, Nr=non rejete, Nc=non calculable Variable: 1 2 3 Distance: 0.1667 0.2629 0.0821 Val.Crit: 0.1144 0.1144 0.1144 Hypothse : R R Nr
25 20 19 19 16 14 13
13 12
5 4 3 2 1 Variable 1 4 2 1 Variable 2 3 2 Variable 3
Variable 1
Variable 2
Variable 3
(2) On demande ensuite au programme de calculer la meilleure transformation normalisatrice suivant Box & Cox. Pour chaque variable, le programme prsente la valeur de maximum de vraisemblance du paramtre lambda, accompagne des bornes de lintervalle de confiance de 95% (limite lambda). Pour la premire variable, la valeur -3.96688 sera employe comme exposant dans la transformation de Box-Cox; pour la variable 2, cest la valeur 8.77780 qui sera employe, puisque la valeur 1 ne se trouve pas lintrieur de lintervalle de confiance du paramtre. Quant la troisime variable, quoique la meilleure valeur du paramtre soit 1.03672, aucune transformation ne sera faite puisque la valeur 1 (pas de transformation) se trouve lintrieur de lintervalle de confiance de 95%.
LE PROGICIEL R
139
Transformations de Box et Cox Variable 1 limite lambda lambda limite lambda Variable 2 limite lambda lambda limite lambda Variable 3 limite lambda lambda limite lambda
-6.31388 -3.96688 -1.78488 3.62280 8.77780 14.08280 0.59872 1.03672 1.52372
(3) De nouveaux tests de normalit de Kolmogorov-Smirnov montrent que la transformation de BoxCox a russi normaliser convenablement la premire variable, ce qui est confirm par lexamen de lhistogramme. Pour la seconde variable, la transformation na pas russi rduire la bimodalit des donnes. Quant la troisime variable, on peut vrifier que le test de K-S ainsi que lhistogramme sont identiques ceux affichs ci-dessus, puisque aucune transformation na t ralise.
Tests de Kolmogorov-Smirnov-Lilliefors Hypothses: r=Rejete, Nr=non rejete, Nc=non calculable Variable: 1 2 3 Distance: 0.0700 0.2055 0.0821 Val.Crit: 0.1144 0.1144 0.1144 Hypothse : Nr R Nr
18 17 19 16 12 10 9 13
12 9 7 6
4
4 3
5 3 2 Variable 3
Variable 1
Variable 2
Variable 1
Variable 2
Variable 3
(4) On demande au programme de rcrire les donnes transformes dans un nouveau fichier. VERNORM fournit les prcisions suivantes sur la ligne prcde dune flche (): les deux premires variables ont subi une transformation de Box-Cox (code a), alors que la troisime variable na subi aucune transformation (code 0).
Transformations sur le fichier de sortie 0=pas de transformation, a=Box-Cox, b=division en classes de transformations, d=centrage & rduction aa0 c=votre choix
(5) On a demand de rcrire les donnes dans 10 espaces chacune, avec 5 dcimales (format Fortran 3F10.5). Or la transformation calcule par la mthode de Box-Cox pour la seconde variable (bimodale) gnre des chiffres gigantesques, qui ne peuvent pas tre rcrits dans 10 caractres. Le programme prend donc la libert dimposer le format rgulier le plus conomique capable
140
LE PROGICIEL R
daccommoder les donnes; ce format requiert 21 caractres par variable, ce qui inclut au moins un espace pour viter que les nombres ne se touchent (format Fortran 3F21.5).
Champ insuffisant, nouveau format: 3f21.5
LE PROGICIEL R
141
RFRENCES
Anderberg, M. R. 1973. Cluster analysis for applications. Academic Press, New York. xiii + 35p. Blanc, F., P. Chardy, A. Laurec & J.-P. Reys. 1976. Choix des mtriques qualitatives en analyse dinertie. Implication en cologie marine benthique. Mar. Biol. (Berl.) 35: 49-67. Burgman, M. 1987. An analysis of the distribution of plants on organic outcrops in southern Western Australia using Mantel tests. Vegetatio 71: 79-86. Cailliez, F. & J.-P. Pags. 1976. Introduction lanalyse des donnes. Socit de Mathmatiques appliques et de Sciences humaines, Paris. xxii + 616 p. Cheetham, A. H. & J. E. Hazel. 1969. Binary (presence-absence) similarity coefficients. J. Paleontol. 43: 1130-1136. Cliff, A. D. & J. K. Ord. 1981. Spatial processes: Models and applications. Pion Ltd., London. Clifford, H. T. & W. Stephenson. 1975. An introduction to numerical classification. Academic Press, New York. xii + 229 p. Cooper, D. W. 1968. The significance level in multiple tests made simultaneously. Heredity 23: 614617. Daget, J. 1976. Les modles mathmatiques en cologie. Collection dcologie, No 8. Masson, Paris. viii + 172 p. Dirichlet, G. L. 1850. ber die Reduction der positiven quadratischen Formen mit drei unbestimmten ganzen Zahlen. Journal fr die reine und angewandte Mathematik 40: 209-234. Dow, M. M. & J. M. Cheverud. 1985. Comparison of distance matrices in studies of population structure and genetic microdifferenciation: quadratic assignment. Am. J. Phys. Anthropol. 68: 367-373. Edgington, E. S. 1987. Randomization tests, 2nd ed. Marcel Dekker Inc., New York. Estabrook, G. F. & D. J. Rogers. 1966. A general method of taxonomic description for a computed similarity measure. BioScience 16: 789-793. Everitt, B. 1980. Cluster analysis, 2nd edition. Halsted Press, John Wiley & Sons, New York. Frontier, S. 1976. tude de la dcroissance des valeurs propres dans une analyse en composantes principales: comparaison avec le modle du bton bris. J. exp. mar. Biol. Ecol. 25: 67-75. Gabriel, K. R. & R. R. Sokal. 1969. A new statistical approach to geographic variation analysis. Syst. Zool. 18: 259-278. Galzin, R. & P. Legendre. 1987. The fish communities of a coral reef transect. Pacific Science 41: 158-165. Gower, J. C. 1966. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika 53: 325-338.
142
LE PROGICIEL R
Gower, J. C. 1982. Euclidean distance geometry. Math. Scientist 7: 1-14. Gower, J. C. 1983. Comparing classifications. Pp. 137-155 in: Felsenstein, J. [ed.] Numerical taxonomy. NATO ASI Series, Vol. G 1. Springer-Verlag, Berlin. x + 644 p. Gower, J. C. 1985. Measures of similarity, dissimilarity, and distance. Pp. 397-405 in: Kotz, S. & N. L. Johnson [eds.] Encyclopedia of Statistical Sciences, Vol. 5. Wiley, New York. Gower, J. C. & P. Legendre. 1986. Metric and Euclidean properties of dissimilarity coefficients. Journal of Classification 3: 5-48. Harris, C. W. & H. F. Kaiser. 1964. Oblique factor analytic solutions by orthogonal transformations. Psychometrika 29: 347-362. Hope, A. C. A. 1968. A simplified Monte Carlo significance test procedure. J. Roy. Stat. Soc. Ser. B 30: 582-598. Hubert, L. J. 1985. Combinatorial data analysis: association and partial association. Psychometrika 50: 449-467. Hubert, L. J., R. G. Golledge & C. M. Constanzo. 1982. Analysis of variance procedures based on a proximity measure between subjects. Psychological Bull. 91: 424-430. Hudon, C. & G. Lamarche. 1989. Niche segregation between American lobster Homarus americanus and rock crab Cancer irroratus. Mar. Ecol. Prog. Ser. 52: 155-168. Isaaks, E. H. & R. M. Srivastava. 1989. An introduction to applied geostatistics. Oxford University Press, New York. xix + 561 p. Jackson, D. A. & K. M. Somers. 1988. Are probability estimates from the permutation model of Mantel's test stable? Can. J. Zool. 67: 766-769. Jain, A. K. & R. C. Dubes. 1988. Algorithms for clustering data. Prentice Hall, Englewood Cliffs, New Jersey. xiv + 320 p. Kaiser, H. F. 1958. The varimax criterion for analytic rotation in factor analysis. Psychometrika 23: 187-200. Lance, G. N. & W. T. Williams. 1966a. A generalized sorting strategy for computer classifications. Nature (Lond.) 212: 218. Lance, G. N. & W. T. Williams. 1966b. Computer programs for hierarchical polythetic classification (similarity analyses). Computer Journal 9: 60-64. Lance, G. N. & W. T. Williams. 1967. A generalized theory of classificatory sorting strategies. I. Hierarchical systems. Computer Journal 9: 373-380. Legendre, L., M. Frchette & P. Legendre. 1981. The contingency periodogram: A method of identifying rhythms in series of nonmetric ecological data. J. Ecol. 69: 965-979. Legendre, L. & P. Legendre. 1984a. Ecologie numrique, 2ime dition. Tome 1: Le traitement multiple des donnes cologiques. Tome 2: La structure des donnes cologiques. Collection d'cologie, 12 et 13. Masson, Paris et les Presses de l'Universit du Qubec. xv + 260 p., viii + 335 p.
LE PROGICIEL R
143
Legendre, P. 1987. Constrained clustering. Pp. 289-307 in: P. Legendre & L. Legendre [eds.] Developments in numerical ecology. NATO ASI Series, Vol. G 14. Springer-Verlag, Berlin. xi + 585 p. Legendre, P. & A. Chodorowski. 1977. A generalization of Jaccards association coefficient for Q analysis of multi-state ecological data matrices. Ekol. Pol. 25: 297-308. Legendre, P., S. Dallot & L. Legendre. 1985. Succession of species within a community: chronological clustering, with applications to marine and freshwater zooplankton. Amer. Nat. 125: 257-288. Legendre, P. & M.-J. Fortin. 1989. Spatial pattern and ecological analysis. Vegetatio 80: 107-138. Legendre, P. & V. Legendre. 1984b. Postglacial dispersal of freshwater fishes in the Qubec peninsula. Can J. Fish. Aquat. Sci. 41: 1781-1802. Legendre, P., N. L. Oden, R. R. Sokal, A. Vaudor & J. Kim. 1990. Approximate analysis of variance of spatially autocorrelated regional data. J. Class. 7: 53-75. Legendre, P. & M. Troussellier. 1988. Aquatic heterotrophic bacteria: Modeling in the presence of spatial autocorrelation. Limnol. Oceanogr. 33: 1055-1067. MacQueen, J. 1967. Some methods for classification and analysis of multivariate observations. Pp. 281-297 in: L. M. Le Cam & J. Neyman [eds.] Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, Vol. 1. University of California Press, Berkeley. xvii + 666 p. Mantel, N. 1967. The detection of disease clustering and a generalized regression approach. Cancer Res. 27: 209-220. McCune, B. & T. F. H. Allen. 1985. Will similar forest develop on similar sites? Can. J. Bot. 63: 367-376. Mielke, P. W. 1978. Clarification and appropriate inferences for Mantel and Valand's nonparametric multivariate analysis technique. Biometrics 34: 277-282. Miles, R. E. 1970. On the homogeneous planar Poisson point process. Math. Biosci. 6: 85-127. Miller Jr., R. G. 1977. Developments in multiple comparisons. J. Amer. Stat. Ass. 72: 779-788. Oden, N. L. 1984. Assessing the significance of spatial correlograms. Geogr. Anal. 16: 1-16. Oden, N. L. & R. R. Sokal. 1986. Directional autocorrelation: An extension of spatial correlograms to two dimensions. Syst. Zool. 35: 608-617. Oden, N. L. & R. R. Sokal. Investigation of 3-matrix quadratic assignment tests. (Soumis). Orlci, L. 1978. Multivariate analysis in vegetation research. 2nd ed. Dr. W. Junk B. V., The Hague. ix + 451 p. Ripley, B. D. 1981. Spatial statistics. John Wiley & Sons, New York. Rohlf, F. J., J. Kishpaugh & D. Kirk. 1971. NT-SYS. Numerical taxonomy system of multivariate statistical programs. Tech. Rep. State University of New York at Stony Brook, New York.
144
LE PROGICIEL R
SAS. 1985. SAS user's guide: statistics. SAS Institute Inc., Cary, North Carolina. Smouse, P. E., J. C. Long & R. R. Sokal. 1986. Multiple regression and correlation extensions of the Mantel test of matrix correspondence. Syst. Zool. 35: 627-632. Sneath, P. H. A. 1966. A comparison of different clustering methods as applied to randomly-spaced points. Classification Society Bulletin 1: 2-18. Sneath, P. H. A. & R. R. Sokal. 1973. Numerical taxonomy The principles and practice of numerical classification. W. H. Freeman, San Francisco. xv + 573 p. Sokal, R. R. 1986. Spatial data analysis and historical processes. Pp. 29-43 in: Diday, E. et al. [eds.] Data analysis and informatics, IV. Proc. Fourth Int. Symp. Data Anal. Informatics, Versailles, France, 1985. North-Holland, Amsterdam. Sokal, R. R., I. A. Lengyel, P. A. Derish, M. C. Wooten & N. L. Oden. 1987. Spatial autocorrelation of ABO serotypes in mediaeval cemeteries as an indicator of ethnic and familial structure. J. Archaeol. Sci. 14: 615-633. Sokal, R. R. & N. L. Oden. 1978. Spatial autocorrelation in biology. 1. Methodology. Biol. J. Linnean Soc. 10: 199-228. Sokal, R. R. & F. J. Rohlf. 1962. The comparison of dendrograms by objective methods. Taxon 11: 33-40. Sokal, R. R. & F. J. Rohlf. 1981. Biometry, 2nd ed. W.H. Freeman, San Francisco. xviii + 859 p. Sokal, R. R. & P. H. A. Sneath. 1963. Principles of numerical taxonomy. W. H. Freeman, San Francisco. xvi + 359 p. Spth, H. 1980. Cluster analysis algorithms. Ellis Horwood, Chichester. Thiessen, A. W. 1911 Precipitation averages for large areas. Monthly Weather Review 39: 10821084. Upton, G. & B. Fingleton. 1985. Spatial data analysis by example. Vol. 1: Point pattern and quantitative data. John Wiley & Sons, Chichester. xi + 410 p. V orono, G. F. 1909. Recherches sur les paralllodres primitifs. Journal fr die reine und angewandte Mathematik 136: 67-179. Ward, J. H. Jr. 1963. Hierarchical grouping to optimize an objective function. J. Amer. Stat. Ass. 58: 236-244. Watson, D. F. 1981. Computing the n-dimensional Delaunay tesselation with application to Voronoi polygones. Computer J. 24: 167-172. Williams, W. T. & M. B. Dale. 1965. Fundamental problems in numerical taxonomy. Adv. bot. Res. 2: 35-68.

Tout Sur Spatial Correlation

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tout Sur Spatial Correlation

Transféré par

Droits d'auteur :

Formats disponibles

Le progiciel R

Analyse multidimensionnelle, analyse spatiale

Pierre Legendre / Alain Vaudor

Pierre Legendre et Alain Vaudor

Universit de Montral, septembre 1991 Mise jour:

Table des Matires

ACCES AUX PROGRAMMES

peut devenir peut devenir

Prparation des donnes

- convertit mat. type SIMIL: en mat. bin. type NT-SYS

Fichier 4 (ASCII) - matrice de similarits/ distances/corrlations

Fichier 3 (binaire) - Matrice de ressemblance Probab (binaire) - Matrice de probabilits

Analyse de donnes sans contrainte INTERLNK

Groupement sous contrainte CHRONO

Analyse spatiale MANTEL

Exemple: fichier SIMILOT EXEC /* Ces lignes sont des commentaires */

Prparation des donnes

Fichier 3 (binaire) - Matrice de ressemblance Probab (binaire) - Matrice de probabilits

Analyse de donnes sans contrainte GROUPEMENTS

Groupement sous contrainte CHRONO

Analyse spatiale MANTEL

DESCRIPTION DES PROGRAMMES AUTOCORRLATIONMacintosh ou AUTOCORCMS/VMS

Fich. ASCII de distances

Matrice bin. de distances de type SIMIL

-2.406 -0.082 -0.056

0.008 0.495 0.478 732

Fichier des liens

Liste des valeurs (Z) AUTOCOR Matrice de distances

Fichier des rsultats Liste des classes de distances

Liste des valeurs (Z) AUTOCOR Matrice de distances

Liste des liens

Fichier des rsultats

Matrice de similarits (type SIMIL) (1) Le fichier d'entre

GROUPEMENT Connexit: 0.50000

CHRONO (avec contrainte) Fichier/s17

Fichier de similarits Probabilit: 0.20000

0.5 Connexite: (2)

cran est de 80 ou 132 caractres

H: 0.66667 H: 0.66667 H: 0.66667 H: 1.00000 H: 0.66667 H: 0.40000

AABBBB*BBCC-DDDDDDEEE--AABBBB*BBCC-DDDDDDEEEFFAABBBB*BBCC-DDDDDDEEEFFF AABBBB*BBCC-DDDDDDEEEEEE TEMPS ECOULE: 0.7143 SEC

0.40000 H: 0.26667 0.30000 0.28571 H: 0.66667 0.26667 H: 0.30000

EXPANSION DES GROUPES [ 1 .. [ 1 .. [etc.] [ 1 .. [ 1 .. [ 1 .. 2] 3] 9] 10] 11]

0.66667 1.00000 0.44444 0.30000

Le premier groupe [1 .. 2] sert de point de dpart lexpansion

24] 24] 24] 24]

0.85714 1.00000 1.00000

TEMPS ECOULE: 1.6521 SEC

Identification du fichier dentre

Liste des liens

135 182 154

123 170 148

144 163 150

140 136 185

224 231 216 196 218

213 245 242 183 225

227 220 231 196 252

201 198 232 228 206

Carte no DE DNL SCE v 1

2 423.219 5 121.579 383.449 5 55.596 592.866 9 236.485

(16) Probabilites des statistiques de SCE:

[Les gaux incluent la carte 0, qui est la vraie carte]

Cette triangulation compte les 19 liens suivants:

Matrice de similarits (1) Fichier d'entre

Exemple (Les rponses de l'utilisateur sont en caractres gras)

AABBBBBBCC-DDDDDDEEE--AABBBBBBCC-DDDDDDEEEFFAABBBBBBCC-DDDDDDEEEFFF AABBBBBBCC-DDDDDDEEEEEE TEMPS ECOULE: 0.7143 SEC

Calcul: r r stand. Hubert 0.96420 PP EG PG