Vous êtes sur la page 1sur 90

1

Lanalyse des donnes par les graphes de similitude


Par Pierre Vergs, directeur de recherche au CNRS et Boumedienne Bouriche, matre de confrence lIUT de Gap

Juin 2001

Droits de reproduction et de diffusion rservs Sciences Humaines

A Claude FLAMENT linventeur de cette mthode et toujours linitiateur de son volution

PROLOGUE Origine Les annes soixante ont vu fleurir les interfaces entre sciences humaines et mathmatiques. Dans cette effervescence Claude Flament avait le souci dassocier psychologie sociale et formalisation. Il explorait la thorie des graphes pour expliquer les biais de communication. Puis, associant sa pratique des analyses statistiques et les possibilits ouvertes par les mathmatiques du discret, il invente lAnalyse de Similitude. Il fallait un passeur pour que lanalyse des donnes ne se rduise pas au labyrinthe de lanalyse vectorielle. Cette mthode se dveloppe avec la possibilit dutiliser les ordinateurs. Le premier programme fut crit en cobol (langage bien peu adapt !), puis en fortran pour les grosses machines IBM du CNRS, un dtour par les premiers Apple1, enfin les programmes suivirent la puissance croissante des PC et du Turbo Pascal. Paralllement la mthode se dveloppait, le trio des annes soixante-dix2 visait une formalisation mathmatique de plus en plus sophistique. Ils dcouvraient au passage larbre maximum, les cliques et le filtrant des cliques Ils exploraient la possibilit dutiliser la thorie des hyper-graphes. La pratique a aussi son rle dans lvolution de la mthode. Utilise par de nombreux chercheurs, on dcouvrait les problmes que posaient des donnes de formes bien diffrentes et des questionnaires toujours en volution. Lanalyse de similitude est reste fidle ses origines et sest complexifie. Le livre qui aurait du tre crit en 19723 serait bien diffrent du livre de lan 2000. Ce dernier profite de tous ces moments o il a fallu remettre en cause les intuitions initiales, ou plus exactement les rapports entre proprits mathmatiques et interprtations par les sciences sociales. On avait fait, dans les annes soixante-dix, un peu trop confiance aux mathmatiques (comme dautres ont fait trop confiance aux statistiques) pour dicter linterprtation de lanalyste alors quil ne fallait que la guider, ou plus exactement sinterroger sur la traduction entre proprits mathmatiques et proprits du social.

1 2 3

Sylvie Soukup et Alain Gunoche en furent les artisans. Claude Flament, Alain Degenne, Pierre Vergs Il en existe un manuscrit.

Droits de reproduction et de diffusion rservs Sciences Humaines

Une analyse et un analyste. Cette mthode est une mthode gnrale danalyse de donnes, elle est alternative ou complmentaire des classiques analyses factorielles ou de classification. Mais elle est aussi plus particulirement adapte la thorie des reprsentations sociales, ce qui ntonnera personne quand on sait le rle que joue son inventeur dans le champ des reprsentations sociales. Lanalyse de similitude a la grande qualit de ne pas liminer lanalyste des diffrentes phases de lanalyse. A aucun moment il lui est propos les rsultats dune boite noire. Au contraire lanalyse de similitude demande lanalyste de prendre des dcisions chaque tape de la dmarche. Elle propose des descriptions qui doivent tre valides et peuvent mme tre quelque fois contradictoires premire vue. Elle pousse alors lanalyste trouver son interprtation au croisement de deux informations diffrentes. Cet ouvrage montre comment chaque instant la dcision de lanalyste est rclame. Aussi les diffrents chapitres de ce livre vont essayer dclairer cette dcision. Le premier chapitre pose la question de la mesure des similitudes entre les variables : la multiplicit des indices de similitude doit tre explique et explore. Le second chapitre prsente les diffrents outils de la thorie des graphes permettant de traiter une matrice de similitude associe un graphe. Ici on fait un dtour par une formalisation mathmatique. Celle-ci nest pas trs complexe mme si on ny est pas trs habitu. Elle propose une analyse combinatoire des donnes o les seules entits sont des points et des traits . Le troisime chapitre montre les proprits formelles que lanalyse de similitude peut mettre jour. Le quatrime prsente sur un exemple la dmarche, pas pas, de lanalyste et les dcisions quil doit prendre. Ici se situe lintrt de lanalyse de similitude : lanalyste est matre des dcisions qui vont orienter le traitement des donnes, comme il sera matre plus tard de leur interprtation. Le cinquime chapitre essaie de mettre en garde contre les fausses interprtations, les ambiguts quil faut lever et contre la croyance aveugle en la qualit des donnes. On se servira tout au long de ce livre dexemples tirs des recherches de ces dernires annes ; que les auteurs en soient ici remercis. Ils ont utilis des programmes informatiques sous Windows.

Droits de reproduction et de diffusion rservs Sciences Humaines

CHAPITRE 1. COMMENT SIMPLIFIER UNE MULTITUDE DINFORMATIONS POUR METTRE DE LORDRE DANS LES DONNEES QUE VOUS VOULEZ TRAITER ?

1.1 DE LA RESEMBLANCE A LA SIMILITUDE. Le point de dpart de votre perplexit est le tableau des donnes. Il se prsente le plus souvent sous la forme dun tableau [X x Y], ou X reprsente un ensemble de variables (en colonne) et Y un ensemble de sujets (ou dentits collectives, en ligne) sur lequel les variables prennent leurs valeurs4.
Sujets Item A Item B Item C Item D Item E Item F

01 0 0 02 0 1 03 1 1 04 1 0 05 0 1 06 0 1 07 0 0 08 0 1 09 1 0 10 0 0 11 0 0 12 1 1 13 0 0 14 0 0 Tableau 1 : tableau choisir deux items de interrog 14 sujets)


Items

0 1 1 0 0 1 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 1 0 1 0 0 1 1 0 [X x Y]. : Chaque sujet pouvait X parmi les 6 proposs (on a

Les donnes de type [X x Y] se prsentent sous la forme du classique tableau [Variables (ou questions) x Sujets]. On cherche alors construire une tableau [X x X] indiquant la plus ou moins grande ressemblance entre les variables i et j de X. La proprit de cette matrice de similitude [X x X] est dtre symtrique : i ressemble j comme j ressemble i.

Pour cela il faut tablir la similitude entre deux lments i et j de X laide de la ressemblance de leur profil de rponse aux lments du second ensemble Y : les rponses des sujets un questionnaire par exemple (tableau 1). Cette construction passe par le calcul dun indice de similitude entre i et j de X, indice qui dpend dun calcul sur les rponses de tous les sujets pour chacune des variables dans le tableau [X x Y]. Il ny a pas quun indice de similitude, lhistoire de la statistique nous en dcrit une profusion. Dans le tableau 2 on indique le nombre de fois o litem i a t choisi en mme temps que litem j dans le tableau de la figure 1. Le prototype de ces indices est le coefficient de corrlation linaire. Il se calcule bien comme le montre sa formule en tenant compte de la plus ou moins grande proximit des profils des

** 2 1 0 1 0 2 ** 1 3 0 1 1 1 ** 1 1 0 0 3 1 ** 2 1 1 0 1 2 ** 2 0 1 0 1 2 ** Tableau 2 : tableau [X x X] des cooccurrences entre les items de la figure 1.

A B C D E F

Tout au long de ce livre nous utiliserons le terme de sujet pour dsigner un lment de lensemble Y. Ce sujet peut tre une personne ou un collectif : ville, entreprise, pays. Nous utiliserons aussi le terme de variable pour dsigner un lment de lensemble X. Il recouvre des ralits fort diffrentes : des questions, des modalits de rponses une question, des mots dun texte, des quantits (mesure de taille, de valeurs montaires, des pourcentages ).

Droits de reproduction et de diffusion rservs Sciences Humaines

variables i et j mesure ici par la covariance5 des valeurs prises par i et j dans le tableau [X x Y], covariance pondre par un coefficient calcul sur les variances des deux variables : CoVar (ij ) r (i, j ) = . Var (i ) Var ( j ) On se trouve aussi devant des donnes de type [X x X] o lensemble X est identique lensemble X. Cest le cas des matrices de transition entre la profession du pre et la profession des enfants. Les deux ensembles X et X sont les mmes (les catgories professionnelles, par exemple) mais ce tableau ne peut tre interprt comme une matrice de similitude car la symtrie (i ressemble j comme j ressemble i) nexiste pas. Deux types doprations peuvent tre envisages pour construire la matrice [X x X]. Soit on effectue un calcul sur le profil en X des lments de X (lensemble X se comporte en fait comme un ensemble Y). Soit on effectue un calcul visant symtriser la relation (ij) entre les lments de X quand la valeur de (ij) est la quantification dune relation. La ressemblance entre les professions des pres en fonction de la ressemblance des profils des professions des enfants est un exemple du premier type. Le cas des matrices de flux entre des entits : par exemple la valeur des flux de migration entre les rgions franaises6 est un exemple du second type. Comme le flux migratoire de i vers j nest pas gal celui de j vers i, on est oblig de symtriser la relation entre deux rgions en ne tenant compte que de lmigration (ou de limmigration) ou en faisant la somme ou la diffrence des dplacements entrants et sortants.
Items

** 15 10 30 45 22 16 50 24 25 ** 20 12 8 16 18 37 25 35 11 ** 43 16 19 28 34 12 40 28 33 ** 31 20 15 19 42 12 15 8 22 ** 25 10 7 8 58 46 24 33 14 ** 23 41 25 36 29 12 36 18 29 ** 28 17 22 25 15 7 12 34 15 ** 16 5 7 12 3 25 15 24 28 ** Tableau 3 : tableau [X x X] : on a compt le nombre de fois o un auteur D a cit lauteur F (ici 20 fois), le nombre de fois ou lauteur F a cit lauteur D est diffrent (33).

A B C D E F G H I

Ce cas de figure se retrouve quand on analyse un questionnaire dvocation : on a catgoris les mots, observ la co-apparition de ces catgories chez un mme sujet et calcul la cooccurrence dune catgorie de mots avec une autre. Cette information nest pas symtrique. On peut la symtriser par la dfinition dun indice particulier. On retrouve ce problme dans lanalyse des citations dauteurs dans un ensemble darticles de revues scientifiques (qui cite qui ? tableau 3). On peut oprer de deux manires diffrentes : soit considrer les ressemblances entre les profils de deux auteurs, soit symtriser le nombre de citations entre deux auteurs (somme, diffrence )

Les donnes qui sont directement du type [X x X] sont rares, elles sont le plus souvent le rsultat dun calcul. On peut, par exemple, recueillir une matrice de corrlation dj calcule ( laide dEXCEL ou dun programme danalyse factorielle en composantes principales). On peut demander aux sujets dune enqute dtablir des relations entre un ensemble de notions (cf. annexe 2). On verra plus loin (2.4) un questionnaire o on demande aux sujets dvaluer sur une chelle de 1 9 la ressemblance entre les lments i et j et cela pour toutes les paires possibles.
CoVar (ij ) = (( xik mi ) ( xjk m j )) N ; avec N le nombre de sujets, xik la kiem valeur de la colonne i et xjk la
k

k-iem valeur de la colonne j et mi la moyenne des valeurs xik, mj la moyenne des valeurs xjk
6

Degenne, A., 1973.

Droits de reproduction et de diffusion rservs Sciences Humaines

Chaque sujet produit une matrice [X x X]. On va alors calculer une agrgation de ces matrices : ici llment (ij) de la matrice [X x X] finale est la moyenne des scores obtenus pour chaque sujet. Quel que fois linformation initiale est, non une similitude, mais une distance tel le nombre de kilomtres entre la ville i et la ville j. On est alors conduit calculer une fonction inverse de la distance pour obtenir une valeur de la proximit entre i et j. Quel que soit le cas de figure [X xY], [X x X] ou [X x X] on vise construire une matrice carre et symtrique de similitude [X x X] o les nombres indiquent le poids, la force de la ressemblance, de la relation entre les variables deux deux. Lanalyse de similitude sur lensemble Y est duale : on construit une matrice [Y x Y] en fonction des profils des sujets y Y sur les variables i X . Pour cela il suffit de transposer la matrice initiale, cest dire de prendre en considration la matrice [Y x X] en lieu et place de la matrice [X x Y],

Droits de reproduction et de diffusion rservs Sciences Humaines

1.2 EXEMPLES DE CALCUL DUNE SIMILITUDE. 1.2.1 Le choix de rponses dans une liste. Dans un questionnaire sur limage de la banque7 on demande aux sujets (506 sujets) de caractriser la banque en gnral en choisissant certains items dans une liste donne(tableau 4).
Tableau 4 : liste des items 1 : La Banque me fait Confiance 2 : On est en Confiance 3 : Aide Problmes Particuliers 4 : Dcouvert Rapporte Banque 5 : Travailler son Profit 6 : On n'est qu'un Numro Tableau 5 : Fichier :

On demande au sujet de choisir les 2 items les plus caractristiques de la banque. On donne ici un extrait de ces donnes (tableau 5). On obtient un fichier o le premier sujet a choisi les items 1 et 3 et le deuxime les items 3 et 4 et le troisime les items 1 et 2 etc On codera ces sujets en indiquant par un 1 les items choisis et par un 0 les items non choisis.

001 101000 002 001100 003 110000 004 . . . . . . etc

On peut alors calculer la ressemblance entre deux items par le nombre de sujets ayant choisi ensemble deux items. On obtient une matrice de cooccurrence (tableau 6) : ici le choix des items 1 et 2 a t effectu par 100 sujets sur les 506 interroges (cest le cas du troisime sujet par exemple). Le choix des items 1 et 4 na t effectu que par 29 sujets.
112 104 * 80 43 52 29 60 80 * 85 72 43 39 43 85 * 59 26 16 52 72 59 *

Tableau 6 : Le calcul de la cooccurrence donne la matrice suivante : 1 : La Banque me fait Confiance : * 100 2 : On est en Confiance : 100 * 3 : Aide Problmes Particuliers : 112 104 4 : Dcouvert Rapporte Banque : 29 60 5 : Travailler son Profit : 43 39 6 : On n'est qu'un Numro : 26 16

1.2.2 Le choix dune rponse sur une chelle. Dans un questionnaire pos des lves de terminale8 on prsente un ensemble de phrases et on demande llve de choisir une attitude vis vis de chaque phrase. Attitude que lon code de 1 5 (on ne tient pas compte des lves ayant rpondu 6). 1
Totalement d'accord

2
En partie d'accord

3
ni d'accord ni pas d'accord

4
En partie pas d'accord

5
Totalement pas d'accord

6
Je ne sais pas

A- Le gouvernement devrait redistribuer les revenus au profit des moins favoriss. B- Trop de gens comptent sur le gouvernement pour assurer leur bien tre.
7

Etude Paul Danloy & Cie, GIFRESH, commandite par les Banques Populaires et le Crdit Mutuel en 1995 auprs de 504 personnes (mthode des quota), chantillon reprsentatif par quota de la population franaise. Etude Union Europenne Copernicus sur les connaissances conomique des jeunes europens (jeunes de 17-18 ans en fin dtude secondaire en Angleterre, France, Pologne, Rpublique Tchque), 1995

Droits de reproduction et de diffusion rservs Sciences Humaines

C- Le plus grand nombre nobtient pas une juste part de la richesse de la nation. D- Les aides sociales ne vont pas toujours ceux qui en ont le plus besoin. E- Une vraie coopration dans les entreprises est difficile parce que chefs dentreprises et salaris nont pas les mmes intrts. F- Les entreprises prives sont plus aptes que les entreprises publiques rsoudre les problmes conomiques de la France Phrases Score moyen A- Redistribuer Revenu 2.50 B- Compte sur Gouvernement 2.41 C- N'ont pas leur Part 2.13 D- Aide Sociale dtourne 1.88 E- Difficiles Coopration 2.22 F- Priv mieux que Public 3.25
Tableau 7 : score moyen des items

On peut calculer un score moyen obtenu pour chaque phrase (tableau 7). Mais il est plus intressant de calculer la similitude des rponses en comparant les notes donnes par chaque sujet aux diffrentes phrases. On calcule alors une corrlation entre ces phrases (ici lindice de corrlation est le Tau de Kendall).
* A B C D E F

La phrase A est corrle positivement la phrase C (.26) et ngativement la phrase B (-.12) alors que leurs scores moyens sont proches. Ces deux exemples montrent comment il est possible de passer dun tableau [X x Y] un tableau de similitude [X x X]. Nous allons maintenant tudier les diffrentes manires deffectuer ce passage, en un mot de calculer un indice de similitude entre les variables.

************************************ A * * -.12 .26 .08 .09 .17 * .05 .08 -.08 .11 .07

B * -.12 C * D * E *

* -.01 * .17 .04

.26 -.01 .08 .08 .09 .11

.04 -.01 .05 .11

* -.01 *

F * -.08

.07 -.01

.11 -.01

Tableau 8 : Tau de Kendall

Droits de reproduction et de diffusion rservs Sciences Humaines

1.3 IL NEST PAS POSSIBLE DE LIMITER LA SIMILITUDE A UN SEUL ET UNIQUE COEFFICIENT (coefficient de corrlation ou distance du Khi29) : POURQUOI ? Il existe une premire raison qui tient la forme des donnes recueillies. Les donnes que lanalyse de similitude permet de traiter, sont de formes trs diffrentes. Nous avons dj vu quun tableau de donnes [X x Y] pouvait recouvrir plusieurs types de donnes diffrentes. Un questionnaire peut proposer une liste ditems et demander au sujet de choisir les items quil privilgie, les 1 indiquant le choix de litem comme dans la figure 1 (le nombre ditems choisis peut tre limit cf. annexe 2 les questionnaires de choix ou de caractrisation). Les variables i de X peuvent tre des valeurs comme par exemple le nombre de pices dun appartement ou le salaire du chef de famille, ou encore dans le cas o le sujet est un sujet collectif : le nombre dhabitants dune commune, le pourcentage de population au chmage etc. On doit encore considrer un cas particulier : celui de la mesure de la position du sujet sur une chelle de rponses que lon code de 1 n (valeur maximale), par exemple on codera 5 laccord total du sujet une proposition et 1 le dsaccord total, les valeurs intermdiaires permettant au sujet de moduler son opinion (cf. annexe 2 le questionnaire en chelle de Likert ).
Les diffrentes structures mathmatiques de mesure. Binaire : une variable binaire ne peut prendre que deux valeurs : 0 ou 1. Cette variable est souvent obtenue par clatement des modalits dune variable nominale. Par exemple la question sur sa profession le sujet doit se positionner non pas sur une chelle mais dans un univers de catgories dont chacune un nom. Seule la catgorie choisie sera code 1, les autres prennent la valeur 0. Si la question est dite choix multiple on peut avoir plusieurs 1 correspondants aux diffrents choix. Dans tous les cas chaque modalit de rponse est une variable binaire. Ordinale : une variable ordinale prend ses valeurs dans les nombres cardinaux (nombres entiers) au sein dun intervalle ayant une valeur minimale et maximale : par exemple [-2, +2], seules les valeurs -2,-1,0,1,2 sont acceptables. Cette chelle ne suppose pas quil existe une distance gale entre deux chelons. Elle indique simplement que si le sujet a t cod 2, il a exprim un choix suprieur celui quil aurait exprim sil tait cod par une valeur infrieure comme 1 (ou -2). Elle indique aussi que ce choix 2 est intermdiaire entre le choix 1 et le choix 3. Mtrique : une variable mtrique prend ses valeurs dans les nombres rels. Cest le cas du revenu dun mnage, de la taille des lves dune classe, de la superficie dune exploitation agricole, etcIl est alors possible de calculer une distance mtrique (euclidienne), deffectuer les quatre oprations (+, -, x, /) et de la plonger dans un espace vectoriel.

La distance calcule par le coefficient de corrlation est utilise par les programmes dACP et celle du Khi2 par les programme dAFC.

Droits de reproduction et de diffusion rservs Sciences Humaines

10

Chaque type de donne dtermine lusage de coefficients qui tiennent compte des proprits de la mesure utilise (binaire, ordinale, mtrique). Cest ainsi que les chiffres codant les donnes de type binaire ne peuvent tre considrs comme des rels. On ne peut pas les utiliser pour calculer un coefficient de corrlation, par exemple, il faut utiliser, comme nous le verrons plus loin, son correspondant pour les tableaux [0,1] : le Phi de contingence. De mme lorsque les donnes sont ordinales le coefficient de corrlation que lon doit utiliser est le Tau de Kendall qui ne tient compte que de la diffrence entre les ordres induits sur les sujets par les diffrentes variables. Seules les donnes mtriques permettent les calculs les plus sophistiqus, analyse de corrlation, analyse matricielle, analyse de rgression etc.
La mesure binaire (ou dichotomique) [0,1] peut couvrir lexistence dun ordre 0 < 1 ou seulement la prsence dun nom , dune modalit. Le choix de lindice doit tenir compte de ce fait. Dans le premier cas on parlera dune mesure dichotomique ordonne permettant lutilisation des indices relatifs une mesure ordinale. Cest par exemple ltude de lquipement des villes en notant dans une liste fixe l'avance quels sont les quipements collectifs possds. Deux villes se ressembleront alors par les quipements qu'elles ont en commun mais galement par ceux qui leur manquent simultanment. Dans le second cas la mesure dichotomique est associe une variable binaire (le 1 exprimant la prsence du nom et le 0 labsence). Dans ce cas labsence du nom na pas automatiquement un sens inverse la prsence de ce nom . Par exemple labsence dun mot dans une liste dvocations spontanes peut signifier deux choses bien diffrentes : le sujet ne voulait pas lvoquer ou tout simplement le mot ne lui est pas venu spontanment lesprit pour diverses raisons. Le zro reprsente une diversit de situations alors que le 1 exprime uniquement le choix du sujet. On peut se trouver dans des situations mixtes. Quand on demande au sujet de choisir trois items parmi une liste de 12, la probabilit du non-choix est bien suprieure celle du choix (ici 0,75 contre 0,25). Il ny a pas symtrie du 1 et du 0. Ici on peut dcider de considrer soit seulement le choix (le 1), soit lordre 0 < 1. Il existe encore un cas o ces deux valeurs [0,1] nont pas le mme sens mais o cette proprit chappe souvent la conscience de lanalyste, cest la transformation dune variable nominale ayant plusieurs modalits en une srie de variables binaires comme dans le cas des catgories socioprofessionnelles. Le 0 nindique pas labsence dune profession donne mais le fait que le sujet appartient une autre profession. Cette procdure dite dclatement des modalits est utilise pour valuer les effets de chaque item (ici de chaque profession). Cette procdure est, par exemple, obligatoire quand on construit un tableau de Burt en Analyse Factorielle de Correspondance, ou quand on utilise les procdures logistiques (Logit). Dans ces deux cas, les outils mathmatiques utiliss font implicitement rfrence une symtrie du 0 et du 1 alors quil nen est rien.

Outre la forme des donnes il faut aussi tenir compte du travail des statisticiens. Ceux-ci ont multipli les indices10 permettant une mesure de la similitude entre variables. Ces indices ont cependant quelques proprits mathmatiques communes. Ces proprits drivent du fait que, pour un coefficient de similitude donn, lensemble des valeurs calcules entre les lments i et j de X peuvent tre ranges de la plus grande la plus petite. Cet ordre entrane un ordre sur les couples (i,j). Comme il est possible que certains couples aient la mme valeur (soient ex-aequo) on utilise la notion mathmatique de Prordonnance. Les proprits de cette Prordonnance de similitude sont dcrites dans lencart cidessous. Lexistence de cette diversit de la forme des donnes et de la multiplicit des mesures possibles (indices de similitude) donne toute sa souplesse et sa richesse lanalyse de similitude. Elle prend en

10

Hubalek, Z., 1982 ; Cet auteur prsente 43 mesures dassociation (coefficients de similitude) dans le seul cas des variables dichotomiques. Il conclue son article par ces mots : there is no absolutely general measure of the degree of dependance .

Droits de reproduction et de diffusion rservs Sciences Humaines

11

compte non seulement les proprits mathmatiques des donnes mais aussi le parti pris de celui qui traite les donnes. A cette richesse correspond un impratif : lanalyste doit prendre des dcisions qui influencent fortement le rsultat des calculs. Lanalyse de similitude ne fonctionne pas comme une boite noire fournissant un rsultat unique, elle oblige lanalyste prciser ce quil recherche et par quel moyen.
Prordonnance de similitude Soit X un ensemble {i,j } et [X x X] l'ensemble des couples (i,j) d'lments de X. On appelle prordonnance de similitude sur X un prordre total sur X x X, vrifiant les conditions suivantes, quels que soit {i,j,k} lments de X : (i,j) = (j,i) : proprit qui traduit la symtrie de la relation de ressemblance. (i,i) > (i,j) : proprit qui traduit que tout lment ressemble plus lui mme qu tout autre. En outre si (i,j) > (i,k) i doit ressembler plus j qu k. Habituellement cette prordonnance est associe une application S de X x X dans les nombres rels. On a alors Sij > Skt (i,j) > (k,t) Sij est appel indice de similitude. Nous avons vu que la prordonnance de similitude peut tre obtenue de deux manires : Soit la prordonnance P peut tre donne presque directement par l'observation sur lensemble [X x X] ; dans ce cas on a obtenu une hirarchie sur les paires ij. Soit, et cest le cas le plus gnral, on doit construire la prordonnance partir du calcul d'un indice de similitude S (appel aussi coefficient de similitude). Pour cela il faut tablir une mesure de ressemblance sur lensemble X. Cette mesure suppose lexistence dun second ensemble Y tel que lon puisse construire un tableau rectangulaire [X x Y] exprimant les valeurs que prennent les lments i (ou j) de X dans les rfrentiels y de Y. Les donnes servant calculer lindice de similitude sont alors prsentes dans ce tableau rectangulaire.

Quel sont ces dcisions ? Elles concernent dabord la forme des donnes et par l mme le choix dune classe dindices de similitude. Lanalyste doit identifier la mesure (binaire, ordinale, mtrique) qui est impose par la forme des donnes. Il peut se trouver dans un cas mixte lobligeant un recodage. Il peut aussi tre conduit rduire la richesse de la mesure originale car elle dilue linformation pertinente comme un costume trop grand. Cest ainsi que lon ramne linformation de lge (ou du revenu) exprim en annes (ou francs) des classes dquivalences ordonnes (les moins de 18 ans, les 18-24, les 25-40 etc). On passe dune mesure mtrique une mesure ordinale. De mme on rduit souvent une chelle ordinale dopinion (de type Likert) une variable dichotomique (les opinions favorables prenant la valeur 1 et les dfavorables la valeur 0). On fait aussi quelque fois lopration inverse : considrer une mesure ordinale comme une mesure mtrique (le calcul dune moyenne sur une chelle de Likert par exemple). On doit alors agir avec une certaine prudence, cest quelque fois acceptable mme si ce nest pas lgitime. Nous verrons plus loin que lanalyste sera oblig de prendre des dcisions tout au long de la procdure danalyse : choix de seuils, choix dun mode de reprsentation des rsultats etc Le premier choix reste celui de lindice de similitude. 1.4. LES CRITERES DU CHOIX DUN INDICE DE SIMILITUDE. Pour choisir lindice de similitude quil convient de calculer il faut donc tenir compte de deux lments : a) la nature de la mesure o sont plongs les nombres que lon trouve dans ce tableau {X x Y} : ont-ils une valeur binaire , sont-ils des positions sur une chelle ordinale (dichotomique

Droits de reproduction et de diffusion rservs Sciences Humaines

12

[0,1] ou sur un intervalle [a,b]), sont-ils des nombres pouvant prendre thoriquement toutes les valeurs dans une large plage des nombres rels (le continue des mathmaticiens) ; b) la nature du calcul de lindice de similitude. On distinguera, ici, deux classes dindices : les indices exprimant une majorit , ceux exprimant une distance lindpendance statistique . On traitera en 5.5 les indices qui mesurent un degr dimplication logique . Ils nont pas la proprit de symtrie des indices de similitude mais permettent danalyser les donnes dont les frquences sont par trop ingales.
La nature du calcul de lindice de similitude. a) Les indices qui vont mettre en vidence la grandeur, le poids des diffrentes variables. Cest le cas si on prend en considration la valeur absolu de xij dun item i. On a alors plus de chance de trouver une similitude forte entre les items ayant une forte moyenne (ou frquence) quentre ceux ayant une moyenne (ou frquence) plus faible. On peut alors parler de mise en vidence dun effet tenant aux valeurs extrmes et dans le cas des frquences dun effet majoritaire (ce que pense ou fait la majorit). On peut viter en partie cela en effectuant une standardisation classique des donnes (z-score en anglais) : on calcule alors x' ij = ( xij moyenne( xij ))

Variance( xij )

b) Les indices exprimant une distance lindpendance statistique vont au contraire tenir compte seulement des carts lindpendance statistique. Or les items de poids faibles sont ceux qui permettent les plus forts carts. Si par exemple on traite le choix de 2 items i et j tel que i a t choisi par 80% des sujets et j seulement par 30%, lindpendance statistique de leur croisement est 24% (0,8 x 0,3). Lcart maximum est alors de 30% 24% soit de 6% des sujets. Par contre si on croise litem j ayant la mme distribution avec un item i choisi par 20% des sujets lindpendance statistique de leur croisement est 6% (0,2 x 0,3). Lcart maximum est alors de 20% 6% soit de 14% des sujets. Indpendance statistique Cooccurrence maximum Indpendance statistique Cooccurrence maximum j=0 j=1 tot j=0 j=1 tot j=0 j=1 tot j=0 j=1 tot i=0 14 6 20 i=0 20 0 20 i=0 56 24 80 i=0 70 10 80 i=1 56 i=1 50 i=1 14 i=1 0 24 80 30 80 6 20 20 20 Tot 70 Tot 70 Tot 70 Tot 70 30 100 30 100 30 100 30 100 Cas o i a la distribution 20 / 80 Cas o i a la distribution 80 / 20 Ici on sait que les indices de similitude vont mettre en vidence lexistence de sous-ensembles de variables qui sont corrles grce lexistence de sous-populations de sujets, qui peuvent tre peu nombreuses (cf. le 6% du premier cas ou le passage de 6% seulement 20% dans le second cas) mais qui ont des profils comparables sur ce sous-ensemble de variables. Ces indices signalent quune partie des donnes forment une distribution conjointe : une souspopulation donne correspond un sous-ensemble de variables. Ici on peut parler de minorit cohrente .

1.4.1. Indices de similitude dans le cas de donnes dichotomiques. Le croisement de deux lments i et j de X se prsente classiquement par le tableau carr suivant :

j=0 i=0 i=1


Total

j=1 Uij Cij Nj1

Total

Zij Wij Nj0

Ni0 Ni1 N

N est le nombre de sujets. Ni1 est le nombre de sujets cods 1 sur litem i. Nj1 est le nombre de sujets cods 1 sur litem j. Cij est le nombre de sujets cods 1 aux items i et j. Zij est le nombre de sujets cods 0 aux items i et j. Wij est le nombre de sujets cods 1 litem i et 0 j. Uij est le nombre de sujets cods 0 litem i et 1 j.

Tableau 9 : le croisement dichotomique

Droits de reproduction et de diffusion rservs Sciences Humaines

13

1.4.1.1 Cas des variables binaires. Lorsque les variables sont binaires seules les informations concernant la prsence (le 1) ont un sens. On peut alors construire les indices suivants. a) Le nombre de fois o i et j sont cods tous les deux 1 est appel cooccurrence : S1 = Cij. On peut aussi calculer un pourcentage S 2 = (Cij N ) 100 . Ces deux indices donnent la mme prordonnance de similitude. Ils font apparatre ce que lon peut appeler le phnomne majoritaire. En effet plus les items i et j sont prsents (Ni1 et Nj1 grand) plus il y a de chance pour que Cij soit grand. b) On peut, pour corriger cet effet majoritaire, tablir un rapport entre Cij et C*ij, frquence de la cooccurrence dans le cas de lindpendance statistique entre i et j. C * ij = ( Ni1 Nj1) N On peut alors calculer leur rapport S 3 = Cij C * ij qui est gal S 3 = (Cij N ) ( Ni1 Nj1) . On peut aussi calculer leur diffrence en pourcentage S 4 = 100 (Cij C * ij ) C * ij On peut encore calculer lindice de Forbes S 5 = (Cij C * ij) (Cij max C * ij) avec Cijmax la valeur maximum que peut avoir Cij ; cette valeur est en fait le minimum de [Nj1, Ni1]. Le domaine de variation de ces diffrents indices est fort diffrent : lindice S3 varie entre 0 et une valeur maximale S3max quand Cij est maximum cest dire gal au minimum de [Ni1,Nj1] alors : S 3 max = N max[Ni1, Nj1] ; la valeur S3 = 1 indique lindpendance statistique entre i et j ; entre 0 et 1 Cij est infrieure la valeur attendue sil y avait indpendance statistique, entre 1 et S3max Cij est suprieur cette valeur. La valeur S4 = 0 indique lindpendance statistique entre i et j, il en est de mme pour S5 qui varie de 0 1 (quand Cij=Cijmax). On montrera plus loin sur un exemple lusage de ces deux types dindices (cf. 1.3.1.3.). 1.4.1.2 Cas des variables dichotomiques ordonnes. Lorsque les variables dichotomiques sont reprsentatives dun ordre entre le 0 et le 1 on peut alors construire des indices o le 0 et le 1 tiennent des places symtriques. a) Le nombre de fois o i et j sont cods tous les deux de la mme manire est appel cooccurrence symtrique : S 6 = Cij + Zij On peut aussi calculer un pourcentage S 7 = ((Cij + Zij ) N ) 100 . Ces deux indices donnent la mme prordonnance de similitude. Ils expriment lvidence le poids de la diagonale de corrlation mais sans faire rfrence au calcul de la valeur thorique des cases Cij et Zij. On a ici aussi la mesure dun phnomne majoritaire pouvant porter symtriquement sur la valeur 0 ou 1. Lindice S7 varie entre 0 et N, Lindice S8 varie entre 0 et 100. b) Le Phi de contingence va, lui, signaler la corrlation et donc la comparaison des donnes leur valeur thorique dans le cas de lindpendance statistique, comparaison mise en vidence par la relation qui relie le Phi et le Khi2. La formule du Phi drive de lapplication du Tau de Kendall, au tableau quatre cases. Il correspond bien un ordre 0 < 1.

Droits de reproduction et de diffusion rservs Sciences Humaines

14

S8 = =

( Zij Cij ) (Uij Wij ) Nj 0 Nj1 Ni 0 Ni1

appel Phi de contingence11.

On peut trouver dans la littrature tout un ensemble dindices dont la formule drive de celle du Phi de contingence. On en signalera un qui essaye de corriger le fait que le Phi ne varie pas entre 1 et +1 comme le voudrait la thorie mais entre une valeur maximale et une valeur minimale qui dpend des marges (cf. annexe 1). On calcule alors le Phimax pour la zone des corrlations positives et on tablit le rapport Phi sur Phimax : S8bis = S8 / Phimax. Le Phimax est obtenu en calculant le tableau donnant la corrlation maximale. Ce tableau maximise la valeur Cij. Alors Cij = min Ni1, Nj1 . Dans ce cas la valeur de lindice varie, dans la zone des corrlations positives, entre 0 et +1 quelque soient les marges. Il est aussi possible dobtenir un indice variant de -1 +1 en utilisant le Q de Yule
S9 = Q = ( Zij Cij ) (Uij Wij ) ( Zij Cij ) + (Uij Wij )

. Cet indice est gal 1 si Uij ou Wij est gal 0 (une case anti

diagonale vide). Il est gal 1 si Zij ou Cij est gal 0 (une case diagonale vide). Il est gal 0 comme le Phi de contingence dans le cas de lgalit des produits des valeurs des deux diagonales (nullit du numrateur). On est ici proche dune mesure de limplication plus que de la corrlation comme nous le verrons plus loin. Un indice particulier est aussi souvent utilis car il vite de prendre en considration la case Zij (absence de i et de j) : lindice de communaut dit indice de Jaccard : S10 = C ij (C ij + U ij + Wij )

11

Le Phi est gal la racine carre du Khi2 total du tableau divis par N. On calcule ainsi le Khi2 ( Zij Z * ij ) 2 (Uij U * ij ) 2 (Wij W * ij ) 2 (Cij C * ij ) 2 ; avec Z*ij, U*ij, W*ij, C*ij les valeurs + + + Khi 2 = Z * ij U * ij W * ij C * ij thoriques dans le cas de lindpendance statistique entre i et j calcules grce aux marges du tableau : Z * ij = ( Ni 0 Nj 0) N ; U * ij = ( Ni 0 Nj1) N ; W * ij = ( Ni1 Nj 0) N ; C * ij = ( Ni1 Nj1) N .

Droits de reproduction et de diffusion rservs Sciences Humaines

15

1.4.1.3. Exemple de lutilisation des deux types dindices dans le cas du choix dichotomique. Nous reprenons ici le questionnaire sur limage de la banque prsent en 1.2.1. Litem 2 (On est en Confiance), par exemple, a t choisi par 189 sujets interroges, litem 3 (Aide Problmes Particuliers) a t choisi par 247 sujets. Le tableau de croisement de ces deux items est le suivant :
0 1 Total item 2 0 174 143 317 1 85 104 189 Total item3 259 247 506 Tableau 10 : On indique le choix de litem par la valeur 1.

On a trouv 104 sujets ayant choisi la fois litem 2 et litem 3. la cooccurrence est donc de 104. Le calcul du Phi de contingence entre litem 2 et litem 3 est alors :
(174 104) (143 85) (259 247 317 189)

soit 0,09.

Le calcul de la cooccurrence S1 = Cij donne la matrice suivante : 1 : La Banque me fait Confiance : * 2 : On est en Confiance : 100 * 3 : Aide Problmes Particuliers : 112 104 4 : Dcouvert Rapporte Banque : 29 60 5 : Travailler son Profit : 43 39 6 : On n'est qu'un Numro : 26 16

* 80 43 52

* 85 72

* 59

Le calcul du phi de contingence S8 donne la matrice suivante 1 : La Banque me fait Confiance : * 2 : On est en Confiance : .19 * 3 : Aide Problmes Particuliers : .10 .09 * 4 : Dcouvert Rapporte Banque : -.43 -.12 -.15 5 : Travailler son Profit : -.13 -.13 -.24 6 : On nest qu'un Numro : -.25 -.31 -.12 Tableau 11 : La Banque : matrices de similitude.

* .24 .16

* .20

La matrice des Phi de contingence montre que la population enqute se compose de deux souspopulations : lune voit la banque sous un jour favorable (aide, confiance), la seconde pense quelle vit sur le dos de ses clients. Les deux sous-ensembles ditems caractrisant ces deux sous-populations sont assez exclusifs les corrlations sont toutes ngatives dans le rectangle en bas et gauche du croisement des items 1,2,3 avec les items 4,5,6. Quelle est limportance de ces deux sous-populations ? La matrice des cooccurrence nous donne une premire indication les sujets favorables sont plus nombreuses que les consumristes12, leurs cooccurrences sont plus frquentes (de 104 112 versus de 59 85). Cette matrice module aussi la ralit dune nette division en deux de la population. En effet le fait que le dcouvert rapporte la banque soit fortement associ laide aux problmes rencontrs par les particuliers montre quil nexiste pas majoritairement une vision tranche. On le montre aussi quand 52 sujets associent ce dernier item au fait de ntre quun numro . Linterprtation par un seul de ces indices nous apparat alors mutilante.

12

On peut aussi le montrer en observant simplement les frquences de ces items : 40,4%, 37,4%, 49%, 40,4%, 29%, 27% : les deux derniers items sont nettement minoritaires.

Droits de reproduction et de diffusion rservs Sciences Humaines

16

1.4.2. Indices de similitude dans le cas de donnes ordinales. Dans le paragraphe prcdent on a rduit linformation obtenue au questionnaire banque la seule prsence du choix des items caractristiques alors que linformation initiale tait plus complexe : le sujet devait choisir, parmi les 6 items, les deux items les plus caractristiques de la banque, puis les deux items les moins caractristiques de la banque, il restait alors deux items non choisis. On peut donc classer, pour chaque sujet, les items sur une chelle de trois degrs : caractristique (3), non choisi (2), moins caractristique (1). Le croisement de deux items prend alors la forme dun tableau 3 x 3. Le tableau 13 montre, par exemple, le croisement de litem 2 (On est en Confiance), avec litem 3 (Aide Problmes Particuliers
1 2 3 Total Item 2 1 35 22 41 98 2 68 102 219 49 3 36 49 104 189 Total item3 120 139 247 506 Tableau 12 : La Banque : Croisement des classements des items 2 et 3. Ici il y a 49 sujets ayant considr que litem 3 nest pas caractristique de la banque (cod 1)et dans le mme temps ces sujets nont pas choisi litem 2 : il nest ni caractristique ni non caractristique (cod 2). Tableau 13 : Croisement des variables i et j.

Plus gnralement le croisement de deux variables i et j se prsente sous la forme dun tableau, le plus souvent carr, mais pouvant tre aussi rectangulaire si le nombre de modalit nest pas le mme pour i et j.

Variable i \ j chelon 1 chelon 2 etcq chelon max Total j

chelon 1

chelon 2

etck

chelon max

Total i

n11 n21 nq1 Nm1 nt1

n12 n22 nq2 nm2 nt2

n1k n2k nqk nmk ntk

n1m n2m nqm nmm ntm

n1t n2t nqt nmt N

a) Le calcul qui mettra en vidence le phnomne de concentration des rponses sur les mmes valeurs pour les deux variables suppose que les variables aient la mme chelle (mme nombre dchelons). Dans ce cas on va faire la somme de toutes les cases o il y a concordance entre les chelons des deux items : S11 = nkk N . Cet indice est trs sensible aux situations majoritaires.
k =1 k =m

Cet indice ne met en vidence que limportance de la non prfrence dun item sur lautre. Il ne tient pas compte de lordre des chelons : 1 est plus proche de 2 que de 3 par exemple. Pour prendre en compte ce fait on peut construire des indices qui commencent par calculer une distance. Mais ce faisant on introduit une proprit supplmentaire : on ne peut faire ce calcul quen supposant lquidistance entre les q k nqk k q modalits de 1 2, de 2 3 etc... S12 = 1 dite similitude calcule partir de la N (m 1) distance city-block

Droits de reproduction et de diffusion rservs Sciences Humaines

17

On peut aussi calculer une fonction inverse de la distance euclidienne : S13 = 1

(q k )
k l

nqk

N (m 1)

Christian Guimelli a voulu faire un indice variant entre 1 et +1, le 0 devenant une sorte de point neutre sparant les faibles et les fortes similitudes13. Il calcule S14 = 2( S12 0,5) . Cet indice veut se rfrer analogiquement aux questionnaires o on demande aux sujets de se positionner sur un intervalle de [m +m]. En fait cest une simple transformation linaire de lindice S12 city block b) Les indices de similitude, qui tiennent compte de lindpendance statistique, qui respectent la proprit de prfrence et qui ne font pas implicitement lhypothse dquidistance entre les chelons, ont t crs par Kendall. Cet auteur propose deux indices dit Tau b (S15) dans le cas dun tableau non carr (si le nombre maximum dchelons nest pas le mme pour les items i et j) et Tau c (S16) qui correspond aux tableaux carrs (cf. annexe 1).

13

Guimelli, Ch., 1998

Droits de reproduction et de diffusion rservs Sciences Humaines

18

1.4.3. Indices de similitude dans le cas de donnes mtriques. On se trouve devant un tableau [X x Y] pouvant prendre des valeurs dans les rels.
Tableau 14 : Tableau des donnes mtriques

Sujets 01 02 03

Variable a n1a n2a n3a

Variable p n1p n2p n3p

Variable l n1l n2l n3l

Var max

Total

n1mv n2mv n3mv

n1 n2 n3

nkp

nkl

nk

max Total

nmsa na
p k

nmsp np
p

nmsl nl

nmv

nms N

Avec nk = nkp et np = nkp et N = np a) Dans le cas o toutes les variables ont le mme intervalle de dfinition (par exemple les variables sont toutes des pourcentages) on peut calculer un indice mettant en vidence les effets de taille (limportance des diffrents nkp) : on calcule une fonction inverse de la distance euclidienne entre la colonne p et l par exemple S17 = 1 (nkp nkl ) 2 .
k

b) La distance lindpendance statistique est bien reprsente par le coefficient de corrlation de Bravais Pearson que nous avons dj prsent : S18 = r. Cet indice varie de 1 +1. On peut aussi calculer la distance dite du Khi2, distance propose par J.P.Benzcri et utilise dans les Analyses Factorielles de Correspondance : S19 = 1
k =m k =1

nk nkp nkl N nl np

Droits de reproduction et de diffusion rservs Sciences Humaines

19

1.4.4. Indices de similitude dans le cas particulier des tableaux de donnes relationnelles (tableaux carrs). Ces tableaux comportent le mme nombre de lignes et de colonnes. Si les cellules du tableau sont dj les valeurs dun indice de similitude (corrlation par exemple) on se contente de considrer ce tableau comme une matrice de similitude [X x X]. Dans le cas contraire on se trouve devant le tableau suivant [X x X] o nlp nest pas gal npl.
Tableau 15 : tableau des donnes relationnelles.

Var a Var p Var l

Var a *

Var p nap

Var l nal

Var m nam

* npa nla * * nlp * * * *


Var m

npl

npm nlm

nma

nmp

nml

a) Pour faire apparatre les effets de taille on utilisera lanalogue de la cooccurrence S20 = npl + nlp. b) La rfrence une valeur dindpendance statistique conduit calculer une distance une valeur thorique. Si les valeurs npl reprsentent la valeur dune relation (non symtrique) on est conduit la comparer au calcul de la valeur thorique relative la somme de la ligne p et de la colonne l (indice S21 de lannexe 1)

Droits de reproduction et de diffusion rservs Sciences Humaines

20

CHAPITRE 2 LES PROPRIETES FORMELLES AU SEIN DE LA MATRICE DE SIMILITUDE. La matrice [X x X] o on rassemble les indices de similitude est constitue de m (m 1) 2 14 valeurs avec m le nombre de variables tudies. Si m est gal 25 cela nous donne 300 valeurs, sil est gal 50 on obtient 1 225 nombres. Il faut donc se donner un moyen pour rsumer ces donnes en perdant le minimum dinformations.
Un graphe cest des points et des traits les reliant. Dans la figure 6 on compte 6 sommets de a f relis par des artes que lon crit : (ad), (db), (ac) etc Si on limine certains sommets et les artes qui y aboutissent on obtient un sous-graphe. Sil existe toujours une arte entre deux sommets quelconques dun sous-graphe on dit que cest une clique. Si on garde tous les sommets dun graphe et que lon limine certaines artes on obtient un graphe partiel. Si on va dun sommet (dune variable) un autre sommet par un parcours empruntant des artes toutes diffrentes on a dfini une chane. Si partir dun sommet on parcourt une chane qui nous ramne sur le sommet de dpart on parle dun cycle. Si un groupe de sommets est tel que lon peut toujours trouver une chane pour joindre deux sommets quelconques de ce groupe, il est appel composante connexe. Si on affecte une valeur ces traits on obtient une reprsentation graphique donnant la mme information que la matrice de similitude : des variables et des valeurs de similitude entre chaque paire de variables qui deviennent, dans la thorie des graphes, des sommets et des artes values (un graphe valu). Principales dfinitions de la thorie des graphes non orients. On appelle Graphe G = (X, U) le couple constitu par un ensemble X et une famille U de paires dlments de X U [ X , X ] , On dit que X est lensemble des sommets {i} et U lensemble des artes {u}, u = (ij) avec i, j X . On dit que les sommets i et j sont les extrmits de larte (ij). On appelle GA sous-graphe de G le graphe engendr par A X dont les sommets i, j A X et les artes (ij ) U . On appelle graphe partiel de G engendr par V U le graphe (X, V) dont les sommets sont tous ceux de X et les artes (ij ) V . Un graphe est complet si toute paire (ij) est arte du graphe : i, j : (ij ) U . Une clique est un sous graphe complet du graphe G. On appelle chane la squence (ul, u2, ... uq) dartes de G telle que chaque arte de la squence ait une extrmit en commun avec l'arte prcdente (sauf u1), et l'autre extrmit en commun avec l'arte suivante (sauf uq). Nous ne considrons ici que les chanes lmentaires c'est--dire celles o tous les sommets sont diffrents. On appelle chane maximale une chane lmentaire laquelle on ne peut pas ajouter une nouvelle arte. On appelle cycle une chane lmentaire (u1,uq) tel que u1 = (ij) et uq = (ki). La longueur d'une chane ou d'un cycle est gale au nombre d'artes figurant dans cette chane ou ce cycle. On dit qu'un graphe est connexe si pour toute paire de sommets (ij) distincts il existe une chane reliant ces deux sommets. On montre que si G = (X,U) n'est pas connexe, on peut trouver une bipartition de X en X1 et X2 de telle sorte qu'aucune arte n'ait une extrmit en X1 et l'autre en X2. Une composante connexe est un sous-graphe connexe tel quon ne peut y ajouter un autre sommet sans perdre la proprit de connexit. On appelle arbre un graphe connexe et sans cycle. On montre qu'un arbre a (n-1) artes si n est le cardinal de X. On appelle arbre d'un graphe G connexe un graphe partiel de G qui est connexe et sans cycle. On appelle matrice associe un graphe la matrice dont les valeurs (ij) = 0 si (ij ) G et gale 1 si (ij ) G . On peut tendre cette dfinition aux graphes valus. Ces graphes sont complets et chaque arte (ij) la valeur de la cellule (ij) de la matrice.

14

La matrice a (m x m) valeurs, comme elle est symtrique chaque valeur apparat 2 fois, comme on ne tient pas compte des valeurs de la diagonale, on aboutit cette formule.

Droits de reproduction et de diffusion rservs Sciences Humaines

21

Pour cela nous utiliserons la thorie des graphes15. Elle nous permet de dire qu toute matrice symtrique, telles que nous les avons construites avec les divers indices de similitude, correspond un graphe valu non orient. Les objets mathmatiques que propose la thorie des graphes sont en effet appropris la description des similitudes. Il est alors possible de nous appuyer sur les outils que nous donne cette thorie pour construire des reprsentations graphiques les plus fidles possible. Quelles diffrentes organisations dun ensemble de variables cherche-t-on dcrire ? Les reprsentations graphiques qui sont, ici, utilises ne relvent pas dune reprsentation approche des distances exprimes par la matrice de similitude (au sens dune reprsentation gomtrique comme dans lAFC) mais visent une reprsentation exprimant par des traits les liaisons (les proximits) entre variables. On obtient une reprsentation plus topologique que gomtrique. a) En premier on veut savoir si ces variables sorganisent autour de dimensions. Lanalyse factorielle nous propose des axes gomtriques (le plus souvent dans un espace Euclidien). Ici nous utiliserons la notion de chane qui informe sur lintermdiarit et une notion plus polymorphe celle darbre comme ensemble de chanes maximales. Ce dernier donne une structure16 lensemble des variables. On voit sur lexemple pourtant simple de la figure 1 quun arbre peut montrer lexistence de plusieurs dimensions
Soit la ressemblance tablit entre les variables a f : Sommets a b c a * b 0 * c 1 1 * d 1 1 0 e 0 1 1 f 0 0 0 par un seul sujet d e f

* 0 0

* 1

On peut extraire de ce graphe larbre ci-dessus.

b) Cet arbre est un peu squelettique. Il met bien en vidence une dimension principale allant de a f mais il ignore les cycles (a,c,d,b,a) et (c,b,e,c). Si les donnes ne sont pas correctement dcrites par un (ou des) axe mais forment un (ou des) cycle(s) il faut abandonner lide dune seule dimension explicative. Les cycles sinterprtent souvent comme le produit de deux dimensions. Dans une tude sur les exploitations agricoles on obtenait un cycle qui passait des indicateurs relatifs aux grandes exploitations cralires ceux des grandes exploitations viticoles puis des petites exploitations viticoles pour se terminer par ceux des petites exploitations cralires. On pouvait alors mettre en vidence lexistence de deux critres indpendants : grand / petit et viticole / cralier. On verra plus loin un cycle sappuyant sur deux oppositions : pays en voie de dveloppement versus pays dvelopps et pays occidentaux versus pays sous influence communiste (cf. 2.4). c) La recherche de classifications est aussi un mode classique de traitement des donnes. Un ensemble dalgorithmes vise construire des classes (Classification

Cet arbre montre trois chanes maximales (a,d,b,e,f) allant de a f ainsi que (a,d,b,c) et (c,b,e). Figure 1 Exemple

15 16

Thorie dfini par Koening, 1925 et introduite en France par Berge, 1970 Cette structure est minimale car on ne peut lui enlever une arte sans dtruire la connexit et donc larbre.

Droits de reproduction et de diffusion rservs Sciences Humaines

22

Ascendante Hirarchique, Segmentation, Nues dynamiques, block-model). La notion de cliques et leur organisation en un filtrant des cliques est, comme nous le verrons plus loin, le moyen de mettre en vidence un ensemble de groupements non obligatoirement disjoints. Cette dernire proprit, mme si elle donne une certaine complexit lanalyse, donne une souplesse et une richesse de description que na pas la dfinition des classes qui supposent obligatoirement la disjonction (un lment ne peut pas appartenir deux classes). d) Lanalyse du graphe permet la mise en vidence de lune (ou de plusieurs) de ces organisations : dimensions, cycles, groupements. Par l mme linterprtation nest pas dpendante de la procdure mathmatique utilise : classification ou analyse factorielle. Dans un mme graphe on peut dceler une zone de forte densit (clique) pouvant se trouver sur une chane dcrivant un axe. Pour une partie des variables la description en groupements est pertinente, pour une autre partie la description dun axe le sera. On obtient ainsi la possibilit didentifier plusieurs formes de description des donnes. Cette souplesse est lie une proprit essentielle de lanalyse de similitude, proprit qui la distingue des classiques analyses de donnes. Ici la rduction de linformation se fait travers ltude des valeurs localement les plus fortes et non sur la base dune analyse globale (On tend ne pas tenir compte des artes dont les valeurs sont faibles). Quentendons nous par cette distinction local / global ? pour nous faire comprendre nous allons prsenter un exemple. 2.1. UN PREMIER EXEMPLE DANALYSE DE SIMILITUDE. Nous reprenons lexemple du paragraphe 1.2.1.3 Le questionnaire pass 506 sujets reprsentatives de la population franaise visait caractriser la banque par les termes dune liste. Cette liste comprend un grand nombre de termes. Nous en extrayons ici six. Chaque terme est cod de 1 3 comme nous lavons indiqu au paragraphe 1.3.2 (tableau 12). On calcule le Tau de Kendall pour chaque paire de terme17. On obtient une matrice de similitude qui prsente, quand on organise ses lignes (et colonnes), une structure binaire : dun cot on trouve une vision positive et de lautre une vision plutt ngative (tableau 16). Comment lanalyse de similitude montre cela ?

17

Au paragraphe 1.3.1.3. nous navions conserv que linformation : le mot est caractristique de la banque . Lindice tait alors soit la cooccurrence soit le phi de contingence (cf. tableau 11). Ici nous utilisons une information plus complte en utilisant la hirarchie : le mot est non caractristique (cod 1), le mot na pas t choisi ni comme non caractristique ni comme caractristique (cod 2), le mot est caractristique (cod 3). On utilise alors le Tau de Kendall. On trouve en annexe 2 un exemple de questionnaire de caractrisation.

Droits de reproduction et de diffusion rservs Sciences Humaines

23

1 2 3 4 5 6

: : : : : :

La Banque me fait Confiance On est en Confiance Aide Problmes Particuliers Dcouvert Rapporte Banque Travailler son Profit On n'est qu'un Numro

: * : .25 * : .12 .10 * : -.38 -.14 -.17 : -.16 -.16 -.23 : -.29 -.32 -.15

* .21 .15

* .21

Tableau 16 : La Banque : matrice de similitude (Tau de Kendall)

Nous associons cette matrice un graphe valu donc complet. Pour rsumer ce graphe en conservant les informations essentielles la description de la structure des donnes nous allons, en premier, construire larbre maximum18 associ cette matrice de similitude. Pour cela nous ordonnons de manire dcroissante (grce leur valeur) les artes du graphe. Lensemble de ces valeurs forme un prordre (il peut y avoir plusieurs artes de mme valeur) ; on appelle Prordonnance de similitude la liste ordonne associant les artes et leurs valeurs. Pour le graphe de cet exemple nous avons la prordonnance suivante (La premire arte rejoint les sommets 1 et 2 et a la valeur 0,25).
0,25 (1-2) ; 0,21 (4-5) ; 0,21 (5-6) ; 0,15 (4-6) ; 0,12 (1-3) ; 0,10 (2-3) ; -0,14 (2-4) ; -0,15 (3-6) ; -016 (2-5) ; 0,16 (1-5), -0,17 (3-4) ; -0,23 (3-5) ; -0,29 (1-6) ; -0,32 (2-6) ; -0,38 (1-4) Tableau 17 : Prordonnance de similitude de lexemple La Banque.

On construit larbre maximum en parcourant la prordonnance de manire dcroissante et en retenant les artes qui ne construisent pas un cycle avec les artes dj retenues. Pour cela on utilise lalgorithme suivant.
Algorithme de construction de larbre maximum. a- tape k =1 : on retient les deux premires artes. On dfinit les composantes connexes au seuil de la deuxime arte. On dfinit i=0. b- tape k : on dfinit vk la valeur de larte suivante. c- on tablit la liste lk des artes ayant la mme valeur vk . d- on retient les artes de cette liste qui relient deux composantes connexes diffrentes de ltape k-1 . e- on reconstruit avec les artes retenues les composantes connexes de ltape k . f- sil y a plusieurs composantes connexes on retourne en b (en se plaant la dernire artes de la liste lk ). g- les artes retenues aprs ce critre darrt sont les artes de larbre maximum (et sil y a des ex-aequo de la RAM, cf. infra).

Cet algorithme appliqu la prordonnance des donnes La Banque construit larbre suivant: tape 0 0 1 2 3 4 valeurs 0,25 0,21 0,15 0,12 0,10 -0,14 liste li des artes 1-2 4-5 ; 5-6 4-6 1-3 2-3 2-4 artes retenues 1-2 4-5 ; 5-6 non retenu car cycle (4,5,6) 1-3 non retenu car cycle (1,2,3) 2-4 composantes connexes (1-2) (3) (4) (5) (6) (1-2) ; (4-5-6) ; (3)

(1-2-3) ; (4-5-6) (1-2-3-4-5-6)

18

On appelle arbre maximum larbre dont la somme des valeurs de ses artes est maximale.

Droits de reproduction et de diffusion rservs Sciences Humaines

24

arrt car il ny a quune seule composante connexe.

Cette procdure est un peu semblable celle de la construction dun rseau lectrique lmentaire. On veut relier les diffrents groupes dusagers (les composantes connexes) au moindre cot. La solution est un rseau qui a la forme dun arbre (ici minimum). Si lune des artes est coupe par une intemprie lune des deux composantes connexes ainsi cres se trouve sans lectricit.

Droits de reproduction et de diffusion rservs Sciences Humaines

25

Nous avons, pour les besoins de lexemple19 modifi une valeur de la matrice de similitude. Il y avait en fait deux artes ayant mme valeur 0,14. Dans ce cas o deux artes (ici les artes 2-4 et 3-6) peuvent faire partie de larbre maximum, il y a deux arbres maximum possibles (3-1-2-4-5-6) ou (2-1Figure 2 : La Banque : Arbre Maximal. 3-6-5-4). Et il nest pas possible de choisir lun ou lautre de ces arbres car les sommes des valeurs de leurs artes sont identiques. Il faut alors dessiner sur un mme graphe les deux arbres, tous les deux maximaux. Il nous faut accepter une modification de la dfinition premire de la figure obtenue par lalgorithme : on appelle cette figure la RAM (Runion des Arbres Maximaux).
le Graphe-Seuil Gs0 au seuil s0 est tel quon efface les artes de valeur infrieure un certain seuil s0. On ne garde que les artes suprieures ou gales ce seuil. Il est compos des artes (ij) tel que si valeur (ij ) s 0 alors (ij ) G s 0 .

Figure 3 : La Banque : RAM, Runion des Arbres Maximaux.

Pour donner un peu de chair autour de ce squelette (la RAM de la figure 3) on va admettre toutes les artes suprieures une certaine valeur-seuil. On dfinit alors une nouvelle notion : le Graphe-Seuil. Ici on dessine le graphe des artes positives (s0 = 0,0). Il complte la description de larbre. Il montre que ces donnes sont constitues de deux sous-ensembles correspondant deux sous-graphes. Lopposition entre ces deux groupes de variables est bien indique par larte de valeur ngative (-0,14)de larbre maximum qui runit ces deux composantes connexes. On voit que la reprsentation de la banque (ici caricaturale pour les besoins de lillustration) repose pour une partie de la population interroge sur la confiance et pour une autre partie sur le profit que fait la banque avec largent de ses clients.

19

Cet exemple donne un cas particulier darbre : cest une chane (de 6 3). On se trouve rarement dans ce cas de figure.

Droits de reproduction et de diffusion rservs Sciences Humaines

26

Figure 4 : La Banque : Graphe des artes positives.

2.2 LA DEMARCHE FORMELLE DE LANALYSE DE SIMILITUDE. Nous prenons maintenant un exemple plus consquent pour montrer la dmarche de lanalyse de similitude. La matrice de similitude est ici une matrice de corrlation calcule sur des donnes provenant dune enqute sur les valeurs partir dun questionnaire de Schwartz20 pass auprs de 268 sujets. Leurs rponses au questionnaire ont permis de construire une srie de scores pour chaque sujet : chaque score reflte lopinion dun sujet propos dune valeur. Cette mthode identifie dix valeurs : B*Accomplissement, A*Pouvoir, K*Scurit, J*Conformisme, H*Tradition, G*Bienveillance, F*Universalisme, D*Stimulation, E*Centration sur soi, C*Hdonisme. On obtient la matrice suivante.
B*Accomplissement : * A*Pouvoir : 41 * K*Scurit : 34 45 * J*Conformisme : 34 41 58 * H*Tradition : 13 18 28 39 * G*Bienveillance : 12 -4 32 27 33 * F*Universalisme : 1 -14 19 10 29 41 * D*Stimulation : 19 12 12 -3 6 13 20 * E*Centration sur soi : 13 14 13 5 11 13 13 34 * C*Hdonisme : 9 -1 5 -11 -6 16 7 27 13 Tableau 18 : Les 10 Valeurs de Schwartz : matrice de similitude (corrlation multiplie par 100)

20

Enqute Eric Tafani, 1999, Laboratoire de Psychologie Sociale de lUniversit de Provence ; et Beauvois, L., (ed) La construction sociale de la personne vol 4, P.U.G.

Droits de reproduction et de diffusion rservs Sciences Humaines

27

2.21 Recherche dun squelette : la construction de larbre et la 3-analyse On associe cette matrice un graphe complet. Le rsum de linformation contenu dans cette matrice, dans le graphe complet, doit tre conu comme devant donner le maximum dinformations avec le minimum dartes. La premire analyse consiste donc construire un arbre maximum.

Droits de reproduction et de diffusion rservs Sciences Humaines

28

Figure 5 : Les 10 valeurs de Schwartz : arbre maximum

Cet arbre nous montre quil existe une sorte daxe allant de la valeur E*Centration sur soi B*Accomplissement. Il faut vrifier ce premier rsultat. Pour cela on utilise une mthode de traitement du graphe dite 3-analyse . Cette mthode fut la premire utilise par Claude Flament, linventeur de lanalyse de similitude. Elle consiste tudier tous les triangles du graphe complet (ij,jk,ki) et dliminer, dans chacun de ces triangles, larte dont la valeur est la plus faible. Cette mthode procde de lintuition dintermdiarit, intuition reposant sur lingalit triangulaire : si Le triangle ikj est dune certaine manire un sommet j est intermdiaire entre les sommets i et k on doit aplati. avoir Sij > Sik et Sjk > Sik. En liminant (ik) on cr une chane (i,j,k).
Algorithme de la 3-analyse Le graphe G3 est compos des artes qui ne sont pas marques par lalgorithme suivant : - soit larte (ik) de G. - on passe en revue tous les sommets j du graphe G : j forme avec ik un triangle dont les artes sont (ij), (ik), (jk) [certaines de ces artes peuvent dj tre marques] - Si Sij > Sik et Sjk > Sik alors on marque larte (ik).

Figure 6 : Principe de la

Aprs lexploration, par cet algorithme, de toutes les artes du graphe G, on obtient un graphe dit G3 . Ce graphe contient larbre mais on y trouve le plus souvent dautres artes formant des cycles. Il contient larbre car si on applique lalgorithme prcdent non seulement au cycle dordre 3 (les triangles) mais tous les cycles (dordre 4 m-1, avec m le nombre de sommets du graphe), en liminant larte la plus petite de chaque cycle, on obtient larbre maximum (graphe sans cycle). Lexistence de cycle dans le

Droits de reproduction et de diffusion rservs Sciences Humaines

29

graphe G3 est lindicateur dune inadquation partielle, ou totale, de lide daxe pour dcrire les donnes. Quand les donnes sorganisent autour dun axe le graphe, G3 est larbre maximum. La thorie socio-psychologique sur lequel repose ce questionnaire prdit lexistence dun cercle sur lequel se disposent les valeurs21. On constate ici, par le graphique de la 3-analyse, que ce cercle est peu prs respect par les donnes (A,B,C,D,E,F,G,H,J,K). Laxe dessin par larbre maximum est ici un grand cercle o les sommets D et E rejoignent les sommets B et A. La centration sur soi a dune certaine faon des points communs avec le pouvoir et de lautre avec la stimulation, de mme laccomplissement personnel est associ la stimulation et au pouvoir. Ils ne sont pas aux deux bouts dun axe. Les valeurs de corrlation entre (BA) et (BD) sont bien diffrentes (0,41 versus 0,19 par exemple) mais ces artes ne sont jamais les plus petites dans tous les triangles possibles. Elles reprsentent un maximum local . Nous reviendrons plusieurs fois sur cette caractristique de lanalyse de similitude : elle raisonne localement (ici, sur les triangles). On peut aussi observer que dautres cycles existent tel (E,D,F,G), (D,F,G,C) (G,H,J,K) etc.. Il montrent une certaine complexit autour de la chane de larbre maximum qui va de E G.

21

Cette circularit a t vrifie dans de nombreuses recherches utilisant diverses analyses de donnes.

Droits de reproduction et de diffusion rservs Sciences Humaines

30

2.2.2 Recherche de la chair autour du squelette : le filtrant des cliques22. Ayant mis en vidence que la chane principale de larbre maximum nest pas une bonne description de ces donnes, il convient de complter lanalyse. Pour cela il nous faut explorer la prordonnance de similitude. Cette prordonnance se prsente sous la forme dune liste dartes affectes de leur valeur de similitude.
Tableau 19 : Les 10 valeurs de Schwartz : dbut de la prordonnance de similitude. La liste ci-dessous indique la valeur de larte puis les deux sommets: la premire arte est .58 (KJ) cest larte (KJ) qui a pour valeur 0,58. La prordonnance : .58 (KJ) .45 (AK) .41 (BA) .41 (AJ) .41 (GF) .39 (JH) .34 (BK) .34 (BJ) .34 (DE) .33 (HG) .32 (KG) .29 (HF) .28 (KH) .27 (JG) .27 (DC) .20 (FD) .19 (KF) .19 (BD) .18 (AH) .16 (GC)

On va parcourir cette prordonnance de manire dcroissante. A une valeur donne s0 on peut faire Figure 8 : Les 10 valeurs de Schwartz Graphe-seuil Gs=0,41 correspondre un graphe seuil Gs0. A la premire valeur 0,58 ce graphe nest compos que dune seule arte. Au seuil 0,41 il est compos de 5 artes : (KJ), (AK), (BA), (AJ), (GF), cf. figure 14. Dans ce graphe on observe une clique (A,K,J) qui sest constitue ce seuil. On dira que cette clique la valeur 0,41. Si on poursuit le parcours de la prordonnance au seuil suivant 0,39 se rajoute larte (JH), puis au seuil 0,34 se rajoute les artes (BK), (BJ), (DE). La notion de prordre prend ici tout son sens quand on
Une clique est un sous-graphe complet. Soit G = (X,U) et soit un sous ensemble de sommets E X , pour tout couple i, j E il existe une arte (ij ) U . Une clique est dite clique maximale sil nest pas possible de rajouter un nouveau sommet E sans dtruire sa proprit de sous-graphe complet. En explorant pas pas de manire dcroissante la prordonnance de similitude on va faire apparatre des cliques maximales qui forment un ensemble organis par linclusion. Cet ensemble est appel filtrant des cliques maximales . Figure 9 : Les 10 valeurs de Schwartz Graphe-seuil Gs=0,34

Droits de reproduction et de diffusion rservs Sciences Humaines

31

observe que plusieurs artes ont la mme valeur. Avec ce nouveau seuil on observe la prsence de plusieurs triangles et dune clique maximale de quatre sommets (B,A,K,J) qui inclut la clique (A,K,J)du seuil 0,41 prcdent. Si on continue notre parcours dcroissant on verra successivement apparatre les cliques (H,G,F) au seuil de 0,29 puis (K,J,H) et (K,H,G) au seuil 0,28. Ces deux cliques sunissant au seuil suivant 0,27 pour former la clique maximale (K,J,H,G). Toutes les cliques ne se trouvent pas obligatoirement dans la liste des cliques maximales. Ici on va voir que les cliques (A,K,J) et (B,A,K,J) sont prsentes dans le filtrant des cliques maximales mais que les cliques (B,A,K) et (B,K,J) ne sy trouvent pas car elles apparaissent au seuil 0,34 et sont immdiatement, ce seuil, absorbes par la clique (B,A,K,J). La liste des cliques maximales a donc des proprits particulires : elles existent entre le seuil de leur cration et celui de leur absorption. Si, pour une clique, ces deux seuils sont confondus, alors elle ne fait pas partie du filtrant. Le filtrant ne retient que les cliques qui ne sont pas des toiles filantes ! Construction pas pas du filtrant : valeurs artes 0,58 K-J 0,45 A-K 0,41 A-B ;A-J ; G-F 0,39 J-H 0,34 B-K ; D-E 0,33 H-G 0,32 K-G 0,29 H-F 0,28 K-H 0,27 J-G ; D-C 0,20 F-D 0,19 K-F ; B-D 0,18 A-H etc . cliques maximales du filtrant (K,J) (K,J) ; (A,K) (A,K,J) ; (B,A) ; (G,F) [cf. figure 8] (A,K,J) ; (B,A) ; (G,F) ; (J,H) (B,A,K,J) ; (G,F) ; (J,H) ; (D,E) [cf. figure 9] (B,A,K,J) ; (G,F) ; (J,H) ; (D,E) ; (H,G) (B,A,K,J) ; (G,F) ; (J,H) ; (D,E) ; (H,G) ; (K,G) (B,A,K,J) ; (H,G,F) ; (J,H) ; (D,E) ; (K,G) (B,A,K,J) ; (H,G,F) ; (K,J,H) ; (K,H,G) ; (D,E) (B,A,K,J) ; (H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) (B,A,K,J) ; (H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) ; (F,D) (B,A,K,J) ; (K,H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) ; (F,D) ; (B,D) (B,A,K,J) ; (K,H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) ; (F,D) ; (B,D) ; (A,K,J,H)

22

On utilise cette notion mathmatique de Filtrant car lensemble des cliques que lon va maintenant dfinir a bien les proprits dun ensemble filtrant suprieurement : ensemble ordonn tel que toute paire de ses lments admet au moins un majorant commun.

Droits de reproduction et de diffusion rservs Sciences Humaines

32

Pour reprsenter cette suite de cliques et leurs relations dinclusion on construit et dessine le filtrant des cliques maximales qui est compos des cliques maximales et de leur relation dinclusion. On dessine rarement le filtrant complet qui a pour sommet terminal la clique du graphe complet, clique constitue par tous les sommets. On ne reprsente pas non plus les artes qui sont les cliques maximales de deux sommets car elles ont la proprit dtre les artes du graphe G3. Pour mettre en vidence les relations dinclusion on cherche positionner au mieux les cliques maximales en se servant de laxe haut / bas pour exprimer la dcroissance des seuils et, dans la mesure du possible, reprsenter une quasimtrique de lchelle de la valeur des seuils.

Figure 10 : Les 10 Valeurs de Schwartz : Filtrant des cliques maximales (limit au seuil de 0,11). La valeur des cliques est la valeur de larte qui a cre la clique (multipli par 100) tel quon la vu dans la construction pas pas du filtrant. Cette valeur se trouve avant lastrisque, aprs celle-ci on trouve les lettres correspondantes aux sommets composant la clique (exemple : 11 * K.H.G.F.E est la clique (K,H,G,F,E) cre au seuil 0,11). On peut constater que les sommets se trouvent prioritairement dans une certaine zone de ce filtrant. On peut reprsenter ainsi leurs domaines :

Droits de reproduction et de diffusion rservs Sciences Humaines

33

La premire constatation est la situation de llment K Scurit qui participe la quasi totalit des cliques. Ce filtrant montre la circularit du graphe : on retrouve les lments D (Stimulation) et E (Centration sur soi) associs aux lments des deux bouts de la chane (B-A / F-G). A un seuil lev (0,18), on observe lexistence dun axe sous la forme dune famille de recouvrement allant de la clique (F,G,H) la clique (B,A,K,J) par une suite de proximits qui est reprsente par une ligne en zigzag dans

Figure 11 : Les 10 Valeurs de Schwartz : Filtrant des cliques maximales (limit au seuil de 0,18).

le haut du filtrant. Cette suite de proximits montre bien que laxe identifi plus haut recouvre en fait ce que le caricaturiste Daumier avait fait de la tte de Louis Philippe : par dformations successives le portrait devenait une Poire. Il y a entre chaque dessin successif une forte ressemblance mais presque aucune entre le premier (Louis Philippe) et le dernier (la poire). Ici les raisons qui ont contribues la ressemblance des lments B (Accomplissement) et A (Pouvoir) ne sont pas celles qui ont contribu la ressemblance des lments G (Bienveillance) et F (Universalisme). Le filtrant, au seuil de 0,11, nous permet aussi de tenir compte de groupes de cliques apparus des seuils plus bas. Dans cet exemple il y a un important cart entre le premier ensemble de cliques (cr de 0,41 0,27) et un second ensemble qui se forme autour des seuils de 0,11 0,13. Ce second ensemble met en vidence les liaisons des valeurs D,E et C avec le reste du graphe. Il montre une certaine autonomie de ces valeurs qui sorganisent dabord de manire isole et ne sintgrent quavec la forte dcroissance du seuil. Le graphe au seuil de 0,14 (figure 12) commencera montrer cette intgration alors que celui dessin au seuil de 0,27 (figure 13) montre au contraire deux univers distincts de valeurs.

Droits de reproduction et de diffusion rservs Sciences Humaines

Figure 12 : Les 10 Valeurs de Schwartz : graphe au seuil de 0,14

34

Figure 13 : Les 10 Valeurs de Schwartz : graphe au seuil de 0,27

2.3 COMPARAISON ENTRE ANALYSE DE SIMILITUDE ET ANALYSE FACTORIELLE. On se propose dtudier le rapport entre un ensemble de professions (lignes L1 L8) et un ensemble dadjectifs dcrivant des traits de caractres (colonnes C1 C8). On a pour cela interrog 60 sujets23 qui on a demand dassocier chaque profession deux adjectifs pour dcrire un homme sympathique. On obtient le tableau de frquences suivant (tableau 20) : par exemple le technicien (L6) a t associ 22 fois ladjectif intelligent (C5).

Tableau 20 : Homme sympathique : tableau de contingence.


L1 L2 L3 L4 L5 L6 L7 L8 Total C1 19 20 20 8 10 10 3 4 94 C2 9 5 3 9 5 5 18 21 75 C3 9 11 9 12 8 12 13 12 86 C4 26 25 25 23 26 24 11 12 172 C5 10 9 15 14 19 22 25 24 138 C6 16 14 13 16 13 13 11 11 107 C7 19 19 10 14 11 11 12 11 107 C8 4 6 13 12 13 13 20 17 98 C9 8 11 12 12 15 10 7 8 83 Total 120 120 120 120 120 120 120 120 960

Lanalyse de ce tableau dit tableau de contingence se fait en utilisant la corrlation entre les colonnes. On obtient alors la matrice de corrlation suivante entre les adjectifs (tableau 21).

23

Exemple tir de Maisonneuve, Recherches diachroniques sur une reprsentation sociale,1978 ; repris par Rouanet, H.,Le Roux, B., 1993

Droits de reproduction et de diffusion rservs Sciences Humaines

35

Tableau 21 : Homme sympathique : matrice de corrlation.


C1 C7 C6 C4 C9 C3 C2 C5 C8 C1 * .53 .55 .77 .27 -.63 -.74 -.85 -.82 C7 * .65 .34 -.21 -.09 -.14 -.78 -.82 C6 C4 C9 C3 C2 C5 C8

* .73 .27 -.33 -.52 -.83 -.81

* .66 -.70 -.93 -.74 -.78

* -.59 -.71 -.28 -.18

* .60 .47 .50

* .60 .58

* .92

Les adjectifs sont les suivants : C8 :comprhensif, C5 intelligent ; C2 gnreux ; C3 gai ; C7 courageux ; C6 serviable ; C4 honnte ; C1 srieux ; C9 discret. Cette matrice met en vidence deux sous ensembles de variables : (C1,C7,C6,C4) et (C3,C2,C5,C8) trs corrles positivement et une variable intermdiaire C9 qui est proche de certains lments du premier groupe. Entre ces deux groupes on ne trouve que des corrlations ngatives. Lanalyse de similitude va reprsenter cela en dessinant un arbre maximum (figure 14) dont lune des artes aura une valeur ngative et en dessinant un graphe (au seuil 0,0 cest dire ne comprenant que les artes de valeur positive : figure 17) compos de deux cliques maximales mettant en vidence les deux groupes de variables dj cits. On voit alors que la variable C9 forme aussi une clique avec les sommets (C1,C6,C4) elle est donc relativement bien associe au premier sous-ensemble de variables.

Figure14 : Homme sympathique :Arbre maximum

Figure 15 : Homme sympathique : ACP (cercle des corrlations

Figure 16 : Homme sympathique : (comprenant les lignes et les colonnes)

AFC

Droits de reproduction et de diffusion rservs Sciences Humaines

36

On a effectu sur ce mme tableau de donnes une analyse factorielle (ACP) et un analyse de correspondance (AFC). On obtient des rsultats comparables mais avec certaines nuances. Dans les deux graphiques on voit une opposition entre (C1,C7,C6,C4) et (C3,C2,C5,C8). De mme la colonne C9 se distingue un peu.

Figure 17 : Homme sympathique : Graphe des artes positives (graphe-seuil, s = 0,001)

Mais on peut aussi remarquer que lloignement, dans le graphique de lACP, entre C2-C3 et C5-C8 ne correspond pas aux valeurs de la matrice des corrlations : C2-C3 a pour valeur 0,60 tout comme C2C5. On peut encore tre surpris de lloignement de C7 avec C1, ils sont corrls 0,53 alors que C6 semble plus proche de C1 avec quasiment la mme corrlation 0,55. Dans le graphique de lAFC on trouve aussi quelques diffrences : C3 est trs loign de C2 et surtout C2 est encore plus loin de C5-C8 alors que leur corrlation est trs forte (0,60 et 0,58). C1 est au bout du premier axe alors quelle forme avec C4,C6,C7 une clique dont les valeurs sont trs fortes (suprieure 0,53 sauf C4-C7 0,34). Une premire raison ces diffrences est lcart important entre les valeurs explicatives des deux premiers axes. Ils font respectivement 64% et 21% pour lACP, 75% et 16% pour lAFC. Il faudrait craser le second axe (par homothtie) pour donner une image un peu plus fidle. Mais la raison principale des diffrences tient laccent mis dans ces analyses sur la prise en compte de toutes les valeurs de la matrice de corrlation(ou la matrice de la distance du Khi2 dans le cas de lAFC). Dune certaine manire on donne autant dimportance aux faibles valeurs (ici en particulier aux valeurs ngatives) quaux fortes valeurs. Lanalyse de similitude raisonne, elle, localement . Autour dun sommet (dune variable) on prend en considration les valeurs les plus fortes (en particulier dans larbre maximum et dans les graphes seuil) sans se proccuper de reprsenter graphiquement les valeurs les plus faibles. On raisonne en tenant compte du fait que la similitude entre deux variables i et j tient certains rapports entre les adjectifs et les professions alors que la similitude de deux autres variables m et l tient dautres rapports. Il nest pas ncessaire pour tablir la ressemblance entre les deux premires variables de tenir compte des lments qui font la ressemblance des deux autres. On peut en donner une ide de cette diffrence de traitement local versus global sur cet exemple mme si les calculs dans cet exemple relativisent, en partie, la possibilit qua lanalyse de similitude de tenir compte des valeurs extrmales. En effet lutilisation du coefficient de corrlation vise rsumer globalement lensemble des valeurs des colonnes du tableau de contingence prises deux deux. Quand les donnes sont

Droits de reproduction et de diffusion rservs Sciences Humaines

37

dichotomiques (0/1) les diffrences entre analyse factorielle et analyse de similitude sont bien plus importantes. Nous allons transformer le tableau de donnes en calculant pour chaque case le rapport entre le nombre de choix observs et le nombre thoriques si les choix des diverses professions taient comparables celui de la population totale. Soit nmk le nombre de choix de la case Lm/Ck (par exemple la case L4/C3 contient 12 choix : cf. tableau 20). On calcule nmk les choix thoriques correspondant lindpendance statistique : n' mk = (nm nk ) N . Dans le cas de la case L4/C3 on calcule : n'43 = (120 86) 960 ; n43 = 10,75. Le rapport nmk / nmk est alors gal 1,12. Il indique une case plutt pleine. On reprsente ces rapports dans le tableau suivant o on a rorganis les colonnes pour faire apparatre les blocs de nombre suprieurs 1,1 ; ces blocs indiquent une certaine conjonction entre les lignes et le colonnes. Cest cette conjonction qui est interprte par les analyses factorielles ou de similitudes.

Tableau 22 : Homme sympathique : Tableau des rapports valeur observe sur valeur thorique.
L1 L2 L3 L4 L5 L6 L7 L8 C7 1,42 1,42 0,75 1,05 0,82 0,82 0,90 0,82 C1 1,62 1,70 1,70 0,68 0,85 0,85 0,26 0,34 C6 1,20 1,05 0,97 1,20 0,97 0,97 0,82 0,82 C4 1,21 1,16 1,16 1,07 1,21 1,12 0,51 0,56 C9 0,77 1,06 1,16 1,16 1,45 0,96 0,67 0,77 C3 0,84 1,02 0,84 1,12 0,74 1,12 1,21 1,12 C2 0,96 0,53 0,32 0,96 0,53 0,53 1,92 2,24 C5 0,58 0,52 0,87 0,81 1,10 1,28 1,45 1,39 C8 0,33 0,49 1,06 0,98 1,06 1,06 1,63 1,39

Ce tableau (22) a une certaine complexit. On comprend alors que tout rsum sera une approximation. Les analyses factorielles vont raisonner de manire globale. Ainsi on peut observer que dans le plan des deux premiers axes de lAFC la profession L3 (les vendeurs) se trouve trs proche des adjectifs C4 (honnte) et C9 (discret) comme le montre les deux valeurs 1,16 du tableau mais la distance importante sur ce plan de L3 avec C1 (srieux) ne reflte pas, elle, la valeur la plus forte de la ligne C1-L3 (1,70). Cet adjectif (C1) est plus attir par L1 et L2, eux mme attirs par C7. Cette suite dattirances est exprime mathmatiquement par le fait que chaque profession est au barycentre des lments du second ensemble (des adjectifs) et rciproquement. Cest cette suite dattirances qui dtermine la position dans le plan des facteurs. Dans lanalyse de similitude le raisonnement est local. Ainsi le groupe (C8, C5, C2, C3) na dexistence que grce aux lignes L7 et L8 (Universitaires et Professions librales) et cela malgr leurs divergences sur les lignes L5 et L6 (Employs et Techniciens). Cest sur les lignes L7 et L8 que ces quatre adjectifs ont leurs valeurs les plus fortes. De mme le groupe (C7, C1, C6, C4) se dfinit grce ses valeurs fortes sur les deux premires lignes (Paysans et Ouvriers). La position de C9 proche de C4 dans le graphe est ici exprime par leur proximit sur les lignes L2 L6. Le graphe de similitude met en vidence la nette sparation entre les deux groupes de colonnes, en cela il remet en cause limpression dune possible diagonalisation que donne le tableau.

Droits de reproduction et de diffusion rservs Sciences Humaines

38

Comme lcrit Alain Degenne24 on peut distinguer ces mthodes par une mtaphore gomtrique. Si lon veut une mtaphore gomtrique de manire comparer lanalyse de similitude et lanalyse factorielle, lanalyse factorielle dtermine les meilleurs plans de projection dun nuage de points de manire le prsenter sous diffrents points de vue, lanalyse de similitude recherche un meilleur itinraire pour dcouvrir une topographie de ce nuage, vu en quelque sorte, de lintrieur . Par lanalyse de similitude on vite les phnomnes dhomothtie (de taille) qui affecte lanalyse factorielle. Philippe Cibois25 les met bien en vidence, aussi a-t-il inclus dans ses programmes dAFC (Tri-deux, Modalisa) la possibilit de reprsenter les premires valeurs de similitude, dessinant ainsi sur le plan factoriel un graphe-seuil. 2.4 COMPARAISON ENTRE ANALYSE MULTIDIMENSIONAL SCALING (MDS). DE SIMILITUDE ET ANALYSE

Figure 18 : Douze
Le premier exemple trait dans le livre de rfrence26 de la mthode Multidimensional Scaling prsente une enqute effectue auprs de 18 tudiants amricains en 1968 (Whish, M., 1971). Il leur tait prsent les 66 couples forms par douze pays et on leur demandait de situer sur une chelle en 9 points la ressemblance entre les deux pays de chaque couple. Ensuite les auteurs ont identifi la similitude entre deux pays par la moyenne des scores obtenus27. Ils prsentent les rsultats sur un plan deux dimensions de lanalyse faite par le programme INDSCAL.

24 25 26 27

Degenne, A., 1985 Cibois, Ph, 1990 Kruskal, J.B., Wish, M., 1978 On est ici dans le cas rare dune relation [X x X] o les valeurs sont donnes directement par les donnes : ici la moyenne des scores individuels.

Droits de reproduction et de diffusion rservs Sciences Humaines

39

Nous avons effectu une analyse de similitude de la matrice des scores moyens et nous avons dessin sur ce plan, produit par INDSCAL, larbre maximum de lanalyse de similitude. Nous pouvons observer que les deux graphiques ne sont pas concordant mme sils ont quelques similitudes. Les auteurs sont eux-mmes critiques sur leur propre reprsentation planaire. Ils prsentent une matrice o se trouvent calcules les diffrences entre les valeurs de la matrice de similitude et celles des distances calcules entre les pays sur le plan des deux premires dimensions repres par le programme INDSCAL. Il existe une diffrence non ngligeable pour certain couples de pays : pour le couple Cuba Brsil28, la distance sur le plan nest pas reprsentative de sa ressemblance telle quelle a t exprime par les tudiants. En effet cette arte fait partie de larbre maximum pour lanalyse de similitude. Les auteurs concluent lanalyse de cet exemple en mettant en garde le lecteur : This example illustrates an important point about the interpretation of MDS configuration. The coordinates printed out and plotted by the computer are not generally susceptible to direct interpretation . Nous montrons dans la figure 19 le graphe au seuil 4,72, seuil permettant de reprsenter le premier tiers des artes. Il montre que les premires impressions conduisant des catgorisations simples (opposition pays dvelopps versus en voie de dveloppement ou encore pays occidentaux versus pays sous influence communiste) ne sont pas vrifies. Les donnes de cette enqute sont plus complexes. Lanalyse des graphes aux seuils successifs et de manire plus rigoureuse lanalyse du filtrant des cliques sont ici ncessaires et trs clairantes (cet exemple sera repris de manire dtaill au Figure 19 : Douze pays : graphe au seuil de 4,72 4.3). Larbre maximal (cf. figure 39) se compose reprsentant le premiers tiers des artes (les valeurs sont bien dune toile autour des USA regroupant les multiplies par 100) pays occidentaux, il dfinit une chane de pays communistes de la Yougoslavie Cuba, et une chane de pays en voie de dveloppement du Brsil lInde ou au Congo. Mais cet arbre maximum nest pas une bonne description des donnes. A travers lanalyse du filtrant des cliques, on peut montrer limportance des cycles et mme des liaisons transversales entre zones du graphes. Le Filtrant met dabord en vidence des zones o les cliques apparaissent des seuils assez levs (au dessus de 4,50). On peut alors identifier, gauche, une zone de pays en voie de dveloppement Congo(2), Egypte(4), Inde(6) ou Congo, Egypte, Cuba(3) ou Brsil(1), Congo, Cuba. Mais ces cliques sont totalement isoles, elles ne vont pas se regrouper mme si on prend en compte la moiti des artes de la prordonnance. De mme on trouve, un seuil lev une structure ferme des pays dinfluence communiste Cuba(3), Chine(9), Russie(10), Yougoslavie(12), auquel viendra se rattacher un seuil infrieur lEgypte(4). Enfin, droite, on trouve les pays occidentaux autour des USA (11) Isral (7) et le Japon (8) une clique dont la France(5) est exclue, mme des valeurs de similitude trs faibles. Il y a

28

Ces deux pays sont les seuls pays latino-amricains. Cest sans doute la raison ponctuelle de leur relativement grande similitude. Les critres plus gnraux de Est / Ouest et Nord / Sud sont alors moins pertinents.

Droits de reproduction et de diffusion rservs Sciences Humaines

40

donc bien une ralit, un seuil lev, de la catgorisation spontane. Mais ds que lon abaisse le seuil du filtrant, cette catgorisation ne tient plus.

Figure 20 : Douze pays : Filtrant des cliques suprieures 4,16. 1 = Brsil, 2= Congo, 3 = Cuba, 4 = Egypte, 5 = France, 6 = Inde, 7 = Isral, 8 = Japon, 9 =Chine, 10= Russie, 11 = USA, 12 = Yougoslavie.

Dans le filtrant au seuil de 4,16 la Russie (10) est prsente dans de trs nombreuses cliques. On identifie droite une structure de recouvrement connexe autour des USA (11), avec dun cot Isral (7) et le Japon (8) puis Japon (8) et Russie (10) et enfin vers Russie (10) et France (5). Plus gauche on observe une structure de recouvrement connexe autour de la Russie (10) et de la Yougoslavie (12) avec dun cot Isral (7), Japon (8), puis France (5) et enfin Egypte (4). On notera aussi la multitude des cliques isoles sans descendance : elles expriment les diffrentes facettes des pays en voie de dveloppement.

Droits de reproduction et de diffusion rservs Sciences Humaines

41

Le graphe de la 3-analyse (figure21) montre lui aussi que linterprtation doit se complexifier. Les artes la 3-analyse France Russie et Isral Yougoslavie indiquent comme le filtrant quil existe de nombreuses liaisons transversales. On peut voir que chaque type de regroupement ou de liaison a sa propre logique, son propre raisonnement. Cest la clique Inde, Japon Russie (la vocation asiatique de la Russie !), ou encore Egypte, Inde, Russie, (lappui russe au tiers monde !), Egypte, France, Russie Yougoslavie (la France de De Gaulle hors de lOTAN !, les sujets interroges sont des tudiants amricains en 1968). Lintrt de lanalyse de similitude est de ne pas les mlanger tout en donnant chacune sa place : certains sont majoritaires dautres plus minoritaires (mais ltude des minorits nest-elle pas aussi importante que celle des majorits29

Figure 21 : Douze Pays : graphe 3-analyse (les artes rajoutes larbre sont en trait fin)

29

On fera ici rfrence au livre de Serge Moscovici sur les minorits actives : Moscovici, S., 1979

Droits de reproduction et de diffusion rservs Sciences Humaines

42

CHAPITRE 3

LES DONNEES ONT DES PROPRIETES FORMELLES :

LANALYSE DE SIMILITUDE VA LES METTRE EN EVIDENCE. Le traitement de lanalyse de similitude vise mettre en vidence des proprits formelles qui soient interprtables par les sciences sociales. Les mathmaticiens ont toujours privilgi les axes, les dimensions dun univers (gomtrique). Cette notion est la base des analyses factorielles : elles rsument les donnes par quelques principes organisateurs souvent dichotomiques (jeunes / vieux). Les statisticiens ont ensuite mis en vidence la possibilit de segmenter les donnes en classes, en groupements pouvant permettre une gnralisation, ou donner un nom gnrique un groupe de variables. Enfin les analystes ont cherch affaiblir ces modles. On parle alors de recouvrement de composantes connexes etc Nous allons prsenter dans ce chapitre comment lanalyse de similitude identifie ces diffrentes proprits et leur affecte un degr de vraisemblance. 3.1 CERTAINES CHAINES MAXIMALES DE LARBRE PEUVENT ETRE DES AXES SUPPORTANT UNE DIMENSION QUASI GEOMETRIQUE. Nous avons vu que larbre tait la reprsentation minimale des donnes garantissant le maximum dinformations (la somme des artes). Cest dune certaine faon le squelette sur lequel les reprsentations suivantes (cliques, graphes-seuil ) vont saccrocher. Avec larbre on cherche mettre en vidence les dimensions sur lesquelles les donnes pourraient sorganiser, faire sens. Un arbre est compos de chanes maximales. La construction de larbre est une tentative pour trouver des chanes maximales qui pourraient tre assimilables des axes sur lesquels la position des variables aurait une interprtation mtrique ou en tout cas ordinale. En dautres termes il y aurait une relation entre toutes les similitudes des sommets de la chane maximale.
B*Accomplissement A*Pouvoir K*Scurit J*Conformisme H*Tradition

Pour quil y ait de tels axes il faut que les chanes maximales ait la proprit de * rgularit . On peut donner une 45 * 41 58 * intuition gomtrique de cette proprit 18 28 39 * partir dun extrait de la matrice de Tableau 23 : exemple de Matrice de similitude (valeurs x 100) similitude que nous avons tudie prcdemment (la matrice des 10 valeurs de Schwartz, tableau 18).
: : : : : * 41 34 34 13

Figure 22 Treillis quasi mtrique de cette matrice

On peut reprsenter cette matrice sous la forme dun treillis o les nuds seraient affects de la valeur du coefficient de similitude correspondant aux deux sommets (aux deux gnrateurs). Quand on suit une ligne du treillis en partant dun sommet on observe une dcroissance des valeurs tout au long de cette ligne. Plus deux sommets sont loigns plus leur similitude est faible : par exemple sAK > sAI >sAH (.45 > .41 > .18). On voit sur cet exemple que seule la valeur s14 ne rpond

Droits de reproduction et de diffusion rservs Sciences Humaines

43

pas ce critre : sBK = sBJ. Habituellement on accepte quelques incartades au principe de dcroissance si elles sont trs peu nombreuses et si elles portent sur des valeurs proches de celles qui ne remettraient pas en cause lordre. On peut observer que cette proprit de rgularit de la chane nimpose rien sur le rapport entre les coefficients de similitude des sommets du treillis appartenant deux lignes diffrentes. Ainsi le fait que sBA < sAK alors que sBA > sJH ne remet pas en cause la rgularit de la chane. On ne cherche pas comparer les La proprit de rgularit dune chane. incomparables. On ne cherche pas une Soit une chane (i1,i2,iq,.im). Pour que la chane soit rgulire il approximation mtrique de cette chane, faut que : q, p, n approximation visant positionner les S(iq,iq+p) > S(iq,iq+n) avec 0 < p < m-q et p < n <m-q sommets sur un axe de manire telle S(iq,iq-p) > S(iq,iq-n) avec 0 < p < q et 0 < n <p que les distances sur cet axe soient les Cette proprit peut encore scrire : q, r , t si 0 <q < r <t <m+1 : plus proches possible (au sens des S(iq,ir) > S(iq,it) et S(ir,it) > S(iq,it) moindres carres dans les procdures les plus courantes (tel MDS30)) des distances (duales des coefficients de similitude) indiques par la matrice de similitude. On cherche simplement une proprit structurale sur la prordonnance des coefficients de similitude : proprit mise en vidence si on ordonne la matrice (lignes et colonnes) de telle sorte quil y ait dcroissance en ligne et en colonne ( partir de la diagonale) des valeurs de la matrice de similitude. On peut donner une dfinition mathmatique de cette proprit de rgularit (cf. encart). La matrice de larbre maximum de lexemple des valeurs de Schwartz qui se trouve au tableau 18 ne rpond pas, par exemple, cette proprit. Seuls les cinq premiers items forment une chane rgulire et de manire plus approximative les sept premires valeurs mais ds que lon complte cette chane par les valeurs de Schwartz D et F on perd compltement cette rgularit. Nous avions vu que linterprtation devait alors tenir compte dun grand cycle. Cycle et rgularit sont deux proprits alternatives des chanes. La mise en rapport de larbre avec le filtrant des cliques conduit dfinir une autre proprit : la rigidit des cliques maximales du filtrant. On dsire affaiblir la notion dun arbre support daxes dimensionnels en acceptant quil soit seulement le support dune suite de groupements de sommets pouvant se recouvrir partiellement. Larbre reste alors une bonne description de ces regroupements.
Une clique ayant la proprit de rigidit doit avoir tous ses sommets sur un sous-arbre connexe de larbre maximum : la chane de larbre maximum qui relie deux sommets quelconque dune clique maximale rigide ne doit pas avoir de sommets hors de la clique.

Figure 23 : 10 Valeurs de Schwartz : Les cliques rigides sur larbre.


30

Kruskal, J.B., Wish, M., Multidimensional scaling, Sage, series : quantitative applications in social sciences 11.

Droits de reproduction et de diffusion rservs Sciences Humaines

44

Si on reprend une partie de lexemple des 10 valeurs de Schwartz et que nous dessinions par des ovales les diffrentes cliques de la partie du filtrant reprsente la figure 24, certaines sont rigides sur larbre. On les reprsente sur la figure 23 : (A,J,K), (H,J,K), (G,H,J,K) et (F,G,H). On aurait encore pu dessiner la clique (A,H,J,K). Mais ce filtrant est aussi compos de cliques non rigides : (G,H,K) et (F,G,H,K). Dans ces deux cliques larbre sort de la clique pour passer par le sommet J (figure 25). Cette entorse la proprit de rigidit indique aussi une entorse la rgularit des chanes car on peut dmontrer que toutes les chanes rgulires produisent une zone du filtrant o les cliques sont rigides. Aussi est-il important de prendre en considration les cliques non rigides sur larbre maximum car elles indiquent les zones o larbre nest pas une bonne description. On peut accepter, par approximation, des cliques non rigides si les cliques qui lui sont relies par inclusion dans le filtrant se trouvent des seuils proches. Cest le cas de la clique (G,H,K) qui apparat au seuil de 0,28 puis qui est absorbe dans la clique (G,H,J,K) au seuil de 0,27. La diffrence de 0,01 est minime et non significative. Par contre la clique (F,G,H,K) se trouve trs loigne des deux cliques quelle absorbe : 0,19 versus 0,29 pour la clique (F,G,H) et 0,28 pour (G,H,K). On ne peut la passer sous silence.

Figure 24 : 10 Valeurs de Schwartz : Extrait du filtrant des cliques

Jusqu prsent nous sommes la recherche de Figure 25: 10 Valeurs de Schwartz : Les cliques dimensions qui permettraient de rsumer les donnes non rigides sur larbre par des axes ou des quasi-axes, si on accepte quelques entorses aux proprits mathmatiques associes lexistence de Dimensions de lunivers des donnes. Une autre manire de rsumer les donnes consiste construire des classifications. Par une telle mthode (il existe en fait une multiplicit de mthode de classification) on cherche savoir comment les donnes se regroupent et comment ces regroupements se hirarchisent. 3.2 LARBRE PEUT PERMETTRE UNE CLASSIFICATION DES DONNEES. On dfinit une classification par le regroupement des variables en classes telles que toutes variables appartiennent une et une seule classe. On a lhabitude de construire des regroupements de classes par inclusion afin dtablir les proximits qui existent entre les classes. Ces proximits sont reprsentes par une arborescence hirarchique. Il y a alors divers niveaux de regroupement, les classes qui sont constitues des valeurs de similitude fortes sont nombreuses, mais plus on accepte des similitudes faibles moins il y aura de classes et plus les classes contiendront de nombreux lments. A un seuil donn ( un niveau de la hirarchie de larborescence) les classes sont exclusives : une variable ne

Droits de reproduction et de diffusion rservs Sciences Humaines

45

Figure 26 : La classification des composantes connexes de larbre des 10 valeurs de Schwartz. Lordre des artes de larbre est le suivant : 0,20 (D,F) ; 0,27 (C,D) ; 0,33 (G,H) ; 0,34 (D,E) ; 0,39 (H,J) ; 0,41 (F,G) et (A,B) 0,45 (A,K) ;0,58 (J,K). On peut alors dessiner la classification suivante qui met en vidence les diffrentes composantes connexes de larbre et leur mode de regroupent hirarchique.

Classification arborescente : algorithme de.classification du lien simple . On peut construire une telle classification en ne tenant compte que des artes de larbre. Pour cela : a- on ordonne les artes de larbre par ordre croissant ; b- on supprime larte dont la valeur est la plus petite ; c- larbre se dcompose alors en deux sous-arbres, les sommets de chacun de ces sous-arbres forment une classe, chaque classe est une composante connexe puisque tout sous-arbre est connexe. d- on r-applique lalgorithme b et c sur les artes restantes : les sous-arbres se ddoublent alors. Quand la procdure algorithmique est termine on a construit un filtrant des composantes connexes de larbre qui a les proprits dune classification descendante hirarchique. Cet algorithme est celui de la classification de Johnson (Johnson, 1967) ou encore dite de Wroclaw.

peut pas appartenir deux classes. On dit que de telles classifications sont des Classifications Ascendantes Hirarchiques (CAH) . Le filtrant des cliques a trs rarement la proprit dune classification. Pour que le filtrant ait cette proprit il faut que toutes ses cliques soient des parties rigides sur larbre et que les cliques, un seuil donn, naient pas de variables communes. On peut cependant chercher construire une classification qui soit une approximation du filtrant.

Cette classification se fait sur la base des artes de larbre maximum : cest la classification dite de Johnson (Johnson, 1967) ou dite de Wroclaw. Cette classification est intressante car elle est dfinie par larbre maximum. Elle na de sens que si les cliques du filtrant sont rigides sur larbre. Mais sa qualit dpend de la qualit de larbre. Elle doit tre utilise surtout dans le cas o larbre exprime des donnes sorganisant autour daxes (autour de dimensions du phnomne analys). Nous allons nous placer dans une situation plus courante, celle o ce dernier nest pas une bonne description des donnes, cest le cas de lexemple sur les Valeurs. Quelle est la qualit de la classification que nous obtenons la figure 26 ? On peut vrifier cette qualit en construisant le filtrant des cliques dont la valeur est suprieure la valeur (s0) juste suprieure celle de la plus petite arte de larbre (dont la valeur est s0-). Cette valeur s0 a la proprit suivante : si on dessine un graphe ce seuil (Gs0), alors ce graphe se compose de deux sousgraphes (G1 et G2)nayant aucune relation. Ce graphe Gs0 nest pas connexe car on a dtruit la connexit de larbre en enlevant la plus petite arte de larbre. En effet larte de larbre maximum de valeur s0- est larte ayant la plus forte valeur parmi toutes les artes pouvant relier un sommet de G1 un sommet de G2. La valeur s0- est donc la fois la valeur de similitude la plus forte entre les deux zones G1 et G2 du graphe de similitude et la valeur la plus faible de larbre maximum. Cest donc un minimax .

Larte (D,F) cre deux composantes connexes : (B,A,K,J,H,G,F) et (C,E,D). Puis Larte (C,D) cre deux composantes connexes : (C) et (D,E) etc

Droits de reproduction et de diffusion rservs Sciences Humaines

46

Dans lexemple des 10 valeurs de Schwartz larbre se coupe en deux : dune part les sommets (C,E,D) et de lautre les sommets (B,A,K,J,H,G,F). Le filtrant, ce seuil, ne confirme pas cette partition (figure 27). Il se rduit trois composantes connexes. Seule la composante la plus droite, et dont les valeurs sont les plus fortes, confirme la classification Figure 27 : Le filtrant des 10 valeurs de Schwartz pour les de Johnson avec la clique (B,A,K,J) identique valeurs suprieures ou gales 0,20 la classe construite au seuil de 0,41 (sur la classification des composantes connexes) et la clique (A,K,J) identique la classe construite au seuil de 0,45. Les autres composantes connexes associent des lments qui ne forment pas une classe comme (F,G,H) ou (G,H,J,K). Ceci ne nous surprend pas car dans cet exemple larbre maximum nest pas un bon rsum des donnes. 3.3 RECHERCHE DE PROPRIETES PARTICULIERES SUR LE FILTRANT DES CLIQUES MAXIMALES. Comme nous lavons montr les cliques se construisent et sabsorbent, donc se hirarchisent, si on parcourt la prordonnance de similitude dans un ordre dcroissant. A chaque seuil correspond un grapheseuil. Dans ces graphes on peut identifier les cliques maximales. Elles forment un recouvrement partiel du graphe. On parle de recouvrement et non de classement car il ny a pas toujours de sparation nette entre deux cliques. Le plus souvent on se trouve devant un ensemble de cliques qui ont en commun certains sommets. Elles se recouvrent partiellement comme dans le graphe des cliques rigides sur larbre (figure 23) : (A,J,K), (H,J,K), (F,G,H). Si on parcourt lensemble des seuils, ces recouvrements sont organiss par les relations dinclusion du filtrant. Que peut-on alors en dire ? Lintrt du filtrant des cliques doit le plus souvent tre trouv ailleurs, en dehors des proprits classificatoires. Nous avons vu, dans lexemple des 10 valeurs de Schwartz, que le filtrant faisait apparatre plusieurs autres proprits. On peut en dcrire principalement trois: a- lexistence dune zone o les cliques se regroupent successivement par inclusion, on peut associer cette proprit limage dune hutre (cf. 3.3.1.1, figure 29) ; b- lexistence dune succession de recouvrements dont les intersections ne sont pas vides, elle est reprable par la prsence dune figure en zig-zag(cf. 3.3.1.2, figure 30) ; c- lexistence de zones non connexes un seuil donn (cf. figure 27). On peut en outre rechercher caractriser les sommets par la nature des zones du filtrant o ils se trouvent, comme dans lexemple des 10 valeurs de Schwartz (figure 10). On identifie alors trois types de variables : - les variables qui se retrouvent dans un trs grand nombre de cliques (dans la figure 10 la variable K scurit) ; ce sont des lments que lon peut qualifier de centraux pour le graphe. - les variables jouant le rle dlments gnrateurs dune zone du filtrant ; ils apparaissent dans le filtrant un seuil lev et participent ensuite plusieurs cliques (dans la figure 10 la

Droits de reproduction et de diffusion rservs Sciences Humaines

47

variable A pouvoir, B accomplissement, J conformisme, H tradition, G bienveillance et F universalisme) ; - les variables intervenant des seuils faibles, dans le bas du filtrant ; elles peuvent ne participer qu un nombre restreint de cliques (dans la figure 10 la variable C Hdonisme) 3.3.1 Modles formels et proprits du filtrant. Lanalyse de similitude nest pas une mthode de validation dun modle mathmatique, cest la recherche dun rsum des donnes, rsum le plus fidle possible. Mais on peut trouver des filtrants ou des zones dans le filtrant qui ont une proprit faisant rfrence un modle. On peut en envisager particulirement deux : les chelles dattitude (dite chelle de Guttman) et les recouvrements connexes (ou chelle dopposition, du type droite / gauche). 3.3.1.1 Le Filtrant o les donnes peuvent tre ordonnes par une chelle de Guttman. Nous prendrons un exemple fictif : le questionnaire comprend cinq questions auxquelles il fallait rpondre Oui (cod 1) ou Non (cod 0) ; il a t pos 41 sujets. On a obtenu les protocoles de rponses suivants qui dfinissent une matrice de similitude :
Nombre A B C D de sujets 2 0 0 0 0 10 0 0 0 1 8 0 0 1 1 5 0 1 1 1 5 1 1 1 1 11 1 1 1 1 Tableau 24 : Protocoles des rponses E A 0 0 0 0 0 1 B C D A * 29 21 16 * 21 16 * 16 * B C D E

11 11 11 11 * E Tableau 25 : Matrice de similitude produite par lindice de cooccurrence : chelle de Guttman

Droits de reproduction et de diffusion rservs Sciences Humaines

48

Les donnes peuvent tre situes sur une chelle de Guttman auquel seul les trois derniers patrons ne rpondent pas, mais leur faible frquence permet daccepter le modle31. On calcule alors la matrice de similitude (tableau 25). Cette chelle permet dordonner de manire conjointe les questions et les sujets : les questions de A E et les sujets en fonction du nombre de rponses codes 1.
A B C D E * A * B 31 23 * C 33 18 28 * D 36 13 23 31 * E 36 Tableau 26 : LArbre de la Matrice de similitude produite par lindice de cooccurrence symtrique : chelle de Guttman.

Figure 29 : lhutre des cliques Figure 28 : Filtrant des cliques : chelle de Guttman.

La matrice de similitude calcule avec un indice de cooccurrence est rgulire et le filtrant des cliques est bien particulier : les cliques forment une suite dinclusions qui donnent au graphe des cliques maximales une allure dhutre (figure 29). La structure dinclusion redonne lordre des questions. Si on utilise la cooccurrence on obtient un filtrant significatif, par contre la RAM ne peut pas tre dessin car cest le graphe complet (exemple : toutes les artes reliant D aux sommets de la composante connexe A B C ont pour valeur 16, cf. tableau 25). Pour obtenir un arbre maximum qui indique lordre de lchelle de Guttman il faut utiliser la cooccurrence symtrique (la somme des 11 et des 00). On obtient alors la chane A-B-C-D-E (tableau 26). Les donnes sont rarement aussi parfaites mais on peut observer dans un filtrant lexistence dune (ou des) zone o les cliques dessinent une ligne dinclusion successive sans interfrence notable avec dautres ensembles de cliques ; on peut alors supposer lexistence dune chelle de Guttman pour le groupe de variables concernes par les cliques de cette partie du filtrant. 3.3.1.2 Le filtrant o les donnes peuvent tre ordonnes sur un axe construit par une suite de recouvrements connexes. Le modle qui est ici recherch nest plus lexistence dune chelle mais dun axe sur lequel les rponses dcoupent des parties connexes. On prsente Nombre A B C D E souvent ce modle sous la forme dune diagonalisation de sujets du tableau des donnes. 2 0 0 0 0 0
10 8 5 5 11 7 12 1 1 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1

Les exemples dun tel modle sont nombreux : axe droite gauche, chelle de datation de priode historique ou de phnomne voluant sur un axe temporel. On va alors caractriser les sujets par leur position sur cet axe. Nous ne sommes plus sur une chelle daccumulation de caractristiques comme prcdemment mais sur

Tableau 27 : Protocoles des rponses


31

On calcule un coefficient daccord avec le modle (cf. coefficient de reproductibilit en annexe 1).

Droits de reproduction et de diffusion rservs Sciences Humaines

49

lexistence de zones contigus sur un axe dvolution (transformation) dun phnomne32. Nous prendrons ici encore un exemple fictif. Chaque patron de rponse est une zone connexe de variables (par exemple B-C-D pour la cinquime ligne). Larbre maximum est alors une chane rgulire, comme le montre la proprit de rgularit de la matrice de similitude. Les cliques maximales sont toutes rigides sur cet arbre. Elles sorganisent sous la forme dun recouvrement qui va donner au filtrant une allure de zigzag (figure30) que nous avons dj rencontre.
A A B C D * 8 0 0 * 10 5 * 16 * Figure 30 : Filtrant recouvrement connexe des cliques : B C D E

0 0 11 * E 18 Tableau 28 : Matrice de similitude produite par lindice de cooccurrence : recouvrement connexe.

Dans les deux modles que nous venons de dcrire (chelle de Guttman et composante non monotone) il existe une correspondance entre une proprit des chanes et une proprit du filtrant : toutes les cliques du filtrant, dont les sommets sont sommets dune chane rgulire, sont rigides sur cette chane (par exemple BCD ou CDE). Inversement si on trouve une zone du filtrant dont les cliques sont toutes rgulires et dont les lments de ces cliques forment un sous-ensemble de sommets connexes sur une chane de larbre alors cette chane est rgulire. Les proprits de ces deux modles sont suffisamment fortes pour quil soit trs rare de les trouver ltat pur. Ils peuvent par contre servir pour reprer des zones du graphe ayant des proprits particulires qui peuvent tre ensuite identifies lun de ces modles.

Figure 31 : graphe de similitude (cliques et arbre maximum) : recouvrement connexe

On retrouve assez souvent de telles formes dans certaines zones du filtrant. Ce modle a t prsent par Claude Flament33 comme un modle composante non monotone , on le trouve aussi dans la littrature amricaine sous le nom dunfolding technique 34.

32

Un sujet est, par exemple, daccord avec les ides politiques proches de la sienne amis pas avec celles plus lointaines ( droite et/ou gauche). Flament, Cl., 1963 Coombs, C.H., 1965

33 34

Droits de reproduction et de diffusion rservs Sciences Humaines

50

3.3.2 Proprits du filtrant ne renvoyant pas un modle. Lanalyse du filtrant, conue comme une reprsentation des donnes, vise valider le ou les graphes que retient lanalyste pour exposer les donnes. On met ici jour des proprits plus pauvres que celles des modles prcdents. On en prsentera trois que lon retrouve assez souvent et qui permettent une interprtation formelle des similitudes. Nous nous servirons ici dun exemple tir dune tude de reprsentations sociales de lconomie chez les tudiants. Le questionnaire demandait de mettre en relation onze notions conomiques. La frquence de ces relations donnait une matrice de similitude dont on reproduit ici le filtrant des cliques de valeurs suprieures 13 (soit donnes par 7% des 200 sujets) 3.3.2.1. Les sous-ensembles fermes pour linclusion. La premire proprit que lon peut mettre en vidence est celle des sous-ensembles de variables que lon peut appeler fermes pour linclusion : un ensemble de cliques se retrouvent toutes incluses dans une seule clique de valeur minimum. Ici par exemple (figure 32) les cliques (4,7,11) et (4,5,7) se retrouvent dans la clique (4,5,7,11) au seuil de 29. Cette dernire clique na pas de descendant. de mme les cliques (1,6,7), (5,6,7), (1,5,6,7) et (5,6,10), (1,6,10), (1,5,6,10) se trouvent toutes incluses dans la clique (1,5,6,7,10) au seuil 21. On peut identifier un autre ensemble inclus dans la clique (3,5,7,8,10) mais dans cette zone du filtrant les drivations (5,7,8,11), (3,5,7,8,11) et (3,5,9,10) nen font pas partie. La totalit de cet ensemble nest donc pas ferm. La constitution de ces ensembles dpend, videmment du seuil minimum du filtrant (ici 14). Nous reviendrons plus loin sur ce point de dfinition du seuil du filtrant, dans la mesure o le dessin du filtrant complet nest pas utilisable et mme nest pas souhaitable car il tient compte de valeurs non significatives ou non intressantes. On reste toujours fidle au principe de privilgier les valeurs maximales.

Figure 32 : Les relations conomique : Exemple de filtrant

La projection des deux parties fermes les plus gauche du filtrant sur le graphe au seuil de 16% est intressante (figure 33) : on y trouve une zone assez centrale dans le graphe (1,5,6,7,10) o se trouvent associs les lments conomiques relatifs aux trois principaux acteurs de lconomie : ltat (7), la

Droits de reproduction et de diffusion rservs Sciences Humaines

51

finance (1,6) et lentreprise (5,10). Cette partie du filtrant se dveloppe entre les seuils de 10% et 25% des sujets, mais aucune de ces cliques nest rigide sur larbre ; pour quelles le soient il faudrait liminer le terme chmage. De la mme manire la clique (4,5,7,11) nest pas rigide sur larbre alors quelle est ferme et quelle dcoupe une zone intressante, celle des rapports de ltat avec les entreprises (en haut et gauche de la figure 32 et au bas de la figure 33). La clique la plus gauche (3,5,9,10) de la figure 33est bien particulire. Cest la clique de quatre sommets la plus leve (55 soit 28%) dans le filtrant mais elle na pas de descendance. Elle dcrit lensemble des lments conomiques de lentreprise. Mais larticulation de ses lments avec le reste de lconomie ne se fait que de manire partielle et particulire. Cest ainsi que le profit (9) est exclu de la zone se fermant sur la clique (3,5,7,8,10), zone qui associe le fonctionnement de lentreprise ltat et Figure 33 : Les relations conomiques : le graphe-seuil 16%. au chmage. Cette zone a la particularit On a indiqu les valeurs des artes en nombre de sujets et dessiner de ntre constitue que de cliques trois cliques rigides sur larbre comme le montre la figure 34. Mais cette zone ne peut tre une partie ferme comme nous lavons vu plus haut. La clique exprimant lactivit montaire de ltat (1,2,7) est comme la zone quivalente de lactivit de lentreprise reprsente par une clique apparaissant un seuil lev (35%) mais elle est quasiment sans descendance. Il faut attendre le seuil de 7% pour voir sassocier cette clique le sommet entreprise (5). Cet exemple montre deux choses : dune part les proprits de rigidit et didentification dune Figure 34 : Les relations conomiques : larbre maximum. On a aussi trac la clique fermant la partie droite du filtrant partie ferme du filtrant ne sont pas quivalentes, chacune a son intrt ; dautre part le filtrant nous permet dtudier la matrice de similitude des seuils bien infrieurs celui de larbre ou celui permis par la lisibilit des graphes-seuil. Compte tenu de cela il faut alors faire attention au fait que les regroupements identifis ne sont pas des catgories car les cliques se recouvrent le plus souvent comme dans cet exemple.

Droits de reproduction et de diffusion rservs Sciences Humaines

52

3.3.2.2. Autres formes dorganisation : des proprits locales. A cot des ensembles ferms de cliques qui se regroupent par inclusion on peut mettre en vidence des proprits moins formelles. On peut alors distinguer : - les de cliques majoritaires (apparues des seuils levs). Elles indiquent, comme dans la figure 11, les zones saillantes du graphe de similitude ; - les sous-ensembles qui engendrent une descendance : ils mettent en vidence des variables gnratrices et des variables secondaires. - les sous-ensembles qui, inversement, se retrouvent bien isoles quand on diminue le seuil ; on identifie alors des variables qui forment elles seules une dimension de lunivers des donnes. Ces diffrents modes dorganisation des sommets du graphe montrent bien lintrt de la dmarche locale de lanalyse de similitude. Chaque type de regroupement comme prcdemment chaque type dorganisation autour dun axe na pas la mme proprit. Ici en particulier ils indiquent comment les deux principaux agents conomiques (lEtat et lentreprise) ont un univers propre (clique apparue un seuil lev et sans descendance), et comment leur mise en relation peut prendre sens autour dun thme donn : ici les rapports entre lEtat et lentreprise se font dune part autour du thme de la monnaie, dautre part autour de la redistribution des revenus et enfin autour du chmage. Cette diversit des modes de ressemblance ne peut sexprimer dans une analyse globale qui est oblige de pondrer ces diverses proximits locales travers une boite noire que ne contrle pas lanalyste. Cette approche partir des modes dorganisation des cliques du filtrant, peut se complter par lidentification des types de variables travers leur place dans le filtrant comme on la montr dans la figure 10 sur lexemple des 10 valeurs de Schwartz.

Droits de reproduction et de diffusion rservs Sciences Humaines

53

CHAPITRE 4. FAIRE UNE ANALYSE DE SIMILITUDE : DEMARCHE PAS A PAS. Nous prsentons maintenant de manire systmatique les diffrentes tapes de lanalyse de similitude. Celles-ci sont au nombre de 6 : 1- la transformation des donnes initiales en matrice de similitude 2- lexploration de la matrice de similitude pour en extraire la prordonnance, larbre maximum, le graphe de la 3-analyse, les cliques maximales du filtrant. 3- le dessin de larbre maximum et des graphes-seuil 4- le dessin du filtrant des cliques maximales 5- la prsentation rordonne de la matrice de similitude ou la slection dun sous-ensemble de variables 6- la comparaison de matrices de similitude cres sur des sous-populations. Une exploitation rapide des donnes se contente des 3 premires tapes. La quatrime est ncessaire pour une analyse fouille. La cinquime tape vise mieux organiser les donnes pour une prsentation plus parlante. La sixime est essentielle quand on veut mettre en vidence des diffrences entre souspopulations dfinies par une variable indpendante (tel le sexe) quand on veut mettre en vidence les spcificits de certaines sous-populations dfinies par une configuration particulire des patrons de rponse.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

54

Les diffrents calculs de lanalyse de similitude sont utiliss par un programme informatique dont on prsente ici lcran de dmarrage et les correspondances avec les diffrentes tapes35.

Figure 35 Les dfrentes phases du programme danalyse de similitude

35

Programme SIMI2000 utilisable sur PC sous Windows 95 et plus (il existe une version plus frustre pour Windows 3.1)

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

55

4.1 LA CREATION DE LA MATRICE DE SIMILITUDE. Les donnes recueillies peuvent tre de plusieurs types comme nous lavons dj vu. Les calculs pour aboutir une matrice de similitude sont de quatre types. On a dj vu la diffrence entre les donnes de la forme [X x X] qui suppose une simple transformation des donnes pour quon puisse les considrer comme des valeurs dune matrice de similitude et les donnes de la forme [X x Y] qui supposent le calcul dun indice de similitude entre les variables. Ces dernires se distinguent sur la base de la nature de la mesure qui leur est applicable : 0/1, ordinale, mtrique. Lanalyste doit identifier la nature des donnes et prendre une dcision sur lindice de similitude. A- Forme [X x X] ou [X x X] : la similitude est donne par une valeur calcule ou obtenue directement (cas dune matrice de flux entre variables par exemple). La dcision est celle du choix entre valeur brute (initiale) (S20)36, et le calcul dune distance entre cette valeur et la valeur lindpendance statistique quand cela a un sens (S22). B- Forme [X x Y] o les variables sont binaires et donc codes 0/1 mais o seul le 1 est univoque (cf. 1.3). La dcision est celle du choix dun indice privilgiant soit la frquence du type cooccurrence (S1, S2), soit le rapport lindpendance statistique du type H de Loevinger ou lindice de Forbes (S3, S4, S5). C- Forme [X x Y] o les variables sont ordinales. C1* Si les variables sont dichotomiques ordonnela dcision est celle du choix dun indice privilgiant soit la mesure dune concordance du type cooccurrence symtrique (S7, S8), soit au contraire le rapport lindpendance statistique du type , Q de Yule (S9, S10). C2* Si les variables sont situes sur une chelle de [1 m] (dans le cas dune chelle de [m +m] il faut ajouter m+1 aux donnes pour se ramener au cas prcdent) la dcision est celle du choix dun indice privilgiant soit la distance la concordance, du type de linverse dune distance city-block (S11, S12, S13, S14), et cela seulement quand les variables se mesurent toutes sur la mme chelle, soit le rapport lindpendance statistique du type Tau de Kendal (S15, S16). D- Forme [X x Y] o les variables sont mtriques. La dcision est celle du choix dun indice privilgiant soit leffet de taille, comme linverse dune distance euclidienne, (S17), soit le rapport lindpendance statistique comme le coefficient de corrlation de Bravais Pearson (S18, S19). Sur un mme ensemble de donnes on peut calculer diffrents indices de similitude si on veut mettre en vidence diffrents phnomnes (comme en 1.4.1.3). Le plus souvent on arrte son choix sur un seul indice correspondant le mieux la question que lon se pose propos des donnes. Mais il faut alors le justifier thoriquement ou par la forme du questionnement. On verra plus loin que dans le cas de questionnaires de caractrisation, questionnaires o nest pas dans le cas de tirage au sort avec remise, les indices se rfrant lindpendance statistique sont mal adapts. Si on obtient directement des valeurs utilisables comme coefficient de similitude (cas du coefficient de corrlation ou de la moyenne des scores

36

cf. annexe 1 pour les formules des diffrents indices de similitude.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

56

dans lexemple des proximits entre pays en 2.4) on ne peut pas prendre de dcision, on est contraint par linformation initiale. 4.2 LEXPLORATION DE LA MATRICE DE SIMILITUDE. Le calcul de la prordonnance de similitude est la premire opration que fait le programme danalyse de similitude proprement dit. Sur la base de cette prordonnance il identifie les artes de larbre maximum et celle du graphe G3 de la 3-analyse. Il peut aussi identifier les cliques maximales du filtrant (leurs sommets et leurs valeurs) si on le dsire. La seule dcision prendre est celle du seuil minimum du filtrant. Il nexiste pas de seuil minimum simposant statistiquement. Si lindice de similitude est un coefficient classique pouvant tre assimil un coefficient de corrlation on peut utiliser les valeurs des tables de confiance 5% par exemple. Mais nous ne sommes pas ici dans le cadre dun test dhypothse, ces valeurs ne peuvent tre quindicatives. Le plus souvent on se rfre lordre de la prordonnance. On dfinit alors le seuil par la valeur de larte de la fin du premier tiers de la prordonnance, ou encore celle de la mdiane. Une dmarche plus empirique consiste dessiner le filtrant en faisant varier le seuil et en conservant le seuil pour lequel les phnomnes mis jour sont prsents et non perturbs par des liaisons avec des artes de valeur trop faible. Cest ce que nous avons fait dans lexemple sur les relations conomiques (3.3.2, figure 33). Cette exploration se fait trs facilement en choisissant un seuil par le bouton Simiram , puis en excutant Filtrant et en dessinant le filtrant par le bouton Avril37 . On recommence cette itration tant quon natteint pas un rsultat satisfaisant. 4.3 DESSINER UN GRAPHE DE SIMILITUDE NON ARBITAIRE. Il faut dabord affirmer quil ny a pas dalgorithme automatique permettant de dessiner le meilleur graphe possible. Le seul cas particulier o il et possible de dfinir la position de chaque variable, vis vis de celles qui lui sont relies, est celui o le graphe est planaire. Un graphe planaire est tel quil est possible de faire un dessin o les artes ne se croisent pas. La figure 36 montre un tel type de graphe. En thorie des graphes on dit quil est compos dune base de cycle. Retenons simplement limportance des cycles dans le dessin dun graphe. Ce type idal de graphe est instructif. Il permet dtablir deux principes de construction dun graphe de similitude. En premier seule la prsence ou non des artes doit guider le dessin. En second on va chercher minimiser les croisement dartes et reprsenter le mieux possible les cycles. Cest ainsi quil nest pas possible dintervertir la position de lInde et du Congo sans introduire le croisement de deux artes (Congo Brsil et Egypte Cuba). De la

Figure 36 : Douze pays, exemple de graphe planaire.

37

le terme de Avril pour dsigner le programme dessinant les graphes (arbres maximum, 3-analyse, filtants) a une histoire. La premire version de ce programme sappelait Mars : sigle de Mthode dAnalyse des Reprsentations Sociales. La rcriture de ce programme a pris le nom du mois suivant : Avril . On doit en remercier Romain Zelinger qui, au laboratoire CNRS dEcully, a crit ces deux programmes.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

57

mme manire on ne va pas mettre la France entre le Japon et Isral quand elle est relie la Russie. Dans le cas dun graphe planaire les diffrents cycles ou cellules (dabeille) se dessinent de manire telle quaucune cellule ne se trouve en croiser une autre. Compltant ces principes de ne tenir compte que des artes prsentes, il est possible de reflter en partie la valeur de similitude des artes par une plus ou moins grande proximit gographique des sommets. Mais ce dernier principe ne peut tre habituellement tenu que de manire locale, dans des zones de voisinage du graphe, il ne peut tre un principe de calcul des positions de tous les sommets. Ici la longueur de larte Brsil USA de valeur 5,39 est nettement plus grande que celle de larte France Russie (5,06), en toute logique gomtrique elle devrait tre plus petite. Limportant nest pas l, il est plus important de montrer que le Brsil est reli trois pays (Congo, Cuba, USA) et que la France est relie aux USA et la Russie. La position de ces pays dpendant de leurs relations dautres pays, lensemble du graphe se construit par cette suite de mise en relation, par une heuristique portant sur les artes. On ne trouve gnralement pas une projection planaire de la matrice de similitude comme dans les mthodes MDS (si on se limite au deux premiers axes), on cherche alors reflter, par le dessin, lexistence des artes, des cliques et des cycles. Dans le cas gnral o le graphe nest pas planaire on doit chercher minimiser les croisements dartes. Mais cette rgle ne doit pas tre absolue elle doit tenir compte dabord des relations connexes et ensuite de lexistence de certaines configurations qui peuvent influencer linterprtation des donnes.

Figure 38 : graphe partiel sans croisementde huit des douze pays.

Dans la figure 37 on ne peut pas situer diffremment lEgypte relie Cuba, le Brsil reli aux USA et Cuba, la France relie aux USA et la Russie mais on pourrait trs bien appliquer la rgle de non croisement et situer la Yougoslavie au centre du triangle Cuba, Chine, Russie comme dans la figure 38. Ce dernier graphe a deux dfauts : il ne respecte pas du tout la hirarchie des valeurs de similitude au sein de la clique (Cuba, Chine, Russie, Yougoslavie), la Yougoslavie est trs proche de la Russie (6,67) et moins des deux autres pays (5,06 et 5,11), mais surtout il semble donner la Yougoslavie une place centrale, intermdiaire entre les trois autres pays alors que la 3-analyse (figure 40) comme le filtrant ne lui donne absolument pas ce rle. On aurait pu mettre au centre la Russie ou Cuba mais dans ce cas on introduisait une multiplicit de croisements car ces deux pays participent dautres cliques du graphe : la Russie avec la France et les USA, Cuba avec lEgypte et le Brsil. Seule la Chine pourrait se trouver au centre en respectant, localement, peu prs les valeurs de similitude (sauf avec la Yougoslavie) mais linterprtation serait alors dsquilibre. La position plus ou moins centrale dun sommet dans une clique doit tre justifie dabord par la valeur des artes de la clique maximale et ensuite par lintrt de cette position centrale dans linterprtation des donnes (ici le dbat pourrait tre idologique Russie / Chine!).

Figure 37 : graphe partiel de huit des douze pays.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

58

La position respective des sommets du graphe ne peut se rgler par la seule analyse dun unique graphe. En effet si on sarrte au dessin de larbre maximum on aura tendance privilgier la chane maximale la plus longue et organiser le graphe autour de cette chane. Dans lexemple des douze pays cela donnerait le graphe de la figure 39.

Figure39 : douze pays : arbre maximum

Mais ds quon introduit la 3-analyse puis les graphes-seuil en faisant varier le seuil on est oblig de modifier lemplacement des diffrents sommets. Le filtrant des cliques est alors un bon guide pour indiquer si tel ou tel sommet est entre tel ou tel autre ou si une clique construite un seuil lev na pas de descendance et doit avoir une position un peu isole dans le graphe. Dans lexemple des douze pays on est pass par les deux dessins des figures 40 et 41 avant darriver une reprsentation satisfaisante. Aprs la 3-analyse on aboutit un graphe presque planaire mais qui modifie profondment la place des diffrents pays : larbre nest plus une srie de chanes mais un grand cercle. A un premier seuil de 5,00, correspondant 25% des artes, il est toujours possible de tracer le graphe-seuil en se servant des positions dfinies dans le graphe de la 3-analyse. Mais on voit immdiatement que la clique maximale des pays communistes se trouve tire. Cependant cette base va savrer intressante.

Figure 40 : Douze pays : graphe de la 3-analyse

Figure 42 : Douze pays : graphe-seuil 5,00 modifiant Figure 41 : Douze pays : graphe-seuil 4,61 sur Droits de reproduction et de diffusion les rservs de Sciences Humaines 2003 positions la 3-analyse. base des positions de la 3-analyse.

59

En passant au seuil de 4,61, correspondant au 1/3 des artes puis au seuil de 4,25 correspondant 50% des artes on peut continuer dessiner le graphe avec les mmes positions (figure 41). Cette prsentation correspond assez bien lanalyse du filtrant des cliques maximales suprieures 4,10 (60% des artes, cf. figure20). On y retrouve un axe compos de cliques se recouvrant partiellement (zigzag) allant dIsral la Chine en passant par le Japon, la France, lEgypte et Cuba ; la Yougoslavie et la Russie faisant partie de toutes ces cliques. La situation intermdiaire du Congo et de lInde nest cependant pas trs en conformit avec leurs similitudes. Ils devraient tre plus extrieurs mais sont, ici, dpendants de la position de lEgypte. Si on ne prend en compte que le premier tiers des artes, les cliques maximales (du filtrant de la figure 20 qui sont suprieures 4,61) sparent nettement les pays de rfrence communiste des pays occidentaux dvelopps et des pays en voie de dveloppement. Entre ces trois entits bien identifies on trouve des pays intermdiaire : la France et le Japon entre les pays occidentaux et le pays

Figure 43 Douze pays : graphe-seuil 4,25 sur la base des positions de la 3-analyse.

Figure 44 : Douze pays : graphe-seuil 5,00 disposition de larbre maximum initial

communiste, le Brsil entre lAmrique centrale de Cuba et lAmrique du Nord des USA. On peut alors redessiner un graphe au seuil de 5,00 reprenant les positions de larbre maximum (figure 44) Ce graphe met mieux en vidence un certain isolement de lInde et du Congo et lexistence de trois entits, certes articules, mais bien identifies. La prsentation de lun ou lautre de ces deux graphes (figure 41 ou figure 44) est alors une dcision de lanalyste. Linterprtation partir des premires artes de la prordonnance est assez classificatoire et met en vidence de grands cycles. Linterprtation qui prend en compte lessentiel des artes (60%) sera plus proche des rsultats des mthodes factorielles ou MDS car, en tenant compte de toutes ces artes, elle se rapproche dune interprtation globale et non plus locale des donnes. Une position intermdiaire qui tient compte du filtrant au seuil de 50% des artes (4,28) met en vidence des interprtations localises comme nous avons pu en faire au paragraphe 2.4. Pour conclure cette approche du dessin dun, ou de plusieurs, graphes de similitude non arbitraires on peut avancer quelques principes gnraux. Quand les donnes multiplient les cycles la 3-analyse est une bonne base. Quand les donnes sont bien dcrites par larbre, il faut sen rapprocher le plus possible. Quand les donnes se classifient on cherche plutt isoler les divers groupements. Et dans les cas complexes on essaye une srie ditrations : plusieurs prsentations graphiques sont alors ncessaires pour mettre en

Figure 45 : Douze pays : arbre maximum redessin

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

60

vidence les diffrentes structurations des donnes. Limportant est dune part de donner chaque variable sa place (plus ou moins isole, seconde, intermdiaire, centrale) et didentifier les diffrents modes dorganisation qui permettent dinterprter les relations de similitude entre les donnes. 4.4 RENDRE PARLANTE UNE MATRICE DE SIMILITUDE. Dans une enqute sur limage de lecstasy auprs des jeunes frquentant les boites de nuit de Palma de Majorque on a demand de classer sur une chelle daccord une vingtaine de phrases caractrisant cette drogue. Nous nen retenons ici que treize pour la clart de lexpos. La matrice de similitude calcule avec le tau de Kendal se prsente ainsi.
01Se tenir veill : 02Drogue douce : 03Prix accessible : 04Danger daccoutumance : 05Evasion de la ralit : 06Eclaircir les ides : 07Provoque la mort : 08Cest dangereux : 09Ne sait pas ce quil prend: 10Permet tenir toute la nuit: 11Solution personnes timides: 12Personnes problmes : 13Comprendre House-musique : 0 7 11 -21 -11 -3 -15 -15 -2 17 -9 -16 5 0 29 -27 -17 30 -25 -25 -21 8 1 -12 12

0 -16 -14 0 -13 -19 -8 -4 -5 -10 -9

0 11 -23 22 14 17 -24 -17 6 -18

0 -8 0 -11 -12 -6 -12 -9 -12 0 11 6 -5 5 0 -5 24

0 17 11 -20 -22 4 -13

0 20 -2 -8 12 -12

0 -12 -17 0 -19

0 8 -20 7

0 12 0

0 3

Tableau 29 : Ecstasy : Matrice de similitude dans lordre de proposition des items aux sujets (taux de Kendall).

Il nest pas possible de prsenter une telle matrice dans un ouvrage car elle ne parle absolument pas. Il convient de voir sil est possible de la rordonner pour la rendre plus lisible. Pour cela on se sert du graphe de similitude. Celui-ci nous indique lexistence de deux groupes de variables. A gauche on trouve un ensemble ditems qui met laccent sur les dangers de lecstasy. Par contre droite on trouve la justification de lusage de cette drogue qui permet de tenir debout toute la nuit ou qui claircit les ides . On va alors se servir de cette opposition et de lexistence ditems intermdiaires, comme la solution pour les personnes timides , pour rorganiser la matrice de similitude.

Figure 46 : Ecstasy : graphe de similitude au seuil de 0,06.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

61

Avec une telle prsentation on peut mettre en gras les valeurs suprieures un certain seuil (ici les valeurs positives). Elles se rpartissent le long de la diagonale sous la forme de triangles successifs. Cette prsentation permet de montrer la plus grande cohrence des items stigmatisant lecstasy (les quatre premiers items) alors que le groupe des items justifiant son usage (les cinq derniers items) comprend les valeurs de similitude les plus fortes mais est globalement moins cohrent (existence de valeurs ngatives, ou proche de 0). On peut alors se poser la question de lexistence de sous-populations ayant des reprsentations diffrentes. Nous retrouverons cette question plus loin.

07Provoque la mort : 04Danger daccoutumance : 08Cest dangereux : 09Ne sait pas ce quil prend: 12Personnes problmes : 05Evasion de la ralit : 11Solution personnes timides: 10Permet tenir toute la nuit: 01Se tenir veill : 03Prix accessible : 02Drogue douce : 06Eclaircir les ides : 13Comprendre House-musique :

0 22 17 11 4 -11 -22 -20 -15 -13 -25 -12 -13

0 14 17 6 11 -17 -24 -21 -16 -27 -23 -18

0 20 12 -6 -8 -2 -15 -19 -25 -12 -12

0 0 -9 -17 -12 -2 -8 -21 -12 -19

0 5 12 -20 -16 -10 -12 0 3

0 6 0 -11 -14 -17 -8 -5

0 8 -9 -5 1 -5 0

0 17 -4 8 11 7

0 11 7 -3 5

0 29 0 -9

0 30 12

0 24

Tableau 30 : Ecstasy : Matrice de similitude aprs la rorganisation des items.

Il existe un autre cas de figure o il convient dliminer une ou plusieurs variables. On se trouve quelque fois devant des matrices o lune des variables organise autour delle le graphe en toile. Cette figure particulire est souvent prsente quand on utilise un indice du type majoritaire (comme lindice de cooccurrence). En effet la forte frquence dune variable dtermine quasi automatiquement de fortes liaisons avec les autres variables. On a trouv un tel cas dans ltude des migrations entre les rgions franaises. Quand on mesure ces migrations en volume, Paris focalise compltement le graphe ; on ne peut rien dire dautre que la prminence de la capitale. Si on enlve Paris de lensemble des sommets du graphe alors on retrouve une organisation cyclique dessinant approximativement la carte de la France et indiquant limportance des distances (ou plus exactement des proximits) dans le phnomne migratoire38. La RAM de cette nouvelle matrice est bien diffrente de la RAM de la matrice initiale (comprenant toutes les variables). Il est aussi parfois intressant de slectionner un sous-ensemble de variables pour ltudier plus en dtail. Dans ce cas comme dans le cas dune ou plusieurs variables polarisant les liaisons les plus fortes on est conduit slectionner un sous-ensemble de variables formant une sous-matrice de similitude. Dans une tude sur les reprsentations de la science au Brsil39 on a demand aux sujets de qualifier la science avec certains items. On calcule un coefficient de corrlation entre ces items et on obtient le graphe suivant.

38 39

Degenne, A., 1973 Celso de S, 1996

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

62

Dans ce graphe le mot de nouveaut a une position centrale il est reli tous les autres mots (sauf tude). Or lintrt smantique de ce mot est rduit vis vis dautre termes plus intressants tels responsabilit , dcouverte etc. Dune certaine manire cest un point moyen qui napporte pas une grande information sur la reprsentation de la science. Les analystes dcident de lliminer provisoirement. On obtient alors de nouveaux graphes (figure 48 et 49).
Figure 47 : la science : graphe-seuil 0,30.

Figure 49 : la nouveaut Figure 48 : la science : graphe-seuil 0,20 sans nouveaut

science :

arbre

maximum

sans

Larbre maximum (figure 49) montre une chane centrale sur laquelle viennent se greffer pratiquement toutes les cliques, construites au seuil de 0,20, cliques qui ont la proprit de rigidit sur larbre. Par llimination de ce terme on a pu aussi dessiner un graphe un seuil bien infrieur au seuil prcdent (0,20 versus 0,30), donc en tenant compte de plus dinformations (figure 48). 4.5 LA COMPARAISON DE SOUS-POPULATIONS. On est souvent conduit faire une tude comparative sur diffrentes populations ou souspopulations. Le critre de constitution des sous-populations peut tre externe lensemble des variables tudi (hommes / femmes, pays diffrents, ges). On peut aussi construire les sous-populations sur la base dune classification faite laide de ces variables. On se trouve alors devant plusieurs matrices de similitude quil convient de comparer : sont-elles la varit statistique dune seule matrice ? Ont-elles des diffrences significatives permettant didentifier les spcificits de chaque population ? On utilisera une dmarche de test de signification, mais sans sarrter aux seuls rsultats du rejet ou non de lhypothse dindpendance statistique : on utilisera les calculs de ces tests pour poursuivre une dmarche descriptive dans la ligne de toutes celles que nous venons de prsenter. En effet on ne se trouve jamais dans le cas o la dmarche de test de signification est valide. Il sagit ici de proposer des moyens (un bricolage statistique) permettant didentifier les diffrences les plus intressantes, les plus propre linterprtation En premier il est possible dutiliser une mthode de comparaison globale portant sur toutes les valeurs des matrices de similitude. On prfrera adopter, ici, une seconde dmarche privilgiant le local car elle se trouve plus dans la logique des oprations de lanalyse de similitude. On va identifier les

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

63

variables, ou mme les relations entre variables qui, dans une population donne, vont tre significativement diffrentes de celles observes dans les autres populations. Une tude sur les reprsentations conomiques des jeunes franais avait une vise comparative. Cette tude portait sur les jeunes lves de sixime (11 ans environ), sur ceux qui se trouvaient en dernire anne du collge, la troisime (15 ans environ) et enfin ceux qui se trouvaient en terminale (18 ans environ) avec un enseignement de sciences conomiques et sociales. On se proposait de mettre en vidence un effet de maturation et limpact dun enseignement spcialis (de lconomie) sur la manire denvisager les relations entre les grands agents conomiques (Famille, Etat, Entreprise et Banques). Les graphes construits au seuil de 16% (les relations du graphe donnes par plus de 16% des lves dune classe dge) prsentent quelques diffrences au premier regard. Les lves de sixime ont donn relativement moins de relations et les ont concentres sur quelques relations privilgies. Les lves de terminale construisent le circuit de lconomie comme dans les livres ! La comparaison graphique au mme seuil est un peu trompeuse. En effet les lves de sixime ont donn en moyenne beaucoup moins de relations que les autres lves (7,11 versus 8,92 en troisime et 9,71 en terminale). On va devoir corriger cette diffrence en effectuant une analyse de corrlation (qui limine leffet de taille) entre les matrices de similitude : on considre chaque matrice comme une distribution de valeurs (chaque matrice devient une srie de nombres ordonns par leur place (ij) dans la matrice de la valeur i = 1, j = 2 i = m1 et j= m, avec m le nombre de variables) et on calcule la corrlation entre les diffrentes matrices (entre les diffrentes sries). Dans cet exemple on obtient une corrlation entre les lves de sixime et ceux de troisime de 0,89, entre ceux de troisime et ceux de terminale de 0,87 et entre ceux de sixime et ceux de terminale de 0,66. Seule cette dernire valeur est un peu significative. Les matrices sont donc trs proches entre deux classes successives.

Figure 50 : Reprsentations du circuit conomique : graphe au seuil de 16% Elves de sixime Elves de troisime

Elves de terminale SES

4.5.1 La comparaison par ltude des corrlations des valeurs autour dune variable Cette premire constatation dune proximit globale des matrices doit tre affine. On effectue alors une corrlation pour chaque ligne de la matrice : on compare lensemble des coefficients rij pour une variable i donne (j prenant toutes les valeurs de 1 m) dune matrice avec le mme ensemble dans la matrice dune autre sous-population.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

64

Corrlation entre les ges pour diffrents items (Banque, Profit, Investissement)

Banque 15 ans 18 ans

11 ans 15 ans 0,96 0,93 * 0,97

Profit 15 ans 18 ans

11 ans 0,34 -0,26

15 ans * 0,74

Invest. 11ans 15ans 15 ans 18 ans 0,71 0,29 0,60

Tableau 31a

Tableau 31b

Tableau 31c

On saperoit alors que certaines variables ne sont pas discriminantes : ainsi la Banque (ou les Salaires, non reprsents ici) ont des coefficients entre sous-populations variant de 0,88 0,97, non significativement diffrents de 1,00. Par contre le Profit et les Investissements sont envisags de manire totalement diffrente voire oppose (corrlation ngative) selon les ges : entre la sixime et la terminale la corrlation du Profit avec les autres items est de 0,26. On peut voir dans le tableau 32 comment cette corrlation ngative rsume de fortes diffrences entre les valeurs de leurs relations avec les autres variables.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

65

Numro des mots relis Profit (n 6) Profit 11 ans 15 ans 18 ans


1 2 3 4 Entrep. Profit 7 8 Etat 10 Banque 12

15 22 15

8 3 0

7 10 9

1 5 2

3 25 73

0 0 0

6 5 3

8 6 3

14 19 6

7 5 1

4 11 10

8 10 8

Tableau 32 : Pourcentage dlves ayant mis en relation Profit avec les autres mots, pour chaque ge.

On voit dans ce tableau que le Profit est associ lEntreprise trs nettement 18 ans (73%) alors quil ne lest pas du tout 11ans (3%). De mme les relations avec la Banque ou lEtat sont assez diffrentes. Les diffrences entre les ges sont bien locales, elles portent sur certains items et mme sur les relations de certains items avec seulement certains autres items. Aussi il convient de complter lanalyse de corrlation par une tude des diffrences entre sous-populations pour chaque relation. 4.5.2 Les similitudes significativement diffrentes. On va maintenant sintresser chaque arte du graphe de chaque sous-population et on va se poser la question : sa valeur dans une sous-population donne est-elle significativement diffrente des valeurs de la mme arte dans les autres sous-populations ? On doit ici distinguer deux cas de figure : les valeurs de similitude sont-elles des frquences ou des coefficients assimilables des coefficients de corrlation ? Dans le premier cas on peut utiliser un test de frquence, dans le second il faut utiliser un test de coefficients de corrlation. 4.5.2.1 Comparaison des valeurs des artes dans le cas dun indice de frquence. Pour pouvoir comparer les valeurs des artes dans diffrentes sous-populations il nous faut dabord liminer leffet de taille : certaines sous-populations ont rpondu de manire plus prolixe que dautre. Nous avons vu que le nombre moyen de relations donnes par sujet tait bien diffrent de 11 ans 18 ans. A 11 ans on obtient un total de 2525 relations pour 355 lves, 15 ans il y a 3607 relations pour 404 lves et en terminale 2710 relations pour 279 lves. Si on veut par exemple comparer les frquences dapparition de larte Banques Investissement 11 ans (32) 15 ans (104) et 18 ans (47) il faut dabord redresser ces nombres. On va chercher calculer les frquences de la relation Banques Investissement de manire telle que le total de toutes les relations donnes par les lves de 11 ans soit gal celui des lves de 15 ans et celui des lves de 18 ans. Pour cela on effectue le raisonnement suivant. Il y a au total 8842 relations exprimes par lensemble des lves de tous ges. Chaque souspopulation devrait comporter le 1/3 de ces relations (ici on a 3 sous-populations). Par exemple les lves de sixime devraient avoir donn 8842 / 3 = 2947,33 relations or nous nen avons que 2525. Il faut donc calcul un coefficient de redressement de : 2947,33 / 2525 = 1,167 que nous allons appliquer toutes les valeurs des artes du graphe des siximes. Ici larte Banques Investissement de la valeur 32 passe la valeur 32 x 1,167 = 37,35. Un calcul du mme type est effectu sur les deux autres sous-populations. On obtient alors les valeurs suivantes : 37,35 (11ans) ; 84,97 (15 ans) ; 51,11 (18ans). Le total de ces relations est de 173,4340.

40

On obtient des valeurs dcimales car elles sont obtenues par la calcul de redressement.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

66

On va alors comparer la rpartition de ces trois valeurs par rapport la distribution thorique de 0,33 (soit 1/3) comme si les lves des diffrentes sous-populations avaient tabli de manire identique cette relation. On calcule alors, pour les lves de sixime la frquence de la valeur observe : 37,35 / 173,43 = 0,2154. Pour la comparer la valeur thorique il faut calculer lcart type de la distribution de la frquence 0,33. Il est classiquement : = p (1 p) N avec p = 0,33 et N le nombre total de relations pour cette arte soit ici 173,43. On obtient = 0,0358. on peut alors calculer la valeur centre rduite (le z-score en anglais) de la valeur observe : (0,2154 0,3333) / 0,0358 = -3,297. La valeur observe scarte fortement de la valeur attendue, elle est plus de 3 carts type, elle est donc bien infrieure la valeur thorique. On applique ici le risque de 5% (z doit tre suprieur 1,64) ou le risque de 1% (z > 2,34). Le z-score de cette arte pour les lves de troisime est, linverse, significativement suprieure la valeur thorique : 84,97 / 173,43 = 0,4899 et donc (0,4899 0,3333) / 0,0358 = 4,38. Cette valeur est bien suprieure celle au risque de 1% (2,34). On ne peut cependant pas calculer cette valeur centre rduite pour toutes les artes dans la mesure o les artes de faible valeur ne nous intressent pas et sont trop sensibles ce type de calcul. On est donc conduit choisir un seuil en dessous duquel on ne prendra pas en considration les artes dans une souspopulation donne. Ici nous avons pris le seuil de 16% qui se justifie comme nous lavons dit plus haut. On va alors reprsenter les artes significatives sur un graphe qui va mettre en vidence les spcificits de chaque sous-population (dans ces graphes les valeurs centres rduites sont multiplies par 100).

Figure 51 : Reprsentations du circuit conomique : graphe des artes significative des lves 11 ans

Figure 52 : Reprsentations du circuit conomique : graphe des artes significative des lves 15 ans

Ces trois graphes sont assez parlant. A 11 ans on nest sensible qu quelques relations portant sur le budget du jeune ou les discussions familiales : Achat Commerce international (les produits imports), Epargne Banque, Salaires impts. A 15 ans lunivers de lentreprise (de la petite entreprise) est dcoup en deux : production et profit investissement. A 18 ans on dcoupe lunivers conomique en secteurs constitus de liaisons trs Figure 53 : Reprsentations du circuit fortes autour des principaux agents. Les liaisons conomique : graphe des artes significative des entre les agents sont privilgies de manire trs lves 18 ans locale (trs partielle) par les plus jeunes (11 et 15 ans). Cette analyse est relative, elle doit tre conduite en parallle avec les informations apportes par les graphes de lanalyse de similitude. Elle permet didentifier ce qui, toutes choses gales par ailleurs, est spcifique de chaque sous-population.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

67

4.5.2.2 Comparaison des valeurs des artes dans le cas dun indice de type corrlation. Lorsque les matrices de similitude sont des matrices utilisant un indice se rfrant lindpendance statistique, il est possible dutiliser le test classique dun indice de corrlation. On prend pour rfrence la moyenne des indices de similitude des diffrentes populations pour une arte (ij) donne. On fait sur cette arte et pour chaque population (k) une transformation z de Fisher41 de chaque valeur Sijk : ; la variance de la distribution gaussienne de Zijk est gale = 1 /( N 3) avec N le nombre de sujet de la population k. On calcule de mme la transformation Zijt de la moyenne des indices de similitude des diffrentes populations pour larte (ij). On peut alors calculer la valeur S * ijk =
Zijk Zijt
Zijk = 1 2log e ((1 + Sijk ) (1 Sijk ))

qui peut tre interprte sur la table de la distribution normale .

Comme prcdemment on va construire le graphe des artes significatives pour chaque souspopulation.

41

Gopal, K. Kanji, 1993

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

68

CHAPITRE 5. DISCUSSION : LES PROPRIETES FORMELLES DE LANALYSE DE SIMILITUDE DOIVENT POUVOIR ETRE INTERPRETEES PAR LES SCIENCES SOCIALES. Lanalyse de similitude na pas t labore et dveloppe pour ses simples vertus mathmatiques et descriptives. Cest une analyse de donnes particulirement en phase avec ltude des reprsentations sociales. On peut mettre en correspondance les proprits mathmatiques des graphes et les notions qui sont utilises dans la thorie des reprsentations sociales. Ainsi une reprsentation sociale est constitue dlments slectionns parce quils sont proches du thme dont on cherche la reprsentation. Mais la reprsentation nest pas seulement uvre de slection et damnsie, elle est fondamentalement une organisation, un ensemble de relations entre ses lments. Ces relations ne sont pas transitives, ce sont des relations de proximit dont les valeurs peuvent tre fort diverses (exprimant la plus ou moins grande proximit) et sont dfinies localement. On considre ici quelle sont symtriques. La thorie des reprsentations sociales a dvelopp un ensemble de notions telles celles de noyau central, de saillance, dlments priphriques, de principes organisateurs etc Les chercheurs dans ce domaine ont trouv dans lanalyse de similitude des correspondances permettant le traitement des donnes issues de questionnaires visant lexpression de reprsentations sociales. Ces correspondances sont videntes quand on sait que Claude Flament est lune des figures les plus marquantes du champ dtude des reprsentations sociales et quil est aussi le crateur et linspirateur des dveloppements de lanalyse de similitude. Cependant lanalyse de similitude ne se rduit pas ltude des reprsentations sociales : cest une mthode gnrale danalyse de donnes. Dans les chapitres prcdents nous nous sommes intresss aux seules proprits mathmatiques des graphes et matrices de lanalyse de similitude. Nous avons en passant montr quelles pouvaient conduire des interprtations. Dans ce chapitre nous voulons mettre en garde le lecteur contre une transposition trop rapide des proprits mathmatiques en qualits du social. On a, par exemple, trop souvent considr que la proprit mathmatique de centralit dans un graphe pouvait conduire considrer les lments centraux du graphe comme des lments du noyau central dune reprsentation sociale. Cela nest pas aussi vident. Le transfert dune discipline une autre doit tre contrl. 5.1 CENTRALITE DANS LE GRAPHE ET NOYAU CENTRAL DUNE REPRESENTATION. Un certain nombre de chercheurs se sont servis de lanalyse de similitude pour identifier les lments centraux dun ensemble de variables partir des proprits graphiques de polarisation. Dans la thorie des graphes on parle dlments centraux ou de point darticulation42 pour traduire le fait que certains sommets ont de nombreuses relations43 ou quils sont ncessaires la connexit du graphe. Cette mise en correspondance des critres de centralit et de lidentification du noyau central a t utilise pour la premire fois par J.C. Abric (1984) et a fait cole sans quil ait t ralise une rflexion plus

42

On appelle point darticulation un sommet ncessaire la connexit du graphe. Si on enlve ce sommet le graphe est alors constitu de 2 ou plusieurs sous graphes disjoints. On peut tendre cette notion un sous ensemble de sommets. On parle alors de k-connexit : si on enlve k sommets (avec k minimum) le graphe est constitu de 2 sous graphes disjoints : cf. Berge, C., 1958. Le nombre de relations qui ont pour origine un sommet donn est appel en thorie des graphes non orients : degr de ce sommet. On peut alors hirarchiser les sommets selon la valeur de ce degr.

43

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

69

approfondie. Cest ainsi quon a vu fleurir les travaux identifiants les lments du noyau central dune reprsentation sociale aux sommets ayant une proprit de maximisation de certaines de leurs caractristiques. Aissani (1991 : 60) calcule le nombre dartes de larbre maximal qui aboutissent chaque sommet et hirarchise ainsi les sommets. Katrlos (1993 : 46) calcule un indice K prenant en compte les distances sur larbre maximum. En utilisant la mthode de Aissani dans lexemple des douze pays le graphe de larbre maximum (figure 39) on identifierait trois pays centraux : les USA qui sont en relation avec 4 autres pays, lEgypte et Cuba qui sont en relation avec 3 autres pays. On voit bien ici que la proprit de centralit (outre le fait que ce calcul est bien sommaire et est mis en cause par les analyses des autres proprits du graphe) recouvre en fait deux aptitudes diffrentes : les USA sont en effet le prototype des pays occidentaux ; lEgypte comme Cuba sont des pays intermdiaires entre deux mondes (celui du dveloppement et celui de linfluence communiste). Claude Flament (1996) a aussi montr que, linverse de cette correspondance, les lments centraux de la reprsentation (identifis par ailleurs) se trouvaient souvent en bout de chane. Ils taient plus des lments gnrateurs de dimensions de lunivers analys que des lments charnires entre ces dimensions. Il affirme : En fait, on peut se demander si la considration de lexcentricit nest pas, dans certains cas, plus importante que celle du degr de voisinage. . Dans les tudes qui identifient proprits graphiques de centralit et noyau central de la reprsentation les variables slectionnes se trouvent souvent dans des groupes intermdiaires quand on effectue des analyses complmentaires du type classification ascendante hirarchique (Katrlos, 1993 : 97, 72 , 82). On a vu aussi que dans le filtrant des cliques maximales certains sommets se trouvaient prsents dans un trs grand nombre de cliques. Cette proprit ne leur donnait pas pour autant valeur de centralit. Ce fut le cas de la scurit dans le filtrant des 10 Valeurs de Schwartz (figure 10). Or ce terme est plus un pont entre le pouvoir et la bienveillance quun terme organisant lensemble des valeurs. Nous avons vu enfin que les graphes en toile ntaient pas obligatoirement les plus intressants. Il ne faut donc pas mettre au mme plan un terme polarisant son environnement et un terme jouant le rle dintermdiarit entre deux sous-ensembles. Il nexiste pas de calcul dbouchant sur un indice de centralit qui permette didentifier ces deux proprits, il les confond obligatoirement. Il se peut quil y ait congruence entre centralit graphique et noyau central dune reprsentation sociale mais cette congruence doit tre expertise par un questionnaire complmentaire de mise en cause (cf. Moliner, P., 1989 et 1994). La centralit dans le graphe recouvre en fait deux proprits sociales diffrentes : lexistence dune variable recouvrant une notion centrale et organisatrice de la reprsentation sociale ; lexistence dune variable intermdiaire entre deux ou plusieurs dimensions de lunivers reprsent. Il est quelque fois possible de distinguer ces deux cas de figure en indiquant sur le graphe la saillance dune variable mesure par la valeur de chaque sommet du graphe (frquence ou moyenne dans le tri plat). On repre alors la place des variables ayant les plus fortes valeurs : sont-elles en bout de chane, dans une zone du graphe ou en son centre ? Dans chaque cas linterprtation des proprits mathmatiques du graphe sera diffrente. Il ne faut pas utiliser les proprits mathmatiques du graphe sans retour critique. Les critres statistiques de centralit, quils soient calculs sur larbre maximum ou sur la totalit des relations, ne donnent pas directement le noyau central dune reprsentation sociale. Il nous parat important de pointer la ncessit de croiser les informations donnes par larbre maximum, le filtrant ou tout autre graphe tirs de la matrice de similitude avec des informations obtenues par des questionnaires construits spcialement pour mettre en vidence le noyau central. La position dans les graphes de similitude des Droits de reproduction et de diffusion rservs Sciences Humaines 2003

70

lments centraux, ainsi dfinis, est alors trs clairante. Il faut en second confronter les diffrentes proprits mathmatiques de la matrice de similitude. Par exemple si la matrice est Robinsonnienne44 il est illusoire de vouloir dcouvrir un lment central car linformation importante est lexistence dune dimension organisatrice des variables. 5.2 QUAND LES DONNEES NONT PAS GRAND CHOSE A DIRE. Lanalyse de donnes donne toujours un rsultat. Comme lanalyse factorielle donne toujours des axes et des positions sur le plan constitu par deux facteurs, lanalyse de similitude donne toujours un arbre, un filtrant, on peut toujours dessiner un graphe, mme un peu complexe. Et pourtant il faut pouvoir reprer, accepter linsignifiance de certaines donnes (insignifiance ou vidence, cest la mme chose au regard dune thorie de linformation). 5.2.1 Quand tout est dit par le simple tri plat. Il est possible que la matrice de similitude ne fasse que reflter la frquence ou la moyenne des variables. On se trouve souvent dans ce cas de figure avec les questionnaires de caractrisation (cf. annexe 2) ayant la forme dun Q-sort rectangulaire . Le questionnaire de caractrisation a t rintroduit dans les tudes de reprsentations sociales par Claude Flament (la premire utilisation date de 1963, Fraisse, P. ed, 1963) pour rendre compte de lhypothse de lexistence dune hirarchisation collective des items : on veut situer les items sur une chelle dimportance au regard de lobjet tudi. Ce questionnaire vise slectionner les lments qui ont une forte probabilit dappartenir au noyau central de la reprsentation Dans ce questionnaire on propose au sujet une liste ditems dont le nombre est un multiple de 3 (4 ou 5 selon les cas) : par exemple 12. On demande alors au sujet de choisir les 4 items les plus caractristiques de lobjet tudi. Ce choix est contraint : il faut 4 items et non 3 ou 5. Ensuite on lui demande de choisir dans les 8 items restants les 4 les moins caractristiques de lobjet tudi. Ici aussi le choix est contraint. Chaque item est alors cod de 1 3 : 3 sil a t choisi comme caractristique, 1 sil a t choisi comme non caractristique, et 2 sil na pas t choisi par le sujet enqut. Ce choix contraint repose sur un modle statistique quiprobable : la probabilit dtre cod 1 (ou 2 ou 3) est de 0,33. Cette quiprobabilit se traduit dans lappellation Q-sort rectangulaire . Il diffre du Q-sort classique qui veut se rapprocher dune loi de Gauss en constituant trois groupes ingaux ditems privilgiant la classe centrale : 3, 6, 3 par exemple. En effet ce qui nous intresse ce nest pas les items dont la distribution aurait leur mode dans la classe centrale, mais au contraire ceux qui ont une distribution trs dissymtrique, privilgiant la dimension caractristique ou non-caractristique . Ce questionnaire permet dobtenir des courbes de frquences fortement dissymtriques, donc non gaussiennes. Ce type de questionnaire a le grand privilge de nous donner, par la distribution des frquences des items, une trs bonne indication sur le rapport des items lobjet reprsent45. Mais les matrices de

44

On dit quune matrice est Robinsonnienne quand on peut trouver une unique chaine maximale rgulire (aux exaequo prs). Si on ordonne la matrice de similitude selon lordre de cette chane maximale, on observe que les valeurs de similitude sont dcroissantes en ligne et en colonne partir des valeurs de la diagonale (exemple au tableau 34). On peut appliquer cette notion aux sous-matrices. Vergs, P., 1995

45

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

71

similitude que lon peut construire entre ces items sont le plus souvent bien particulires car les choix ne sont pas totalement indpendants. Nous prendrons pour exemple une tude faite auprs de 504 personnes46 sur la reprsentation sociale de la Banque. Nous leur avons propos une question de caractrisation sur la vocation de votre banque . Elle comportait 9 items. Le tableau suivant prsente les rsultats bruts de ce questionnaire.
Tableau 33 : Banque : tableau de la distribution des choix (en %) le MOINS Non Choisi caractristique Etre au service des particuliers 17 23 Mettre largent de ses clients en scurit 15 34 Faciliter la solution des problmes financiers des 24 27 particuliers Favoriser linvestissement des entreprises 19 47 Epauler les PME 21 52 Financer des travaux dintrt collectif 32 53 Promouvoir des ralisations sociales 40 46 Faire travailler largent de ses clients son profit 24 47 20 On ny sent pas un idal, cest une affaire de gros sous 66

Items

le PLUS caractristique 60 51 49 34 27 15 14 29 14

Si on utilise lindice de similitude calcul sur la distance euclidienne et si on ordonne les items par lordre des moyennes, on obtient une matrice dont les valeurs sont dcroissantes en ligne et en colonne partir de la valeur diagonale (matrice Robinsonnienne , tableau 34). Ce rsultat dcoule de la proprit majoritaire de cet indice : il tient compte, plus que dautres, de la frquence des choix majoritaires. Pour essayer dobtenir une information plus complte on utilise un indice de corrlation (ici le Tau B de Kendall, figure 64), il est systmatiquement trs faible et le plus souvent ngatif.
Particul Securit PbsFina Invest Pme Collect RealSoc Profit GrosSous * 49 50 41 42 38 37 27 23 Particul Securit PbsFina Invest Pme Collect RealSoc Profit GrosSous * 6 16 -21 -14 -11 -5 -27 -22

* 46 42 44 42 39 32 29

* 39 42 40 37 30 27

* 55 47 45 40 37

* 49 * 48 51 * 38 44 41 * 38 45 46 50

* 4 -22 -16 -9 -6 -19 -14

* -23 -13 -12 -13 -22 -22

* 16 * -5 -5 * -3 -4 -3 * -8 -18 -9 -15 -8 -17 -11 -12

* 25

Tableau 34 : Banque : indice de similitude : fonction de linverse de la Distance Euclidienne

Tableau 35 : Banque : indice de similitude : Tau B de Kendall

On a voulu vrifier si ces deux proprits dpendaient uniquement des frquences de chaque item. Pour cela on a calcul une troisime matrice sur une population alatoire de 1000 sujets ayant pour chaque item la mme distribution que la population enqute. Elle a des valeurs systmatiquement ngatives (tableau 36).

46

Etude Paul Danloy & Cie, GIFRESH, commandite par les Banques Populaires et le Crdit Mutuel en 1995 auprs de 504 personnes (mthode des quota), chantillon reprsentatif par quota de la population franaise.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

72

Lanalyse de similitude est donc informative mais elle napporte pas, ici, Tableau 36 : Banque : population alatoire, indice de similitude : Tau B de Kendall beaucoup de renseignements supplmentaires au regard de la hirarchisation des items par leur distribution. Peut tre on souponnera lexistence de sous-groupes aux reprsentations opposes, mais cette indication est dj contenue dans le tableau des frquences de choix. Cette absence dinformation est, ici, lie en partie la forme du questionnaire. On en trouvera cependant un contre exemple dans ltude sur lEcstasy qui utilise pourtant le mme type de questionnaire : lordre de la matrice de similitude qui met en vidence lexistence de deux souspopulations, nest pas du tout celui des frquences des items. Il ny a pas dans ce cas une dimension organisatrice mais dune part une opinion gnrale sexprimant par les frquences et dautre part lexistence de deux sous-groupes se distinguant sur certaines relations locales entre items. 5.2.2 La concentration des valeurs de similitude dans certaines plages de valeurs. On a dj vu quil ntait pas ncessaire de tenir compte de toute la prordonnance de similitude. Par exemple les valeurs ngatives dun coefficient de corrlation expriment plus une distance quune similitude. De mme il est quelque fois possible de donner un seuil minimum lindice de similitude si celui-ci peut tre lobjet dun test statistique, comme celui de la nullit dun coefficient de corrlation. Mais bien souvent ce calcul nest pas possible comme souvent avec les indices exprimant une frquence, un poids. Au del de cette difficult on est quelque fois confront une distribution des valeurs de la prordonnance posant problme. Quand cette distribution est fortement dsquilibre, on observe une forte concentration des valeurs sur une plage assez rduite. Ceci est mis en vidence par le filtrant des cliques : on trouve entre deux seuils proches un grand nombre de cliques. Si cette plage se trouve proximit de la dernire valeur de larbre maximum, on risque de tomber sur des donnes qui sont proches dune varit alatoire. Leur organisation par lanalyse de similitude nest alors pas trs clairante et elle est sujette une forte instabilit invalidant toute interprtation. Dans lexemple des 10 Valeurs de Schwartz, le grand nombre de cliques du filtrant (figure 10) se situant entre les seuils 0,13 et 0,11 relativise linterprtation des sous-ensembles de cliques qui sont construites ce niveau. Par contre les cliques de la zone suprieure du filtrant ne sont pas mises en cause. Dans lexemple des Douze pays (figure 52) la concentration des cliques dans la plage 417 428 pourrait aussi conduire ne pas en tenir compte. Mais ici leur association la partie suprieure du filtrant, montrant lexistence de zones isoles, lui conserve toute sa valeur.

Particul Securit PbsFina Invest Pme Collect RealSoc Profit GrosSous

* -18 * -11 -14 * -12 -14 -13 * -8 -11 -11 -12 * -4 -9 -1 -7 -10 * -9 -3 -7 -5 -16 -14 * -12 -9 -10 -11 -13 -16 -13 * -6 -3 0 -8 -2 -12 -15 -13

Cette dernire matrice permet de vrifier le caractre non alatoire des rsultats des deux prcdentes matrices : dune part lordre Robinsonnien est ici bien moins net, dautre part la corrlation entre la matrice alatoire et la matrice utilisant le mme indice de Kendall est ngatif (-0,27).
*

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

73

Lexemple suivant tir de donnes relles est une illustration dune impossibilit dinterprtation des donnes (figure 54). Lensemble des cliques apparat dans une plage trs limite ( 28 23) alors que les valeurs de la prordonnance se rpartissent de 40 10. Le graphe na pas alors grand sens.

Figure 54 : filtrant des cliques dun graphe non signifiant.

Figure 55 : graphe non signifiant (au seuil 23).

Une forte concentration des cliques dans une plage rduite de valeurs doit conduire lanalyste envisager lhypothse dune distribution quasi-alatoire des valeurs des artes et vrifier cette hypothse ou linvalider. 5.3 QUAND LES VALEURS DE SIMILITUDE DISENT DES EVIDENCES. Les rsultats de lanalyse de similitude dans certains questionnaires tiennent de lvidence. Cest le cas lorsquon recherche la similitude entre les items dune chelle de type Likert et que certains items ont une expression ngative et dautres une expression positive. Cest aussi le cas lorsque la frquence des variables dichotomiques se trouve proche des deux extrmits de la plage de valeur [0 1]. Il faut se mfier de ces cas de figure et, si ncessaire, effectuer un recodage. 5.3.1 On doit quelque fois procder linversion de certaines chelles Une recherche sur la reprsentation du politique et des hommes politiques a t conduite auprs dtudiants47 partir dun questionnaire o il leur tait demand de donner leur avis sur des propositions en se situant sur une chelle en 6 points. On en prsente ici un extrait. Lanalyse de leurs rponses, utilisant le Tau de Kendall, donne un graphe qui pose problme : on y dcouvre deux groupes ditems qui font penser lexistence dun artefact, lexistence de phrases donnant une vision positive ( gauche du graphe de la figure 56) et la prsence dautres phrases donnant une vision ngative de la politique ( droite du graphe de la figure 68).

47

Roussiau, N., Jmel, S., Saint-Pierre, J., 1997.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

74

On a alors dcid de retourner toutes les chelles des items ayant un score moyen infrieur 3. Cette inversion a lintrt de gommer le sens des affirmations initiales du questionnaire : ainsi la phrase M : raliser les promesses faites aux lecteurs est lobjectif que poursuivent les lus a un score de 1,17. En retournant cette phrase elle aura un score de 4,83 et pourra tre corrle avec dautres items donnant une vision ngative de la politique telle que N : les gens ne se sentent plus correctement reprsents par les lus . Figure 56 : Les jeunes et la politique : graphe-seuil 0,05 En effectuant les inversions de certaines phrases on obtient la matrice suivante et son graphe au seuil de 0,05. On a indiqu par une astrisque les items dont les scores ont t recalculs (x = 6 x).
N: Items : Moyenne 1:N Elus non reprsentatif : 5,23 : 0 2:*M Promesse non tenues : 4,83 : 19 0 3:H Hommes politiques mentent : 4,75 : 22 24 0 4:*F Partis / vux des lecteurs : 4,59 : 16 24 14 0 5:I Partis communication bloqu : 4,32 : 16 6 16 8 0 6:C Jeunes premiers concerns : 4,19 : 0 -4 -1 -3 8 0 7:D Institutions vers dmocratie : 4,13 : -2-15 -8 -7 3 3 8:*O Intrt pour Politique : 3,95 : 1 3 -6 2 3 24 Tableau 37 : Les jeunes et la politique : la matrice de corrlation (Tau de kendall)

0 1

Le premier graphe (figure 68) montre que les chercheurs ont mis dans le questionnaire des phrases valuant diffremment le domaine politique. Ce second graphe est plus intressant il indique une vision massivement ngative de la politique : on trouve une clique maximale forte de cinq lments : *F les partis nagissent pas conformment aux vux de leur lectorat , *M raliser les promesses faites aux lecteurs nest pas lobjectif que poursuivent les lus N : les gens ne se sentent plus correctement reprsents par les lus , H les hommes Figure 57 : Les jeunes et la politique (certains items avec politiques mentent plus souvent quils ne linverse de leur score initial) : graphe-seuil 0,05 disent la vrit , I les partis sont devenus des organisations o la communication est bloque . Les autres items portent sur une deuxime dimension du politique sans grand rapport avec la prcdente : lintrt de la politique, *O la politique ne peut pas intresser la majorit des gens , C les jeunes sont les premiers concerns par la politique . Enfin on trouve un

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

75

troisime thme sans rapport avec les prcdents : Nos institutions ont t penses en vue de faire progresser la dmocratie . On aurait pu inverser cette phrase au vu de son contenu, elle se serait alors rattache trois des cinq phrases du premier groupe (*M, H, *F). Mais alors son score serait devenu infrieur 3, contrairement la rgle que lon stait impose. Linversion de certains items a permis de ne pas se contenter de la simple vision valuative (positif / ngatif) du politique et didentifier dautres dimensions. La question du rapport entre ces dimensions peut alors tre pose. 5.3.2 Quand les valeurs des indices de similitude voluent dans des intervalles trs diffrents entre les valeurs maximale, minimale et celle lindpendance statistique. Les distributions que le spcialiste des sciences sociales observe, sont le plus souvent dformes par rapport aux distributions classiques (telle la courbe normale de Gauss) sur lesquelles sont appuys les tests de signification. Pourquoi ne navigue-t-on pas dans un univers parfaitement gaussien ? Un raisonnement par labsurde montre quon ne cherche pas poser une question en Oui - Non pour obtenir 50% des rponses Oui et 50% des rponses Non. Au contraire on vise une distribution dsquilibre. Ces distributions introduisent des biais dans lanalyse statistique. Mais en mme temps elles sont porteuses de sens pour lanalyste, en particulier dans le champ des reprsentations sociales o lon vise identifier des lments plus saillants que dautres. Nous prenons pour exemple une recherche conduite sous la direction de Claude Flament48, o tudiant la reprsentation sociale du travail fminin, il obtient les deux distributions suivantes en demandant au sujet de situer des caractristiques du travail fminin sur une chelle en six points : on retiendra ici les distributions des mots plaisir et rmunration.
Echelle de notation Plaisir Rmunration 1 0 0 2 3 0 3 7 4 4 9 8 5 18 28 6 45 42
Caractristiques du travail fminin nombre
50 40

Tableau 38 : Le plaisir et la rmunration, distribution des effectifs (n=82)

30 20 Plaisir Rmunration

On saperoit que la note de 6 a t donne dans les deux cas par prs de 50% des sujets et que par contre la note de 1 ou 2 na pratiquement pas t utilise.

10 0 chelle

Le problme se complique encore lorsque lon cherche obtenir une information sur la corrlation entre deux variables : ici Tau de Kendall. Or le fait que la distribution initiale de chaque variable ne soit pas Gaussienne, introduit un biais systmatique. On peut mesurer ce biais mais comme il est diffrent pour chaque couple de variables on se trouve devant une difficult pour comparer valablement les indices de corrlation entre plusieurs variables, or cette procdure est celle de construction de certaines matrices de similitude et des matrices de lanalyse factorielle. La mesure de la corrlation que lon peut obtenir dans le cas du croisement entre les items plaisir et rmunration ne va pas se situer entre -1 et +1 mais seulement entre - 0,60 et + 0,94. Il y a ici une
48

Figure 58

Flament, Cl, 1994.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

76

dissymtrie, il est plus facile de faire apparatre une corrlation positive quune corrlation ngative ; et on obtiendra jamais une corrlation de valeur extrme +1 ou -1. Ici le domaine utile de lindice est assez large, il nen est pas de mme si nous dichotomisons ces variables comme il est classique de le faire pour obtenir des tableaux de Burt utiliss par lAnalyse Factorielle de Correspondance. On cr alors trois variables pour chacun des items prcdents (V1 V3 et V4 V6). On peut calculer pour chaque croisement entre ces variables les valeurs minimales et maximales du Phi.
Tableau 39 : Dichomisation des variables Plaisir et Rmunration. Nouvelle variable Frquence code 0 Frquence code 1 Plaisir V1 72 10 V2 55 27 V3 37 45 Rmunration V4 70 12 V5 54 28 V6 40 42

Codes regroups 1,2,3 4,5 6 1,2,3,4 5 6

Tableau 40 : Domaine de variation des variables dichotomiques. Variables concernes minimum maximum V1 x V4 -0,15 0,90 V1 x V5 -0,26 0,52 V1 x V6 -0,38 0,36 V2 x V4 -0,29 0,59 V2 x V5 -0,50 0,97 V2 x V6 -0,72 0,68 V3 x V4 -0,46 0,37 V3 x V5 -0,79 0,65 V3 x V6 -0,88 0,92

Ces corrlations ne peuvent pas prendre leur valeur sur la totalit lintervalle [-1, +1], elle la prenne sur lintervalle [Phi minimum, Phi maximum]. De plus les valeurs du Phi minimum et du Phi maximum sont diffrentes dun croisement lautre (de -0,15 -0,88 et de 0,36 0,92). Elles dpendent compltement des deux distributions marginales des variables que lon croise. Plus ces distributions sont proches de lquiprobabilit (50 / 50) plus le domaine est large : on constate une croissance du domaine de variation de V1 V3 et de V4 V6. Plus la distribution marginale est dissymtrique (par exemple V1 : 10 / 72) plus le domaine de variation du est dissymtrique par rapport au zro de lindpendance statistique (par exemple V1 x V4 : de -0,15 +0,90). On peut alors se demander sil est possible de comparer les trois corrlations de V1 avec V4, V5, V6 quand la premire peut atteindre la valeur de 0,90, alors que la dernire ne peut atteindre que la valeur 0,36. On se trouve devant un biais systmatique qui aura des consquences non matrises sur la prordonnance de similitude. Ce biais existe aussi avec les autres coefficients de similitude, on a dj indiqu limportance des frquences de chaque variable dans le calcul de lindice de cooccurrence. 5.4 QUE FAIRE DES VALEURS NEGATIVES ? Il y a toutefois un cas o l'ambigut subsiste et o le problme n'est pas facile rgler, c'est celui o l'on obtient la prordonnance partir d'un coefficient comme le coefficient de corrlation, par exemple on doit se poser la question suivante : une corrlation fortement ngative marque-t-elle une forte similitude ou une forte distance. Aucune considration d'ordre technique ne permet de rpondre cette question. C'est le contenu et les objectifs de l'tude qui permettent de prendre une dcision. Souvent on conduit les

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

77

deux analyses partir du coefficient de corrlation pris en valeur absolue ou en valeur algbrique et l'on utilise les deux. 5.5 INTERET ET LIMITE DE LANALYSE DE SIMILITUDE. Lanalyse de similitude fait partie des techniques danalyse de donnes qui reposent sur lide dassociation. Son raffinement permet de mettre en vidence, comme nous lavons vu, des dimensions (des axes), des regroupements (amas ou classes), des sous-populations diffrencies. Elle peut, sous certaines conditions, identifier les groupes de variables pouvant se conformer certains modles (chelle dattitude, composantes connexes). Elle ne couvre cependant pas la totalit du champ des phnomnes qui affectent les donnes. Elle ne vise pas la causalit ou excelle lconomtrie car elle ne prend en compte quune notion plus pauvre : celle de ressemblance, celle daller ensemble. Elle ne dtecte pas lexistence de variables que lon peut qualifier de synonymes dans les questionnaires o lon demande au sujet deffectuer un choix dans une liste. Deux items de cette liste peuvent tre alternatifs, les sujets choisissent dutiliser lun ou lautre car ils ont quasiment le mme sens pour eux. Pour les reprer il faut tenir compte du fait que ces items ne sont donc pas corrls mais ont le mme profil des coefficients de similitude vis vis des autres variables. Enfin lanalyse de similitude ne rend thoriquement pas compte de la relation dimplication. Nous dveloppons un peu ce dernier point car il peut gnrer une certaine confusion dans lusage de certains coefficients de similitude. Lanalyse de limplication est du ressort de lanalyse boolenne des questionnaires telle que la dvelopp Claude Flament49. Cependant certains statisticiens ont dvelopp des indices de similitude qui indiquent limplication plus que la corrlation. Cest par exemple le cas de lindice de Yule.
A\B 0 1 0 18
2

Total 20

Total Ces premires donnes ont un Phi de 0,452 et un Yule de 0,892 27 45 Les secondes ont un Phi trs 53 55 comparable de 0,428. Par contre 80 100 le Yule est diffrent : 0,757 1

A\B 0 1

0 18
12

le premier cas la Total Dans variable A implique quasiment la 12 30 variable B (case 1-0 presque vide : 2) 58 70 Ce nest pas le cas dans ce second 1

Total 30 70 100 tableau (la case0-1 a pour valeur 12). Tableau 41 : Exemple sur limplication.

Dans lexemple ci contre on voit quil y a une corrlation intressante : le 18 de la case 0-0 est 2 fois suprieur la valeur thorique dans les deux tableaux de croisement (45*2/100 = 9 et 30*30/100 = 9). Cette identit est reflte par la quasi galit des Phi de contingence. Mais cot de cela 18/20, dans le premier tableau, reprsente 90% du total vertical des rponses 0 la variable B alors que 18/30 ne reprsente que 60% dans le second. Cest cette dernire information que reflte lindice de Yule (ou lindice H50).

Cependant ces indices ont un grave dfaut : ils ne distinguent pas le cas o la variable A implique la variable B et le cas contraire o la variable B implique la variable A. En effet la similitude est symtrique alors que limplication est par

49 50

Un programme informatique sur Mac a t ralis par XXX Grenoble. H est calcul sur la case 1-1 : H = Observ / Thorique ; ici 53/55 = 0,96 versus 58/70 = 0,83

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

78

nature dissymtrique. Si on utilise de tels indices et que lon recherche limplication parce quelle correspond la nature des donnes51 il faut indiquer le sens de linclusion en orientant le graphe (par des flches).On trouve en Annexe 1 une note sur ces indices indiquant limplication. Lanalyse de similitude ne peut projeter les variables et les sujets sur une seule figure comme dans le cas de lanalyse factorielle de correspondance. Certes lanalyse duale des variables et des sujets (lignes / colonnes) peut tre faite en transposant le tableau des donnes mais on obtient alors deux graphes : celui des variables et celui des sujets. En outre la limitation des programmes ne permet pas de traiter des fichiers o le nombre de sujets dpassent 100. La limitation 50 variables (au mieux 100 variables) ne tient pas aux seules capacits informatiques, elle a t volontairement limite pour que lanalyse ne mlange pas des donnes de nature trop diffrentes. Il vaut mieux faire plusieurs analyses sur des groupes de variables exprimant une facette du phnomne analys que de vouloir tout pris corrler des donnes htrognes. Cette question de la dualit des sujets et des variables peut tre pose thoriquement laide des hypergraphes et des treillis de Gallois. Les recherches que nous avons faites dans ce sens se heurtent la difficult de traiter lalatoire des rponses52. Actuellement Claude Flament explore une autre piste plus prometteuse : celle de la dfinition dun individu typique. On dfinit la rponse majoritaire pour toutes les variables et on calcule la distance de chaque sujet cette rponse majoritaire. On peut alors dfinir le groupe de sujets conformes et celui des sujets qui sen loignent significativement. En crant ces deux, ou plus, sous-populations ont peut faire pour chacune delle une analyse de similitude et comparer les graphes. La recherche de cette dualit se rfre la distinction que nous avons faite propos des indices de similitude : indice exprimant une majorit, indice exprimant une distance lindpendance statistique. Elle a lavantage de ne tenir compte que de lensemble des variables analyses. La construction de sous-population partir de variables externes (tel que lge, le sexe, le PCS ) correspond une autre logique : celle dune causalit entre variables objectives et variables exprimant un phnomne expliquer. La recherche du croisement entre rsultats collectifs (agrgation des rponses individuelles) et rponses individuelles demande un traitement appropri chaque type de questionnaire. On a, par exemple, ralis des programmes informatiques particuliers pour certains questionnaires de reprsentations sociales (les questionnaires de mise en relation de notions ou les questionnaires de construction de groupe ditems53). Ils mettent toujours en vidence des schmas propres des souspopulations minoritaires mais cohrentes dans leur manire de penser un phnomne social. Quand on fait une analyse de similitude, et on peut dire la mme chose de toute autre mthode danalyse de donnes, il faut avoir conscience de ces limitations. Nous avons tout au long de ce livre montr la fois lintrt de lanalyse de similitude, ce quelle mettait en vidence, la rigueur quelle exigeait, ce quelle ne pouvait pas faire. Ceci restant lesprit il convient den rsumer lesprit, son apport aux analyses de donnes.

51 52 53

Cest le cas dans lanalyse de linclusion du champ smantique dun mot dans celui dun autre mot. Flament, C., Degenne, A., Vergs, P., 1976. cf. Annexe 2

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

79

Lapport de lanalyse de similitude lanalyse des donnes est de plusieurs ordres : Elle demande lanalyste de prendre des dcisions, de contrler lanalyse tout au long de son parcours ; aucun instant une boite noire ne dlivre de rsultats ; Elle permet dadapter les indices statistiques calculs la forme des donnes et la nature du phnomne recherch (majoritaire, spcificits lies des sous-populations) ; Elle traite localement les ressemblances, elle tient compte des valeurs les plus fortes sans tre perturbe par les valeurs faibles statistiquement non significatives ; Elle identifie lexistence de modles formels et distingue ce qui peut tre interprt comme des axes et ce qui est regroupement de variables. La ralisation dune analyse de similitude demande la puissance des moyens informatiques. Depuis toujours les programmes informatiques ont essays de traduire les intuitions des chercheurs. Ils sont maintenant assez stabiliss54.

54

Ils peuvent tre demands lAssociation Internationale des Centres de Smiologies (AICS) : La Farigoule, 845 Chemin Bouenhoure, 13090 Aix en Provence.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

80

ANNEXE 1 LES PRINCIPAUX INDICES DE SIMILITUDE

1. CAS DICHOTOMIQUE.
N est le nombre de sujets. Ni1 est le nombre de sujets cods 1 sur litem i. Nj1 est le nombre de sujets cods 1 sur litem j. Ni0 est le nombre de sujets cods 0 sur litem i. Nj0 est le nombre de sujets cods 0 sur litem j. Cij est le nombre de sujets cods 1 aux items i et j. Zij est le nombre de sujets cods 0 aux items i et j. Wij est le nombre de sujets cods 1 litem i et 0 j. Uij est le nombre de sujets cods 0 litem i et 1 j.

j=0 i=0 i=1


Total

j=1 Uij Cij Nj1

Total

Zij Wij Nj0

Ni0 Ni1 N

1.1 Cas dichotomique nominal . Coocurence : S1 = Cij.


S 2 = (Cij N ) 100 S 4 = 100 (Cij C * ij ) C * ij

Rapport lindpendance statistique : S 3 = Cij C * ij Indice de Forbes : S 5 = (Cij C * ij) 2 (Cij max C * ij) 1.2 Cas Dichotomique Ordonn : Coocurence symtrique : S 6 = Cij + Zij Phi de contingence : S 8 = = Q de Yule : S9 = Q =

S 7 = ((Cij + Zij ) N ) 100

( Zij Cij ) (Uij Wij ) Nj 0 Nj1 Ni 0 Ni1

S8bis = S8 / Phimax

( Zij Cij ) (Uij Wij ) ( Zij Cij ) + (Uij Wij )

Indice de Jaccard : S10 = C ij (C ij + U ij + Wij )

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

81

2.MESURE ORDINALE : Variable i \ j chelon 1 chelon 2 etcq chelon max Total j chelon 1 chelon 2 etck chelon max : g Total i

n11 n21 nq1 Nm1 nt1


k =l

n12 n22 nq2 nm2 nt2

n1k n2k nqk nmk ntk

n1g n2g nqg nmg ntg

n1t n2t nqt nmt N

Concordance des rponses : S11 = nkl N

Distance City Block : S12 = 1

k q nkq
k l

N (m 1)
2

Distance Euclidienne : S13 = 1

(k q)
k l

nkq

N (m 1) 2

Indice de Guimelli S14 = 2( S12 0,5) Tau B de Kendall : S15 = Tb =

S W T W U

avec : S =

1 q = m 1 k = g 1 k =1 nqk Rqk 2 q =1

=m s=g p = q 1 s = g avec R qk = p p = q +1 s = k +1 n ps p =1 s = k +1 n ps

avec T =

1 1 ntk (ntk 1) et U = nqt (nqt 1) 2 k 2 q 1 N ( N 1) 2

avec W =

Tau C de Kendall (cas ou m = g) : S16 = Tc = 2S N 2 (m 1) m

( (

))

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

82

3 DONNEES METRIQUES.

Sujets 01 02 03 k max Total

Variable a n1a n2a n3a

Variable p n1p n2p n3p nkp

Variable l n1l n2l n3l nkl nmsl nl

Var max n1mv n2mv n3mv

Total n1 n2 n3 nk nms N

nmsa na

nmsp np

nmv
k

Une fonction inverse de la distance euclidienne entre la colonne p et l : S17 = 1 (nkp nkl ) 2 Le coefficient de corrlation entre les colonnes S18 = r La distance dite du Khi , utilise dans les A.F.C :
Cas dune mesure mtrique :
S17 = 1
2

S19 = 1

k =m k =1

nk nkp nkl N nl np

(nkp nkl ) 2 .
k k =m

S18 = r ( p, k ) =
2

CoVar ( pk ) Var ( p) Var (k )

T npk nlk S19 = 1 np nl k =1 nk

Cas dune matrice de relation : S20 = npl + nlp S 21 = npl npl ) (nlp Ntt ) ( nlp nlp ) + (npl Ntt ) ( l p p l

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

83

4 LE CAS PARTICULIER DES INDICES DIMPLICATION.

On cherche par ces indices lexistence, dans le tableau de croisement de deux variables, dun bloc de valeurs nulles ou quasi nulles : la case Uij ou la case Wij. Lexistence de ce bloc traduit le fait que certaines modalits de j = 0 j = 1 Total lune des variables implique quasi automatiquement la rponse i=0 Zij Uij Ni0 lautre variable. On peut, dans le cas de variables dichotomiques, parler dune implication logique : Si i=1 alors i=1 Wij Cij Ni1 j=1. Cette implication repose sur lexistence dune case vide : Total Nj0 Nj1 N par exemple il ny a pas de sujet ayant i=1 et j=0. Limplication ne suppose pas la corrlation surtout si les poids des deux variables sont trs diffrents. On permet par ces indices lanalyse de donnes aux frquences fortement dsquilibres. Cest le cas par exemple de lanalyse de la prsence de mots dans un corpus de texte donn. Certains mots sont trs frquents, dautres napparaissent quune ou deux fois. La corrlation ou la distance lindpendance statistique na alors pas de sens. Seule linclusion des champs smantiques peut en avoir un. Limplication est un peu en contradiction avec lune des proprits de lanalyse de similitude puisquil ny a pas symtrie : Si i implique j alors j nimplique pas i. Cependant les indices que lon utilisent, construisent une symtrie S(i,j) = S(j,i). Lanalyse de similitude est alors possible. Ce nest quau moment de linterprtation quil faut rtablir le sens des relations entre les variables.
Cas nominal :

Pour mettre en vidence limplication de i sur j il faut que la case Wij soit nulle ou trs proche de zro. On calcule alors : Cij Ni1 . Mais si Nj1 est infrieur Ni1 ce nest plus limplication de i sur j mais celle de j sur i quil faut calculer. Lindice devient alors : S 22 = Cij min Ni1, Nj1 . Plus cet indice est proche de 1 plus il indique lexistence dune case vide , alors Wij ou Uij est proche de zro. Cet indice indique lexistence dune implication de litem le moins frquent sur litem le plus frquent.
Cas ordinal Lindice dimplication est comme pour les variables nominales lindice S22. On peut aussi utiliser

le Q de Yule Q =

( Zij Cij ) (Uij Wij ) . ( Zij Cij ) + (Uij Wij )

Cet indice est gal 1 si Uij ou Wij est gal 0 (case anti

diagonale vide). Il est gal 1 si Zij ou Cij est gal 0 (case diagonale vide). Il est gal 0 comme le Phi de contingence dans le cas de lgalit des produits des valeurs des deux diagonales (nullit du numrateur). Dans le cas nominal ou ordinal la valeur de lindice nindique pas le sens de limplication. Il faut le reconstruire partir des valeurs marginales du tableau ce croisement des deux variables.

Indice relatif aux chelles de GUTTMAN


On calcule un indice de reproductibilit.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

84

ANNEXE 2 EXEMPLES DE QUESTIONNAIRES

1. QUESTIONNAIRE DE GROUPEMENTS.
On vous demande de faire des groupes avec les mots de la liste ci dessous.
Liste : 01 Prix 02 Travail 03 Consommation 04 Salaire 05 Capital 06 Besoins 07 Crdit

08 Dpenses 09 Publicit 10 Gaspillage 11 Bnfice 12 Qualit de la vie 13 March 14 Demande

15 Epargne 16 Loisirs 17 Production 18 Vente 19 Investissement 20 Achat

a) Barrez les mots que vous ne comprenez pas. b) Faites des groupes de mots qui vont ensemble : 1) Faites au moins deux groupes. 2) Mettez 2 6 mots par groupe. Un mme mot peut tre utilis plusieurs fois. c) Donnez chacun des groupes un titre ou la raison de votre regroupement.

Premier groupe Numro Mots

Deuxime groupe Numro Mots

Titre : .......................................................

Titre : .......................................................

..................................................................

..................................................................

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

85

2. QUESTIONNAIRE DE CHOIX

On dit que nous vivons dans une conomie de march o les prix sont libres

Veuillez lire attentivement les propositions suivantes. Le prix d'un produit peut tre dtermin de diverses manires. Il peut : 01- tre le rsultat de l'offre et de la demande. 02- tre dtermin par les entreprises qui dominent le march. 03- tre le rsultat d'une ngociation entre les commerants et les producteurs. 04- tre calcul en fonction des cots et profits des entreprises. 05- tre dtermin par une mafia . 06- tre un prix juste et honnte . 07- tre calcul en fonction du prix que les consommateurs sont prts payer. 08- dpendre d'une dcision du gouvernement. 09- dpendre de la concurrence. 10- dpendre du pouvoir des organisations de consommateurs. 11- dpendre du choix des consommateurs. 12- dpendre du rapport de force entre vendeurs et acheteurs. 13- dpendre de la possibilit de trouver des combines. 14- dpendre du commerce international. 15-.dpendre du pouvoir dachat. 16- dpendre de la qualit du produit. 17- dpendre des revendications syndicales. 18- permettre l'quilibre de l'conomie. 19- permettre tous d'acheter ce qu'ils dsirent. 20- permettre de reprsenter la valeur des choses. Quelles sont votre avis les 5 phrases qui dcrivent le mieux comment se fixe le prix d'un produit vendu : (crivez ici leurs numros)

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

86

3. QUESTIONNAIRE EN ECHELLE A LA MANIERE DOSGOOD

On peut caractriser lconomie de march par plusieurs expressions. Nous vous demandons, ici, de vous situer pour chaque couple dexpressions sur une chelle (gradue en 5 points) entre deux opinions opposes. En voii un exemple : Les mathmatiques selon vous c'est : cest facile 1 2 3 4 5 cest difficile Vous pouvez penser que les mathmatiques sont plutt : 1. faciles, 2.assez faciles, 3.moyennement faciles, 4.assez difficiles, 5.difficiles Si vous jugez personnellement qu'elles sont assez faciles entourez le 2 : Veuillez donner votre avis pour chaque couple dexpression concernant le march
Le MARCHE :

donne des chances gales tous vite le gaspillage cre l'ordre dans la vie conomique vite la bureaucratie est le fondement de l'ordre social renforce les relations entre les individus permet chacun de faire ce qu'il veut favorise les gens honntes moral

cre des ingalits

2 3

1 1

2 2

3 3

4 4

5 5

est source de gaspillage cre le dsordre dans la vie conomique n'vite pas la bureaucratie dtruit l'ordre social

4 5

1 1

2 2

3 3

4 4

5 5

dtriore les relations entre les individus est le moyen pour certains d'imposer leur loi aux autres favorise les gens sans crupules immoral mauvais injuste concurrence sauvage comptition mcanisme impersonnel

8 9

1 1 1 1 1 1 1

2 2 2 2 2 2 2

3 3 3 3 3 3 3

4 4 4 4 4 4 4

5 5 5 5 5 5 5

10 bon 11 juste 12 rgulation de l'conomie 13 coopration 14 contact direct entre vendeurs et acheteurs

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

87

4. QUESTIONNAIRE DE CARACTERISATION

Les causes du chmage peuvent tre diverses. Nous vous demandons de lire attentivement la liste suivante :

01- Le manque dinvestissement 02- Le progrs technique 03- Lvolution dmographique 04- Le manque de mobilit des salaris 05- La concurrence trangre 06- La trop longue dure du travail 07- Le manque de qualification des salaris 08- Linflation 09- La puissance des syndicats 10- Linefficacit des interventions gouvernementales 11- La faible agressivit commerciale des entreprises 12- La mauvaise qualit des produits 13- Les bas salaires dans certains pays 14- Linsuffisance de la consommation 15- Linefficacit des entreprises

G1) Quelles sont votre avis les 5 causes les plus importantes du chmage ?

Inscrivez les de la plus importante ( gauche) la moins importante ( droite).

G2) Quelles sont votre avis les 5 propositions qui ne sont pas des causes du chmage ?

A partir dun tel questionnaire on peut coder chaque item de 1 3 avec 1- les causes les plus importantes 2- les items non choisis : ni dans la liste des causes les plus importantes, ni dans celle des items qui ne sont pas des causes du chmage 3- les items qui ne sont pas des causes du chmage La probabilit thorique de chaque chelon est gale 0,33.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

88

5. QUESTIONNAIRE DOPINION SUR ECHELLE, DITE DE LIKERT


Pour chacune des phrases suivantes nous vous demandons de donner votre avis. a) Le gouvernement devrait redistribuer les revenus au profit des moins favoriss. 1 Totalement d'accord 2 En partie d'accord 3 ni d'accord ni pas d'accord 4 En partie pas d'accord 5 Totalement pas d'accord 6 Je ne sais pas

b) Trop de gens comptent sur le gouvernement pour assurer leur bien tre. 1 Totalement d'accord 2 En partie d'accord 3 ni d'accord ni pas d'accord 4 En partie pas d'accord 5 Totalement pas d'accord 6 Je ne sais pas

c) Le plus grand nombre nobtient pas une juste part de la richesse de la nation. 1 Totalement d'accord 2 En partie d'accord 3 ni d'accord ni pas d'accord 4 En partie pas d'accord 5 Totalement pas d'accord 6 Je ne sais pas

d) Les aides sociales ne vont pas toujours ceux qui en ont le plus besoin. 1 Totalement d'accord 2 En partie d'accord 3 ni d'accord ni pas d'accord 4 En partie pas d'accord 5 Totalement pas d'accord 6 Je ne sais pas

e) Une vraie coopration dans les entreprises est difficile parce que chefs dentreprises et salaris nont pas les mmes intrts. 1 Totalement d'accord 2 En partie d'accord 3 ni d'accord ni pas d'accord 4 En partie pas d'accord 5 Totalement pas d'accord 6 Je ne sais pas

f) Les entreprises prives sont plus aptes que les entreprises publiques rsoudre les problmes conomiques de la France 1 Totalement d'accord 2 En partie d'accord 3 ni d'accord ni pas d'accord 4 En partie pas d'accord 5 Totalement pas d'accord 6 Je ne sais pas

Le 6 Je ne sais pas est bien sr hors chelle.

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

89

7. QUESTIONNAIRE DE RELATIONS

Dans ce questionaire on propose aux sujets 12 mots relevant du vocabulaire conomique et on leur demande dtablir les relations conomiques entre ces mots. La suite des doublets (02 11 ; 02 10 ; 02 08 ;
Reliez par un trait les mots qui, selon vous, sont en relation. Un mot peut tre reli plusieurs autres ne tracez pas plus de 9 traits

05 03 ; 05 01 ; 05 06 ; 09 12 ; 09 07 ; 04 10) indique lexistence dune relation entre le mot 2 et le mot 11 puis le mot 2 et le mot 10 etcLa somme de toutes ces relations permet de construire une matrice de similitude (figure 4).

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

90

1 2 3 4 5 6 7 8 9 10 11 12

: : : : : : : : : : : :

Investissement Famille Production Epargne Entreprise Profit Impts Taxes Achats Etat Salaires Banques Commerce Internat.

: 0 : 33 : 29 : 34 : 163 : 43 : 0 : 20 : 17 : 4 : 47 : 18

0 8 130 4 1 101 209 13 208 34 0

0 2 204 26 4 18 6 19 0 32

0 15 6 3 5 3 20 170 1

0 205 27 14 15 80 31 117

0 8 8 17 3 27 22

0 4 218 19 2 13

0 2 40 3 15

0 19 31 83

0 12 1

0 24

Figure 4 : la matrice de similitude : Nombre de sujets (lves de classe terminale SES) ayant relis les diffrents mots (sur 279 sujets)

Droits de reproduction et de diffusion rservs Sciences Humaines 2003

Vous aimerez peut-être aussi