Vous êtes sur la page 1sur 9

CD CHAPITRE 3 LES DONNEES ONT DES PROPRITS FORMELLES :

LANALYSE DE SIMILITUDE VA LES METTRE EN VIDENCE. Le traitement de lanalyse de similitude vise mettre en vidence des proprits formelles qui soient interprtables par les sciences sociales. Les mathmaticiens ont toujours privilgi les axes, les dimensions dun univers (gomtrique . !ette notion est la base des analyses factorielles " elles rsument les donnes par quelques principes organisateurs souvent dichotomiques (jeunes # vieux$ . Les statisticiens ont ensuite mis en vidence la possibilit de segmenter les donnes en classes, en groupements pouvant permettre une gnralisation, ou donner un nom gnrique un groupe de variables. %nfin les analystes ont cherch affaiblir ces mod&les. 'n parle alors de recouvrement de composantes connexes etc$ (ous allons prsenter dans ce chapitre comment lanalyse de similitude identifie ces diffrentes proprits et leur affecte un degr de vraisemblance. 3.1 CERTAINES CHANES MAXIMALES DE LARBRE PEUVENT TRE DES AXES SUPPORTANT UNE DIMENSION QUASI GOMTRIQUE. (ous avons vu que larbre tait la reprsentation minimale des donnes garantissant le maximum dinformations (la somme des ar)tes . !est dune certaine fa*on le squelette sur lequel les reprsentations suivantes (cliques, graphes+seuil $ vont saccrocher. ,vec larbre on cherche mettre en vidence les dimensions sur lesquelles les donnes pourraient sorganiser, faire sens. -n arbre est compos de cha.nes maximales. La construction de larbre est une tentative pour trouver des cha.nes maximales qui pourraient )tre assimilables des axes sur lesquels la position des variables aurait une interprtation mtrique ou en tout cas ordinale. %n dautres termes il y aurait une relation entre toutes les similitudes des sommets de la cha.ne maximale.
B*Accomplissement A*Pouvoir K*Scurit J*Conformisme H* r!"ition

/our quil y ait de tels axes il faut que les cha.nes maximales ait la proprit * 45 * de !"#$%&!'(" ). 'n peut donner une 41 58 * intuition gomtrique de cette proprit 18 #8 3$ * partir dun extrait de la matrice de T&*%+&$ ,3 : +-+./%+ 0+ M&(!'1+ 0+ 2'.'%'($0+ 34&%+$!2 - 1556 similitude que nous avons tudie prcdemment (la matrice des 01 valeurs de 2ch3art4, tableau 05 .
: : : : : * 41 34 34 13

'n peut reprsenter cette matrice sous la forme dun treillis o6 les n7uds seraient affects de la valeur du coefficient de similitude correspondant aux deux sommets (aux deux gnrateurs . 8uand on suit une ligne du treillis en partant dun sommet on observe une dcroissance des valeurs tout au long de cette ligne. /lus deux sommets sont loigns plus leur similitude est faible " par exemple s,9 : s,; :s,< (.=> : .=0 : .05 . 'n voit sur cet exemple que seule la valeur s0= ne rpond F'#$!+ ,, T!+'%%'2 7$&2' ."(!'7$+ 0+ 1+((+ .&(!'1+ pas ce crit&re " s?9 @ s?A. <abituellement on accepte quelques incartades au principe de dcroissance si elles sont tr&s peu nombreuses et si elles portent sur des valeurs proches de celles qui ne remettraient pas en cause lordre. 'n peut observer que cette proprit de rgularit de la cha.ne nimpose rien sur le rapport entre les coefficients de similitude des sommets du treillis appartenant deux lignes diffrentes. ,insi le fait que s?, B s,9 alors que s?, : sA< ne remet pas en cause la rgularit de la cha.ne. 'n ne cherche pas

CC comparer les incomparables. 'n ne cherche pas une approximation mtrique de cette cha.ne, approximation visant positionner les sommets sur un axe de mani&re telle que les distances sur cet axe soient les plus proches possible (au sens des moindres carres dans les procdures les plus courantes (tel EF20 des distances (duales des coefficients de similitude indiques par la matrice de similitude. 'n cherche simplement une proprit structurale sur la prordonnance des coefficients de similitude " proprit mise en vidence si on L& /!:/!'"(" 0+ !"#$%&!'(" 0$9+ 1;&<9+. ordonne la matrice (lignes et colonnes 2oit une cha.ne (i1,i2,iq,.im). /our que la cha.ne soit rguli&re il de telle sorte quil y ait dcroissance en q, p , n faut que " ligne et en colonne ( partir de la S(iq,iq+p) > S(iq,iq+n) avec 0 < p < m-q et p < n <m-q diagonale des valeurs de la matrice de S(iq,iq-p) > S(iq,iq-n) avec 0 < p < q et 0 < n <p similitude. 'n peut donner une q, , t si 0 Bq < <t !ette proprit peut encore scrire " dfinition mathmatique de cette <m+1 " proprit de rgularit (cf. encart . S(iq,i ) > S(iq,it) et S(i ,it) > S(iq,it) La matrice de larbre maximum de lexemple des valeurs de 2ch3art4 qui se trouve au tableau 05 ne rpond pas, par exemple, cette proprit. 2euls les cinq premiers items forment une cha.ne rguli&re et de mani&re plus approximative les sept premi&res valeurs mais d&s que lon compl&te cette cha.ne par les valeurs de 2ch3art4 D et F on perd compl&tement cette rgularit. (ous avions vu que linterprtation devait alors tenir compte dun grand cycle. !ycle et rgularit sont deux proprits alternatives des cha.nes. La mise en rapport de larbre avec le filtrant des cliques conduit dfinir une autre proprit " la !'#'0'(" ) 0+2 1%'7$+2 .&-'.&%+2 0$ 8'%(!&9( . 'n dsire affaiblir la notion dun arbre support daxes dimensionnels en acceptant quil soit seulement le support dune suite de groupements de sommets pouvant se recouvrir partiellement. Larbre reste alors une bonne description de ces regroupements.
U9+ 1%'7$+ &A&9( %& /!:/!'"(" 0+ !'#'0'(" 0:'( &4:'! (:$2 2+2 2:..+(2 2$! $9 2:$2B&!*!+ 1:99+-+ 0+ %&!*!+ .&-'.$. " la cha.ne de larbre maximum qui relie deux sommets quelconque dune clique maximale I rigide J ne doit pas avoir de sommets hors de la clique.

F'#$!+ ,3 : 15 V&%+$!2 0+ S1;=&!(> : L+2 1%'7$+2 !'#'0+2 2$! %&!*!+.

2i on reprend une partie de lexemple des 01 valeurs de 2ch3art4 et que nous dessinions par des ovales les diffrentes cliques de la partie du filtrant reprsente la figure D=, certaines sont rigides sur larbre. 'n les reprsente sur la figure DC " (A,J,K), (H,J,K), (G,H,J,K) et (F,G,H). 'n aurait encore pu dessiner la clique (A,H,J,K). Eais ce filtrant est aussi

F'#$!+ ,? : 15 V&%+$!2 0+ S1;=&!(> : E-(!&'( 0$ 8'%(!&9( 0+2 1%'7$+2


0

F'#$!+ ,@: 15 V&%+$!2 0+ S1;=&!(> : L+2 1%'7$+2 9:9 !'#'0+2 2$! %&!*!+

9rusGal, A.?., Hish, E., Eultidimensional scaling, 2age, series " quantitative applications in social sciences 00.

C= compos de cliques non rigides " (G,H,K) et (F,G,H,K). Fans ces deux cliques larbre sort de la clique pour passer par le sommet J (figure D> . !ette entorse la proprit de rigidit indique aussi une entorse la rgularit des cha.nes car on peut dmontrer que toutes les cha.nes rguli&res produisent une 4one du filtrant o6 les cliques sont rigides. ,ussi est+il important de prendre en considration les cliques non rigides sur larbre maximum car elles indiquent les 4ones o6 larbre nest pas une bonne description. 'n peut accepter, par approximation, des cliques non rigides si les cliques qui lui sont relies par inclusion dans le filtrant se trouvent des seuils proches. !est le cas de la clique (G,H,K) qui appara.t au seuil de 0,2! puis qui est absorbe dans la clique (G,H,J,K) au seuil de 0,2". La diffrence de 0,01 est minime et non significative. /ar contre la clique (F,G,H,K) se trouve tr&s loigne des deux cliques quelle absorbe " 0,1# versus 0,2# pour la clique (F,G,H) et 0,2! pour (G,H,K). 'n ne peut la passer sous silence. Ausqu prsent nous sommes la recherche de dimensions qui permettraient de rsumer les donnes par des axes ou des quasi+axes, si on accepte quelques entorses aux proprits mathmatiques associes lexistence de I Fimensions J de lunivers des donnes. -ne autre mani&re de rsumer les donnes consiste construire des classifications. /ar une telle mthode (il existe en fait une multiplicit de mthode de classification on cherche savoir comment les donnes se regroupent et comment ces regroupements se hirarchisent. 3., LARBRE PEUT PERMETTRE UNE CLASSIFICATION DES DONNES. 'n dfinit une classification par le regroupement des variables en I classes J telles que toutes variables appartiennent une et une seule classe. 'n a lhabitude de construire des regroupements de classes par inclusion afin dtablir les proximits qui existent entre les classes. !es proximits sont reprsentes par une arborescence hirarchique. ;l y a alors divers niveaux de regroupement, les classes qui sont constitues des valeurs de similitude fortes sont nombreuses, mais plus on accepte des similitudes faibles moins il y aura de classes et plus les classes contiendront de nombreux lments. , un seuil donn ( un niveau de la hirarchie de larborescence les classes sont exclusives " une variable ne peut pas appartenir deux classes. 'n dit que de telles classifications sont des I !lassifications ,scendantes F'#$!+ ,C : L& 1%&22'8'1&(':9 0+2 1:./:2&9(+2 1:99+-+2 0+ %&!*!+ 0+2 15 <irarchiques (!,< J.
4&%+$!2 0+ S1;=&!(>. Lordre des ar)tes de larbre est le suivant " 0,20 (D,F) $ 0,2" (%,D) $ 0,&& (G,H) $ 0,&' (D,() $ 0,&# (H,J) $ 0,'1 (F,G) et (A,)) 0,'* (A,K) $0,*! (J,K). 'n peut alors dessiner la classification suivante qui met en vidence les diffrentes composantes connexes de larbre et leur mode de regroupent hirarchique.

Le filtrant des cliques a tr&s rarement la proprit dune classification. /our que le filtrant ait cette proprit il faut que toutes ses cliques soient des parties rigides sur larbre et que les cliques, un seuil donn, naient pas de variables communes. 'n peut cependant chercher construire une classification qui soit une approximation du filtrant. !ette classification se fait sur la base des ar)tes de larbre maximum " cest la classification dite de Aohnson (Aohnson, 0KLM ou dite de Hrocla3. !ette classification est intressante car elle est dfinie par larbre maximum. %lle na de sens que si les cliques du filtrant sont rigides sur larbre. Eais sa qualit dpend de la qualit de larbre. %lle doit )tre utilise surtout dans le cas o6 larbre exprime des donnes sorganisant autour daxes (autour de dimensions du phnom&ne analys . (ous allons nous placer dans une situation plus courante, celle o6 ce dernier nest pas une

Lar)te (D,F) cre deux composantes connexes " (),A,K,J,H,G,F) et (%,(,D). /uis Lar)te (%,D) cre deux composantes connexes " (%) et (D,() etc$

C> bonne description des donnes, cest le cas de lexemple sur les Naleurs. 8uelle est la qualit de la classification que nous obtenons la figure DL O 'n peut vrifier cette qualit en construisant le filtrant des cliques dont la valeur est suprieure la valeur (s1 juste suprieure celle de la plus petite ar)te de larbre (dont la valeur est s1+ . !ette valeur s1 a la proprit suivante " si on dessine un graphe ce seuil (Ps1 , alors ce graphe se compose de deux sous+ graphes (P0 et PD nayant aucune relation. !e graphe Ps1 nest pas connexe car on a dtruit la connexit de larbre en enlevant la plus petite ar)te de larbre. %n effet lar)te de larbre maximum de valeur s1+ est lar)te ayant la plus forte valeur parmi toutes les ar)tes pouvant relier un sommet de P0 un sommet de PD. La valeur s1+ est donc la fois la valeur de similitude la plus forte entre les deux 4ones P0 et PD du graphe de similitude et la valeur la plus faible de larbre maximum. !est donc un I minimax J. Fans lexemple des 01 valeurs de 2ch3art4 larbre se coupe en deux " dune part les sommets (%,(,D) et de lautre les sommets (),A,K,J,H,G,F). Le filtrant, ce seuil, ne confirme pas cette partition (figure DM . ;l se rduit trois composantes connexes. 2eule la composante la plus droite, et dont les valeurs sont les plus fortes, confirme la classification de Aohnson avec la clique (),A,K,J) identique la classe construite au seuil F'#$!+ ,E : L+ 8'%(!&9( 0+2 15 4&%+$!2 0+ S1;=&!(> /:$! %+2 4&%+$!2 2$/"!'+$!+2 :$ "#&%+2 F 5G,5 de 0,'1 (sur la classification des composantes connexes et la clique (A,K,J) identique la classe construite au seuil de 0,'*. Les autres composantes connexes associent des lments qui ne forment pas une classe comme (F,G,H) ou (G,H,J,K). !eci ne nous surprend pas car dans cet exemple larbre maximum nest pas un bon rsum des donnes. 3.3 RECHERCHE DE PROPRITS PARTICULIDRES SUR LE FILTRANT DES CLIQUES MAXIMALES. !omme nous lavons montr les cliques se construisent et sabsorbent, donc se hirarchisent, si on parcourt la prordonnance de similitude dans un ordre dcroissant. , chaque seuil correspond un graphe+ seuil. Fans ces graphes on peut identifier les cliques maximales. %lles forment un !+1:$4!+.+9( ) partiel du graphe. 'n parle de recouvrement et non de classement car il ny a pas toujours de sparation nette entre deux cliques. Le plus souvent on se trouve devant un ensemble de cliques qui ont en commun certains sommets. %lles se recouvrent partiellement comme dans le graphe des cliques rigides sur larbre (figure DC " (,,A,9 , (<,A,9 , (Q,P,< . 2i on parcourt lensemble des seuils, ces recouvrements sont organiss par les relations dinclusion du filtrant. 8ue peut+on alors en dire O Lintr)t du filtrant des cliques doit le plus souvent )tre trouv ailleurs, en dehors des proprits classificatoires. (ous avons vu, dans lexemple des 01 valeurs de 2ch3art4, que le filtrant faisait appara.tre plusieurs autres proprits. 'n peut en dcrire principalement trois"
C%&22'8'1&(':9 &!*:!+21+9(+ : &%#:!'(;.+ 0+.1%&22'8'1&(':9 0$ %'+9 2'./%+ ). 'n peut construire une telle classification en ne tenant compte que des ar)tes de larbre. /our cela " a+ on ordonne les ar)tes de larbre par ordre croissant R b+ on supprime lar)te dont la valeur est la plus petite R c+ larbre se dcompose alors en deux sous+arbres, les sommets de chacun de ces sous+arbres forment une classe, chaque classe est une I composante connexe J puisque tout sous+arbre est connexe. d+ on r+applique lalgorithme b et c sur les ar)tes restantes " les sous+arbres se ddoublent alors. 8uand la procdure algorithmique est termine on a construit un 8'%(!&9( 0+2 1:./:2&9(+2 1:99+-+2 0+ %&!*!+ qui a les proprits dune classification descendante hirarchique. !et algorithme est celui de la classification de Aohnson (Aohnson, 0KLM ou encore dite de Hrocla3.

CL a+ lexistence dune 4one o6 les cliques se regroupent successivement par inclusion, on peut associer cette proprit limage dune hu.tre (cf. C.C.0.0, figure DK R b+ lexistence dune succession de recouvrements dont les intersections ne sont pas vides, elle est reprable par la prsence dune figure en 4ig+4ag(cf. C.C.0.D, figure C1 R c+ lexistence de 4ones non connexes un seuil donn (cf. figure DM . 'n peut en outre rechercher caractriser les sommets par la nature des 4ones du filtrant o6 ils se trouvent, comme dans lexemple des 01 valeurs de 2ch3art4 (figure 01 . 'n identifie alors trois types de variables " + les variables qui se retrouvent dans un tr&s grand nombre de cliques (dans la figure 01 la variable K +,c- it, R ce sont des lments que lon peut qualifier de I centraux J pour le graphe. + les variables jouant le rSle dlments I gnrateurs J dune 4one du filtrant R ils apparaissent dans le filtrant un seuil lev et participent ensuite plusieurs cliques (dans la figure 01 la variable A p.-v.i , ) acc.mp/i++ement, J c.n0. mi+me, H t a1iti.n, G 2ienvei//ance et F -nive +a/i+me) R + les variables intervenant des seuils faibles, dans le bas du filtrant R elles peuvent ne participer qu un nombre restreint de cliques (dans la figure 01 la variable % H,1.ni+me 3.3.1 M:0H%+2 8:!.+%2 +( /!:/!'"("2 0$ 8'%(!&9(. Lanalyse de similitude nest pas une mthode de validation dun mod&le mathmatique, cest la recherche dun rsum des donnes, rsum le plus fid&le possible. Eais on peut trouver des filtrants ou des 4ones dans le filtrant qui ont une proprit faisant rfrence un mod&le. 'n peut en envisager particuli&rement deux " les chelles dattitude (dite chelle de Puttman et les recouvrements connexes (ou chelle dopposition, du type droite # gauche . 3.3.1.1 L+ F'%(!&9( :I %+2 0:99"+2 /+$4+9( J(!+ :!0:99"+2 /&! $9+ "1;+%%+ 0+ G$((.&9. (ous prendrons un exemple fictif " le questionnaire comprend cinq questions auxquelles il fallait rpondre 'ui (cod 0 ou (on (cod 1 R il a t pos =0 sujets. 'n a obtenu les protocoles de rponses suivants qui dfinissent une matrice de similitude "
N:.*!+ Q$+2(':92 0+ 2$K+(2 A B C D E D 01 5 A B C D E A B C D 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 A T DK D0 0L T D0 0L T 0L T B C D E

E 00 00 00 00 T T&*%+&$ ,@ : M&(!'1+ 0+ 2'.'%'($0+ /!:0$'(+ /&! %'90'1+ 0+ 1::11$!!+91+ : "1;+%%+ 0+ G$((.&9

CM Les donnes peuvent )tre situes sur une chelle de Puttman auquel seul les trois derniers patrons ne rpondent pas, mais leur faible frquence permet daccepter le mod&le D. 'n calcule alors la matrice de similitude (tableau D> . !ette chelle permet dordonner de mani&re conjointe les questions et les sujets " les questions de A ( et les sujets en fonction du nombre de rponses codes 1.
A B C D E A T B 31 T C DC 33 T D 05 D5 3C T E 0C DC C0 3C T T&*%+&$ ,C : LA!*!+ 0+ %& M&(!'1+ 0+ 2'.'%'($0+ /!:0$'(+ /&! %'90'1+ 0+ 1::11$!!+91+ 2A."(!'7$+ : "1;+%%+ 0+ G$((.&9.

F'#$!+ ,M : %;$<(!+ 0+2 1%'7$+2 F'#$!+ ,L : F'%(!&9( 0+2 1%'7$+2 : "1;+%%+ 0+ G$((.&9.

La matrice de similitude calcule avec un indice de cooccurrence est rguli&re et le filtrant des cliques est bien particulier " les cliques forment une suite dinclusions qui donnent au graphe des cliques maximales une allure I dhu.tre J(figure DK . La structure dinclusion redonne lordre des questions. 2i on utilise la cooccurrence on obtient un filtrant significatif, par contre la U,E ne peut pas )tre dessin car cest le graphe complet (exemple " toutes les ar)tes reliant F aux sommets de la composante connexe , ? ! ont pour valeur 0L, cf. tableau D> . /our obtenir un arbre maximum qui indique lordre de lchelle de Puttman il faut utiliser la cooccurrence symtrique (la somme des 00 et des 11 . 'n obtient alors la cha.ne ,+?+!+F+% (tableau DL . Les donnes sont rarement aussi parfaites mais on peut observer dans un filtrant lexistence dune (ou des 4one o6 les cliques dessinent une ligne dinclusion successive sans interfrence notable avec dautres ensembles de cliques R on peut alors supposer lexistence dune chelle de Puttman pour le groupe de variables concernes par les cliques de cette partie du filtrant. 3.3.1., L+ 8'%(!&9( :I %+2 0:99"+2 /+$4+9( J(!+ :!0:99"+2 2$! $9 &-+ 1:92(!$'( /&! $9+ 2$'(+ 0+ !+1:$4!+.+9(2 1:99+-+2. Le mod&le qui est ici recherch nest plus lexistence dune chelle mais dun axe sur lequel les rponses dcoupent des parties connexes. 'n prsente N:.*!+ A B C D E souvent ce mod&le sous la forme dune diagonalisation du tableau des donnes. Q$+2(':92
0+ 2$K+(2 A B C D E D 01 5 > > 00

1 1 1 1 1 1

1 1 1 1 1 1

1 1 1 1 1 1

1 1 1 1 1 1

1 1 1 1 1 1

Les exemples dun tel mod&le sont nombreux " axe droite V gauche, chelle de datation de priode historique ou de phnom&ne voluant sur un axe temporel. 'n va alors caractriser les sujets par leur position sur cet axe. (ous ne sommes plus sur une chelle daccumulation de caractristiques comme prcdemment mais sur lexistence de 4ones contiguWs sur un axe dvolution (transformation dun phnom&neC. (ous prendrons ici encore un exemple fictif.

!haque patron de rponse est une 4one connexe de variables (par exemple ?+!+F pour la cinqui&me ligne . Larbre maximum est alors une cha.ne rguli&re, comme le montre la proprit de rgularit de la
D C

'n calcule un coefficient daccord avec le mod&le (cf. coefficient de reproductibilit en annexe 0 . -n sujet est, par exemple, daccord avec les ides politiques proches de la sienne amis pas avec celles plus lointaines ( droite et#ou gauche .

C5 matrice de similitude. Les cliques maximales sont toutes rigides sur cet arbre. %lles sorganisent sous la forme dun recouvrement qui va donner au filtrant une allure de I 4ig4ag J (figureC1 que nous avons dj rencontre.
A A B C D T 8 1 1 T 15 > T 1C T F'#$!+ 35 : F'%(!&9( !+1:$4!+.+9( 1:99+-+ 0+2 1%'7$+2 : B C D E

E 1 1 00 1L T T&*%+&$ ,L : M&(!'1+ 0+ 2'.'%'($0+ /!:0$'(+ /&! %'90'1+ 0+ 1::11$!!+91+ : !+1:$4!+.+9( 1:99+-+.

Fans les deux mod&les que nous venons de dcrire (chelle de Puttman et composante non monotone il existe une correspondance entre une proprit des cha.nes et une proprit du filtrant " toutes les cliques du filtrant, dont les sommets sont sommets dune cha.ne rguli&re, sont rigides sur cette cha.ne (par exemple )%D ou %D( . ;nversement si on trouve une 4one du filtrant dont les cliques sont toutes rguli&res et dont les lments de ces cliques forment un sous+ensemble de sommets connexes sur une cha.ne de larbre alors cette cha.ne est rguli&re. Les proprits de ces deux mod&les sont suffisamment fortes pour quil soit tr&s rare de les trouver ltat pur. ;ls peuvent par contre servir pour reprer des 4ones du graphe ayant des proprits particuli&res qui peuvent )tre ensuite identifies lun de ces mod&les. 3.3., P!:/!'"("2 0$ 8'%(!&9( 9+ !+94:A&9( /&2 F $9 .:0H%+. Lanalyse du filtrant, con*ue comme une reprsentation des donnes, vise valider le ou les graphes que retient lanalyste pour exposer les donnes. 'n met ici jour des proprits plus pauvres que celles des mod&les prcdents. 'n en prsentera trois que lon retrouve asse4 souvent et qui permettent une interprtation formelle des similitudes. (ous nous servirons ici dun exemple tir dune tude de reprsentations sociales de lconomie che4 les tudiants. Le questionnaire demandait de mettre en relation on4e notions conomiques. La frquence de ces relations donnait une matrice de similitude dont on reproduit ici le filtrant des cliques de valeurs suprieures 1& (soit donnes par MX des D11 sujets 3.3.,.1. L+2 2:$2B+92+.*%+2 8+!."+2 ) /:$! %'91%$2':9.

F'#$!+ 31 : #!&/;+ 0+ 2'.'%'($0+ 31%'7$+2 +( &!*!+ .&-'.$.6 : !+1:$4!+.+9( 1:99+-+

'n retrouve asse4 souvent de telles formes dans certaines 4ones du filtrant. !e mod&le a t prsent par !laude Qlament= comme un I mod&le composante non monotone J, on le trouve aussi dans la littrature amricaine sous le nom I dunfolding technique J>.

La premi&re proprit que lon peut mettre en vidence est celle 0+2 2:$2B+92+.*%+2 0+ 4&!'&*%+2 que lon peut appeler 8+!."+2 ) /:$! %'91%$2':9 " un ensemble de cliques se retrouvent toutes incluses dans une seule clique de valeur minimum. ;ci par exemple (figure CD les cliques (',",11) et (',*,") se retrouvent dans la clique (',*,",11) au seuil de 2#. !ette derni&re clique na pas de descendant. de m)me les cliques (1,3,"), (*,3,"), (1,*,3,") et (*,3,10), (1,3,10), (1,*,3,10) se trouvent toutes incluses dans la
= >

Qlament, !l., 0KLC !oombs, !.<., 0KL>

CK clique (1,*,3,",10) au seuil 21. 'n peut identifier un autre ensemble inclus dans la clique (&,*,",!,10) mais dans cette 4one du filtrant les drivations (*,",!,11), (&,*,",!,11) et (&,*,#,10) nen font pas partie. La totalit de cet ensemble nest donc pas ferm. La constitution de ces ensembles dpend, videmment du seuil minimum du filtrant (ici 1' . (ous reviendrons plus loin sur ce point de dfinition du seuil du filtrant, dans la mesure o6 le dessin du filtrant complet nest pas utilisable et m)me nest pas souhaitable car il tient compte de valeurs non significatives ou non intressantes. 'n reste toujours fid&le au principe de privilgier les valeurs maximales.

F'#$!+ 3, : L+2 !+%&(':92 "1:9:.'7$+ : E-+./%+ 0+ 8'%(!&9(

La projection des deux I parties fermes J les plus gauche du filtrant sur le graphe au seuil de 134 est intressante (figure CC " on y trouve une 4one asse4 centrale dans le graphe (1,*,3,",10) o6 se trouvent associs les lments conomiques relatifs aux trois principaux acteurs de lconomie " ltat (" , la finance (1,3 et lentreprise (*,10 . !ette partie du filtrant se dveloppe entre les seuils de 104 et 2*4 des sujets, mais aucune de ces cliques nest rigide sur larbre R pour quelles le soient il faudrait liminer le terme chSmage. Fe la m)me mani&re la clique (',*,",11 nest pas rigide sur larbre alors quelle est ferme et quelle dcoupe une 4one intressante, celle des rapports de ltat avec les entreprises (en haut et gauche de la figure CD et au bas de la figure CC . La clique la plus gauche (C,>,K,01 de la figure CCest bien particuli&re. !est la clique de quatre sommets la plus leve (** soit 2!4 dans le filtrant mais elle na pas de descendance. %lle dcrit lensemble des lments conomiques de lentreprise. Eais larticulation de ses lments avec le reste de lconomie ne se fait que de mani&re partielle et particuli&re. !est ainsi que le p .0it (#) est exclu de la 4one se fermant sur la clique (&,*,",!,10 , 4one qui associe le fonctionnement de lentreprise ltat et au chSmage. !ette 4one a la particularit de n)tre constitue que de cliques

F'#$!+ 33 : L+2 !+%&(':92 "1:9:.'7$+2 : %+ #!&/;+B2+$'% F 1CN. 'n a indiqu les valeurs des ar)tes en nombre de sujets et dessiner trois cliques

=1 rigides sur larbre comme le montre la figure C=. Eais cette 4one ne peut )tre une partie ferme comme nous lavons vu plus haut. La clique exprimant lactivit montaire de ltat (1,2," est comme la 4one quivalente de lactivit de lentreprise reprsente par une clique apparaissant un seuil lev (&*4 mais elle est quasiment sans descendance. ;l faut attendre le seuil de MX pour voir sassocier cette clique le sommet ent ep i+e (*). !et exemple montre deux choses " dune part les proprits de rigidit et didentification dune F'#$!+ 3? : L+2 !+%&(':92 "1:9:.'7$+2 : %&!*!+ .&-'.$.. 'n a aussi trac la clique fermant la partie droite du filtrant partie ferme du filtrant ne sont pas quivalentes, chacune a son intr)t R dautre part le filtrant nous permet dtudier la matrice de similitude des seuils bien infrieurs celui de larbre ou celui permis par la lisibilit des graphes+seuil. !ompte tenu de cela il faut alors faire attention au fait que les regroupements identifis ne sont pas des catgories car les cliques se recouvrent le plus souvent comme dans cet exemple. 3.3.,.,. A$(!+2 8:!.+2 0:!#&9'2&(':9 : 0+2 /!:/!'"("2 %:1&%+2. , cot des ensembles ferms de cliques qui se regroupent par inclusion on peut mettre en vidence des proprits moins formelles. 'n peut alors distinguer " + les de cliques majoritaires (apparues des seuils levs . %lles indiquent, comme dans la figure 00, les 4ones saillantes du graphe de similitude R + les sous+ensembles qui engendrent une descendance " ils mettent en vidence des variables gnratrices et des variables secondaires. + les sous+ensembles qui, inversement, se retrouvent bien isoles quand on diminue le seuil R on identifie alors des variables qui forment elles seules une dimension de lunivers des donnes. !es diffrents modes dorganisation des sommets du graphe montrent bien lintr)t de la dmarche I locale J de lanalyse de similitude. !haque type de regroupement comme prcdemment chaque type dorganisation autour dun axe na pas la m)me proprit. ;ci en particulier ils indiquent comment les deux principaux agents conomiques (/5(tat et /5ent ep i+e ont un univers propre (clique apparue un seuil lev et sans descendance , et comment leur mise en relation peut prendre sens autour dun th&me donn " ici les rapports entre l%tat et lentreprise se font dune part autour du th&me de la monnaie, dautre part autour de la redistribution des revenus et enfin autour du chSmage. !ette diversit des modes de ressemblance ne peut sexprimer dans une analyse globale qui est oblige de pondrer ces diverses proximits locales travers une boite noire que ne contrSle pas lanalyste. !ette approche partir des modes dorganisation des cliques du filtrant, peut se complter par lidentification des types de variables travers leur place dans le filtrant comme on la montr dans la figure 01 sur lexemple des 01 valeurs de 2ch3art4.

Vous aimerez peut-être aussi