Vous êtes sur la page 1sur 15

1

LANALYSE DES DONNES PAR LES GRAPHES DE SIMILITUDE

Pierre Vergs Boumedienne Bouriche

Juin 2001

A Claude FLAMENT l in!en"eur de ce""e m#"hode e" "ou$ours l ini"ia"eur de son #!olu"ion

PROLOGUE Origine Les ann#es soi%an"e on" !u &leurir les in"er&aces en"re sciences humaines e" ma"h#ma"i'ues( )ans ce""e e&&er!escence Claude Flamen" a!ai" le souci d associer *s+chologie sociale e" &ormalisa"ion( ,l e%*lorai" la "h#orie des gra*hes *our e%*li'uer les -iais de communica"ion( Puis. associan" sa *ra"i'ue des anal+ses s"a"is"i'ues e" les *ossi-ili"#s ou!er"es *ar les ma"h#ma"i'ues du discre". il in!en"e l Anal+se de /imili"ude( ,l &allai" un 0 *asseur 1 *our 'ue l anal+se des donn#es ne se r#duise *as au la-+rin"he de l anal+se !ec"orielle( Ce""e m#"hode se d#!elo**e a!ec la *ossi-ili"# d u"iliser les ordina"eurs( Le *remier *rogramme &u" #cri" en co-ol 2langage -ien *eu ada*"# 34. *uis en &or"ran *our les grosses machines ,BM du CN5/. un d#"our *ar les *remiers A**le1. en&in les *rogrammes sui!iren" la *uissance croissan"e des PC e" du Tur-o Pascal( Paralllemen" la m#"hode se d#!elo**ai". le "rio des ann#es soi%an"e6di% 2 !isai" une &ormalisa"ion ma"h#ma"i'ue de *lus en *lus so*his"i'u#e( ,ls d#cou!raien" au *assage l ar-re ma%imum. les cli'ues e" le &il"ran" des cli'ues7 ,ls e%*loraien" la *ossi-ili"# d u"iliser la "h#orie des h+*er6gra*hes( La *ra"i'ue a aussi son r8le dans l #!olu"ion de la m#"hode( 9"ilis#e *ar de nom-reu% chercheurs. on d#cou!rai" les *ro-lmes 'ue *osaien" des donn#es de &ormes -ien di&&#ren"es e" des 'ues"ionnaires "ou$ours en #!olu"ion( L anal+se de simili"ude es" res"#e &idle : ses origines e" s es" com*le%i&i#e( Le li!re 'ui aurai" du ;"re #cri" en 1<=2> serai" -ien di&&#ren" du li!re de l an 2000( Ce dernier *ro&i"e de "ous ces momen"s o? il a &allu reme""re en cause les in"ui"ions ini"iales. ou *lus e%ac"emen" les ra**or"s en"re *ro*ri#"#s ma"h#ma"i'ues e" in"er*r#"a"ions *ar les sciences sociales( @n a!ai" &ai". dans les ann#es soi%an"e6di%. un *eu "ro* con&iance au% ma"h#ma"i'ues 2comme d au"res on" &ai" "ro* con&iance au% s"a"is"i'ues4 *our dic"er l in"er*r#"a"ion de l anal+s"e alors 'u il ne &allai" 'ue la guider. ou *lus e%ac"emen" s in"erroger sur la "raduc"ion en"re *ro*ri#"#s ma"h#ma"i'ues e" *ro*ri#"#s du social( Une analyse et un analyste. Ce""e m#"hode es" une m#"hode g#n#rale d anal+se de donn#es. elle es" al"erna"i!e ou com*l#men"aire des classi'ues anal+ses &ac"orielles ou de classi&ica"ion( Mais elle es" aussi *lus *ar"iculiremen" ada*"#e : la "h#orie des re*r#sen"a"ions sociales. ce 'ui n #"onnera *ersonne 'uand on sai" le r8le 'ue $oue son in!en"eur dans le cham* des re*r#sen"a"ions sociales( L anal+se de simili"ude a la grande 'uali"# de ne *as #liminer l anal+s"e des di&&#ren"es *hases de l anal+se( A aucun momen" il lui es" *ro*os# les r#sul"a"s d une -oi"e noire( Au con"raire l anal+se de simili"ude demande : l anal+s"e de *rendre des d#cisions : cha'ue #"a*e de la d#marche( Elle *ro*ose des descri*"ions 'ui doi!en" ;"re
1 2 >

/+l!ie /ouAu* e" Alain Bu#noche en &uren" les ar"isans( Claude Flamen". Alain )egenne. Pierre Vergs ,l en e%is"e un manuscri"(

> !alid#es e" *eu!en" m;me ;"re 'uel'ue &ois con"radic"oires : *remire !ue( Elle *ousse alors l anal+s"e : "rou!er son in"er*r#"a"ion au croisemen" de deu% in&orma"ions di&&#ren"es( Ce" ou!rage mon"re commen" : cha'ue ins"an" la d#cision de l anal+s"e es" r#clam#e( Aussi les di&&#ren"s cha*i"res de ce li!re !on" essa+er d #clairer ce""e d#cision( Le *remier cha*i"re *ose la 'ues"ion de la mesure des simili"udes en"re les !aria-les C la mul"i*lici"# des indices de simili"ude doi" ;"re e%*li'u#e e" e%*lor#e( Le second cha*i"re *r#sen"e les di&&#ren"s ou"ils de la "h#orie des gra*hes *erme""an" de "rai"er une ma"rice de simili"ude associ#e : un gra*he( ,ci on &ai" un d#"our *ar une &ormalisa"ion ma"h#ma"i'ue( Celle6ci n es" *as "rs com*le%e m;me si on n + es" *as "rs ha-i"u#( Elle *ro*ose une anal+se com-ina"oire des donn#es o? les seules en"i"#s son" 0 des *oin"s e" des "rai"s 1( Le "roisime cha*i"re mon"re les *ro*ri#"#s &ormelles 'ue l anal+se de simili"ude *eu" me""re : $our( Le 'ua"rime *r#sen"e sur un e%em*le la d#marche. *as : *as. de l anal+s"e e" les d#cisions 'u il doi" *rendre( ,ci se si"ue l in"#r;" de l anal+se de simili"ude C l anal+s"e es" maD"re des d#cisions 'ui !on" orien"er le "rai"emen" des donn#es. comme il sera maD"re *lus "ard de leur in"er*r#"a"ion( Le cin'uime cha*i"re essaie de me""re en garde con"re les &ausses in"er*r#"a"ions. les am-iguE"#s 'u il &au" le!er e" con"re la cro+ance a!eugle en la 'uali"# des donn#es( @n se ser!ira "ou" au long de ce li!re d e%em*les "ir#s des recherches de ces dernires ann#es F 'ue les au"eurs en soien" ici remerci#s( ,ls on" u"ilis# des *rogrammes in&orma"i'ues sous GindoHs(

I HAPITRE !. OMMENT SIMPLI"IER UNE MULTITUDE DIN"ORMATIONS POUR

METTRE DE LORDRE DANS LES DONNES #UE $OUS $OULE% TRAITER &

!.! DE LA RESEM'LAN E ( LA SIMILITUDE. Le *oin" de d#*ar" de !o"re *er*le%i"# es" le "a-leau des donn#es( ,l se *r#sen"e le *lus sou!en" sous la &orme d un "a-leau [X x Y] . ou X re*r#sen"e un ensem-le de !aria-les 2en colonne4 e" Y un ensem-le de su$e"s 2ou d en"i"#s collec"i!es. en ligne4 sur le'uel les !aria-les *rennen" leurs !aleursI(
/u$e"s ,"em A ,"em B ,"em C ,"em ) ,"em E ,"em F

01 0 0 02 0 1 0> 1 1 0I 1 0 0L 0 1 0M 0 1 0= 0 0 0N 0 1 0< 1 0 10 0 0 11 0 0 12 1 1 1> 0 0 1I 0 0 Ta.leau ! 4 ta.leau choisir deu% i"ems de in"errog# 1I su$e"s4
,"ems

0 1 1 0 0 1 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 1 0 1 0 0 1 1 0 [X x Y]. C Cha'ue su$e" *ou!ai" X *armi les M *ro*os#s 2on a

Les )*nn+es )e ty,e [X x Y] se *r#sen"en" sous la &orme du classi'ue "a-leau JVaria-les 2ou 'ues"ions4 % /u$e"sK( @n cherche alors : cons"ruire une "a-leau [X x X] indi'uan" la ,lus *u -*ins gran)e resse-.lan/e entre les 0aria.les i e" j de X( La *ro*ri#"# de ce""e -atri/e )e si-ilitu)e [X x X] es" d ;"re sy-+tri1ue C i ressem-le : j comme j ressem-le : i(

Pour cela il &au" #"a-lir la simili"ude en"re deu% #l#men"s i e" j de X : l aide de la ressem-lance de leur *ro&il de r#*onse au% #l#men"s du second ensem-le Y C les r#*onses des su$e"s : un 'ues"ionnaire *ar e%em*le 2"a-leau 14( Ce""e cons"ruc"ion *asse *ar le calcul d un 2 in)i/e )e si-ilitu)e 3 en"re i e" j de X, indice 'ui d#*end d un calcul sur les r#*onses de "ous les su$e"s *our chacune des !aria-les dans le "a-leau [X x Y]( ,l n + a *as 'u un indice de simili"ude. l his"oire de la s"a"is"i'ue nous en d#cri" une *ro&usion( )ans le "a-leau 2 on indi'ue le nom-re de &ois o? l i"em i a #"# choisi en m;me "em*s 'ue l i"em j dans le "a-leau de la &igure 1( Le *ro"o"+*e de ces indices es" le coe&&icien" de corr#la"ion lin#aire( ,l se calcule -ien comme le mon"re sa &ormule en "enan" com*"e de la *lus ou moins grande *ro%imi"# des *ro&ils des !aria-les i e" j mesur#e ici *ar la co!ariance L des !aleurs *rises *ar i e" j dans le "a-leau [X x Y], co!ariance *ond#r#e *ar un
CoVar 2ij 4

OO 2 1 0 1 0 2 OO 1 > 0 1 1 1 OO 1 1 0 0 > 1 OO 2 1 1 0 1 2 OO 2 0 1 0 1 2 OO Ta.leau 5 4 ta.leau [X x X] )es /**//urren/es en"re les i"ems de la &igure 1(

A B C ) E F

coe&&icien" calcul# sur les !ariances des deu% !aria-les C r 2i. j 4 = Var 2i 4 Var 2 j 4 (

Tou" au long de ce li!re nous u"iliserons le "erme de 0 su$e" 1 *our d#signer un #l#men" de l ensem-le Y( Ce su$e" *eu" ;"re une *ersonne ou un collec"i& C !ille. en"re*rise. *a+s7( Nous u"iliserons aussi le "erme de 0 !aria-le 1 *our d#signer un #l#men" de l ensem-le X( ,l recou!re des r#ali"#s &or" di&&#ren"es C des 'ues"ions. des modali"#s de r#*onses : une 'ues"ion. des mo"s d un "e%"e. des 'uan"i"#s 2mesure de "aille. de !aleurs mon#"aires. des *ourcen"ages 74(

CoVar 2ij 4 = 22 xik mi 4 2 xjk m j 44 N F a!ec N le nom-re de su$e"s. xik la Aiem !aleur de la
k

colonne i e" xjk la A6iem !aleur de la colonne $ e" mi la mo+enne des !aleurs xik. mj la mo+enne des !aleurs xjk

L @n se "rou!e aussi de!an" )es )*nn+es )e ty,e [X x X] o? l ensem-le X es" iden"i'ue : l ensem-le X. C es" le cas des ma"rices de "ransi"ion en"re la *ro&ession du *re e" la *ro&ession des en&an"s( Les deu% ensem-les X e" X son" les m;mes 2les ca"#gories *ro&essionnelles. *ar e%em*le4 mais ce "a-leau ne *eu" ;"re in"er*r#"# comme une ma"rice de simili"ude car la s+m#"rie (i ressem-le : j comme j ressem-le : i) n e%is"e *as( )eu% "+*es d o*#ra"ions *eu!en" ;"re en!isag#es *our cons"ruire la ma"rice [X x X] ( /oi" on e&&ec"ue un calcul sur le *ro&il en X des #l#men"s de X 2l ensem-le X se com*or"e en &ai" comme un ensem-le Y4. /oi" on e&&ec"ue un calcul !isan" : s+m#"riser la rela"ion (ij) en"re les #l#men"s de X 'uand la !aleur de (ij) es" la 'uan"i&ica"ion d une rela"ion( La ressem-lance en"re les *ro&essions des *res en &onc"ion de la ressem-lance des *ro&ils des *ro&essions des en&an"s es" un e%em*le du *remier "+*e( Le cas des ma"rices de &lu% en"re des en"i"#s C *ar e%em*le la !aleur des &lu% de migra"ion en"re les r#gions &ranPaisesM es" un e%em*le du second "+*e( Comme le &lu% migra"oire de i !ers j n es" *as #gal : celui de j !ers i, on es" o-lig# de s+m#"riser la rela"ion en"re deu% r#gions en ne "enan" com*"e 'ue de l #migra"ion 2ou de l immigra"ion4 ou en &aisan" la somme ou la di&&#rence des d#*lacemen"s en"ran"s e" sor"an"s(
,"ems

OO 1L 10 >0 IL 22 1M L0 2I 2L OO 20 12 N 1M 1N >= 2L >L 11 OO I> 1M 1< 2N >I 12 I0 2N >> OO >1 56 1L 1< I2 12 1L N 22 OO 2L 10 = N LN IM 2I 77 1I OO 2> I1 2L >M 2< 12 >M 1N 2< OO 2N 1= 22 2L 1L = 12 >I 1L OO 1M L = 12 > 2L 1L 2I 2N OO Ta.leau 7 4 ta.leau [X x X] C on a com*"# le nom-re de &ois o? un au"eur D a ci"# l au"eur F 2ici 20 &ois4. le nom-re de &ois ou l au"eur F a ci"# l au"eur D es" di&&#ren" 2334(

A B C ) E F B U ,

Ce cas de &igure se re"rou!e 'uand on anal+se un 'ues"ionnaire d #!oca"ion C on a ca"#goris# les mo"s. o-ser!# la co6a**ari"ion de ces ca"#gories cheQ un m;me su$e" e" calcul# la cooccurrence d une ca"#gorie de mo"s a!ec une au"re( Ce""e in&orma"ion n es" *as s+m#"ri'ue( @n *eu" la s+m#"riser *ar la d#&ini"ion d un indice *ar"iculier( @n re"rou!e ce *ro-lme dans l anal+se des ci"a"ions d au"eurs dans un ensem-le d ar"icles de re!ues scien"i&i'ues 2'ui ci"e 'ui R "a-leau >4( @n *eu" o*#rer de deu% manires di&&#ren"es C soi" consid#rer les ressem-lances en"re les *ro&ils de deu% au"eurs. soi" s+m#"riser le nom-re de ci"a"ions en"re deu% au"eurs 2somme. di&&#rence 74

Les )*nn+es 1ui s*nt )ire/te-ent )u ty,e [X x X] son" rares. elles son" le *lus sou!en" le r#sul"a" d un calcul( @n *eu". *ar e%em*le. recueillir une ma"rice de corr#la"ion d#$: calcul#e 2: l aide d ESCEL ou d un *rogramme d anal+se &ac"orielle en com*osan"es *rinci*ales4( @n *eu" demander au% su$e"s d une en'u;"e d #"a-lir des rela"ions en"re un ensem-le de no"ions 2c&( anne%e 24( @n !erra *lus loin 22(I4 un 'ues"ionnaire o? on demande au% su$e"s d #!aluer sur une #chelle de 1 : < la ressem-lance en"re les #l#men"s i e" j e" cela *our "ou"es les *aires *ossi-les( Cha'ue su$e" *rodui" une ma"rice [X x X]. @n !a alors calculer une agr#ga"ion de ces ma"rices C ici l #l#men" (ij) de la ma"rice [X x X] &inale es" la mo+enne des scores o-"enus *our cha'ue su$e"( Tuel 'ue &ois l in&orma"ion ini"iale es". non une simili"ude. mais une dis"ance "el le nom-re de Ailom"res en"re la !ille i e" la !ille j( @n es" alors condui" : calculer une &onc"ion in!erse de la dis"ance *our o-"enir une !aleur de la *ro%imi"# en"re i e" j( Tuel 'ue soi" le cas de &igure [X xY], [X x X] ou [X x X] on !ise : cons"ruire une ma"rice carr#e e" s+m#"ri'ue de simili"ude [X x X] o? les nom-res indi'uen" le *oids. la &orce de la ressem-lance. de la rela"ion en"re les !aria-les deu% : deu%( L anal+se de simili"ude sur l ensem-le Y es" duale C on cons"rui" une ma"rice [Y x Y] en &onc"ion des *ro&ils des su$e"s y Y sur les !aria-les i X ( Pour cela il su&&i" de "rans*oser la ma"rice ini"iale. c es" : dire de *rendre en consid#ra"ion la ma"rice [Y x X] en lieu e" *lace de la ma"rice [X x Y],

)egenne. A(. 1<=>(

M !.5 E8EMPLES DE AL UL DUNE SIMILITUDE. !.5.! Le /9*i: )e r+,*nses )ans une liste. )ans un 'ues"ionnaire sur l image de la -an'ue= on demande au% su$e"s 2L0M su$e"s4 de carac"#riser la -an'ue en g#n#ral en choisissan" cer"ains i"ems dans une lis"e donn#e2"a-leau I4(
Ta.leau = 4 liste )es ite-s 1 C La Ban'ue me &ai" Con&iance 2 C @n es" en Con&iance > C Aide Pro-lmes Par"iculiers I C )#cou!er" 5a**or"e : Ban'ue L C Tra!ailler : son Pro&i" M C @n nVes" 'uVun Num#ro Ta.leau < 4 "i/9ier 4

@n demande au su$e" de choisir les 2 i"ems les *lus carac"#ris"i'ues de la -an'ue( @n donne ici un e%"rai" de ces donn#es 2"a-leau L4( @n o-"ien" un &ichier o? le *remier su$e" a choisi les i"ems 1 e" > e" le deu%ime les i"ems > e" I e" le "roisime les i"ems 1 e" 2 e"c7 @n codera ces su$e"s en indi'uan" *ar un 1 les i"ems choisis e" *ar un 0 les i"ems non choisis(

001 101000 002 001100 00> 110000 00I ( ( ( ( ( ( e"c7

@n *eu" alors calculer la ressem-lance en"re deu% i"ems *ar le nom-re de su$e"s a+an" choisi ensem-le deu% i"ems( @n o-"ien" une ma"rice de cooccurrence 2"a-leau M4 C ici le choi% des i"ems 1 e" 2 a #"# e&&ec"u# *ar 100 su$e"s sur les 506 in"errog#es 2c es" le cas du "roisime su$e" *ar e%em*le4( Le choi% des i"ems 1 e" 4 n a #"# e&&ec"u# 'ue *ar 2 su$e"s(
112 104 * "0 43 #2 29 60 "0 * "# *2 43 39 43 "# * #9 26 16 #2 *2 #9 *

Ta.leau ; C Le calcul de la /**//urren/e donne la ma"rice sui!an"e C 1 : La Banque me fait Confiance : * 100 2 : On est en Confiance : 100 * 3 : Aide Prob !mes Particu iers : 112 104 4 : $%cou&ert 'a((orte ) Banque : 29 60 # : +ra&ai er ) son Profit : 43 39 6 : On n,est qu,un -um%ro : 26 16

!.5.5 Le /9*i: )une r+,*nse sur une +/9elle. )ans un 'ues"ionnaire *os# : des #l!es de "erminale N on *r#sen"e un ensem-le de *hrases e" on demande : l #l!e de choisir une a""i"ude !is : !is de cha'ue *hrase( A""i"ude 'ue l on code de 1 : L 2on ne "ien" *as com*"e des #l!es a+an" r#*ondu M4( 1
To"alemen" dVaccord

2
En *ar"ie dVaccord

>
ni dVaccord ni *as dVaccord

I
En *ar"ie *as dVaccord

L
To"alemen" *as dVaccord

M
Je ne sais *as

A6 Le gou!ernemen" de!rai" redis"ri-uer les re!enus au *ro&i" des moins &a!oris#s( B6 Tro* de gens com*"en" sur le gou!ernemen" *our assurer leur -ien ;"re( C6 Le *lus grand nom-re n o-"ien" *as une $us"e *ar" de la richesse de la na"ion( )6 Les aides sociales ne !on" *as "ou$ours : ceu% 'ui en on" le *lus -esoin( E6 9ne !raie coo*#ra"ion dans les en"re*rises es" di&&icile *arce 'ue che&s d en"re*rises e" salari#s n on" *as les m;mes in"#r;"s( F6 Les en"re*rises *ri!#es son" *lus a*"es 'ue les en"re*rises *u-li'ues : r#soudre les *ro-lmes #conomi'ues de la France

E"ude Paul )anlo+ W Cie. B,F5E/U. commandi"#e *ar les Ban'ues Po*ulaires e" le Cr#di" Mu"uel en 1<<L au*rs de L0I *ersonnes 2m#"hode des 'uo"a4. #chan"illon re*r#sen"a"i& *ar 'uo"a de la *o*ula"ion &ranPaise( E"ude 9nion Euro*#enne Co*ernicus sur les connaissances #conomi'ue des $eunes euro*#ens 2$eunes de 1=61N ans en &in d #"ude secondaire en Angle"erre. France. Pologne. 5#*u-li'ue Tch'ue4. 1<<L

= Phrases /core mo+en A6 5edis"ri-uer 5e!enu 2(L0 B6 Com*"e sur Bou!ernemen" 2(I1 C6 NVon" *as leur Par" 2(1> )6 Aide /ociale d#"ourn#e 1(NN E6 )i&&iciles Coo*#ra"ion 2(22 F6 Pri!# mieu% 'ue Pu-lic >(2L
Ta.leau C 4 s/*re -*yen )es ite-s

@n *eu" calculer un score mo+en o-"enu *our cha'ue *hrase 2"a-leau =4( Mais il es" *lus in"#ressan" de calculer la simili"ude des r#*onses en com*aran" les no"es donn#es *ar cha'ue su$e" au% di&&#ren"es *hrases( @n calcule alors une corr#la"ion en"re ces *hrases 2ici l indice de corr#la"ion es" le Tau de Xendall4(
* A * C * $ * . * A B C .26 * 01* 004 $ 00" 009 01* * 00# . /

************************************ * -.12 026 1001 00" 00" 009 011 00" 100" 011 00# 00* 011 * 004 1001 * 1001 B * -.12 * 1001

/ * 100"

00* 1001

011 1001

Ta.leau D 4 Tau )e @en)all

La *hrase ! es" corr#l#e *osi"i!emen" : la *hrase C 2.264 e" n#ga"i!emen" : la *hrase " 2#.124 alors 'ue leurs scores mo+ens son" *roches( Ces deu% e%em*les mon"ren" commen" il es" *ossi-le de *asser d un "a-leau [X x Y] : un "a-leau de simili"ude [X x X]. Nous allons main"enan" #"udier les di&&#ren"es manires d e&&ec"uer ce *assage. en un mo" de calculer un indice de simili"ude en"re les !aria-les( !.7 IL NEST PAS POSSI'LE DE LIMITER LA SIMILITUDE A UN SEUL ET UNI#UE OE""I IENT >/*e??i/ient )e /*rr+lati*n *u )istan/e )u @9i5AB 4 POUR#UOI & ,l e%is"e une *remire raison 'ui "ien" : la &orme des donn#es recueillies( Les donn#es 'ue l anal+se de simili"ude *erme" de "rai"er. son" de &ormes "rs di&&#ren"es( Nous a!ons d#$: !u 'u un "a-leau de donn#es [X x Y] *ou!ai" recou!rir *lusieurs "+*es de donn#es di&&#ren"es( 9n 'ues"ionnaire *eu" *ro*oser une lis"e d i"ems e" demander au su$e" de choisir les i"ems 'u il *ri!il#gie. les 1 indi'uan" le choi% de l i"em comme dans la &igure 1 2le nom-re d i"ems choisis *eu" ;"re limi"# c&( anne%e 2 les 'ues"ionnaires de choi% ou de carac"#risa"ion4( Les !aria-les i de X *eu!en" ;"re des !aleurs comme *ar e%em*le le nom-re de *ices d un a**ar"emen" ou le salaire du che& de &amille. ou encore dans le cas o? le su$e" es" un su$e" collec"i& C le nom-re d ha-i"an"s d une commune. le *ourcen"age de *o*ula"ion au ch8mage e"c7( @n doi" encore consid#rer un cas *ar"iculier C celui de la mesure de la *osi"ion du su$e" sur une #chelle de r#*onses 'ue l on code de 1 : n 2!aleur ma%imale4. *ar e%em*le on codera L l accord "o"al du su$e" : une *ro*osi"ion e" 1 le d#saccord "o"al. les !aleurs in"erm#diaires *erme""an" au su$e" de moduler son o*inion 2c&( anne%e 2 le 'ues"ionnaire en #chelle de 0 LiAer" 14(
Les )i??+rentes stru/tures -at9+-ati1ues )e -esure. 'inaire 4 une !aria-le -inaire ne *eu" *rendre 'ue )eu: 0aleurs 4 6 *u !( Ce""e !aria-le es" sou!en" o-"enue *ar #cla"emen" des modali"#s d une !aria-le nominale( Par e%em*le : la 'ues"ion sur sa *ro&ession le su$e" doi" se *osi"ionner non *as sur une #chelle mais dans un uni!ers de ca"#gories don" chacune : un nom( /eule la ca"#gorie choisie sera cod#e 1. les au"res *rennen" la !aleur 0( /i la 'ues"ion es" di"e 0 : choi% mul"i*le 1 on *eu" a!oir *lusieurs 1 corres*ondan"s au% di&&#ren"s choi%( )ans "ous les cas cha'ue modali"# de r#*onse es" une !aria-le -inaire( < Or)inale une !aria-le ordinale *rend ses de !aleurs dans es" lesu"ilis#e n*-.res /ar)inau: >n*-.res auXhi2 sein *ar d un La Cdis"ance calcul#e *ar le coe&&icien" corr#la"ion *ar les *rogrammes d ACPentiersB e" celle du les in"er!alle a+an" une !aleur minimale e" ma%imale C *ar e%em*le J62. Y2K. ici seules les !aleurs 62.61.0.1.2 son" acce*"a-les( *rogramme d AFC( Ce""e #chelle ne su**ose *as 'u il e%is"e une dis"ance #gale en"re deu% #chelons( Elle indi'ue sim*lemen" 'ue si le su$e" a #"# cod# 2. il a e%*rim# un choi% su*#rieur : celui 'u il aurai" e%*rim# s il #"ai" cod# *ar une !aleur in&#rieure comme 1 2ou 624( Elle indi'ue aussi 'ue ce choi% 1 es" 0 in"erm#diaire 1 en"re le choi% 0 e" le choi% 2( M+tri1ue C une !aria-le m#"ri'ue *rend ses !aleurs )ans les n*-.res r+els( C es" le cas du re!enu d un m#nage. de la "aille des #l!es d une classe. de la su*er&icie d une e%*loi"a"ion agricole. e"c7,l es" alors *ossi-le de calculer une dis"ance m#"ri'ue 2euclidienne4. d e&&ec"uer les 'ua"re o*#ra"ions 2Y. 6. %. Z4 e" de la *longer dans un es*ace !ec"oriel(

N Cha'ue "+*e de donn#e d#"ermine l usage de coe&&icien"s 'ui "iennen" com*"e des *ro*ri#"#s de la mesure u"ilis#e 2-inaire. ordinale. m#"ri'ue4( C es" ainsi 'ue les chi&&res codan" les donn#es de "+*e .inaire ne *eu!en" ;"re consid#r#s comme des r#els( @n ne *eu" *as les u"iliser *our calculer un coe&&icien" de corr#la"ion. *ar e%em*le. il &au" u"iliser. comme nous le !errons *lus loin. son corres*ondan" *our les "a-leau% J0.1K C le Phi de con"ingence( )e m;me lors'ue les donn#es son" ordinales le coe&&icien" de corr#la"ion 'ue l on doi" u"iliser es" le Tau de Xendall 'ui ne "ien" com*"e 'ue de la di&&#rence en"re les ordres indui"s sur les su$e"s *ar les di&&#ren"es !aria-les( /eules les donn#es m#"ri'ues *erme""en" les calculs les *lus so*his"i'u#s. anal+se de corr#la"ion. anal+se ma"ricielle. anal+se de r#gression e"c(7
La -esure .inaire >*u )i/9*t*-i1ueB E6F!G ,eut /*u0rir le:isten/e )un *r)re 6 H ! *u seule-ent la ,r+sen/e )un 2 n*- 3F )une -*)alit+. Le choi% de l indice doi" "enir com*"e de ce &ai"( )ans le *remier cas on *arlera d une mesure dicho"omi'ue ordonn#e *erme""an" l u"ilisa"ion des indices rela"i&s : une mesure ordinale( C es" *ar e%em*le l #"ude de l #'ui*emen" des !illes en no"an" dans une lis"e &i%#e : lVa!ance 'uels son" les #'ui*emen"s collec"i&s *oss#d#s( )eu% !illes se ressem-leron" alors *ar les #'ui*emen"s 'uVelles on" en commun mais #galemen" *ar ceu% 'ui leur man'uen" simul"an#men"( )ans le second cas la mesure dicho"omi'ue es" associ#e : une !aria-le -inaire 2le 1 e%*riman" la *r#sence du 0 nom 1 e" le 0 l a-sence4( )ans ce cas l a-sence du 0 nom 1 n a *as au"oma"i'uemen" un sens in!erse : la *r#sence de ce 0 nom 1( Par e%em*le l a-sence d un mo" dans une lis"e d #!oca"ions s*on"an#es *eu" signi&ier deu% choses -ien di&&#ren"es C le su$e" ne !oulai" *as l #!o'uer ou "ou" sim*lemen" le mo" ne lui es" *as !enu s*on"an#men" : l es*ri" *our di!erses raisons( Le Q#ro re*r#sen"e une di!ersi"# de si"ua"ions alors 'ue le 1 e%*rime uni'uemen" le choi% du su$e"( @n *eu" se "rou!er dans des si"ua"ions mi%"es( Tuand on demande au su$e" de choisir "rois i"ems *armi une lis"e de 12. la *ro-a-ili"# du non6choi% es" -ien su*#rieure : celle du choi% 2ici 0.=L con"re 0.2L4( ,l n + a *as s+m#"rie du 1 e" du 0( ,ci on *eu" d#cider de consid#rer soi" seulemen" le choi% 2le 14. soi" l ordre 0 \ 1( ,l e%is"e encore un cas o? ces deu% !aleurs J0.1K n on" *as le m;me sens mais o? ce""e *ro*ri#"# #cha**e sou!en" : la conscience de l anal+s"e. c es" la "rans&orma"ion d une !aria-le nominale a+an" *lusieurs modali"#s en une s#rie de !aria-les -inaires comme dans le cas des ca"#gories socio*ro&essionnelles( Le 0 n indi'ue *as l a-sence d une *ro&ession donn#e mais le &ai" 'ue le su$e" a**ar"ien" : une au"re *ro&ession( Ce""e *roc#dure di"e 0 d #cla"emen" des modali"#s 1 es" u"ilis#e *our #!aluer les e&&e"s de cha'ue i"em 2ici de cha'ue *ro&ession4( Ce""e *roc#dure es". *ar e%em*le. o-liga"oire 'uand on cons"rui" un "a-leau de 0 Bur" 1 en Anal+se Fac"orielle de Corres*ondance. ou 'uand on u"ilise les *roc#dures logis"i'ues 2Logi"4( )ans ces deu% cas. les ou"ils ma"h#ma"i'ues u"ilis#s &on" im*lici"emen" r#&#rence : une s+m#"rie du 0 e" du 1 alors 'u il n en es" rien(

@u"re la &orme des donn#es il &au" aussi "enir com*"e du "ra!ail des s"a"is"iciens( Ceu%6ci on" mul"i*li# les indices10 *erme""an" une mesure de la simili"ude en"re !aria-les( Ces indices on" ce*endan" 'uel'ues *ro*ri#"#s ma"h#ma"i'ues communes( Ces *ro*ri#"#s d#ri!en" du &ai" 'ue. *our un coe&&icien" de simili"ude donn#. l ensem-le des !aleurs calcul#es en"re les #l#men"s i e" j de X *eu!en" ;"re rang#es de la *lus grande : la *lus *e"i"e( Ce" ordre en"raDne un ordre sur les cou*les (i,j)( Comme il es" *ossi-le 'ue cer"ains cou*les aien" la m;me !aleur 2soien" e%6ae'uo4 on u"ilise la no"ion ma"h#ma"i'ue de Pr#ordonnance( Les *ro*ri#"#s de ce""e Pr#ordonnance de simili"ude son" d#cri"es dans l encar" ci6 dessous( L e%is"ence de ce""e di!ersi"# de la &orme des donn#es e" de la mul"i*lici"# des mesures *ossi-les 2indices de simili"ude4 donne "ou"e sa sou*lesse e" sa richesse : l anal+se de simili"ude( Elle *rend en com*"e non seulemen" les *ro*ri#"#s ma"h#ma"i'ues des donn#es mais aussi le *ar"i *ris de celui 'ui "rai"e les donn#es( A ce""e richesse corres*ond un im*#ra"i& C lanalyste )*it ,ren)re )es )+/isi*ns 'ui in&luencen" &or"emen" le r#sul"a" des calculs( L anal+se de simili"ude ne &onc"ionne *as comme une -oi"e noire &ournissan" un r#sul"a" uni'ue. elle o-lige l anal+s"e : *r#ciser ce 'u il recherche e" *ar 'uel mo+en(

10

Uu-aleA. [(. 1<N2 F Ce" au"eur *r#sen"e I> mesures d associa"ion 2coe&&icien"s de simili"ude4 dans le seul cas des !aria-les dicho"omi'ues( ,l conclue son ar"icle *ar ces mo"s C 0 "here is no a-solu"el+ general measure o& "he degree o& de*endance 1(

<
Pr+*r)*nnan/e )e si-ilitu)e /oi" X un ensem-le $i,j &% e" [X x X] lVensem-le des cou*les (i,j) dV#l#men"s de X( @n a**elle ,r+*r)*nnan/e )e si-ilitu)e sur X un *r#ordre "o"al sur X x X. !#ri&ian" les condi"ions sui!an"es. 'uels 'ue soi" $i,j,k% #l#men"s de X C (i,j) ' (j,i) C *ro*ri#"# 'ui "radui" la sy-+trie )e la relati*n )e resse-.lan/e. (i,i) ( (i,j) C *ro*ri#"# 'ui "radui" 'ue t*ut +l+-ent resse-.le ,lus J lui -K-e 1uJ t*ut autre( En ou"re si (i,j) ( (i,k) i doi" 0 ressem-ler 1 *lus : j 'u : k( Ha.ituelle-ent /ette ,r+*r)*nnan/e est ass*/i+e J une a,,li/ati*n S )e X x X )ans les n*-.res r+els. @n a alors )ij ( )k* (i,j) ( (k,*) )ij es" a**el# in)i/e )e si-ilitu)e( Nous a!ons !u 'ue la *r#ordonnance de simili"ude *eu" ;"re o-"enue de deu% manires C /oi" la *r#ordonnance + *eu" ;"re donn#e *res'ue direc"emen" *ar lVo-ser!a"ion sur l ensem-le [X x X] , dans ce cas on a o-"enu une hi#rarchie sur les *aires ij( /oi". e" c es" le cas le *lus g#n#ral. on doi" cons"ruire la *r#ordonnance : *ar"ir du calcul dVun in)i/e )e si-ilitu)e ) 2a**el# aussi /*e??i/ient )e si-ilitu)e)( Pour cela il &au" #"a-lir une mesure de ressem-lance sur l ensem-le X. Ce""e mesure su**ose l e%is"ence d un second ensem-le Y "el 'ue l on *uisse cons"ruire un "a-leau rec"angulaire [X x Y] e%*riman" les !aleurs 'ue *rennen" les #l#men"s i 2ou j4 de X dans les r#&#ren"iels y de Y. Les donn#es ser!an" : calculer l indice de simili"ude son" alors *r#sen"es dans ce "a-leau rec"angulaire(

#uel s*nt /es )+/isi*ns & Elles concernen" d a-ord la &orme des donn#es e" *ar l: m;me le choi% d une classe d indices de simili"ude( L anal+s"e doi" iden"i&ier la mesure 2-inaire. ordinale. m#"ri'ue4 'ui es" im*os#e *ar la &orme des donn#es( ,l *eu" se "rou!er dans un cas mi%"e l o-ligean" : un recodage( ,l *eu" aussi ;"re condui" : r#duire la richesse de la mesure originale car elle dilue l in&orma"ion *er"inen"e comme un cos"ume "ro* grand( C es" ainsi 'ue l on ramne l in&orma"ion de l ]ge 2ou du re!enu4 e%*rim# en ann#es 2ou &rancs4 : des classes d #'ui!alences ordonn#es 2les moins de 1N ans. les 1N62I. les 2L6I0 e"c74( @n *asse d une mesure m#"ri'ue : une mesure ordinale( )e m;me on r#dui" sou!en" une #chelle ordinale d o*inion 2de "+*e LiAer"4 : une !aria-le dicho"omi'ue 2les o*inions &a!ora-les *renan" la !aleur 1 e" les d#&a!ora-les la !aleur 04( @n &ai" aussi 'uel'ue &ois l o*#ra"ion in!erse C consid#rer une mesure ordinale comme une mesure m#"ri'ue 2le calcul d une mo+enne sur une #chelle de LiAer" *ar e%em*le4( @n doi" alors agir a!ec une cer"aine *rudence. c es" 'uel'ue &ois acce*"a-le m;me si ce n es" *as l#gi"ime( Nous !errons *lus loin 'ue l anal+s"e sera o-lig# de *rendre des d#cisions "ou" au long de la *roc#dure d anal+se C choi% de seuils. choi% d un mode de re*r#sen"a"ion des r#sul"a"s e"c7 Le *remier choi% res"e celui de l indice de simili"ude( !.=. LES RITIRES DU HOI8 DUN INDI E DE SIMILITUDE. Pour choisir l indice de simili"ude 'u il con!ien" de calculer il &au" donc "enir com*"e de deu% #l#men"s C a4 la na"ure de la mesure o? son" *long#s les nom-res 'ue l on "rou!e dans ce "a-leau $X x Y% C on"6ils une !aleur 0 -inaire 1. son"6ils des *osi"ions sur une #chelle 0 ordinale 1 2dicho"omi'ue J0.1K ou sur un in"er!alle Ja.-K4. son"6ils des nom-res *ou!an" *rendre "h#ori'uemen" "ou"es les !aleurs dans une large *lage des nom-res r#els 2le 0 con"inue 1 des ma"h#ma"iciens4 F -4 la na"ure du calcul de l indice de simili"ude( @n dis"inguera. ici. deu% classes d indices C les indices e%*riman" une 0 ma$ori"# 1. ceu% e%*riman" une 0 dis"ance : l ind#*endance s"a"is"i'ue 1( @n "rai"era en L(L les indices 'ui mesuren" un degr# 0 d im*lica"ion logi'ue 1( ,ls n on" *as la *ro*ri#"# de s+m#"rie des indices de simili"ude mais *erme""en" d anal+ser les donn#es don" les &r#'uences son" *ar "ro* in#gales(

10

La nature )u /al/ul )e lin)i/e )e si-ilitu)e. aB Les in)i/es 1ui 0*nt -ettre en +0i)en/e la gran)eurF le ,*i)s des di&&#ren"es !aria-les( C es" le cas si on *rend en consid#ra"ion la !aleur a-solu de xij d un i"em i( @n a alors *lus de chance de "rou!er une simili"ude &or"e en"re les i"ems a+an" une &or"e mo+enne 2ou &r#'uence4 'u en"re ceu% a+an" une mo+enne 2ou &r#'uence4 *lus &ai-le( @n *eu" alors *arler de mise en #!idence d un e&&e" "enan" au% !aleurs e%"r;mes e" dans le cas des &r#'uences d un e&&e" ma$ori"aire 2ce 'ue *ense ou &ai" la ma$ori"#4( @n *eu" #!i"er en *ar"ie cela en e&&ec"uan" une s"andardisa"ion classi'ue des donn#es 2Q6score en anglais4 C on calcule alors x V ij = 2 xij moy31132 xij 44 Varia1232 xij 4 .B Les in)i/es e:,ri-ant une )istan/e J lin)+,en)an/e statisti1ue !on" au con"raire "enir com*"e seulemen" des #car"s : l ind#*endance s"a"is"i'ue( @r les i"ems de *oids &ai-les son" ceu% 'ui *erme""en" les *lus &or"s #car"s( /i *ar e%em*le on "rai"e le choi% de 2 i"ems i e" j "el 'ue i a #"# choisi *ar N0_ des su$e"s e" j seulemen" *ar >0_. l ind#*endance s"a"is"i'ue de leur croisemen" es" 2I_ 20.N % 0.>4( L #car" ma%imum es" alors de >0_ : 2I_ soi" de M_ des su$e"s( Par con"re si on croise l i"em j a+an" la m;me dis"ri-u"ion a!ec un i"em i choisi *ar 20_ des su$e"s l ind#*endance s"a"is"i'ue de leur croisemen" es" M_ 20.2 % 0.>4( L #car" ma%imum es" alors de 20_ : M_ soi" de 1I_ des su$e"s( ,nd#*endance s"a"is"i'ue Cooccurrence ma%imum ,nd#*endance s"a"is"i'ue Cooccurrence ma%imum j'0 j'1 *o* j'0 j'1 *o* j'0 j'1 *o* j'0 j'1 *o* i'0 1I M 20 i'0 20 0 20 i'0 LM 2I N0 i'0 =0 10 N0 i'1 LM 5= D6 i'1 L0 76 D6 i'1 1I ; 56 i'1 0 56 56 4o* =0 76 100 4o* =0 76 100 4o* =0 76 100 4o* =0 76 100 as *L i a la )istri.uti*n 56 M D6 as *L i a la )istri.uti*n D6 M 56 ,ci on sai" 'ue les indices de simili"ude !on" me""re en #!idence l e%is"ence de sous6ensem-les de !aria-les 'ui son" corr#l#es gr]ce : l e%is"ence de sous6*o*ula"ions de su$e"s. 'ui *eu!en" ;"re *eu nom-reuses 2c&( le M_ du *remier cas ou le *assage de M_ : seulemen" 20_ dans le second cas4 mais 'ui on" des *ro&ils com*ara-les sur ce sous6ensem-le de !aria-les( Ces indices signalen" 'u une *ar"ie des donn#es &ormen" une 0 dis"ri-u"ion con$oin"e 1 C : une sous6 *o*ula"ion donn#e corres*ond un sous6ensem-le de !aria-les( ,ci on *eu" *arler de 0 minori"# coh#ren"e 1(

!.=.!. In)i/es )e si-ilitu)e )ans le /as )e )*nn+es )i/9*t*-i1ues. Le croisemen" de deu% #l#men"s i e" j de X se *r#sen"e classi'uemen" *ar le "a-leau carr# sui!an" C j^0 i^0 i^1 To"al -ij /ij Nj0 j^1 .ij Cij Nj1 To"al Ni0 Ni1 N
N es" le nom-re de su$e"s( Ni1 es" le nom-re de su$e"s cod#s 1 sur l i"em i( Nj1 es" le nom-re de su$e"s cod#s 1 sur l i"em j( Cij es" le nom-re de su$e"s cod#s 1 au% i"ems i e" j( -ij es" le nom-re de su$e"s cod#s 0 au% i"ems i e" j( /ij es" le nom-re de su$e"s cod#s 1 : l i"em i e" 0 : j( .ij es" le nom-re de su$e"s cod#s 0 : l i"em i e" 1 : j(

Ta.leau A 4 le /r*ise-ent )i/9*t*-i1ue

!.=.!.! as )es 0aria.les .inaires. Lors'ue les !aria-les son" -inaires seules les in&orma"ions concernan" la *r#sence 2le 14 on" un sens( @n *eu" alors cons"ruire les indices sui!an"s( a4 Le nom-re de &ois o? i e" j son" cod#s "ous les deu% 1 es" a**el# cooccurrence C )1 ' Cij( @n *eu" aussi calculer un *ourcen"age ) 2 = 2Cij N 4 100 ( Ces deu% indices donnen" la m;me *r#ordonnance de simili"ude( ,ls &on" a**araD"re ce 'ue l on *eu" a**eler le *h#nomne ma$ori"aire( En e&&e" *lus les i"ems i e" j son" *r#sen"s 2Ni1 e" Nj1 grand4 *lus il + a de chance *our 'ue Cij soi" grand( -4 @n *eu". *our corriger ce" e&&e" ma$ori"aire. #"a-lir un ra**or" en"re Cij e" C0ij. &r#'uence de la cooccurrence dans le cas de l ind#*endance s"a"is"i'ue en"re i e" j. C O ij = 2 Ni1 Nj14 N @n *eu" alors calculer leur ra**or" ) > = Cij C O ij 'ui es" #gal : ) > = 2Cij N 4 2 Ni1 Nj14 (

11 @n *eu" aussi calculer leur di&&#rence en *ourcen"age ) I = 100 2Cij C O ij 4 C O ij @n *eu" encore calculer l indice de For-es ) L = 2Cij C O ij 4 2Cij ma% C O ij 4 a!ec Cijmax la !aleur ma%imum 'ue *eu" a!oir Cij F ce""e !aleur es" en &ai" le minimum de [Nj1, Ni1]. Le domaine de !aria"ion de ces di&&#ren"s indices es" &or" di&&#ren" C l indice )3 !arie en"re 0 e" une !aleur ma%imale )3max 'uand Cij es" ma%imum c es" : dire #gal au minimum de JNi1.N$1K alors C ) > ma% = N ma%[ Ni1. Nj1] F la !aleur )3 ^ 1 indi'ue l ind#*endance s"a"is"i'ue en"re i e" j F en"re 0 e" 1 Cij es" in&#rieure : la !aleur a""endue s il + a!ai" ind#*endance s"a"is"i'ue. en"re 1 e" )3max Cij es" su*#rieur : ce""e !aleur( La !aleur )4 ^ 0 indi'ue l ind#*endance s"a"is"i'ue en"re i e" j. il en es" de m;me *our )5 'ui !arie de 0 : 1 2'uand Cij'Cijmax4( @n mon"rera *lus loin sur un e%em*le l usage de ces deu% "+*es d indices 2c&( 1(>(1(>(4( !.=.!.5 as )es 0aria.les )i/9*t*-i1ues *r)*nn+es. Lors'ue les !aria-les dicho"omi'ues son" re*r#sen"a"i!es d un ordre en"re le 0 e" le 1 on *eu" alors cons"ruire des indices o? le 0 e" le 1 "iennen" des *laces s+m#"ri'ues( a4 Le nom-re de &ois o? i e" j son" cod#s "ous les deu% de la m;me manire es" a**el# cooccurrence s+m#"ri'ue C ) M = Cij + -ij @n *eu" aussi calculer un *ourcen"age ) = = 22Cij + -ij 4 N 4 100 ( Ces deu% indices donnen" la m;me *r#ordonnance de simili"ude( ,ls e%*rimen" : l #!idence le *oids de la diagonale de corr#la"ion mais sans &aire r#&#rence au calcul de la !aleur "h#ori'ue des cases Cij e" -ij( @n a ici aussi la mesure d un *h#nomne ma$ori"aire *ou!an" *or"er s+m#"ri'uemen" sur la !aleur 0 ou 1( L indice )5 !arie en"re 0 e" N. L indice )6 !arie en"re 0 e" 100( -4 Le Phi de con"ingence !a. lui. signaler la corr#la"ion e" donc la com*araison des donn#es : leur !aleur "h#ori'ue dans le cas de l ind#*endance s"a"is"i'ue. com*araison mise en #!idence *ar la rela"ion 'ui relie le Phi e" le Xhi 2( La &ormule du Phi d#ri!e de l a**lica"ion du Tau de Xendall. au "a-leau : 'ua"re cases( ,l corres*ond -ien : un ordre 0 \ 1(
) N = = 2 -ij Cij 4 2.ij /ij 4 Nj 0 Nj1 Ni 0 Ni1

a**el# Phi de con"ingence11(

@n *eu" "rou!er dans la li""#ra"ure "ou" un ensem-le d indices don" la &ormule d#ri!e de celle du Phi de con"ingence( @n en signalera un 'ui essa+e de corriger le &ai" 'ue le Phi ne !arie *as en"re `1 e" Y1 comme le !oudrai" la "h#orie mais en"re une !aleur ma%imale e" une !aleur minimale 'ui d#*end des marges 2c&( anne%e 14( @n calcule alors le 0 Phima% 1 *our la Qone des corr#la"ions *osi"i!es e" on #"a-li" le ra**or" Phi sur Phima% C )67i8 ' )6 9 +:imax. Le Phima% es" o-"enu en calculan" le "a-leau donnan" la corr#la"ion ma%imale( Ce "a-leau ma%imise la !aleur Cij( Alors Cij =min Ni1. Nj1 ( )ans ce cas la !aleur de l indice !arie. dans la Qone des corr#la"ions *osi"i!es. en"re 0 e" Y1 'uel'ue soien" les marges( ,l es" aussi *ossi-le d o-"enir un indice !arian" de 61 : Y1 en u"ilisan" le T de aule
)< = ; = 2 -ij Cij 4 2.ij /ij 4 ( Ce" indice es" #gal : 1 si .ij ou /ij es" #gal : 0 2une case an"i 2 -ij Cij 4 + 2.ij /ij 4

diagonale !ide4( ,l es" #gal : `1 si -ij ou Cij es" #gal : 0 2une case diagonale !ide4( ,l es" #gal : 0
11

Le Phi es" #gal : la racine carr#e du Xhi 2 "o"al du "a-leau di!is# *ar N( 2 -ij - O ij 4 2 2.ij . O ij 4 2 2/ij / O ij 4 2 2Cij C O ij 4 2 <:i 2 = + + + F - O ij . O ij / O ij C O ij !aleurs "h#ori'ues dans le cas de l ind#*endance s"a"is"i'ue en"re i e" j calcul#es - O ij = 2 Ni 0 Nj 04 N F . O ij = 2 Ni 0 Nj14 N F C O ij = 2 Ni1 Nj14 N (

@n calcule ainsi le Xhi 2 a!ec -0ij, .0ij, /0ij, C0ij les gr]ce au% marges du "a-leau C / O ij = 2 Ni1Nj 04 N F

12 comme le Phi de con"ingence dans le cas de l #gali"# des *rodui"s des !aleurs des deu% diagonales 2nulli"# du num#ra"eur4( @n es" ici *roche d une mesure de l im*lica"ion *lus 'ue de la corr#la"ion comme nous le !errons *lus loin( 9n indice *ar"iculier es" aussi sou!en" u"ilis# car il #!i"e de *rendre en consid#ra"ion la case -ij 2a-sence de i e" de j4 C l indice de communau"# di" indice de Jaccard C )10 = C ij 2C ij +. ij +/ij 4 !.=.!.7. E:e-,le )e lutilisati*n )es )eu: ty,es )in)i/es )ans le /as )u /9*i: )i/9*t*-i1ue. Nous re*renons ici le 'ues"ionnaire sur l image de la -an'ue *r#sen"# en 1(2(1( L i"em 2 2=1 38* 31 Co1>ia123 4. *ar e%em*le. a #"# choisi *ar 16 su$e"s in"errog#es. l i"em 3 2!i?3 +ro7@Am38 +ar*i2B@i3r84 a #"# choisi *ar 245 su$e"s( Le "a-leau de croisemen" de ces deu% i"ems es" le sui!an" C
0 1 To"al i"em 2 0 1=I 1I> >1= 1 NL 10I 1N< To"al i"em> 2L< 2I= L0M Ta.leau !6 C @n indi'ue le choi% de l i"em *ar la !aleur 1(

@n a "rou!# 104 su$e"s a+an" choisi : la &ois l i"em 2 e" l i"em 3( la cooccurrence es" donc de 104( Le calcul du Phi de con"ingence en"re l i"em 2 e" l i"em > es" alors C
21=I 10I4 21I> NL4 2 2L< 2I= >1= 1N<4

Le calcul de la /**//urren/e )1 ^ Cij donne la ma"rice sui!an"e C 1 : La Banque me fait Confiance : * 2 : On est en Confiance : 100 * 3 : Aide Prob !mes Particu iers : 112 104 4 : $%cou&ert 'a((orte ) Banque : 29 60 # : +ra&ai er ) son Profit : 43 39 6 : On n,est qu,un -um%ro : 26 16

* 80 43 52

* 85 72

* 59

Le calcul du ,9i )e /*ntingen/e )6 donne la ma"rice sui!an"e 1 : La Banque me fait Confiance : * 2 : On est en Confiance : 019 * 3 : Aide Prob !mes Particu iers : 010 .09 * 4 : $%cou&ert 'a((orte ) Banque : 1043 1012 101# # : +ra&ai er ) son Profit : 1013 1013 1024 6 : On n2est qu,un -um%ro : 102# 1031 1012 Ta.leau !! 4 La 'an1ue 4 -atri/es )e si-ilitu)e.

* 024 016

* .20

soi" 0,0 ( La ma"rice des Phi de con"ingence mon"re 'ue la *o*ula"ion en'u;"#e se com*ose de deu% sous6 *o*ula"ions C l une !oi" la -an'ue sous un $our &a!ora-le 2aide. con&iance4. la seconde *ense 'u elle !i" sur le dos de ses clien"s( Les deu% sous6ensem-les d i"ems carac"#risan" ces deu% sous6*o*ula"ions son" asseQ e%clusi&s les corr#la"ions son" "ou"es n#ga"i!es dans le rec"angle en -as e" : gauche du croisemen" des i"ems 1,2,3 a!ec les i"ems 4,5,6. Tuelle es" l im*or"ance de ces deu% sous6*o*ula"ions R La ma"rice des cooccurrence nous donne une *remire indica"ion les su$e"s &a!ora-les son" *lus nom-reuses 'ue les consum#ris"es12. leurs cooccurrences son" *lus &r#'uen"es 2de 104 : 112 !ersus de 5 : 654( Ce""e ma"rice module aussi la r#ali"# d une ne""e di!ision en deu% de la *o*ula"ion( En e&&e" le &ai" 'ue C @3 ?D2oBE3r* raFFor*3 G @a 7a1HB3 I soi" &or"emen" associ# : C @ai?3 aBx Fro7@Am38 r312o1*rD8 Far @38 Far*i2B@i3r8 I mon"re 'u il n e%is"e *as ma$ori"airemen" une !ision "ranch#e( @n le mon"re aussi 'uand 52 su$e"s associen" ce dernier i"em au &ai" de C 1J*r3 HBB1 1BmDro I( L in"er*r#"a"ion *ar un seul de ces indices nous a**araD" alors mu"ilan"e(

12

@n *eu" aussi le mon"rer en o-ser!an" sim*lemen" les &r#'uences de ces i"ems C I0.I_. >=.I_. I<_. I0.I_. 2<_. 2=_ C les deu% derniers i"ems son" ne""emen" minori"aires(

1> !.=.5. In)i/es )e si-ilitu)e )ans le /as )e )*nn+es *r)inales. )ans le *aragra*he *r#c#den" on a r#dui" l in&orma"ion o-"enue au 'ues"ionnaire 0 -an'ue 1 : la seule *r#sence du choi% des i"ems 0 carac"#ris"i'ues 1 alors 'ue l in&orma"ion ini"iale #"ai" *lus com*le%e C le su$e" de!ai" choisir. *armi les M i"ems. les deu% i"ems les *lus carac"#ris"i'ues de la -an'ue. *uis les deu% i"ems les moins carac"#ris"i'ues de la -an'ue. il res"ai" alors deu% i"ems non choisis( @n *eu" donc classer. *our cha'ue su$e". les i"ems sur une #chelle de "rois degr#s C carac"#ris"i'ue 234. non choisi 224. moins carac"#ris"i'ue 214( Le croisemen" de deu% i"ems *rend alors la &orme d un "a-leau > % >( Le "a-leau 1> mon"re. *ar e%em*le. le croisemen" de l i"em 2 2=1 38* 31 Co1>ia1234. a!ec l i"em 3 2!i?3 +ro7@Am38 +ar*i2B@i3r8
1 2 > To"al ,"em 2 1 >L 22 I1 <N 2 =A MN 102 21< > >M I< 10I 1N< To"al i"em> 120 1>< 2I= L0M Ta.leau !5 C La 'an1ue C Croisemen" des classemen"s des i"ems 2 e" 3( ,ci il + a 4 su$e"s a+an" consid#r# 'ue l i"em 3 n es" *as carac"#ris"i'ue de la -an'ue 2cod# 14e" dans le m;me "em*s ces su$e"s n on" *as choisi l i"em 2 C il n es" ni carac"#ris"i'ue ni non carac"#ris"i'ue 2cod# 24( Ta.leau !7 4 r*ise-ent )es 0aria.les i et j.

Plus g#n#ralemen" le croisemen" de deu% !aria-les i e" j se *r#sen"e sous la &orme d un "a-leau. le *lus sou!en" carr#. mais *ou!an" ;"re aussi rec"angulaire si le nom-re de modali"# n es" *as le m;me *our i e" j(

Varia-le i K j #chelon 1 #chelon 2 e"c7H #chelon ma% To"al j

#chelon 1 111 121 1H1 Nm1 1*1

#chelon 2 112 122 1H2 1m2 1*2

e"c7k 11k 12k 1Hk 1mk 1*k

#chelon ma% 11m 12m 1Hm 1mm 1*m

To"al i 11* 12* 1H* 1m* N

a4 Le calcul 'ui me""ra en #!idence le *h#nomne de concen"ra"ion des r#*onses sur les m;mes !aleurs *our les deu% !aria-les su**ose 'ue les !aria-les aien" la m;me #chelle 2m;me nom-re d #chelons4( )ans ce cas on !a &aire la somme de "ou"es les cases o? il + a concordance en"re les #chelons des deu% i"ems C )11 = 1kk N ( Ce" indice es" "rs sensi-le au% si"ua"ions ma$ori"aires(
k =1 k =m

Ce" indice ne me" en #!idence 'ue l im*or"ance de la non *r#&#rence d un i"em sur l au"re( ,l ne "ien" *as com*"e de l ordre des #chelons C 1 es" *lus *roche de 2 'ue de > *ar e%em*le( Pour *rendre en com*"e ce &ai" on *eu" cons"ruire des indices 'ui commencen" *ar calculer une dis"ance( Mais ce &aisan" on in"rodui" une *ro*ri#"# su**l#men"aire C on ne *eu" &aire ce calcul 'u en su**osan" l #'uidis"ance en"re les modali"#s de 1 : 2. de 2 : > e"c((( 0 dis"ance ci"+6-locA 1 @n
)1> = 1
)12 = 1

H k 1Hk
k H

N 2m 14

di"e simili"ude calcul#e : *ar"ir de la

aussi calculer 2H k 4 2 1Hk


k @

*eu"

une

&onc"ion

in!erse

de

la

dis"ance

euclidienne C

N 2m 14

1I Chris"ian Buimelli a !oulu &aire un indice !arian" en"re `1 e" Y1. le 0 de!enan" une sor"e de *oin" neu"re s#*aran" les &ai-les e" les &or"es simili"udes 1>( ,l calcule )1I = 22 )12 0.L4 ( Ce" indice !eu" se r#&#rer analogi'uemen" au% 'ues"ionnaires o? on demande au% su$e"s de se *osi"ionner sur un in"er!alle de J`m : YmK( En &ai" c es" une sim*le "rans&orma"ion lin#aire de l indice )12 0 ci"+ -locA 1 -4 Les indices de simili"ude. 'ui "iennen" com*"e de l ind#*endance s"a"is"i'ue. 'ui res*ec"en" la *ro*ri#"# de *r#&#rence e" 'ui ne &on" *as im*lici"emen" l h+*o"hse d #'uidis"ance en"re les #chelons. on" #"# cr##s *ar Xendall( Ce" au"eur *ro*ose deu% indices di" Tau - 2 )154 dans le cas d un "a-leau non carr# 2si le nom-re ma%imum d #chelons n es" *as le m;me *our les i"ems i e" j4 e" Tau c 2)164 'ui corres*ond au% "a-leau% carr#s 2c&( anne%e 14. !.=.7. In)i/es )e si-ilitu)e )ans le /as )e )*nn+es -+tri1ues. @n se "rou!e de!an" un "a-leau [X x Y] *ou!an" *rendre des !aleurs dans les r#els(
Ta.leau != 4 Ta.leau )es )*nn+es -+tri1ues

/u$e"s 01 02 0> k

Varia-le a 11a 12a 13a

Varia-le F 11F 12F 13F 1kF

Varia-le @ 11@ 12@ 13@ 1k@

Var ma% 11mE 12mE 13mE

To"al 11 12 13 1k

ma% To"al

1m8a 1a

1m8F 1F

1m8@ 1@

1mE

1m8 N

1kF 1kF e" N = 1F A!ec 1k = e" 1F = F F k

a4 )ans le cas o? "ou"es les !aria-les on" le m;me in"er!alle de d#&ini"ion 2*ar e%em*le les !aria-les son" "ou"es des *ourcen"ages4 on *eu" calculer un indice me""an" en #!idence les e&&e"s de "aille 2l im*or"ance des di&&#ren"s 1kF4 C on calcule une &onc"ion in!erse de la dis"ance euclidienne en"re la
2 1kF 1k@ 4 2 ( colonne F e" @ *ar e%em*le )1= =1 k

-4 La dis"ance : l ind#*endance s"a"is"i'ue es" -ien re*r#sen"#e *ar le coe&&icien" de corr#la"ion de Bra!ais ` Pearson 'ue nous a!ons d#$: *r#sen"# C )16 ' r( Ce" indice !arie de `1 : Y1( @n *eu" aussi calculer la dis"ance di"e du Xhi2. dis"ance *ro*os#e *ar J(P(BenQ#cri e" u"ilis#e dans les Anal+ses Fac"orielles de Corres*ondance C )1< =1
k= 1 k =m

1k 1kF 1k@ N 1@ 1F

1>

Buimelli. Ch(. 1<<N

1L !.=.=. In)i/es )e si-ilitu)e )ans le /as ,arti/ulier )es ta.leau: )e )*nn+es relati*nnelles >ta.leau: /arr+sB. Ces "a-leau% com*or"en" le m;me nom-re de lignes e" de colonnes( /i les cellules du "a-leau son" d#$: les !aleurs d un indice de simili"ude 2corr#la"ion *ar e%em*le4 on se con"en"e de consid#rer ce "a-leau comme une ma"rice de simili"ude [X x X] ( )ans le cas con"raire on se "rou!e de!an" le "a-leau sui!an" [X x X] o? 1@F n es" *as #gal : 1F@(
Ta.leau !< 4 ta.leau )es )*nn+es relati*nnelles.

Var a Var * Var l

Var a 0 0 1Fa 1@a

Var * 1aF 0 0 1@F

Var l 1a@ 1F@ 0 0 0 0

Var m 1am 1Fm 1@m

Var m

1ma

1mF

1m@

a4 Pour &aire a**araD"re les e&&e"s de "aille on u"ilisera l analogue de la cooccurrence )20 ' 1F@ L 1@F( -4 La r#&#rence : une !aleur d ind#*endance s"a"is"i'ue condui" : calculer une dis"ance : une !aleur "h#ori'ue( /i les !aleurs 1F@ re*r#sen"en" la !aleur d une rela"ion 2non s+m#"ri'ue4 on es" condui" : la com*arer au calcul de la !aleur "h#ori'ue rela"i!e : la somme de la ligne F e" de la colonne @ 2indice )21 de l anne%e 14