Vous êtes sur la page 1sur 129

SPADProfiling

Manuel daide linterprtation

11 Rue des Petites Ecuries - 75010 Paris - France Tel : + 33 1 42 81 17 47 - Fax : + 33 1 42 81 16 96 www.spadsoft.com spad@testandgo.com

SPAD Profiling

Manuel daide linterprtation

SPADProfiling Manuel daide linterprtation T. LE NOUVEL

Le logiciel dcrit dans le manuel est diffus dans le cadre d'un accord de licence d'utilisation et de non divulgation, et ne peut tre utilis ou copi qu'en conformit avec les stipulations de l'accord. Toute copie du programme sur cassette, disque ou autre support des fins autres que l'usage personnel du programme par le licenci est interdite par la loi. Les informations figurant dans ce manuel sont sujettes rvision sans pravis et ne prsentent aucun engagement de la part de SPAD. copyright 2006, SPAD. Tous droits rservs

SPAD 11 Rue des Petites Ecuries - 75010 Paris - France Tel : + 33 1 42 81 17 47 - Fax : + 33 1 42 81 16 96 www.spadsoft.com spad@testandgo.com

Sommaire
AVANT-PROPOS....................................................................................................... 8

LES METHODES DE DESCRIPTION STATISTIQUE

TRIS A PLAT / HISTOGRAMMES (STATS)............................................................ 10


1. Histogrammes .................................................................................................................................. 10 2. Variables continues .......................................................................................................................... 11 3. Variables nominales ......................................................................................................................... 12 4. Variables groupes .......................................................................................................................... 12 5. Discrtisation .................................................................................................................................... 13

TABLEAUX CROISES (TABLE).............................................................................. 15


1. Tableau de contingence ................................................................................................................... 15 2. Tableau de moyennes...................................................................................................................... 16 3. Tableaux de frquence..................................................................................................................... 17

CARACTERISATION AUTOMATIQUE DUNE VARIABLE NOMINALE (DEMOD) 18


1. DEMOD-1 : Caractrisation de la variable par les variables nominales .......................................... 18 2. DEMOD-2 : Tableaux croisant la variable dcrire avec les variables nominales ......................... 20 3. DEMOD-3 : Caractrisation dun groupe dindividus par les variables nominales........................... 21 4. DEMOD-4 : Caractrisation dune variable nominale par les modalits .......................................... 22 5. DEMOD-5 : Caractrisation dun groupe dindividus par les modalits (Tri par valeurs-tests)........ 23 6. DEMOD-6 : Caractrisation dun groupe dindividus par les modalits (Tri par % de la modalit dans le groupe)...................................................................................................................................... 26 7. DEMOD-7 : Caractrisation dun groupe dindividus par les modalits (Tri par % du groupe dans la modalit) ................................................................................................................................................ 27 8. DEMOD-11 : Caractrisation dune variable nominale par les variables continues ........................ 29 9. DEMOD-12 : Statistiques par modalit des variables continues (Tableaux de moyennes) ............ 30 10.DEMOD-13 : Caractrisation dun groupe dindividus par les variables continues.......................... 31

CARACTERISATION AUTOMATIQUE DUNE VARIABLE CONTINUE (DESCO) 33


1. DESCO-1 : Caractrisation par les modalits.................................................................................. 33 2. DESCO-2 : Caractrisation par les variables nominales ................................................................. 34 3. DESCO-3 : Statistiques sommaires des variables continues .......................................................... 35 4. DESCO-4 : Caractrisation par les variables continues .................................................................. 35

ANALYSE BIVARIEE (BIVAR) ................................................................................ 37


1. BIVAR-1 : Statistiques sommaires des variables continues actives ................................................ 37 2. BIVAR-2 : Moyennes et valeurs-test des modalits sur le plan dfini par les variables nominales illustratives ............................................................................................................................................. 38

3. BIVAR-3 : Corrlations entre les variables continues illustratives et les variables continues dfinissant le plan.................................................................................................................................. 39

MARQUAGE SEMANTIQUE DE MODALITES DE VARIABLES NOMINALES (MSMOD) ................................................................................................................. 41

LES ANALYSES FACTORIELLES

45

ANALYSE EN COMPOSANTES PRINCIPALES (COPRI)...................................... 46


1. Les donnes et les objectifs ............................................................................................................. 46 2. Choix du thme actif......................................................................................................................... 47 3. COPRI-1 : Statistiques sommaires des variables continues............................................................ 48 4. COPRI-2 : Matrice des corrlations ................................................................................................. 49 5. COPRI-3 : Matrice des valeurs-tests................................................................................................ 50 6. COPRI-4 : Tableau des valeurs propres .......................................................................................... 50 7. COPRI-5 : Intervalles laplaciens d'Anderson (seuil: 0.95) ............................................................... 51 8. COPRI-6 : Coordonnes, Corrlations, Anciens axes unitaires ...................................................... 52
8.1 8.2 8.3 8.4 Coordonnes des variables actives............................................................................................................ 52 Corrlations des variables actives avec les facteurs .................................................................................. 53 Anciens axes unitaires ............................................................................................................................... 54 Note sur les Cosinus Carrs et les Contributions ....................................................................................... 54

9. COPRI-7 : Coordonnes, Corrlations des variables illustratives avec les 5 premiers axes .......... 56 10.COPRI-8 : Matrice des corrlations permute suivant le premier facteur ....................................... 57 11.COPRI-9 : Coordonnes, Contributions, Cosinus Carrs des individus actifs ................................ 57
11.1 11.2 11.3 12.1 12.2 Coordonnes des individus actifs............................................................................................................... 57 Contributions des individus actifs ............................................................................................................... 58 Cosinus Carrs des individus actifs............................................................................................................ 60 Coordonnes des individus illustratifs ........................................................................................................ 61 Cosinus Carrs des individus illustratifs ..................................................................................................... 62

12.COPRI-10 : Coordonnes, Cosinus Carrs des individus illustratifs ............................................... 61

13.COPRI-11 : Coordonnes des modalits illustratives...................................................................... 63 14.COPRI-12 : Valeurs-tests des modalits illustratives....................................................................... 64

ANALYSE DES CORRESPONDANCES BINAIRES (CORBI) ................................ 66


1. Prsentation du tableau analys ...................................................................................................... 66 2. CORBI-1 : Tableau des valeurs-propres.......................................................................................... 66 3. CORBI-2 : Coordonnes, Contributions, Cosinus Carrs des frquences actives.......................... 67
3.1 3.2 3.3 4.1 4.2 4.3 Coordonnes des frquences actives ........................................................................................................ 67 Contributions des frquences actives......................................................................................................... 68 Cosinus carrs des frquences actives...................................................................................................... 69 Coordonnes des individus actifs............................................................................................................... 70 Contributions des individus actifs ............................................................................................................... 71 Cosinus carrs des individus actifs ............................................................................................................ 72

4. CORBI-4 : Coordonnes, Contributions, Cosinus Carrs des individus actifs ................................ 70

5. Interprtation gnrale ..................................................................................................................... 73

ANALYSE DES CORRESPONDANCES MULTIPLES (CORMU)........................... 74


1. Prsentation du thme analys........................................................................................................ 74 2. CORMU-1 : Tris plat des variables actives ................................................................................... 75 3. CORMU-2 :Tableau de Burt ............................................................................................................. 77 4. CORMU-3 : Profils horizontaux du tableau de Burt ......................................................................... 77 5. CORMU-4 : Tableau des valeurs propres........................................................................................ 78 6. CORMU-5 :Coordonnes des modalits actives ............................................................................. 79 7. CORMU-6 :Contributions des modalits actives.............................................................................. 80 8. CORMU-7 : Cosinus carrs des modalits actives .......................................................................... 82 9. CORMU-8 : Coordonnes des modalits actives et illustratives ..................................................... 84 10.CORMU-9 : Valeurs-tests des modalits actives et illustratives ...................................................... 85 11.CORMU-10 : Coordonnes, Contributions, Cosinus Carrs des individus actifs ............................ 87
11.1 11.2 11.3 Coordonnes des individus actifs............................................................................................................... 87 Contributions des individus actifs ............................................................................................................... 87 Cosinus Carrs des individus actifs............................................................................................................ 88

12.CORMU-11 : Coordonnes, Cosinus Carrs des individus illustratifs ............................................. 90 13.CORMU-12 : Corrlations entre les variables continues et les facteurs.......................................... 90

ANALYSE DES CORRESPONDANCES MULTIPLES AVEC CHOIX DES MODALITES ACTIVES (COREM) ........................................................................... 92 DESCRIPTION DES AXES FACTORIELS (DEFAC) .............................................. 93
1. DEFAC-1 : Description de laxe par les individus actifs et illustratifs ............................................... 93 2. DEFAC-2 : Description de laxe par les modalits actives et illustratives ........................................ 94 3. DEFAC-3 : Description de laxe par les variables continues illustratives......................................... 96

CLASSIFICATION ET TYPOLOGIE

97

CLASSIFICATION SUR FACTEURS (RECIP / SEMIS) .......................................... 98


1. Justification du passage aux coordonnes factorielles.................................................................... 98 2. Les techniques de classification....................................................................................................... 98 3. La Classification Ascendante Hirarchique RECIP ...................................................................... 99
3.1 3.2 3.3 3.4 4.1 4.2 4.3 CLASSIF-3 : Description des 30 noeuds d'indices les plus levs............................................................100 CLASSIF-4 : Description des 30 nouveaux lments terminaux...............................................................101 CLASSIF-5 : Coordonnes et valeurs-tests des noeuds terminaux ..........................................................101 CLASSIF-6 : Description des noeuds de la hirachie (au dessus des noeuds terminaux)........................103 Paramtres de fonctionnement de SEMIS ................................................................................................105 CLASSIF-1 : Classification mixte sur les 14 premiers axes factoriels .......................................................106 CLASSIF-2 : Rsultats du croisement.......................................................................................................107

4. La Classification Mixte SEMIS .................................................................................................... 104

COUPURE DE LARBRE ET DESCRIPTION DES CLASSES (PARTI/DECLA) ...110


1. La procdure PARTI....................................................................................................................... 110
1.1 1.2 1.3 PARTI-1 : Coupure 'a' de l'arbre en 9 classes...........................................................................................112 PARTI-2 : Coordonnes et valeurs-tests des centres de classes avant consolidation ..............................112 PARTI-3 : Avant consolidation - Liste des individus actifs dans les classes de la partition .......................114

1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11

PARTI-4 : Avant consolidation - Appartenance des individus actifs dans les classes de la partition ........114 PARTI-5 : Consolidation de la partition .....................................................................................................115 PARTI-6 : Dcomposition de l'inertie calcule sur 10 axes .......................................................................115 PARTI-8 : Coordonnes et valeurs-tests des centres de classes aprs consolidation..............................116 PARTI-9 : Avant consolidation - Liste des individus actifs dans les classes de la partition .......................116 PARTI-10 : Avant consolidation - Appartenance des individus actifs dans les classes de la partition ......116 PARTI-11 : Edition des parangons ............................................................................................................117 PARTI-12 : Edition des individus contribution maximale ........................................................................117

2. La procdure DECLA ..................................................................................................................... 118

CARACTERISATION DES CLASSES DE TYPOLOGIES (CLASS-MINER) .........119 MARQUAGE SEMANTIQUE DES CLASSES DUNE PARTITION (MSCLA)........120 GLOSSAIRE ...........................................................................................................121 NOTE SUR LA VALEUR-TEST ..............................................................................126
1. Valeur-test lie au 2 ...................................................................................................................... 126 2. Valeur-test lie la loi hypergomtrique...................................................................................... 126 3. Valeur-test lie la comparaison de moyennes ............................................................................ 127 4. Variables caractristiques dune classe ......................................................................................... 128

BIBLIOGRAPHIE ....................................................................................................129

SPAD

Avant-propos

Avant-propos

Depuis la version 5.0 de SPAD, les rsultats des diffrentes mthodes sont mis en forme dans EXCEL. Pour obtenir ces rsultats mis en forme, vous devez cocher loption Fichier pour application tableur dans longlet Paramtres de la mthode, puis aprs excution de la mthode cliquer sur licne EXCEL droite de la mthode. Cet habillage dans EXCEL gnre des classeurs contenant des feuilles qui pour une mthode donne contiennent toujours les mmes types de rsultats. Laide linterprtation propose est faite par rapport ces feuilles EXCEL. Les aides linterprtation ne contiennent pas de longs dveloppements statistiques, si vous le souhaitez il est prfrable de consulter les ouvrages scientifiques diffuss par SPAD, en particulier : Statistiques Exploratoire Multidimensionnelle L. Lebart, A. Morineau, M. Piron (DUNOD) Auquel il est fait rfrence dans laide en ligne du logiciel, la rubrique Objet de la mthode.

Les Mthodes de Description Statistique

Les mthodes de Description statistiques sont les premires tapes indispensables lanalyse dun corpus de donnes. Les mthodes sont les suivantes : STATS : Tris plat, histogrammes, statistiques sur les variables continues. TABLE : Tableaux croiss (effectifs & pourcentages, moyennes, frquences) DEMOD : Description automatique des modalits dune variable nominale. DESCO : Description automatique dune variable continue. BIVAR : Analyse bivarie (reprsentation graphique des liaisons entre 2 variables continues) MSMOD : Marquage smantique des modalits dune variable nominale Aprs lindispensable procdure STATS, nous vous conseillons de consulter les sorties des procdures DEMOD, DESCO, MSMOD qui figurent parmi les mthodes les plus puissantes en matire danalyse exploratoire. La procdure BIVAR est surtout utilise pour sa reprsentation graphique. On travaille sur des donnes extraites dune enqute dopinion ralise en 1978. Le fichier contient les rponses de 1000 individus sur environ 50 questions extraites dun questionnaire qui porte sur les conditions de vie et les aspirations des franais. Le fichier de donnes utilis est fourni avec le logiciel sous le nom ASPI1000.SBA

Tris plat / Histogrammes (STATS)


Cette procdure fournit, dans un classeur Excel, lensemble des statistiques lmentaires sur les variables nominales et continues. Le rapport obtenu constitue la base statistique de lenqute, laquelle on pourra se rfrer tout moment au cours de lexploitation statistique approfondie qui suivra. Fichier utilis : ASPI1000.SBA Paramtrage de la mthode : On slectionne toutes les variables nominales pour les tris plats et toutes les variables continues pour les histogrammes et statistiques sommaires.

1.

Histogrammes
Estimation du salaire mensuel d'un ingnieur Bornes Inf. strict. 3000.00 3000.00 - 6000.00 6000.00 - 9000.00 9000.00 - 12000.00 12000.00 - 15000.00 15000.00 - 18000.00 18000.00 - 21000.00 21000.00 - 24000.00 24000.00 - 27000.00 27000.00 - 30000.00 Sup. 30000.00 Poids 2 80 438 216 27 29 9 0 0 1 4

Chaque variable continue est dcoupe en N classes damplitudes gales. Le nombre de classes est modifiable dans les paramtres. Les donnes manquantes sont exclues des histogrammes. Bornes : cette colonne donne les bornes infrieures et suprieures de chacune des classes : la limite infrieure est inclue dans la classe, la limite suprieure est exclue. Poids : cette colonne donne le poids des individus dans chaque classe. Si les individus ont un poids uniforme, le poids de la classe est gal au nombre dindividus dans cette classe (effectif). Il y a 438 individus qui estiment que le salaire mensuel dun ingnieur est compris entre 6000 et 9000 Francs (Rappel : Il sagit dune enqute effectue en 1978).

10

SPAD

Tris plat / Histogrammes (STATS)

2.

Variables continues

Pour les variables continues, la procdure STATS dite un tableau rassemblant les principales statistiques dans la feuille Excel Variables continues .

Libell Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Age de l'enqut(e) Nombre de non-rponses au questionnaire Age de fin d'tude Revenu personnel souhait Estimation du revenu minimum d'une famille de 2 enfants Nombre de jours de vacances en t coefficient de ponderation

Effectif 806 713 1 000 1 000 997 915 897 1 000 1 000

Poids 806,00 713,00 1 000,00 1 000,00 997,00 915,00 897,00 1 000,00 1 000,00

Moyenne Ecart-type Minimum Maximum 8 478,73 3 668,95 2 000,00 70 000,00 19 383,90 12 608,80 3 500,00 99 000,00 42,68 17,50 18,00 90,00 4,05 4,19 0,00 47,00 17,29 3,88 6,00 39,00 7 244,48 4 756,78 0,00 70 000,00 5 561,89 2 423,40 1 500,00 40 000,00 18,31 19,37 0,00 99,00 1,00 0,09 0,92 1,20

Tous les calculs sont effectus hors donnes manquantes (194 individus nont pas donn destimation du salaire mensuel dun ingnieur). Les moyennes et les cart-types tiennent compte du poids des individus. Libell : Libell complet de la variable continue. Effectif : Effectif des individus qui ont rpondu. Poids : Poids des individus qui ont rpondu. Leffectif et le poids sont identiques lorsque lon nutilise pas de pondration. Moyenne : Moyenne pondre de chacune des variables. Ecart-type : Ecart-type pondr de chacune des variables. Minimum : Valeur minimale non pondre de chacune des variables. Maximum : Valeur maximale non pondre de chacune des variables.

Libell Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Age de l'enqut(e) Nombre de non-rponses au questionnaire Age de fin d'tude Revenu personnel souhait Estimation du revenu minimum d'une famille de 2 enfants Nombre de jours de vacances en t

Effectif Poids Moyenne Ecart-type 806 806,00 8 478,73 3 668,95 713 713,00 19 383,85 12 608,83 1 000 1 000,00 42,68 17,50 1 000 1 000,00 4,05 4,19 997 997,00 17,29 3,88 915 915,00 7 244,48 4 756,78 897 897,00 5 561,89 2 423,40 1 000 1 000,00 18,31 19,37

Minimum 2 000,00 3 500,00 18,00 0,00 6,00 0,00 1 500,00 0,00

Maximum 70 000,00 99 000,00 90,00 47,00 39,00 70 000,00 40 000,00 99,00

Par dfaut, les statistiques contiennent deux dcimales dans Excel.

11

SPAD

Tris plat / Histogrammes (STATS)

3.

Variables nominales

Les tris plat des variables nominales apparaissent dans la feuille Excel Variables Nominales . Chaque tri plat est constitu de 4 composantes : Le libell complet de la variable (60 caractres au plus). Effectif : Leffectif absolu de la modalit, cest--dire le nombre dindividus qui ont choisi cette modalit. % / Total : La part de leffectif de la modalit dans lensemble des observations y compris les donnes manquantes. % / Expr. : La part de leffectif de la modalit dans lensemble des donnes exprimes cest--dire sans les donnes manquantes.
Regardez-vous la tlvision ... Effectif tous les jours 419 assez souvent 226 pas trs souvent 231 jamais 124 Total 1 000 Pour que la socit change, faut-il ... Effectif rformes progres. 490 changements radicaux 258 ne sait pas 29 Total 777

Puis pour chaque modalit

% / Total 41,90 22,60 23,10 12,40 100,00

% / Expr. 41,90 22,60 23,10 12,40 100,00

% / Total 49,00 25,80 2,90 77,70

% / Expr. 63,06 33,20 3,73 100,00

Interprtation Pour la variable Regardez-vous la tlvision , la part des modalits par rapport au total est identique la part des modalits par rapport aux donnes exprimes. Cette variable ne contient pas de donnes manquantes. La variable suivante contient des donnes manquantes et les pourcentages ne sont pas gaux. On note que 49% des personnes interroges pensent que, pour changer la socit, il faut des rformes progressives. Mais parmi les rponses exprimes, cette opinion est partage en fait par 63.06% des individus. Par dfaut, les donnes manquantes ne sont pas recodes : elles napparaissent pas dans une modalit explicite (modifiez le paramtrage si besoin). Dans le cas de lutilisation dune variable de pondration, les sorties dans Excel nditent que les rsultats pondrs, les sorties fournies dans lditeur contiennent les rsultats pondrs et non pondrs, permettant de mesurer limpact de la pondration sur la distribution de chaque variable.

4.

Variables groupes

De faon courante dans les enqutes, on trouve des batteries de variables admettant la mme liste de modalits : Possdez-vous (oui / non) un instrument de musique, un ordinateur, un tlphone portable, etc. Ou encore : Etes-vous satisfait (tout fait / un peu / pas du tout) par la qualit du service, la rapidit de la livraison, laccueil, etc.

12

SPAD

Tris plat / Histogrammes (STATS)

Loption Variables groupes est une option ddition (Tris dits par modalits dans le paramtrage) qui donne les rsultats (effectifs et pourcentages) dune modalit choisie pour chacune des variables. Cette dition peut-tre trie. Le tri par modalits concerne des variables nominales ayant les mmes intituls de modalits. Par exemple des variables qui ont 2 modalits : oui et non.

Distribution de la rponse : Pour les variables : Possession ou usage d'une tlvision couleur Possession ou usage d'une machine laver la vaisselle Possdez vous des valeurs mobilires ? Possdez vous des biens immobiliers ? Distribution de la rponse : Pour les variables : Possdez vous des biens immobiliers ? Possdez vous des valeurs mobilires ? Possession ou usage d'une machine laver la vaisselle Possession ou usage d'une tlvision couleur

oui Effectif 373 211 121 81 non Effectif 918 879 789 624 % / Total 37,30 21,10 12,10 8,10 % / Expr. 37,41 21,10 12,10 8,11

% / Total 91,80 87,90 78,90 62,40

% / Expr. 91,89 87,90 78,90 62,59

Pour chaque modalit, on obtient la liste des frquences pour lensemble des variables nominales choisies. Le listage des rsultats se compose de 4 colonnes : Lintitul complet de la variable. Effectif : leffectif absolu de la modalit, cest--dire le nombre dindividus qui ont choisi cette modalit. % / Total : la part de leffectif de la modalit dans lensemble des observations y compris les donnes manquantes : % / TOTAL. % / Expr : la part de leffectif de la modalit dans lensemble des donnes exprimes, cest--dire sans les donnes manquantes.

Linterface de paramtrage permet de regrouper chaud des modalits.

5.

Discrtisation

Pour les variables continues, linterface de paramtrage vous permet den demander soit les Statistiques sommaires et histogrammes , soit la discrtisation. Cette option consiste considrer une variable continue comme une variable nominale, chaque valeur de la variable continue tant considre comme une modalits. Cette option est intressante pour dtecter les valeurs aberrantes et dterminer les bornes de dcoupages en classes des variables continues. Les rsultats sont dans la feuille Variables discrtises . Dans lexemple on discrtise la variable Age.

13

SPAD

Tris plat / Histogrammes (STATS)

Age de l'enqut(e) Effectif 18.000000 19.000000 20.000000 21.000000 22.000000 23.000000 24.000000 25.000000 19 21 15 21 24 21 29 28 % / Total 1,90 2,10 1,50 2,10 2,40 2,10 2,90 2,80 % / Expr. 1,90 2,10 1,50 2,10 2,40 2,10 2,90 2,80 % Cum. 1,90 4,00 5,50 7,60 10,00 12,10 15,00 17,80

78.000000 79.000000 80.000000 81.000000 82.000000 83.000000 84.000000 86.000000 90.000000 Total

5 10 5 4 3 1 2 1 1 1 000

0,50 1,00 0,50 0,40 0,30 0,10 0,20 0,10 0,10 100,00

0,50 1,00 0,50 0,40 0,30 0,10 0,20 0,10 0,10 100,00

97,30 98,30 98,80 99,20 99,50 99,60 99,80 99,90 100,00

Pour chaque valeur de la variable, on obtient leffectif (ou le poids si le calcul est pondr), le pourcentage par rapport lensemble de lchantillon ( % / Total), le pourcentage par rapport ceux qui ont donn une rponses (% / Expr.). La colonne % Cum donne le pourcentage cumul . Dans notre exemple, 28 personnes ont 25 ans soit 2,8 % de lchantillon et 17,8 % des personnes ont entre 18 et 25 ans (% cum).

14

Tableaux Croiss (TABLE)


La procdure TABLE est conue pour le calcul et ldition massive de tableaux croiss. Cette procdure fournit, dans un classeur Excel, lensemble des tableaux croiss demands par lutilisateur. On peut partir de cette procdure obtenir des tableaux de contingence, des tableaux de moyenne ou encore des tableaux de frquence. Tous les tableaux croiss apparaissent dans la feuille Tableaux croiss .

1.

Tableau de contingence

Les tableaux de contingence peuvent contenir le poids des individus de chaque case, les pourcentages lignes et les pourcentages colonnes (optionnels). On choisit ici dditer ces trois composantes dans un mme tableau. Dans cette exemple, nous croisons la variable V11 (en ligne) avec la variable V25 (en colonne). Les individus ont un poids uniforme et les individus prsentant une donne manquante ont t abandonns (option par dfaut). Les marges du tableau apparaissent par dfaut. Dans chaque case, on retrouve les trois statistiques suivantes : Effectifs : effectif pondr correspondant au nombre dindividus prsentant les deux modalits croises. % ligne : pour chaque case dune ligne, il correspond leffectif pondr de la case sur leffectif total de la ligne. Pour chaque ligne, on obtient un pourcentage ligne total de 100%. % colonne : pour chaque case dune colonne, il correspond leffectif de la case sur leffectif total de la colonne. Pour chaque colonne, on obtient un pourcentage colonne total de 100%.

En ligne En colonne Effectifs


% ligne % colonne

Sexe de la personne interroge Votre travail prsente-t-il des risques pour la sant ? beaucoup de peu de risques aucun risque risques 77
23,4% 71,3% 37,4% 64,1%

ENSEMBLE 329
100,0%

masculin

123
39,2%

129
46,7%

57,1%

fminin
12,6%

31
27,9% 28,7%

69
59,5% 35,9%

147
53,3%

247
100,0% 42,9%

ENSEMBLE
18,8%

108
33,3% 100,0%

192
47,9% 100,0%

276
100,0%

576
100,0% 100,0%

Interprtation 77 hommes pensent que leur travail prsente beaucoup de risque pour la sant. 15

SPAD

Tableaux Croiss (TABLE)

Le tableau montre galement que 424 individus ont t abandonns puisque le tableau comptabilise 576 rponses alors que le fichier contient 1000 enquts. Daprs les pourcentages en ligne, on note que 23.4% des hommes qui ont rpondu aux deux questions pensent que leur travail prsente beaucoup de risque pour la sant contre seulement 12.5% chez les femmes. De mme, daprs les pourcentages en colonne, on remarque que parmi les personnes qui pensent que leur travail prsente beaucoup de risque pour la sant, il y a 71.3% dhommes et 28.7% de femmes.

2.

Tableau de moyennes

Les tableaux de moyennes peuvent contenir le poids des individus de chaque case, la moyenne pondre et lcart-type pondr de la variable continue dans chaque case. Ces trois composantes sont dites dans le mme tableau. Dans cet exemple, nous souhaitons visualiser lge moyen en fonction du sexe et du risque pour la sant que reprsente le travail. Nous croisons donc les variables V11 et V25 et nous demandons la moyenne de la variable V37. On a choisi de faire apparatre les donnes manquantes dans ce tableau (optionnel). Leur prsence ninflue pas sur les moyennes et les carts-types mais permet dobtenir de linformation sur les individus qui nont pas rpondu la question. Chaque case du tableau contient les trois statistiques suivantes : Moyenne : moyenne pondre calcule partir des valeurs prises sur les individus prsentant les deux modalits croises. Ecart-type : ecart-type pondr calcul partir des valeurs prises sur les individus prsentant les deux modalits croises. Effectif : effectif ou poids correspondant au nombre dindividus prsentant les deux modalits croises.

En ligne Sexe de la personne interroge En colonne Votre travail prsente-t-il des risques pour la sant ? Moyennes de Age de l'enqut(e) Moyennes reponse beaucoup de peu de risques aucun risque Ecart-type manquante risques Effectifs masculin 38,30 38,76 38,16 54,21 11,90 12,33 12,67 21,77 77 123 129 140 fminin 37,52 37,57 36,71 46,83 13,82 11,97 13,41 19,67 31 69 147 284 ENSEMBLE 38,07 38,33 37,39 49,27 12,48 12,22 13,09 20,68 108 192 276 424

ENSEMBLE 43,13 17,35 469 42,28 17,61 531 42,68 17,50 1 000

Interprtation Sur ce tableau, on note que lge moyen des 147 femmes qui pensent que leur travail ne prsente aucun risque pour la sant est de 36.7 ans. Elles sont sensiblement plus jeunes que les autres. 16

SPAD

Tableaux Croiss (TABLE)

La moyenne dge des enquts qui nont pas rpondu la question sur les risques du travail est nettement plus leve que celle des autres enquts : 54.2 ans pour les hommes et de 46.8 ans pour les femmes. On peut supposer que ces cases contiennent notamment des retraits et des personnes sans activit professionnelle.

3.

Tableaux de frquence

Les tableaux de frquence peuvent contenir en plus de la frquence, le poids des individus de chaque case, les pourcentages lignes et les pourcentages colonnes. Toutes ces composantes sont dites dans le mme tableau. Dans cet exemple, nous souhaitons visualiser la frquence du nombre de jours de vacances en t en fonction du sexe et du risque que reprsente le travail pour la sant. Nous croisons donc les variables V11 et V25 et nous demandons la frquence de la variable V49. On a choisi de faire apparatre les donnes manquantes dans ce tableau (optionnel). Chaque case du tableau contient les quatre statistiques suivantes : Frquence : somme du nombre de jours de vacances pris en t par les individus prsentant les deux modalits croises. Effectif : effectif ou poids correspondant au nombre dindividus prsentant les deux modalits croises. % ligne : pour chaque case dune ligne, il correspond leffectif pondr de la case sur leffectif total de la ligne. Pour chaque ligne, on obtient un pourcentage ligne total de 100%. % colonne : pour chaque case dune colonne, il correspond leffectif de la case sur leffectif total de la colonne. Pour chaque colonne, on obtient un pourcentage colonne total de 100%.

En ligne Sexe de la personne interroge En colonne Votre travail prsente-t-il des risques pour la sant ? Frequences de Nombre de jours de vacances en t beaucoup de reponse Frquences peu de risques aucun risque risques manquante Effectifs
% ligne % colonne

ENSEMBLE

masculin

1 033,0 77
13,2% 64,3%

1 981,0 123
25,3% 60,2%

1 927,0 129
24,6% 43,2%

2 894,0 140
36,9% 32,3%

7 835,0 469
100,0% 42,8%

fminin
5,5%

574,0 31
35,7%

1 308,0 69
12,5% 39,8%

2 536,0 147
24,2% 56,8%

6 058,0 284
57,8% 67,7%

10 476,0 531
100,0% 57,2%

ENSEMBLE

1 607,0 108
8,8% 100,0%

3 289,0 192
18,0% 100,0%

4 463,0 276
24,4% 100,0%

8 952,0 424
48,9% 100,0%

18 311,0 1 000
100,0% 100,0%

Interprtation Les 77 hommes, pour lesquels le travail prsente beaucoup de risques pour la sant, ont pris en tout 1033 jours de vacances en t.

17

Caractrisation automatique dune variable nominale (DEMOD)


Lintrt de cette procdure est de caractriser une variable nominale particulire en explorant automatiquement lensemble des liaisons quelle entretient avec toutes les autres variables du fichier, quelque soit leur type. Elle est particulirement adapte en vue de raliser un score, une segmentation ou encore une analyse discriminante. Cette procdure permet ldition de nombreux tableaux de rsultats dans un classeur Excel, qui par dfaut, ne sont pas tous dits. Le tableau suivant rsume les possibilits de caractrisation statistique proposes par la procdure DEMOD.

Elments caractriser

Elments caractrisants

Des groupes dindividus (dfinis par les modalits Les modalits de la variable nominale caractriser) Les variables nominales

En dautres termes, on dcrit chaque modalit de la variable Les variables continues caractriser par lensemble des lments caractrisants.

La variable nominale caractriser

Les modalits

On recherche parmi tous les lments caractrisants ceux Les variables nominales dont la liaison avec la variable nominale caractriser est la Les variables continues plus significative.

Un groupe dindividus est dfini par une modalit de la variable caractriser. Par exemple, les enquts qui ont rpondu oui la question La famille est le seul endroit o lon se sente bien constituent un groupe dindividus. Il y a donc autant de groupes dindividus que de modalits dans la variable caractriser. On parlera aussi de classe pour faire la distinction entre cette modalit caractriser et les modalits des variables caractrisantes. Fichier utilis : ASPI1000.SBA Paramtrage de la mthode : Dans cette exemple, la variable caractriser est la variable V1 La famille est le seul endroit o lon se sent bien ? . Toutes les autres variables du fichier, nominales et continues, sont slectionnes comme caractrisantes lexception du coefficient de pondration (V50).

1.

DEMOD-1 : Caractrisation de la variable par les variables nominales

La caractrisation dune variable nominale par les autres variables nominales sappuie sur les tableaux croisant la variable caractriser et les autres variables. On calcule la statistique du Khi-2 associe au croisement des deux variables et la probabilit de dpasser la valeur calcule (test du Khi-2). On associe une valeur-test cette probabilit. La valeurtest est la valeur de la loi normale centre rduite qui a la mme probabilit dtre dpasse.

18

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Le paramtre Nominales caractristiques ordonnes par valeurs-tests permet de lister les variables nominales par ordre dcroissant des valeurs-tests associes (les variables les plus caractristiques sont en tte). Sinon, elles seront listes dans lordre dapparition dans le fichier de base. Le tableau ci-aprs permet dvaluer les liaisons entre la variable nominale dcrire et les autres variables nominales. Ce tableau est constitu de 6 colonnes : Libell de la variable : libell complet de chacune des variables nominales. Khi-2 : statistique du Khi-2 associe au croisement de deux variables nominales. Nb. de degrs de libert : le nombre de degrs de libert de la loi du Khi-2 rsulte de la formule suivante : ( l -1 ) * ( c-1 ) o l et c sont les nombres de modalits de la variable caractrisante et de la variable nominale dcrire (y compris les modalits formes par les rponses manquantes). Effectifs thoriques infrieurs 5 : nombre de cases du tableau comportant un effectif thorique infrieur 5 (leffectif thorique est leffectif que lon aurait eu en cas dindpendance entre les 2 variables). Valeur-test : valeur-test associe chaque variable nominale caractrisante. Probabilit : probabilit relative au test du Khi-2.

Le tableau suivant a t tronqu.


Caractrisation par les questions de la variable La famille est le seul endroit o l'on se sente bien
Libell de la variable La famille est le seul endroit o l'on se sente bien Opinion propos du mariage La mre au foyer est un mode de garde ... Diplme de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu Etes-vous gn par les bruits ? Taille d'agglomration (en nombre d'habitants) Regardez-vous la tlvision ... Age de l'enqut(e) en 5 classes Age et sexe de l'enquteur La crche est un mode de garde ... Khi-2 2000,00 323,75 235,18 167,66 177,89 138,33 135,22 125,55 127,77 84,47 91,43 Nb. de degrs de libert 4 8 10 8 12 6 8 6 8 6 10 Effectifs thoriques infrieur 5 5 7 7 5 9 6 5 4 5 4 8 ValeurTest 99,99 99,99 99,99 11,74 11,65 10,78 10,34 10,19 9,99 8,05 7,81 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Interprtation La premire ligne du tableau correspond au croisement de la variable nominale avec ellemme. Les lignes suivantes indiquent que de toutes les variables, cest lopinion propos du mariage qui est la plus lie avec la variable caractriser. On trouve ensuite lopinion sur le mode de garde de la mre au foyer. Les valeurs-tests associes ces deux variables sont maximales (99.99). Les rsultats de ces tests sont prendre avec prcaution. Les tableaux croisant la variable nominale dcrire avec les deux variables prcdentes comportent 7 cases deffectifs thoriques infrieurs 5. On pourra vrifier avec ldition des tableaux quil sagit des cases dfinies par les donnes manquantes.

19

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

La caractrisation dune variable nominale par les variables nominales permet dobtenir ldition de tableaux de contingence dits dans la feuille Excel intitule DEMOD-2.

2.

DEMOD-2 : Tableaux croisant la variable dcrire avec les variables nominales

Dans longlet de paramtrage, il existe cinq items permettant de commander ldition de ces tableaux : Litem Non spcifie quaucun tableau ne sera dit (option par dfaut). Litem Tous dans lordre initial permet dditer tous les tableaux croiss dans lordre des variables nominales sur le fichier de base. Litem Tous dans lordre des valeurs-tests permet dditer ces tableaux dans lordre des valeurs-tests dcroissantes, cest--dire du plus caractristique au moins caractristique. Litem Nombre (50 par dfaut) fixe le nombre de tableaux croiss retenus. Les tableaux dits seront ceux dont la valeur-test associe est la plus leve. Litem Seuil donne en pourcentage le seuil de probabilit (1% par dfaut) au-dessous duquel les tableaux seront dits. Le tableau suivant est un exemple de tableau crois entre la variable nominale dcrire La famille est le seul endroit o lon se sente bien) et une variable nominale caractrisante Opinion sur le mariage .
Opinion propos du mariage Effectif % en ligne % en colonne 196 union indissoluble 84,8 34,9 226 dissout si pb. grave 66,1 40,3 127 dissout si accord 32,8 22,6 12 ne sait pas 30,8 2,1 0 *Reponse manquante* 0,0 0,0 561 Ensemble 56,1 100,0 43,1 100,0 431 0,8 0,0 0,0 8 0 100,0 12,5 64,1 5,8 1 100,0 0,1 1000 100,0 100,0 100,0 25 5,1 25,0 1 66,9 60,1 2 100,0 3,9 259 0,3 12,5 39 33,3 26,5 1 100,0 38,7 114 0,6 25,0 387 14,3 7,7 2 100,0 34,2 33 0,9 25,0 342 2 100,0 23,1 231 oui non *Reponse manquante* Ensemble

Ce tableau donne les pourcentage lignes et colonnes ainsi que leffectif de chaque case. Cet effectif est la somme des poids des individus de la case quand les individus ont des poids diffrents. Les pourcentages sont calculs sur les poids des individus des cases (cf. page 15). Interprtation 20

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

On lit dans ce tableau quil existe une sur-reprsentation des enquts pensant que lunion est indissoluble parmi ceux qui pensent que la famille est le seul endroit o lon se sent bien (34.9% contre 23.1% dans la population). Dautre part, les enquts estimant que le mariage doit tre dissous en cas daccord entre les deux parties sont nettement sous-reprsents (22.6% contre 38.7% dans la population).

3.

DEMOD-3 : Caractrisation dun groupe dindividus par les variables nominales

Pour caractriser un groupe dindividus par les variables nominales on procde de la manire suivante. On compare, laide de la statistique du Khi-2, le profil de la variable dans le groupe dindividus au profil global de la variable dans la population. A la probabilit critique relative au test, on associe une valeur-test. Celle-ci est le fractile de la loi normale centre rduite correspondant cette probabilit. Les variables nominales sont ensuite ranges par ordre dcroissant des valeurs-tests. Plus la valeur-test est grande, plus la variable nominale est caractristique du groupe dindividus. Trois modes ddition sont proposs dans les paramtres : Litem Toutes permet de lister lensemble des variables nominales caractrisantes dans lordre des valeurs-tests dcroissantes, cest--dire de la plus caractristique la moins caractristique. Litem Nombre (50 par dfaut) fixe le nombre de variables nominales diter pour chacune des modalits caractriser. Ce sont les variables dont la valeur-test est la plus leve (en valeur absolue). Litem Seuil (paramtre choisi dans lexemple) fixe le seuil de probabilit en pourcentage (1% par dfaut) au-dessous duquel les variables nominales sont dites. Cela correspond une valeur-test suprieure 2.32 en valeur absolue. Pour allonger la liste des variables diter, il suffit daugmenter ce seuil (2% par exemple).

Le tableau ci-aprs est constitu de 5 colonnes : Variables caractristiques : libell complet de la variable nominale caractrisante. Khi-2 : il sagit de la valeur de la statistique du Khi-2 associe au test de comparaison des deux profils. Cette statistique du Khi-2 dpend du poids des individus. Nb. de degrs de libert : cette colonne donne le nombre de degrs de libert de la loi du Khi-2. Ce nombre sobtient en prenant le nombre de modalits de la variable nominale caractrisante (y compris la modalit forme par les ventuelles rponses manquantes) moins un. Valeur-test : cette colonne indique la valeur-test associe chacune des variables. Probabilit : cette colonne donne la probabilit associe la statistique du Khi-2.

La premire ligne du tableau donne le libell de la modalit caractriser, ainsi que leffectif et le poids des individus dans cette modalit. Dans cet exemple, nous prsentons uniquement les rsultats de la modalit Oui. Rappelons que la variable caractriser est la variable V1 La famille est le seul endroit o lon se sent bien ? .

21

SPAD

Caractrisation automatique dune variable nominale (DEMOD)


Caractrisation par les questions des modalits de la variable La famille est le seul endroit o l'on se sente bien
oui (Poids = 561.000 Effectif = 561 ) Khi-2 439,00 82,52 70,06 74,54 56,77 50,66 51,72 42,99 36,94 39,75 15,24 19,99 21,97 21,51 16,27 21,00 13,45 23,24 14,12 11,59 Nb. de degrs de libert 2 4 4 6 4 3 4 5 3 6 1 3 4 4 2 4 2 7 3 2 ValeurTest 99,99 8,30 7,55 7,45 6,66 6,44 6,29 5,38 5,34 4,89 3,73 3,58 3,54 3,48 3,44 3,42 3,04 2,96 2,78 2,74 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,002 0,003 0,003 Variables caractristiques La famille est le seul endroit o l'on se sente bien Opinion propos du mariage Diplme de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu Taille d'agglomration (en nombre d'habitants) Regardez-vous la tlvision ... Age de l'enqut(e) en 5 classes La mre au foyer est un mode de garde ... Age et sexe de l'enquteur Heure de coucher Parcipation une action de dfense de l'environnement Statut d'occupation du logement en 4 classes Type d'emploi La prservation de l'environnement est une chose ... Vous arrive-t-il d'inviter des amis djeuner ? Statut d'occupation du logement Avez-vous des conflits (travail et vie personnelle) ? Profession de l'enqut(e) en 7 classes L'enqut(e) s'est-il (elle) montr(e) intress(e) ? Possession ou usage d'une tlvision couleur

Interprtation La premire variable de ce tableau est la variable de la modalit caractriser. Sa valeurtest est trs grande. Elle est ramene un seuil maximal 99.99. Ceci est d au fait que la modalit caractriser appartient cette variable. La variable sur lopinion propos du mariage est celle dont le profil dans la classe est le plus diffrent du profil global dans lchantillon. Cest la variable nominale qui a la plus grande valeur-test. Cela signifie que les personnes qui pensent que la famille est le seul endroit o lon se sente bien nont pas la mme opinion propos du mariage que lensemble des enquts de lchantillon.

4.

DEMOD-4 : Caractrisation dune variable nominale par les modalits

On compare, pour chaque modalit caractrisante, le profil global de la variable caractriser au profil de cette variable pour les individus de la modalit. Cette comparaison est effectue laide de la statistique du Khi-2. On associe une valeur-test la probabilit associe la statistique du Khi-2 et on range les modalits par ordre dcroissant des valeurs-tests. La valeur-test est le fractile de la loi normale centre rduite correspondant cette probabilit. Ldition des modalits les plus caractristiques suit la mme logique que dans le cas de la caractrisation par les variables nominales. Trois items sont proposs : Toutes, Nombre et Seuil (option choisie dans lexemple). Le tableau suivant liste les modalits qui caractrisent le plus la variable nominale La famille est le seul endroit o lon se sente bien . Afin de limiter la longueur de ce tableau, on ne publie ici que les modalits dont la valeur-test est suprieure 5. Ce tableau est constitu de 6 colonnes : Libell des variables : libell complet de la variable. Modalits caractrisantes : libell complet de la modalit caractrisante. 22

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Khi-2 : statistique du Khi-2 associe au test de comparaison des deux profils. La statistique du Khi-2 est calcule avec les poids des individus. Lorsque les individus ont un poids uniforme, on utilise les effectifs. Valeur-test : valeur-test de chacune des modalits caractrisantes. Probabilit : probabilit associe la statistique du Khi-2. Poids : poids des individus de la modalit caractrisante.

Tous les Khi-2 du tableau ont 2 degrs de libert. En effet la variable La famille est le seul endroit o lon se sente bien possde deux modalits ( oui et non ), et les rponses manquantes forment une troisime modalit.

Caractrisation par les modalits de la variable La famille est le seul endroit o l'on se sente bien
Libell des variables La famille est le seul endroit o l'on se sente bien La famille est le seul endroit o l'on se sente bien Opinion propos du mariage Opinion propos du mariage Taille d'agglomration (en nombre d'habitants) Diplme d'enseignement gnral le plus lev obtenu Diplme de l'enqut(e) en 5 classes Regardez-vous la tlvision ... Age de l'enqut(e) en 5 classes Age et sexe de l'enquteur Diplme d'enseignement gnral le plus lev obtenu Age de l'enqut(e) en 5 classes Taille d'agglomration (en nombre d'habitants) La mre au foyer est un mode de garde ... Diplme d'enseignement gnral le plus lev obtenu Diplme de l'enqut(e) en 5 classes Diplme de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu Nombre d'enfants considr comme idal Regardez-vous la tlvision ... Diplme de l'enqut(e) en 5 classes Parcipation une action de dfense de l'environnement Modalits caractristiques non oui dissout si accord union indissoluble Paris universit,gde cole Universit,gde cole tous les jours 65 ans et plus femme plus 38 ans baccalaurat (1/2) Moins de 25 ans moins de 2.000 assez satisfaisant aucun Aucun CEP ou fin tudes CEP ou fin tudes aucun jamais Bac - Brevet sup. oui Khi-2 569,00 439,00 89,79 78,54 70,26 63,09 61,19 59,22 43,08 41,10 40,69 40,35 39,59 37,61 35,88 35,88 35,49 35,49 35,36 34,88 33,31 30,67 ValeurTest 99,99 99,99 9,14 8,51 8,01 7,56 7,44 7,31 6,13 5,97 5,94 5,91 5,85 5,68 5,53 5,53 5,49 5,49 5,48 5,44 5,30 5,05 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 Poids 431,00 561,00 387,00 231,00 326,00 142,00 150,00 419,00 169,00 338,00 162,00 150,00 83,00 129,00 189,00 189,00 321,00 321,00 51,00 124,00 182,00 126,00

Interprtation Les deux premires lignes du tableau concernent les propres modalits de la variable caractriser. Ce sont bien sr les plus caractristiques (valeurs-tests bornes la valeur maximale 99.9). Les modalits dissous si accord et union indissoluble de la variable Opinion propos du mariage sont ensuite les modalits qui caractrisent le plus la variable La famille est le seule endroit o lon se sente bien .

5.

DEMOD-5 : Caractrisation dun groupe dindividus par les modalits (Tri par valeurs-tests)

On recherche les modalits des variables caractrisantes (par exemple le sexe de la personne interroge) qui caractrisent le plus la modalit dcrire (par exemple le groupe des individus qui ont rpondu oui la question sur la famille). On examine par exemple sil y a une sur-reprsentation des hommes chez les enquts qui ont rpondu oui la question sur la famille. 23

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Il sagit dvaluer lcart entre le pourcentage de la modalit caractrisante dans la classe (i.e. la modalit caractriser) et le pourcentage de cette modalit dans la population globale. Pour chacune des modalits des variables nominales, le logiciel calcule la probabilit dobserver un cart au moins aussi grand que celui qui sest ralis, dans lhypothse o la modalit serait distribue dans la classe comme dans la population. Cette probabilit value en quelque sorte limportance de lcart entre les deux pourcentages. Plus la probabilit est faible, plus lcart est jug significatif et plus la valeur-test associe cette probabilit est forte (la valeur-test est le fractile de la loi normale correspondant la mme probabilit). Dans le menu Options, on trouve les deux paramtres suivants : le Poids relatif minimal dune modalit et les Modalits conserves. Le paramtre Poids relatif minimal dune modalit permet dcarter de ldition les modalits dont le poids en pourcentage est jug trop faible (2% par dfaut). Seules les modalits dont le poids est suprieur ce pourcentage seront utilisables. Si lon choisit le paramtre Pourcentage de la modalit dans le groupe comme critre de tri des modalits, cette option ne sapplique pas. Litem Si sur-reprsentes du paramtre Modalits conserves permet de ne retenir que les modalits dont le pourcentage dans le groupe est plus lev que le pourcentage dans la population totale. Litem Si sur ou sous-reprsentes (item choisi ici) permet de retenir les modalits sur et sous-reprsentes. En effet, les modalits rares dun groupe peuvent avoir de lintrt : on caractrise le groupe par les items qui y sont sous-reprsents. Le tableau donnant la caractrisation dun groupe dindividus par les modalits varie selon le critre de tri et de slection des modalits adopt dans le paramtrage. Lors du paramtrage, il convient de choisir lun des critres de tri suivants : Valeur-test, Pourcentage de la modalit dans le groupe (Sortie DEMOD-6) ou Pourcentage du groupe dans la modalit (Sortie (DEMOD-7). Le paramtre Valeur-test permet dditer les modalits caractristiques les plus marquantes pour chaque modalit de la variable nominale caractriser. Par dfaut, le logiciel slectionne les modalits dont la valeur-test est suprieure 2 en valeur absolue (seuil de 1% ou probabilit critique 0.01). Ce tableau se dcompose en 8 colonnes : Libell de la variable : libell complet de la variable dont la modalit caractrisante est issue. Modalit caractrisante : libell complet de la modalit caractrisante. % de la modalit dans la classe : quivaut leffectif de la modalit dans la classe divis par leffectif de la classe. % de la modalit dans lchantillon : quivaut leffectif de la modalit dans la population globale divis par leffectif de lensemble de la population. % de la classe dans la modalit : quivaut leffectif de la modalit dans la classe divis par leffectif de la modalit dans la population globale. Les effectifs sont des poids si les individus sont pondrs. En ralit, les pourcentages prcdents sont calculs partir du poids des individus. Les rsultats seront diffrents si le poids des individus est uniforme (comme cest le cas ici) ou si les individus ont des poids diffrents. Valeur-test : cette colonne donne la valeur-test associe chacune des modalits.

24

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Lorsque la valeur-test est positive, cela signifie que la modalit est sur-reprsente dans la classe. La modalit est sous-reprsente si la valeur-test est ngative. Si la variable caractrisante a seulement 2 modalits et pas de donnes manquantes, les valeurs-tests associes sont opposes et gales en valeur absolue. Probabilit : cette colonne donne la probabilit associe la valeur-test. Poids : il sagit du poids des individus dans la modalit caractrisante : effectif si le poids des individus est uniforme (comme cest le cas ici) et somme des poids des individus si ceux-ci ont des poids diffrents.

Les modalits caractrisantes sont ranges par valeur-test dcroissante (option par dfaut). Les modalits les plus caractristiques pour lesquelles la valeur-test est la plus grande (et o la probabilit est la plus faible) seront dites en premier (pour rduire lencombrement, seules les modalits dont la valeur-test est suprieure 6 en valeur absolue ont t conserves).
Caractrisation par les modalits des classes de la variable La famille est le seul endroit o l'on se sente bien
Classe: oui (Effectif: Libells des variables La famille est le seul endroit o l'on se sente bien Opinion propos du mariage Regardez-vous la tlvision ... La mre au foyer est un mode de garde ... Age et sexe de l'enquteur Diplme d'enseignement gnral le plus lev obtenu Diplme de l'enqut(e) en 5 classes Age de l'enqut(e) en 5 classes Taille d'agglomration (en nombre d'habitants) Diplme d'enseignement gnral le plus lev obtenu Diplme de l'enqut(e) en 5 classes Diplme de l'enqut(e) en 5 classes Statut d'occupation du logement Statut d'occupation du logement en 4 classes La mre au foyer est un mode de garde ... Age de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu La prservation de l'environnement est une chose ... Age et sexe de l'enquteur Diplme de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu Taille d'agglomration (en nombre d'habitants) Opinion propos du mariage La famille est le seul endroit o l'on se sente bien Profession de l'enqut(e) (ou dernire exerce) Age et sexe de l'enquteur 561 - Pourcentage: 56.10) Modalits caractristiques oui union indissoluble tous les jours trs satisfaisant femme plus 38 ans CEP ou fin tudes CEP ou fin tudes 65 ans et plus moins de 2.000 aucun Aucun Bac - Brevet sup. locataire locataire assez satisfaisant Moins de 25 ans baccalaurat (1/2) trs importante femme moins 39 ans Universit,gde cole universit,gde cole Paris dissout si accord non salari agricole inconnu % de la classe % de la % de la dans la modalit dans modalit dans modalit l'chantillon la classe 100,00 34,94 55,79 89,48 44,21 41,53 41,53 24,06 13,37 25,85 25,85 11,41 43,49 43,49 6,77 8,38 9,09 56,51 42,60 6,77 6,06 19,25 22,64 0,00 0,00 0,00 56,10 23,10 41,90 78,60 33,80 32,10 32,10 16,90 8,30 18,90 18,90 18,20 52,30 52,30 12,90 15,00 16,20 65,70 52,60 15,00 14,20 32,60 38,70 43,10 0,00 0,00 100,00 84,85 74,70 63,87 73,37 72,59 72,59 79,88 90,36 76,72 76,72 35,16 46,65 46,65 29,46 31,33 31,48 48,25 45,44 25,33 23,94 33,13 32,82 0,00 0,00 0,00 ValeurTest 36,81 10,44 10,15 9,46 7,92 7,26 7,26 6,99 6,97 6,43 6,43 -6,20 -6,26 -6,26 -6,45 -6,55 -6,82 -6,94 -7,13 -8,20 -8,32 -10,15 -11,81 -35,71 -99,99 -99,99 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 Poids 561 231 419 786 338 321 321 169 83 189 189 182 523 523 129 150 162 657 526 150 142 326 387 431 0 0

Interprtation Tout dabord, on sintresse aux modalits sur-reprsentes dans le groupe dindividus dfinis par la modalit oui de la question sur la famille. La modalit qui caractrise le mieux ce groupe dindividus est la modalit caractriser ellemme. La valeur-test associe fixe la limite suprieure de toute valeur-test dans le contexte de cette variable. On note que la modalit union indissoluble de la variable Opinion propos du mariage est celle qui caractrise le mieux la variable dcrire (valeur-test la plus leve). Parmi les enquts qui pensent que la famille est le seul endroit o lon se sente bien, 34.9% (% de la modalit dans la classe) pensent que lunion est indissoluble. Seulement 23.1% de lchantillon (% de la modalit dans lchantillon) a cette opinion propos du mariage. De plus, 84.8% (% de la classe dans la modalit ) des enquts qui pensent que le mariage est indissoluble se trouvent dans cette classe.

25

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Si lon regarde les modalits des variables caractrisantes qui sont sous-reprsentes, on remarque que celle qui caractrise le mieux la modalit dcrire (valeur-test la plus ngative) est la modalit dissous si accord de la question sur lopinion propos du mariage. Seulement 22.6% des enquts estimant que la famille est le seul endroit o lon se sente bien pensent que le mariage doit tre dissous si accord contre 38.7% dans lchantillon interrog (Valeur-test = -11.81).

6.

DEMOD-6 : Caractrisation dun groupe dindividus par les modalits (Tri par % de la modalit dans le groupe)

Cette sortie est en tout point identique la sortie DEMOD-5 lexception du mode de tri des modalits caractrisantes. Le paramtre Pourcentage de la modalit dans le groupe permet de lister les modalits les plus consensuelles de la classe. Ce sont les modalits qui, parmi les modalits caractristiques, sont les mieux reprsentes dans la classe (recouvrement maximum de la classe). Une faon de typer un groupe dindividus est en effet de regarder les modalits les plus frquentes dans la classe (pourcentage de la modalit dans la classe). En effet, si tous les individus dun groupe possdent une certaine modalit, on peut sattendre ce que cette modalit soit une caractristique de ce groupe. On liste les modalits par ordre dcroissant de leur importance dans le groupe dindividus dcrire. On prendra garde cependant quune modalit peut tre trs frquente dans un groupe dindividus sans pour autant tre caractristique de ce groupe. Une modalit qui est possde par 90% de la population globale et par 90% du groupe considr nest videmment pas caractristique du groupe. Cest pourquoi il convient de se restreindre aux modalits dclares caractristiques au vu du critre de la valeur-test (celles qui ont par exemple une valeur-test suprieure 2 en valeur absolue). Ce tableau se dcompose en 7 colonnes : Libell de la variable : libell complet de la variable dont la modalit caractrisante est issue. Modalit caractrisante : libell complet de la modalit caractrisante. % de la modalit dans la classe : quivaut leffectif de la modalit dans la classe divis par leffectif de la classe. % de la modalit dans lchantillon : quivaut leffectif de la modalit dans la population globale divis par leffectif de lensemble de la population. Les effectifs sont des poids si les individus sont pondrs. En ralit, les pourcentages prcdents sont calculs partir du poids des individus. Les rsultats seront diffrents si le poids des individus est uniforme (comme cest le cas ici) ou si les individus ont des poids diffrents. Valeur-test : cette colonne donne la valeur-test associe chacune des modalits. Lorsque la valeur-test est positive, cela signifie que la modalit est sur-reprsente dans la classe. La modalit est sous-reprsente si la valeur-test est ngative. Si la variable caractrisante a seulement 2 modalits et pas de donnes manquantes, les valeurs-tests associes sont opposes et gales en valeur absolue. Probabilit : cette colonne donne la probabilit associe la valeur-test.

26

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Poids : il sagit du poids des individus dans la modalit caractrisante : effectif si le poids des individus est uniforme (comme cest le cas ici) et somme des poids des individus si ceux-ci ont des poids diffrents.

On sest limit aux modalits dont le pourcentage dans la classe est suprieur 50%.
La famille est le seul endroit o l'on se sente bien
La classe: oui (Effectif: Libells des variables La famille est le seul endroit o l'on se sente bien Parcipation une action de dfense de l'environnement Possdez vous des biens immobiliers ? Faites-vous partie d'une association confessionnelle ? La mre au foyer est un mode de garde ... A souffert d'tat dpressif ces quatre dernires semaines : Possdez vous des valeurs mobilires ? Possession ou usage d'une machine laver la vaisselle A souffert de nervosit ces quatre dernires semaines : La socit francaise a-t-elle besoin de se transformer ? Etes-vous gn par les bruits ? Compare aux personnes de votre ge, votre sant est ... La vue sur l'extrieur vous plat-elle ? La prservation de l'environnement est une chose ... Regardez-vous la tlvision ... Possession ou usage d'une tlvision couleur A qui incombent les travaux mnagers et les soins enfants ? L'enqut(e) s'est-il (elle) montr(e) intress(e) ? Opinion sur le cadre de vie quotidien Vous arrive-t-il d'inviter des amis djeuner ? Les dcouvertes scientifiques amliorent-elles la vie ? Sexe de la personne interroge Vous imposez-vous rgulirement des restrictions ? Appartenance au moins une association Les dpenses de logement sont pour vous ... 561 - Pourcentage: 56.10) contient ... Modalits caractristiques oui non non non trs satisfaisant non non non non oui pas du tout satisfaisante beaucoup trs importante tous les jours non homme et femme assez satisfait souvent oui, un peu fminin oui non pas de gros problme % de la % de la modalit dans modalit dans la classe l'chantillon 100,00 92,87 92,87 92,34 89,48 89,30 88,24 78,97 76,47 71,30 65,24 62,39 57,22 56,51 55,79 55,44 55,08 55,08 54,19 52,76 52,23 51,34 51,34 50,62 50,45 56,10 87,40 91,80 93,10 78,60 87,40 87,90 78,90 72,60 75,90 60,60 60,00 51,60 65,70 41,90 62,40 59,90 54,20 54,90 60,60 50,90 53,10 56,90 46,40 44,40 ValeurTest 36,81 5,80 1,28 -0,95 9,46 1,95 0,27 0,02 3,02 -3,80 3,33 1,68 3,96 -6,94 10,15 -5,10 -3,46 0,57 -0,45 -5,71 0,89 -1,20 -3,96 2,97 4,30 Probabilit 0,000 0,000 0,101 0,170 0,000 0,026 0,393 0,493 0,001 0,000 0,000 0,047 0,000 0,000 0,000 0,000 0,000 0,285 0,328 0,000 0,188 0,115 0,000 0,002 0,000 Poids 561 874 918 931 786 874 879 789 726 759 606 600 516 657 419 624 599 542 549 606 509 531 569 464 444

Interprtation On compare la colonne % de la modalit dans la classe avec la colonne % de la modalit dans lchantillon. Le groupe dindividus caractriser est constitu des enquts qui ont rpondu oui la question sur la famille (la premire ligne du tableau indique que 100% des individus de ce groupe ont rpondu oui cette question). La seconde ligne du tableau se lit de la faon suivante. Il y a 92.9% des individus du groupe ont rpondu non la question Participation une action de dfense de lenvironnement alors quon en trouve en moyenne seulement 87.4% dans lensemble de la population. Cest la modalit la plus consensuelle. La valeur-test de 5.80 associe cette variable mesure de limportance de cet cart entre les pourcentages.

7.

DEMOD-7 : Caractrisation dun groupe dindividus par les modalits (Tri par % du groupe dans la modalit)

Cette sortie est en tout point identique aux deux sorties prcdentes (DEMOD-5 et DEMOD6) lexception du mode de tri des modalits caractrisantes. Le paramtre Pourcentage du groupe dans la modalit permet de lister les modalits les plus exclusives de la classe. Ce sont les modalits qui, parmi les modalits caractristiques, sont essentiellement dans cette classe et peu dans les autres (dbordement minimum hors de la classe). Une faon de typer un groupe dindividus est de regarder les modalits qui sont bien reprsentes dans le groupe et peu en dehors de ce groupe : ce sont les exclusivits de la classe. On liste les modalits par ordre dcroissant de leur degr dexclusivit : le pourcentage de la classe dans la modalit.

27

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Il nest pas suffisant quune modalit soit majoritaire dans un groupe dindividus (donc minoritaire lextrieur) pour tre une exclusivit caractristique de ce groupe. Avec par exemple seulement 40% dans le groupe dindividus, la modalit peut tre caractristique de ce groupe lorsque les 60% restant sont disperss au hasard dans 3 autres groupes raison de 20% par groupe. Cest pourquoi, dans le tableau suivant, on se restreint aux modalits caractristiques, slectionnes par les valeurs-tests. Elles permettent de contrler limportance de la modalit correspondante pour caractriser la classe. Ce tableau se dcompose en 6 colonnes : Libell de la variable : libell complet de la variable dont la modalit caractrisante est issue. Modalit caractrisante : libell complet de la modalit caractrisante. % de la classe dans la modalit : quivaut leffectif de la modalit dans la classe divis par leffectif de la modalit dans la population globale. Les effectifs sont des poids si les individus sont pondrs. Valeur-test : cette colonne donne la valeur-test associe chacune des modalits. Lorsque la valeur-test est positive, cela signifie que la modalit est sur-reprsente dans la classe. La modalit est sous-reprsente si la valeur-test est ngative. Si la variable caractrisante a seulement 2 modalits et pas de donnes manquantes, les valeurs-tests associes sont opposes et gales en valeur absolue. Probabilit : cette colonne donne la probabilit associe la valeur-test. Poids : il sagit du poids des individus dans la modalit caractrisante : effectif si le poids des individus est uniforme (comme cest le cas ici) et somme des poids des individus si ceux-ci ont des poids diffrents.

Le tableau suivant donne les modalits des variables caractrisantes dont la part dans le groupe est suprieure 70% (% de la classe dans la modalit). On sest galement limit aux modalits dont la valeur-test est suprieure 2 (seuil de 1%).

Caractrisation par les modalits des classes de la variable La famille est le seul endroit o l'on se sente bien
Appartiennent la classe: oui (Effectif: Libells des variables La famille est le seul endroit o l'on se sente bien Profession de l'enqut(e) (ou dernire exerce) Taille d'agglomration (en nombre d'habitants) Age et sexe de l'enquteur Heure de coucher Opinion propos du mariage A qui incombent les travaux mnagers et les soins enfants ? Age de l'enqut(e) en 5 classes La prservation de l'environnement est une chose ... Type d'emploi Diplme d'enseignement gnral le plus lev obtenu Diplme de l'enqut(e) en 5 classes Vous arrive-t-il d'inviter des amis djeuner ? Regardez-vous la tlvision ... Profession de l'enqut(e) (ou dernire exerce) Age et sexe de l'enquteur Profession de l'enqut(e) en 7 classes Diplme de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu Statut d'occupation du logement Statut d'occupation du logement en 4 classes Evolution du niveau de vie des franais depuis 10 ans La crche est un mode de garde ... La prservation de l'environnement est une chose ... Taille d'agglomration (en nombre d'habitants) 561 - Pourcentage: 56.10) Modalits caractristiques oui exploitant agricole moins de 2.000 homme plus 38 ans 21h. ou avant union indissoluble incombent la femme 65 ans et plus peu importante Autres aucun Aucun jamais tous les jours ouvrier spcialis femme plus 38 ans ex. agr.-art-commer CEP ou fin tudes CEP ou fin tudes propritaire propritaire beaucoup mieux ne sait pas assez importante 2.000 - 20.000 % de la classe dans la modalit 100,00 90,63 90,36 85,71 84,93 84,85 83,33 79,88 77,78 77,08 76,72 76,72 75,00 74,70 74,49 73,37 72,63 72,59 72,59 70,69 70,69 70,51 70,50 70,47 70,11 ValeurTest 36,81 4,11 6,97 3,61 5,31 10,44 3,64 6,99 2,57 2,93 6,43 6,43 4,46 10,15 3,84 7,92 3,37 7,26 7,26 5,95 5,95 2,59 3,65 5,97 2,68 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,005 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,005 0,000 0,000 0,004 Poids 561 32 83 35 73 231 42 169 36 48 189 189 120 419 98 338 95 321 321 290 290 78 139 298 87

28

SPAD Interprtation

Caractrisation automatique dune variable nominale (DEMOD)

On note sur la premire ligne que 100% des enquts qui ont rpondu oui la question sur la famille se trouvent dans cette classe puisque le groupe est constitu par les individus qui ont choisi la modalit oui cette question. La seconde ligne du tableau se lit de la faon suivante. 90.6% des enquts exploitants agricoles sont rassembls dans cette classe. Les autres sont rpartis en dehors de la classe. Cest la modalit la plus exclusive. La valeur-test 4.11 permet de juger de lintrt de cette profession pour caractriser cette classe. On lit sur la sixime ligne du tableau que 84.8% des individus qui ont choisi litem union indissoluble la question opinion sur le mariage sont rassembls dans le groupe dindividus. Les autres sont rpartis en dehors de ce groupe. La valeur-test 10.44 montre lintrt de cet item pour caractriser le groupe (plus caractristique bien que moins exclusive que la prcdente).

8.

DEMOD-11 : Caractrisation dune variable nominale par les variables continues

Pour chaque variable continue caractrisante, on calcule la statistique de Fisher associe lanalyse de la variance o la variable continue est la variable expliquer et la variable nominale dcrire est le facteur. Pour chacune de ces statistiques de Fisher, on calcule la probabilit associe. La valeur-test est la valeur de la loi normale centre rduite qui a la mme probabilit dtre dpasse. Lanalyse de la variance o la variable continue est la mieux prvisible laide du facteur correspond celle o la statistique de Fisher est la plus significative. Le paramtre Continues ordonnes par valeur-test dcroissante permet de lister les variables continues caractrisantes par ordre dcroissant des valeurs-tests associes (cest-dire, les plus caractristiques en tte). Sinon, elles sont listes dans lordre dapparition dans le fichier de base. Le tableau est constitu de 5 colonnes : Libell de la variable : numro, libell complet et abrg de chaque variable continue. Fisher : statistique de Fisher associe lanalyse de la variance o la variable expliquer est la variable continue caractrisante et le facteur est la variable nominale caractriser. Nb. de degrs de libert : cette colonne indique le nombre de degrs de libert du dnominateur. Ce nombre correspond au second paramtre de la loi de Fisher. Il sagit du nombre dindividus qui se sont exprims sur la variable continue moins le nombre de modalits de la variable nominale dcrire (y compris la modalit forme par les rponses manquantes). Valeur-test : valeur-test associe chaque variable continue. Probabilit : probabilit associe la statistique de Fisher.

Le tableau suivant liste les variables continues les plus caractristiques de la variable nominale dcrire, ici La famille est le seule endroit o lon ses sente bien .

29

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Caractrisation par les variables continues de la variable La famille est le seul endroit o l'on se sente bien
Libell de la variable Age de fin d'tude Age de l'enqut(e) Nombre de non-rponses au questionnaire Nombre de jours de vacances en t Estimation du revenu minimum d'une famille de 2 enfants Revenu personnel souhait Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Fisher 96,13 67,91 35,65 20,88 14,81 14,12 1,32 1,31 Nb. de degrs Valeur-Test de libert 994 13,00 997 10,99 997 7,93 997 5,96 894 4,91 912 4,78 803 0,63 710 0,62 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,264 0,266

Le premier paramtre de la loi de Fisher (numrateur) est identique pour toutes les variables continues puisquil sagit du nombre de modalits de la variable dcrire (y compris la modalit forme par les rponses manquantes) moins un. Interprtation Les variables Age de fin dtudes et Age de lenqut sont donc les deux variables continues les plus lies lopinion La famille est le seul endroit o lon se sente bien . Le paramtre Tableaux de moyennes permet de demander ldition des statistiques principales (moyenne et cart-type notamment) de la variable continue. Il y aura autant de tableaux dits que de variables continues caractrisantes.

9.

DEMOD-12 : Statistiques par modalit des variables continues (Tableaux de moyennes)

Ldition de ces tableaux est commande par les mmes paramtres que ldition des tableaux croiss. On ne prsentera ici que le tableau relatif la variable Age de lenqut(e) . Ce tableau est constitu de 7 colonnes : Modalits : libell complet de chacune des modalits de la variable nominale dcrire (y compris celle forme par les rponses manquantes). Effectif : effectif des individus dans la modalit pour les individus qui ont une valeur sur la variable continue. Poids : effectif pondr des individus dans la modalit pour les individus qui ont une valeur sur la variable continue. Moyenne : moyenne pondre de la variable continue dans la modalit. Ecart-type : cart-type pondr de la variable continue dans la modalit. Minimum : minimum de la variable continue dans la modalit. Maximum : maximum de la variable continue dans la modalit.

La dernire ligne du tableau donne les statistiques calcules sur lensemble de lchantillon.

30

SPAD
Age de l'enqut(e) Modalits oui non *Reponse manquante* Ensemble

Caractrisation automatique dune variable nominale (DEMOD)

Effectif 561 431 8 1000

Poids 561,00 431,00 8,00 1000,00

Moyenne 47,897 35,729 51,375 42,680

Ecart-type Minimum 17,591 18,000 14,704 18,000 18,069 27,000 17,496 18,000

Maximum 90,000 84,000 81,000 90,000

Interprtation Les personnes qui pensent que la famille est le seul endroit o lon se sente bien ont en moyenne 47.9 ans, contre 42.7 ans dans lensemble de lchantillon. Les personnes dont lopinion est inverse ont en moyenne 35.7 ans.

10. DEMOD-13 : Caractrisation dun groupe dindividus par les variables continues
Une variable continue caractrise un groupe dindividus si sa moyenne dans la modalit de la variable dcrire diffre significativement de la moyenne gnrale de la variable dans la population. Le test mis en uvre pour valuer lcart entre les deux moyennes est un test non-paramtrique de comparaison de moyennes. Plus la valeur-test associe est grande, plus lcart est significatif et plus la variable est caractristique (voir lAnnexe A consacre aux valeurs-tests). Les variables continues sont classes dans lordre dcroissant des valeurs-tests. Pour ldition des moyennes caractristiques dun groupe, les paramtres sont les mmes que dans le cas de la caractrisation dun groupe dindividus par les variables nominales : Toutes, Nombre et Seuil (option choisie dans lexemple). Le tableau suivant liste les variables continues pour lesquelles les moyennes dans la classe (dfinie par la modalit dcrire) sont les plus diffrentes des moyennes gnrales dans lchantillon.

Caractrisation par les variables continues des modalits de la variable La famille est le seul endroit o l'on se sente bien
oui (Poids = 561.00 Effectif = 561 ) Moyennes dans la modalit 47,897 4,643 6537,470 5169,370 15,013 15,937 Moyenne gnrale 42,680 4,054 7244,480 5561,890 18,311 17,286 Ecart-type dans la modalit 17,591 4,195 3512,310 1847,980 17,930 3,496 Ecart-type Valeur-Test Probabilit gnral 17,496 4,190 4756,780 2423,400 19,367 3,883 10,65 5,03 -5,10 -5,36 -6,09 -12,38 0,000 0,000 0,000 0,000 0,000 0,000 Variables caractristiques Age de l'enqut(e) Nombre de non-rponses au questionnaire Revenu personnel souhait Estimation du revenu minimum d'une famille de 2 enfants Nombre de jours de vacances en t Age de fin d'tude

Ce tableau se compose de 5 colonnes : Variables caractristiques : libell complet des variables continues caractristiques. Moyennes dans la modalit : moyenne pondre du groupe dindividus pour chaque variable continue. Moyenne gnrale : moyenne pondre dans lchantillon pour chaque variable continue. 31

SPAD

Caractrisation automatique dune variable nominale (DEMOD)

Ecart-type dans la modalit : cart-type pondr des individus du groupe. Ecart-type gnral : cart-type pondr dans lchantillon. Valeur-test : valeur-test associe la variable continue. Probabilit : probabilit issue du test de comparaison de moyennes.

La premire ligne du tableau donne le libell complet de la modalit caractriser, ainsi que leffectif, le poids des individus dans la modalit. Interprtation On note que les variables Age de lenqut et Age de fin dtudes sont les deux variables continues les plus caractristiques de ce groupe dindividus. Cette classe se caractrise par des personnes plus ges que la moyenne et dont lge de fin dtudes est plus faible que la moyenne. Ainsi, les individus de cette classe ont 47.9 ans en moyenne contre 42.7 ans dans lchantillon. En moyenne, ils ont arrt leurs tudes 15.9 ans contre 17.3 pour lensemble de lchantillon.

32

Caractrisation automatique dune variable continue (DESCO)


La procdure DESCO permet dobtenir la caractrisation dune ou plusieurs variables continues en explorant lensemble des liaisons quelle entretient avec toutes les autres variables du fichier quelque soit leur type. Pour les rponses manquantes relatives une variable continue, les individus sont limins de lanalyse. Fichier utilis : ASPI1000.SBA Paramtrage de la mthode : on caractrise la variable Age de fin dtudes (V45). On slectionne toutes les variables nominales et continues caractrisantes lexception des variables nominales redondantes (V49, V51, V52 et V54) et du coefficient de pondration (V50).

1.

DESCO-1 : Caractrisation par les modalits

La caractrisation par les modalits permet de dtecter les modalits o la moyenne de la variable continue dcrire est notablement diffrente de la moyenne gnrale. Le logiciel effectue les calculs correspondant un test de comparaison de moyennes. Plus la valeur-test associe ce test est grande, plus la modalit est caractristique de la variable continue (ici lge de fin dtudes). Le tableau est constitu de 7 colonnes : Libell de la variable : libell complet de la variable nominale associe la modalit. Modalit caractristique : libell complet de la modalit. Moyenne : moyenne pondre de la variable continue pour les individus appartenant cette modalit. Ecart-type : cart-type pondr de la variable continue pour les individus appartenant cette modalit. Valeur-test : valeur-test issue du test de comparaison de moyennes. Probabilit : probabilit issue du test de comparaison de moyennes. Poids : poids de la modalit ou effectif si le poids des individus est uniforme.

Dans ce tableau, on a choisi de nditer que 10 modalits. Il sagit de celles qui ont la plus grande valeur-test en valeur absolue.

33

SPAD

Caractrisation automatique dune variable continue (DESCO)

Caractrisation par les modalits de la variable Age de fin d'tude Individus actifs ( 997.000)
Libell de la variable Diplme d'enseignement gnral le plus lev obtenu La famille est le seul endroit o l'on se sente bien Profession de l'enqut(e) (ou dernire exerce) Age de l'enqut(e) en 5 classes Diplme d'enseignement gnral le plus lev obtenu Heure de coucher Regardez-vous la tlvision ... Diplme d'enseignement gnral le plus lev obtenu La famille est le seul endroit o l'on se sente bien Diplme d'enseignement gnral le plus lev obtenu Modalit caractristique Ensemble universit,gde cole non cadre suprieur 25 34 ans baccalaurat (1/2) entre 23h. et 24h. tous les jours aucun oui CEP ou fin tudes Moyenne Ecart-type 17,29 23,32 19,08 22,83 18,94 19,63 19,79 15,74 14,40 15,94 14,82 3,88 2,97 3,65 3,82 3,75 2,08 4,20 3,35 2,98 3,50 1,77 ValeurTest 19,98 12,69 12,28 8,49 8,39 8,02 -10,64 -11,22 -12,38 -13,80 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 Poids 997,00 142,00 430,00 69,00 284,00 162,00 134,00 416,00 186,00 559,00 321,00

La premire ligne du tableau donne la moyenne pondre, lcart-type pondr et le nombre dindividus renseigns (poids) pour lge de fin dtudes. Interprtation On note que les enquts diplms dune universit ou dune grande cole ont un ge moyen de fin dtudes (23.3 ans) trs nettement suprieur la moyenne (17.3 ans). A linverse, les enquts titulaires dun certificat dtudes primaires (CEP) ou de fin dtudes ont un ge moyen de fin dtudes (14.8 ans) nettement infrieur la moyenne (17.3 ans).

2.

DESCO-2 : Caractrisation par les variables nominales

Cette caractrisation permet de dterminer les variables nominales lies la variable continue dcrire. Le logiciel effectue toutes les analyses de variance o la variable expliquer est la variable continue caractriser et le facteur est chaque variable nominale prise successivement. Pour comparer entre elles les statistiques de Fisher issues de ces analyses, on les transforme en valeurs-tests. Ces valeurs-tests sont les fractiles de la loi normale centre rduite correspondant aux mmes probabilits critiques. La variable nominale sera dautant plus caractristique que la valeur-test sera grande. Ce tableau se compose de 5 colonnes : Libell de la variable : libell complet de la variable nominale. Nombre de degrs de libert : cette colonne indique un nombre de degrs de libert. Ces degrs de libert correspondent au second paramtre de la loi de Fisher. Il sagit du nombre dindividus qui se sont exprims sur la variable nominale et qui possdent une valeur pour la variable continue, moins le nombre de modalits de cette variable. Le premier paramtre de cette loi est le nombre de modalits de la variable nominale caractrisante moins un. Fisher : statistique de Fisher associe chacune des variables nominales. Valeur-test : valeur-test de la variable nominale, transformation de la statistique de Fisher issue de lanalyse de la variance.

34

SPAD

Caractrisation automatique dune variable continue (DESCO)

Probabilit : cette colonne donne pour chaque variable nominale la probabilit associe la statistique de Fisher.

Dans le tableau de rsultats suivant, on ndite que les 10 variables nominales les plus caractristiques de la variable Age de fin dtudes .

Caractrisation par les variables nominales de la variable Age de fin d'tude


Libell de la variable Diplme d'enseignement gnral le plus lev obtenu Profession de l'enqut(e) (ou dernire exerce) La famille est le seul endroit o l'on se sente bien Age de l'enqut(e) en 5 classes Heure de coucher Regardez-vous la tlvision ... Vous arrive-t-il d'inviter des amis djeuner ? La prservation de l'environnement est une chose ... Parcipation une action de dfense de l'environnement Taille d'agglomration (en nombre d'habitants) Nombre de Degrs de libert 990 979 994 992 990 993 994 992 995 992 Fisher 308,65 30,96 96,13 40,94 28,55 48,81 37,43 15,84 47,64 14,28 Valeur-Test 31,84 18,85 13,00 11,68 11,64 11,21 8,14 6,99 6,82 6,58 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Interprtation Il existe naturellement une forte liaison entre lge de fin dtudes et le diplme denseignement le plus lev. En fonction de la profession exerce, il semble que lon observe galement des diffrences significatives au niveau de lge moyen de fin dtudes. On note galement sur ce tableau les liens qui existent entre lge de fin dtudes et lheure habituelle de coucher ou avec les rponses la question La famille est le seul endroit o lon se sent bien ? .

3.

DESCO-3 : Statistiques sommaires des variables continues

Les statistiques sommaires des variables continues slectionnes pour lanalyse sont dites dans un tableau identique celui dcrit page 11 pour les variables continues de la mthode STATS.
Statistiques sommaires des variables continues
Libell de la variable Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Age de l'enqut(e) Nombre de non-rponses au questionnaire Age de fin d'tude Revenu personnel souhait Estimation du revenu minimum d'une famille de 2 enfants Nombre de jours de vacances en t Effectif 804 711 997 997 997 912 895 997 Poids 804,00 711,00 997,00 997,00 997,00 912,00 895,00 997,00 Moyenne EcartMinimum Maximum type 8482,39 3672,43 2000,00 70000,00 19414,50 12613,10 3500,00 99000,00 42,61 17,47 18,00 90,00 4,05 4,18 0,00 47,00 17,29 3,88 6,00 39,00 7245,29 4761,59 0,00 70000,00 5563,15 2425,96 1500,00 40000,00 18,34 19,38 0,00 99,00

4.

DESCO-4 : Caractrisation par les variables continues

Pour caractriser la variable continue par les autres variables continues, le logiciel sappuie sur la corrlation. 35

SPAD

Caractrisation automatique dune variable continue (DESCO)

A chaque test de corrlation est associe une probabilit critique associe lhypothse de nullit. La probabilit critique est ensuite transforme en valeur-test. Le tableau est constitu de 5 colonnes : Libell de la variable : libell complet des variables continues caractrisantes. Corrlation : corrlation entre la variable caractriser et chacune des variables continues. Il faut noter que la corrlation est ici calcule aprs limination des donnes manquantes. Valeur-test : valeur-test associe la probabilit du test de corrlation nulle. Probabilit : probabilit associe au test de corrlation. Poids : effectif sur lequel est calcule la corrlation si le poids des individus est uniforme et le poids des individus si les individus ont des poids diffrents.

Ici, on a choisi de nditer que les corrlations dont la probabilit associe est infrieure 1%.

Corrlations avec les variables continues de la variable Age de fin d'tude


Libell de la variable Age de fin d'tude Revenu personnel souhait Nombre de jours de vacances en t Estimation du revenu minimum d'une famille de 2 enfants Nombre de non-rponses au questionnaire Age de l'enqut(e) Corrlation 1,000 0,288 0,213 0,113 -0,238 -0,365 ValeurTest 99,90 8,94 6,81 3,38 -7,64 -12,08 Probabilit 0,000 0,000 0,000 0,000 0,000 0,000 Poids 997,0 912,0 997,0 895,0 997,0 997,0

Interprtation On note que la corrlation de la variable Age de fin dtudes avec elle-mme est logiquement de 1. La valeur-test associe dpasse le seuil maximum fix 99.90.

36

Analyse bivarie (BIVAR)


Lanalyse bivarie est une procdure essentiellement graphique permettant de visualiser les liaisons que deux variables continues prises ensemble entretiennent avec les autres variables dun fichier. De faon schmatique, les deux variables continues seront les axes x et y du graphique, se coupant au point moyen des variables. Les autres variables continues seront des directions dans le plan (comme dans une analyse en composantes principales). Les individus seront des points correspondant leurs coordonnes dans ce plan. Les modalits des variables nominales seront les points moyens des groupes correspondants dindividus (comme en analyse des correspondances multiples). Fichier utilis : ASPI1000.SBA Paramtrage de la mthode : on croise lge de fin dtudes (V45) avec le revenu personnel souhait (V46). Les autres variables du fichier sont toutes slectionnes comme illustratives lexception du coefficient de pondration.

1.

BIVAR-1 : Statistiques sommaires des variables continues actives

Le tableau suivant prsente les statistiques sommaires des deux variables continues actives de lanalyse. Ce tableau est constitu de 6 colonnes : Libell de la variable : libell complet de chaque variable continue active. Effectif : effectif des individus renseigns. Poids : effectif des individus renseigns aprs pondration. Leffectif et le poids sont identiques lorsque lon nutilise pas de pondration. Moyenne : cette colonne donne la moyenne pondre de chacune des variables. Ecart-type : cette colonne donne lcart-type pondr de chacune des variables. La moyenne et lcart-type sont calculs sur les enquts qui se sont exprims. Les individus qui ont une donne manquante ne sont pas pris en compte. Coefficient de variation : coefficient de variation de chaque variable continue. Le coefficient de variation (C.V) est lcart-type divis par la moyenne.

Statistiques sommaires des variables continues actives


Libell de la variable Age de fin d'tude Revenu personnel souhait Effectif 997 915 Poids 997,00 915,00 Moyenne 17,29 7244,48 Ecart-type 3,88 4756,78 Coefficient de variation 0,22464 0,65661

Interprtation

37

SPAD

Analyse bivarie (BIVAR)

On note que le revenu personnel souhait par les enquts se caractrise par un cart-type qui reprsente prs des deux tiers de sa moyenne (65,6%). Cette variable est beaucoup plus disperse que lge de fin dtudes.

2.

BIVAR-2 : Moyennes et valeurs-test des modalits sur le plan dfini par les variables nominales illustratives

Dans le cas de lanalyse bivarie, la description de lchantillon par les variables nominales donne les tableaux suivants :

Moyennes et valeurs-test des modalits sur le plan dfini par les variables: V46 - Age de fin d'tude V47 - Revenu personnel souhait
La famille est le seul endroit o l'on se sente bien Valeurs-Test Valeurs-Test Moyennes Libell Effectif Poids Axe: V46 Axe: V47 Axe: V46 561 561,00 -12,38 -5,10 15,94 oui 431 431,00 12,69 5,23 19,07 non *Reponse manquante* 8 8,00 -1,58 -0,68 15,13 Opinion propos du mariage Libell union indissoluble dissout si pb. grave dissout si accord ne sait pas *Reponse manquante* Effectif 231 342 387 39 1 Poids 231,00 342,00 387,00 39,00 1,00 Valeurs-Test Valeurs-Test Moyennes Axe: V46 Axe: V47 Axe: V46 -4,63 -4,90 16,25 -2,93 2,09 16,79 7,09 2,48 18,38 -0,43 -0,98 17,03 -0,85 1,70 14,00 Moyennes Axe: V47 5958,01 7661,51 7694,38 6544,16 15000,00 Moyennes Axe: V47 6595,45 8109,49 6155,56

A qui incombent les travaux mnagers et les soins enfants ? Valeurs-Test Valeurs-Test Moyennes Libell Effectif Poids Axe: V46 Axe: V47 Axe: V46 42 42,00 -3,70 -2,05 15,12 incombent la femme 336 336,00 -3,59 2,16 16,67 plutt la femme 599 599,00 4,65 -1,17 17,75 homme et femme 19 19,00 0,93 -0,20 18,11 ne sait pas *Reponse manquante* 4 4,00 0,50 -0,16 18,25 Opinion sur le cadre de vie quotidien Libell trs satisfait satisfait peu satisfait pas du tout satisf. *Reponse manquante* Effectif 259 549 145 46 1 Poids 259,00 549,00 145,00 46,00 1,00 Valeurs-Test Valeurs-Test Moyennes Axe: V46 Axe: V47 Axe: V46 -1,15 0,36 17,05 0,42 -0,33 17,33 0,59 -1,59 17,46 0,23 2,28 17,41 1,22 2,80 22,00

Moyennes Axe: V47 5831,75 7681,89 7107,18 7038,60 6875,00

Moyennes Axe: V47 7331,37 7201,99 6688,13 8738,89 20000,00

Chaque tableau est constitu de 7 colonnes : Libell : libell complet de chaque modalit, Effectif : effectif de la modalit, cest--dire le nombre dindividus qui ont choisi cette modalit. 38

SPAD Poids : effectif de la modalit aprs pondration.

Analyse bivarie (BIVAR)

Valeur-test axe V46 : cette colonne donne les valeurs-tests associes aux diffrences de moyennes dans chaque modalit pour la variable V46, savoir lge de fin dtude. Valeur-test axe V47 : cette colonne donne les valeurs-tests associes aux diffrences de moyennes dans chaque modalit pour la variable V47 : le revenu personnel souhait. Ces valeurs-tests valuent dans quelle mesure les moyennes des variables continues calcules dans chaque modalit scarte de la moyenne gnrale de ces variables. Elles sont calcules par un test de comparaison de moyennes. Une valeur-test positive signifie que la moyenne de la variable continue pour les individus de la modalit est suprieure la moyenne globale de la variable (inversement quand la valeur-test est ngative).

Moyennes axe V46 : moyennes pondres de la variable V46 (Age de fin dtude) pour toutes les modalits des variables nominales slectionnes. Moyennes axe V47 : moyennes pondres de la variable V47 (Revenu personnel souhait) pour toutes les modalits des variables nominales slectionnes.

Comme prcdemment, la moyenne et lcart-type sont calculs sur les enquts de la modalit qui se sont exprims. Il faut noter que le poids des individus intervient dans le calcul des moyennes et des valeurstests. Interprtation Si lon retient les modalits qui ont les plus fortes valeurs-tests (suprieures 10 en valeur absolue par exemple), on note que les enquts qui ont rpondu oui ou non la variable La famille est le seul endroit o lon se sente bien ont un ge moyen de fin dtudes significativement diffrent de lge moyen global de fin dtudes. Cet ge moyen est respectivement de 15.94 ans pour les rponses oui et 19.07 ans pour les non pour une moyenne gnrale de 17.29 ans dans lchantillon (voir tableau des statistiques sommaires : Bivar-1).

3.

BIVAR-3 : Corrlations entre les variables continues illustratives et les variables continues dfinissant le plan

Lanalyse bivarie donne galement la description de lchantillon par les variables continues illustratives :
Corrlations entre les variables continues illustratives et les variables continues dfinissant le plan V46 - Age de fin d'tude V47 - Revenu personnel souhait
Numro Libell de la variable
46 47 15 19 37 43 48 49 Age de fin d'tude Revenu personnel souhait Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Age de l'enqut(e) Nombre de non-rponses au questionnaire Estimation du revenu minimum d'une famille de 2 enfants Nombre de jours de vacances en t

Effectif
997 915 806 713 1000 1000 897 1000

Poids
997,00 915,00 806,00 713,00 1000,00 1000,00 897,00 1000,00

Moyenne
17,29 7244,48 8478,73 19383,90 42,68 4,05 5561,89 18,31

Ecarttype
3,88 4550,13 3293,89 10646,80 17,50 4,19 2295,21 19,37

Corrlation Corrlation avec: V46 avec: V47


1,00 0,28 -0,03 -0,01 -0,36 -0,24 0,11 0,21 0,28 1,00 0,11 0,06 -0,12 -0,17 0,40 0,18

Corrlation Corrlation partielle partielle avec: V46 avec: V47

-0,07 -0,03 -0,35 -0,20 0,00 0,17

0,13 0,07 -0,02 -0,11 0,39 0,13

Ce tableau est constitu de 10 colonnes :

39

SPAD

Analyse bivarie (BIVAR)

Numro : numro de chaque variable continue correspondant lordre dapparition dans le fichier de base. Libell de la variable : libell complet de chaque variable continue. Effectif : effectif des individus renseigns pour chaque variable. Poids : effectif pondr des individus renseigns pour chaque variable. Moyenne : moyenne pondre de chaque variable continue. Ecart-type : cart-type pondr de chaque variable continue. Corrlation avec V46 : coefficient de corrlation entre les variables disponibles et la variable V46 : Age de fin dtude. Corrlation avec V47 : coefficient de corrlation entre les variables disponibles et la variable V47 : Revenu mensuel souhait. Corrlation partielle avec V46 : coefficient de corrlation partielle entre les variables disponibles et la variable de base V46. Corrlation partielle avec V47 : coefficient de corrlation partielle entre les variables disponibles et la variable de base V47. Le coefficient de corrlation partielle dune variable de base avec une variable disponible est le coefficient de corrlation obtenu aprs avoir t linfluence linaire de la seconde variable de base.

Interprtation On note que la corrlation entre les deux variables de base (46 et 47) nest pas ngligeable (0.28). Plus lge de fin dtudes est grand, plus les enquts ont tendance dsirer un revenu personnel lev. Les corrlations entre les variables continues de base et les variables continues illustratives sont parfois assez faibles. La corrlation entre les variables 48 et 47 atteint une valeur importante ( - 0.40). En ce qui concerne les coefficients de corrlation partielle, on remarque que ceux-ci ont parfois fortement volus par rapport aux coefficients de corrlation simple, ce qui sexplique par la corrlation non ngligeable entre les deux variables de base.

40

Marquage smantique de modalits de variables nominales (MSMOD)


Cette procdure permet de caractriser les modalits d'une variable nominale par des marquages smantiques. C'est une gnralisation de la procdure DEMOD existante et galement la gnralisation darbres de segmentation. Un marquage smantique est une conjonction logique des modalits des variables caractrisantes (Exemple: les hommes de moins de 25 ans et qui habitent en rgion parisienne). Si vous utilisez des variables continues comme variables caractrisantes, elles seront dcoupes chaud en N classes (paramtrage spcifier) et considres comme des variables nominales. Pour piloter la recherche des marquages smantiques d'une modalit, il faut dfinir 2 paramtres fondamentaux : Le seuil (en pourcentage) de dbordement admis pour chaque marquage. Sil est de 15%, tout marquage smantique dont plus de 15% des individus sont extrieurs la modalit ou la classe que l'on caractrise sera rejet. Plus le dbordement d'un marquage est petit et son recouvrement de la modalit, ou de la classe, est important, plus le marquage est caractristique. Le seuil (en pourcentage) de recouvrement cumul souhait pour la modalit que l'on caractrise. Si ce seuil vaut 75%, cela veut dire que vous cherchez recouvrir 75% de la modalit ou de la classe que vous caractrisez. Au del, le processus de recherche des marquages s'arrte. A l'exception du premier marquage, le Nime marquage peut recouvrir une partie dj recouverte par les N-1ime premiers marquages et une partie nouvelle (Ajout du marquage N). Le cumul des recouvrements est lunion des N marquages. Si le seuil n'est pas atteint, ceci signifie que les autres paramtres de recherche des marquages sont trop contraignants (le seuil de dbordement, le seuil de la valeur-test pour une modalit, le seuil de recouvrement nouveau, le seuil de la valeur-test pour un marquage). D'autres paramtres permettent d'affiner encore la qualit des marquages (onglet paramtres).

Fichier utilis : ASPI1000.SBA Paramtrage de la mthode : on caractrise la variable La socit franaise a-t-elle besoin de se transformer ? (V10). On slectionne ensuite toutes les variables nominales et continues restantes comme caractrisantes lexception des variables nominales redondantes (V36, V50, V51, V52 et V54) et du coefficient de pondration (V50).

41

SPAD

Marquage smantique de modalits de variables nominales (MSMOD)

Dans lexemple suivant, nous caractrisons les 759 enquts ayant rpondu Oui la question La socit franaise a telle besoin de se transformer ? par leurs 4 premiers marquages smantiques. Les marquages smantiques d'un groupe sont classs par ordre d'importance l'aide du critre de "valeur-test" auquel est associ une probabilit : plus la valeur-test est grande (plus la probabilit est faible), plus le marquage est caractristique.

Description de la modalit: oui De la variable: La socit francaise a-t-elle besoin de se transformer ?


Poids Pourcentage Dfinition du marquage numro 1 Recouvrement Ajout de recouvrement Cumul de recouvrement Dbordement 256 237 237 237 19 25,60 31,23 31,23 31,23 7,42 ValeurModalit Test 5,568 5,568 Recouvrement Ajout de recouvrement Cumul de recouvrement Dbordement 103 44 281 5 13,57 5,80 37,02 4,63 ValeurModalit Test 4,208 4,379 3,279 2,497 Recouvrement Ajout de recouvrement Cumul de recouvrement Dbordement 174 155 436 26 22,92 20,42 57,44 13,00 ValeurModalit Test 3,208 3,279 2,181 Recouvrement Ajout de recouvrement Cumul de recouvrement Dbordement 138 69 505 23 18,18 9,09 66,53 14,29 non Et 34.0000 Possdez vous des biens immobiliers ? 45.00 Age de l'enqut(e) Variable locataire Et non Et assez mauvais Statut d'occupation du logement Possdez vous des biens immobiliers ? Opinion sur le fonctionnement de la justice en 1979 Variable beaucoup moins bien Evolution du niveau de vie des franais depuis 10 ans Variable ValeurModalit Test 7,770 7,770 trs mauvais Opinion sur le fonctionnement de la justice en 1979 Variable

Poids Pourcentage Dfinition du marquage numro 2 108 10,80

Poids Pourcentage Dfinition du marquage numro 3 200 20,00

Poids Pourcentage Dfinition du marquage numro 4 161 16,10

Chaque marquage est prsent dans un tableau constitu de 6 colonnes. La lecture de chaque tableau ou marquage seffectue en trois tapes : 1. Lecture de la premire ligne qui prsente le marquage de faon gnrale 2. Lecture de la conjonction de modalits afin didentifier le marquage 3. Lecture des caractristiques de recouvrement, dajout, de cumul et de dbordement. La premire ligne de chaque tableau indique le numro du marquage, son poids dans lensemble de lchantillon, le pourcentage global ainsi que sa valeur-test. Le poids du 42

SPAD

Marquage smantique de modalits de variables nominales (MSMOD)

marquage correspond au nombre dindividus dans lchantillon total qui prsentent la conjonction de modalits dcrites dans la deuxime partie du tableau, aprs pondration. Une valeur-test leve signifie que le marquage est sur-reprsent dans la modalit dcrire. La conjonction de modalits dfinissant le marquage est ensuite dcrite dans le tableau laide des trois colonnes suivantes : Valeur-test : cette colonne donne la valeur-test associe chacune des modalits. Lorsque la valeur-test est positive, cela signifie que la modalit caractrisante est surreprsente dans la modalit dcrire. La modalit caractrisante est sous-reprsente si la valeur-test est ngative. Cette valeur-test quivaut celle que lon obtient avec la procdure DEMOD (sortie Excel DEMOD-5) en croisant la variable dcrire avec les mmes variables caractrisantes que celle slectionne dans cette procdure. Modalit : libell complet de la modalit. Variable : libell complet de la variable dont la modalit est issue.

Les caractristiques de recouvrement, dajout, de cumul et de dbordement sont dcrites ciaprs : Recouvrement : reprsente dans cet exemple le nombre dindividus inclus dans le marquage et qui ont rpondu oui la question La socit franaise a telle besoin de se transformer ? . Ajout de recouvrement : correspond au recouvrement auquel on soustrait les individus dj inclus dans un marquage prcdent. Pour le premier marquage, le recouvrement et lajout sont identiques. Cumul de recouvrement : correspond la somme des ajouts de recouvrement de tous les marquage prcdents plus lajout du marquage en cours. Dbordement : reprsente le nombre dindividus inclus dans le marquage mais qui nont pas rpondu oui la question La socit franaise a telle besoin de se transformer ? .

Le poids du marquage est gal la somme du recouvrement et du dbordement. Interprtation Dans cet exemple, nous caractrisons les 759 enquts ayant rpondu Oui la question La socit franaise a telle besoin de se transformer ? par 4 marquages smantiques. Le premier marquage regroupe les 256 enquts de ltude qui ont rpondu que le fonctionnement de la justice en 1979 tait trs mauvais. Ce marquage reprsente 25.6% de lensemble de lchantillon. Ce marquage est dfini par une seule modalit, ce qui explique le fait que la valeur-test du marquage et celle de la modalit soient identiques. Cette valeur leve (7.8) signifie que la proportion denquts trs critiques sur le fonctionnement de la justice est significativement plus leve parmi ceux qui pensent que la socit franaise besoin de se transformer que chez les autres.

43

SPAD

Marquage smantique de modalits de variables nominales (MSMOD)

Ce marquage, qui regroupe en tout 256 enquts, recouvre 237 individus parmi les 759 enquts qui pensent que la socit franaise besoin de se transformer, soit 31.23%. Comme il sagit du premier marquage, lajout et le cumul sont gaux au recouvrement. Parmi les 256 enquts concerns par ce marquage, 19 personnes (256-237) ont une opinion qui diffre sur la question des transformations apporter la socit franaise, soit 7.42% (infrieur au seuil de dbordement tolr par dfaut : 15%). Le second marquage concerne les enquts qui pensent que le niveau de vie des Franais a fortement rgress depuis 10 ans. Ce marquage rassemble en tout 108 individus. La valeur-test (5.6) de ce marquage, reprsent par une seule modalit, signifie que lopinion trs pessimiste sur lvolution du niveau de vie des franais est plus reprsente en proportion chez les enquts qui pensent que la socit besoin de se transformer que chez les autres. Ce marquage recouvre en tout 108 individus dont 103 qui pensent que la socit franaise doit se transformer, soit un dbordement minimal de 5 individus. En revanche ce marquage najoute que 44 individus par rapport au prcdent. Les 57 autres individus taient en fait dj identifis par le premier marquage. Au niveau du cumul des deux premiers marquages, 281 individus sur les 759 initiaux ont t identifis, soit 37.02%. Le troisime marquage regroupe 200 enquts prsentant les trois caractristiques suivantes dans lchantillon total : Ils sont tous locataires, Et ils ne possdent aucun bien immobilier, Et ils ont une assez mauvaise opinion du fonctionnement de la justice.

Les modalits sont ordonnes dans lordre dcroissant de leur valeur-test. Dans ce marquage, la plus forte caractristique est lie au statut doccupation du logement. En effet, les locataires sont en proportion plus nombreux chez les enquts qui pensent que la socit franaise doit se transformer. Sur les 200 individus de ce marquage, 174 pensent que la socit franaise doit se transformer. Par rapport aux deux marquages prcdents, celui-ci permet didentifier 155 nouveaux individus, soit un cumul sur les trois marquages de 436 individus en tout.

44

Les Analyses Factorielles

Les mthodes factorielles tablissent des reprsentations synthtiques de vastes tableaux de donnes, en gnral sous forme de reprsentations graphiques. Ces mthodes ont pour objet de rduire les dimensions des tableaux de donnes de faon reprsenter les associations entre individus et entre variables dans des espaces de faibles dimensions. Les mthodes danalyse factorielle consistent rechercher des sous-espaces de faibles dimensions qui ajustent au mieux le nuage de points des individus et le nuage de points des variables. Les proximits mesures dans ces sous-espaces doivent reflter au mieux les proximits relles. Lespace de reprsentation obtenu est appel espace factoriel. Les mthodes diffrent selon la nature des variables analyses : il peut sagir de variables continues, de variables nominales ou de catgories dans le cas des tableaux de contingences. Les lignes peuvent tre des individus ou des catgories. Pour plus de prcisions, nous renvoyons lutilisateur louvrage de Lebart, Morineau et Piron (1995).

45

Analyse en composantes principales (COPRI)


L'Analyse en Composantes Principales est une technique de description statistique conduisant des reprsentations graphiques approches (mais en un certain sens optimales) du contenu dun tableau de donnes: description simultane des liaisons entre variables et des similitudes entre individus. Cest aussi un outil de rduction de la dimensionnalit d'un ensemble de variables continues, utilisable comme intermdiaire de calcul en vue d'analyses ultrieures. Dans ce chapitre, nous verrons que l'ACP est un outil exploratoire qui permet de visualiser et de dcouvrir les phnomnes tels quils sont dcrits par les donnes. Fichier utilis : VILLES.SBA Paramtrage de la mthode : les variables V29 V40 sont slectionnes comme actives. Toutes les autres variables continues sont illustratives tout comme la variable nominale Rgion du monde. Pour la slection des individus, nous effectuons un filtre logique sur la variable V1 Anne en ne prenant que ldition 1994 .

1.

Les donnes et les objectifs

Lutilisateur se trouve confront un problme qui met en jeu diverses variables continues mesures sur un grand nombre dindividus et souhaite tirer des enseignements des observations quil a faites. Il sagira par exemple dtudier un indice qui mesure la puissance conomique des individus; ou bien dterminer un sous-ensemble de points adquats pour contrler la pollution dans une zone gographique; ou bien, classer les individus en fonction des notes de prfrence donnes un groupe de produits concurrentiels sur le march. Dans d'autres situations, l'Analyse en Composantes Principales servira seulement, ou servira aussi, comme tape intermdiaire de calcul avant une analyse ultrieure: rgression, discrimination, ou classification. Enfin, lACP pourra tre utilise comme technique de compression des donnes. Les donnes sont fournies pour une srie d'individus, sur lesquels nous avons mesur un ensemble de variables continues et relev ventuellement d'autres variables qualitatives. Les dimensions du tableau de donnes sont telles quil n'est pas possible de reprer directement les individus qui se ressemblent ni les variables qui ont le mme comportement sur lensemble des individus. Le systme des liaisons entre variables et la configuration des similitudes et diffrences entre individus, qui feraient la synthse de linformation contenue dans le tableau de donnes, sont cachs. Nous verrons comment l'Analyse en Composantes Principales permet, dans une certaine mesure, de les rvler. Nous raisonnerons de faon concrte sur un exemple. Il ne sagit pas dun problme rel mais dun exercice qui possde certaines vertus pdagogiques sans tre trop loign dune situation relle. Le problme sera de comparer un certain nombre de grandes villes selon le niveau moyen des salaires dans une douzaine de professions afin de vrifier la cohrence de la description par rapport nos connaissances conomiques globales. Ces donnes sont extraites du fichier Villes.sba.

46

SPAD

Analyse en composantes principales (COPRI)

On sintresse 51 villes. Les donnes recueillies ne font pas seulement rfrence aux salaires mais elles constituent un ensemble plus vaste de 40 variables concernant aussi les prix et quelques autres indicateurs essentiellement conomiques1. Les villes sont rparties dans 10 rgions du monde (variable numro 2) et les observations sont connues deux dates (1991 et 1994: variable n 1) bien que pour le moment on ne considre que les donnes de ldition 1994. Le tableau des donnes se prsente sous la forme dun tableau 40 colonnes et deux fois 51 lignes: chaque ville apparat deux fois, une premire fois pour les observations de 1991, une autre fois pour celles de 1994 (le tableau est ici constitu de lempilement des donnes des deux priodes). Le tableau suivant fournit la liste des 40 variables releves sur chaque ville. Les libells, bien que peu explicites, suffiront pour lanalyse que lon souhaite faire.
Libell des variables Anne Region du monde I_prix sans loyer I_prix avec loyer I_salaires bruts I_salaires nets Heures travail annuelles Vacances annuelles payees Pouvoir d'achat brut Pouvoir d'achat net Kg pain=temps de travail Hamb=temps de travail Denres alimentaires Panier complet Dames vetements Hommes vetements 4pices appart meubl 3pices appart non meubl Loyer normale Appareils mnagers Bus tram ou metro Taxi Voitures Restaurant Nuit d'htel Services diverses Impots et cotisations sociales en % salaire brut Salaire horaire net Instituteur Chauffeur d'autobus Mcanicien autos Manoeuvre du btiment Tourneur Cuisinier chef Chef de service Ingeniur Caissier de banque Secrtaire direction Vendeuse Ouvrire du textile Type 2 Modalites 10 Modalites Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue

2.

Choix du thme actif

Le tableau de donnes contient une assez grande quantit de variables, ce qui est une caractristique habituelle des tudes appliques. En fait les variables peuvent se regrouper selon des thmes. Par exemple, on trouve une srie de variables relatives aux dpenses sur diffrents postes (vtement, loyer, vhicule, services, etc.) dont lensemble doit concourir donner une ide de la chert de la vie dans chaque ville.

1 Donnes recueillies par l'Union de Banques Suisses, dans sa publication "Prices and Earnings Around the
Globe", 1991 et 1994

47

SPAD

Analyse en composantes principales (COPRI)

D'autres variables informent sur le niveau des salaires, rpartis selon 12 professions. Enfin, d'autres variables donnent plutt une ide du mode de vie, comme les congs pays, les jours de travail, etc. Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici comparer les villes en tenant compte simultanment du niveau des prix, des salaires, des impts, des heures ncessaires pour acqurir un hamburger, etc. Les diffrences observes entre les villes sont alors difficiles interprter car elles peuvent avoir des causes multiples et de natures trs diffrentes. Il est plus sage de slectionner un groupe de variables, ce groupe tant homogne par rapport un thme bien dfini, et cohrent avec l'objectif propre de l'tude. Un thme, cest-dire un groupe de variables, dfinit un certain point de vue choisi par lutilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprtation des proximits entre villes sera plus facile faire. Les variables choisies, appeles variables actives, constituent donc les seuls lments utiliss pour comparer les villes entre elles. Cela ne signifie pas que le reste de l'information soit abandonn: il servira ensuite illustrer ou peut-tre suggrer des explications pour les similitudes et diffrences observes entre les villes. C'est pour cela que lon appelle illustratives ou supplmentaires les autres variables. Toute analyse statistique commence donc par le choix des lments actifs. Dans notre exemple, nous dcidons de prendre comme variables actives lensemble des revenus nets perus dans les 12 professions retenues. Deux villes seront proches si les rmunrations sont analogues dans lensemble de ces 12 professions, indpendamment de ce qui peut les diffrencier par ailleurs (taille, densit, altitude, etc.). La liste des variables actives est donne dans le tableau suivant :
Variables actives Instituteur Chauffeur d'autobus Mcanicien autos Manoeuvre du btiment Tourneur Cuisinier chef Chef de service Ingeniur Caissier de banque Secrtaire direction Vendeuse Ouvrire du textile Type Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue Continue

Les autres variables seront utilises comme illustratives et serviront, comme on le verra, dans la phase dinterprtation des rsultats. Nous mettons en uvre une analyse norme.

3.

COPRI-1 : Statistiques sommaires des variables continues

Le tableau suivant prsente les statistiques sommaires de lensemble des variables continues actives et illustratives de lanalyse dans un tableau constitu de 7 colonnes. Les variables actives sont listes en premier. Un saut de ligne permet de les diffrencier des variables continues illustratives. Ldition du tableau a t tronque. (CF page 11 pour le descriptif des colonnes qui composent le tableau).

48

SPAD
Statistiques sommaires des variables continues
Libell de la variable Instituteur Chauffeur d'autobus Mcanicien autos Manoeuvre du btiment Tourneur Cuisinier chef Chef de service Ingeniur Caissier de banque Secrtaire direction Vendeuse Ouvrire du textile I_prix sans loyer I_prix avec loyer I_salaires bruts I_salaires nets Heures travail annuelles Effectif 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 Poids 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00 51,00

Analyse en composantes principales (COPRI)

Moyenne 16802,000 14311,800 12384,300 10343,100 15145,100 15615,700 30933,300 24664,700 18749,000 13311,800 9658,820 9247,060 68,061 70,739 41,192 39,494 1920,250

Ecart-type 13243,400 10819,600 8520,830 8239,820 10244,300 8768,420 21250,600 14019,100 13413,800 7569,800 6064,530 6429,780 19,355 19,885 27,781 25,596 158,688

Minimum 600,000 400,000 700,000 200,000 800,000 500,000 1500,000 1600,000 1200,000 1400,000 400,000 300,000 30,400 30,200 2,100 2,300 1669,000

Maximum 56800,000 46100,000 30500,000 28000,000 38700,000 33900,000 95000,000 59700,000 58800,000 31500,000 24700,000 23800,000 132,000 142,700 100,000 100,000 2302,000

4.

COPRI-2 : Matrice des corrlations

Le tableau suivant prsente la matrice des corrlations entre les variables actives de lanalyse. Dans le cas dune analyse non norme, nous obtenons la matrice des variances/covariances. Le tableau se prsente donc sous la forme d'une matrice carre. Seules la partie infrieure et la diagonale de la matrice sont renseignes puisque celle-ci est symtrique.
Matrice des corrlations
Instituteur Instituteur Chauffeur d'autobus Mcanicien autos Manoeuvre du btiment Tourneur Cuisinier chef Chef de service Ingeniur Caissier de banque Secrtaire direction Vendeuse Ouvrire du textile 1,00 0,96 0,84 0,83 0,91 0,75 0,78 0,81 0,82 0,92 0,88 0,88 Chauffeur Mcanicien d'autobus autos 1,00 0,89 0,88 0,94 0,76 0,74 0,82 0,80 0,93 0,89 0,92 Manoeuvre Cuisinier du Tourneur chef btiment Chef de service Ingeniur Caissier Secrtaire Ouvrire Vendeuse de banque direction du textile

1,00 0,95 0,93 0,80 0,64 0,74 0,70 0,88 0,89 0,89

1,00 0,93 0,72 0,59 0,70 0,64 0,86 0,86 0,92

1,00 0,76 0,69 0,80 0,72 0,92 0,88 0,94

1,00 0,82 0,82 0,79 0,80 0,85 0,71

1,00 0,87 0,89 0,80 0,79 0,65

1,00 0,85 0,87 0,85 0,81

1,00 0,87 0,85 0,73

1,00 0,94 0,93

1,00 0,89

1,00

Le coefficient de corrlation linaire indique la force de la liaison linaire entre deux variables continues. Ce coefficient prend des valeurs comprises entre 1 et 1. Plus le coefficient prend une valeur proche de 1, plus la liaison linaire entre les variables X et Y est forte et croissante. A une valeur leve de X, on associera une valeur leve de Y. Plus le coefficient prend une valeur proche de -1, plus la liaison linaire entre les variables X et Y est forte et dcroissante. A une valeur leve de X, on associera une valeur faible de Y. Si le coefficient prend une valeur proche de 0, cela indique qu'il n'y a pas de liaison linaire entre les variables X et Y. La relation entre X et Y peut tre d'un autre ordre mais en tout cas, elle n'est pas linaire. Attention, cela ne veut pas dire que les variables sont indpendantes. Interprtation Dans cette matrice de corrlations, nous lisons la force des associations linaires entre les variables deux deux. Si un salaire est lev dans une ville, les autres salaires le sont galement. Les corrlations sont toutes positives et en gnral fortes, avec des valeurs comprises entre 0.59 et 0.96.

49

SPAD

Analyse en composantes principales (COPRI)

5.

COPRI-3 : Matrice des valeurs-tests

Cette matrice est directement lie la matrice prcdente. En effet, on retrouve la mme matrice carre croisant les variables continues actives deux deux. L'objectif de cette matrice est de rpondre la question suivante : "Est-ce que la valeur du coefficient de corrlation observe entre 2 variables permet de dire que leur liaison est significative ?". Dans un souci d'homognit, SPAD a retranscrit le test sous-jacent de nullit de la corrlation, en terme de valeur-test. Plus la valeur test sera leve et plus la liaison linaire sera forte. On peut galement affirmer qu'une valeur-test infrieure 2 (en valeur absolue) indique qu'il n'y a pas de liaison linaire entre les variables.
Matrice des valeurs-tests
Instituteur Instituteur Chauffeur d'autobus Mcanicien autos Manoeuvre du btiment Tourneur Cuisinier chef Chef de service Ingeniur Caissier de banque Secrtaire direction Vendeuse Ouvrire du textile 99,99 13,87 8,82 8,51 10,82 6,89 7,47 8,11 8,33 11,12 9,72 9,89 Chauffeur Mcanicien d'autobus autos 99,99 10,07 9,69 12,31 7,09 6,79 8,28 7,86 11,73 10,20 11,58 Manoeuvr Cuisinier e du Tourneur chef btiment Chef de service Ingeniur Caissier de Secrtaire Ouvrire Vendeuse banque direction du textile

99,99 12,74 11,91 7,85 5,44 6,81 6,19 9,79 10,20 10,19

99,99 11,90 6,50 4,88 6,22 5,46 9,18 9,14 11,29

99,99 7,03 6,10 7,76 6,51 11,18 9,96 12,22

99,99 8,34 8,37 7,64 7,86 9,08 6,35

99,99 9,64 10,27 7,93 7,74 5,58

99,99 9,10 9,63 9,02 8,11

99,99 9,62 8,94 6,65

99,99 12,15 11,83

99,99 10,32

99,99

Interprtation Dans cet exemple, aucune valeur-test nest infrieure 2. Nous sommes donc en prsence de variables continues linairement dpendantes. Nous pouvons tout de mme tablir une hirarchie dans la force des liaisons.

6.

COPRI-4 : Tableau des valeurs propres

Cette sortie prsente lensemble des valeurs propres de lanalyse. Le tableau est constitu des lments suivants : Trace de la matrice : correspond la valeur de l'inertie totale du nuage de points tudi. Cette trace est gale la somme des variances de chaque variable active. En analyse norme (ici), la variance associe chaque variable active tant gale 1, la trace de la matrice est gale au nombre de variables actives, cest dire 12. Numro : correspond au numro de l'axe factoriel. En ACP, le nombre d'axes factoriels est toujours gal au nombre de variables actives. Valeur propre : correspond l'inertie intercepte par l'axe factoriel. La variance associe la projection des individus actifs sur le premier facteur vaut 10,1390. La somme des valeurs propres est gale l'inertie globale du nuage des villes, et elle est gale 12, le nombre des variables actives, car nous ralisons une ACP norme Pourcentage : indique la part de l'inertie totale prise en compte par chaque axe factoriel. Nous voyons que le premier axe porte prs de 85% de l'inertie du nuage de points qui est initialement contenu dans un espace de dimension 12. Ce pourcentage extrmement lev sexplique par le fait que nous sommes en prsence de variables fortement corrles linairement. Pourcentage cumul : dite la part de l'inertie totale prise en compte par tous les axes factoriels en sommant les pourcentages comprenant l'axe tudi et ses prdcesseurs. 50

SPAD

Analyse en composantes principales (COPRI)

Tableau des valeurs propres Trace de la matrice: 12.00000


Numro 1 2 3 4 5 6 7 8 9 10 11 12 Valeur propre 10,1390 0,8612 0,3248 0,1715 0,1484 0,0973 0,0682 0,0525 0,0505 0,0332 0,0309 0,0226 Pourcentage 84,49 7,18 2,71 1,43 1,24 0,81 0,57 0,44 0,42 0,28 0,26 0,19 Pourcentage cumul 84,49 91,67 94,38 95,80 97,04 97,85 98,42 98,86 99,28 99,55 99,81 100,00
0 2 4 6 8 10 12

Interprtation Nous obtenons une premire composante principale trs dominante, expliquant prs de 85% de linertie totale. Avec seulement les trois premiers axes factoriels, nous avons prs de 95% de l'inertie (ou de la dispersion) de tout le nuage de points. Combien d'axes faut-il retenir ? Avec les premires composantes principales, nous recomposons la majeure partie de la dispersion entre les points. Mais combien d'axes faut-il retenir? La question est difficile et n'admet certainement pas de rponse dfinitive. Il faut d'abord savoir quoi lon destine les axes que l'on veut retenir. Prenons quelques exemples: On peut vouloir retenir les axes pour faire des reprsentations graphiques qu'il faudra examiner visuellement. Dans ce cas le nombre d'axes le plus confortable est 2, car on regardera les nuages sur une feuille de papier: ce sont les axes F1 et F2. On peut essayer de reprsenter le "volume" dans l'espace (F1, F2 et F3), mais les ralisations graphiques sont souvent difficiles lire. On ne peut rien voir au del de trois dimensions. On peut imaginer regarder des projections telles que (F2, F3) ou (F1, F4) mais l encore, l'effort "intellectuel" est norme pour visualiser les configurations de points o les distances lues sont le rsultat de compressions dans des directions qui ont disparu. S'il s'agit de visualisations planes donc, on se contentera le plus souvent du premier plan factoriel. Pour "voir" au del de ce plan, on aura recours en gnral la complmentarit apporte par les mthodes de classification. Si on retient des axes factoriels comme support pour raliser une classification, le problme est diffrent. On cherche retenir beaucoup d'axes (pour rester aussi proche que possible des donnes observes), mais on supprimera les directions correspondant aux plus petites valeurs propres (fluctuations alatoires des donnes, ne correspondant aucune liaison relle entre les variables) pour assainir l'information utilise pour comparer les individus.

7.

COPRI-5 : Intervalles laplaciens d'Anderson (seuil: 0.95)

Le logiciel dite ici les bornes suprieures et infrieures des intervalles de confiance approchs au seuil 95% des valeurs propres correspondant chaque axe factoriel.

51

SPAD

Analyse en composantes principales (COPRI)

L'ampleur de l'intervalle donne une indication sur la stabilit de la valeur propre vis--vis des fluctuations dues l'chantillonnage. L'empitement des intervalles de deux valeurs propres conscutives suggrera donc l'galit de ces valeurs propres. Les axes correspondants sont alors dfinis une rotation prs. Ainsi, l'utilisateur pourra viter d'interprter un axe instable selon ce critre. Ce tableau est constitu de 4 colonnes : Numro : correspond au numro de l'axe factoriel. En ACP, le nombre d'axes factoriels est toujours gal au nombre de variables actives. Borne infrieure : valeur infrieure de l'intervalle de confiance. Valeur propre : correspond l'inertie intercepte par l'axe factoriel. La variance associe la projection des individus actifs sur le premier facteur vaut 10,1390. La borne suprieure : valeur suprieure de l'intervalle de confiance.

Intervalles laplaciens d'Anderson (seuil: 0.95)


Numro 1 2 3 4 5 Borne infrieure 6,1645 0,5236 0,1975 0,1042 0,0902 Valeur propre 10,1390 0,8612 0,3248 0,1715 0,1484 Borne suprieure 14,1135 1,1988 0,4521 0,2387 0,2066

Interprtation On est sr 95% que le premier axe de l'analyse interceptera une inertie comprise entre [6,16 ; 14,11]. Les intervalles de confiance d'Anderson concernent aussi bien les valeurs propres des matrices de covariances que des matrices de corrlations.

8.
8.1

COPRI-6 : Coordonnes, Corrlations, Anciens axes unitaires


Coordonnes des variables actives

Le tableau ci-aprs donne les coordonnes des variables actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 6 colonnes : Libell : libell complet de la variable Axe 1 Axe 5 : coordonnes des variables actives sur les premiers axes. On remarque que, dans le cas dune analyse norme, la coordonne dune variable sur un axe concide avec la corrlation de cette variable avec la composante principale (projection des individus sur laxe factoriel de mme rang).

52

SPAD
Coordonnes des variables actives Libell de la variable Axe 1 -0,94 Instituteur -0,96 Chauffeur d'autobus -0,92 Mcanicien autos -0,90 Manoeuvre du btiment -0,95 Tourneur -0,87 Cuisinier chef -0,84 Chef de service -0,90 Ingeniur -0,88 Caissier de banque -0,97 Secrtaire direction -0,96 Vendeuse Ouvrire du textile -0,94

Analyse en composantes principales (COPRI)

Axe 2 -0,04 -0,13 -0,27 -0,37 -0,24 0,24 0,49 0,27 0,38 0,00 0,01 -0,25

Axe 3 -0,21 -0,15 0,19 0,11 -0,02 0,40 -0,01 -0,03 -0,13 -0,10 0,08 -0,10

Axe 4 0,16 0,08 0,07 0,01 -0,01 0,05 0,04 -0,30 0,11 -0,03 0,00 -0,17

Axe 5 0,13 0,09 -0,03 -0,02 0,11 0,06 0,12 0,09 -0,20 -0,11 -0,17 -0,06

Interprtation Les coordonnes des variables ont toutes le mme signe sur le premier axe et sont comprises entre -0,84 et -0.97. Ce sont des valeurs extrmement leves en valeur absolue. Il est clair que le nuage des points-variables n'est pas centr. Dans cet exemple, la premire composante principale nat de la forte corrlation entre les variables actives. La premire composante se situe alors graphiquement au milieu du faisceau des variables actives. Cette situation peut sinterprter de la faon suivante. Dune faon gnrale pour toute ville, si un salaire est lev sur un poste, il est lev sur lensemble de postes; sil est faible sur un poste, il est faible sur lensemble. Cest la gnralit de cette observation sur lensemble du tableau qui constitue la structure la plus forte des donnes et engendre le premier facteur. Cette caractristique, frquemment rencontre en ACP sur le premier axe se nomme facteur de taille. Le premier axe de lanalyse oppose dune part les villes dont le salaire moyen est lev aux villes dont le salaire moyen est plus faible. Le second axe oppose dautre part les villes qui payent relativement bien le chef de service, le caissier de banque et le cuisinier chef des villes qui payent relativement mieux les professions socialement moins considres comme Manuvre du btiment, Mcanicien Auto, Tourneur et Ouvrire du textile. Facteur de taille Le fait le plus marquant de cette analyse est le facteur taille, trs dominant, port par la premire composante. Ce facteur reflte pratiquement exclusivement la disparit des villes quand au niveau moyen des salaires. Les autres facteurs sont en quelque sorte "crass" par la force de ce phnomne dans le tableau des donnes. Dans ce cas, il peut tre intressant de reprendre l'analyse en cherchant liminer des donnes cette connaissance que nous avons sur les salaires des villes. On y parvient, par exemple, en divisant les salaires de chaque profession par le salaire moyen de la ville.

8.2

Corrlations des variables actives avec les facteurs

Une corrlation leve indique que la disposition des individus sur l'axe factoriel est semblable l'ordonnance des individus selon la variable (la corrlation unit signifierait que

53

SPAD

Analyse en composantes principales (COPRI)

la composante principale est fonction linaire de la variable). Une corrlation proche de zro indique qu'il n'y a pas d'association linaire entre la composante principale et la variable.
Corrlations des variables actives avec les facteurs Libell de la variable Axe 1 Axe 2 -0,94 -0,04 Instituteur -0,96 -0,13 Chauffeur d'autobus -0,92 -0,27 Mcanicien autos -0,90 -0,37 Manoeuvre du btiment -0,95 -0,24 Tourneur -0,87 0,24 Cuisinier chef -0,84 0,49 Chef de service -0,90 0,27 Ingeniur -0,88 0,38 Caissier de banque -0,97 0,00 Secrtaire direction -0,96 0,01 Vendeuse Ouvrire du textile -0,94 -0,25 Axe 3 -0,21 -0,15 0,19 0,11 -0,02 0,40 -0,01 -0,03 -0,13 -0,10 0,08 -0,10 Axe 4 0,16 0,08 0,07 0,01 -0,01 0,05 0,04 -0,30 0,11 -0,03 0,00 -0,17 Axe 5 0,13 0,09 -0,03 -0,02 0,11 0,06 0,12 0,09 -0,20 -0,11 -0,17 -0,06

Interprtation Comme il sagit dune analyse norme, les corrlations concident avec les coordonnes. On peut donc se rfrer linterprtation des coordonnes.

8.3

Anciens axes unitaires

Les anciens axes unitaires sont les coefficients de la liaison linaire entre les variables et les axes.
Anciens axes unitaires Libell de la variable Instituteur Chauffeur d'autobus Mcanicien autos Manoeuvre du btiment Tourneur Cuisinier chef Chef de service Ingeniur Caissier de banque Secrtaire direction Vendeuse Ouvrire du textile Axe 1 -0,30 -0,30 -0,29 -0,28 -0,30 -0,27 -0,26 -0,28 -0,28 -0,31 -0,30 -0,29 Axe 2 -0,05 -0,14 -0,29 -0,40 -0,26 0,25 0,53 0,30 0,41 0,00 0,02 -0,27 Axe 3 -0,37 -0,27 0,34 0,19 -0,04 0,71 -0,02 -0,05 -0,23 -0,17 0,14 -0,18 Axe 4 0,39 0,19 0,16 0,01 -0,03 0,12 0,11 -0,72 0,26 -0,08 0,00 -0,40 Axe 5 0,34 0,25 -0,07 -0,04 0,28 0,16 0,30 0,22 -0,53 -0,29 -0,44 -0,16

On peut ainsi dire que :


Axe 1 = 0.30

Instituteur Moy ( Instituteur ) Chauffeur d'autobus Moy (Chauffeur d'autobus ) 0,30 ... ET ( Instituteur ) ET (Chauffeur d'autobus )

8.4

Note sur les Cosinus Carrs et les Contributions

La sortie COPRI-6 ne donne pas les cosinus carrs et les contributions des variables continues actives sur les 5 premiers axes. Cependant, partir des rsultats prcdents, on peut aisment les obtenir. Comme pour les points-lignes, on peut donc dfinir les cosinus carrs et les contributions pour les variables. Les cosinus carrs se dfinissent comme le quotient entre la distance projete sur un axe et la distance lorigine (les deux au carr). On sait que la distance dune variable lorigine est gale sa variance :

54

SPAD

Analyse en composantes principales (COPRI)

COS ( j , ) =

2 j
var( j)

avec j la coordonne de la variable j sur laxe .

La somme des cosinus carrs pour tous les axes est toujours gale l'unit :

=1

COS 2 ( j , ) = 1

En ACP norme les variances sont gales l'unit. Les cosinus carrs concideront avec le carr des coordonnes des variables :

& COS 2 ( j, ) = 2 en ACP normee j


Et dans tous le cas:

COS 2 ( j , ) = CORR 2 (VARIABLE, FACTEUR )


La contribution dune variable l'inertie d'un axe est la part de l'inertie de l'axe due la variable. L'inertie sur un axe scrit :

2 j
j=1

La contribution d'une variable la construction de laxe est:

2 j CTR( j, ) = =

u j

= u 2 j

Or u j est la coordonne de lancien axe unitaire porteur de la variable j sur laxe factoriel . On a donc le rsultat suivant:

CTR( j , ) = ( ANCIEN AXE UNIT.)2


Pour connatre la contribution d'une variable la formation d'un axe, il suffit d'lever au carr chaque composante du vecteur u. Ces contributions indiquent quelles variables sont responsables de la formation des axes. L'addition de toutes les contributions sur un axe est gale 1 (ou 100 en pourcentage).

j=1

CTR ( j , ) = 100

Les composantes de u donnent galement les combinaisons linaires des variables d'origine qui dfinissent les nouvelles variables de variance maximale. Par exemple, l'expression de la premire composante sera:

1 = 0.30 z INST 0.30 zCHAU 0.29 z MECA 0.28 z MANO 0.30 zOUTI 0.27 zCUIS 0.26 zCHEF 0.28 z INGE 0.28 zCAIS 0.31zSECR 0.30 zVEND 0.29 zOUVR
O z indique la valeur de la variable centre et rduite (car nous sommes en ACP norme). La premire composante est dfinie ici par des coefficients similaires entre eux, et dfinit donc une variable proche de la moyenne des salaires. Ces composantes uj dfinissent aussi la projection des anciens axes unitaires sur les nouveaux axes obtenus.

55

SPAD

Analyse en composantes principales (COPRI)

9.

COPRI-7 : Coordonnes, Corrlations des variables illustratives avec les 5 premiers axes

Cette sortie prsente les coordonnes factorielles des variables continues illustratives ainsi que leur corrlation avec les 5 premiers axes de lanalyse. Du fait de lanalyse norme, les corrlations concident avec les coordonnes. Nous ne prsenterons donc dans le tableau suivant que les corrlations des variables illustratives avec les 5 premiers axes. Les variables continues illustratives sont positionnes en utilisant les mmes formules que pour les variables actives. Dans le cas de l'ACP norme, on utilise la corrlation avec les composantes principales. Dans le cas dune ACP non norme, il suffit de multiplier la corrlation par lcart-type de la variable. La position des variables par rapport aux axes factoriels s'interprte comme pour les variables actives. La position d'une variable illustrative dans le plan factoriel permet de visualiser la relation de la variable avec l'ensemble des variables actives par l'intermdiaire des axes factoriels. On notera cependant qu'aucune distance n'a t dfinie entre deux variables illustratives. Leurs positions relatives ne prsupposent aucune corrlation entre ces variables. Cependant, dans la mesure o les variables illustratives sont bien reprsentes sur le premier plan factoriel et proches l'une de l'autre, on peut attendre que la similitude de leurs corrlations avec les axes (similitude de leurs coordonnes) soit la consquence d'une forte corrlation entre elles.
Corrlations des variables illustratives avec les facteurs Libell de la variable Axe 1 -0,68 I_prix sans loyer -0,68 I_prix avec loyer -0,95 I_salaires bruts -0,98 I_salaires nets 0,33 Heures travail annuelles 0,03 Vacances annuelles payees -0,87 Pouvoir d'achat brut -0,90 Pouvoir d'achat net 0,55 Kg pain=temps de travail 0,52 Hamb=temps de travail -0,58 Denres alimentaires -0,69 Panier complet -0,50 Dames vetements -0,54 Hommes vetements -0,14 4pices appart meubl -0,01 3pices appart non meubl -0,62 Loyer normale 0,11 Appareils mnagers -0,69 Bus tram ou metro -0,72 Taxi 0,02 Voitures -0,49 Restaurant -0,42 Nuit d'htel -0,78 Services diverses -0,41 Impots et cotisations sociales en % salaire brut Salaire horaire net -0,98 Axe 2 0,05 0,10 -0,19 -0,13 0,30 0,27 -0,26 -0,20 -0,03 -0,03 0,06 0,05 0,24 0,30 0,24 0,11 0,14 0,09 -0,21 -0,14 -0,05 0,01 0,19 0,00 -0,44 -0,14 Axe 3 -0,02 -0,04 -0,04 -0,02 0,14 -0,24 0,01 0,03 -0,12 -0,12 -0,01 -0,02 0,12 0,28 -0,07 -0,19 -0,05 -0,17 -0,01 -0,20 -0,18 0,02 -0,24 -0,02 -0,09 -0,02 Axe 4 -0,09 -0,15 -0,04 -0,01 0,10 0,13 -0,08 -0,05 0,07 0,15 0,04 -0,10 -0,11 -0,18 -0,21 -0,17 -0,09 0,10 -0,21 -0,01 -0,23 -0,25 -0,13 -0,21 -0,18 -0,01 Axe 5 -0,27 -0,17 -0,07 -0,02 0,16 -0,08 0,05 0,11 -0,03 -0,01 -0,25 -0,27 -0,19 -0,10 0,24 0,18 0,14 -0,45 -0,19 -0,23 0,04 0,03 -0,31 -0,23 -0,25 -0,03

Interprtation Sur le premier axe factoriel, mme si les corrlations avec les variables "indice des prix" sont relativement plus faibles que les corrlations avec les "indices de salaire", ce sont ces mmes villes, les plus chres, qui ont le meilleur pouvoir d'achat.

56

SPAD

Analyse en composantes principales (COPRI)

10. COPRI-8 : Matrice des corrlations permute suivant le premier facteur


On dite dans cette sortie la matrice des corrlations entre les variables actives ordonnes selon leur coordonne sur le premier axe factoriel de l'analyse.
Matrice des corrlations permute suivant le premier facteur
Secrtaire Chauffeur Ouvrire Mcanicie Vendeuse Tourneur Instituteur Ingeniur direction d'autobus du textile n autos Secrtaire direction Vendeuse Chauffeur d'autobus Tourneur Instituteur Ouvrire du textile Mcanicien autos Ingeniur Manoeuvre du Caissier de banque Cuisinier chef Chef de service 1,00 0,94 0,93 0,92 0,92 0,93 0,88 0,87 0,86 0,87 0,80 0,80 1,00 0,89 0,88 0,88 0,89 0,89 0,85 0,86 0,85 0,85 0,79 Manoeuvre Caissier Cuisinier Chef de du de banque chef service btiment

1,00 0,94 0,96 0,92 0,89 0,82 0,88 0,80 0,76 0,74

1,00 0,91 0,94 0,93 0,80 0,93 0,72 0,76 0,69

1,00 0,88 0,84 0,81 0,83 0,82 0,75 0,78

1,00 0,89 0,81 0,92 0,73 0,71 0,65

1,00 0,74 0,95 0,70 0,80 0,64

1,00 0,70 0,85 0,82 0,87

1,00 0,64 0,72 0,59

1,00 0,79 0,89

1,00 0,82

1,00

11. COPRI-9 : Coordonnes, Contributions, Cosinus Carrs des individus actifs


11.1 Coordonnes des individus actifs
Le tableau ci-aprs donne les coordonnes des individus actifs. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque ville, dans ce cas uniforme (1.96=100/51). Distance l'origine : carr de la distance de la ville au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les villes les plus moyennes (les plus proches du centre de gravit), comme Helsinki, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme Zurich ou Tokyo. La distance au centre est en quelque sorte un critre doriginalit de llment. Axe 1 Axe 5 : coordonnes obtenues par projection des villes sur les axes factoriels. La reprsentation sur le premier plan factoriel est obtenue partir des coordonnes sur les deux premiers facteurs (axe1 et axe2).

57

SPAD
Coordonnes des individus actifs Poids Distance Identificateur relatif l'origine 1,96 27,16 AbuDhabi94 1,96 3,22 Amsterdam94 1,96 4,24 Athenes94 1,96 9,87 Bangkok94 1,96 7,14 Bogota94 1,96 21,11 Bombay94 Bruxelles94 1,96 0,74 1,96 17,74 Budapest94 1,96 5,39 BuenosAires94 1,96 18,07 Caracas94 1,96 23,64 Chicago94 1,96 7,43 Copenhague94 1,96 0,79 Dublin94 Dusseldorf94 1,96 8,32 1,96 10,12 Frankfurt94 1,96 42,20 Geneve94 1,96 0,49 Helsinki94 1,96 3,61 Hongkong94 1,96 15,21 Houston94 1,96 16,92 Jakarta94 1,96 4,88 Johannesburg94 1,96 23,54 Lagos94 1,96 5,00 Lisboa94 1,96 0,76 London94 1,96 18,89 LosAngeles94 1,96 32,79 Luxembourg94 Madrid94 1,96 0,89 1,96 7,17 Manama94 1,96 16,51 Manila94 1,96 8,63 Mexico94 1,96 0,69 Milan94 1,96 5,68 Montreal94 1,96 23,45 Nairobi94 1,96 23,01 NewYork94 1,96 3,56 Nicosia94 1,96 3,98 Oslo94 1,96 5,97 Panama94 1,96 5,31 Paris94 1,96 18,69 Prague94 RiodeJaneiro94 1,96 12,22 1,96 10,33 SaoPaulo94 1,96 0,69 Seoul94 1,96 2,64 Singapore94 1,96 2,16 Stockholm94 1,96 0,62 Sidney94 1,96 6,07 Taipei94 1,96 3,35 Tel-Aviv94 1,96 46,73 Tokyo94 1,96 4,86 Toronto94 1,96 4,07 Vienna94 Zurich94 1,96 65,45

Analyse en composantes principales (COPRI)

Axe 1 -2,17 -1,58 1,91 2,97 2,47 4,56 -0,61 4,19 0,89 4,24 -4,42 -2,37 0,27 -2,72 -3,05 -6,36 -0,03 1,03 -3,45 4,08 2,08 4,81 2,17 0,02 -3,64 -5,24 0,06 0,82 4,05 2,83 -0,02 -2,17 4,82 -4,60 1,78 -1,66 2,22 -1,65 4,29 3,40 3,18 0,61 1,16 -0,67 -0,03 -1,64 1,41 -6,72 -1,77 -1,86 -7,90

Axe 2 4,61 -0,36 -0,51 0,82 0,66 -0,31 -0,17 -0,24 1,23 -0,06 -1,25 -0,83 -0,19 0,24 0,63 -0,30 -0,51 0,54 -0,78 -0,20 -0,02 -0,43 -0,28 -0,63 -1,80 0,69 0,00 2,05 -0,03 -0,07 -0,34 -0,77 -0,26 -0,30 -0,27 -0,73 0,62 1,41 -0,31 0,28 -0,01 -0,04 -0,16 -0,98 -0,21 -0,27 0,00 0,72 -1,06 -0,11 0,29

Axe 3 0,75 -0,58 -0,08 -0,22 0,14 -0,26 0,25 -0,16 -0,31 -0,01 0,41 0,74 -0,63 -0,64 -0,25 -0,75 -0,03 -0,57 1,37 -0,11 -0,12 -0,34 -0,14 -0,19 -0,34 -1,91 0,32 0,70 -0,10 0,12 0,22 0,40 -0,20 0,99 -0,27 0,02 0,02 0,07 -0,13 -0,41 -0,13 0,01 -0,32 0,13 0,32 1,36 0,98 0,13 0,57 0,36 -1,18

Axe 4 -0,42 -0,22 0,17 -0,10 -0,31 0,28 -0,12 0,28 -0,20 0,04 0,61 -0,42 -0,22 0,08 -0,01 0,76 -0,05 -0,73 -0,23 0,21 -0,20 0,25 0,09 -0,21 -1,09 -0,09 0,09 0,81 0,19 -0,32 -0,14 -0,09 0,25 -0,35 0,26 -0,37 0,20 -0,53 0,36 0,02 0,04 0,21 -0,69 -0,19 0,20 1,02 0,15 0,05 0,16 -0,61 1,12

Axe 5 0,18 0,12 -0,04 0,25 0,26 0,02 -0,26 0,01 -1,59 0,07 1,08 -0,49 -0,10 0,21 0,15 -0,40 -0,04 0,49 0,04 0,14 0,12 -0,04 -0,21 0,18 0,33 0,78 -0,27 0,62 0,12 0,25 -0,37 -0,20 0,03 0,35 0,10 -0,38 -0,33 -0,05 0,01 -0,05 0,11 -0,32 0,18 -0,51 -0,33 0,10 0,25 -0,47 0,20 0,02 -0,33

Interprtation Le premier axe oppose les villes Zurich, Tokyo, Genve et Luxembourg dune part aux villes Manila, Jakarta, Budapest, Caracas, Prague, Bombay, Lagos et Nairobi. Les villes dont les coordonnes sont proches de zro pour laxe 1 sont proches du centre de gravit et peuvent donc tre considres comme des villes moyennes de cet axe dinformation. Remarque : le sens d'un axe factoriel est arbitraire : seule la direction compte. On change le sens d'un axe en inversant les signes de toutes les coordonnes. Graphiquement, cela signifie que toutes les symtries sont autorises : l'utilisateur choisit la reprsentation qui lui convient le mieux.

11.2

Contributions des individus actifs

Le tableau ci-aprs donne les contributions des individus actifs la cration des cinq premiers axes factoriels. Ce tableau se compose de 8 colonnes :

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque ville, dans ce cas uniforme (1.96=100/51). Distance l'origine : carr de la distance de la ville au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les villes les plus moyennes (les plus proches du centre de gravit), comme Helsinki, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme Zurich ou Tokyo. La distance au centre est en quelque sorte un critre doriginalit de llment.

58

SPAD

Analyse en composantes principales (COPRI)

Axe 1 Axe 5 : contributions (en pourcentage) des villes l'inertie porte par chaque axe. Nous pouvons mesurer la part d'inertie d'un point-ligne par le quotient :

CTR (i, ) =

pi i2

100

Il s'agit de la contribution du point i la fabrication de l'axe avec : Pi le poids de i (1/51),


i la coordonnes de lindividu i sur laxe et la valeur propre de laxe .

Contributions des individus actifs Poids Distance Identificateur relatif l'origine 1,96 27,16 AbuDhabi94 1,96 3,22 Amsterdam94 1,96 4,24 Athenes94 1,96 9,87 Bangkok94 1,96 7,14 Bogota94 1,96 21,11 Bombay94 1,96 0,74 Bruxelles94 Budapest94 1,96 17,74 1,96 5,39 BuenosAires94 Caracas94 1,96 18,07 1,96 23,64 Chicago94 1,96 7,43 Copenhague94 1,96 0,79 Dublin94 1,96 8,32 Dusseldorf94 1,96 10,12 Frankfurt94 1,96 42,20 Geneve94 1,96 0,49 Helsinki94 1,96 3,61 Hongkong94 Houston94 1,96 15,21 1,96 16,92 Jakarta94 Johannesburg94 1,96 4,88 1,96 23,54 Lagos94 1,96 5,00 Lisboa94 1,96 0,76 London94 1,96 18,89 LosAngeles94 1,96 32,79 Luxembourg94 1,96 0,89 Madrid94 1,96 7,17 Manama94 1,96 16,51 Manila94 1,96 8,63 Mexico94 1,96 0,69 Milan94 Montreal94 1,96 5,68 1,96 23,45 Nairobi94 NewYork94 1,96 23,01 1,96 3,56 Nicosia94 1,96 3,98 Oslo94 1,96 5,97 Panama94 1,96 5,31 Paris94 1,96 18,69 Prague94 1,96 12,22 RiodeJaneiro94 1,96 10,33 SaoPaulo94 1,96 0,69 Seoul94 Singapore94 1,96 2,64 1,96 2,16 Stockholm94 Sidney94 1,96 0,62 1,96 6,07 Taipei94 1,96 3,35 Tel-Aviv94 1,96 46,73 Tokyo94 1,96 4,86 Toronto94 1,96 4,07 Vienna94 Zurich94 1,96 65,45

Axe 1 0,91 0,48 0,71 1,71 1,18 4,03 0,07 3,39 0,15 3,48 3,77 1,09 0,01 1,43 1,80 7,82 0,00 0,21 2,30 3,22 0,84 4,47 0,91 0,00 2,57 5,30 0,00 0,13 3,17 1,55 0,00 0,91 4,50 4,09 0,61 0,53 0,96 0,53 3,56 2,24 1,96 0,07 0,26 0,09 0,00 0,52 0,38 8,72 0,60 0,67 12,08

Axe 2 48,42 0,29 0,58 1,53 0,99 0,22 0,07 0,13 3,43 0,01 3,55 1,58 0,08 0,13 0,90 0,21 0,60 0,66 1,37 0,09 0,00 0,42 0,18 0,91 7,39 1,07 0,00 9,60 0,00 0,01 0,26 1,34 0,15 0,20 0,16 1,21 0,88 4,50 0,22 0,18 0,00 0,00 0,06 2,20 0,10 0,17 0,00 1,18 2,53 0,03 0,20

Axe 3 3,41 2,02 0,03 0,29 0,11 0,39 0,38 0,16 0,58 0,00 1,03 3,27 2,39 2,47 0,37 3,38 0,01 1,98 11,29 0,07 0,09 0,70 0,12 0,21 0,72 22,14 0,61 2,92 0,06 0,09 0,29 0,97 0,23 5,96 0,44 0,00 0,00 0,03 0,11 1,00 0,11 0,00 0,63 0,10 0,64 11,16 5,76 0,11 1,95 0,80 8,44

Axe 4 2,06 0,56 0,35 0,11 1,11 0,91 0,16 0,89 0,45 0,02 4,23 2,03 0,56 0,08 0,00 6,55 0,02 6,05 0,60 0,51 0,44 0,72 0,09 0,50 13,71 0,09 0,10 7,47 0,43 1,20 0,22 0,09 0,72 1,43 0,80 1,57 0,44 3,26 1,49 0,00 0,02 0,53 5,45 0,43 0,48 11,93 0,27 0,03 0,28 4,29 14,28

Axe 5 0,43 0,20 0,03 0,84 0,88 0,00 0,88 0,00 33,49 0,07 15,44 3,11 0,14 0,57 0,31 2,13 0,02 3,22 0,02 0,28 0,18 0,02 0,57 0,44 1,43 8,03 0,96 5,08 0,18 0,81 1,85 0,52 0,01 1,66 0,14 1,89 1,45 0,03 0,00 0,03 0,17 1,35 0,41 3,49 1,40 0,13 0,84 2,89 0,52 0,00 1,44

Interprtation Les contributions des points-lignes servent dtecter les villes qui contribuent le plus la formation des axes factoriels. Si toutes les villes avaient la mme contribution, celle-ci devrait osciller autour de 2% (100/51). Les villes avec des contributions suprieures 2% ont une influence suprieure la moyenne. Quand la valeur d'une contribution est-elle "leve"? La rponse n'est pas simple. Une contribution sera juge leve quand, en la comparant au reste des contributions, elle aura une valeur "anormalement" grande. Par exemple, la ville qui contribue le plus au second axe est Abu Dhabi (48%). Presque la moiti de l'inertie de cet axe est due une seule ville. Cette ville est clairement influente pour la fabrication de cet axe. Tous les points actifs interviennent dans la fabrication d'un axe. On vrifie donc que l'addition de toutes les contributions sur un axe est 100.

i=1

CTR (i , ) = 100

59

SPAD

Analyse en composantes principales (COPRI)

11.3

Cosinus Carrs des individus actifs

Le tableau ci-aprs donne les cosinus carrs des individus actifs pour les cinq premiers axes factoriels. Ce tableau se compose de 8 colonnes :

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque ville, dans ce cas uniforme (1.96=100/51). Distance l'origine : carr de la distance de la ville au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les villes les plus moyennes (les plus proches du centre de gravit), comme Helsinki, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme Zurich ou Tokyo. La distance au centre est en quelque sorte un critre doriginalit de llment. Axe 1 Axe 5 : cosinus carrs, utilisables pour apprcier la qualit du positionnement des points en reprsentation factorielle compar leur configuration relle. Un cosinus carr gal 1 indique que la ville se trouve situe sur l'axe. Un cosinus carr gal 0 indique que la ville est dans une direction orthogonale l'axe.
Cosinus carrs des individus actifs Poids Distance Identificateur relatif l'origine 1,96 27,16 AbuDhabi94 1,96 3,22 Amsterdam94 1,96 4,24 Athenes94 1,96 9,87 Bangkok94 1,96 7,14 Bogota94 1,96 21,11 Bombay94 1,96 0,74 Bruxelles94 1,96 17,74 Budapest94 1,96 5,39 BuenosAires94 1,96 18,07 Caracas94 1,96 23,64 Chicago94 1,96 7,43 Copenhague94 1,96 0,79 Dublin94 Dusseldorf94 1,96 8,32 Frankfurt94 1,96 10,12 Geneve94 1,96 42,20 Helsinki94 1,96 0,49 Hongkong94 1,96 3,61 Houston94 1,96 15,21 Jakarta94 1,96 16,92 Johannesburg94 1,96 4,88 Lagos94 1,96 23,54 Lisboa94 1,96 5,00 London94 1,96 0,76 LosAngeles94 1,96 18,89 Luxembourg94 1,96 32,79 Madrid94 1,96 0,89 Manama94 1,96 7,17 Manila94 1,96 16,51 Mexico94 1,96 8,63 1,96 0,69 Milan94 1,96 5,68 Montreal94 1,96 23,45 Nairobi94 1,96 23,01 NewYork94 1,96 3,56 Nicosia94 1,96 3,98 Oslo94 1,96 5,97 Panama94 1,96 5,31 Paris94 1,96 18,69 Prague94 1,96 12,22 RiodeJaneiro94 1,96 10,33 SaoPaulo94 1,96 0,69 Seoul94 1,96 2,64 Singapore94 1,96 2,16 Stockholm94 1,96 0,62 Sidney94 1,96 6,07 Taipei94 1,96 3,35 Tel-Aviv94 1,96 46,73 Tokyo94 1,96 4,86 Toronto94 1,96 4,07 Vienna94 Zurich94 1,96 65,45

Axe 1 0,17 0,77 0,86 0,89 0,86 0,99 0,50 0,99 0,15 1,00 0,82 0,76 0,10 0,89 0,92 0,96 0,00 0,30 0,78 0,98 0,88 0,98 0,94 0,00 0,70 0,84 0,00 0,09 0,99 0,93 0,00 0,83 0,99 0,92 0,89 0,69 0,83 0,51 0,98 0,95 0,98 0,54 0,51 0,21 0,00 0,45 0,59 0,97 0,64 0,85 0,95

Axe 2 0,78 0,04 0,06 0,07 0,06 0,00 0,04 0,00 0,28 0,00 0,07 0,09 0,05 0,01 0,04 0,00 0,53 0,08 0,04 0,00 0,00 0,01 0,02 0,52 0,17 0,01 0,00 0,59 0,00 0,00 0,17 0,10 0,00 0,00 0,02 0,13 0,06 0,37 0,01 0,01 0,00 0,00 0,01 0,45 0,07 0,01 0,00 0,01 0,23 0,00 0,00

Axe 3 0,02 0,10 0,00 0,00 0,00 0,00 0,08 0,00 0,02 0,00 0,01 0,07 0,50 0,05 0,01 0,01 0,00 0,09 0,12 0,00 0,00 0,00 0,00 0,05 0,01 0,11 0,11 0,07 0,00 0,00 0,07 0,03 0,00 0,04 0,02 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,04 0,01 0,17 0,30 0,29 0,00 0,07 0,03 0,02

Axe 4 0,01 0,02 0,01 0,00 0,01 0,00 0,02 0,00 0,01 0,00 0,02 0,02 0,06 0,00 0,00 0,01 0,00 0,15 0,00 0,00 0,01 0,00 0,00 0,06 0,06 0,00 0,01 0,09 0,00 0,01 0,03 0,00 0,00 0,01 0,02 0,03 0,01 0,05 0,01 0,00 0,00 0,07 0,18 0,02 0,07 0,17 0,01 0,00 0,01 0,09 0,02

Axe 5 0,00 0,00 0,00 0,01 0,01 0,00 0,09 0,00 0,47 0,00 0,05 0,03 0,01 0,01 0,00 0,00 0,00 0,07 0,00 0,00 0,00 0,00 0,01 0,04 0,01 0,02 0,08 0,05 0,00 0,01 0,20 0,01 0,00 0,01 0,00 0,04 0,02 0,00 0,00 0,00 0,00 0,15 0,01 0,12 0,17 0,00 0,02 0,00 0,01 0,00 0,00

Interprtation Les images obtenues (plans factoriels) sont des approximations de la configuration relle. Il y aura des distances entre couples de points bien reprsentes, tandis que d'autres ne reflteront pas fidlement la distance relle entre les points. Si deux points sont proches du plan factoriel, alors la distance reprsente sera une bonne approximation la distance relle. Mais si au moins un point est loign du plan de projection, alors la distance relle peut tre diffrente de celle reprsente sur le plan. Cette proximit du plan factoriel de projection est mesure par les cosinus carrs de chaque point avec les axes factoriels.

60

SPAD

Analyse en composantes principales (COPRI)

COS (i , ) = 2 d (i , G )
Un cosinus carr gal 1 indique que la ville se trouve situe sur l'axe (l'angle est nul). Un cosinus carr gal 0 indique que la ville est dans une direction orthogonale l'axe. En additionnant les cosinus carrs par rapport aux p axes factoriels, nous obtiendrons l'unit, car il faut utiliser tous les axes factoriels pour positionner exactement le point dans l'espace complet.

2 i

=1

COS 2 (i , ) = 1

L'addition des cosinus carrs d'un point sur diffrents axes donne, en pourcentage, la "qualit" de la reprsentation du point sur le sous-espace dfini par ces axes. A partir de quelle valeur des cosinus carrs dira-t-on qu'un point est "bien reprsent" sur le plan factoriel? Comme pour les contributions, la question n'est pas simple. On apprciera une valeur par rapport l'ensemble des autres valeurs. Nous devrons comparer les cosinus carrs (ou leur somme sur les deux premiers axes si nous travaillons sur le premier plan factoriel) pour pouvoir rpondre cette question. Dans notre exemple, les villes sont en gnral bien reprsentes dans les deux premiers axes (avec une somme des cosinus carrs proche de 1). Seules Dublin, Madrid, Sidney ou Milan, proches du centre, sont mal reprsentes sur le premier plan. Bombay ou Caracas et d'une faon gnrale les points excentrs, sont bien reprsents Les villes les moins bien reprsentes dans le premier plan factoriel sont des villes moyennes (proches du centre). On ne peut interprter avec scurit les proximits entre les villes que si elles sont bien reprsentes dans le plan factoriel.

12. COPRI-10 : Coordonnes, Cosinus Carrs des individus illustratifs


12.1 Coordonnes des individus illustratifs
Le tableau ci-aprs donne les coordonnes des individus actifs. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque ville, dans ce cas uniforme (1.96=100/51). Distance l'origine : carr de la distance de la ville au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les villes les plus moyennes (les plus proches du centre de gravit), comme Helsinki, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme Zurich ou Tokyo. La distance au centre est en quelque sorte un critre doriginalit de llment. Axe 1 Axe 5 : coordonnes obtenues par projection des villes sur les axes factoriels. La reprsentation sur le premier plan factoriel est obtenue partir des coordonnes sur les deux premiers facteurs (axe1 et axe2).

61

SPAD Le tableau suivant a t tronqu.


Coordonnes des individus illustratifs Poids Distance Identificateur relatif l'origine 1,96 0,00 AbuDhabi91 1,96 0,59 Amsterdam91 1,96 4,19 Athenes91 1,96 0,00 Bangkok91 1,96 12,34 Bogota91 1,96 20,98 Bombay91 1,96 0,41 Bruxelles91 1,96 0,00 Budapest91 1,96 11,95 BuenosAires91 1,96 14,47 Caracas91 1,96 7,58 Chicago91 1,96 3,63 Copenhague91 1,96 0,75 Dublin91 1,96 4,55 Dusseldorf91 1,96 3,63 Frankfurt91 1,96 30,75 Geneve91 1,96 3,11 Helsinki91 1,96 1,53 Hongkong91 1,96 1,17 Houston91 1,96 18,96 Jakarta91 1,96 5,41 Johannesburg91

Analyse en composantes principales (COPRI)

Axe 1 0,00 -0,19 1,81 0,00 3,41 4,55 -0,23 0,00 3,25 3,71 -2,20 -1,53 0,48 -1,76 -1,34 -5,36 -1,52 1,01 0,25 4,32 2,19

Axe 2 0,00 -0,46 -0,55 0,00 0,16 -0,33 0,02 0,00 0,67 0,05 -1,04 -0,77 -0,13 0,37 0,20 -0,31 -0,80 -0,14 -0,71 0,21 -0,17

Axe 3 0,00 -0,07 0,41 0,00 0,61 -0,24 0,31 0,00 -0,15 0,61 0,45 0,45 -0,50 -0,16 -0,76 0,04 0,23 -0,05 0,48 0,09 0,01

Axe 4 0,00 -0,22 0,09 0,00 -0,09 0,24 -0,13 0,00 0,03 0,34 -0,25 -0,52 -0,22 -0,55 -0,07 0,39 -0,05 0,32 -0,12 0,30 0,10

Axe 5 0,00 -0,17 0,30 0,00 0,34 0,02 -0,09 0,00 0,32 0,18 0,79 -0,37 -0,05 0,71 0,51 0,35 -0,07 0,22 0,15 0,18 0,21

Interprtation Linterprtation des coordonnes des individus illustratifs se fait de la mme manire que pour les individus actifs. Dans le tableau ci-dessus, on constate que les villes Abudhabi, Bangkok et Budapest prsentent une distance nulle lorigine. En effet, ces villes ntaient pas renseignes pour les variables actives slectionnes. SPAD remplace automatiquement toute donne manquante par la moyenne de la variable correspondante. Ces villes se sont donc vues affecter la valeur moyenne pour chaque variable active de lanalyse. Il est donc normal quelles soient confondues avec le centre de gravit du nuage.

12.2

Cosinus Carrs des individus illustratifs

Le tableau ci-aprs donne les cosinus carrs des individus actifs pour les cinq premiers axes factoriels. Ce tableau se compose de 8 colonnes :

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque ville, dans ce cas uniforme (1.96=100/51). Distance l'origine : carr de la distance de la ville au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les villes les plus moyennes (les plus proches du centre de gravit), comme Helsinki, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme Zurich ou Tokyo. La distance au centre est en quelque sorte un critre doriginalit de llment. Axe 1 Axe 5 : cosinus carrs, utilisables pour apprcier la qualit du positionnement des points en reprsentation factorielle compar leur configuration relle. Un cosinus carr gal 1 indique que la ville se trouve situe sur l'axe. Un cosinus carr gal 0 indique que la ville est dans une direction orthogonale l'axe.

Le tableau suivant a t tronqu. 62

SPAD

Analyse en composantes principales (COPRI)

Cosinus carrs des individus illustratifs Poids Distance Identificateur relatif l'origine 1,96 0,00 AbuDhabi91 1,96 0,59 Amsterdam91 1,96 4,19 Athenes91 1,96 0,00 Bangkok91 1,96 12,34 Bogota91 1,96 20,98 Bombay91 1,96 0,41 Bruxelles91 1,96 0,00 Budapest91 1,96 11,95 BuenosAires91 1,96 14,47 Caracas91 1,96 7,58 Chicago91 1,96 3,63 Copenhague91 1,96 0,75 Dublin91 1,96 4,55 Dusseldorf91 1,96 3,63 Frankfurt91 1,96 30,75 Geneve91 1,96 3,11 Helsinki91 1,96 1,53 Hongkong91 1,96 1,17 Houston91 1,96 18,96 Jakarta91 1,96 5,41 Johannesburg91

Axe 1 0,00 0,06 0,79 0,00 0,94 0,99 0,12 0,00 0,88 0,95 0,64 0,65 0,31 0,68 0,49 0,94 0,74 0,67 0,05 0,99 0,88

Axe 2 0,00 0,35 0,07 0,00 0,00 0,01 0,00 0,00 0,04 0,00 0,14 0,16 0,02 0,03 0,01 0,00 0,20 0,01 0,43 0,00 0,01

Axe 3 0,00 0,01 0,04 0,00 0,03 0,00 0,23 0,00 0,00 0,03 0,03 0,06 0,33 0,01 0,16 0,00 0,02 0,00 0,19 0,00 0,00

Axe 4 0,00 0,08 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,01 0,01 0,07 0,07 0,07 0,00 0,00 0,00 0,06 0,01 0,00 0,00

Axe 5 0,00 0,05 0,02 0,00 0,01 0,00 0,02 0,00 0,01 0,00 0,08 0,04 0,00 0,11 0,07 0,00 0,00 0,03 0,02 0,00 0,01

Interprtation On procde de la mme manire que pour les individus actifs. Nous sommes en prsence dun cas particulier avec les villes confondues avec lorigine : Abudhabi, Bangkok et Budapest. On ne peut pas calculer leurs cosinus carrs puisque leur distance lorigine est nulle tout comme leurs coordonnes (par dfinition). Or le cosinus carr sobtient par le quotient de la coordonne au carr sur la distance lorigine au carr.

13. COPRI-11 : Coordonnes des modalits illustratives


Le tableau ci-aprs donne les coordonnes des modalits illustratives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit. Effectif : effectif de la modalit. Poids absolu : poids de chaque modalit. Le poids des individus est ici uniforme et gal 1. Distance l'origine : carr de la distance de la modalit au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les modalits les plus moyennes (les plus proches du centre de gravit), comme lEurope du Nord ou lEurope du Sud, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme lEurope Centrale, lAfrique et lEurope Orientale. La distance au centre est en quelque sorte un critre doriginalit de la modalit. Axe 1 Axe 5 : coordonnes des modalits illustratives sur les 5 premiers axes. Une modalit illustrative est positionne comme point moyen des individus actifs qui la composent. Ainsi, sur laxe 1, la coordonne de la modalit Europe du Nord correspond la moyenne pondre des coordonnes des 6 villes quelle englobe : Dublin, Stockholm, London, Copenhague, Oslo, Helsinki. Dans le cas prsent, le poids des ville est uniforme.

63

SPAD
Coordonnes des modalits illustratives
Libell Region du monde NORD EUROPE CENTRAL EUROPE SUD EUROPE AFRIQUE EST ASIE SUD ASIE ET AUSTRALI NORD AMERIQUE SUD AMERIQUE PROCHE ORIENT EUROPE ORIENTAL Effectif 6 9 5 3 5 5 7 6 3 2 Poids absolu 6,00 9,00 5,00 3,00 5,00 5,00 7,00 6,00 3,00 2,00

Analyse en composantes principales (COPRI)

Distance l'origine 1,17305 12,19330 1,61787 15,41930 1,43674 9,83115 7,19935 7,83858 5,76941 18,20720

Axe 1 -0,74 -3,44 1,18 3,90 -1,11 3,13 -2,46 2,74 0,02 4,24

Axe 2 -0,65 0,26 -0,28 -0,24 0,16 0,01 -0,86 0,45 2,22 -0,28

Axe 3 0,01 -0,51 0,01 -0,22 0,12 -0,07 0,50 -0,12 0,81 -0,15

Axe 4 -0,24 0,04 0,10 0,10 -0,03 0,16 -0,19 -0,04 0,18 0,32

Axe 5 -0,22 0,03 -0,16 0,04 0,00 0,04 0,29 -0,25 0,35 0,01

Interprtation Laxe 1 oppose les rgions Europe Orientale, Afrique, Asie du Sud et Australie, Amrique du Sud aux rgions Europe Centrale et Amrique du Nord. Laxe 2 oppose la rgion Proche Orient toutes les autres.

14. COPRI-12 : Valeurs-tests des modalits illustratives


Le tableau ci-aprs donne les coordonnes des modalits illustratives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit. Effectif : effectif de la modalit. Poids absolu : poids de chaque modalit. Le poids des individus est ici uniforme et gal 1. Distance l'origine : carr de la distance de la modalit au centre de gravit de toutes les villes. Cette colonne permet de trouver facilement quelles sont les modalits les plus moyennes (les plus proches du centre de gravit), comme lEurope du Nord ou lEurope du Sud, et celles qui sont les plus originales (celles qui sont plus grande distance du centre de gravit), comme lEurope Centrale, lAfrique et lEurope Orientale. La distance au centre est en quelque sorte un critre doriginalit de la modalit. Axe 1 Axe 5 : valeur-test associe au positionnement de la modalit illustrative sur l'axe par rapport au centre de gravit du nuage. Pour un axe donne et une modalit, on sintresse l'cart entre la moyenne des coordonnes des individus (de la modalit) et la moyenne gnrale (qui est nulle ici). Plus cet cart est "significatif", plus la modalit a une position intressante dans le plan. Plus la v-test est grande (en valeur absolue), plus il est clair que le groupe d'individus occupe une position significative et caractrise la zone du graphique o il se trouve. Au seuil 5%, on considre quun groupe d'individus dfini par une modalit est significativement diffrent des autres individus lorsque sa valeur-test est suprieure 2 en valeur absolue.

64

SPAD
Valeurs-Tests des modalits illustratives
Libell Region du monde NORD EUROPE CENTRAL EUROPE SUD EUROPE AFRIQUE EST ASIE SUD ASIE ET AUSTRALI NORD AMERIQUE SUD AMERIQUE PROCHE ORIENT EUROPE ORIENTAL Effectif 6 9 5 3 5 5 7 6 3 2 Poids absolu 6,00 9,00 5,00 3,00 5,00 5,00 7,00 6,00 3,00 2,00 Distance l'origine 1,17305 12,19330 1,61787 15,41930 1,43674 9,83115 7,19935 7,83858 5,76941 18,20720

Analyse en composantes principales (COPRI)

Axe 1 -0,60 -3,54 0,86 2,17 -0,81 2,29 -2,18 2,22 0,01 1,90

Axe 2 -1,80 0,90 -0,70 -0,45 0,40 0,04 -2,61 1,26 4,23 -0,43

Axe 3 0,03 -2,95 0,04 -0,68 0,50 -0,29 2,49 -0,53 2,51 -0,37

Axe 4 -1,52 0,33 0,54 0,43 -0,15 0,89 -1,29 -0,23 0,77 1,10

Axe 5 -1,50 0,23 -0,96 0,17 -0,02 0,25 2,15 -1,71 1,61 0,04

Interprtation Sur laxe 1, on constate que les rgions Europe Centrale, Afrique, Asie du Sud et Australie, Amrique du Nord, Amrique du Sud occupent une position significativement diffrente de la moyenne.

65

Analyse des correspondances binaires (CORBI)


Cette procdure effectue l'analyse des correspondances d'un tableau de contingence ou, de faon plus gnrale, de tout tableau de nombres non ngatifs. Les lments en colonnes seront toujours appeles "frquences" et les lments en lignes des "individus" ou des "lignes". Fichier utilis : ALCOOL.SBA Paramtrage de la mthode : Tous les individus (lignes) et toutes les frquences (colonnes) sont utiliss.

1.

Prsentation du tableau analys

Nous effectuons lanalyse du tableau suivant auquel on a ajout les marges. Il sagit dtudier la perception de diffrentes boissons alcoolises.
Aime le got Avec des amis Pour se dtendre Qui revient cher Rafrachissante, dsaltrante Peu lgante, peu distingue Produit sympathique Bien avant les repas Bien dans la journe Bien dans la soire Toute l'anne Apprcie des jeunes Volontiers avec invits Vieillotte, dpasse Aussi bien hommes que femmes Trs proche Par habitude Fait snob, m'as-tu vu ? On peut mlanger La nuit/Bar/Disco Total PASTIS 49 83 61 60 78 26 64 88 24 7 83 45 88 12 50 38 36 3 43 12 950 WHISKY 50 83 61 88 22 11 64 79 21 61 87 77 92 4 62 41 30 35 87 91 1146 MARTINI 42 76 51 42 18 13 56 85 12 12 85 36 87 13 69 27 24 9 29 27 813 SUZE 18 60 32 41 19 17 34 64 10 11 79 16 60 38 43 11 16 8 32 16 625 VODKA 25 69 38 75 17 13 45 45 13 53 83 65 70 5 49 16 19 28 82 84 894 GIN 23 68 39 70 19 11 42 46 12 50 82 69 67 6 51 18 19 25 80 81 878 MALIBU 25 69 39 61 14 13 46 37 13 48 80 76 67 8 61 17 17 21 43 72 827 BIERE 59 74 72 19 80 29 68 41 85 54 90 89 81 7 60 49 40 4 40 67 1108 Total 291 582 393 456 267 133 419 485 190 296 669 473 612 93 445 217 201 133 436 450 7241

2.

CORBI-1 : Tableau des valeurs-propres


Numero : numro de laxe factoriel. Valeur propre : la valeur propre (inertie) associe laxe. Pourcentage : indique la part de la valeur propre (ou inertie) prise en compte sur laxe factoriel. Pourcentage cumul : pourcentage cumul des parts de valeurs propres sur les n premiers axes.

Le tableau des valeurs propres est constitu de 4 colonnes.

Le nombre daxes factoriels est gal au minimum entre le nombre de lignes et le nombre de colonnes moins 1, soit Min{20, 8} 1 = 7. La somme des valeurs propres reprsente linertie totale du nuage. Elle correspond la statistique du khi-2. Applique un tableau de contingence, cette statistique mesure lcart 66

SPAD

Analyse des correspondances binaires (CORBI)

entre les effectifs observs et les effectifs thoriques que lon obtiendrait en moyenne si les deux variables taient indpendantes. Le logiciel dite lensemble des valeurs propres, soit 7 valeurs propres.

Tableau des valeurs propres Trace de la matrice: 0.13452


Numro 1 2 3 4 5 6 7 Valeur propre 0,0664 0,0449 0,0124 0,0069 0,0029 0,0008 0,0001 Pourcentage 49,37 33,34 9,24 5,14 2,18 0,63 0,10 Pourcentage cumul 49,37 82,72 91,96 97,09 99,27 99,90 100,00

Interprtation Le premier axe factoriel extrait prs de la moiti de linertie totale. La part dinformation explique par le second axe est importante puisquelle reprsente un tiers de linertie totale. Les trois premiers axes factoriels rsument plus de 90% de linertie totale du nuage. On pourra se servir des plans factoriels 1-2 et 2-3 pour la suite de lanalyse.

3.
3.1

CORBI-2 : Coordonnes, Contributions, Cosinus Carrs des frquences actives


Coordonnes des frquences actives

Le tableau ci-aprs donne les coordonnes des frquences actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la frquence active Poids relatif : poids relatif de la frquence active. Le poids relatif se calcule de la faon suivante : (nq*100) / n avec nq leffectif de la frquence active et n leffectif total. Par exemple pour la frquence active Pastis, P.REL = (950*100) / 7241 = 13,12. Distance l'origine : carr de la distance de la frquence active lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme la frquence active SUZE pour laquelle DISTO = 0,2961). Axe 1 Axe 5 : coordonnes des frquences actives sur les premiers axes.
Coordonnes des frquences actives Poids Libell de la variable relatif 13,12 PASTIS 15,83 WHISKY 11,23 MARTINI 8,63 SUZE 12,35 VODKA 12,13 GIN 11,42 MALIBU BIERE 15,30

Distance l'origine 0,17452 0,05211 0,11073 0,29610 0,09581 0,08348 0,06846 0,23277

Axe 1 0,36 -0,19 0,17 0,22 -0,30 -0,28 -0,21 0,26

Axe 2 0,05 -0,02 0,21 0,43 0,00 0,00 -0,02 -0,39

Axe 3 -0,16 -0,09 -0,09 0,24 0,01 0,01 0,06 0,10

Axe 4 -0,11 0,02 0,17 -0,05 -0,06 -0,06 0,07 0,02

Axe 5 0,04 -0,09 0,00 -0,04 0,00 0,01 0,11 -0,02

67

SPAD

Analyse des correspondances binaires (CORBI)

Le premier axe qui explique prs de la moiti de linformation oppose les alcools PASTIS, BIERE, SUZE, MARTINI aux alcools forts VODKA, GIN, MALIBU et WHISKY. Le second axe qui explique un tiers de linertie totale oppose essentiellement la SUZE et le MARTINI la BIERE.

3.2

Contributions des frquences actives

Le tableau ci-aprs donne les contributions des frquences actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell de la frquence Poids relatif : poids relatif de la frquence active. Le poids relatif se calcule de la faon suivante : (nq*100) / n avec nq leffectif de la frquence active et n leffectif total. Par exemple pour la frquence active Pastis, P.REL = (950*100) / 7241 = 13,12. Distance l'origine : carr de la distance de la frquence active lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme la frquence active SUZE pour laquelle DISTO = 0,2961). Axe 1 Axe 5 : contributions (en pourcentage) des frquences actives sur les 5 premiers axes. Les contributions dcrivent la part de chaque frquence active dans linertie totale de laxe. Pour linterprtation dun axe, on slectionne les modalits qui ont les plus fortes contributions. Nous pouvons mesurer la part d'inertie d'une frquence active par le quotient :

CTR ( j , ) =

p j 2 j

100

Il s'agit de la contribution de la frquence j la fabrication de l'axe avec : Pj le poids de j (950/7241), j la coordonnes de la frquence j sur laxe et la valeur propre de laxe . La somme des contributions de toutes les frquences actives sur un axe est gale 100% (somme en colonne).
Contributions des frquences actives Poids Libell de la variable relatif 13,12 PASTIS 15,83 WHISKY 11,23 MARTINI 8,63 SUZE 12,35 VODKA 12,13 GIN 11,42 MALIBU BIERE 15,30

Distance l'origine 0,17452 0,05211 0,11073 0,29610 0,09581 0,08348 0,06846 0,23277

Axe 1 26,26 8,38 4,87 6,30 16,75 14,28 7,94 15,21

Axe 2 0,61 0,13 10,53 35,59 0,00 0,01 0,06 53,07

Axe 3 26,53 9,73 7,24 40,71 0,03 0,06 3,02 12,69

Axe 4 23,53 0,56 49,75 3,23 7,21 5,89 8,71 1,12

Axe 5 8,31 39,51 0,03 3,86 0,01 0,70 45,87 1,72

Interprtation Si toutes les frquences avaient la mme contribution, celle-ci devrait osciller autour de 14,28% (100% / 7). Les frquences avec des contributions suprieures 14,28% ont une influence suprieure la moyenne.

68

SPAD

Analyse des correspondances binaires (CORBI)

Les frquences actives PASTIS, VODKA, GIN et BIERE contribuent fortement la cration de laxe 1 (72,51% en tout). Sur laxe 2, la BIERE explique plus de la moiti de linertie de laxe, la SUZE en explique plus du tiers. En y ajoutant le MARTINI, on obtient une contribution cumule de plus de 99% avec seulement trois frquences actives.

3.3

Cosinus carrs des frquences actives

Le tableau ci-aprs donne les cosinus carrs des frquences actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit Poids relatif : poids relatif de la frquence active. Le poids relatif se calcule de la faon suivante : (nq*100) / n avec nq leffectif de la frquence active et n leffectif total. Par exemple pour la frquence active Pastis, P.REL = (950*100) / 7241 = 13,12. Distance l'origine : distance de la frquence active lorigine au carr. Cette distance donne une ide du caractre priphrique de certains points (comme la frquence active SUZE pour laquelle DISTO = 0,2961). Axe 1 Axe 5 : cosinus carrs (ou contributions relatives) de chacune des frquences actives sur les premiers axes. Les cosinus carrs concernent la qualit de reprsentation des frquences sur laxe. Pour linterprtation, on slectionne les frquences qui ont les cosinus carrs les plus forts : elles sont les mieux reprsentes au sens o les distances sont les moins altres par la projection. Si la frquence j a pour coordonnes j sur laxe et si le carr de la distance lorigine de cette frquence est d(j,G), le cosinus carr (ou contribution relative) COS(j, ) de la frquence j sur laxe scrit :

COS ( j , ) =
2

2 j
d 2 ( j, G)

On a par exemple pour la frquence PASTIS sur le premier facteur : 0.36 / 0,17 = 0.76. La somme des cosinus carrs dune modalit sur la totalit des axes est gale 1 (somme en ligne tendue tous les axes).

Cosinus carrs des frquences actives Poids Libell de la variable relatif 13,12 PASTIS 15,83 WHISKY 11,23 MARTINI 8,63 SUZE 12,35 VODKA 12,13 GIN 11,42 MALIBU BIERE 15,30

Distance l'origine 0,17452 0,05211 0,11073 0,29610 0,09581 0,08348 0,06846 0,23277

Axe 1 0,76 0,67 0,26 0,16 0,94 0,94 0,67 0,28

Axe 2 0,01 0,01 0,38 0,62 0,00 0,00 0,00 0,67

Axe 3 0,14 0,15 0,07 0,20 0,00 0,00 0,05 0,04

Axe 4 0,07 0,00 0,28 0,01 0,04 0,04 0,08 0,00

Axe 5 0,01 0,14 0,00 0,00 0,00 0,00 0,17 0,00

Interprtation

69

SPAD

Analyse des correspondances binaires (CORBI)

Les alcools VODKA, GIN sont tellement bien reprsents sur le premier axe quil ne faut plus les prendre en compte pour linterprtation des autres axes. On peut dire que les alcools PASTIS, WHISKY, MALIBU sont galement bien reprsents sur laxe 1. En revanche, les alcools MARTINI SUZE et BIERE sont mieux reprsents sur laxe 2. Ce sont les seuls tre bien reprsents sur cet axe.

4.

CORBI-4 : Coordonnes, Contributions, Cosinus Carrs des individus actifs


Coordonnes des individus actifs

4.1

On entend par individus actifs les lignes du tableau de contingence que lon utilise pour lanalyse. Le tableau ci-aprs donne les coordonnes des individus actifs. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de lindividu actif Poids relatif : poids relatif de lindividu actif. Le poids relatif se calcule de la faon suivante : (nq*100) / n avec nq leffectif de lindividu actif et n leffectif total. Par exemple pour lindividu actif Aime le got , P.REL = (291*100) / 7241 = 4,02. Distance l'origine : carr de la distance de lindividu actif lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme lindividu actif Vieillotte, dpasse pour laquelle DISTO = 1,40646). Axe 1 Axe 5 : coordonnes des individus actifs sur les premiers axes.
Coordonnes des individus actifs Identificateur Aime le got Avec des amis Pour se dtendre Qui revient cher Rafrachissante, dsaltrante Peu lgante, peu distingue Produit sympathique Bien avant les repas Bien dans la journe Bien dans la soire Toute l'anne Apprcie des jeunes Volontiers avec invits Vieillotte, dpasse Aussi bien hommes que femmes Trs proche Par habitude Fait snob, m'as-tu vu ? On peut mlanger La nuit/Bar/Disco Poids relatif 4,02 8,04 5,43 6,30 3,69 1,84 5,79 6,70 2,62 4,09 9,24 6,53 8,45 1,28 6,15 3,00 2,78 1,84 6,02 6,21 Distance l'origine 0,07708 0,01368 0,02518 0,11797 0,47791 0,13704 0,01458 0,13546 0,68617 0,24599 0,02156 0,08716 0,01595 1,40646 0,03105 0,11469 0,05316 0,39872 0,13185 0,22897 Axe 1 0,21 0,04 0,14 -0,25 0,56 0,32 0,10 0,18 0,43 -0,40 0,02 -0,17 0,06 0,46 0,01 0,22 0,21 -0,61 -0,31 -0,44 Axe 2 -0,10 0,10 -0,04 0,19 -0,30 -0,03 0,00 0,30 -0,66 -0,26 0,11 -0,22 0,10 0,84 0,09 -0,19 -0,08 0,09 0,03 -0,18 Axe 3 -0,12 0,00 -0,04 -0,09 -0,07 0,12 -0,05 -0,11 0,25 0,12 0,08 0,02 -0,03 0,68 0,02 -0,13 -0,06 -0,03 -0,03 0,07 Axe 4 0,08 0,01 0,04 -0,11 -0,25 -0,11 0,04 0,03 0,04 0,01 0,01 0,03 0,04 -0,11 0,14 0,05 -0,02 -0,02 -0,16 0,02 Axe 5 -0,06 0,04 -0,02 0,03 0,07 0,08 0,01 -0,06 -0,11 -0,03 0,03 0,09 0,01 -0,08 0,06 -0,10 -0,03 -0,09 -0,07 -0,01

Sur le premier axe factoriel, on remarque une opposition entre les apprciations au niveau des boissons alcoolises :

Bien avant les repas, Aime le got, Par habitude, Trs proche, Peu lgante, peu distingue, Bien dans la journe, Vieillotte dpasse, Rafrachissante, dsaltrante.

70

SPAD Soppose :

Analyse des correspondances binaires (CORBI)

Fait snob, m'as-tu vu ?, La nuit/Bar/Disco, Bien dans la soire, On peut mlanger, Qui revient cher, Apprcie des jeunes.

Au niveau des frquences actives, le premier axe oppose les alcools PASTIS, BIERE, SUZE, MARTINI aux alcools VODKA, GIN, MALIBU et WHISKY. Le second axe factoriel marque les oppositions suivantes :

Vieillotte, dpasse, Bien avant les repas, Qui revient cher, Bien dans la journe, Rafrachissante, dsaltrante, Bien dans la soire, Apprcie des jeunes, Trs proche, La nuit/Bar/Disco,

Soppose :

Au niveau des frquences actives, le second axe qui explique un tiers de linertie totale oppose essentiellement la SUZE et le MARTINI la BIERE. Pour linterprtation des axes, il est ncessaire de prendre en compte les contributions et les cosinus carrs. Lapprciation Vieillotte, dpasse qui prsente pourtant une coordonne trs forte sur laxe 1 comparativement aux autres, ne contribue que trs faiblement sa cration. Elle est de plus lune des apprciations les plus mal reprsentes sur cet axe. On ne la prendra pas en compte pour linterprtation du premier axe.

4.2

Contributions des individus actifs

Le tableau ci-aprs donne les contributions des individus actifs. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell de lindividu actif Poids relatif : poids relatif de lindividu actif. Le poids relatif se calcule de la faon suivante : (nq*100) / n avec nq leffectif de lindividu actif et n leffectif total. Par exemple pour lindividu actif Aime le got , P.REL = (291*100) / 7241 = 4,02. Distance l'origine : carr de la distance de lindividu actif lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme lindividu actif Vieillotte, dpasse pour laquelle DISTO = 1,40646). Axe 1 Axe 5 : contributions (en pourcentage) des individus actifs sur les 5 premiers axes. Les contributions dcrivent la part de chaque individu actif dans linertie totale de laxe. Pour linterprtation dun axe, on slectionne les individus qui ont les plus fortes contributions. Nous pouvons mesurer la part d'inertie d'un individu actif par le quotient :

CTR (i, ) =

pi i2

100

Il s'agit de la contribution de lindividu i la fabrication de l'axe avec : Pi le poids de i (291/7241), i la coordonnes de lindividu i sur laxe et la valeur propre de laxe . La somme des contributions de toutes les individus actifs sur un axe est gale 100% (somme en colonne).

71

SPAD

Analyse des correspondances binaires (CORBI)

Contributions des individus actifs Identificateur Aime le got Avec des amis Pour se dtendre Qui revient cher Rafrachissante, dsaltrante Peu lgante, peu distingue Produit sympathique Bien avant les repas Bien dans la journe Bien dans la soire Toute l'anne Apprcie des jeunes Volontiers avec invits Vieillotte, dpasse Aussi bien hommes que femmes Trs proche Par habitude Fait snob, m'as-tu vu ? On peut mlanger La nuit/Bar/Disco Poids relatif 4,02 8,04 5,43 6,30 3,69 1,84 5,79 6,70 2,62 4,09 9,24 6,53 8,45 1,28 6,15 3,00 2,78 1,84 6,02 6,21 Distance l'origine 0,07708 0,01368 0,02518 0,11797 0,47791 0,13704 0,01458 0,13546 0,68617 0,24599 0,02156 0,08716 0,01595 1,40646 0,03105 0,11469 0,05316 0,39872 0,13185 0,22897 Axe 1 2,56 0,15 1,63 5,69 17,54 2,87 0,85 3,12 7,15 10,01 0,07 2,83 0,46 4,15 0,01 2,17 1,78 10,45 8,61 17,90 Axe 2 0,91 1,93 0,21 5,03 7,35 0,03 0,00 13,05 25,12 6,03 2,67 7,02 1,72 20,22 1,17 2,29 0,38 0,36 0,13 4,40 Axe 3 4,40 0,01 0,69 4,16 1,51 2,00 1,21 6,74 12,99 5,06 4,23 0,24 0,73 47,52 0,28 4,15 0,76 0,12 0,54 2,68 Axe 4 3,91 0,22 1,13 10,14 33,00 3,02 1,61 0,78 0,52 0,02 0,27 0,71 2,24 2,28 16,28 0,97 0,15 0,11 22,30 0,32 Axe 5 5,17 3,93 0,72 1,83 6,92 3,91 0,23 8,53 10,62 0,93 3,69 17,51 0,17 2,95 6,55 9,58 0,61 4,62 11,43 0,12

Interprtation Si toutes les individus avaient la mme contribution, celle-ci devrait osciller autour de 5% (100% / 20). Les individus avec des contributions suprieures 5% ont une influence suprieure la moyenne. Les individus actifs La nuit/Bar/Disco , Rafrachissante, dsaltrante , Fait snob, m'as-tu vu ? , Bien dans la soire , On peut mlanger , Bien dans la journe , Qui revient cher , contribuent fortement la cration de laxe 1 (77,36% cumul). Sur laxe 2, les apprciations Bien dans la journe , Vieillotte, dpasse , Bien avant les repas , Rafrachissante, dsaltrante , Apprcie des jeunes , Bien dans la soire , Qui revient cher expliquent prs de 85% de linertie de laxe, les apprciations Bien dans la journe et Vieillotte, dpasse en expliquent prs de la moiti elles seules. Pour linterprtation des deux premiers axes factoriels, on prendra en compte les apprciations cites prcdemment. Il faut maintenant sassurer quelles sont bien reprsentes sur ces axes.

4.3

Cosinus carrs des individus actifs

Le tableau ci-aprs donne les cosinus carrs des individus actifs. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit Poids relatif : poids relatif de lindividu actif. Le poids relatif se calcule de la faon suivante : (nq*100) / n avec nq leffectif de lindividu actif et n leffectif total. Par exemple pour lindividu actif Aime le got , P.REL = (291*100) / 7241 = 4,02. Distance l'origine : carr de la distance de lindividu actif lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme lindividu actif Vieillotte, dpasse pour laquelle DISTO = 1,40646). Axe 1 Axe 5 : cosinus carrs (ou contributions relatives) des individus actifs sur les premiers axes. 72

SPAD

Analyse des correspondances binaires (CORBI)

Les cosinus carrs concernent la qualit de reprsentation des individus sur laxe. Pour linterprtation, on slectionne les individus qui ont les cosinus carrs les plus forts : ils sont les mieux reprsentes au sens o les distances sont les moins altres par la projection. Si lindividu i a pour coordonne i sur laxe et si le carr de la distance lorigine de cette individu est d(i,G), le cosinus carr (ou contribution relative) COS(i,) de la individu i sur laxe scrit :

COS (i, ) =
2

i2
d 2 (i, G )

La somme des cosinus carrs dune modalit sur la totalit des axes est gale 1 (somme en ligne tendue tous les axes).
Cosinus carrs des individus actifs Identificateur Aime le got Avec des amis Pour se dtendre Qui revient cher Rafrachissante, dsaltrante Peu lgante, peu distingue Produit sympathique Bien avant les repas Bien dans la journe Bien dans la soire Toute l'anne Apprcie des jeunes Volontiers avec invits Vieillotte, dpasse Aussi bien hommes que femmes Trs proche Par habitude Fait snob, m'as-tu vu ? On peut mlanger La nuit/Bar/Disco Poids relatif 4,02 8,04 5,43 6,30 3,69 1,84 5,79 6,70 2,62 4,09 9,24 6,53 8,45 1,28 6,15 3,00 2,78 1,84 6,02 6,21 Distance l'origine 0,07708 0,01368 0,02518 0,11797 0,47791 0,13704 0,01458 0,13546 0,68617 0,24599 0,02156 0,08716 0,01595 1,40646 0,03105 0,11469 0,05316 0,39872 0,13185 0,22897 Axe 1 0,55 0,09 0,79 0,51 0,66 0,76 0,67 0,23 0,26 0,66 0,02 0,33 0,23 0,15 0,00 0,42 0,80 0,95 0,72 0,84 Axe 2 0,13 0,79 0,07 0,30 0,19 0,01 0,00 0,64 0,63 0,27 0,60 0,55 0,57 0,50 0,28 0,30 0,11 0,02 0,01 0,14 Axe 3 0,18 0,00 0,06 0,07 0,01 0,10 0,18 0,09 0,09 0,06 0,26 0,01 0,07 0,33 0,02 0,15 0,06 0,00 0,01 0,02 Axe 4 0,09 0,01 0,06 0,09 0,13 0,08 0,13 0,01 0,00 0,00 0,01 0,01 0,11 0,01 0,59 0,02 0,01 0,00 0,19 0,00 Axe 5 0,05 0,10 0,02 0,01 0,01 0,05 0,01 0,03 0,02 0,00 0,05 0,09 0,00 0,00 0,10 0,08 0,01 0,02 0,04 0,00

Interprtation Les apprciations Fait snob, m'as-tu vu ? , La nuit/Bar/Disco , Par habitude , Pour se dtendre , Peu lgante, peu distingue , On peut mlanger , Produit sympathique , Bien dans la soire , Rafrachissante, dsaltrante , Aime le got , Qui revient cher , Trs proche sont bien reprsents sur le premier axe factoriel. Elles sont toutes mieux reprsentes sur cet axe que sur le second axe factoriel. Cest linverse pour les autres apprciations. Sur le second axe factoriel, les apprciations les mieux reprsentes sont : Avec des amis , Bien avant les repas , Bien dans la journe , Toute l'anne , Volontiers avec invits , Apprcie des jeunes , Vieillotte, dpasse .

5.

Interprtation gnrale

73

Analyse des correspondances multiples (CORMU)


Fichier utilis : ASPI1000.SBA Paramtrage de la mthode : on prend comme variables actives V11, V29, V39, V49, V51, V52 et V53. Toutes les autres variables nominales et continues sont slectionnes comme illustratives lexception du coefficient de pondration. Tous les individus sont conservs pour lanalyse. Nous modifions le seuil de ventilation pour les modalits deffectifs faibles (5% au lieu de 2% par dfaut).

1.

Prsentation du thme analys

Dans lexemple, on choisit dtudier le thme relatif aux variables sociodmographiques, autrement dit le thme du signaltique (ge, sexe, catgorie socioprofessionnelle, etc.). Les variables choisies, appeles variables actives, constituent les seuls lments utiliss pour comparer les enquts entre eux. Les autres variables, appeles variables illustratives ou complmentaires, serviront illustrer, complter ou suggrer des explications pour les similitudes et les diffrences observes entre les enquts. La liste des variables actives utilises pour valuer la similitude entre les individus apparat dans le tableau ci-aprs. Toutes les variables actives de cette analyse sont du type nominal.

Variables actives de lanalyse Sexe de la personne interroge. Possdez-vous des valeurs mobilires ? Taille dagglomration (en nombre dhabitants). Diplme de lenqut(e) en 5 classes. Statut doccupation du logement en 4 classes. Age de lenqut(e) en 5 classes. Type demploi.

Nbre de modalits 2 2 5 5 4 5 4

Les variables nominales illustratives sont constitues par lensemble des 39 autres variables nominales du fichier. Les 8 variables continues du fichier sont galement utilises en illustratives. Pour cette analyse, on conserve lensemble des individus, avec un poids uniforme. Dans cette analyse, on a choisi un seuil dapurement de 5%. Lapurement permet de saffranchir (artificiellement) des modalits de faibles effectifs qui peuvent avoir des effets perturbateurs sur lanalyse. Les rponses appartenant ces modalits peu frquentes seront rparties alatoirement entre les autres modalits de la variable. Par dfaut, sont ventiles les modalits actives dont leffectif est infrieur 2%. Les modalits rares concernent souvent les mmes individus qui forment alors un sous-nuage trs concentr sur lui-mme mais loin de tous les autres points. Ils peuvent rendre instables

74

SPAD

Analyse des correspondances multiples (CORMU)

les axes factoriels. Lapurement vise rendre plus robuste lanalyse. Les modalits ne sont pas abandonnes pour autant. Elles seront positionnes en lments supplmentaires.

2.

CORMU-1 : Tris plat des variables actives

Le tableau suivant prsente le tri plat des quatre premires variables actives de lanalyse dans un tableau constitu de 5 colonnes :

Libell des modalits : libell complet de la modalit. Effectif avant apurement : effectif de la modalit avant la ventilation des modalits deffectif infrieur n% (ici 5%, soit 50 observations). Poids avant apurement : poids de la modalit avant la ventilation des modalits deffectif infrieur n%. Dans le cas o le poids des individus est uniforme (comme ici), le poids des individus dans la modalit est identique leffectif. Effectif aprs apurement : effectif de la modalit aprs la ventilation des modalits deffectif infrieur n%. Les individus concerns par la ventilation dune modalit se voient affecter alatoirement une autre modalit de la mme variable. Poids aprs apurement : poids de la modalit aprs la ventilation des modalits deffectif infrieur n%.

Tris plat des variables actives (Seuil: 5.0 %)


Sexe de la personne interroge Libell des modalits masculin fminin Possdez vous des valeurs mobilires ? Libell des modalits oui non Effectif avant Poids avant Effectif aprs Poids aprs apurement apurement apurement apurement 121 121,00 121 121,00 879 879,00 879 879,00 Effectif avant Poids avant Effectif aprs Poids aprs apurement apurement apurement apurement 469 469,00 469 469,00 531 531,00 531 531,00

Taille d'agglomration (en nombre d'habitants) Effectif avant Poids avant Effectif aprs Poids aprs Libell des modalits apurement apurement apurement apurement 83 moins de 2.000 83,00 83 83,00 87 2.000 - 20.000 87,00 87 87,00 175 20.000 - 100.000 175,00 175 175,00 329 plus de 100.000 329,00 329 329,00 Paris 326 326,00 326 326,00 Type d'emploi Libell des modalits Ouvriers Employs Cadres Autres *Reponse manquante* Effectif avant Poids avant Effectif aprs Poids aprs apurement apurement apurement apurement 263 263,00 276 276,00 335 335,00 344 344,00 229 229,00 241 241,00 48 48,00 Ventile 125 125,00 139 139,00

Interprtation Seule la variable Type demploi est concerne par la ventilation (Modalit Autres deffectif 48).

75

SPAD

Analyse des correspondances multiples (CORMU)

On peut sassurer que la somme des effectifs aprs ventilation est bien gale 1000. La rpartition des 48 observations sest faite de la manire suivante : 13 vers la modalit ouvriers , 9 vers la modalit employs , 12 vers la modalit cadres et 14 vers la modalit forme par les rponses manquantes. Dans le cas o des modalits ont t ventiles, il est prudent de vrifier si les coordonnes des modalits actives sont proches de celles de ces mmes modalits places en illustratif partir des donnes brutes (non-apures). Si ces coordonnes ont des valeurs diffrentes, cela signifie que la ventilation a notablement affect la rpartition des individus. Il faudrait alors choisir un seuil dapurement plus faible.

76

SPAD

Analyse des correspondances multiples (CORMU)

3.

CORMU-2 :Tableau de Burt

Le tableau de Burt est un tableau symtrique dordre (p,p), o p est le nombre de modalits actives. Il sagit du croisement deux deux de toutes les variables actives de lanalyse (aprs les ventilations ventuelles). Le tableau est constitu de (p+1)(p/2) tableaux, soit dans notre cas 8*7/2 = 28 tableaux de contingence. On utilise lidentifiant court des modalits.
Tableau de BURT
masc fmi vmo1 vmo2 agg1 agg2 agg3 agg4 agg5 emp1 emp2 emp3 49_ die1 die2 die3 die4 die5 slo1 slo2 slo3 slo4 agc1 agc2 agc3 agc4 agc5 masc 469 0 54 415 42 40 81 161 145 196 108 125 40 98 163 68 73 67 62 150 224 33 67 129 102 84 87 fmi vmo1 vmo2 agg1 agg2 agg3 0 531 67 121 0 464 0 879 41 4 79 83 0 0 47 9 78 0 87 0 94 22 153 0 0 175 168 36 293 0 0 0 181 50 276 0 0 0 80 8 268 16 29 50 236 36 308 39 33 59 116 53 188 14 19 36 99 24 115 14 6 30 91 10 179 18 16 35 158 26 295 43 34 67 90 19 139 12 13 33 109 29 153 9 16 23 83 37 113 1 8 17 58 11 109 7 20 27 140 60 230 59 33 61 299 44 479 10 29 79 34 6 61 7 5 8 83 11 139 4 8 24 155 16 268 17 21 49 107 28 181 25 25 40 104 27 161 25 20 26 82 39 130 12 13 36 agg4 agg5 emp1 emp2 emp3 49_ die1 die2 die3 die4 die5 slo1 slo2 slo3 slo4 agc1 agc2 agc3 agc4 agc5

0 0 0 329 0 106 109 69 45 68 107 51 63 40 48 70 191 20 66 91 60 60 52

0 0 0 0 326 75 104 103 44 52 70 49 71 84 18 67 214 27 48 106 59 57 56

276 0 0 0 90 137 37 9 3 38 69 155 14 36 79 64 53 44

0 344 0 0 72 128 72 49 23 39 92 188 25 39 108 65 72 60

0 0 241 0 11 30 29 75 96 34 80 112 15 16 77 61 40 47

0 0 0 139 16 189 0 0 0 0 26 0 321 0 0 0 20 0 0 158 0 0 49 0 0 0 182 0 28 0 0 0 0 150 9 16 45 15 30 14 120 0 0 49 55 113 36 44 42 0 290 0 68 103 147 97 91 85 0 0 523 13 15 16 10 17 9 0 0 0 59 23 17 35 52 23 9 17 108 20 24 74 65 63 58 40 40 184 19 39 87 20 32 31 45 65 89 23 45 81 26 20 16 20 80 79 18 58 62 12 15 22 6 88 63

0 0 0 67 16 20 10 9 12

150 0 0 0 0

0 284 0 0 0

0 0 209 0 0

0 0 0 188 0

0 0 0 0 169

Par dfaut, les valeurs prennent deux dcimales. Nous les avons retires pour la visibilit. Interprtation Les blocs diagonaux sont les tris plat des variables. Le poids est gal leffectif lorsque les individus ont un poids uniforme (comme ici). On note par exemple que lenqute concerne 469 hommes et 531 femmes. Les blocs non diagonaux reprsentent les tris croiss de tous les couples de variables actives. Les valeurs sont des poids. Lorsque les individus ont des poids uniformes, les poids concident avec les effectifs. Par exemple, 196 hommes sont ouvriers et 236 femmes sont employes.

4.

CORMU-3 : Profils horizontaux du tableau de Burt

On dite ici le tableau des pourcentages. Le tableau suivant nest pas symtrique. Pour chacun des tableaux de contingence (28 dans le cas prsent), ce tableau est constitu des profils lignes (au-dessous de la diagonale) et des transposs des profils colonnes (au-dessus de la diagonale). Les pourcentages sont calculs sur les poids des individus (les valeurs seraient diffrentes si lon avait opr un redressement de lchantillon).

77

SPAD
Tableau de BURT - Profils horizontaux
masc fmi vmo1 vmo2 agg1 agg2 agg3 agg4 agg5 emp1 emp2 emp3 49_ die1 die2 die3 die4 die5 slo1 slo2 slo3 slo4 agc1 agc2 agc3 agc4 agc5 masc 46,9 0,0 44,6 47,2 50,6 46,0 46,3 48,9 44,5 71,0 31,4 51,9 28,8 51,9 50,8 43,0 40,1 44,7 51,7 51,7 42,8 49,3 44,7 45,4 48,8 44,7 51,5 fmi 0,0 53,1 55,4 52,8 49,4 54,0 53,7 51,1 55,5 29,0 68,6 48,1 71,2 48,1 49,2 57,0 59,9 55,3 48,3 48,3 57,2 50,7 55,3 54,6 51,2 55,3 48,5

Analyse des correspondances multiples (CORMU)

vmo1 vmo2 agg1 agg2 agg3 agg4 agg5 emp1 emp2 emp3 49_ die1 die2 die3 die4 die5 slo1 slo2 slo3 slo4 agc1 agc2 agc3 agc4 agc5

12,1 0,0 4,8 10,3 12,6 10,9 15,3 2,9 10,5 22,0 17,3 5,3 8,1 12,0 15,9 24,7 9,2 20,7 8,4 9,0 7,3 5,6 13,4 14,4 23,1

0,0 87,9 95,2 89,7 87,4 89,1 84,7 97,1 89,5 78,0 82,7 94,7 91,9 88,0 84,1 75,3 90,8 79,3 91,6 91,0 92,7 94,4 86,6 85,6 76,9

8,3 0,0 0,0 0,0 0,0 5,8 11,3 5,8 10,1 9,5 13,4 7,6 4,9 0,7 5,8 20,3 1,9 10,4 2,7 6,0 12,0 13,3 7,1

0,0 8,7 0,0 0,0 0,0 10,5 9,6 7,9 4,3 8,5 10,6 8,2 8,8 5,3 16,7 11,4 5,5 7,5 5,3 7,4 12,0 10,6 7,7

0,0 0,0 17,5 0,0 0,0 18,1 17,2 14,9 21,6 18,5 20,9 20,9 12,6 11,3 22,5 21,0 15,1 11,9 16,0 17,3 19,1 13,8 21,3

0,0 0,0 0,0 32,9 0,0 38,4 31,7 28,6 32,4 36,0 33,3 32,3 34,6 26,7 40,0 24,1 36,5 29,9 44,0 32,0 28,7 31,9 30,8

0,0 0,0 0,0 0,0 32,6 27,2 30,2 42,7 31,7 27,5 21,8 31,0 39,0 56,0 15,0 23,1 40,9 40,3 32,0 37,3 28,2 30,3 33,1

27,6 0,0 0,0 0,0 47,6 42,7 23,4 4,9 2,0 31,7 23,8 29,6 20,9 24,0 27,8 30,6 28,2 26,0

0,0 34,4 0,0 0,0 38,1 39,9 45,6 26,9 15,3 32,5 31,7 35,9 37,3 26,0 38,0 31,1 38,3 35,5

0,0 0,0 24,1 0,0 5,8 9,3 18,4 41,2 64,0 28,3 27,6 21,4 22,4 10,7 27,1 29,2 21,3 27,8

0,0 0,0 0,0 13,9 8,5 8,1 12,7 26,9 18,7 7,5 16,9 13,0 19,4 39,3 7,0 9,1 12,2 10,7

18,9 0,0 0,0 0,0 0,0 13,3 19,0 19,7 22,4 15,3 8,5 18,7 23,9 34,3

0,0 32,1 0,0 0,0 0,0 37,5 39,0 28,1 23,9 11,3 26,1 41,6 43,1 36,7

0,0 0,0 15,8 0,0 0,0 12,5 12,4 18,5 14,9 23,3 22,9 9,6 13,8 7,1

0,0 0,0 0,0 18,2 0,0 25,0 15,2 17,4 25,4 34,7 22,2 15,3 10,6 8,9

0,0 0,0 0,0 0,0 15,0 11,7 14,5 16,3 13,4 15,3 20,4 14,8 8,5 13,0

12,0 0,0 0,0 0,0 6,0 14,1 21,5 10,6 3,6

0,0 29,0 0,0 0,0 11,3 14,1 31,1 42,6 52,1

0,0 0,0 52,3 0,0 72,0 64,8 42,6 42,0 37,3

0,0 0,0 0,0 6,7 10,7 7,0 4,8 4,8 7,1

15,0 0,0 0,0 0,0 0,0 0,0 28,4 0,0 0,0 0,0 0,0 0,0 20,9 0,0 0,0 0,0 0,0 0,0 18,8 0,0 0,0 0,0 0,0 0,0 16,9

Interprtation On note par exemple que le fichier est constitu de 46.9% dhommes et de 53.1% de femmes. On remarque que 41.8% des hommes sont ouvriers contre seulement 15.1% des femmes. Parmi les personnes qui dclarent possder des valeurs mobilires 44.6% sont des hommes et 55.4% sont des femmes.

5.

CORMU-4 : Tableau des valeurs propres


Numro : numro de laxe factoriel. Valeur propre : la valeur propre (inertie) associe laxe. Pourcentage : indique la part de la valeur propre (ou inertie) prise en compte sur laxe factoriel. Pourcentage cumul : pourcentage cumul des parts de valeurs propres sur les n premiers axes.

Le tableau des valeurs propres est constitu de 4 colonnes.

La somme des valeurs propres vaut (J-Q) / Q avec J le nombre total de modalits actives aprs la ventilation (J = 27 dans lexemple) et Q le nombre de variables actives (Q = 7 dans lexemple). Ainsi dans lexemple, la somme des valeurs propres a pour valeur : (27-7) / 7 = 2.8571. Le logiciel dite lensemble des valeurs propres, soit J-Q valeurs propres. Dans lexemple, on obtient ldition de 27-7 = 20 valeurs propres. Le tableau des valeurs propres peut aider dterminer le nombre daxes factoriels archiver pour les utilisations ultrieures.

78

SPAD
Tableau des valeurs propres Trace de la matrice: 2.85714
Numro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Valeur propre 0,2703 0,2369 0,2084 0,1922 0,1846 0,1578 0,1534 0,1493 0,1441 0,1398 0,1326 0,1300 0,1284 0,1222 0,1070 0,1015 0,0954 0,0821 0,0748 0,0462 Pourcentage 9,46 8,29 7,29 6,73 6,46 5,52 5,37 5,23 5,04 4,89 4,64 4,55 4,49 4,28 3,74 3,55 3,34 2,87 2,62 1,62

Analyse des correspondances multiples (CORMU)

Pourcentage cumul 9,46 17,75 25,05 31,77 38,23 43,76 49,13 54,35 59,40 64,29 68,93 73,48 77,97 82,25 86,00 89,55 92,89 95,76 98,38 100,00

Histogram m e des valeurs propres


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 ,0 0 0 ,0 5 0 ,1 0 0 ,1 5 0 ,2 0 0 ,2 5 0 ,3 0

Axe

V ale ur pr opr e

Interprtation On remarque que la dcroissance des valeurs propres nest pas rgulire. Elle le serait sur un tableau purement alatoire. Lhistogramme des valeurs propres fait apparatre des diffrences dinertie importantes entre la 5ime et la 6ime valeur. La faible part de variance explique sur les premiers axes est une caractristique de lanalyse factorielle des correspondances multiples (qui donne gnralement des mesures pessimistes de linformation extraite). Dans cet exemple, il convient darchiver au moins les 5 premiers axes de lanalyse. Il est cependant conseill dutiliser en gnral au moins la moiti des axes factoriels. Ici, on archivera certainement les 14 premiers axes, le palier entre les axes 14 et 15 tant notablement marqu, pour une classification ultrieure.

6.

CORMU-5 :Coordonnes des modalits actives

Le tableau ci-aprs donne les coordonnes des modalits actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit Poids relatif : poids relatif la modalit. Le poids relatif se calcule de la faon suivante : (nq*100) / (n*Q) avec nq leffectif de la modalit, n leffectif total et Q le nombre de variables actives. Par exemple pour la modalit masculin, P.REL = (469*100) / (1000*7) = 6.70. Il faut noter que lorsque les individus ont des poids diffrents, ce nest pas leffectif, mais le poids des individus qui est utilis.

Distance l'origine : carr de la distance du Khi-2 lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme la modalit log gratuitement, autres de la variable Statut doccupation du logement pour laquelle DISTO = 13.93). Il sagit gnralement de points faible masse. La distance lorigine

79

SPAD

Analyse des correspondances multiples (CORMU)

(au centre de gravit G du nuage) ne dpend en fait que de leffectif dans la modalit. La formule est la suivante : d2(j,G) = (n / nj) 1, avec nj leffectif de la modalit j et n leffectif total

Axe 1 Axe 5 : coordonnes des modalits actives sur les premiers axes.
Coordonnes des modalits actives
Poids relatif Sexe de la personne interroge 6,70 masculin fminin 7,59 Libell Distance Axe 1 l'origine 1,13220 0,88324 0,29 -0,26 Axe 2 -0,08 0,07 Axe 3 -0,43 0,38 Axe 4 0,47 -0,41 Axe 5 0,25 -0,22

Possdez vous des valeurs mobilires ? 1,73 7,26446 oui non 12,56 0,13766 Taille d'agglomration (en nombre d'habitants) 1,19 11,04820 moins de 2.000 1,24 10,49430 2.000 - 20.000 2,50 4,71429 20.000 - 100.000 4,70 2,03951 plus de 100.000 Paris 4,66 2,06748 Type d'emploi Ouvriers Employs Cadres *Reponse manquante*

-0,69 0,10

-1,46 0,20

0,25 -0,03

0,23 -0,03

-0,06 0,01

1,06 0,55 0,27 0,04 -0,60

-0,83 -0,26 -0,07 0,40 -0,08

1,06 -0,28 0,17 -0,05 -0,24

-0,75 -0,80 -0,07 0,22 0,22

0,06 0,61 0,12 0,27 -0,52

3,94 4,91 3,44 1,99

2,62319 1,90698 3,14938 6,19424

0,88 0,19 -0,80 -0,80

0,47 0,20 -0,89 0,12

-0,54 0,38 -0,74 1,41

0,66 -0,67 -0,02 0,38

0,20 -0,63 0,14 0,91

Diplme de l'enqut(e) en 5 classes 2,70 Aucun 4,59 CEP ou fin tudes 2,26 BEPC-BE-BEPS 2,60 Bac - Brevet sup. Universit,gde cole 2,14

4,29101 2,11526 5,32911 4,49451 5,66667

0,70 0,80 -0,23 -0,93 -1,23

0,23 -0,08 0,62 0,06 -0,84

0,23 -0,05 0,17 0,32 -0,73

0,93 -0,29 -0,47 -0,26 0,26

-0,34 0,07 -0,56 0,95 -0,27

Statut d'occupation du logement en 4 classes 1,71 7,33333 en accession 4,14 2,44828 propritaire 7,47 0,91205 locataire log gratuit, autre 0,96 13,92540 Age de l'enqut(e) en 5 classes 2,14 Moins de 25 ans 4,06 25 34 ans 2,99 35 49 ans 2,69 50 64 ans 65 ans et plus 2,41

0,31 0,44 -0,27 -0,34

0,06 -1,00 0,51 0,25

-0,85 0,51 -0,15 0,50

-1,02 0,07 0,15 0,33

1,30 0,01 -0,33 0,20

5,66667 2,52113 3,78469 4,31915 4,91716

-0,81 -0,35 0,33 0,51 0,34

0,98 0,45 -0,36 -0,30 -0,84

0,89 -0,63 -0,41 0,42 0,32

0,68 -0,47 -0,41 -0,21 0,93

0,80 -0,41 0,69 -0,25 -0,59

7.

CORMU-6 :Contributions des modalits actives

Le tableau ci-aprs donne les contributions des modalits actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit Poids relatif : poids relatif la modalit. Le poids relatif se calcule de la faon suivante : (nq*100) / (n*Q) avec nq leffectif de la modalit, n leffectif total et Q le nombre de variables actives. Par exemple pour la modalit masculin, P.REL = (469*100) / (1000*7) = 6.70. Il faut noter que lorsque les individus ont des poids diffrents, ce nest pas leffectif, mais le poids des individus qui est utilis.

80

SPAD

Analyse des correspondances multiples (CORMU)

Distance l'origine : carr de la distance du Khi-2 lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme la modalit log gratuitement, autres de la variable Statut doccupation du logement pour laquelle DISTO = 13.93). Il sagit gnralement de points faible masse. La distance lorigine (au centre de gravit G du nuage) ne dpend en fait que de leffectif dans la modalit. La formule est la suivante : d2(j,G) = (n / nj) 1, avec nj leffectif de la modalit j et n leffectif total Axe 1 Axe 5 : contributions absolues des modalits actives sur les 5 premiers axes. Les contributions absolues, ou contributions, dcrivent la part de chaque modalit dans linertie totale de laxe. Pour linterprtation dun axe par exemple, on slectionne les modalits qui ont les plus fortes contributions. Si la modalit j a pour coordonnes sur laxe j et a une masse mj, et si dsigne la valeur propre de cet axe, la contribution absolue ca(j) de la modalit scrit : ca(j) = mj j / La contribution de la modalit masculin sur le premier facteur a donc pour valeur : 6.7 * 0.29 / 0.2703 = 2.1. La somme des contributions de toutes les modalits actives sur un axe est gale 100% (somme en colonne).
Contributions des modalits actives
Libell Poids relatif Distance Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 l'origine 1,13220 0,88324 2,09 1,84 0,17 0,15 5,97 5,28 7,64 6,75 2,28 2,02 Sexe de la personne interroge 6,70 masculin fminin 7,59 Possdez vous des valeurs mobilires ? 1,73 oui non 12,56

7,26446 0,13766

3,08 0,42

15,48 2,13

0,51 0,07

0,49 0,07

0,03 0,00

Taille d'agglomration (en nombre d'habitants) 1,19 11,04820 moins de 2.000 1,24 10,49430 2.000 - 20.000 2,50 4,71429 20.000 - 100.000 4,70 2,03951 plus de 100.000 Paris 4,66 2,06748 Type d'emploi Ouvriers Employs Cadres *Reponse manquante*

4,96 1,41 0,66 0,03 6,23

3,42 0,35 0,06 3,16 0,14

6,36 0,47 0,33 0,05 1,26

3,50 4,16 0,07 1,16 1,21

0,02 2,50 0,19 1,87 6,72

3,94 4,91 3,44 1,99

2,62319 1,90698 3,14938 6,19424

11,18 0,63 8,25 4,74

3,63 0,80 11,43 0,13

5,58 3,47 8,98 18,87

8,92 11,40 0,01 1,51

0,84 10,45 0,37 8,98

Diplme de l'enqut(e) en 5 classes 2,70 Aucun 4,59 CEP ou fin tudes 2,26 BEPC-BE-BEPS 2,60 Bac - Brevet sup. Universit,gde cole 2,14

4,29101 2,11526 5,32911 4,49451 5,66667

4,96 10,88 0,43 8,31 12,06

0,60 0,13 3,70 0,04 6,45

0,67 0,06 0,30 1,28 5,54

12,12 2,02 2,65 0,88 0,76

1,74 0,11 3,83 12,63 0,84

Statut d'occupation du logement en 4 classes 1,71 7,33333 en accession 4,14 2,44828 propritaire 7,47 0,91205 locataire log gratuit, autre 0,96 13,92540 Age de l'enqut(e) en 5 classes 2,14 Moins de 25 ans 4,06 25 34 ans 2,99 35 49 ans 2,69 50 64 ans 65 ans et plus 2,41

0,60 2,96 2,04 0,40

0,03 17,56 8,19 0,26

5,88 5,16 0,84 1,16

9,20 0,11 0,89 0,55

15,68 0,00 4,42 0,22

5,66667 2,52113 3,78469 4,31915 4,91716

5,18 1,87 1,19 2,57 1,02

8,73 3,42 1,64 1,04 7,19

8,18 7,83 2,46 2,28 1,18

5,19 4,76 2,59 0,60 10,79

7,41 3,68 7,65 0,94 4,56

81

SPAD

Analyse des correspondances multiples (CORMU)

Lanalyse compte aprs apurement 27 modalits actives. Pour chaque axe, le pourcentage dinertie thorique moyen expliqu par chaque modalit est de 3,7% (100%/27). Or on constate sur laxe 1 que les contributions varient de 0,03% 12,06%. Seules les modalits dont la contribution est leve sont considrer pour linterprtation dun axe. Les modalits considrer pour linterprtation de laxe 1 sont dans lordre dapparition dans le tableau : moins de 2.000 (4,96%), Paris (6,23%), Ouvriers (11,8%), Cadres (8,25%), Aucun (4,96%), CEP ou fin tudes (10,88%), Bac - Brevet sup. (8,31%), Universit,gde cole (12,06%), Moins de 25 ans (5,18%). Ces 9 modalits reprsentent elles seules 72% de linertie de laxe 1. Pour obtenir la contribution globale dune variable la cration dun axe, il suffit dadditionner les contributions de toutes ses modalits. Ainsi, sur laxe 1, le sexe (3,93%), la possession de valeurs mobilires (3,50%) et le statut doccupation du logement (6%) contribuent trs faiblement la cration de laxe 1. Par contre, les variables Diplme de lenqut en 5 classes (36,64%), Type demploi (24,8%) et Taille dagglomration (13,29%) expliquent prs de 75% de linertie sur laxe 1. Pour chacune de ces 3 variables, on constate que ces fortes contributions globales sont dues essentiellement quelques modalits et non lensemble.

8.

CORMU-7 : Cosinus carrs des modalits actives

Le tableau ci-aprs donne les cosinus carrs des modalits actives. Par dfaut, le logiciel dite ces valeurs sur les 5 premiers axes. Ce tableau se compose de 8 colonnes :

Libell : libell complet de la modalit Poids relatif : poids relatif la modalit. Le poids relatif se calcule de la faon suivante : (nq*100) / (n*Q) avec nq leffectif de la modalit, n leffectif total et Q le nombre de variables actives. Par exemple pour la modalit masculin, P.REL = (469*100) / (1000*7) = 6.70. Il faut noter que lorsque les individus ont des poids diffrents, ce nest pas leffectif, mais le poids des individus qui est utilis.

Distance l'origine : carr de la distance du Khi-2 lorigine. Cette distance donne une ide du caractre priphrique de certains points (comme la modalit log gratuitement, autres de la variable Statut doccupation du logement pour laquelle DISTO = 13.93). Il sagit gnralement de points faible masse. La distance lorigine (au centre de gravit G du nuage) ne dpend en fait que de leffectif dans la modalit. La formule est la suivante : d2(j,G) = (n / nj) 1, avec nj leffectif de la modalit j et n leffectif total Axe 1 Axe 5 : cosinus carrs (ou contributions relatives) de chacune des modalits actives sur les premiers axes. Les contributions relatives, ou cosinus carrs, concernent la qualit de reprsentation des modalits sur laxe. Pour linterprtation, on slectionne les modalits qui ont les cosinus carrs les plus forts : elles sont les mieux reprsentes au sens o les distances sont les moins altres par la projection. Si la modalit j a pour coordonnes j sur laxe et si le carr de la distance du Khi-2 lorigine de cette modalit est d(j), le cosinus carr (ou contribution relative) cr(j) de la modalit scrit : cr(j) = j / d(j)

82

SPAD

Analyse des correspondances multiples (CORMU)

On a par exemple pour la modalit masculin sur le premier facteur : 0.29 / 1.13 = 0.07. La somme des cosinus carrs dune modalit sur la totalit des axes est gale 1 (somme en ligne tendue tous les axes).
Cosinus carrs des modalits actives
Libell Poids relatif Distance Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 l'origine 1,13220 0,88324 0,07 0,07 0,01 0,01 0,16 0,16 0,19 0,19 0,06 0,06 Sexe de la personne interroge 6,70 masculin fminin 7,59 Possdez vous des valeurs mobilires ? 1,73 oui non 12,56

7,26446 0,13766

0,07 0,07

0,29 0,29

0,01 0,01

0,01 0,01

0,00 0,00

Taille d'agglomration (en nombre d'habitants) 1,19 11,04820 moins de 2.000 1,24 10,49430 2.000 - 20.000 2,50 4,71429 20.000 - 100.000 4,70 2,03951 plus de 100.000 Paris 4,66 2,06748 Type d'emploi Ouvriers Employs Cadres *Reponse manquante*

0,10 0,03 0,02 0,00 0,18

0,06 0,01 0,00 0,08 0,00

0,10 0,01 0,01 0,00 0,03

0,05 0,06 0,00 0,02 0,02

0,00 0,04 0,00 0,04 0,13

3,94 4,91 3,44 1,99

2,62319 1,90698 3,14938 6,19424

0,29 0,02 0,21 0,10

0,08 0,02 0,25 0,00

0,11 0,08 0,17 0,32

0,17 0,23 0,00 0,02

0,01 0,21 0,01 0,13

Diplme de l'enqut(e) en 5 classes 2,70 Aucun 4,59 CEP ou fin tudes 2,26 BEPC-BE-BEPS 2,60 Bac - Brevet sup. Universit,gde cole 2,14

4,29101 2,11526 5,32911 4,49451 5,66667

0,12 0,30 0,01 0,19 0,27

0,01 0,00 0,07 0,00 0,13

0,01 0,00 0,01 0,02 0,10

0,20 0,04 0,04 0,01 0,01

0,03 0,00 0,06 0,20 0,01

Statut d'occupation du logement en 4 classes 1,71 7,33333 en accession 4,14 2,44828 propritaire 7,47 0,91205 locataire log gratuit, autre 0,96 13,92540 Age de l'enqut(e) en 5 classes 2,14 Moins de 25 ans 4,06 25 34 ans 2,99 35 49 ans 2,69 50 64 ans 65 ans et plus 2,41

0,01 0,08 0,08 0,01

0,00 0,41 0,28 0,00

0,10 0,11 0,03 0,02

0,14 0,00 0,03 0,01

0,23 0,00 0,12 0,00

5,66667 2,52113 3,78469 4,31915 4,91716

0,12 0,05 0,03 0,06 0,02

0,17 0,08 0,03 0,02 0,14

0,14 0,16 0,05 0,04 0,02

0,08 0,09 0,04 0,01 0,17

0,11 0,07 0,12 0,01 0,07

Les contributions relatives, ou cosinus carrs, concernent la qualit de reprsentation des modalits sur laxe. Pour linterprtation, on slectionne les modalits qui ont les cosinus carrs les plus forts : elles sont les mieux reprsentes au sens o les distances sont les moins altres par la projection. Si la modalit j a pour coordonnes j sur laxe et si le carr de la distance du Khi-2 lorigine de cette modalit est d(j), le cosinus carr (ou contribution relative) cr(j) de la modalit scrit : cr(j) = j / d(j) On a par exemple pour la modalit masculin sur le premier facteur : 0.29 / 1.13 = 0.07. La somme des cosinus carrs dune modalit sur la totalit des axes est gale 1 (somme en ligne tendue tous les axes). Interprtation Dans cet exemple, les modalits prendre en compte pour linterprtation du premier axe doivent au minimum avoir un cosinus carr de 0,10. 83

SPAD

Analyse des correspondances multiples (CORMU)

9.

CORMU-8 : Coordonnes des modalits actives et illustratives

Le tableau ci-aprs donne les coordonnes de toutes les modalits (actives en tte et illustratives ensuite) partir des donnes brutes (avant ventilation). Ainsi, les modalits actives abandonnes pour la construction des axes du fait de la faiblesse de leur effectif sont repositionnes ici (exemple : modalit autres avant ventilation de la variable Type demploi ). Ce tableau se dcompose de la manire suivante :

Libell : libell complet de la modalit. Effectif : effectif de la modalit. Poids absolu : poids de chaque modalit. Le poids des individus est ici uniforme et gal 1. Distance l'origine : carr de la distance du Khi-2 lorigine. Le calcul est identique celui qui est fait pour les modalits actives. Axe 1 Axe 5 : coordonnes des modalits actives et illustratives sur les 5 premiers axes.

La comparaison des coordonnes des modalits actives sur les sorties CORMU-5 et CORMU-8 montre que les coordonnes de la variable Type demploi (dont lune des modalits a t ventile) ont des valeurs trs lgrement diffrentes. Ceci confirme que le seuil dapurement de 5% tait acceptable. Ldition du tableau a t tronque.

84

SPAD

Analyse des correspondances multiples (CORMU)


Coordonnes des modalits actives et illustratives
Libell Effectif Poids absolu 469,00 531,00 Distance Axe 1 l'origine 1,13220 0,88324 0,29 -0,26 Axe 2 -0,08 0,07 Axe 3 -0,43 0,38 Axe 4 0,47 -0,41 Axe 5 0,25 -0,22 Sexe de la personne interroge 469 masculin fminin 531

Possdez vous des valeurs mobilires ? 121 121,00 oui non 879 879,00 Taille d'agglomration (en nombre d'habitants) 83 83,00 moins de 2.000 87 87,00 2.000 - 20.000 175 175,00 20.000 - 100.000 329 329,00 plus de 100.000 Paris 326 326,00 Type d'emploi Ouvriers Employs Cadres Autres *Reponse manquante*

7,26446 0,13766

-0,69 0,10

-1,46 0,20

0,25 -0,03

0,23 -0,03

-0,06 0,01

11,04820 10,49430 4,71429 2,03951 2,06748

1,06 0,55 0,27 0,04 -0,60

-0,83 -0,26 -0,07 0,40 -0,08

1,06 -0,28 0,17 -0,05 -0,24

-0,75 -0,80 -0,07 0,22 0,22

0,06 0,61 0,12 0,27 -0,52

263 335 229 48 125

263,00 335,00 229,00 48,00 125,00

2,80228 1,98507 3,36681 19,83330 7,00000

0,86 0,16 -0,85 0,73 -0,96

0,51 0,22 -0,86 -0,75 0,20

-0,57 0,38 -0,77 0,50 1,39

0,67 -0,68 -0,01 0,03 0,42

0,18 -0,63 0,12 0,47 0,91

Diplme de l'enqut(e) en 5 classes 189 Aucun 321 CEP ou fin tudes 158 BEPC-BE-BEPS 182 Bac - Brevet sup. Universit,gde cole 150

189,00 321,00 158,00 182,00 150,00

4,29101 2,11526 5,32911 4,49451 5,66667

0,70 0,80 -0,23 -0,93 -1,23

0,23 -0,08 0,62 0,06 -0,84

0,23 -0,05 0,17 0,32 -0,73

0,93 -0,29 -0,47 -0,26 0,26

-0,34 0,07 -0,56 0,95 -0,27

Statut d'occupation du logement en 4 classes 120 120,00 en accession 290 290,00 propritaire 523 523,00 locataire log gratuit, autre 67 67,00 Age de l'enqut(e) en 5 classes 150 Moins de 25 ans 284 25 34 ans 209 35 49 ans 188 50 64 ans 65 ans et plus 169

7,33333 2,44828 0,91205 13,92540

0,31 0,44 -0,27 -0,34

0,06 -1,00 0,51 0,25

-0,85 0,51 -0,15 0,50

-1,02 0,07 0,15 0,33

1,30 0,01 -0,33 0,20

150,00 284,00 209,00 188,00 169,00

5,66667 2,52113 3,78469 4,31915 4,91716

-0,81 -0,35 0,33 0,51 0,34

0,98 0,45 -0,36 -0,30 -0,84

0,89 -0,63 -0,41 0,42 0,32

0,68 -0,47 -0,41 -0,21 0,93

0,80 -0,41 0,69 -0,25 -0,59

La famille est le seul endroit o l'on se sente bien 561 561,00 0,78253 oui 431 431,00 1,32019 non *Reponse manquante* 8 8,00 124,00000 Opinion propos du mariage 231 union indissoluble 342 dissout si pb. grave 387 dissout si accord 39 ne sait pas *Reponse manquante* 1

0,40 -0,53 0,11

-0,12 0,16 -0,20

0,10 -0,13 0,13

-0,02 0,02 0,34

-0,02 0,03 -0,54

231,00 342,00 387,00 39,00 1,00

3,32900 1,92398 1,58398 24,64100 999,00000

0,46 0,08 -0,35 0,05 -0,79

-0,23 -0,15 0,25 0,21 -0,77

0,19 0,08 -0,19 0,00 0,81

0,19 -0,14 0,01 0,06 -0,09

-0,02 0,03 -0,01 -0,08 0,42

10. CORMU-9 : Valeurs-tests des modalits actives et illustratives


Le tableau ci-aprs donne les valeurs-tests de toutes les modalits (actives en tte et illustratives ensuite) partir des donnes brutes (avant ventilation). Ainsi, les modalits actives abandonnes pour la construction des axes du fait de la faiblesse de leur effectif sont repositionnes ici (exemple : modalit autres avant ventilation de la variable Type demploi ). Ce tableau se dcompose de la manire suivante :

Libell : libell complet de la modalit. Effectif : effectif de la modalit. Poids absolu : poids de chaque modalit. Le poids des individus est ici uniforme et gal 1. 85

SPAD

Analyse des correspondances multiples (CORMU)

Distance l'origine : carr de la distance du Khi-2 lorigine. Le calcul est identique celui qui est fait pour les modalits actives. Axe 1 Axe 5 : valeurs-tests de chacune des modalits sur les 5 premiers axes. La valeur-test est dautant plus forte que la modalit correspondante occupe une position significative sur laxe. Une modalit est dautant plus intressante sur un axe que sa valeur-test est plus grande. Dans le cas usuel, on considre quune valeur-test suprieure 2 en valeur absolue indique que la modalit correspondante est significativement diffrente du centre de gravit.

Ldition du tableau a t tronque.


Valeurs-Tests des modalits actives et illustratives
Libell Effectif Poids absolu 469,00 531,00 Distance Axe 1 l'origine 1,13220 0,88324 8,62 -8,62 Axe 2 -2,31 2,31 Axe 3 -12,80 12,80 Axe 4 13,90 -13,90 Axe 5 7,45 -7,45 Sexe de la personne interroge 469 masculin fminin 531

Possdez vous des valeurs mobilires ? 121 121,00 oui non 879 879,00

7,26446 0,13766

-8,14 8,14

-17,08 17,08

2,92 -2,92

2,74 -2,74

-0,71 0,71

Taille d'agglomration (en nombre d'habitants) 83 83,00 11,04820 moins de 2.000 87 87,00 10,49430 2.000 - 20.000 175 175,00 4,71429 20.000 - 100.000 329 329,00 2,03951 plus de 100.000 Paris 326 326,00 2,06748 Type d'emploi Ouvriers Employs Cadres Autres *Reponse manquante*

10,11 5,40 3,89 0,87 -13,22

-7,86 -2,52 -1,08 8,83 -1,84

10,05 -2,75 2,42 -1,00 -5,22

-7,16 -7,82 -1,03 4,83 4,92

0,58 5,95 1,74 6,00 -11,35

263 335 229 48 125

263,00 335,00 229,00 48,00 125,00

2,80228 1,98507 3,36681 19,83330 7,00000

16,14 3,64 -14,64 5,20 -11,44

9,65 4,96 -14,87 -5,30 2,40

-10,73 8,50 -13,18 3,55 16,60

12,60 -15,19 -0,20 0,24 4,99

3,46 -14,21 2,11 3,31 10,85

Diplme de l'enqut(e) en 5 classes 189 Aucun 321 CEP ou fin tudes 158 BEPC-BE-BEPS 182 Bac - Brevet sup. Universit,gde cole 150

189,00 321,00 158,00 182,00 150,00

4,29101 2,11526 5,32911 4,49451 5,66667

10,75 17,40 -3,12 -13,86 -16,38

3,50 -1,75 8,54 0,87 -11,21

3,46 -1,17 2,28 4,77 -9,75

14,17 -6,32 -6,50 -3,81 3,47

-5,26 1,47 -7,66 14,11 -3,58

Statut d'occupation du logement en 4 classes 120 120,00 en accession 290 290,00 propritaire 523 523,00 locataire log gratuit, autre 67 67,00 Age de l'enqut(e) en 5 classes 150 Moins de 25 ans 284 25 34 ans 209 35 49 ans 188 50 64 ans 65 ans et plus 169

7,33333 2,44828 0,91205 13,92540

3,59 8,88 -8,98 -2,84

0,71 -20,24 16,86 2,13

-9,87 10,29 -5,06 4,25

-11,85 1,42 5,01 2,82

15,17 0,22 -10,94 1,73

150,00 284,00 209,00 188,00 169,00

5,66667 2,52113 3,78469 4,31915 4,91716

-10,73 -7,03 5,34 7,74 4,82

13,04 8,90 -5,86 -4,61 -11,97

11,84 -12,62 -6,74 6,40 4,55

9,06 -9,45 -6,64 -3,14 13,21

10,61 -8,14 11,17 -3,86 -8,41

La famille est le seul endroit o l'on se sente bien 561 561,00 0,78253 oui 431 431,00 1,32019 non *Reponse manquante* 8 8,00 124,00000 Opinion propos du mariage 231 union indissoluble 342 dissout si pb. grave 387 dissout si accord 39 ne sait pas *Reponse manquante* 1

14,47 -14,56 0,31

-4,36 4,47 -0,56

3,55 -3,63 0,36

-0,59 0,42 0,95

-0,54 0,82 -1,53

231,00 342,00 387,00 39,00 1,00

3,32900 1,92398 1,58398 24,64100 999,00000

7,94 1,82 -8,71 0,30 -0,79

-4,06 -3,42 6,37 1,32 -0,77

3,33 1,76 -4,66 0,03 0,81

3,22 -3,23 0,21 0,39 -0,09

-0,33 0,68 -0,19 -0,52 0,42

86

SPAD

Analyse des correspondances multiples (CORMU)

11. CORMU-10 : Coordonnes, Contributions, Cosinus Carrs des individus actifs


11.1 Coordonnes des individus actifs
Le tableau ci-aprs donne les coordonnes des individus actifs. Ce tableau se compose de 8 colonnes :

Identificateur : identificateur de lindividu. Poids relatif : poids relatif la modalit. Le poids relatif se calcule de la faon suivante : (ni*100) / n avec ni le poids de lindividu, n le poids total. Dans cet exemple, les individus ont un poids uniforme. Ils ont donc le mme poids relatif. Distance l'origine : carr de la distance du Khi-2 lorigine. Cette distance donne une ide du caractre priphrique de certains individus. Axe 1 Axe 5 : coordonnes des individus sur les 5 premiers axes.

Ldition du tableau a t tronque.


Coordonnes des individus actifs Poids Distance Identificateur Axe 1 relatif l'origine 0,10 2,44 -0,28 1 0,10 2,45 -0,60 2 0,10 3,72 -0,58 3 0,10 3,21 -1,16 4 0,10 2,23 -0,79 5 0,10 2,19 -0,94 6 0,10 2,41 -0,75 7 0,10 1,85 -0,59 8 0,10 1,98 0,00 9 0,10 2,58 -0,28 10 0,10 1,97 -0,39 11 0,10 1,69 0,08 12 0,10 2,43 0,64 13 0,10 2,58 0,38 14 0,10 2,10 -0,05 15 0,10 1,95 0,20 16 0,10 3,52 0,11 17 0,10 3,96 -0,07 18 0,10 1,51 -0,11 19 0,10 2,91 -0,38 20 Axe 2 -0,01 -0,66 -1,37 -0,66 -0,22 -0,17 -0,62 0,41 -0,21 -0,68 0,58 0,13 -0,17 -0,05 0,61 0,50 -0,55 0,54 0,37 0,55 Axe 3 -0,31 -0,72 -0,30 -0,58 -0,93 -0,67 -0,47 0,01 -0,38 0,18 -0,04 -0,04 -0,03 -0,05 -0,58 -0,57 -0,22 -0,38 -0,11 0,52 Axe 4 0,03 0,16 0,33 -0,01 0,19 -0,10 -0,13 -0,48 0,09 0,12 -0,55 -0,47 0,69 0,23 0,17 0,63 0,25 0,23 -0,49 0,91 Axe 5 -0,42 -0,26 -0,23 -0,55 -0,37 -0,53 -0,42 -0,38 -0,21 -0,73 -0,88 -0,31 -0,21 -0,29 -0,45 -0,38 0,00 -0,27 -0,67 0,26

11.2

Contributions des individus actifs

Le tableau ci-aprs donne les contributions des individus actifs la cration des cinq premiers axes factoriels. Ce tableau se compose de 8 colonnes :

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque individu, dans ce cas uniforme (0,10=100/1000). Distance l'origine : carr de la distance de lindividu au centre de gravit de tous les individus. Cette colonne permet de trouver facilement quelles sont les individus les plus les plus proches du centre de gravit, et ceux qui sont les plus originaux (les individus qui sont plus grande distance du centre de gravit). La distance au centre est en quelque sorte un critre doriginalit de llment. 87

SPAD

Analyse des correspondances multiples (CORMU)

Axe 1 Axe 5 : contributions (en pourcentage) des individus l'inertie porte par chaque axe. Nous pouvons mesurer la part d'inertie d'un individu par le quotient :

CTR (i, ) =

pi i2

100

Il s'agit de la contribution de lindividu i la fabrication de l'axe avec : Pi le poids de i


(1/1000), i la coordonnes de lindividu i sur laxe et la valeur propre de laxe .

Le tableau ci-aprs a t tronqu.


Contributions des individus actifs Poids Distance Identificateur Axe 1 relatif l'origine 0,10 2,44 0,03 1 0,10 2,45 0,13 2 0,10 3,72 0,12 3 0,10 3,21 0,50 4 0,10 2,23 0,23 5 0,10 2,19 0,33 6 0,10 2,41 0,21 7 0,10 1,85 0,13 8 0,10 1,98 0,00 9 0,10 2,58 0,03 10 0,10 1,97 0,06 11 0,10 1,69 0,00 12 0,10 2,43 0,15 13 0,10 2,58 0,05 14 0,10 2,10 0,00 15 0,10 1,95 0,02 16 0,10 3,52 0,00 17 0,10 3,96 0,00 18 0,10 1,51 0,00 19 0,10 2,91 0,05 20 Axe 2 0,00 0,18 0,79 0,18 0,02 0,01 0,16 0,07 0,02 0,19 0,14 0,01 0,01 0,00 0,16 0,10 0,13 0,12 0,06 0,13 Axe 3 0,05 0,25 0,04 0,16 0,41 0,22 0,10 0,00 0,07 0,02 0,00 0,00 0,00 0,00 0,16 0,15 0,02 0,07 0,01 0,13 Axe 4 0,00 0,01 0,06 0,00 0,02 0,01 0,01 0,12 0,00 0,01 0,16 0,11 0,25 0,03 0,01 0,20 0,03 0,03 0,12 0,43 Axe 5 0,10 0,04 0,03 0,17 0,08 0,15 0,09 0,08 0,02 0,29 0,42 0,05 0,03 0,04 0,11 0,08 0,00 0,04 0,25 0,04

Interprtation Les contributions servent dtecter les individus qui contribuent le plus la formation des axes factoriels. Si tous les individus avaient la mme contribution, celle-ci devrait osciller autour de 0,1% (100/1000). Les individus avec des contributions suprieures 0,1% ont une influence suprieure la moyenne. Dans cet exemple, 818 individus prsentent une contribution suprieure 0,1% sur le premier axe factoriel. Dans le cas dun grand nombre dindividus, il est prfrable de visualiser la reprsentation graphique des individus actifs (avec une taille proportionnelle la contribution) sur le plan factoriel 1-2 pour identifier les individus qui contribuent le plus la cration de ce plan. Tous les points actifs interviennent dans la fabrication d'un axe. On vrifie donc que l'addition de toutes les contributions sur un axe est 100.

i=1

CTR (i , ) = 100

11.3

Cosinus Carrs des individus actifs

Le tableau ci-aprs donne les cosinus carrs des individus actifs pour les cinq premiers axes factoriels. Ce tableau se compose de 8 colonnes : 88

SPAD

Analyse des correspondances multiples (CORMU)

Identificateur : identifiant de lindividu Poids relatif : indique le poids donn chaque individu, dans ce cas uniforme (0.1=100/1000). Distance l'origine : carr de la distance de lindividu au centre de gravit. Axe 1 Axe 5 : cosinus carrs, utilisables pour apprcier la qualit du positionnement des points en reprsentation factorielle compar leur configuration relle. Un cosinus carr gal 1 indique que lindividu se trouve situe sur l'axe. Un cosinus carr gal 0 indique que lindividu est dans une direction orthogonale l'axe.
Cosinus carrs des individus actifs Poids Distance Identificateur relatif l'origine 0,10 2,44 1 0,10 2,45 2 0,10 3,72 3 0,10 3,21 4 0,10 2,23 5 0,10 2,19 6 0,10 2,41 7 0,10 1,85 8 0,10 1,98 9 0,10 2,58 10 0,10 1,97 11 0,10 1,69 12 0,10 2,43 13 0,10 2,58 14 0,10 2,10 15 0,10 1,95 16 0,10 3,52 17 0,10 3,96 18 0,10 1,51 19

Axe 1 0,03172 0,14496 0,08904 0,41780 0,28092 0,40413 0,23061 0,18559 0,00001 0,03118 0,07844 0,00355 0,16612 0,05573 0,00134 0,02114 0,00361 0,00126 0,00802

Axe 2 0,00 0,18 0,50 0,14 0,02 0,01 0,16 0,09 0,02 0,18 0,17 0,01 0,01 0,00 0,18 0,13 0,09 0,07 0,09

Axe 3 0,04 0,21 0,02 0,11 0,39 0,21 0,09 0,00 0,07 0,01 0,00 0,00 0,00 0,00 0,16 0,16 0,01 0,04 0,01

Axe 4 0,00 0,01 0,03 0,00 0,02 0,00 0,01 0,12 0,00 0,01 0,15 0,13 0,19 0,02 0,01 0,20 0,02 0,01 0,16

Axe 5 0,07 0,03 0,01 0,10 0,06 0,13 0,07 0,08 0,02 0,21 0,40 0,06 0,02 0,03 0,10 0,07 0,00 0,02 0,30

Interprtation Les images obtenues (plans factoriels) sont des approximations de la configuration relle. Il y aura des distances entre couples de points bien reprsentes, tandis que d'autres ne reflteront pas fidlement la distance relle entre les points. Si deux points sont proches du plan factoriel, alors la distance reprsente sera une bonne approximation la distance relle. Mais si au moins un point est loign du plan de projection, alors la distance relle peut tre diffrente de celle reprsente sur le plan. Cette proximit du plan factoriel de projection est mesure par les cosinus carrs de chaque point avec les axes factoriels.

COS 2 (i , ) = 2 i d (i , G )
Un cosinus carr gal 1 indique que lindividu se trouve sur l'axe (l'angle est nul). Un cosinus carr gal 0 indique que lindividu est dans une direction orthogonale l'axe. En additionnant les cosinus carrs dun individu sur tous les axes factoriels, nous obtiendrons l'unit, car il faut utiliser tous les axes factoriels pour positionner exactement le point dans l'espace complet.

=1

COS 2 (i , ) = 1

89

SPAD

Analyse des correspondances multiples (CORMU)

L'addition des cosinus carrs d'un point sur diffrents axes donne, en pourcentage, la "qualit" de la reprsentation du point sur le sous-espace dfini par ces axes. Dans le cas dun grand nombre dindividus, il est prfrable de visualiser la reprsentation graphique des individus actifs (avec une taille proportionnelle aux cosinus carrs) sur le plan factoriel 1-2 pour identifier les individus qui contribuent le plus la cration de ce plan.

12. CORMU-11 : Coordonnes, Cosinus Carrs des individus illustratifs


Dans cet exemple, nous navons slectionn aucun individu illustratif. Les coordonnes et les cosinus carrs des individus illustratifs se prsentent et sinterprtent de la mme manire que pour les individus actifs. Par dfinition, les individus illustratifs ne contribuent pas la cration des axes, cest pourquoi le tableau des contribution napparat pas dans ce listing.

13. CORMU-12 : Corrlations entre les variables continues et les facteurs


Ce tableau donne la corrlation entre les variables continues illustratives et les diffrents axes factoriels. Ce tableau est constitu de 10 colonnes :

Libell des variables : cette colonne donne le libell de la variable continue. Effectif : effectif des individus renseigns. Poids absolu : effectif des individus renseigns aprs pondration. Leffectif et le poids sont identiques lorsque lon nutilise pas de pondration. Moyenne : cette colonne donne la moyenne pondre de chacune des variables. Ecart-type : cette colonne donne lcart-type pondr de chacune des variables. Axe1 Axe5 : ces colonnes donnent les corrlation de chaque variable continue avec les 5 premiers axes factoriels.

Corrlations entre les variables continues et les facteurs


Libell des variables Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Age de l'enqut(e) Nombre de non-rponses au questionnaire Age de fin d'tude Revenu personnel souhait Estimation du revenu minimum d'une famille de 2 enfants Nombre de jours de vacances en t Effectif 806 713 1000 1000 997 915 897 1000 Poids EcartsMoyenne Axe 1 absolu type 806,00 8478,73 3668,95 0,04 713,00 19383,90 12608,80 0,05 1000,00 42,68 17,50 0,40 1000,00 4,05 4,19 0,20 997,00 17,29 3,88 -0,69 915,00 7244,48 4756,78 -0,26 897,00 5561,89 2423,40 -0,19 1000,00 18,31 19,37 -0,38 Axe 2 Axe 3 Axe 4 Axe 5 -0,06 -0,12 -0,55 -0,12 -0,13 -0,21 0,01 -0,02 -0,04 -0,02 0,14 0,20 -0,24 -0,15 -0,14 -0,03 0,01 -0,03 0,21 0,08 -0,05 -0,03 0,08 0,06 -0,05 0,06 -0,28 -0,12 0,11 0,09 -0,14 0,07

Interprtation On note par exemple que la variable Age de fin dtudes est corrle ngativement et de faon importante avec le premier axe (-0.69). Les coefficients de corrlation des variables sont aussi les coordonnes de ces variables sur les diffrents axes factoriels. 90

SPAD

Analyse des correspondances multiples (CORMU) des

Il est important de noter que les carrs des coefficients de corrlations sont contributions relatives (cosinus carrs). Ils ne sont pas imprims dans ces tableaux.

Les variables continues qui sont les plus corrles aux axes factoriels sont donc aussi les mieux reprsentes.

91

Analyse des correspondances multiples avec choix des modalits actives (COREM)
Cette mthode ressemble lanalyse des correspondances multiples. La principale diffrence rside dans la possibilit de choisir les modalits actives. La mthode COREM est aussi une alternative la ventilation automatique des modalits deffectif faible utilise dans lanalyse des correspondances multiples. Avec COREM, lutilisateur slectionne lui-mme les modalits actives de son analyse. La ventilation permet de saffranchir automatiquement (en spcifiant un seuil en %) des modalits de faibles effectifs qui peuvent avoir des effets perturbateurs sur lanalyse. Les rponses appartenant ces modalits peu frquentes sont rparties alatoirement entre les autres modalits de la variable. Dans la mthode COREM, lutilisateur dfinit lui-mme les modalits actives. Les modalits qui ne sont pas slectionnes comme actives sont automatiquement positionnes comme illustratives. Remarque : on prendra garde, pour les interprtations, au fait que certaines proprits de lanalyse des correspondances multiples ne sont plus vraies ici. En particulier, si une modalit dune variable est illustrative, les autres modalits actives nont pas lorigine des axes comme centre de gravit. La diffrence est peu perceptible si la modalit non active est de poids faible. En termes de rsultats, les sorties de cette mthode sont identiques celles de lanalyse des correspondances multiples, prsente dans le chapitre prcdent.

92

Description des axes factoriels (DEFAC)


Cette procdure constitue une aide l'interprtation des facteurs issus d'une procdure d'analyse factorielle. Un facteur (i.e. axe factoriel) peut ainsi tre rapidement et clairement dcrit par les lments les plus significatifs. Ces lments pourront tre les individus, les modalits, les variables continues, les frquences, utiliss en tant qu'lments actifs ou illustratifs dans l'analyse pralable. Les lments caractristiques sont classs selon leurs coordonnes. Les modalits peuvent tre classes selon le critre statistique appel "valeur-test". La description de chaque facteur est faite dans un document indpendant. Dans cet exemple, nous avons demand visualiser au plus 20 lments caractristiques par description : pour les individus actifs, les modalits actives et illustratives ainsi que les variables continues. Nous effectuons la description des axes issus de lanalyse des correspondances multiples ralise sur le fichier ASPI1000.SBA (CF page 74).

1.

DEFAC-1 : Description de laxe par les individus actifs et illustratifs

Cette sortie prsente dans un premier temps les individus actifs de lanalyse, ordonns dans lordre croissant de leur coordonne factorielle sur laxe. Dans le cas dun grand nombre dindividus, il est prfrable de modifier le critre de slection des lments pour la description des axes (par dfaut 50%). Dans le cas prsent, nous avons demand la slection de 20 lments. Pour les individus actifs et illustratifs, le tableau se dcompose en trois colonnes :

Identificateur de lindividu : identifiant de lindividu. Coordonnes : coordonne factorielle de lindividu sur laxe tudi. Dans cet exemple, il sagit du premier axe factoriel de lanalyse des correspondances multiples. Les individus sont tris dans lordre croissant de leur coordonne factorielle. La ligne du tableau intitule Zone Centrale permet de dlimiter les coordonnes ngatives des coordonnes positives. Poids : poids des individus dans lanalyse. Dans ce cas uniforme, tous les individus ont un poids identique : lunit.

93

SPAD

Description des axes factoriels (DEFAC)


Description de l'axe 1 Par les INDIVIDUS ACTIFS Identificateur de Coordonne l'individu -1,16 4 -1,13 188 -1,09 336 -1,08 297 -1,08 158 -1,07 24 -1,07 200 -1,07 187 -1,07 284 -1,05 334 ZONE CENTRALE 0,95 697 0,98 674 1,04 775 1,04 871 1,05 858 1,07 753 1,09 787 1,12 952 1,12 841 750 1,12

Poids 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00

Interprtation Dans cet exemple, lidentificateur des individus correspond un numro de questionnaire. Il est donc difficile dinterprter directement ces rsultats.

2.

DEFAC-2 : Description de laxe par les modalits actives et illustratives

Cette sortie prsente dans un premier temps les modalits actives de lanalyse. Par dfaut, ces modalits sont ordonnes dans lordre croissant de leur valeur-test sur laxe mais il est possible de les ordonner dans lordre croissant de leur coordonne factorielle en modifiant le paramtrage. Pour les modalits actives et illustratives, le tableau se dcompose en 4 colonnes :

Libell de la variable : libell complet de la variable. Libell de la modalit : libell complet de la modalit. Valeur-test : valeur-test de la modalit lie sa coordonne sur laxe factoriel. La valeurtest est dautant plus forte que la modalit correspondante occupe une position significative sur laxe. Une modalit est dautant plus intressante sur un axe que sa valeur-test est plus grande. Dans le cas usuel, on considre quune valeur-test suprieure 2 en valeur absolue indique quune modalit est significativement diffrente du centre de gravit. Les modalits sont ordonnes dans lordre croissant des valeurs-tests. La ligne du tableau intitule Zone Centrale permet de dlimiter les valeurs-tests ngatives des valeurstests positives.

Poids : poids des modalits dans lanalyse.

94

SPAD
Description de l'axe 1 Par les MODALITES ACTIVES Libell de la variable Diplme de l'enqut(e) en 5 classes Type d'emploi Diplme de l'enqut(e) en 5 classes Taille d'agglomration (en nombre d'habitants) Type d'emploi Age de l'enqut(e) en 5 classes Statut d'occupation du logement en 4 classes Sexe de la personne interroge Possdez vous des valeurs mobilires ? Age de l'enqut(e) en 5 classes ZONE CENTRALE Age de l'enqut(e) en 5 classes Taille d'agglomration (en nombre d'habitants) Age de l'enqut(e) en 5 classes Possdez vous des valeurs mobilires ? Sexe de la personne interroge Statut d'occupation du logement en 4 classes Taille d'agglomration (en nombre d'habitants) Diplme de l'enqut(e) en 5 classes Type d'emploi Diplme de l'enqut(e) en 5 classes

Description des axes factoriels (DEFAC)

Libell de la modalit Universit,gde cole Cadres Bac - Brevet sup. Paris *Reponse manquante* Moins de 25 ans locataire fminin oui 25 34 ans 35 49 ans 2.000 - 20.000 50 64 ans non masculin propritaire moins de 2.000 Aucun Ouvriers CEP ou fin tudes

Valeur-Test -16,38 -14,64 -13,86 -13,22 -11,44 -10,73 -8,98 -8,62 -8,14 -7,03 5,34 5,40 7,74 8,14 8,62 8,88 10,11 10,75 16,14 17,40

Poids 150,000 229,000 182,000 326,000 125,000 150,000 523,000 531,000 121,000 284,000 209,000 87,000 188,000 879,000 469,000 290,000 83,000 189,000 263,000 321,000

Interprtation Sur laxe 1, on note la prsence de valeurs-tests extrmement leves en valeur absolue, indiquant la prsence de modalits significativement diffrentes du centre de gravit. On remarque une nette opposition au niveau des diplmes, de lemploi et de la taille dagglomration. On observe ensuite une opposition moins marque au niveau des classes dges, du statut doccupation du logement, du sexe et des valeurs mobilires. Cet axe oppose des personnes plus jeunes (moins de 25 ans jusqu 34 ans), assez bien diplmes (Bac, Brevet sup., Universit gde cole) o les femmes sont plus reprsentes des personnes plus ges (de 35 64 ans) et beaucoup moins diplmes (aucun diplme, CEP ou fin dtudes). Dans le mme sens, on constate une opposition entre Paris o le statut de locataire est prpondrant, et des communes de moins de 20 000 habitants dans lesquelles on retrouve davantage de propritaires. On observe galement une opposition entre les cadres qui semblent possder des valeurs mobilires et les ouvriers qui nen possdent pas ou moins. Nous prsentons maintenant la description de laxe 1 par les 20 modalits illustratives les plus caractristiques.
Description de l'axe 1 Par les MODALITES ILLUSTRATIVES Libell de la variable Diplme d'enseignement gnral le plus lev obtenu La famille est le seul endroit o l'on se sente bien Diplme d'enseignement gnral le plus lev obtenu Profession de l'enqut(e) en 7 classes Profession de l'enqut(e) (ou dernire exerce) Profession de l'enqut(e) en 7 classes Profession de l'enqut(e) (ou dernire exerce) Profession de l'enqut(e) (ou dernire exerce) Statut d'occupation du logement Opinion propos du mariage ZONE CENTRALE Opinion propos du mariage Age et sexe de l'enquteur Statut d'occupation du logement Profession de l'enqut(e) (ou dernire exerce) Diplme d'enseignement gnral le plus lev obtenu Profession de l'enqut(e) (ou dernire exerce) Regardez-vous la tlvision ... La famille est le seul endroit o l'on se sente bien Profession de l'enqut(e) en 7 classes Diplme d'enseignement gnral le plus lev obtenu Libell de la modalit universit,gde cole non baccalaurat (1/2) *Reponse manquante* *Reponse manquante* prof. lib.-cad. sup. cadre suprieur cadre moyen locataire dissout si accord union indissoluble femme plus 38 ans propritaire ouvrier spcialis aucun ouvrier qualifi tous les jours oui ouvriers CEP ou fin tudes Valeur-Test -15,80 -14,56 -13,22 -11,44 -11,44 -10,13 -9,23 -9,13 -8,98 -8,71 7,94 8,77 8,88 9,05 10,75 11,31 12,14 14,47 16,14 17,40 Poids 142,000 431,000 162,000 125,000 125,000 84,000 69,000 135,000 523,000 387,000 231,000 338,000 290,000 98,000 189,000 152,000 419,000 561,000 263,000 321,000

95

SPAD

Description des axes factoriels (DEFAC)

On retrouve les variables initiales pour la profession et le diplme denseignement le plus lev. Sur ces variables, on constate les mmes oppositions que pour les modalits actives. On note tout de mme une diffrence dopinion sur le mariage. Concernant les plus gs et les moins diplms , on note quils sont plus nombreux regarder la tlvision tous les jours et quils pensent en proportion suprieure la moyenne que la famille est le seul endroit o ils se sentent bien.

3.

DEFAC-3 : Description de laxe par les variables continues illustratives

Ce tableau ordonne les variables continues illustratives dans lordre de leur coordonne factorielle croissante sur chaque axe. Ce tableau est constitu de 3 groupes de colonnes :

Libell des variables : cette colonne donne le libell de la variable continue. Coordonne : coordonne de la variable continue sur laxe tudi. La coordonne quivaut en fait la corrlation entre la variable continue illustrative et laxe factoriel (CF page 90). Poids absolu : effectif des individus renseigns aprs pondration. Leffectif et le poids sont identiques lorsque lon nutilise pas de pondration. Moyenne : cette colonne donne la moyenne pondre de chacune des variables. Ecart-type : cette colonne donne lcart-type pondr de chacune des variables.

Description de l'axe 1 Par les VARIABLES CONTINUES ILLUSTRATIVES Libell de la variable Age de fin d'tude Nombre de jours de vacances en t Revenu personnel souhait Estimation du revenu minimum d'une famille de 2 enfants ZONE CENTRALE Estimation du salaire mensuel d'un ingnieur Estimation du revenu mensuel d'un mdecin Nombre de non-rponses au questionnaire Age de l'enqut(e)

Coordonne -0,69 -0,38 -0,26 -0,19 0,04 0,05 0,20 0,40

Poids 997,00 1000,00 915,00 897,00 806,00 713,00 1000,00 1000,00

Moyenne 17,286 18,311 7244,480 5561,890 8478,730 19383,900 4,054 42,680

Ecart-type 3,883 19,367 4756,780 2423,400 3668,950 12608,800 4,190 17,496

Interprtation Ces rsultats nous confortent dans lanalyse de la description de laxe 1 par les modalits actives. Les fortes valeurs pour lge de fin dtudes, le nombre de jours de vacances en t et le revenu personnel souhait concernent davantage les jeunes, les cadres, les plus diplms, habitant Paris avec un statut de locataire, etc. Les fortes valeurs pour lge concernent les plus gs et les moins diplms.

96

Classification et Typologie

Les techniques de classification font partie de la statistique exploratoire multidimensionnelle. Elles ont pour but dexpliciter la structure dun ensemble de donnes importantes, permettant ainsi de formuler des hypothses vrifier dans une tape ultrieure. Elles sont distinguer des mthodes de classement qui ont un but explicatif ou prdictif. La typologie se sert de la classification pour fournir une autre forme de synthse des donnes quune analyse factorielle. Cette synthse de linformation contenue dans le tableau de donnes est prsente de la faon suivante. Les individus sont regroups de faon automatique en un petit nombre de classes. Les individus qui se ressemblent au niveau des variables actives sont rassembls dans une mme classe. Les classes sont calcules pour que, lorsque lon passe dune classe une autre, on passe dune catgorie particulire dindividus une catgorie diffrente. La synthse de toute linformation contenue dans le tableau de donnes se ramne alors la caractrisation de ce petit nombre de classes homognes. On aura ainsi fabriqu et typ des classes dindividus. La description en clair de ces types rsume lessentiel de linformation contenue dans les donnes. Dans ce chapitre, nous ralisons une typologie partir des rsultats issus de lanalyse des correspondances multiples ralise prcdemment (CF page 74). Pour cela, on va procder une classification. Il sagit dune classification sur facteurs. On se sert donc des facteurs issus de lanalyse des correspondances multiples. Pour cette premire tape, on utilise la procdure RECIP/SEMIS. Cette procdure permet de choisir les niveaux de coupure de larbre hirarchique (aussi appel dendrogramme). Il sagit de choisir une ou plusieurs partitions au vu des rsultats fournis en sortie. La seconde tape, effectue par la procdure PARTI-DECLA, permet dobtenir une ou plusieurs partitions des individus. Il est possible de raliser plusieurs partitions simultanment. Cette procdure propose aussi la description statistique des partitions choisies. On peut caractriser soit chacune des classes dune partition, soit globalement lensemble de la partition. Les modalits des variables nominales, les variables nominales elles-mmes, les variables continues et les axes factoriels peuvent intervenir dans les caractrisations statistiques.

97

Classification sur facteurs (RECIP / SEMIS)


1. Justification du passage aux coordonnes factorielles

La mthode RECIP/SEMIS de SPAD permet deffectuer une classification partir de coordonnes factorielles issues dune analyse pralable. Il est quivalent d'effectuer une classification des individus partir dun ensemble de p variables ou partir de l'ensemble des p facteurs issus de lanalyse factorielle. En effet, en passant des variables initiales aux facteurs, sans en rduire leur nombre et ce, malgr leur obtention dans l'ordre dcroissant de la variance explique, on ne perd aucune information. Il s'agit mathmatiquement d'un changement de repre des individus (changement de base). On peut, nanmoins, ne prendre en compte quun sous-espace factoriel de dimension q avec q infrieur p, et effectuer une classification sur les q premiers axes factoriels. Cela prsente lavantage dliminer des fluctuations alatoires qui constituent en gnral lessentiel de la variance prise en compte par les (p-q) derniers axes. Le fait dabandonner les derniers facteurs revient lisser les donnes, ce qui en gnral amliore la partition en produisant des classes plus homognes. Les axes factoriels qui sont conserver pour la classification sont ceux qui engendrent un sous-espace dans lequel le nuage des individus classer est stable. En pratique on garde gnralement un peu plus de la moiti des axes, mme si un coude apparat au bout de quelques axes lexamen de lhistogramme des valeurs propres associes ces axes. Dans le paramtrage de cette mthode, vous pouvez dfinir le nombre de coordonnes factorielles prendre en compte pour lagrgation (10 par dfaut). Ainsi quelque soit le tableau de donnes initiales, on se ramnera toujours un tableau de donnes quantitatives partir duquel sera effectue la classification des individus. Une seule distance, la distance euclidienne usuelle, sera utilise pour calculer les ressemblances entre individus, et un seul critre d'agrgation, la perte dinertie minimum (critre de Ward) sera utilis pour calculer lcart entre deux sous-ensembles disjoints.

2.

Les techniques de classification

Les techniques proposes dans SPAD sont la classification ascendante hirarchique (CAH, RECIP dans SPAD) qui fournit une hirarchie de partitions, et la mthode d'agrgation autour de centres mobiles qui conduit directement une seule partition. Une utilisation conjointe de ces deux types de mthodes (classification mixte) permettra de consolider la partition et dobtenir une partition fiable sinon optimale (SEMIS). Les deux types de mthode CAH et centres mobiles prsentent les inconvnients respectifs suivants :

la CAH fournit un grand nombre de partitions parmi lesquelles on doit en choisir une : il nest souvent pas ais de choisir la coupure significative. Dautre part, larbre hirarchique obtenu nest pas un arbre optimal puisque la partition construite un niveau donn dpend de la partition obtenue ltape prcdente. dans la mthode des centres mobiles, le nombre de classes doit tre fix au dpart, et la partition obtenue dpend du tirage initial des centres provisoires des classes.

98

SPAD

Classification sur facteurs (RECIP / SEMIS)

Pour remdier en partie ces inconvnients et pour essayer de sapprocher le plus possible de la partition optimale si elle existe, on peut avoir recours lutilisation conjointe de la CAH et de la CCM : cest lobjet de la classification mixte appele SEMIS dans SPAD. Une premire utilisation conjointe des deux techniques de classification est la suivante : on effectue une classification (CCM) autour dun nombre important de centres mobiles et on construit ensuite un arbre hirarchique partir des classes formes dans cette CCM. Cependant, cette mthode est relativement instable sur des chantillons de petite taille. Nous vous conseillons dutiliser la procdure RECIP (CAH) sur des chantillons de moins de 10000 individus. Au del, la mthode SEMIS permet de rduire les temps dexcution et fournit des partitions stables. Nous prsentons dans ce chapitre les mthodes RECIP et SEMIS partir des donnes issues de lanalyse des correspondances multiples prsentes page 74.

3.

La Classification Ascendante Hirarchique RECIP

La procdure RECIP agrge les lments suivant un algorithme de classification hirarchique utilisant le critre dagrgation de Ward (critre de la variance). Elle agrge les lments de faon minimiser la variance interne de chaque classe (inerties intra-classes) et maximiser la variance entre les classes (inertie inter-classes). Ces inerties sont calcules partir des coordonnes des lments classer sur les axes factoriels sauvegards pour la typologie. Pour plus de prcisions, nous renvoyons louvrage [ Lebart, Morineau et Piron (1995)]. Coordonnes utilises pour lagrgation Ce paramtre indique le nombre de facteurs pris en compte pour calculer les distances entre les individus et pour effectuer la partition en classes. Par la suite, la construction des partitions et des classes ainsi que le calcul des diffrentes aides linterprtation seront effectus dans le sous-espace factoriel choisi. Par dfaut, 10 facteurs sont pris en compte. Il faut noter que le nombre maximum daxes possibles est celui choisi pour lanalyse factorielle. Cest au moment du choix de ce paramtre que lutilisateur devra se rfrer aux rsultats de lanalyse factorielle et notamment la prsentation des valeurs propres. Dans lexemple, la partition en classes sest faite sur les 14 premiers facteurs. On a choisi ici le nombre daxes factoriels de manire ce quau moins 80% de linertie totale soit conserve (CF page 78). Il ny a pas de rgle simple pour le choix du nombre daxes. On peut conseiller en gnral de conserver au moins la moiti des axes et souvent les deux tiers. Sauvegarde partielle de larbre La sauvegarde partielle de larbre fixe le nombre dlments terminaux qui seront sauvegards pour ldition des diffrents rsultats (50 par dfaut). Seule la partie de larbre au-dessus de cette coupure sera conserve. Le nombre dindividus actifs limite le nombre dlments terminaux qui peuvent tre conservs. Dans le cas o lon sauvegarde trop dlments terminaux, le logiciel ndite pas la composition de ces lments, pas plus que leurs coordonnes et leur valeur-test. Ici, on ne conserve que 30 lments terminaux.

99

SPAD

Classification sur facteurs (RECIP / SEMIS)

3.1

CLASSIF-3 : Description des 30 noeuds d'indices les plus levs


Numro : donne les numros des nuds. Ces numros sont attribus en squence. An : un des deux nuds terminaux agrgs (avec le benjamin) une tape donne pour former le nud Numro. Benjamin : nud terminal agrg avec lan pour former le nouveau nud identifi par son numro. Lan et le benjamin sont les deux lments dont le regroupement entrane une perte dinertie inter-classes minimale.

La description des nuds est constitue de 6 composantes.

Nb d'lments terminaux du noeud : donne le nombre d'lments terminaux dans le nud cr. Equivaut la somme des lments terminaux contenus dans lan et le benjamin. Poids du nud : poids du nud qui dpend de celui de chaque lment terminal. Dans ce cas uniforme, le poids et le nombre dlments terminaux sont identiques. Indice de niveau : donne la valeur de l'indice d'agrgation (ou indice de niveau) de chaque nud. Cet indice dagrgation au sens du critre de Ward mesure la dissimilarit entre les classes. Lindice de niveau dun nud est en fait la perte dinertie inter-classes occasionne par la formation du nud. Ce nud est form par le regroupement des deux nuds dont les numros sont donns par les colonnes An et Benjamin.

Par dfaut, les 50 premiers nuds sont dits. Ici, la publication des 30 premiers est suffisante.
Description des 30 noeuds d'indices les plus levs
Numro 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Somme des indices de niveau Ain 1936 1946 1964 1928 1940 1969 1968 1944 1965 1923 1930 1972 1963 1967 1979 1935 1974 1980 1971 1982 1973 1983 1977 1989 1993 1978 1988 1975 1995 1991 Nb d'lments Benjamin terminaux du noeud 1938 78 1953 60 1943 50 1951 52 1958 49 1966 79 1952 84 1954 49 1878 68 1904 42 1901 53 1920 63 1947 101 1959 73 1955 76 1950 54 1962 110 1970 131 1985 114 1976 185 1984 128 1987 204 1986 159 1990 313 1992 472 1981 131 1994 586 1996 665 1997 796 1998 1000 Poids du noeud 78,00 60,00 50,00 52,00 49,00 79,00 84,00 49,00 68,00 42,00 53,00 63,00 101,00 73,00 76,00 54,00 110,00 131,00 114,00 185,00 128,00 204,00 159,00 313,00 472,00 131,00 586,00 665,00 796,00 1000,00 Indice de niveau 0,01097 0,01101 0,01116 0,01136 0,01139 0,01188 0,01213 0,01285 0,01304 0,01387 0,01397 0,01417 0,01450 0,01582 0,01687 0,01835 0,02384 0,02446 0,02504 0,03104 0,04241 0,04329 0,06131 0,06857 0,07922 0,08172 0,08705 0,10724 0,11979 0,12828
0,00000 0,02000 0,04000 0,06000 0,08000 0,10000 0,12000 0,14000

1,83681

100

SPAD

Classification sur facteurs (RECIP / SEMIS)

Le nud 1970, par exemple, est form des nuds 1936 et 1938. Il est constitu de 78 lments de poids 78. La valeur de lindice dagrgation est de 0.01097. On observe sur lhistogramme des indices de niveau des sauts importants pour une coupure en quatre classes (trois dernires barres) et en neuf classes (huit dernires barres). On optera pour une partition en neuf classes.

3.2

CLASSIF-4 : Description des 30 nouveaux lments terminaux

Le tableau ci-aprs dite la composition des 30 lments terminaux (50 par dfaut). Cela permet de connatre la rpartition des individus dans les lments terminaux qui se dfinissent comme les classes dindividus obtenues lorsque lon coupe larbre dagrgation hirarchique en un certain niveau. Ce tableau est constitu de 7 colonnes : Numro : rang de llment terminal. Celui-ci est attribu squentiellement. Noeud : numro du nud terminal. Indice : valeur de lindice de niveau du nud terminal. An : premier nud qui compose le nud terminal. Benjamin : second nud qui compose le nud terminal. Effectif : effectif du nud terminal. Identificateur : donne lidentificateur de lensemble des individus qui sont agrgs dans le nud terminal. Dans le cas de cette enqute, les individus sont anonymes et ldition de la composition des lments terminaux a peu dintrt. On se limite la publication de 5 nuds parmi les nouveaux lments terminaux forms par lagrgation.
Description des 30 nouveaux lments terminaux
Elments terminaux forms de plusieurs individus Numro Noeud Indice 1 1962 0,00888 Ain 1915 Benjamin Effectif Identificateur Identificateur Identificateur Identificateur Identificateur Identificateur Identificateur Identificateur 1948 61 1 230 779 209 255 384 892 276 254 890 694 930 548 707 20 133 820 335 577 131 456 397 90 233 857 327 93 618 980 269 647 500 883 552 549 277 283 107 463 334 889 313 623 535 201 383 590 298 65 845 405 252 599 724 676 555 739 759 97 512 378 285 315 49 988 833 36 859 271 229 40 539 114 15 805 366 698 901 962 125 160 435 879 910 212 987 855 249 607 51 47 11 897 232 248 851 616 968 696 933 935 214 400 563 482 167 375 14 992 91 177 39 368 238 896 409 704 902 936 96 461 632 645 396 727 234 822 290 329 723 619 184 270 693 281 951 964 612 385 484 818 509 185 837 250 206 722 485 306 911 929 408 683 538 418 483 157 908 600

1958 0,00754

1933

1891

27

1940 0,00476

1868

1875

22

1954 0,00650

1870

1911

21

1944 0,00525

1850

1888

28

3.3

CLASSIF-5 : Coordonnes et valeurs-tests des noeuds terminaux

Cette sortie dite dans un premier temps le tableau des coordonnes des lments terminaux sur les 5 premiers axes (issus de lanalyse des correspondances multiples), puis le tableau des valeurs-tests. Le tableau des coordonnes est compos de 9 colonnes : 101

SPAD

Classification sur facteurs (RECIP / SEMIS)

Numro : donne le rang du nud Identificateur : numro du nud terminal, Poids : poids du nud terminal. Effectif : effectif du nud terminal. Dans lexemple, le poids des individus est uniforme, donc le poids et leffectif des nuds sont identiques.

Axe1 Axe5 : valeurs-tests des nuds terminaux sur les axes demands par lutilisateur (les cinq premiers par dfaut).
Coordonnes des noeuds terminaux Numro Identificateur Poids Effectif 1 1962 61,00 61 2 1958 27,00 27 3 1940 22,00 22 4 1954 21,00 21 5 1944 28,00 28 6 1955 34,00 34 7 1904 18,00 18 8 1923 24,00 24 9 1951 29,00 29 10 1928 23,00 23 11 1952 24,00 24 12 1968 60,00 60 13 1947 43,00 43 14 1963 58,00 58 15 1950 29,00 29 16 1935 25,00 25 17 1953 28,00 28 18 1946 32,00 32 19 1966 31,00 31 20 1969 48,00 48 21 1920 13,00 13 22 1943 18,00 18 23 1964 32,00 32 24 1878 12,00 12 25 1965 56,00 56 26 1970 78,00 78 27 1901 19,00 19 28 1930 34,00 34 29 1959 35,00 35 30 1967 38,00 38

Axe 1 -0,41 -0,51 0,51 -0,58 -1,44 0,37 -0,35 1,21 -0,60 0,40 0,64 0,65 0,33 0,64 0,85 -0,24 0,94 0,24 0,13 1,03 -1,16 0,66 -0,50 0,60 1,37 -1,07 -1,69 -1,39 -0,67 -1,00

Axe 2 0,95 1,07 0,95 -0,40 1,08 0,58 -0,07 0,00 -0,12 0,25 1,05 0,57 0,78 0,14 -0,64 -1,70 -0,11 -0,23 -0,51 -0,10 0,99 0,56 -0,11 0,01 -0,95 0,38 -0,15 -0,80 -1,34 -2,04

Axe 3 -0,20 0,88 -0,15 1,42 1,48 0,17 0,80 -0,85 -1,31 -0,64 -0,08 -1,18 0,02 0,33 1,04 0,91 -0,07 0,19 -0,75 -0,15 1,60 0,06 0,24 0,64 1,16 -0,32 0,35 -1,48 -0,24 -0,66

Axe 4 -0,39 0,17 0,98 0,28 0,79 -1,05 -0,67 -0,19 -0,70 -1,52 1,64 0,63 -0,25 -0,06 0,69 0,46 1,77 0,93 -0,93 -0,85 0,51 1,16 -0,23 -2,10 -0,53 -0,37 0,71 -0,02 -0,13 0,75

Axe 5 -1,15 0,09 0,30 1,02 1,86 -0,73 1,17 1,00 1,24 1,14 0,19 0,21 -0,32 -0,61 -0,46 -0,53 -0,48 -1,24 0,47 0,56 1,30 0,05 -0,12 -0,73 0,06 -0,38 0,12 -0,53 0,80 -0,41

Le tableau des valeurs-tests comprend les colonnes suivantes :

Numro : donne le rang du nud Identificateur : numro du nud terminal, Poids : poids du nud terminal. Effectif : effectif du nud terminal. Dans lexemple, le poids des individus est uniforme, donc le poids et leffectif des nuds sont identiques.

Axe1 Axe5 : donne les coordonnes des nuds terminaux sur les axes demands par lutilisateur (les cinq premiers par dfaut).

102

SPAD
Valeurs-Test des noeuds terminaux Numro Identificateur Poids Effectif 1 1962 61,00 61 2 1958 27,00 27 3 1940 22,00 22 4 1954 21,00 21 5 1944 28,00 28 6 1955 34,00 34 7 1904 18,00 18 8 1923 24,00 24 9 1951 29,00 29 10 1928 23,00 23 11 1952 24,00 24 12 1968 60,00 60 13 1947 43,00 43 14 1963 58,00 58 15 1950 29,00 29 16 1935 25,00 25 17 1953 28,00 28 18 1946 32,00 32 19 1966 31,00 31 20 1969 48,00 48 21 1920 13,00 13 22 1943 18,00 18 23 1964 32,00 32 24 1878 12,00 12 25 1965 56,00 56 26 1970 78,00 78 27 1901 19,00 19 28 1930 34,00 34 29 1959 35,00 35 30 1967 38,00 38

Classification sur facteurs (RECIP / SEMIS)

Axe 1 -3,28 -2,67 2,43 -2,67 -7,73 2,20 -1,51 6,00 -3,25 1,94 3,18 5,18 2,24 5,04 4,62 -1,22 5,03 1,40 0,71 7,33 -4,19 2,83 -2,88 2,09 10,53 -9,83 -7,43 -8,27 -4,02 -6,26

Axe 2 7,66 5,62 4,49 -1,83 5,78 3,42 -0,29 0,00 -0,66 1,22 5,20 4,55 5,26 1,08 -3,52 -8,60 -0,62 -1,34 -2,89 -0,74 3,58 2,39 -0,61 0,05 -7,34 3,53 -0,66 -4,76 -8,09 -12,84

Axe 3 -1,64 4,64 -0,73 6,59 7,96 1,03 3,42 -4,21 -7,17 -3,11 -0,42 -9,44 0,11 2,59 5,68 4,58 -0,39 1,11 -4,26 -1,04 5,79 0,27 1,38 2,21 8,92 -2,96 1,54 -8,76 -1,42 -4,15

Axe 4 -3,18 0,89 4,64 1,29 4,25 -6,23 -2,85 -0,93 -3,80 -7,36 8,15 5,01 -1,68 -0,45 3,77 2,34 9,48 5,35 -5,27 -6,05 1,85 4,96 -1,31 -7,30 -4,04 -3,41 3,13 -0,11 -0,79 4,69

Axe 5 -9,27 0,48 1,45 4,73 9,96 -4,34 5,02 4,94 6,76 5,55 0,96 1,64 -2,13 -4,79 -2,53 -2,68 -2,57 -7,11 2,67 3,97 4,73 0,21 -0,69 -2,56 0,44 -3,46 0,54 -3,16 4,81 -2,59

Cette sortie nest pas dite par dfaut. Il permet de juger, travers les coordonnes, de loriginalit des lments terminaux sur les premiers axes factoriels, et travers les valeurs-tests de la significativit de ces lments terminaux ces axes. Le tableau des coordonnes et des valeurs-tests des classes de la partition que lon verra ultrieurement est souvent suffisant.

3.4 CLASSIF-6 : Description des noeuds de la hirarchie (au dessus des noeuds terminaux)
Ce tableau donne les caractristiques des nuds situs au-dessus des nuds terminaux. Il dcrit de quelle faon sagrgent ces nuds. On a 8 colonnes.

Rang du nud : rang du nud tudi au dessus des nuds terminaux. Indice du nud : indice de niveau du nud tudi. Dans lexemple, on a sauvegard les 30 derniers nuds terminaux. Le premier nud form par lagrgation de deux nuds terminaux est donc de rang 31. Le second est de rang 32, etc.

An : rang du premier nud qui compose le nud tudi. Benjamin : rang du second nud qui compose le nud tudi. Le nud de rang 42 est form des nuds de rang 13 et de rang 14, qui sont donc deux des 30 nuds terminaux.

Effectif : effectif du nud terminal. Poids : poids du nud terminal. Dans lexemple, le poids des individus est uniforme, donc le poids et leffectif des nuds sont identiques.

Rang du premier nud terminal : donne le rang du premier nud terminal compris dans le nud tudi.

103

SPAD

Classification sur facteurs (RECIP / SEMIS)

Rang du dernier nud terminal : donne le rang du dernier nud terminal compris dans le nud tudi.

Description des noeuds de la hirachie (au dessus des noeuds terminaux) Indices en pourcentage de la somme des indices ( 1.12563)
Rang du Indice du noeud noeud 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 0,98 0,99 1,01 1,01 1,06 1,08 1,14 1,16 1,23 1,24 1,26 1,29 1,41 1,50 1,63 2,12 2,17 2,22 2,76 3,77 3,85 5,45 6,09 7,04 7,26 7,73 9,53 10,64 11,40 Ain 18 23 10 3 20 12 5 25 8 28 32 14 30 39 16 34 40 31 42 33 43 37 49 53 38 48 35 55 51 Benjamin 17 22 9 2 19 11 4 24 7 27 21 13 29 6 15 1 26 45 36 44 47 46 50 52 41 54 56 57 58 Effectif 60 50 52 49 79 84 49 68 42 53 63 101 73 76 54 110 131 114 185 128 204 159 313 472 131 586 665 796 1000 Poids 60,00 50,00 52,00 49,00 79,00 84,00 49,00 68,00 42,00 53,00 63,00 101,00 73,00 76,00 54,00 110,00 131,00 114,00 185,00 128,00 204,00 159,00 313,00 472,00 131,00 586,00 665,00 796,00 1000,00 Rang du premier noeud terminal 17 22 9 2 19 11 4 24 7 27 21 13 29 6 15 1 26 15 11 6 26 1 6 1 21 1 1 1 1 Rang du dernier noeud terminal 18 23 10 3 20 12 5 25 8 28 23 14 30 8 16 3 28 18 14 10 30 5 14 14 25 18 20 25 30

Ainsi, le nud de rang 57 est le regroupement des nuds terminaux de rang 1 20.

4.

La Classification Mixte SEMIS

Les algorithmes de classification sont plus ou moins bien adapts au traitement dun nombre important dindividus classer. La mthode dagrgation autour des centres mobiles offre des avantages puisquelle permet dobtenir une partition sur un volume de donnes important. Elle prsente cependant linconvnient de produire des partitions dpendant des premiers centres choisis et celui de fixer a priori le nombre de classes. A linverse, la classification hirarchique est une mthode que lon peut qualifier de dterministe puisquelle donne toujours les mmes rsultats partir des mmes donnes. Cette mthode utilise des algorithmes qui donnent des indications sur le nombre de classes retenir mais elle est mal adapte aux ensembles volumineux de donnes. La classification autour des centres mobiles peut aussi tre utilise en parallle avec la classification hirarchique (classification mixte). En fournissant des partitions sur un volume de donnes important, elle permet de rduire la dimension de lensemble des lments classer en effectuant des regroupements pralables. Ainsi, lalgorithme de classification qui parat bien adapt au partitionnement dun ensemble comprenant des milliers ou des dizaines de milliers dindividus ou davantage est un algorithme mixte. Il repose sur la combinaison des deux algorithmes : lalgorithme dagrgation autour des centres mobiles et lalgorithme dagrgation hirarchique.

104

SPAD

Classification sur facteurs (RECIP / SEMIS)

Lalgorithme de classification mixte est effectu par la procdure SEMIS sur les individus dcrits par leurs premires coordonnes factorielles. Cet algorithme procde en trois tapes : 1. Partitionnement prliminaire Lensemble des lments classer subit tout dabord un partitionnement prliminaire (autour des centres mobiles). Cette premire tape consiste obtenir une partition des n objets en k classes homognes, o k sera choisi largement plus lev que le nombre rel de classes dsires, et largement plus petits que le nombre total dobjets classer. Pour ce partitionnement prliminaire en quelques dizaines ou quelques centaines de classes homognes, on utilise lalgorithme dagrgation autour des centres mobiles (ou nues dynamiques). Cet algorithme augmente linertie entre les classes chaque itration et produit une partition en un nombre de classes fix au pralable. Ce nombre dpend du choix initial des centres qui sont tirs au hasard ou choisis par lutilisateur. Loptimum ne peut pas tre atteint, mais la partition obtenue peut tre amliore partir de groupements stables. Ces groupes dindividus qui apparaissent toujours dans les mmes classes seront les lments de base de ltape suivante. 2. Agrgation hirarchique des classes obtenues La seconde tape vise effectuer une classification ascendante hirarchique o les lments terminaux de larbre sont les k classes de la partition prliminaire. Certains de ces groupements peuvent tre proches les uns des autres. Ils correspondent un groupe rel qui aurait t coup artificiellement par ltape prcdente. Ltape prcdente cre, en gnral, plusieurs petits groupes ne contenant parfois quun seul lment. Lobjectif de ltape dagrgation hirarchique est de reconstituer les classes qui ont t fragmentes et dagrger des lments apparemment disperss autour de leur centre dorigine. Larbre est construit en utilisant le critre de Ward. Cette tape est semblable la classification hirarchique prsente prcdemment. Le dendrogramme suggrera ventuellement le nombre de classes finales retenir. 3. Partition finale et consolidation La partition finale de la population est dfinie par coupure de larbre de classification hirarchique. Lhomognit des classes obtenues peut tre optimise par raffectations par la technique des centres mobiles (voir la consolidation de la partition). Les deux premires tapes sont effectues par la procdure SEMIS. La dernire est ralise par les procdures PARTI-DECLA qui effectuent galement la description statistique des classes obtenues.

4.1

Paramtres de fonctionnement de SEMIS

Les 4 paramtres de fonctionnement soumis lutilisateur sont prsents ci-aprs. Coordonnes utilises pour lagrgation Ce paramtre indique le nombre de facteurs pris en compte pour calculer les distances entre les individus et pour effectuer la partition autour des centres mobiles. Par la suite, la construction des partitions et des classes ainsi que le calcul des diffrentes aides linterprtation seront effectus dans le sous-espace factoriel choisi. Par dfaut, 10 facteurs sont pris en compte. Il faut noter que le nombre maximum daxes est choisi dans les

105

SPAD

Classification sur facteurs (RECIP / SEMIS)

paramtres de fonctionnement de lanalyse. Dans lexemple, la partition utilise les 14 premiers facteurs. Partition(s) de base Trois mthodes de classification sont disponibles. La premire mthode consiste chercher les classes stables par croisement de plusieurs partitions de base construites autour dindividus tirs au hasard. Litem Nombre dfinit le nombre de partitions construites (2 par dfaut) et litem Taille dtermine le nombre dindividus tirs au hasard pour chaque partition. Ce sont les centres initiaux de chacune des partitions. Les deux autres mthodes consistent construire une seule partition par lalgorithme des centres mobiles, autour de N centres choisis par lutilisateur (bouton Choix) ou tirs au hasard dans lensemble de la population. Litem Nombre ditrations pour la formation indique le nombre ditrations du processus centres mobiles (ou de nues dynamiques). Par dfaut, ce nombre est de 7. Groupements stables conserver Ce paramtre dtermine le nombre de classes stables conserver et utiliser pour la classification hirarchique. Litem Tous permet de retenir lensemble des classes stables. Litem Slection par seuil de poids (en %) permet de ne conserver que les classes stables dont le poids, en pourcentage, dpasse le seuil fix par lutilisateur (par dfaut, le seuil est de 0%). Litem Les N plus lourds slectionne les N classes stables ayant les effectifs les plus levs. Cration dune classe rsiduelle Une fois dtermin le nombre de classes stables conserver pour la classification, il reste reclasser les individus qui nappartiendraient pas aux classes retenues. Si on choisit litem Non, les individus sont affects la classe stable la plus proche. En slectionnant litem Oui, ils sont regroups au sein dune classe dite rsiduelle. Dans lexemple, nous avons choisi de construire une partition de base sur 10 centres mobiles tirs au hasard et 2 partitions croises de taille 10 chacune.

4.2 CLASSIF-1 : Classification mixte sur les 14 premiers axes factoriels


4.2.1 Rsultats obtenus avec la partition de base sur 10 centres mobiles tirs au hasard Le tableau suivant comporte 4 colonnes :

Numro de la classe : rang de chaque classe. Numro dindividu : numro du centre mobile de chaque classe, tir au hasard ou choisi. Poids : indique le poids des individus de la classe. Effectif : effectif de la classe.

Le nombre de classes dpend de la taille (ou du nombre de centres mobiles) adopte pour la partition (10 dans lexemple).

106

SPAD

Classification sur facteurs (RECIP / SEMIS)

Ces classes sont censes tre des morceaux de classes relles que lalgorithme dagrgation autour des centres mobiles a clates.

Classification mixte sur les 14 premiers axes factoriels Centres mobiles partir de 10 individus-source.
Partition Numro de la classe Numro d'individu 98 1 232 2 392 3 618 4 668 5 699 6 759 7 813 8 896 9 10 942 Poids 66,00 122,00 112,00 104,00 101,00 89,00 102,00 101,00 97,00 106,00 Effectif 66 122 112 104 101 89 102 101 97 106

4.2.2 Rsultats obtenus avec 2 partitions croises de taille 10 chacune Les deux tableaux suivants comportent 4 colonnes :

Numro de la classe : rang de chaque classe. Numro dindividu : numro du centre mobile de chaque classe, tir au hasard ou choisi. Poids : indique le poids des individus de la classe. Effectif : effectif de la classe.
Classification mixte sur les 10 premiers axes factoriels A partir de 2 partitions de base avant croisement
Partition 1 Numro de la classe Numro d'individu 1 2 3 4 5 6 7 8 9 10 Partition 2 Numro de la classe Numro d'individu 1 2 3 4 5 6 7 8 9 10 61 163 179 248 386 402 454 456 619 945 Poids 135,00 87,00 78,00 64,00 148,00 81,00 107,00 86,00 111,00 103,00 Effectif 135 87 78 64 148 81 107 86 111 103 98 232 392 618 668 699 759 813 896 942 Poids 66,00 122,00 112,00 104,00 101,00 89,00 102,00 101,00 97,00 106,00 Effectif 66 122 112 104 101 89 102 101 97 106

4.3

CLASSIF-2 : Rsultats du croisement

Dans cette sortie, la procdure SEMIS fournit le tableau des rsultats du croisement des partitions de base, avant et aprs des raffectations ventuelles ( centres mobiles).

107

SPAD

Classification sur facteurs (RECIP / SEMIS)

Les raffectations consistent amliorer lhomognit interne des classes en raffectant les lments dune classe une autre classe dont ils sont plus proches. Ce processus seffectue par itrations successives centres mobiles de faon analogue la consolidation de la partition effectue par la procdure PARTI-DECLA. 4.3.1 Rsultats obtenus avec la partition de base sur 10 centres mobiles tirs au hasard Le tableau est compos des colonnes suivantes : Poids avant : indique le poids de la classe avant les raffectations ventuelles. Pourcentage cumul : donne le pourcentage cumul des poids des individus des classes avant les raffectations. Numro de la classe : rang de la classe. Chaque classe est considre comme un nud ou un lment terminal. Poids aprs : reprsente le poids des individus de la classe aprs les raffectations ventuelles.
Rsultats du croisement
Poids avant 122,00 112,00 106,00 104,00 102,00 101,00 101,00 97,00 89,00 66,00 0,00 Pourcentage cumul Numro de la classe 12,20 &01& 23,40 &02& 34,00 &03& 44,40 &04& 54,60 &05& 64,70 &06& 74,80 &07& 84,50 &08& 93,40 &09& 100,00 &10& 100,00 Classe rsiduelle Poids aprs 122,00 112,00 106,00 104,00 102,00 101,00 101,00 97,00 89,00 66,00

Dans le cas dune partition de base unique autour de N centres mobiles (10 dans lexemple), on retrouve les classes (que lon considre stables) obtenues par lalgorithme dagrgation autour des centres mobiles :

4.3.2 Rsultats obtenus avec 2 partitions croises de taille 10 chacune Le tableau ci-aprs prsente le croisement entre les partitions de base obtenues prcdemment (2 dans lexemple). On retient comme classes finales les classes stables constitues par les individus classs ensemble dans les partitions de base. Le tableau est compos des colonnes suivantes : Poids avant : indique le poids de la classe avant les raffectations ventuelles. Pourcentage cumul : donne le pourcentage cumul des poids des individus des classes avant les raffectations. Numro de la classe : rang de la classe. Chaque classe est considre comme un nud ou un lment terminal. Poids aprs : reprsente le poids des individus de la classe aprs les raffectations ventuelles. Une partie du tableau a t tronque.

108

SPAD
Rsultats du croisement
Poids avant 85,00 82,00 72,00 65,00 58,00 49,00 49,00 43,00 43,00 39,00 1,00 1,00 1,00 1,00 1,00 0,00 Pourcentage cumul 8,50 16,70 23,90 30,40 36,20 41,10 46,00 50,30 54,60 58,50 99,60 99,70 99,80 99,90 100,00 100,00

Classification sur facteurs (RECIP / SEMIS)

Numro de la classe &01& &02& &03& &04& &05& &06& &07& &08& &09& &10& &55& &56& &57& &58& &59& Classe rsiduelle

Poids aprs 85,00 82,00 72,00 65,00 58,00 49,00 49,00 43,00 43,00 39,00 1,00 1,00 1,00 1,00 1,00

Dans lexemple, on remarque qu partir des 2 partitions de 10 classes, on obtient 59 classes stables. Ces classes seront ensuite agrges par lalgorithme dagrgation hirarchique dont les rsultats sont rassembls dans le tableau de la description des nuds dindices les plus levs. Les 10 classes obtenues dans lautre exemple sont agrges de la mme manire. La procdure SEMIS fournit ensuite respectivement dans les sorties CLASSIF-3 et CLASSIF-6 la description des nuds dindices les plus levs puis la description des nuds de la hirarchie. Ces rsultats sont analogues ceux produits par la procdure RECIP.

109

Coupure de larbre et description des classes (PARTI/DECLA)


La procdure PARTI-DECLA permet de couper un niveau convenable larbre obtenu par la procdure RECIP ou SEMIS pour construire une partition des individus. Il est possible de raliser plusieurs partitions simultanment et de dcrire statistiquement les partitions choisies. Dans cet exemple, nous reprenons les rsultats issus de la procdure RECIP prsente page 99. Le fichier utilis est toujours ASPI1000.sba fourni avec le logiciel.

1.

La procdure PARTI

La procdure PARTI construit des partitions par coupure de larbre d'agrgation obtenu prcdemment avec la procdure RECIP/SEMIS. Elle constitue les partitions demandes par l'utilisateur ou par recherche automatique des meilleures partitions, en les amliorant ventuellement par des itrations centres mobiles (consolidation). Les partitions ainsi cres seront ensuite caractrises de faon automatique par la procdure DECLA. La procdure PARTI fournit une srie de listages (une par partition demande). Chaque listage possde la mme structure : on obtient d'abord une description sommaire de la partition obtenue par coupure de l'arbre, indiquant pour chaque classe forme quels lments terminaux la composent. Si elle a t demande, l'dition des coordonnes et valeurs-tests de ces classes apparat ensuite. On obtient galement, la demande, la correspondance entre les classes et les individus. Dans le cas d'une "consolidation" de cette partition par des itrations centres mobiles, on trouve ensuite la chronique de progression de l'inertie inter-classes au cours des itrations. Dans tous les cas, on trouve ensuite la dcomposition de l'inertie en inertie inter-classes et inerties intra-classe, divise en "avant et aprs consolidation" dans le cas o des itrations ont t effectues. Si la consolidation a eu lieu et que cette dition est demande, on trouve alors nouveau les coordonnes et valeurs-tests des classes de la partition, puis la correspondance entre les classes et les individus. Egalement la demande, vient ensuite pour chaque classe, la liste des parangons (points les plus proches du centre de gravit des classes) et celle des points qui contribuent le plus l'inertie intra-classe. Deux paramtres de fonctionnement sont proposs.

Itrations de consolidation : L'objectif de la consolidation est de raffecter les lments d'une classe une autre classe dont ils sont plus proches de faon amliorer lhomognit lintrieur des classes. Ce processus seffectue par des itrations successives centres mobiles. Les centres mobiles sont initialement les centres de gravit des classes obtenues par coupure de larbre. Les calculs sont arrts ds que laccroissement de linertie interclasses devient trop faible dune itration lautre. Il faut donc choisir un nombre ditrations de consolidation (10 par dfaut). 110

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)

Si le nombre ditrations est fix 0, il ny aura pas de consolidation : les rsultats de la coupure de larbre sont conservs tels quels. Si le nombre ditrations est positif, le logiciel dite laffectation des individus seulement aprs la consolidation. Si le nombre ditrations est ngatif, le logiciel dite laffectation des individus avant et aprs la consolidation. Nous avons fix le nombre ditrations 10 dans le cadre de cet exemple.

Affectation des individus illustratifs aux classes les plus proches : Ce paramtre commande laffectation des individus illustratifs la classe dont le centre de gravit est le plus proche au sens de la distance euclidienne. Par dfaut, le logiciel ne ralise pas cette affectation et considre les individus illustratifs comme des donnes manquantes.

Trois paramtres ddition sont soumis lutilisateur :

Correspondance classes-individus : La correspondance peut-tre demande pour les individus actifs et/ou illustratifs. Mais la correspondance de ces derniers nest possible que si ceux-ci ont t affects aux centres de classe les plus proches (voir paramtre ci-dessus). Ce paramtre permet dune part de lister les individus de chacune des classes (item Composition de chaque classe) et dautre part dditer le numro de la classe laquelle chaque individu appartient (item Classe dappartenance des individus). Les individus peuvent tre reprs soit par leur identificateur court (4 caractres), soit par leur identificateur long (identificateur en entier). Chaque dition sera donne deux fois (avant et aprs la consolidation) si le paramtre relatif au nombre ditrations de consolidation prend une valeur ngative.

Coordonnes dites pour les classes : Ceci permet de lister les coordonnes et les valeurs-tests des classes. Par dfaut, ces caractristiques sont dites sur les cinq premiers axes. Mais on peut en demander ldition sur lensemble des axes pris en compte dans lagrgation des individus. Dans le cas o le paramtre relatif au nombre ditrations de consolidation est ngatif, cette dition sera donne deux fois (avant et aprs la consolidation).

Edition des parangons : Nombre indique que lon souhaite diter les n individus les plus caractristiques de chaque classe, cest--dire les n individus les plus proches du centre de gravit de chaque classe. Les N plus proches et les N plus loigns signifient que lon dsire diter les N individus les plus caractristiques de chaque classe ainsi que les N individus les plus loigns (ceux qui contribuent le plus linertie intra-classe). Cette liste nest fournie quaprs la consolidation (sil y en a une).

Nous optons pour une partition en 9 classes. Les rsultats de la procdure PARTI vous sont prsents ci-aprs.

111

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)

1.1

PARTI-1 : Coupure 'a' de l'arbre en 9 classes


Classe : identificateur de la classe. Effectif : nombre dindividus de la classe. Poids : poids des individus de la classe. Contenu : rangs des nuds terminaux de la classe. Un nud terminal est un ensemble dindividus runis au cours du processus dagrgation. Dans lexemple, on, avait choisi 30 nuds terminaux.

Ce tableau, constitu de 4 colonnes, dcrit sommairement les classes avant la consolidation.

Coupure 'a' de l'arbre en 9 classes Formation des classes (sur les individus actifs) Description sommaire
Classe Classe Classe Classe Classe Classe Classe Classe Classe Classe 1 2 3 4 5 6 7 8 9 Effectif 110 49 128 185 114 79 63 68 204 Poids 110,00 49,00 128,00 185,00 114,00 79,00 63,00 68,00 204,00 Contenu 1 3 4 5 6 10 11 14 15 18 19 20 21 23 24 25 26 30

Interprtation La partition en 9 classes, adopte pour les 1000 individus, donne deux grandes classes de 204 et 185 lments, trois classes allant de 110 128 lments et quatre petites classes (49 79 lments). Les poids des classes sont identiques aux effectifs puisque tous les individus ont le mme poids gal un.

1.2

PARTI-2 : Coordonnes et valeurs-tests des centres de classes avant consolidation

Cette sortie donne les coordonnes et les valeurs-tests des classes avant la consolidation. Dans le listage PARTI-8, nous obtenons la mme sortie aprs consolidation. 1.2.1 Coordonnes des centres de classes avant consolidation Ce tableau se compose de 4 grandes colonnes :

Libell :identificateur de la classe. Effectif : nombre dindividus de la classe. Poids absolu : poids des individus de la classe. Distance l'origine : carr de la distance du Khi-2 de lorigine au centre de gravit de la classe mesur dans le sous-espace factoriel choisi (14 axes ici). Axe 1 Axe 5 : coordonnes des centres de gravit sur les premiers axes.

112

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)


Coordonnes des centres de classes aprs consolidation Coupure 'a' de l'arbre en 9 classes Poids Distance Libell Effectif absolu l'origine 147 147,00 0,54511 CLASSE 1 / 9 97 97,00 1,18427 CLASSE 2 / 9 105 105,00 0,63120 CLASSE 3 / 9 164 164,00 0,44963 CLASSE 4 / 9 124 124,00 0,70303 CLASSE 5 / 9 74 74,00 1,37837 CLASSE 6 / 9 56 56,00 1,37230 CLASSE 7 / 9 78 78,00 1,45062 CLASSE 8 / 9 CLASSE 9 / 9 155 155,00 0,78910

Axe 1 -0,15826 -0,63481 0,20758 0,33236 0,28163 0,38592 -0,12985 0,62320 -0,62116

Axe 2 0,42521 0,27568 -0,00686 0,35903 -0,33038 -0,08714 0,13429 -0,47910 -0,45254

Axe 3 -0,00168 0,59712 -0,26380 -0,18770 0,21092 -0,16999 0,17477 0,50629 -0,40029

Axe 4 -0,26465 0,21892 -0,39956 0,27021 0,41367 -0,41457 0,13547 -0,28731 0,06138

Axe 5 -0,37854 0,50340 0,41959 -0,04286 -0,26417 0,24967 0,04521 -0,02969 -0,10417

Interprtation Daprs les carrs des distances lorigine, la classe 8 est la plus atypique . Elle contient des individus dont les caractristiques sont trs diffrentes de lindividu moyen de lchantillon. La classe 4 est la plus proche de cet individu moyen (du moins dans lespace des 14 premiers axes factoriels). 1.2.2 Valeurs-tests des centres de classes avant consolidation Ce tableau se compose de 4 grandes colonnes :

Libell :identificateur de la classe. Effectif : nombre dindividus de la classe. Poids absolu : poids des individus de la classe. Distance l'origine : carr de la distance du Khi-2 de lorigine au centre de gravit de la classe mesur dans le sous-espace factoriel choisi (14 axes ici). Axe 1 Axe 5 : valeurs-tests des centres de gravit sur les premiers axes. Une classe est dautant plus intressante sur un axe que sa valeur-test est plus grande en valeur absolue.
Valeurs-Tests des centres de classes aprs consolidation Coupure 'a' de l'arbre en 9 classes Poids Distance Libell Effectif Axe 1 absolu l'origine 147 147,00 0,54511 -3,99381 CLASSE 1 / 9 97 97,00 1,18427 -12,64750 CLASSE 2 / 9 105 105,00 0,63120 4,32206 CLASSE 3 / 9 164 164,00 0,44963 8,94839 CLASSE 4 / 9 124 124,00 0,70303 6,44107 CLASSE 5 / 9 74 74,00 1,37837 6,63172 CLASSE 6 / 9 56 56,00 1,37230 -1,92248 CLASSE 7 / 9 78 78,00 1,45062 11,01860 CLASSE 8 / 9 CLASSE 9 / 9 155 155,00 0,78910 -16,17190

Axe 2 11,46270 5,86745 -0,15265 10,32650 -8,07183 -1,59957 2,12404 -9,04914 -12,58610

Axe 3 -0,04819 13,55000 -6,25602 -5,75582 5,49435 -3,32705 2,94713 10,19560 -11,87000

Axe 4 -7,92101 5,17313 -9,86737 8,62876 11,22150 -8,44959 2,37894 -6,02513 1,89545

Axe 5 -11,56100 12,13810 10,57320 -1,39647 -7,31210 5,19243 0,81009 -0,63542 -3,28235

Interprtation Lintrt de ce tableau est de juger travers la statistique des valeurs-tests de lintrt des classes dans les diffrentes directions factorielles. On voit par exemple que toutes les classes sont bien diffrencies sur le premier plan factoriel sauf la classe 7 qui a besoin des trois axes suivants pour trouver sa place dans lespace.

113

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)

1.3

PARTI-3 : Avant consolidation - Liste des individus actifs dans les classes de la partition

La correspondance classe-individu est pertinente lorsque lon sintresse de prs aux individus. Dans cette enqute, comme dans la majorit des cas, les individus sont anonymes et la correspondance classe-individu prsente peu dintrt. Le tableau contient 3 colonnes :

Numro dordre : numro de lindividu dans la classe. Numro dans la base : indique le numro de la ligne o apparat lindividu dans la base. Pour chaque classe, les individus sont tris dans lordre dapparition dans la base. Libell de lindividu : identifiant court ou long (voir onglet Paramtres) de lindividu. Dans cet exemple, les individus sont anonymes, SPAD leur affecte comme libell le numro de la ligne sur laquelle ils se trouvent dans la base.

Le tableau suivant a t tronqu :


Avant consolidation - Liste des individus actifs dans l Coupure 'a' de l'arbre en 9 classes
CLASSE 1 / 9 Numro d'ordre 1 2 3 4 5 6 7 8 Numro dans la Base 1 11 14 15 20 36 39 40 Libell de l'individu 1 11 14 15 20 36 39 40

Interprtation Les individus 1, 11, 14, 15, etc. appartiennent la classe 1 de la partition en 9 classes.

1.4

PARTI-4 : Avant consolidation - Appartenance des individus actifs dans les classes de la partition
Numro dordre : numro de lindividu dans la liste. Libell de lindividu : identifiant court ou long (voir onglet Paramtres) de lindividu. Dans cet exemple, les individus sont anonymes, SPAD leur affecte comme libell le numro de la ligne sur laquelle ils se trouvent dans la base. Classe : indique le numro de la classe laquelle appartient lindividu.

La correspondance individu-classe se prsente sous la forme dun tableau 3 colonnes :

Le tableau suivant a t tronqu :


Avant consolidation - Appartenance des individus a Coupure 'a' de l'arbre en 9 classes
Numro d'ordre 1 2 3 4 5 6 7 8 9 10 Libell de l'individu 1 2 3 4 5 6 7 8 9 10 Classe 1 9 9 9 9 9 9 9 4 5

114

SPAD Interprtation

Coupure de larbre et description des classes (PARTI/DECLA)

Lindividu 9 appartient la classe 4.

1.5

PARTI-5 : Consolidation de la partition

Dans ce tableau, on suit le processus de consolidation de la partition autour des centres de classes. Ce tableau sert analyser lvolution de linertie inter-classes au fur et mesure des itrations. Il se compose de 4 colonnes :

Itration : numro de litration. Inertie totale : est linertie totale du nuage des individus. Elle recalcule et doit rester constante. Inertie inter-classes est linertie inter-classes ( maximiser). Elle mesure lhtrognit entre les classes de la partition. Quotient : part de linertie inter-classes dans linertie totale.

L'intrt de la consolidation est de raffecter les lments d'une classe dans une autre classe dont ils sont plus proches de faon amliorer lhomognit interne des classes. Ce processus seffectue par des itrations successives centres mobiles. Les centres sont initialement les centres de gravit des classes obtenues par coupure de larbre. Ces centres voluent lorsque les individus passent dune classe lautre.
Consolidation de la partition ralise par 10 itrations centres mobiles
Itration 0 1 2 3 4 5 6 7 8 9 Inertie totale 1,83681 1,83681 1,83681 1,83681 1,83681 1,83681 1,83681 1,83681 1,83681 1,83681 Inertie interclasses 0,73318 0,82054 0,82550 0,82669 0,82870 0,83069 0,83326 0,83580 0,83639 0,83650 Quotient 0,39916 0,44672 0,44942 0,45007 0,45116 0,45225 0,45364 0,45503 0,45535 0,45541

Interprtation La consolidation de la partition a permis de faire passer la part de linertie inter-classes de 39.9% 45.5%. Les classes sont globalement devenues plus homognes. Laccroissement de linertie inter-classes est pratiquement nul aprs la neuvime itration. Les calculs sont alors arrts. En principe, un nombre important ditrations (au-del de 10) tmoigne dune classification peu stable.

1.6

PARTI-6 : Dcomposition de l'inertie calcule sur 10 axes

Ce tableau de dcomposition de l'inertie prsente avant et aprs la consolidation les 5 composantes suivantes :

Inerties : il sagit des intituls de diffrentes inerties dites par le tableau : inertie interclasses, inerties intra-classe et inertie totale.

115

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)

Inertie avant/aprs : donne linertie inter-classes, les inerties intra-classe ainsi que linertie totale (somme de linertie inter-classes et des inerties intra-classe), avant et aprs la consolidation. Effectifs avant/aprs : contient les effectifs de classes avant et aprs la consolidation. Poids avant/aprs : poids de chaque classe avant et aprs la consolidation. Distances avant/aprs : le carr de la distance du Khi-2 de lorigine au centre de gravit de la classe, avant et aprs la consolidation. Cette distance est mesure dans le sousespace vectoriel choisi prcdemment (14 axes factoriels dans lexemple).
Dcomposition de l'inertie calcule sur 10 axes
Inerties Inter-classes Intra-classe Classe Classe Classe Classe Classe Classe Classe Classe Classe Totale Quotient (I. inter / I. totale) 1/ 2/ 3/ 4/ 5/ 6/ 7/ 8/ 9/ 9 9 9 9 9 9 9 9 9 0,11137 0,04592 0,16249 0,16870 0,12852 0,09443 0,09149 0,06626 0,23445 1,83681 0,39916 0,13140 0,10067 0,11491 0,13483 0,13783 0,08427 0,07506 0,06968 0,15165 1,83681 0,45541 110 49 128 185 114 79 63 68 204 147 97 105 164 124 74 56 78 155 110,00 49,00 128,00 185,00 114,00 79,00 63,00 68,00 204,00 147,00 97,00 105,00 164,00 124,00 74,00 56,00 78,00 155,00 0,63534 1,38326 0,46112 0,34437 0,66692 1,32930 1,36612 1,52292 0,50056 0,54511 1,18427 0,63120 0,44963 0,70303 1,37837 1,37230 1,45062 0,78910 Inerties avant 0,73318 Inerties aprs 0,83650 Effectifs avant Effectifs aprs Poids avant Poids aprs Distances avant Distances aprs

Interprtation On constate que la consolidation amliore globalement la partition. Cependant, linertie intraclasse ne diminue pas dans toutes les classes. Si les classes 3 et 9 voient leur inertie intraclasse fortement diminue, la classe 2 voit quant elle son inertie augmenter (en mme temps que son poids).

1.7

PARTI-8 : Coordonnes et valeurs-tests des centres de classes aprs consolidation

Ces tableaux sinterprtent de la mme manire que ceux obtenus avant consolidation dans la sortie PARTI-2 (CF page 112).

1.8

PARTI-9 : Avant consolidation - Liste des individus actifs dans les classes de la partition

Ces tableaux sinterprtent de la mme manire que ceux obtenus avant consolidation dans la sortie PARTI-3 (CF page 114).

1.9

PARTI-10 : Avant consolidation - Appartenance des individus actifs dans les classes de la partition

Ces tableaux sinterprtent de la mme manire que ceux obtenus avant consolidation dans la sortie PARTI-4 (CF page 114).

116

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)

1.10

PARTI-11 : Edition des parangons

Les parangons sont les individus les plus caractristiques de chaque groupe au sens suivant : ce sont les individus les plus proches du centre de gravit (du point moyen) de la classe. Par dfaut, le logiciel dite les n individus (10 par dfaut) situs le plus prs du centre de gravit de chaque classe. Mais il est possible de demander ldition des n individus dont la contribution linertie de la classe est la plus grande. Lorsque ces derniers ont un poids uniforme, ce sont les individus les plus loigns du centre de gravit de chaque classe. Le tableau suivant concerne les 10 parangons de la premire classe. Pour chaque parangon on trouve 3 colonnes :

Rang : rang de lindividu. Plus le rang de lindividu est grand, plus celui-ci se trouve loign du centre de gravit de sa classe. Distance au centre de la classe : carr de la distance entre lindividu et le centre de gravit de sa classe. Cette distance du Khi-2 est mesure dans le sous-espace vectoriel choisi (14 axes dans lexemple). Libell : identificateur de lindividu.

Edition des parangons


Classe 1 / 9 Effectif: 147 Distance au Rang centre de la Libell classe 0,29766 1 237 0,36841 2 888 0,40372 3 485 0,40372 4 619 0,41069 5 184 0,41069 6 232 0,41069 7 238 0,42478 8 980 0,45426 9 546 10 0,46176 271

Interprtation On note que dans la classe 1, llment le plus proche du centre de gravit est lindividu 237 dont la distance au centre de gravit de la classe est de 0.29766.

1.11

PARTI-12 : Edition des individus contribution maximale

Cette sortie nest pas dite par dfaut. Pour lobtenir, il suffit de demander ldition des n individus les plus proches (on obtient la sortie PARTI-11) et des n plus loigns, cest dire ceux dont la contribution linertie de la classe est la plus grande. On prsente pour chaque classe les 10 individus qui ont le plus contribu linertie de la classe. Pour chaque individu on trouve 3 colonnes :

Rang : rang de lindividu. Plus le rang de lindividu est grand, plus sa contribution linertie de la classe est leve. Inertie : contribution linertie de la classe de chacun des individu. Libell : identificateur de lindividu.

117

SPAD

Coupure de larbre et description des classes (PARTI/DECLA)

Edition des individus contribution maximale


Classe 1 / 9 Effectif: Rang 1 2 3 4 5 6 7 8 9 10 147 Inertie 2,25671 2,23244 2,10290 1,94831 1,83489 1,67668 1,67668 1,66126 1,55139 1,45083 Libell 676 901 883 693 739 362 878 555 764 678

Interprtation Dans lexemple, les individus ont des poids uniformes. Les individus dont la contribution linertie de la classe est la plus grande sont donc les individus les plus loigns du centre de gravit de la classe. On note que dans la classe 1, llment qui a la contribution linertie la plus forte est lindividu 676. Compte tenu de luniformit des poids, il sagit de lindividu le plus loign du centre de gravit de la classe 1.

2.

La procdure DECLA

La procdure DECLA permet de dcrire les partitions dtermines par la procdure PARTI. On peut caractriser soit chaque classe d'une partition, soit globalement la partition ellemme. Cette procdure est en tous points identique la procdure DEMOD prsente page 18. Dans DECLA, la variable caractriser est la partition et les modalits sont les classes dappartenance des individus. Dans cet exemple, la partition contient 9 classes donc 9 modalits. Tous les lments disponibles (actifs et illustratifs, slectionns pour lanalyse factorielle pralable) peuvent intervenir dans la caractrisation : les modalits des variables nominales, les variables nominales elles-mmes, les variables continues, les frquences (seulement lorsque lanalyse factorielle pralable est une AFC) et les axes factoriels. Les lments caractristiques sont classs par ordre d'importance l'aide d'un critre statistique ("valeur-test") auquel est associ une probabilit : plus la valeur-test est grande, plus la probabilit est faible, plus l'lment est caractristique. Dans le cas de la description des classes par les modalits des variables nominales, une option permet de classer les modalits caractristiques soit suivant les valeurs-tests, soit suivant les pourcentages.

118

Caractrisation des classes de typologies (CLASS-MINER)


La procdure CLASS-MINER permet de dcrire les partitions dtermines par la procdure PARTI. La partition est cre par la procdure PARTI-DECLA, la procdure CLASS-MINER doit tre insre dans la filire aprs cette mthode. En termes de rsultats, les procdures DECLA et CLASS-MINER sont en tous points identiques. Dans la procdure DECLA, on caractrise la partition obtenue partir des variables actives et illustratives slectionnes dans lanalyse factorielle pralable. CLASS-MINER vous permet de ne slectionner quune partie des variables du fichier pour la caractrisation de la partition. Cela vous permet entre autres de diffrencier les variables actives des variables illustratives. Si plusieurs thmes ressortent de votre tude, pour chaque thme, on utilise CLASS-MINER afin dobtenir des tableaux de rsultats pour chaque thme.

119

Marquage smantique des classes dune partition (MSCLA)


Cette procdure permet de caractriser les classes d'une partition par des marquages smantiques. La partition est cre par la procdure PARTI-DECLA, la procdure MSCLA doit tre insre dans la filire aprs cette mthode. Linterprtation des rsultats de cette mthode est analogue linterprtation des rsultats issus de la procdure MSMOD (CF page 41). Dans MSMOD, la variable nominale caractriser est slectionne par lutilisateur, tandis que dans MSCLA la variable nominale caractriser est la partition obtenue avec la procdure PARTI-DECLA.

120

Glossaire

A
ALEATOIRE (sondage ou tirage) : Tirage au sort pour slectionner un chantillon. Chaque unit statistique a une probabilit connue dappartenir cet chantillon. Pour constituer ce dernier, il est ncessaire de disposer dune base de sondage de faon connatre la totalit des caractres applicables aux individus de la population sur laquelle porte lenqute. ANALYSE DES CORRESPONDANCES MULTIPLES : Analyse factorielle qui sapplique des tableaux dont les lignes sont des individus ou des observations et dont les colonnes sont des modalits de variables nominales. ANALYSE EN COMPOSANTES PRINCIPALES : Analyse factorielle qui sapplique des tableaux rectangulaires dont les colonnes sont des variables valeurs numriques (ou variables continues) et dont les lignes reprsentent les individus sur lesquels sont mesures ces variables. ANALYSE FACTORIELLE : Mthode statistique dont le but est de reprsenter graphiquement des objets et de dcrire des liaisons entre ces objets. Parmi ces mthodes, on retient notamment lanalyse en composantes principales, lanalyse des correspondances simples et lanalyse des correspondances multiples. ANALYSE FACTORIELLE DES CORRESPONDANCES: Analyse factorielle qui sapplique des tableaux de contingence afin dtudier les relations existant entre deux variables nominales. ATYPIQUE : Individu ou donne pour laquelle les informations sont juges trop loignes de la ralit ou de leurs valeurs habituelles pour en tenir compte.

C
CARACTERISTIQUES (ou caractres) : Critres permettant de rendre compte de la diversit des individus dune population. On distingue les caractres qualitatifs (sexe, profession, diplme), des caractres quantitatifs continues (ge, revenu) et des caractres quantitatifs discrets (nombre denfants, nombre de voiture dans le foyer). Le statisticien parle souvent de variables nominales et de variables continues. CHOIX DE LECHANTILLON : Il peut tre effectu laide de diffrentes techniques de sondage parmi lesquelles les chantillons de type probabiliste (chantillons alatoires), les chantillons dunits-types et les chantillons par quotas. CLASSIFICATION (voir typologie). COEFFICIENT DE VARIATION (CV) : Cest le rapport entre lcart-type dune variable et sa moyenne. Il est le plus souvent exprim en pourcentage. CONTINUE (variable) : On parle de variable continue quand la mesure faite sur lindividu est de type quantitatif. Pour fixer les ides, une variable est continue quand la notion de moyenne a un sens. CONTRIBUTION (ou contribution absolue) : Mesure de la participation dun lment (modalit, variable, frquence ou individu) la construction dun axe factoriel. CORRELATION : Elle mesure la dpendance entre deux variables continues. La corrlation est exprime par un coefficient de corrlation linaire, partielle, multiple, ou encore par une droite de rgression, etc. COSINUS (ou contribution relative) : Mesure de la qualit de reprsentation dun lment (modalit, variable, frquence ou individu) sur un axe factoriel.

121

SPAD
ERREURS DOBSERVATION :

Glossaire

D
DEONTOLOGIE : Rgles que les instituts de sondage et dtudes de march sengagent respecter. Le Code International CCI/ESOMAR de pratiques loyales concerne les tudes de march et dopinion. Le Code Syntec/U.D.A. de pratiques loyales concerne les panels et les enqutes rptitives. Les sondages politiques doivent suivre les directives de la Commission des sondages. DISPERSION : Critre permettant de mesurer la plus ou moins grande dispersion des observations autour de la moyenne (voir Ecart-type, Variance). Dans un sondage, la dispersion de lchantillon est une qualit ncessaire pour avoir une bonne reprsentativit. DISTRIBUTION STATISTIQUE : Dans le cas dune variable nominale, la distribution statistique est la rpartition des individus dune population dans les modalits dune variable (effectifs). Dans le cas dune variable continue, la distribution est caractrise en particulier par sa moyenne et son cart-type.

Ce sont les erreurs de mesure lies la mthodologie, au questionnaire ou lenquteur, mais aussi les erreurs de rponse des enquts dues une dfaillance de la mmoire ou un manque de franchise.

F
FOURCHETTE : Terme statistique qui reprsente lintervalle entre deux valeurs extrmes. FREQUENCE : Il sagit dun nombre de quelque chose tel que le nombre dobservations dun vnement ou dun phnomne. La frquence peut tre en pourcentage ou en effectif.

G
GAUSS (courbe de) : Courbe en cloche ou courbe de la loi normale qui donne la probabilit dune variable alatoire continue. Cette courbe est symtrique et elle est dfinie par sa moyenne et son cart-type.

E
ECART-TYPE : Critre de dispersion dune distribution. Cest la racine carre de la variance. Il est fonction de la taille de lchantillon. ECHANTILLON : Partie de la population analyse (base de sondage) et choisie selon un plan de sondage dfini au pralable. ECHANTILLONNAGE : Procdure de slection dun chantillon o les individus reprsentent la population tudie. Il existe lchantillonnage alatoire, par quotas, par grappes, etc. EQUIPONDERATION (ou quirpartition) : Procdure consistant attribuer un poids identique diffrents objets, vnements ou caractres.

I
INDIVIDU : Unit statistique tel quune personne, un mnage, une entreprise ou encore une ville auprs de laquelle sont recueillies des informations. Lensemble de ces individus reprsente la base de sondage ou la population de rfrence. INTERVALLE DE CONFIANCE : Intervalle (appel marge derreur) dans lequel se trouve la valeur cherche avec une probabilit fixe. La longueur de cet intervalle dpend du niveau de confiance, du taux de la rponse considre et de la taille de lchantillon. Le calcul nest justifi que pour les sondages alatoires. Il ne peut pas tre dtermin dans le cas des sondages par quotas mais on considre quelle est proche de celle des sondages alatoires.

122

SPAD

Glossaire
souvent utilis pour caractriser la valeur centrale (moyenne arithmtique, moyenne pondre).

K
KHI-2 (test du ) Le test (bas sur la distribution statistique dune variable alatoire suivant une loi du Khi-2) permet de tester la similitude entre une distribution observe et une distribution thorique et de tester lindpendance entre deux variables qualitatives.

N
NOMINALE (variable) : La variable est nominale quand les valeurs quelle prend sont des catgories. Cest le cas du sexe, de lge (sil est dcoup en classes), de la catgorie socioprofessionnelle. On parle aussi de variable qualitative ou catgorielle. NON-REPONSE :

L
LISSAGE : Calculs permettant de rduire linfluence de facteurs accidentels et de variations saisonnires observes sur des donnes chronologiques. LOI NORMALE : Loi de probabilit reprsente par une courbe symtrique (courbe en cloche). Elle intervient dans le calcul de la prcision dun sondage alatoire, en particulier pour la dtermination dintervalles de confiance. Une loi normale de moyenne nulle et dcart-type 1 est dite centre rduite.

Nom donn une rponse lorsque la personne interroge ne rpond pas une question. On parle de non-rponse totale lorsquune personne interroge ne rpond aucune des questions et de non rponse partielle lorsquune personne interroge rpond seulement certaines questions.

O
OPINION : Avis, ide, sentiment, jugement mis par une personne interroge sur des faits ou des phnomnes.

M
MEDIANE : Paramtre de position de la valeur centrale dune distribution. Elle scinde la population en deux parties gales (50% des observations de part et dautre de cette valeur). MODALITE : Les modalits sont les valeurs que prend une variable nominale. La variable sexe a deux modalits. On peut dire aussi : groupe, catgorie, classe. MODE : Paramtre de position de la valeur centrale dune distribution. Il sagit de la valeur dune distribution o leffectif est le plus important. MOYENNE : Paramtre de position dune distribution le plus

P
POIDS : Part dun groupe dindividus par rapport lensemble de la population (exemple : 48% dhommes et 52% de femmes). Il sagit dun coefficient affect chacun des individus dun chantillon (poids de redressement). PONDERATION : Traitement statistique dont lobjet est daffecter un poids des catgories dindividus notamment dans le but de redresser lchantillon. POPULATION : Il sagit dunits statistiques telles que des personnes, des mnages ou des entreprises. Elles servent de base de sondage pour constituer un chantillon.

123

SPAD
POSITION : Critre permettant de mesurer la tendance centrale des observations dune distribution. On distingue la moyenne, la mdiane et le mode. PREVISION : Traitement statistique dont le but est de prvoir des variables de comportement ou dopinion selon diffrents facteurs. PROBABILITE Procdure consistant attribuer tout vnement un nombre compris entre 0 et 1. Ce nombre reflte la chance quun vnement a de se raliser. Une probabilit nulle correspond un vnement impossible alors quune probabilit gale 1 concerne un vnement certain. La thorie des probabilits est la base de la statistique et des sondages. PROPORTIONNEL (chantillon) : Procdure dchantillonnage o les catgories de population sont reprsentes dans lchantillon au prorata de leur poids dans la population de rfrence. TABLEAU DE DONNEES :

Glossaire
et dans le sens de structure dautre part.

T
Cest un tableau rectangulaire compos de n lignes et de p colonnes. Dans chaque case (intersection dune ligne avec une colonne), se trouve une donne. On parle aussi de matrice des donnes ou de tableau individus x variables . TABLEAU DE FREQUENCES : Tableau double entre dont chaque case contient la somme des valeurs des individus sur une troisime variable de type continue. TABLEAU DE CONTINGENCE : Tableau double entre prsentant la distribution des effectifs croiss de deux variables nominales. TEST DE STUDENT : Opration statistique dont lobjectif est de vrifier si les diffrences observes entre deux rsultats de sondages sont significatives (gnralisable lensemble de la population de rfrence) ou si elles sont dues aux seuls hasards de lchantillonnage. TEST STATISTIQUE : Opration statistique dont lobjectif est de vrifier des hypothses, des estimations ou des ajustements (exemple : test du Khi-2, test de Student, etc.). TRI : Opration qui consiste dterminer la rpartition des individus dans les modalits des variables nominales ainsi que les statistiques de base (moyenne, cart-type, minimum et maximum) des variables continues. TRI CROISE : Opration qui consiste croiser deux variables nominales sous forme de tableau numrique ou de graphique. Ceux-ci prsentent la distribution deffectif conjoint des deux variables nominales TYPOLOGIE : Procdure danalyse des donnes visant construire des groupes dindividus ou de phnomnes les plus homognes possibles en fonction dun ensemble de variables.

Q
QUALITATIVE (voir variable nominale). QUANTITATIVE (voir variable continue). QUANTILE (ou fractile) : Valeur partageant une distribution en parties deffectifs identiques. La mdiane divise la distribution en deux parties, les quartiles en quatre parties, les dciles en dix parties et les centiles en cent parties.

R
REDRESSEMENT : Opration dont lobjet est de corriger le biais dchantillonnage observ la suite dune enqute. Cette correction est effectue par rapport au plan de sondage prvu ou par rapport au recensement par exemple. Le redressement permet damliorer la reprsentativit dun chantillon notamment lorsquil na pas t possible dinterroger exactement le nombre prvu de personnes dune certaine catgorie. REPARTITION : Mot utilis dans le sens de distribution dune part

124

SPAD

Glossaire

U
UNITE STATISTIQUE : Lunit statistique est lindividu si le questionnaire concerne lindividu interrog. Lunit statistique est le mnage si le questionnaire concerne le mnage.

V
VARIABLES : Ce sont les caractristiques de lunit statistique. Les variables permettent de dcrire ou de caractriser son comportement. Pour chaque unit statistique, on fait les mmes mesures, les mmes relevs, on pose les mmes questions. Au lieu de variables, on peut dire mesure ou paramtre, ou question. VARIABLES ACTIVES : Variables qui participent la construction des axes de lanalyse factorielle. VARIABLES ILLUSTRATIVES : Toutes les variables qui nont pas particip la construction des axes, mais permettent dillustrer les analyses factorielles. VARIANCE : Critre de dispersion dune distribution. Il sagit plus prcisment de la moyenne des carrs des carts entre les valeurs de la distribution et sa moyenne. Sa racine carre est appele carttype. VENTILATION : Procdure qui permet dviter leffet des modalits faible effectif sur les premiers axes dune analyse des correspondances multiples. Lutilisation est typique dans les fichiers denqute, lorsque les modalits nonrponse de nombreuses questions crent le premier axe de lanalyse. La ventilation des individus concerns limine ce premier axe qui cache la structure relle des donnes. Lorsque cet effet nexiste pas, la ventilation automatique ne perturbe pas les rsultats de faon sensible.

125

Note sur la valeur-test


Les aides linterprtation des classes sont gnralement fondes sur des comparaisons de moyennes (ou de pourcentages) lintrieur des classes avec les moyennes (ou les pourcentages) obtenus sur lensemble des lments classer. Ceci est quivalent comparer des moyennes (ou pourcentages) dans la classe et hors de la classe. Pour slectionner les variables continues ou les modalits des variables nominales les plus caractristiques de chaque classe, on mesure lcart entre les valeurs relatives la classe et les valeurs globales. Ces statistiques peuvent tre converties en un critre appel valeur-test permettant doprer un tri sur les variables, et de dsigner ainsi les variables les plus caractristiques (cf. Morineau, 1984). Dune manire gnrale, une valeur-test est calcule loccasion dun test statistique. Il existe diffrents types de valeur-test ; ils correspondent des tests statistiques diffrents, selon la comparaison souhaite et le type de variables.

1.

Valeur-test lie au 2

Le test du Khi2 permet de caractriser la dpendance entre chacune des variables nominales et les classes de la partition ( partir des tableaux croisant la partition avec les diffrentes variables). Plus le Khi2 est caractristique d'une forte dpendance entre la partition et la variable, plus la valeur-test est leve.

2.

Valeur-test lie la loi hypergomtrique

Ce test, utilisant la loi de probabilit hypergomtrique, permet de caractriser la liaison entre un attribut (ou modalit) et lappartenance la classe. En fait, on calcule la probabilit d'observer un cart au moins aussi grand que celui qui s'est ralis dans l'hypothse o l'attribut (ou modalit) serait distribu dans la classe comme en dehors de la classe. Plus la probabilit est faible, plus l'cart est jug significatif et plus la valeur-test est forte. Soit une population de n individus sur lesquels on a observ un ensemble de p variables. Appelons k la classe des nk individus et j une modalit dune des variables nominales. Pour savoir si cette modalit est une caractristique pertinente du groupe, on doit rpondre la question : est-ce que la modalit j est significativement plus abondante dans la classe k que dans la population des n individus? Les lments du problme (rassembls dans le Tableau 1 o les effectifs non indiqus sont calculables par diffrence) sont les suivants : On note nkj le nombre dindividus ayant la modalit j parmi les nk individus de la classe k et nj le nombre dindividus ayant la modalit j parmi les n individus de la population.
Dans la classe k nkj = nk Hors classe k = = = Marge nj = n

Dans la modalit j Hors la modalit j Marge

126

SPAD

Note sur la valeur-test

Labondance de la modalit j est dfinie en comparant son pourcentage dans la classe k :

nkj nk

son pourcentage dans la population :

nj n

On procde comme pour un test classique. Lhypothse nulle H0 est ici lhypothse dun tirage au hasard (sans remise) des nk individus de la classe k parmi les n individus de la population. Cette hypothse en effet assure lgalit entre le pourcentage dindividus de la classe k ayant la modalit j (nkj / nk) et le pourcentage dindividus ayant la modalit j dans la population (nj / n) aux fluctuations alatoires prs. Lhypothse alternative spcifiera une proportion de j anormalement leve parmi les nk individus de la classe k. Appelons N la variable alatoire nombre dindividus ayant la modalit j dans la classe k Dans le tableau de contingence, la valeur prise par cette variable est : N = nkj . Sous lhypothse H0 et en fixant les marges du Tableau, la variable N suit une loi hypergomtrique dont les trois paramtres sont connus (n, nj et nk).Si on appelle succs le fait dappartenir la modalit j, on sintresse au nombre N = nkj de succs observs dans un chantillon de taille nk tir au hasard et sans remise parmi les n individus. Plus prcisment considrons : Pk(j) = ProbH0(N nkj). Plus leffectif nkj est lev, plus cette probabilit hypergomtrique est faible, et plus lhypothse nulle dun tirage au hasard est douteuse. On peut utiliser les probabilits critiques Pk(j) pour classer lensemble des modalits j de toutes les variables nominales disponibles. Les plus typiques sont celles qui correspondent aux plus petites de ces probabilits critiques. Ces probabilits sont souvent trs faibles. Il est commode de leur substituer la valeur dune variable normale qui a la mme probabilit Pk(j) dtre dpasse. Cette valeur est appele valeur-test. Elle mesure lcart entre la proportion dans la classe et la proportion gnrale, en nombre dcarts-types dune loi normale. Aux plus petites probabilits critiques correspondent donc les plus grandes valeurs-tests. La valeur-test est le critre utilis pour comparer et trier par ordre dimportance les modalits caractristiques dun groupe dindividus ou dune classe.

3.

Valeur-test lie la comparaison de moyennes

Pour caractriser une classe par les variables continues, on compare k , la moyenne dune variable dans la classe k, la moyenne gnrale et on value lcart en tenant compte 2 de la variance s k ( ) de cette variable dans la classe. La valeur-test est ici simplement la quantit :

t k ( ) =
avec :

k s k ( )

s k2 ( ) =

n n k s 2 ( ) n 1 nk

2 2 o s ( ) est la variance empirique de la variable . On reconnat en s k ( ) , la variance

dune moyenne dans le cas dun tirage sans remise des k lments concerns.

127

SPAD

Note sur la valeur-test

Sous lhypothse nulle dun tirage au hasard sans remise des n k individus de la classe k, la variable k reprsentant la moyenne dans la classe a pour esprance et pour 2 variance thorique s k ( ). La valeur-test tk(X) suit donc approximativement une loi de Laplace-Gauss centre et rduite (thorme de la limite centrale). Elle value la distance entre la moyenne dans la classe et la moyenne gnrale en nombre dcarts-types dune loi normale. On calcule ensuite la probabilit que la variable dpasse la valeur absolue de la diffrence observe. Plus la valeur-test est forte (plus la probabilit est faible), plus lhypothse davoir les n valeurs de la variable tires au hasard parmi les valeurs possibles est discutable. Dans ce cas, la moyenne dans la classe diffre de la moyenne gnrale, et la variable est caractristique de la classe. Le classement des variables par probabilits croissantes est le mme que le classement par valeur-test dcroissantes. Du point de vue de la dsignation des variables les plus caractristiques, les deux informations sont quivalentes.

4.

Variables caractristiques dune classe

La valeur-test revient effectuer un changement de mesure en transformant la probabilit associe une distribution quelconque en nombre dcarts-types dune loi normale centre rduite. Que ce soit pour la recherche des variables continues ou des modalits des variables nominales caractristiques dune classe, la valeur absolue de la valeur-test est analogue de la valeur absolue dune variable normale centre rduite. Dans le cadre des tests classiques, on dira quelle est significative au seuil usuel de 5% si elle dpasse 1.96 (par exemple : lhypothse nulle est rejete et la moyenne dune variable sur la population globale et celle dans la classe diffrent significativement. Les variables sont dautant plus intressantes que les valeurs-tests associes sont fortes en valeur absolue. On peut alors ranger ces variables suivant les valeurs-tests dcroissantes et ne retenir que les lments les plus significatifs, ce qui permet de caractriser trs rapidement les classes. En slectionnant, pour chaque classe, les variables les plus caractristiques, et en calculant leur moyenne ou leur pourcentage dans la classe, on constitue ainsi le profil-type de la classe. Mentionnons que le fait de calculer simultanment plusieurs valeurs-tests met lutilisateur dans une situation de comparaisons multiples . Cest une situation qui imposerait au statisticien de prendre des seuils de signification plus svres que ceux mis en uvre lors dun test unique.

128

Bibliographie

Aluja-Banet T., Morineau A. (1998) Analyse en composantes principales. SPAD. Benzcri, J.P. (1976) LAnalyse des Donnes. Tome 1 : La Taxinomie. Tome 2 : LAnalyse des Correspondances. Dunod. Benzcri, J.P. (1982) Construction dune classification ascendante hirarchique par la recherche en chane de voisins rciproques. Cahiers dAnalyse des Donnes, 7, 209-218. Benzcri, J.P., Benzcri, F. (1985) Introduction la Classification Ascendante hirarchique daprs un exemple de Donnes Economiques. J. Soc.Stat. de Paris, 1, 14-34 Bouroche J.-M., Saporta G. (1980) Lanalyse des donnes. Coll Que sais-je , n1854, PUF, Paris. Brossier G., Dussaix A-M. (1999), Enqutes et sondages Mthodes, modles, applications, nouvelles approches. Dunod, Paris. Confais J., Nakache J.P. (2000) Mthodes de classification. SPAD. Grang D., Lebart L. (1993) - Traitements statistiques des enqutes. Dunod, Paris. Lebart L. (1975 a) Lorientation du dpouillement de certaines enqutes par lanalyse des correspondances multiples. Consommation, 2, p 73-96. Dunod. Lebart L. (1989), Stratgies du traitement des donnes denqutes, La revue de Modulad, numro 3, p 21-29. Lebart L., Fnlon J.P. (1971) Statistique et informatique appliques. Dunod, Paris. Lebart L., Morineau A., Piron M. (1995) Statistique exploratoire multidimensionnelle. Dunod, Paris. Lebart L., Morineau A., Tabard N. (1977) Technique de la description statistique. Dunod, Paris. Morin S., Morineau A. (2000) Pratique du traitement des enqutes. SPAD. Morineau A. (1984) Note sur la caractrisation statistique dune classe et les valeurs-tests, Bull. Techn. du Centre de Statist. et dInfor. Appl., 2 , p20-27. Saporta G. (1990) Probabilits, analyse des donnes et statistiques. Technip, Paris. Tenenhaus M. (1994) Mthodes statistiques en gestion. Dunod, Paris.

129