Vous êtes sur la page 1sur 144

Pierre Dumolard

Introduction

Ce manuel a pour objectif de faciliter la comprhension et lusage des principales mthodes danalyse statistique multivarie tous ceux que concerne linformation spatialise, gographes bien sr mais, aussi, de plus en plus dautres scientifiques, de disciplines environnementales aussi bien que sociales. Lapproche spatiale tant, par essence, combinatoire (donc complexe), ncessite des outils ddis l'analyse multidimensionnelle et la reprsentation synthtique de ses rsultats. Que cette approche soit purement exploratoire (comme dans le data mining oprant sur de grandes bases de donnes) ou confirmatoire (dun modle smantique pos a priori pour validation), les mthodes multi-variables ont pour utilit essentielle dtre des valoriseurs de connaissance disciplinaire et non des ersatz de celle-ci. Parmi toutes les techniques possibles danalyse multidimensionnelle, le choix a t fait de ne prsenter que : des mthodes purement statistiques (alors que dautres faons de faire se dveloppent, lies lintelligence artificielle comme les rseaux neuronaux par exemple), des mthodes couramment utilises dont les rsultats sont suffisamment stables et bien matriss.

Ce manuel a une optique rsolument applique : plus que dune formulation mathmatique pointue, il part de notions (finalement assez naturelles ) mises en uvre via des logiciels courants sur des exemples, complts par des exercices corrigs. Cest l la structure dun chapitre type. Bien sr, la comprhension ( travers exemples et exercices) des notions multivaries implique comme pr-requis une connaissance minimale de la statistique descriptive uni- et bi-varie et, tout autant, une certaine culture disciplinaire. L information gographique est ncessairement contextuelle : elle comporte des influences de voisinage et dinteraction diverses chelles (distances, connexits, concurrences / complmentarits, ). Un certain nombre de mthodes (quon peut regrouper sous le terme danalyse spatiale des donnes) intgrent certaines de ces caractristiques dans les algorithmes eux mmes : elles ne sont pas prsentes ici vu leur grand nombre et leur caractre assez peu universel (sauf exception). Sont par contre prsentes ici des techniques relevant de ce quon appelera analyse des donnes spatiales qui ne se proccupent de contraintes spatiales qua posteriori, via lexamen cartographique des rsultats par exemple.

On distingue, dans ce manuel, deux grands types danalyse multi-variables des donnes: - des mthodes descriptives (de synthse numrique) analyses factorielles (chapitres 1, 2, 3, 4) classifications descriptives (chapitre 5)

- des mthodes davantage explicatives. rgressions multiples (chapitre 6) classification explicative (chapitre 7)

ANALYSE DES DONNEES SPATIALES

description

explication

Analyses Factorielles

Classifications ascendantes

Rgression multiple

An. discriminante segmentation

TABLE DES MATIERES

! Chapitre 0 introduction ! Chapitre 1 Analyses factorielles : gnralits


1. Historique des analyses factorielles 2. Traits communs aux analyses factorielles 2.1 Un tableau numrique peut se reprsenter par un nuage de points 2.2 Rsumer ce nuage de points : le projeter sur un sous espace 2.3 Axes factoriels 3. Procdure algbrique 4. Informatiquement

! Chapitre 2 Lanalyse en composantes principales (ACP) A) Connaissances de base


1. Types de tableaux pour lACP 1.1 Matrice dinformation non spatiale 1.2 Matrice dinformation spatiale 1.3 Matrice dinformation spatio - chronologique 1.4 Matrice dinformation chronologique multivarie 2. La cration dun tableau de donnes pour lACP 3. Les 3 phases de lACP sur ces types de tableau 3.1 Transformation du tableau de donnes et calcul des covariances 3.2 Calcul des axes factoriels et de leurs % de variance 3.3 Aides linterprtation des rsultats 4. Quelques conseils de bon usage

B) Exercices corrigs
Exercice 1 : dmographie des pays dAfrique occidentale Exercice 2 : crots naturels et migratoires des dpartements du S.E. de la France

! Chapitre 3 Lanalyse factorielle des correspondances (AFC) A) Connaissances de base


1. Types de tableau pour lAFC 1.1 Tableaux de contingence 1.2 Extension de la notion de tableau de contingence 2. Diffrences de lAFC par rapport lACP 2.1 Transformation des donnes et calcul des covariances 2.2 Calcul des Vecteurs Propres et valeurs propres

2.3 Aides linterprtation dune AFC 3. AFC sut tableaux de contingence plus de 2 caractres 3.1 Exemple 3.2 Interprtation de laxe 1 3.3 Interprtation de laxe 2 3.4 Plan des axes 1 et 2 B) Exercices corrigs Exercice 1 : structure dge des logements par rgion franaise Exercice 2 : usages de leau dans 16 dpartements du littoral atlantique

! Chapitre 4 Lanalyse des correspondances multiples (AFCM) A) Connaissances de base


1. Gnralits 1.1 Transformation dun fichier en tableau de Burt 1.2 Tableau disjonctif complet 1.3 Equivalence des AFCM sur ces 2 types de tableau 2. Rsultats sur le tableau binaire 4.3

C) Exercices corrigs
Exercice 1 : enqute dopinions aux USA sur les dpenses publiques Exercice 2 : 5 indicateurs de gestion environnementale de 34 villes franaises

! Chapitre 5 Mthodes de classification A) Connaissances de base


1. Utilit en gographie 2. Mthodes graphiques de classification 2.1 Sur graphique cartsien 2.2 Par arborescence raisonne 2.3 Sur diagramme triangulaire 2.4 Par matrice ordonnable de Bertin 3. Mthodes statistiques de classification 3.1 Algorithmes de convergence 3.2 Classifications arborescentes hirarchiques (CAH)

B) Exercices corrigs
Exercice 1 : Quelques indicateurs de lIndice de Dveloppement Humain pour 25 pays europens Exercice 2 : Recolonisation par le chne pubescent dun adret chartrousin

! Chapitre 6 Rgression multiple A) Connaissances de base


1. Le modle de la rgression multiple 1.1 Extension du modle de rgression simple plusieurs variables explicatives 1.2 Exemple lmentaire 1.3 En rsum 1.4 Tests sur donnes dchantillon 2. Corrlations, multiple et partielles 2.1 Coefficient R de corrlation multiple 2.2 Tests de R et R 2.3 Coefficients de corrlation partielle 3. Rgression multiple pas pas 4. Ajout dune variable catgorielle une rgression multiple 4.1 Exemple 4.2 Conditions de validit

B) Exercices corrigs
Exercice 1 : Explication des tempratures moyennes de janvier pour un chantillon de villes des U.S.A. Exercice 2 : Types de contrat de travail de la population active de 20 rgions de France mtropolitaine

! Chapitre 7 Mthodes explicatives : complments


1. Lanalyse discriminante 1.1 Modle gnral 1.2 Deux usages de lanalyse discriminante 1.3 Exemple : discriminer populations rurales et non rurales en Alaska 2. La segmentation 2.1 Lalgorithme 2.2 Aides linterprtation 2.3 Usages, avantages et limites 2.4 1er exemple : les femmes suisses prises entre la famille et le travail 2.5 2nd exemple : la morphologie du terrain sur la plante Mars

Chapitre 1

ANALYSES FACTORIELLES : GENERALITES


Le but des analyses factorielles est de rsumer de grands tableaux numriques en diminuant leur nombre de colonnes (passant de p colonnes q axes factoriels les rsumant). p q

n En gographie, ces tableaux sont frquemment des tableaux o les lignes reprent des units spatiales (par exemple, 96 dpartements de France mtropolitaine) et les colonnes des variables juxtaposes (par exemple, 20 variables socio-conomiques). On nomme habituellement matrice dinformation spatiale ce type de prsentation de donnes. Pour en matriser linformation, il est impratif de la rsumer et il est impossible de le faire sans instrument adapt (dans lexemple, 96*20 = 1920 nombres !). Faire lanalyse factorielle dun tel tableau consiste rsumer ses 20 colonnes par 2 ou 3 facteurs . Les expressions facteurs et analyse factorielle sont dailleurs trs mal choisies puisquon obtient non pas des facteurs explicatifs mais des rsums descriptifs et quil ne sagit pas danalyse mais de synthse : cest lhistoire qui explique ce contresens.

1. Historique des analyses factorielles


Des psychomtres au dbut du 20ime sicle (Pearson, 1900) ont mis au point les premires analyses factorielles. Ils cherchaient, caches derrire les rsultats dindividus des tests varis, des mesures de capacit intellectuelle (intelligence, mmoire, ) quils ont nommes facteurs sous-jacents, explicatifs des rsultats fournis par les tests psychologiques. Avant la 2nde guerre mondiale, des statisticiens (Hotelling, Thurstone, 1934 sqq) ont repris ces travaux dans une perspective descriptive, mettant au point lanalyse en composantes principales (A.C.P.), adapte au rsum, la synthse de variables quantitatives. Aprs la 2nde guerre mondiale, un statisticien franais (J.P.Benzecri, 1957 sqq) a adapt, sous le nom danalyse factorielle des correspondances (A.F.C.), cette mthode la synthse de tableaux composs de variables qualitatives, frquemment issues denqutes (comme les tableaux de contingence).

Ces deux types danalyse factorielle ne se sont rpandus qu partir du moment o linformatique sest diffuse car il est peu prs impossible den raliser les calculs la main. Bien quadapts des donnes de nature diffrente, ils possdent de larges traits communs.

2. Traits communs aux analyses factorielles


2.1 Un tableau numrique peut se reprsenter par un nuage de points Par exemple, un tableau ayant 96 lignes (dpartements franais mtropolitains) et 2 colonnes (par exemple taux de natalit, taux de mortalit) sera reprsent graphiquement par un nuage de 96 points-dpartement dfinis par leurs coordonnes sur deux axes perpendiculaires (lun reprsentant le taux de natalit, lautre le taux de mortalit). Ce graphique est un nuage de 96 points dans un espace gomtrique de dimension 2 (un plan). Si le tableau comporte non plus 2 colonnes mais 4 (en ajoutant, par exemple, taux de fcondit et taux de mortalit infantile), on ne peut plus visualiser directement le nuage des 96 points-dpartement dans lespace gomtrique de dimension 4 mais, sil nexiste plus graphiquement, cet espace existe algbriquement. Plus gnralement, une matrice dinformation de n lignes et p colonnes est un nuage de n points-individus dans un espace dfini par p axes orthogonaux (les p colonnes de la matrice dinformation). 2.2 Rsumer ce nuage de points : le projeter sur un sous espace Ce sous espace est de dimension nettement infrieure, idalement de dimension 2 de faon pouvoir le reprsenter graphiquement. Reprenant lexemple du tableau 96 lignes (dpartements) et 2 colonnes (taux de natalit et de mortalit), rsumer ce nuage de dimension 2 consiste le projeter le mieux possible sur une droite (espace de dimension 1). Puisquaucune des 2 variables nest ci privilgier par rapport lautre, la projection des points se fera perpendiculairement cette droite optimale quon appellera axe factoriel et qui reprsente laxe de plus grand allongement du nuage de points.

Figure 1.1: Projection des points dun plan perpendiculairement un axe factoriel

Chaque dpartement est maintenant reprsent par la coordonne de sa projection sur laxe factoriel 1, comme le symbolise la figure 1.1. Cet axe passe au plus prs de lensemble des points, minimisant le carr des carts entre chaque point et sa projection sur laxe : cest une droite des moindres carrs comme en rgression linaire, la diffrence prs que les projections lui sont perpendiculaires et non parallles lun des axes. Lorigine de laxe F1 (point 0) a pour coordonnes xy (moyenne des taux de natalit, moyenne des taux de fcondit). Ce point 0 est le point moyen de laxe F1 et, par dfinition du point moyen, la variance des coordonnes des projections <0 est strictement gale celle des coordonnes des projections >0. 2.3 Axes factoriels Trouver la droite des moindres carrs la mieux ajuste lensemble des points du nuage consiste chercher celle qui minimise (Figure 1.2) la somme des (A,A) ou, ce qui revient au mme, celle qui maximise la somme des (0,A) : laxe factoriel F1 est donc le principal axe dallongement du nuage de points, celui qui prend en compte le plus possible de sa variance.

Figure 1.2 : minimiser (A,A) = maximiser (0,A) Si lon reprend maintenant lexemple du tableau 96 lignes et 4 colonnes, on construira de la mme faon un 1er axe factoriel. Considrant les carts entre les points et cet axe (rsidus du 1er axe factoriel), on peut de la mme manire extraire F2, un 2ime axe factoriel, perpendiculaire au 1er , de variance et dallongement moindres. Le nuage de 96 points dans lespace de dimension 4 aura ainsi t projet sur le plan dfini par les axes factoriels 1 et 2 et pourra tre visualis graphiquement (comme tout nuage de dimension 2). On pourrait mme extraire un 3ime axe factoriel sil apparaissait quil subsiste des rsidus importants.

Figure 1.3 : F2 calcul sur les rsidus de F1 (carts des points F1)

Chaque dpartement est maintenant reprsent par 2 coordonnes : celle de sa projection sur laxe F1 et celle de sa projection sur laxe F2. Lanalyse factorielle a projet un nuage de points dun espace de dimension 4 sur un plan (de dimension 2) . Elle a aussi opr : - un changement dorigine (les 2 axes, F1 et F2, sont orthogonaux au point de coordonnes 0,0 (centre du nuage projet sur F1-F2), - ventuellement, un changement dchelle car les units de mesure des diffrentes variables sont incompatibles entre elles. Toute analyse factorielle est donc lextraction progressive, dans un nuage de points multidimensionnel, de rsums unidimensionnels indpendants les uns des autres et dimportance informative (variance) dgressive. Cette technique a clairement une utilit exploratoire, rduisant la complexit, la rsumant ses principales dimensions et les hirarchisant.

3. Procdure algbrique
Un axe factoriel est un axe dallongement dabord du nuage de points puis des rsidus par rapport aux axes factoriels successifs. Chacun minimise la somme des carrs des carts entre points et axe factoriel, ce qui revient au mme que maximiser la somme des carrs des carts entre les coordonnes des points sur laxe et le point moyen du nuage de points (variance des coordonnes sur chaque axe factoriel). La variance des coordonnes sur laxe 1 tant suprieure celle sur laxe 2, etc, laxe 1 est axe dallongement majeur, laxe 2 est axe dallongement secondaire, etc. Cette variance des projections sur un axe est la quantit dinformation quil prend en compte. Linformation est la variance, mesurant loriginalit par rapport aux cas moyens. Les axes factoriels tant orthogonaux donc indpendants les uns des autres, chacun apporte une information complmentaire aux autres. Ils se coupent perpendiculairement au point moyen du nuage de points (de coordonnes X 1 , , X p dans un tableau p colonnes).

Chaque axe factoriel fait intervenir les p variables du tableau de donnes mais avec un poids diffrent dun axe lautre (indiqus ci dessous par les coefficients aj et bj). Lquation du 1er facteur peut scrire :

F1 = a1 X 1 + a2 X 2 + ... + a p X p
Celle du 2
ime

facteur perpendiculaire au 1er :

F2 = b1 X 1 + b2 X 2 + ... + b p X p O les Xj reprsentent les variables initiales et les aj, bj, leurs poids.
Ce sont les poids (aj, bj, ) des p variables dans la dfinition des axes factoriels qui permettront de leur donner une signification thmatique.

4. Informatiquement
un programme danalyse factorielle est compos de 3 modules :

- module 1 : transformation des donnes et calcul dune matrice de covariation des variables (module diffrent selon la nature du tableau de donnes),

Figure 1.4 : schmatisation de ltape 1 dune analyse factorielle Le tableau de donnes D a n lignes et p colonnes. Il est transform en un tableau D (toujours n lignes et p colonnes) : le type de transformation opre sur D dpend de la nature des variables du tableau D. Cest partir du tableau transform D que lon calcule une matrice C (p lignes, p colonnes) de covariation (covariances ou corrlation) entre les p variables prises 2 2. La somme des valeurs de la diagonale de la matrice C est la variance totale du nuage de points multidimensionnel. - module 2 : extraction des axes factoriels et de la quantit dinformation (variance) quils prennent en compte (module commun toutes les analyses factorielles), La figure 1.5 reprsente, sous forme de calcul matriciel, lune des mthodes possibles dextraction du 1er axe factoriel. Le processus de calcul est itratif pour les axes suivants.

Figure1.5 : Une des mthodes dextraction des axes factoriels & Etape 1 : la matrice C est multiplie par le vecteur unitaire (compos de 1) V0, le rsultat de ce produit matriciel est le vecteur V1, & Etapes suivantes : C est multipli (matriciellement) successivement par les vecteurs V2, ,Vk chacun tant le rsultat du produit matriciel C*V de ltape prcdente. & Etape finale : les itrations de calcul sarrtent quand C*Vk=*Vl cest dire quand, lors de 2 itrations successives, Vl est gal Vk une constante prs. Cette valeur est appele valeur propre de laxe factoriel : divise par la variance totale du nuage de points multidimensionnel, elle indique le % de variance de laxe (la quantit dinformation quil prend en compte). Les p valeurs du vecteur Vl , nomm Vecteur Propre, fournissent les coefficients directeurs (les pentes aj ) de laxe factoriel par rapport aux p axes du nuage de points : cest sur ce vecteur quon projette les points du nuage.

La dtermination des axes factoriels suivants procde de la mme manire, ceci prs que la matrice C devient la matrice de covariation rsiduelle (part de covariation non prise en compte par les axes prcdents). - module 3 : aides linterprtation des axes (partiellement diffrentes selon la nature du tableau de donnes et donc le type danalyse factorielle). & La premire aide linterprtation est la liste des % de variance pris en compte par chaque axe factoriel. & La deuxime est constitue par les coordonnes des projections des lignes et des colonnes du tableau de donnes sur chaque axe factoriel. & La troisime est la qualit de reprsentation (Q.R.) dune ligne ou dune colonne du tableau de donnes par sa projection sur un axe factoriel. Pour faire saisir cette notion, considrons 2 points ayant mme coordonne en projection sur un axe mais distants dans le nuage de dimension p. Sur la figure 1.6, la Q.R. du point P2 par laxe F est meilleure que celle du point P1, plus loign de F. La Q.R. est le cosinus carr des angles P1-0-P et P2-0-P. Elle indique la proximit ou lloignement du point laxe factoriel : la somme des Q.R. dun point sur les q axes retenus indique sil est bien ou mal rendu par lensemble des q axes.

Figure 1.6 : Qualit de reprsentation des points P1 et P2 par un axe factoriel F & La contribution relative dune ligne ou dune colonne de D la dfinition dun axe est le carr de son cart 0 divis par la variance de laxe. Par consquent, la somme des contributions (lignes ou colonnes) sur chaque axe est gale 1 ou 100% .

RESUME En termes gomtriques Lanalyse factorielle projette un nuage de n points dun espace p-dimensionnel sur un sous-espace de dimension infrieure. Les nouvelles donnes sont les coordonnes des projections de ces n points sur chacun des axes factoriels orthogonaux. En termes algbriques Chaque axe factoriel est une combinaison des p variables initiales, chacune dote dun poids dans la combinaison. Les axes factoriels sont indpendants les uns des autres. En termes informatiques Tout programme danalyse factorielle est compos de 3 modules : - le calcul dune matrice de covariation des p variables 2 2, - le calcul des axes factoriels et de leur % de variance, - le calcul daides linterprtation. En termes dinformation Les axes factoriels sont des rsums des donnes du tableau initial, Ils sont hirarchiss selon la quantit dinformation quils prennent en compte, Chacun porte une information nouvelle. Ces rsums ne sont que des rsums, interprter gographiquement. En ce sens, lanalyse factorielle ne fait que faciliter la description, en la hirarchisant.

Chapitre 2 LAnalyse en Composantes Principales (ACP)


A) CONNAISSANCES DE BASE
LACP est employe pour lanalyse factorielle de variables quantitatives continues (ou quasi continues, cest dire discrtes valeurs nombreuses). Leur prsentation peut donner lieu divers types de tableaux.

1. Types de tableaux pour lACP


La forme prototypique est la matrice dinformation o : - les diffrentes colonnes sont des variables quantitatives juxtaposes, - les lignes correspondent des units statistiques, souvent spatiales en gographie (ponctuelle, linaire ou surfacique selon lchelle de leur reprsentation). 1.1 matrice dinformation non spatiale

Tableau 2.1 : concentrations chez des poissons selon leur distance un rejet industriel

Les sept variables, issues de mesures, sont toutes quantitatives continues. Juxtaposes en tableau, elles reprsentent diffrentes dimensions de la pollution des eaux par rejet dun missaire industriel. Les units statistiques (lchantillon des poissons capturs) sont des units statistiques primaires, identifies par un code. Lhypothse sous-jacente la constitution de ce tableau de donnes est que les diffrents polluants sont diffremment absorbs, hypothse quune analyse confirmerait, infirmerait ou nuancerait. 1.2 matrice dinformation spatiale
pays Allemagne Autriche Belgique Chypre Danemark Espagne Estonie Finlande France Grce Hongrie Irlande Italie Lettonie Lituanie Luxembourg Malte Norvge Pays Bas Pologne Portugal Royaume Uni Slovaquie Slovnie Sude Suisse Tchquie esp vie F 74.8 75.4 75.1 75.3 74.5 75.6 64.9 74.6 75.5 75.4 68.4 73 76.7 64.5 65.9 75.2 76.2 76.2 75.5 70.3 72.4 75 69.7 72.3 77.5 77.2 72.2 mort_inf 4.4 4.8 5 5.6 5.3 3.9 8.4 3.8 4.6 6.1 9.2 5.9 4.5 10.4 8.6 5.8 6 3.8 5.1 8.1 5.5 5.6 8.6 4.9 3.4 4.9 4.1 activF 48.8 49 42.3 50.9 73.8 40.3 52.2 56.8 47.8 37.6 45.6 47.5 36 49.7 54.6 42.5 22.9 69.2 52.9 49.5 54.1 53 52.9 51.3 76.2 58.8 51.3 % chom. 8.2 4.1 7.3 3.8 4.5 11.4 6.8 9.1 8.7 10.3 8.4 4.4 9.1 8.5 10.9 2.4 7.4 3.9 2.7 18.1 5 5.1 17.4 11.3 4.9 3.1 9.8 pnb/hb 26768 29075 27952 12724 30096 22538 10201 27215 27560 17670 12733 32549 26946 7809 8359 50410 9875 37070 29614 9852 18500 26756 12314 17762 26849 30058 15011 % education 4.3 4.9 5.8 5.8 8.1 5.6 6.8 5.6 5.6 2.3 5.2 4.5 4.6 6.2 5.2 4 5.7 7.4 5.2 5.1 5.5 4.7 4.3 5.2 7.3 5.1 4.6 % sant 10.6 8 8.8 6 8.4 7.7 5.5 6.6 9.4 9.2 5.7 7.2 8 4.8 5.7 6.1 8.9 8.5 8.2 4.2 8.2 7.3 6.4 8.2 7.9 10.7 7.4

(source : ONU, Trends in Europe & N. America)

Tableau 2.2 : variables dmographiques et conomiques pour 27 pays europens On a ici le cas le plus frquent, celui dunits spatiales surfaciques (zones de type divers, communes, dpartements, pays, bassins hydrographiques, ), units statistiques secondaires ( molcules ), chacune contenant des units primaires ( atomes ) comme des personnes, des btiments, des parcelles, des zones pdologiques, Dans le tableau 2.2, les diffrentes variables sont quantitatives, exprimes dans des units de mesure diffrentes (taux, frquences, mesure conomique) et les units statistiques (pays) sont des agrgats. Lhypothse qui a prsid la constitution du tableau 2.2 est celle du lien entre niveaux de vie moyens, % des budgets nationaux consacrs lducation et la sant et quelques indicateurs dmographiques. Lanalyse en Composantes Principales permet de quantifier limportance relative de leurs diffrents dterminants.

Tous ces tableaux sont dissymtriques (units statistiques en lignes, variables en colonnes). 1.3 matrice dinformation spatio-chronologique
Janv. Conakry Kindia Bok Mamou Lab Koundara Kankan Faranah Siguiri Kissidougou Macenta N'Zrkor 0.6 1.2 0 2 1.7 0 2.1 1.8 0.1 6.9 15 9.6 Fvr. 1 2 0 4.6 3.6 0.2 1 2.3 2 18.4 56 44.9 Mars 3.2 12.2 0 22.3 8.7 0.3 23.8 12.8 4.6 45.7 99.2 112.9 Avril 20.5 48 5.1 73 35.3 1.8 67.4 71.7 32.4 129 204.2 160.6 Mai 137.1 177.7 104.9 155.7 140.1 49.2 134 137 91.4 206.1 226.9 174 Juin 379.8 243.4 255.8 207.4 233.1 137.2 202.3 213.6 170.1 257.3 282 199.2 Juillet 1135.1 371.5 483.5 332.7 315.9 250.1 261.9 261.2 265.1 264.8 411.9 225.4 Aot 1109.1 473.5 601 404.3 339.5 305.1 319.4 298.9 319.2 339.2 536.8 298 Sept. 618.3 352.7 476.9 337.1 295.8 262.7 304.7 297.4 242.1 328.4 462.8 324.7 Oct. 293.6 224.8 319 200.1 82.2 130.2 175.2 102 247.1 188.8 Nov. 69.6 39.2 67.5 47.9 9.2 18.1 44.1 8.8 77.1 77 Dc. 7.9 6.9 1.7 4.6 1.8 0.1 1.2 0.4 0.7 15 39.7 23.9

133.2 133.6

269.9 131.9

(source : Mto Guine)

Tableau 2.3 : Prcipitations moyennes mensuelles de 12 villes guinennes Les tableaux spatio-chronologiques sont une forme particulire de matrice dinformation spatiale o les lignes sont des units spatiales, les colonnes des instants ou des dures : elles ne rfrent gnralement qu un seul caractre. Ici ce caractre est le total mensuel moyen de prcipitations, les lignes reprent des stations mtorologiques et les colonnes les mois de lanne, le caractre tant les prcipitations mesures. Ce tableau de valeurs quantitatives (mesures) peut tre rsum par ACP, notamment dans le but de rgionaliser les rgimes de prcipitations en Guine mais, la diffrence des tableaux prcdents, il nest pas dissymtrique (units statistiques en ligne, variables diffrentes en colonne) : on pourrait fort bien permuter lignes et colonnes. En outre, cela aurait ici un sens dadditionner les prcipitations en ligne (total annuel moyen) et en colonnes (divis par 12 fournit la prcipitation moyenne dun mois en Guine). Pour cette raison, un autre type danalyse factorielle est galement possible (Analyse Factorielle des Correspondances). 1.4 matrice dinformation chronologique multivarie

Tableau 2.4 : Mesures de rejet dune station dpuration (source: Agence de leau RMC)

Le tableau 2.4 est un extrait de tableau chronologique multivari dont la colonne 1 identifie les jours (units statistiques), les colonnes 2 4 (variables) reprsentent quelques mesures de qualit de leau dune station dpuration. Les units statistiques sont donc chronologiques et les variables (quantitatives) juxtaposes sont de natures diffrentes. En rsum, 4 grands types de tableau sont susceptibles dtre rsums par ACP - une matrice dinformation (Tab. 2.1) juxtaposant des variables quantitatives pour un ensemble dunits statistiques primaires quelconques (poissons dans lexemple), - une matrice dinformation spatiale (Tab. 2.2) juxtaposant des variables quantitatives pour des units spatiales. A des units spatiales ponctuelles correspondent souvent des mesures, a des agrgats spatiaux surfaciques des variables de comptage, - une matrice dinformation spatio-chronologique (Tab. 2.3) o les lignes reprent des units spatiales, les colonnes des units de temps et o, gnralement, un seul caractre est prsent (prcipitations dans lexemple expos), - une matrice chronologique multivarie o les lignes sont des units statistiques chronologiques et les colonnes des variables quantitatives juxtaposes. Dans tous ces cas, la matrice dinformation est considre de faon dissymtrique, units statistiques en ligne et variables quantitatives (mesures, comptages, taux,) en colonne.

2. La cration dun tableau de donnes pour lACP


La constitution dune matrice dinformation est, dans tous les cas, le rsultat dun compromis entre une hypothse sur les dimensions smantiques dun phnomne (quil sagit de simplifier et dordonner) et les donnes numriques accessibles pour le caractriser. LACP, comme les autres mthodes danalyse multivarie, suppose que le tableau rsumer est sans trou (sans valeur manquante), ce qui peut tre vu comme un inconvnient dans nombre dapplications. Par exemple, il est frquent en climatologie que les relevs de certaines stations mtorologiques connaissent des interruptions et fournissent donc des donnes chronologiquement incompltes : il existe, dans ce cas, des moyens pour estimer les valeurs manquantes et produire des tableaux sans absence de valeurs. Concernant les matrices dinformation spatiale, deux grands types peuvent tre distingus, selon la nature des units spatiales (et donc la nature des variables les dcrivant): - si ce sont des units statistiques primaires (relevs en des points prcis), les variables quantitatives qui leur correspondent sont issues de mesures (surface, poids, volume, prcipitation, temprature, distance, caractristique physique ou biologique, ) de sorte qu chaque lieu chantillon corresponde une grandeur pour chaque variable ; dans ce premier cas (mesures sur units primaires) se pose souvent pour le gographe le problme de la gnralisation (interpolation) spatiale des rsultats, - si ce sont des units statistiques secondaires (agrgats surfaciques ou linaires contenant des units primaires), les variables sont gnralement quantitatives car elles correspondent des comptages. Par exemple, une variable comme le sexe (qualitative au niveau de personnes observes) devient, au niveau agrg, deux variables quantitatives de comptage (dhommes dune part, de femmes dautre part) ; ces variables de comptage peuvent tre exprimes sous forme deffectifs, de frquences (pourcentages dunits primaires par unit secondaire) ou de taux (rapports deffectifs ou de frquences) ; dans ce cas (comptages sur agrgats) existe le

risque derreur cologique , cest dire le risque daffecter tous les individus dune zone le comportement moyen observ sur lagrgat.

3. Les 3 phases dune ACP sur ces types de tableaux


Les quatre types de matrice dinformation distingus au &2.1 peuvent tre soumis une ACP ; comme toute analyse factorielle, celle ci se droule en trois tapes (&1.2) : - transformation du tableau de donnes et calcul des covariances, - calcul des axes factoriels et de leurs variances, - calcul daides linterprtation des rsultats. 3.1 Transformation du tableau de donnes et calcul des covariances - Les p variables (colonnes) du tableau D de donnes sont centres. Pour chaque variable j, on remplace chaque valeur par son cart sa moyenne

Dij = Dij - mj
Ce centrage des variables correspond, gomtriquement, un changement dorigine du nuage de points qui, une fois projet sur les axes factoriels, aura pour point moyen le point de coordonnes 0, 0, 0, Algbriquement, le centrage des variables limine lordonne lorigine dans lquation de chaque axe factoriel. Si les variables sont exprimes dans la mme unit de mesure et que lon dsire conserver pour chaque unit statistique les diffrences de grandeur exprimes par les diffrentes variables, lanalyse se poursuivra sur le tableau D (variables centres o lon a effac les diffrences de moyenne mais pas celles de variance). Lexemple suivant illustre ce cas de figure.
distances Anglet Artouste Cambo Gourette Hasparren Hendaye Pierre St Martin Laruns Lourdes Maulon Navarrenx Oloron Ste Marie Orthez St Jean de Luz St Jean Pied de Port St Palais Salies de Bearn Sauveterre de Barn Bayonne-Biarritz 5 170 21 162 29 33 144 150 152 93 89 110 80 21 54 61 65 75 Pamplona 106 198 102 86 190 95 78 156 141 250 113 136 146 87 64 34 16 20 Pau 113 58 122 114 50 106 142 75 89 40 59 42 35 92 74 105 128 118 San Sebastian 50 213 46 61 205 71 20 187 208 194 135 132 152 79 160 95 104 117

(source : ViaMichelin)

Tableau 2.5 : distances aux mtropoles rgionales de petites villes basco-barnaises

Faire lACP dun tel tableau conduit diffrencier des zones dinfluence prioritaires des mtropoles rgionales en fonction de leurs distances routires aux petites villes mentionnes. On admettra quil faille conserver ces distances en km, unit de mesure commune significative. Le tableau 2.6 est le tableau D (centr) correspondant au Tableau 2.5 : cest sur celui-ci que lACP va se poursuivre. Les diffrences de distances moyennes aux 4 mtropoles ont t effaces (elles taient de 84.11 km Bayonne-Biarritz, 112,11 km Pampelona, 86,77 km Pau et 123,83 km San Sebastian). Vous pourrez vrifier par vous mme que, aux arrondis de calcul prs, la moyenne des 4 variables centres est gale 0.
distances centres Anglet Artouste Cambo Gourette Hasparren Hendaye Pierre St Martin Laruns Lourdes Maulon Navarrenx Oloron Ste Marie Orthez St Jean de Luz St Jean Pied de Port St Palais Salies de Bearn Sauveterre de Barn Bayonne-Biarritz Pampelune -79.11 85.89 -63.11 77.89 -55.11 -51.11 59.89 65.89 67.89 8.89 4.89 25.89 -4.11 -63.11 -30.11 -23.11 -19.11 -9.11 -6.11 -10.11 -26.11 -17.11 -34.11 28.89 Pau 26.23 35.23 27.23 19.23 55.23 2.23 San Sebastian -73.83 89.17 -77.83 -62.83 81.17 -52.83 -103.83 63.17 84.17 70.17 11.17 8.17 28.17 -44.83 36.17 -28.83 -19.83 -6.83

85.89 -28.77

77.89 -36.77

43.89 -11.77 137.89 -46.77 0.89 -27.77 23.89 -44.77 33.89 -51.77 -25.11 -78.11 -96.11 -92.11 5.23 18.23 41.23 31.23 -48.11 -12.77

Tableau 2.6 : Tableau centr correspondant au tableau 2.5 Il en serait de mme si lon avait construit pour les communes dun dpartement un tableau de distances aux villes voisines leur fournissant diffrents niveaux de service (collge, lyce, universit, hpital spcialis, commerces rares, ). - La plupart du temps, les variables juxtaposes dans une matrice dinformation ont des units de mesure diffrentes, quil faut donc ramener, pour les combiner, une unit de mesure commune: cest accompli en standardisant chaque variable (centrage et rduction).

Dij = ( Dij mj ) / j
Pour chaque variable j (colonne) du tableau, la standardisation exprime lcart de chaque valeur sa moyenne en cart type de cette variable. Lcart type devient lunit de mesure commune toutes les variables. Ce sont donc les valeurs standardises des variables (cest dire leurs variabilits relatives) qui produiront les rsultats de lACP. Le tableau 2.7 correspond la standardisation des variables du tableau 2.2 : vous pourrez vrifier par vous mme que (aux arrondis de calcul prs) la moyenne des variables standardises est gale 0 et leur cart type 1.

esp vie F Allemagne Autriche Belgique Chypre Danemark Espagne Estonie Finlande France Grce Hongrie Irlande Italie Lettonie Lituanie Luxembourg Malte Norvge Pays Bas Pologne Portugal Royaume Uni Slovaquie Slovnie Sude Suisse Tchquie 0.40 0.57 0.48 0.54 0.32 0.62 -2.27 0.35 0.59 0.57 -1.33 -0.08 0.92 -2.38 -2.00 0.51 0.78 0.78 0.59 -0.81 -0.25 0.46 -0.97 -0.27 1.13 1.05 -0.30

mort_inf -0.75 -0.53 -0.42 -0.10 -0.26 -1.01 1.40 -1.07 -0.64 0.17 1.83 0.06 -0.69 2.48 1.51 0.01 0.11 -1.07 -0.37 1.24 -0.16 -0.10 1.51 -0.48 -1.28 -0.48 -0.91

activF -0.17 -0.15 -0.76 0.02 2.11 -0.94 0.14 0.56 -0.26 -1.19 -0.46 -0.29 -1.33 -0.09 0.36 -0.74 -2.53 1.69 0.21 -0.10 0.31 0.21 0.21 0.06 2.33 0.74 0.06

%chom 0.14 -0.89 -0.09 -0.96 -0.79 0.94 -0.21 0.36 0.26 0.66 0.19 -0.81 0.36 0.21 0.81 -1.31 -0.06 -0.94 -1.24 2.61 -0.66 -0.64 2.43 0.91 -0.69 -1.14 0.54

pnb/hb 0.43 0.65 0.54 -0.94 0.75 0.02 -1.18 0.47 0.50 -0.46 -0.94 0.99 0.44 -1.42 -1.36 2.72 -1.22 1.43 0.70 -1.22 -0.38 0.43 -0.98 -0.45 0.43 0.75 -0.72

%educ -0.91 -0.39 0.38 0.38 2.36 0.21 1.24 0.21 0.21 -2.63 -0.13 -0.74 -0.65 0.73 -0.13 -1.17 0.30 1.76 -0.13 -0.22 0.12 -0.56 -0.91 -0.13 1.67 -0.22 -0.65

%sant 1.88 0.28 0.77 -0.95 0.53 0.10 -1.25 -0.58 1.14 1.02 -1.13 -0.21 0.28 -1.68 -1.13 -0.88 0.83 0.59 0.40 -2.05 0.40 -0.15 -0.70 0.40 0.22 1.94 -0.09

Tableau 2.7 : Tableau standardis correspondant au tableau 2.2 - Une fois opre la transformation du tableau initial D en tableau D (centr) ou D (standardis, cest dire centr et rduit), on passe au calcul dune matrice de relations entre les p variables considres deux deux. Cette matrice C a donc p lignes et p colonnes. Elle contient dans chaque case ij : la covariance entre variables i et j si D a t centr en D

Le tableau 2.8 fournit la matrice de covariances entre les 4 variables du tableau 2.5
Bayonne-Biarritz Bayonne-Biarritz Pampelune Pau San Sebastian 2696.3210 837.8210 -214.3642 1056.9074 Pampelune 837.8210 3665.7654 -1461.4198 2306.5185 Pau -214.3642 -1461.4198 1069.7284 -1495.2593 San Sebastian 1056.9074 2306.5185 -1495.2593 3618.9167

Tableau 2.8 : Covariances entre variables du tableau 2.5 - la corrlation entre variables i et j si D a t standardis en D (la covariance de variables standardises est leur coefficient de corrlation de Bravais-Pearson).

Le tableau 2.9 fournit, quant lui, la matrice de corrlations entre les 7 variables du tableau 2.2. Il est symtrique puisque rij = rji Seul le triangle suprieur est ici prsent et la diagonale est gale 1 (corrlations des variables avec elles mmes).
esp vie F st esp vie F st mort_inf st activF st %chom st pnb/hb st %educ st %sant st 1 mort_inf st -0.8621 1 activF st -0.0035 -0.1769 1 %chom st -0.4116 0.3783 -0.2426 1 pnb/hb st 0.6511 -0.6167 0.2178 -0.5933 1 %educ st -0.0629 -0.0862 0.6000 -0.2758 0.0007 1 %sant st 0.7017 -0.6746 -0.0096 -0.3408 0.4232 -0.0868 1

Tableau 2.9 : Corrlations entre variables du tableau 2.2 NB : Si les variables du tableau initial D sont des rangs (variables qualitatives ordinales), la transformation de D en D produira des coefficients de corrlation de rangs de Spearman. En rsum : la 1re phase dune ACP consiste : - transformer le tableau initial D en un tableau D (de variables centres) ou D (de variables standardises), - calculer un tableau C de relations entre variables 2 2 (covariances sur D, corrlations sur D) 3.2 Calcul des axes factoriels et de leur % de variance Il est identique dans toutes les analyses factorielles (cf & 1.3, module 2). - les axes factoriels sont calculs sur le tableau C des covariances (ou des corrlations), - les q (q<p) axes factoriels extraits sont orthogonaux entre eux, dfinissant ainsi un sous espace euclidien (si q=2, cest un plan) - le 1er axe factoriel est le principal axe dallongement du nuage de points, celui qui prend en compte la plus grande variance des coordonnes de leurs projections sur cet axe, - Les axes factoriels suivants sont de variance dcroissante. 3.3. Aides linterprtation des rsultats Cest la phase essentielle pour lutilisateur. Les diffrents logiciels offrent, en ce domaine, des indicateurs plus ou moins complets. On nindique ici que les plus frquemment rencontrs. Pour tre plus comprhensible, on les expose, sur lexemple du tableau 2.2 (27 pays europens, 7 variables), les rsultats fournis par un programme dACP 3.3.1 signification des variables du tableau 2.2 Il est temps dtre plus prcis sur la signification exacte des 7 variables du tableau 2.2 : esp vie F : nombre moyen dannes que vivrait une fille ne en 2001 si la mortalit fminine par ge demeurait la mme quen 2001 Mort_inf : nombre denfants <1 an morts en 2001 / nombre denfants ns vivants en 2001 Activ F : nombre de femmes ayant un emploi / nombre de femmes dge actif % chom : (nombre de chmeurs / nombre des actifs de plus de 15 ans)*100

Pnb/hb : produit national brut annuel par habitant (exprim en $) %ducation : dpenses dducation (de source publique ou prive) en % du Pnb %sant : dpenses de sant (de source publique ou prive) en % du Pnb 3.3.2 moyennes, carts type et coefficients de corrlation Les variables du tableau 2.2 ont t standardises (centres et rduites), ce qui implique que leurs moyennes et variances ninterviendront pas dans lACP. Il convient de souligner que ces moyennes et variances sont non pondres par le poids dmographique des diffrents pays (le Luxembourg pse autant que lAllemagne). Il nest toutefois pas inutile de les commenter, en calculant notamment (si toutes les valeurs sont suprieures ou gales 0) leurs coefficients de variation (j/ mj). On a ainsi une estimation de la variabilit des valeurs de lensemble des pays pour chaque variable (Tab. 2.10).
moyenne esp vie F Mort_inf Activ F % chom Pnb/hb %education %sant 73.307 5.789 50.65 7.652 22380 5.356 7.541 Ecart type 3.700 1.862 10.98 4.007 10288 1.163 1.629 Coefficient De variation 0.050 0.322 0.217 0.524 0.460 0.217 0.216

Tableau 2.10 : variabilit relative des variables du tableau 2.2 On remarque immdiatement: - la trs faible diffrence desprance de vie entre pays europens ( lest comme louest), tenant des structures dge peu prs uniformment vieillies, - des diffrences modres (variabilit entre 1/5 et 1/3) pour la majorit des variables, - de fortes diffrences de revenu moyen (quelle que soit limperfection de la mesure) et de chmage (marque de politiques demploi diffrentes). 3.3.3 tableau de covariances ou de corrlations Dans le cas prsent (variables standardises), il sagit dun tableau de corrlations (cf Tableau 2.9). Mme avec aussi peu de variables, il est peu lisible : il convient donc de le simplifier et, ventuellement, de reprsenter graphiquement ce tableau simplifi. En dcidant (tout fait empiriquement) de ne retenir que les corrlations suprieures +0.60 et infrieures 0.59, on obtient la figure 2.1.

Figure 2.1 : graphe simplifi des corrlations du tableau 2.9 Le principal groupe dinter-corrlations concerne les variables dmographiques, le revenu moyen par habitant et la part du budget ddi aux dpenses de sant. Deux interprtations (ventuellement complmentaires) sont possibles :

& en Europe, lesprance de vie tend tre proportionnelle au Pnb/hb, aux dpenses de sant et la mortalit infantile leur tre inversement proportionnelle, & ces variables inter-corrles seraient en partie lies la structure dge des pays et leur niveau de dveloppement social (et non conomique seulement). Un deuxime groupe de variables corrles apparat, connectant taux dactivit fminine et part des budgets alloue lducation (variables sociales). 3.3.4 Rsultats concernant laxe factoriel 1 (47.7% de la variance) - corrlations variables axe 1
Esp vie F Pnb/hb % sant Activ F % ducation %chom. mortinf Corrlation + axe 1 0.86 0.81 0.78 0.17 0.10 -0.62 -0.90 Qualit de reprsentation 0.73 0.65 0.60 0.04 0.01 0.39 0.81

Tableau 2.11 : corrlation des variables avec laxe factoriel 1 Laxe factoriel 1 (reprsentant presque la moiti de linformation du tableau initial), oppose (pour les 27 pays considrs) lesprance de vie fminine, le revenu moyen par habitant, le % des budgets consacrs la sant dune part aux forts taux de chmage et de mortalit infantile dautre part. Cest donc un axe de niveau de dveloppement socio-dmographique. Les qualits de reprsentation (comprises entre 0 et 1 puisque ce sont des cosinus carrs) de ces variables par laxe 1 (cf &1.4) sont correctes, hormis pour la variable chmage . - coordonnes des pays sur laxe 1
Coordonnes sur laxe 1 2.51 2.36 1.96 1.62 1.54 1.43 1.24 1.21 1.09 1.07 1.03 0.80 0.76 0.43 0.28 0.15 -0.03 -0.22 -0.23 -0.38 -0.45 -2.53 -2.77 -2.78 -2.95 -3.43 -3.74 Qualit de reprsentation 0.773 0.547 0.380 0.614 0.184 0.375 0.614 0.693 0.112 0.516 0.221 0.136 0.223 0.024 0.078 0.008 0.001 0.005 0.006 0.047 0.077 0.631 0.879 0.958 0.768 0.721 0.834

Suisse Norvge Sude France Luxembourg Allemagne Pays Bas Autriche Danemark Belgique Italie Espagne Finlande Portugal Royaume Uni Irlande Slovnie Grce Malte Chypre Tchquie Estonie Hongrie Lituanie Slovaquie Pologne Lettonie

Tableau 2.12 : Coordonnes des pays sur laxe 1 et qualit de leur reprsentation

De faon cohrente avec linterprtation en termes de variables, sopposent pays forts Pnb/hb, esprance de vie fminine et faible mortalit infantile des pays faibles Pnb/hb, esprance de vie fminine et mortalit infantile relativement forte. Cette interprtation, sappuyant sur les coordonnes extrmes (en positif et ngatif), doit tenir compte de la qualit de reprsentation des pays par leurs coordonnes. Sude, Luxembourg, Allemagne, Danemark, Italie sont assez mal reprsents si bien que ce 1er axe npuise pas leur originalit. 3.3.5 Rsultats concernant laxe factoriel 2 (24.5% de la variance) - Corrlations variables axe 2
Corrlations avec laxe 2 0.83 0.82 0.07 0.04 -0.23 -0.32 -0.40 Qualit de reprsentation 0.6956 0.6734 0.0048 0.0012 0.0544 0.1050 0.1605 Cumul sur les Axes 1 et 2 0.7061 0.7102 0.8188 0.6542 0.6556 0.8387 0.5498

% ducation Activ F Mortinf Pnb/hb % sant Espvie F % chom

Tableau 2.13 : Corrlations variables axe 2 et qualit de leur reprsentation Au vu des corrlations et de leur qualit de reprsentation, cet axe 2, reprsentant presque de linformation initiale, est principalement dtermin par le taux dactivit fminine et la part des budgets nationaux consacrs lducation. Ces deux variables, fortement corrles entre elles et avec laxe 2, taient sur le graphe de la figure 2.1 le second paquet de corrlations. Cet axe met donc en avant les diffrences inter pays europens dactivit fminine et leurs liens avec les efforts consentis pour lducation. Ces diffrences sont indpendantes du Pnb/hb. - Coordonnes sur laxe 2 et qualit de leur reprsentation
Coordonnes Sur laxe 2 2.92 2.20 2.03 1.92 1.63 1.25 0.62 0.38 0.23 0.23 0.17 -0.02 -0.12 -0.17 -0.31 -0.47 -0.51 -0.51 -0.55 -0.73 -0.77 -0.84 -1.15 -1.24 -1.54 -1.75 -2.90 Qualit de reprsentation 0.799 0.478 0.403 0.481 0.262 0.093 0.127 0.018 0.006 0.020 0.011 0.000 0.002 0.010 0.046 0.014 0.100 0.114 0.200 0.124 0.047 0.059 0.278 0.281 0.300 0.636 0.814 Cumul Q.R. sur les axes 1 et 2 0.911 0.858 0.950 0.505 0.893 0.927 0.174 0.976 0.886 0.635 0.235 0.079 0.775 0.017 0.738 0.782 0.177 0.630 0.201 0.738 0.231 0.780 0.413 0.655 0.306 0.856 0.818

Danemark Sude Norvge Portugal Estonie Lettonie Chypre Lithuanie Hongrie Pays Bas Finlande Royaume Uni Suisse Irlande Autriche Pologne Tchquie Belgique Slovnie France Luxembourg Slovaquie Espagne Allemagne Malte Italie Grce

Tableau 2.14 : coordonnes des pays et leur qualit de reprsentation

Lopposition est nette entre pays scandinaves forts budgets ducatifs, forte participation des femmes au monde du travail et pays mditerranens (Grce, Italie et aussi Malte et Espagne, moins bien reprsents par laxe) o ces variables prsentent des valeurs plus faibles. Cet axe est, en quelque sorte, celui de lopposition de deux modles dinvestissement ducatif et de ses prolongements dans la vie active pour les femmes. 3.3.6 graphiques sur le plan des axes 1 et 2 Cest cependant sur des combinaisons daxes factoriels que les rsultats de lACP sont le mieux interprtables et, notamment par des graphiques du plan des axes 1 et 2 sils contiennent une bonne part de linformation du tableau initial (ici presque les ). - cercle des corrlations sur le plan des axes 1 et 2 Les corrlations des variables avec les 2 axes sont reprsentes par un point de coordonnes r1j et r2j et, comme toutes les corrlations sont, par construction, comprises entre 1 et +1, ces points sont tous situs lintrieur dun cercle de rayon 1. Si on les joint lorigine par un vecteur, on obtient un cercle des corrlations semblable celui de la figure 2.2

Figure 2.2 : cercle des corrlations variables axes 1 et 2 Les principes de lecture dune telle figure sont les suivants : - un vecteur de faible longueur indique une faible corrlation donc une mauvaise prise en compte de la variable par lensemble des deux axes : cest le cas du taux de chmage, un vecteur de grande longueur proche dun axe indique son poids dans la dfinition de laxe : cest le cas du Pnb/hb pour laxe 1, des dpenses ducatives pour laxe 2, - deux vecteurs longs, proches dun axe et opposs lun lautre traduisent que laxe a t construit en opposant ces deux variables : cest le cas du Pnb/hb et de la mortalit infantile pour ce qui concerne laxe 1 (qui a 2 pieds , alors que laxe 2 est unijambiste !),

- des vecteurs longs voisins les uns des autres indiquent une forte corrlation entre les variables quils reprsentent : cest le cas ici de lesprance vie fminine et des dpenses de sant dune part, des dpenses dducation et du taux dactivit fminine dautre part. 3.3.7 graphique des individus et variables sur le plan des axes 1 et 2 Moyennant une transformation ou une superposition dchelles pour faire figurer corrlations (ou covariances) et coordonnes sur le mme graphique, on peut construire la figure 2.3.

Figure 2.3 : reprsentation variables-individus sur le plan des axes 1 et 2 Les proximits (et les loignements) des points pays et des points variables est explicative. Par exemple, le groupe des pays scandinaves est voisin de %ducation, esp_vie F et loign de mort_inf, la Suisse est proche du point Pnb/hb, le groupe mditerranen (Grce, Malte, Italie) est, lui, loign de tous les points variables. Les points pays proches de lorigine sont, en gnral, peu pris en compte par les axes 1 et 2 : ils le seraient par des axes suivants (Chypre, Slovnie, Pologne, Tchquie, Finlande, Royaume Uni, Irlande, Espagne). Leur exacte qualit de reprsentation sur le plan F1-F2 est indique par la dernire colonne du tableau 2.14. On peut la reprsenter, en chaque point pays, par un cercle proportionnel au cumul des qualits de reprsentation sur les axes 1 et 2.

La figure 2.4, lisse et gnralise, les visualise aussi. Elle reprsente, en quelque sorte, une carte de fiabilit de la reprsentation des pays sur le plan des axes factoriels 1 et 2.

Figure 2.4 : Carte de fiabilit des projections des pays sur le plan F1-F2 Les projections les plus fiables sont, sur la figure 2.4 et en rgle gnrale, priphriques, avec une excellente qualit de reprsentation aux extrmits de laxe 1, ce qui est normal puisque les axes sont principalement lis aux coordonnes et corrlations extrmes.

4. Quelques conseils de bon usage


Lobjectif tant de matriser la comprhension du problme pos travers un tableau de donnes numriques, un certain nombre de faons de procder sont viter ou recommander : il existe donc quelques principes de bon usage. pour un utilisateur, le problme rsoudre est smantique et non technique. Il est abord via la constitution dun tableau de donnes, transformer en information synthtise, simplifie, hirarchise mais la plus fidle possible aux donnes initiales. En consquence, lutilisateur doit avoir une connaissance approfondie de la signification des variables quil a mis en tableau ; pas de donnes sans mtadonnes (dcrivant leur dfinition, les conditions de relev, leur champ spatial et temporel, leur source, leur fiabilit, etc). On doit aussi toujours, pour les interprtations, se reporter au tableau des donnes (tout en tant conscient de leurs limites). LACP est une mthode de simplification partir des relations linaires entre variables. Il faut donc absolument viter la co-linarit entre elles. Par exemple, si pour un ensemble de lieux, certaines variables sont les secteurs demploi (primaire, secondaire, tertiaire) en % de lemploi dans chaque lieu, il conviendrait de nen retenir que 2 des 3 car le 3ime est toujours complmentaire 100% (et cre donc une relation artificielle). Considre dun point de vue gomtrique, lACP est une mthode de projection dun nuage de points multidimensionnel biscornu sur un sous espace orthonorm de faible dimension : il y a ncessairement dformation et cest pourquoi il faut prter grande attention aux qualits de reprsentation (mesure de distance un axe).

Mme si la constitution dun tableau de donnes reflte des hypothses sur le phnomne analyser, lACP doit tre utilise comme une mthode heuristique, capable de faire dcouvrir de limprvu par interaction avec les donnes. Dans cette optique, on peut / doit recommencer lanalyse en supprimant variables et/ou individus ayant trop fortement pes sur les rsultats : le calcul des contributions laxe (variance de la projection / variance de laxe), fournies par certains logiciels, permet de reprer variables ou units statistiques trop prgnantes. Recommencer lanalyse sans eux constitue une sorte de zoom smantique et/ou gographique. Dans lexemple dvelopp cidessus, on aurait pu retirer Pnb/hb et mort_inf pour mieux diffrencier au centre du nuage de points. Dans les cas dtudes dmographiques ou socio-conomiques par rgion, il est ainsi frquent de retirer (pour des raisons opposes) la Corse et lIle de France pour mieux percevoir la position des autres rgions. On peut retirer des variables ou individus et recommencer lanalyse mais on peut aussi, sans la recommencer, considrer des variables ou individus supplmentaires. Si la variable est quantitative, on calculera sa corrlation (ou covariance) avec chacun des q axes retenus et on en positionnera les vecteurs dans le cercle de corrlations (cf Figure 2.2). On pourrait ainsi dans lexemple des 27 pays europens reprsenter le vecteur corrlation avec F1-F2 du taux annuel de croissance dmographique. Si la variable supplmentaire est qualitative connue par classes, on fera figurer sur le plan des axes 1 et 2 le point moyen des units statistiques des classes de la variable qualitative. Toujours dans le mme exemple, on pourrait diffrencier anciens et nouveaux pays de lUnion Europenne et ajouter la figure 2.3 les points moyens des coordonnes sur F1-F2 des 15 anciens et des 10 nouveaux membres. On pourrait, en outre, tracer autour de ces 2 points moyens un cercle correspondant un ou deux carts type.

- certains logiciels fournissent aussi la possibilit de projeter sur les axes des individus supplmentaires (la Corse et lIle de France de lexemple voqu). Pour faciliter linterprtation, des graphiques sont toujours prfrables des tableaux de rsultats, dautant plus dailleurs que n et/ou p sont grands. Toujours dans le but de faciliter linterprtation, certains logiciels donnent la possibilit de pratiquer une rotation des axes factoriels (module VARIMAX par exemple) qui, tout en restant orthogonaux, maximisent les valeurs de quelques lments et minimisent tous les autres. Ces rotations posant des problmes thoriques et numriques doivent tre considres avec grande prudence : on peut la rigueur les pratiquer si les % de variance des quelques premiers axes sont trs voisins. Enfin, lACP (et lanalyse statistique en gnral) est non un substitut la culture disciplinaire mais au contraire un moyen de la valoriser : sans comprhension et connaissance gographique, quelle interprtation gographique pertinente faire des rsultats de lanalyse ? LACP (comme toute analyse mene rigoureusement) est un antidconnomtre , vitant le verbiage invalidable dune gographie gazeuse .

B) EXERCICES CORRIGES

Exercice 1
Le tableau 2.15 fournit, pour 15 pays dAfrique de louest, 5 variables dmographiques (esprance de vie masculine la naissance, taux de natalit, de mortalit, de mortalit infantile, indice conjoncturel de fcondit), 1 variable sociale (PNB/habitant) et 1 variable sanitaire (VIH% : proportion des 15-54 ans atteint pas le virus du SIDA).
espvieH PNB/h VIH% Natalit Mortalit mort_infant Fecondit 49 920 2.5 45 15 94 6.3 47 960 6.4 47 17 105 6.8 45 1540 10.8 36 16 112 5.2 51 1550 2 43 14 82 5.9 56 1850 3.6 32 10 56 4.3 43 1870 1.5 41 19 98 5.5 44 630 2.5 42 20 131 5.8 49 45 49 41 52 51 42 53 1500 740 1550 740 770 1400 440 1380 2.8 2 1.5 1.4 5.1 1.8 3 6 49 50 43 53 41 41 47 40 17 20 15 24 14 13 20 11 139 123 106 123 75 68 153 80 6.6 7 6 7.5 5.8 5.7 6.3 5.8

Bnin Burkina Cote d'Ivoire Gambie Ghana Guine Guine-Bissau Liberia Mali Mauritanie Niger Nigeria Sngal Sierra Leone Togo

(source : ONU, 2001)

Tableau 2.15 : 7 variables pour 15 pays ouest africains - Aides linterprtation de lACP

moyenne Ecart type Coef de variation

espvieH 47.80 4.39 0.092

PNB/h 1189 466 0.392

VIH% 3.527 2.578 0.731

Natalit 43.33 5.42 0.125

Mortalit 16.333 3.792 0.232

mort_infant 103.00 27.73 0.269

Fecondit 6.033 0.775 0.128

Tableau 2.16 : paramtres rsumant les 7 distributions

r espvieH PNB/h VIH% Natalit Mortalit mort_infant Fcondit

espvieH 1.00

PNB/h VIH% Natalit Mortalit mort_infant 0.48 1.00 0.11 0.08 1.00 -0.58 -0.59 -0.42 1.00 -0.94 -0.57 -0.28 0.73 1.00 -0.80 -0.53 -0.08 0.65 0.80 1.00

Fecondit -0.55 -0.62 -0.29 0.98 0.69 0.59 1.00

Tableau 2.17: matrice de corrlations entre variables

- % de variance:

axe F1=64%, axe F2=16%, axe F3=10%

- aides linterprtation
r espvieH PNB/h VIH% Natalit Mortalit mort_infant Fecondit F1 -0.84 -0.71 -0.32 0.90 0.93 0.84 0.87 F2 -0.33 -0.11 0.86 -0.29 0.13 0.31 -0.22 F3 -0.37 0.50 -0.33 -0.20 0.27 0.17 -0.32

Tableau 2.18 : corrlations variables-axes factoriels


Bnin Burkina Cote d'Ivoire Gambie Ghana Guine Guine-Bissau Liberia Mali Mauritanie Niger Nigeria Sngal Sierra Leone Togo F1 0.14 0.90 -1.41 -1.17 -4.61 -0.17 1.46 1.09 2.51 -0.42 3.92 -1.19 -1.65 2.77 -2.17 QR 0.02 0.25 0.15 0.52 0.96 0.01 0.45 0.28 0.94 0.11 0.93 0.35 0.65 0.78 0.78 CTR 0.00 0.18 0.44 0.31 4.75 0.01 0.48 0.27 1.41 0.04 3.43 0.32 0.61 1.71 1.05 F2 -0.67 0.69 3.22 -1.07 -0.37 -0.16 0.64 -0.45 -0.48 -0.82 -0.55 0.11 -1.13 0.83 0.20 QR CTR 0.41 0.41 0.15 0.43 0.81 9.48 0.44 1.05 0.01 0.12 0.00 0.02 0.09 0.37 0.05 0.18 0.03 0.21 0.44 0.62 0.02 0.27 0.00 0.01 0.30 1.16 0.07 0.63 0.01 0.04 F3 -0.70 -1.13 0.40 0.10 0.48 2.24 0.52 0.19 -0.37 0.60 0.09 -1.40 -0.07 0.09 -1.03 QR 0.45 0.40 0.01 0.00 0.01 0.91 0.06 0.01 0.02 0.23 0.00 0.49 0.00 0.00 0.17 CTR 0.67 1.73 0.22 0.01 0.31 6.83 0.36 0.05 0.19 0.48 0.01 2.68 0.01 0.01 1.44

Tableau 2.19 : Coordonnes, Qualit de reprsentation et Contribution sur F1,F2,F3

Questions
1) 2) 3) 4) 5) Quelles sont les hypothses justifiant la construction du tableau 2.16 ? Quelles sont, dans les 15 pays ouest africains, les distributions les plus variables ? Commentez les corrlations entre les 7 distributions (tab. 2.18) Interprtez les 3 premiers axes factoriels Construisez, sur le plan des axes 1 et 2, une typologie et cartographiez la

Ebauches de rponses
Question 1 Le tableau 2.15 a t constitu pour rpondre principalement 3 questions : A quel niveau (diffrent) de transition dmographique en sont ces quinze pays en voie de dveloppement ? Y a til entre eux un fort diffrentiel ? On prsume un fort lien des rgimes dmographiques avec le revenu moyen dans ces pays : sur quelles variables joue til le plus ? le moins ? On sait lAfrique (australe surtout, il est vrai) trs touche par le virus du SIDA et disposant de faibles moyens mdicaux pour le combattre : cela se lit il dj sur les mortalits et esprances de vie ?

Question 2

Pour rpondre cette question, on doit considrer dans le tableau 2.16b non pas les carts type (car les units des variables sont fort diverses) mais les coefficients de variation (/m) qui traduisent des variabilits rapportes aux moyennes. Il est clair, alors, que la plus grande diffrence entre les 15 pays est celle des % de personnes atteintes de SIDA (taux trs fort en Cte dIvoire) et, secondairement, celle du revenu moyen par habitant. Par contre, il y a relative homognit dmographique (surtout faibles esprances de vie). Question 3 Le graphe de corrlation (Fig. 2.5) prsente les plus fortes corrlations (ngatives et positives).

Figure 2.5: graphe des fortes corrlations correspondant au tableau 2.17 Les fortes corrlations concernent les 5 variables dmographiques.
-

La trs forte corrlation entre natalit et fcondit semble aller de soi mais, le taux de natalit tant fonction de la fcondit des femmes et de la pyramide des ges de la population, cest parce que ces 15 pays ont tous une structure dge jeune que la corrlation est si forte, La trs forte corrlation entre taux de mortalits gnrale et infantile traduit surtout la faiblesse du systme sanitaire dans certains des 15 pays, La forte corrlation entre taux de natalit et de mortalit (relative proportionnalit entre eux) traduit la plus ou moins grande avance des 15 pays vers la transition dmographique, de pays o elle est peine entame (trs fortes natalit et mortalit, comme au Niger ou au Mali) ceux o elle est en cours (Ghana, par exemple o les deux taux sont relativement bas). Les trs fortes corrlations ngatives entre mortalits gnrale et infantile dune part, esprance de vie masculine de lautre est logique.

On est surpris de : labsence de corrlation notable entre proportion de personnes atteintes du SIDA et variables dmographiques (essentiellement mortalit et esprance de vie) : il est vrai quun seul pays, la Cte dIvoire, a un VIH% trs important, la relative faiblesse des corrlations inverses entre PNB/habitant et variables dmographiques (de 0.48 0.62 soit de 23% 38% seulement de variance explique) : le PNB/hb nest pas la mesure idoine des niveaux de vie du plus grand nombre dans les 15 pays considrs et le niveau de vie nest pas le seul ingrdient des comportements dmographiques et des structures dge qui en rsultent.

Question 4

Interprtation des axes factoriels Le nombre de pays et de variables tant petit, on peut se passer de construire scalogrammes et cercles de corrlation en consultant, pour chaque axe dans les tableaux 2.18 et 2.19, variables corrlation notable, pays coordonnes fortes en valeur absolue avec bonne qualit de reprsentation et contribution la variance point trop faible. Laxe factoriel 1 reprsente presque les 2/3 de linformation du tableau 2.15 (64%). Il oppose, en ngatif (mais le signe ne signifie rien en analyse factorielle) pays esprance de vie et PNB/hb relativement forts (Ghana, Togo, Sngal) et pays fortes mortalits, natalit et fcondit (Niger, Sierra Leone, Mali, Guine Bissau). Ce 1er axe est donc clairement un axe opposant relatif dveloppement dmographique et conomique dune part, tout dbut dvolution vers la transition dmographique de lautre. Laxe 2 (seulement 1/6 de linformation du tableau 2.15 et 4 fois moins que laxe 1) est fond sur les rsidus non pris en compte par laxe 1 : il met surtout en vidence la variable virus du SIDA et des pays, fort atteint comme la Cte dIvoire ou faiblement comme Sngal et Gambie. Laxe 3 (10% de linformation) fond sur des rsidus de rsidus insiste donc sur un pays mal reprsent par les deux premiers axes , la Guine marque par un assez fort PNB/hb.

Question 5 1) Typologie sur le plan des axes F1-F2 et cartographie

Figure 2.6: projection des pays sur le plan F1-F2 et vecteurs de corrlation des variables Deux pays apparaissent trs particuliers : la Cte dIvoire ( cause de sa proportion datteints du virus du SIDA) et le Ghana (pour son niveau relativement lev de dveloppement, dmographique et conomique). Deux classes se diffrencient : - La classe A, globalement caractrise par des paramtres dmographiques plus avancs vers la transition dmographique et le dveloppement,

La classe B, globalement caractrise par une dmographie encore largement archaque et un moindre dveloppement.

La carte correspondant cette typologie est prsente Figure 2.7.

Figure 2.7: cartographie correspondant aux 4 classes de la figure 2.8 La figure 2.8 reprsente les carts la moyenne des 4 classes pour les 7 variables .

Figure 2.8: carts aux moyennes des 15 pays pour les 7 variables du tableau 2.15 2) En guise de conclusion : Revenons aux questions initialement poses : Oui il existe en Afrique de louest un assez fort diffrentiel dans lvolution dmographique des pays, de ceux trs fortes fcondit, natalit, mortalit (comme le Niger ou le Mali) ceux o elles ont dj notablement volu (Ghana, Nigeria, Sngal par exemple). Le lien entre PNB/hb et rgime dmographique nest pas absent (corrlations de moyenne intensit) mais il nest pas totalement explicatif (aussi parce que le PNB/hb nest sans doute pas une bonne mesure du revenu moyen et de sa distribution). Un seul pays, la Cte dIvoire, affiche un trs fort taux dadultes atteints du virus du SIDA et il est difficile de savoir, macro-chelle, son rle dans les mortalits (que seraient elles en Cte dIvoire sans cette forte atteinte ?).

Exercice 2
Ce 2nd exercice propose des variables simples de dynamique dmographique : taux de croissances naturelle ((naissances - dcs)/population) et migratoire ((immigrants - migrants)/population) pour 6 priodes intercensitaires de 1954 1999. Comme ces priodes sont de dures ingales, ces taux sont ramens des taux annuels (exprims en % par an). Dans le tableau 2.20, les variables, en colonne, sont repres par deux caractres : le 1er repre le type de croissance (N pour naturelle, M pour migratoire) et le 2nd la priode (1 : 1954-62, 2 : 1962-68, 3 : 1968-75, 4 : 1975-82, 5 : 1982-90, 6 : 1990-99). Les lignes du tableau sont relatives aux 6 dpartements de la rgion Provence-Alpes-Cte dAzur et aux 8 de la rgion Rhne-Alpes. Chaque dpartement est identifi par son numro minralogique.
N1 01 : Ain 04 : Alpes de Hte Provence 05 : Hautes Alpes 06 : Alpes Maritimes 07 : Ardche 13 : Bouches du Rhne 26 : Drme 38 : Isre 42 : Loire 69 : Rhne 73 : Savoie 74 : Hte Savoie 83 : Var 84 : Vaucluse 0.5 0.5 0.6 0.0 0.3 0.6 0.7 0.8 0.6 0.9 0.7 0.9 0.5 0.7 M1 0.9 1.7 0.2 2.6 0.2 2.1 1.3 1.3 0.0 1.1 0.7 1.4 2.4 1.9 N2 0.4 0.2 0.6 0.0 0.6 0.5 0.7 0.5 0.6 0.7 0.8 0.5 0.5 M2 0.1 1.0 0.0 2.4 1.7 0.8 1.2 0.2 1.4 0.1 1.0 1.8 1.2 N3 0.4 0.2 0.4 -0.2 0.5 0.5 0.8 0.8 0.5 0.8 0.3 0.5 M3 1.0 0.5 N4 0.5 0.2 M4 1.1 1.0 0.9 1.3 0.7 0.5 0.7 0.6 -0.4 -0.5 0.5 0.8 1.7 1.0 N5 0.4 0.1 0.3 -0.1 0.0 0.4 0.4 0.6 0.3 0.7 0.4 0.7 0.2 0.4 M5 1.0 1.1 0.6 1.3 0.4 -0.1 0.3 0.4 -0.2 -0.2 0.5 1.1 1.6 0.7 N6 0.5 0.0 0.2 -0.1 0.0 0.3 0.4 0.6 0.2 0.7 0.4 0.7 0.1 0.3 M6 0.6 0.7 0.6 0.5 0.3 0.2 0.3 0.3 -0.5 -0.2 0.4 0.5 1.0 0.4

0.8 -0.1 1.9 -0.2 1.1 0.2 0.9 0.3 0.2 1.7 1.5 0.9 0.3 0.3 0.6 0.3 0.7 0.4 0.6 0.1 0.3

0.2 -0.3

0.2 -0.2 -0.1

0.5 -0.1

(source : INSEE)

Tableau 2.20 : Crots naturels et migratoires des dpartements du Sud Est de 1954 1999 Mye Ect

Moyennes et carts type


N1 0.59 0.24 N2 0.49 0.22 N3 0.44 0.27 N4 0.28 0.28 N5 0.34 0.24 N6 0.31 0.26 M1 1.27 0.82 M2 0.90 0.79 M3 0.76 0.65 M4 0.71 0.59 M5 0.61 0.56 M6 0.36 0.37

Tableau 2.21 : moyennes et carts type des taux de crot naturel et migratoire N1 M1 N2 M2 N3 M3 N4 M4 N5 M5 N6 M6

Aides linterprtation
N1 1.00 M1 -0.24 1.00 N2 0.89 -0.23 1.00 M2 -0.16 0.91 -0.16 1.00 N3 0.96 -0.29 0.90 -0.16 1.00 M3 -0.21 0.80 -0.08 0.73 -0.21 1.00 N4 0.86 -0.23 0.83 -0.11 0.92 -0.08 1.00 M4 -0.48 0.55 -0.34 0.26 -0.54 0.63 -0.50 1.00 N5 0.94 -0.14 0.88 -0.03 0.96 -0.03 0.97 -0.47 1.00 M5 -0.41 0.51 -0.33 0.28 -0.49 0.70 -0.41 0.89 -0.38 1.00 N6 0.86 -0.12 0.81 -0.03 0.91 0.02 0.98 -0.42 0.98 -0.33 1.00 M6 -0.29 0.46 -0.20 0.16 -0.40 0.56 -0.38 0.93 -0.32 0.89 -0.29 1.00

Tableau 2.22: Inter-corrlations (en gras si |r| >0.6) des variables du tableau 2.22

F1 55.7%

F2 26.5%

F3 11.5%

F1+F2+F3 93.7%

Tableau 2.23 : % de variance des 3 premiers axes de lACP


N1 axe 1 axe 2 axe 3 0.89 0.31 -0.11 M1 -0.50 0.71 0.37 N2 0.82 0.37 -0.19 M2 -0.33 0.63 0.58 N3 0.94 0.28 -0.06 M3 -0.44 0.82 0.12 N4 0.90 0.35 -0.03 M4 -0.75 0.46 -0.35 N5 0.89 0.44 -0.02 M5 -0.7 0.52 -0.34 N6 0.85 0.46 -0.02 M6 -0.62 0.51 -0.47

Tableau 2.24 : Corrlations des 12 variables avec les 3 premiers axes de lACP
axe 1 01 04 05 06 07 13 26 38 42 69 73 74 83 84 -0.13 -2.95 0.06 -5.95 -1.82 0.58 0.82 2.46 2.14 4.23 1.47 2.22 -3.09 -0.05 axe 2 0.39 -0.38 -1.02 0.42 -3.59 0.64 -0.43 1.42 -3.33 0.05 -0.64 3.04 2.39 1.04 axe 3 -1.42 -0.25 -1.71 1.97 -0.88 1.79 0.05 0.14 1.02 1.75 -1.12 -0.87 -0.61 0.14 QR1 0.00 0.87 0.00 0.88 0.19 0.07 0.42 0.73 0.26 0.83 0.51 0.31 0.58 0.00 QR2 0.03 0.01 0.23 0.00 0.75 0.08 0.11 0.24 0.63 0.00 0.09 0.59 0.35 0.71 QR3 0.46 0.01 0.65 0.10 0.05 0.63 0.00 0.00 0.06 0.14 0.29 0.05 0.02 0.01 QR1+QR2+QR3 0.50 0.89 0.88 0.98 0.99 0.77 0.54 0.98 0.96 0.97 0.90 0.95 0.96 0.72

Tableau 2.25 : Coordonnes et qualit de reprsentation sur les 3 premiers axes de lACP

Questions
1) Quel est le type de ce tableau ? Pourquoi peut on le rsumer par une ACP ? Pourquoi ny avoir pas fait figurer les taux de croissance (naturelle + migratoire) ? 2) Commentez tableau de donnes, moyennes et carts type des taux de croissance 3) Construisez et commentez le graphe des inter-corrlations des variables 4) Interprtez les trois premiers axes factoriels 5) Faites une typologie des 14 dpartements et la carte thmatique correspondante

Corrig suggr
Question 1 On a affaire ici 12 variables quantitatives continues : on peut donc les rsumer par ACP Ce sont des taux issus de la division de variables de comptage (naissances, dcs, immigrants, migrants, population). Ces taux sont relatifs des dpartements, qui sont des units statistiques secondaires (agrgats de personnes). Le tableau lui mme est une matrice spatio-chronologique comportant 2 caractres (croissance naturelle, croissance migratoire) connus pour 6 priodes. Ajouter pour chaque priode les taux de croissance totale (=croissance naturelle + croissance migratoire) aurait ajout, chaque priode, un caractre parfaitement co-linaire avec les deux autres (strictement gal leur somme), ce qui aurait cre des corrlations artificielles et aurait donc biais lanalyse. LACP pratique ici est une ACP sur variables standardises (centres-rduites) car on sintresse aux taux de croissance non pas absolus mais comparativement ceux des autres

dpartements chaque priode. Les informations relatives aux diffrences chronologiques de taux de croissance doivent donc tre commentes avant lACP, qui effacera leurs effets. Question 2 Puisque lACP centre-rduite fera disparatre les ordres de grandeur des taux eux mmes, il est utile de commenter le tableau des donnes initiales. Globalement, les deux rgions Provence-Alpes-Cte dAzur et Rhne-Alpes ont t parmi les rgions franaises les plus favorises, en termes de croissance dmographique, au cours des 50 dernires annes, mais avec de notables diffrences internes. Si lon sintresse tout dabord au tableau 2.21 (moyennes et carts type des taux dpartementaux), on observe quen 45 ans, de 1954 1962 : Les taux de croissance naturelle ont baiss denviron la moiti (de 0.59% 0.31% par an), ce qui est conforme ce que lon sait par ailleurs de lvolution de la dmographie franaise. Les annes 1970 ont t le moment dune chute relativement brutale. La variabilit (carts type) interdpartementale de ces taux est reste, sur les 45 ans, peu prs constante et relativement faible mais comme les taux eux mmes ont beaucoup baiss, lcart relatif entre dpartements sest accru (sans quon puisse calculer de coefficients de variation car certains taux sont ngatifs). Les taux de croissance migratoire, suprieurs toute priode aux taux de croissance naturelle (mais de moins en moins), ont eux beaucoup baiss. Ils reprsentent aujourdhui moins du tiers de ce quils taient dans les annes 1950 et leur diminution brutale des annes 1990, est sans doute signe dune baisse globale dattractivit. La variabilit inter dpartementale des taux de croissance migratoire a diminu, mais moins que leur moyenne, ce qui implique un accroissement relatif des diffrences.

Commenter moyennes et carts type permet de caractriser la chronologie mais non la diffrenciation spatiale ; pour ce faire, on peut constituer, par calcul, les donnes du tableau 2.26.
Dpts Crot total Crot natu- Crot migraNaturel / Migraen 45ans rel toire toire 30.1% 75.0% 22.6% 52.4% 01 48.2% 46.7% 96.2% 14.3% 79.6% 60.5% 90.0% 9.4% 57.4% 51.3% 124.6% 135.2% 90.4% 6.9% 18.2% -4.4% 4.3% 22.0% 23.2% 35.7% 19.1% 39.1% 25.7% 39.8% 13.0% 22.1% 41.3% 28.5% 100.6% 10.0% 57.6% 37.3% 54.3% -9.7% 18.3% 25.6% 84.8% 122.2% 68.3% 14.3% 39.0% -4.6% 30.1% 27.6% 38.3% 39.7% 203.2% 68.1% 50.1% 31.9% 9.6% 24.5%

04 05 06 07 13 26 38 42 69 73 74 83 84

Tableau 2.26 : Croissances naturelle et migratoire 1954-99

Quelques remarques dabord sur la constitution de ce tableau : Les taux du tableau initial ayant t fortement arrondis ( 1 chiffre aprs la virgule), nous navons l que des valeurs globales approximes, Le calcul des taux de croissance sur les 45 ans a t effectu de faon multiplicative (et non additive, comme le font la plupart des tudiants) et en tenant compte de lingale dure des priodes intercensitaires (8, 6, 7, 7, 8 et 9 ans). Aux approximations darrondi prs, les taux rsultants sont donc exacts.

Au vu du tableau 2.26, 4 grands groupes peuvent tre distingus : Un groupe de dpartements mditerranens croissance dmographique forte, essentiellement due aux soldes migratoires (Var, Alpes Maritimes, Vaucluse et, dans une moindre mesure, Bouches du Rhne), Un groupe de dpartements situs lEst de Lyon, croissances migratoire et naturelle assez quilibre (Haute Savoie, Isre, Ain, Drme) ; le cas du dpartement du Rhne est assez particulier car une bonne partie de la croissance priurbaine de lagglomration lyonnaise sest faite sur lIsre et lAin. Un groupe de dpartements alpin rural sans grande ville , croissance modre, comprenant Alpes de Haute Provence, Hautes Alpes ( volution plutt mditerranenne ) et Savoie ( volution plutt de type Est lyonnais ), Les deux dpartements du rebord du Massif Central (Loire et Ardche) ont connu une croissance trs faible avec des soldes migratoires parfois dficitaires et des soldes naturels trs faibles, voire nuls.

Le tableau de donnes initiales (Tableau 2.20) tant relativement petit, son interprtation directe tait possible : sera telle confirme par les aides linterprtation de lACP ? Question 3 Le tableau des inter-corrlations entre les 12 variables peut tre simplifi et reprsent sous forme de graphe (Figure 2.9).

Figure 2.9 : graphe des corrlations principales du tableau 2.22

Le graphe de la figure 2.9 prsente clairement deux sous graphes : Le 1er, trs fortement interconnect (r>0.8 r>64%), concerne tous les taux de croissance naturelle, toutes les priodes, ce qui signifie que sur 45 ans ce sont pratiquement toujours les mmes dpartements qui ont eu les taux relativement les plus forts (et les mmes qui ont eu les taux les plus faibles). La croissance naturelle a, dans lespace gographique lchelle dpartementale, une grande rmanence car elle dpend en grande partie des structures dge, jeunes ou vieillies. Le 2nd sous graphe est, lui, bien moins interconnect et on peut le subdiviser en deux priodes. La 1re va jusquau dbut des annes 1970 (corrlation forte entre 1954-62 et 1962-68 puis plus faible avec 1968-75) : elle correspond la toute fin de lre de lexode rural. La 2nde priode va des annes 1970 la fin du sicle et marque une certaine rupture dans les cartes de croissance migratoire. Les flux ont t partiellement rorients vers des dpartements espaces priurbains (le cas du Rhne est cet gard significatif) et ruraux sans grande ville (voir lexemple des hautes Alpes). Les croissances migratoires sont donc chronologiquement plus transitoires et phmres que les croissances naturelles puisquelles dpendent davantage de facteurs lis la conjoncture conomique et des modifications sociales. Normalement, les dpartements fort solde migratoire positif en dbut de priode (portant gnralement sur les 20-50 ans, sauf migrations de retraite mditerranenne) auraient d voir leurs structures dge rajeunies et donc avoir des soldes naturels redresss en fin de priode. Quen est il exactement ? Cela se marque til par des corrlations notables entre N1 et N2 avec M5 et M6 ? Cela nest pas le cas gnral dans la mesure o ces inter-corrlations sont ngatives et faibles. Le raisonnement vaut sans doute pour des espaces plus restreints que des dpartements, sur des zones trs fortement priurbanises et, peut tre, pour des dures plus longues que le demi sicle.

Question 4 Laxe factoriel 1 contient 55.7% de linformation initiale, laxe 2 26.5% (82.2% dinformation sur les 2 premiers axes),laxe 3 11.5% (93.7% dinformation sur les 3 premiers axes). LACP a donc pris en compte presque toute la variance du nuage de points (12-dmensionnel) dans un cube (de dimension 3) : le rsum est donc drastique et ceci est d aux nombreuses fortes corrlations du tableau 2.23. Il est donc temps dinterprter chaque axe.

Interprtation de laxe 1

Figure 2.10 : Variables et dpartements sur laxe factoriel 1 Si lon se reporte au tableaux des corrlations des 12 variables avec laxe 1 et la figure 2.10, on voit que cet axe oppose tous les taux de croissance naturelle ceux de croissance migratoire et, principalement ceux daprs 1975. Cela confirme lobservation faite sur le graphe dinter-corrlations des variables. Cet axe opposera donc des dpartements fort solde migratoire faible solde naturel des dpartements fort solde naturel faible solde migratoire : lopposition principale, si lon considre aussi les bonnes qualits de reprsentation, est entre Alpes maritimes, Alpes de Haute Provence, Var dune part, Rhne et Isre de lautre. Interprtation de laxe 2

Figure 2.11 : Variables et dpartements sur laxe factoriel 2 Toutes les corrlations des variables avec laxe 2 sont positives (laxe 2 est unijambiste ) mais de faon ingale : les plus fortes corrlations concernent les soldes migratoires, principalement ceux davant 1975 qui taient peu apparus sur le 1er axe. Les coordonnes et les qualits de reprsentation des dpartements sur cet axe sont moins fortes, ce qui est normal puisquon a affaire des rsidus du 1er axe. Nanmoins, cet axe oppose assez clairement des dpartements forte croissance migratoire (surtout davant 1975) comme la Haute Savoie, le Vaucluse des dpartements sans croissance migratoire comme lArdche et la Loire.

Interprtation de laxe 3

Figure 2.12: Variables et dpartements sur laxe factoriel 3 Cet axe oppose les croissances migratoires davant 1968 celles daprs 1982, la priode intermdiaire tant de transition entre deux systmes migratoires. Il oppose donc Bouches du Rhne et Rhne, croissance migratoire ancienne Ain et Hautes Alpes, croissance migratoire rcente. En rsum, laxe 1 est laxe des croissances naturelles, laxe 2 (moiti moins informatif) celui des croissances migratoires, surtout rcentes, laxe 3, quant lui, oppose croissances migratoires rcentes et anciennes. Reprsentations synthtiques des 3 axes

Figure 2.13: Cercle des corrlations sur le plan des axes 1 et 2 (axe 3 : encadrs)

Le cercle des corrlations met bien en vidence lopposition croissances naturelles et croissances migratoires rcentes sur laxe 1 (abcisses), le rle des croissances migratoires anciennes sur laxe 2 (ordonnes), lopposition des 2 priodes de croissance migratoire sur laxe 3 (encadr rouge pour les coordonnes les plus positives, bleu pour les plus ngatives).

Figure 2.14 : Coordonnes des dpartements sur le plan des axes 1 et 2 La figure 2.14 permet de faire une typologie empirique des dpartements en 4 classes : Classe A : dpartements taux de croissances naturelle faible et migratoire forte : Alpes maritimes, Var, Alpes de Haute Provence, Classe B : dpartements fort taux de croissance naturelle : Haute Savoie, Isre, Rhne, Classe C : dpartements taux de croissances naturelle et migratoire faibles : Loire, Ardche, Classe D : tous les autres dpartements, volution peu marque (moyenne) ou mal reprsente par lACP (cas de la Drme et de lAin).

Cette typologie constitue la lgende dune carte thmatique multivarie (Figure 2.15).

Figure 2.15 : Carte thmatique issue des axes 1 et 2 de lACP

Chapitre 3

Lanalyse factorielle des correspondances (AFC)


A) CONNAISSANCES DE BASE
Lanalyse factorielle des correspondances (AFC) est une analyse factorielle adapte dautres formes de tableaux que lanalyse en composantes principales : elle permet, notamment, de rsumer des caractres qualitatifs (mais pas seulement).

1. Types de tableaux pour lAFC


La forme prototypale est le tableau de contingence. 1.1 Tableau de contingence Un tableau de contingence est lexpression dune distribution bivarie connue par classes, croisant les modalits qualitatives ou les classes de valeurs quantitatives de deux caractres, lun en ligne, lautre en colonne. Chacune des cases ij du tableau contient leffectif correspondant la modalit i du caractre en ligne et la modalit j du caractre en colonne. - Exemple Une enqute de 1995 auprs dun chantillon reprsentatif de 1015 exploitants agricoles franais a permis de relever leur revenu mensuel et leur ge, caractres quantitatifs prsents en classes et croiss dans le tableau 3.1.
revenu <8 mFF 8-9 mff 9-10 m FF 10-15 m FF plus tout revenu < 40 ans 143 237 58 31 10 479 >= 40 ans 32 160 165 109 70 536 tout ge 175 397 223 140 80 1015

(source : AGREST, 1995)

Tableau 3.1 : Revenu mensuel (en milliers de FF) dexploitants agricoles selon lge On a bien l un tableau de contingence car : - il croise 2 caractres connus par classes, - chaque case contient leffectif correspondant une classe de revenus et une classe dges, - laddition des effectifs en ligne a un sens : elle fournit la distribution univarie du revenu (quel que soit lge), - laddition des effectifs en colonne a un sens : elle fournit la distribution univarie par ge (quel que soit le revenu),

les effectifs concernent ici des personnes (units statistiques primaires) mais pourraient, dans dautres cas, concerner des units statistiques secondaires (comme des agglomrations), Le tableau 3.1 est foncirement symtrique : caractres en ligne et en colonne peuvent tre permuts et jouer le mme rle.

1.2 Extension de la notion de tableau de contingence On peut tendre la dfinition du tableau de contingence tout tableau : Symtrique, croisant 2 caractres jouant un rle quivalent (on peut donc les permuter) contenant des valeurs positives ou nulles pour le croisement de caractres o sommes en lignes et en colonnes ont un sens.

Cest le cas par exemple de tableaux de notes pour des lves ou de tableaux de dpenses de mnages par poste de dpense. Tous ces tableaux relvent de lAFC. 1.3 Notations de base On utilise la notation classique pour les tableaux de contingence (et le test du Khi). Le tableau de donnes initial D sera donc appel ici N.

Tableau 3.2 : Notations de base Le tableau 3.2 contient 4 types dinformation : distribution bivarie croisant I et J, distribution univarie de I, distribution univarie de J, effectif total. - Valeurs des 4 parties du tableau

Nij repre la valeur correspondant la case ligne i - colonne j du tableau (ainsi N32=165 dans le tableau 3.1), - Ni. la somme des valeurs dune ligne, le . signifie pour toutes ses colonnes (N5.=80 dans cet exemple), - N.j la somme des valeurs dune colonne, pour toutes ses lignes (N.2=536), - N.. la somme totale des valeurs du tableau, somme des Ni. ou des N.j (N..=1015).
-

- Frquences correspondantes

- fij = Nij / N.. frquence par rapport au total (f32 = 165 / 1015 = 0.163) - fi. = Ni. / N.. frquence de la somme des valeurs ligne i (f4. = 140 / 1015 = 0.138) - f.j = N.j / N.. frquence de la somme des valeurs colonne j (f.2=536/1015=0.528)
- Frquences conditionnelles -

fij/i = Nij / Ni. frquence en proportion du total de ligne i (f32/3=165/223=0.740,


signifie que par rapport au total de la ligne 3, l case 3-2 reprsente 74.0%) fij/j = Nij / N.j frquence en proportion du total de colonne j (f41=31/479=0.065, signifie que par rapport au total de la colonne 1, la case 4-1 reprsente 6.5%).

2. Diffrences de lAFC par rapport lACP


LAFC est, comme lACP, une analyse factorielle (cf chapitre 1.1) dont les objectifs gnraux sont les mmes: - Rsumer linformation contenue dans de grands tableaux numriques, - A partir dune reprsentation sous forme de nuage de points multidimensionnel, induire des rsums descriptifs hirarchiss (axes factoriels), - Leur donner une signification grce des aides linterprtation. Comme lACP, on peut en faire un expos gomtrique, algbrique, informatique et/ou informationnel. Mais lAFC porte sur un autre type de tableaux : symtrie et non dissymtrie des lignes et colonnes (ici, on croise 2 caractres connus par classes au lieu de juxtaposer des variables pour des individus), possibilit de variables qualitatives et non obligation de variables quantitatives.

En outre, quand il est possible de pratiquer les deux types danalyse factorielle, les buts ne sont pas les mmes car, en AFC, on ne corrle pas des valeurs mais on compare des profils en lignes et en colonnes. Nonobstant ces diffrences, la dmarche gnrale est la mme et, notamment, les trois modules de lalgorithme sont comparables. 2.1 Transformation des donnes et calcul des covariances 2.1.1 Transformation du tableau de donnes Puisque les tableaux pour lAFC sont fondamentalement symtriques, lignes et colonnes peuvent tre permutes ( transposition du tableau D de donnes) avec des rsultats identiques. Lanalyse procde de mme sur les unes ou les autres : ce qui va tre dtaill pour une AFC en colonnes peut tre transpos pour une AFC en lignes (les logiciels choisissent lune ou lautre de faon minimiser les calculs).

La procdure gnrale dcrite figure 1.4 est la mme : - passage du tableau de donnes D en un tableau transform D - puis calcul sur D dune matrice C de covariances mais la transformation de D en D est diffrente. Construction du nuage de points : transformation du tableau D de donnes

Pour une AFC sur les colonnes de D : & le poids dune ligne est gal fi. = Ni./N.., cest la frquence de la somme des valeurs de la ligne i sur leffectif total. La somme de tous les fi. = 1. & on transforme les valeurs de chaque ligne en proportion de leur total de ligne (frquences conditionnelles en ligne). Dij = fij/i= Dij / Di. les totaux en ligne deviennent ainsi tous gaux 1 et chaque ligne devient un profil en frquence (%) & La moyenne dune colonne j fait intervenir poids et frquences conditionnelles : cest une moyenne pondre par le poids des diffrentes lignes (en ACP, pas de pondration) : m j = f i . f ij / i
i =1 n

m j = f i . f ij / i
i =1

le centre de gravit G (pondr par les masses des lignes) du nuage des n points-ligne a pour coordonnes G = m1, m2, , mp si D a p colonnes et n lignes. & la variance dune colonne j est galement pondre par le poids des lignes (les fi.):
n n

2 = f i. ( f ij / i G j ) 2 = f i. ( f ij / i G j ) j j
i =1 i =1

la variance totale du nuage de points est la somme de ces variances par colonne. & Dans le nuage de n points construits pour reprsenter D, les axes dallongement sont construits par moindres carrs des points aux axes mais en utilisant une autre mtrique (mesure des distances). En ACP, on utilisait la mtrique euclidienne, en AFC puisquon traite de tableaux assimilables aux tableaux de contingence, on utilise la mtrique du Khi (celle quon utilise pour le test du mme nom). Pour faire intuiter la diffrence entre mtrique du Khi (utilise en AFC) et mtrique euclidienne (utilise en ACP), prenons un exemple dcole : considrons la rpartition en 3 secteurs dactivit (1re, 2re, 3re) de la population active de 3 communes (A, B, C) fournie par le tableau 3.3.
A B C Somme 1re 60 30 10 100 2re 120 60 20 200 3re 220 110 40 370 somme 400 200 70 670

Tableau 3.3 : Exemple dcole

Calcul des distances euclidiennes AB et AC Pour reproduire les conditions de lACP, nous standardisons les 3 variables (tableau 3.4)

secteur A B C

1re 1.30 -0.16 -1.14

2re 1.30 -0.16 -1.14

3re 1.30 -0.18 -1.12

Tableau 3.4 : Colonnes standardises du tableau 3.3 La distance euclidienne entre lignes i et k tant d ik =

(D
j =1

ij

Dkj ) , on calcule :

d AB = (1.30 + 0.16) + (1.30 + 0.16) + (1.30 + 0.18) = 2.54 d AC = (1.30 + 1.14) 2 + (1.30 + 1.14) 2 + (1.30 + 1.12) 2 =4.21

- remarques : . les 2 colonnes 1re et 2re, identiques une multiplication par 2 prs, ont les mmes valeurs standardises (ce qui est logique), . on voit de suite que la moyenne de colonnes standardises =0 (vous pouvez vrifier que leur cart type =1, aux arrondis de calcul prs), . les 2 communes A et B ont mme profil demploi, une multiplication par 2 prs ; leur distance euclidienne est cependant gale 2.54, ce qui signifie que cette mesure de diffrence est sensible aux effets de taille, mme sur variables standardises, . En revanche, la commune C a un profil demploi lgrement diffrent et une distance de 4.21 avec A. La mtrique euclidienne de lACP, sensible aux effets de taille, nest donc pas adapte la mesure de diffrences de profils (en ligne ou colonne). - Calcul des distances du Khi dAB et dAC Exprimons les effectifs du tableau 3.3 en proportion du total de chaque ligne (tableau 3.5) y compris la ligne ensemble (A+B+C).
A B C A+B+C 1re 0.150 0.150 0.143 0.149 2re 0.300 0.300 0.286 0.299 3re 0.550 0.550 0.571 0.552 somme 1.000 1.000 1.000 1.000

Tableau 3.5 : effectifs du tableau 3.3 en proportion du total de ligne La distance du Khi entre lignes i et k scrit d ik = On peut ainsi calculer : . d AB = . d AC =

f.j(f
j =1

ij / j

f kj / j )2

1 1 1 (0.15 0.15)2 + (0.30 0.30)2 + (0.55 0.55)2 = 0 0.149 0.299 0.552


1 1 1 (0.15 0.143) + (0.30 0.286) + (0.55 0.571) 0.149 0.299 0.552

d AC = 6.71 * 0.000049 + 3.34 * 0.000196 + 1.81 * 0.000441 = 0.0422 - remarques : & la diffrence entre les profils demploi des communes A et B est nulle : leffet de taille des 2 communes a disparu (puisquon les a exprims en frquences du total de leur ligne). Leur distribution en frquences de ligne est identique : faire lAFC du tableau 3.3 en maintenant les lignes A et B distinctes ou en additionnant leurs effectifs en une ligne AB aboutit au mme rsultat. Cette proprit est appele quivalence distributionnelle de lAFC & dans le calcul de la diffrence de profils demploi entre communes A et C, la diffrence de frquences pour un secteur demploi pse dautant plus quil est plus rare : par exemple ici, le secteur 1re (14.9% de lemploi des 3 communes) pse 6.71, le 2re 3.34 (4.5 fois moins), le 3re 1.81 (8 fois moins). Cette pondration par linverse de la frquence de la somme en colonne en mtrique du Khi valorise les diffrences rares car une diffrence par rapport une modalit J peu frquente psera beaucoup plus dans la diffrence globale quune modalit J frquente. Toutes les formules donnes pour les profils en ligne valent pour les profils en colonne condition de permuter indices de lignes et de colonnes : grce la symtrie du rle des lignes et colonnes, les rsultats de lAFC seront identiques, quelle ait t ralise sur les lignes ou sur les colonnes du tableau N. 2.1.2 Calcul de la matrice de covariances La matrice C de covariances est calcule par le produit matriciel (les majuscules dsignent des matrices, Fij/i celle des frquences en ligne et Fij/j celle des frquences en colonne) C = Fij / i * Fij / j 2.2 Calcul des Vecteurs Propres et valeurs propres de C Cest sur cette matrice C que sont calculs Vecteurs Propres et valeurs propres (comme en ACP, cf chapitres 1 et 2), permettant la dtermination des aides linterprtation. 2.3 Aides linterprtation dune AFC 2.3.1 Gnralits Comme lignes et colonnes des tableaux de contingence jouent un rle interchangeable, les aides leur interprtation sont les mmes (coordonnes des projections, qualits de reprsentation, contributions relatives) : le graphique des axes et des plans factoriels font cohabiter (sans changement dchelle) points-ligne et points-colonne. En outre, en consquence de la mtrique du Khi, cette cohabitation a un sens : la proximit dun point-ligne i et dun point-colonne j signifie sur-reprsentation de la modalit j du caractre J dans la modalit i du caractre I et leur loignement signifie sous-reprsentation de lune par rapport lautre.

Lloignement dun point par rapport lorigine, sur un axe ou un plan factoriel, signifie cart lindpendance.

On peut dailleurs parfaitement interprter lAFC comme la dcomposition successive (par les vecteurs propres lignes et colonnes) des carts lindpendance dun calcul de Khi. 2.3.2 Exemple

Linterprtation dune AFC en est donc facilite. Pour le montrer, prenons lexemple du tableau 3.6.
50-70m Ns Franais Fr. par acquis. Italiens Espagnols Portugais Autre CEE Algriens Marocains Tunisiens Turcs Autres 714516 26872 4476 3000 8716 1892 5088 7140 1636 2296 5372 70-100m 100-150m 571788 27288 6360 4120 5460 3232 8648 5092 1956 2420 5840 727556 35152 11268 4272 8260 2212 9792 6628 1384 1816 7060 150-200m 626676 29272 3612 5936 3972 1692 6464 6136 792 1292 5516 200-300m 1037784 33888 4840 4264 12462 2752 8508 9364 1764 2116 11968 300-500m 1299808 74064 16460 4692 9240 8188 18652 11260 7504 3548 16680 500-2M 1822008 124756 18680 13076 17540 9540 39536 12536 12484 3056 23556 Paris 3096376 207072 27684 26140 100320 24180 83892 42884 24736 9780 130784

(source INSEE, RGP 1999)

Tableau 3.6 : Distribution des nationalits par taille de ville (en milliers) en1999 Ce tableau de contingence croise la nationalit des personnes rsidant en agglomrations franaises de plus de 50 000 habitants et la taille de celles ci au recensement de 1999. Le 1er axe factoriel prend en compte 80% de la variance du nuage de points, le 2nd 14% (94% de linformation du tableau 3.6 est donc rsum par 2 axes). Un rapide examen des premiers rsultats nous montre le poids exorbitant de Paris dans lAFC car, sans doute, la composition ethnique de sa population est fort diffrente de celle des autres agglomrations de 50 000 habitants ou plus. Lagglomration parisienne pse elle seule 1/3 de la population prise en compte, elle contribue (CTR) pour presque les 2/3 la dfinition dun 1er axe reprsentant 80% de la variance, la coordonne de sa projection sy oppose fortement celle de toutes les autres : ce 1er axe oppose donc nettement la composition ethnique de lagglomration parisienne celle de toutes les autres. Un second essai montre le poids exorbitant de la ligne Ns Franais : cette origine reprsente plus de 89% de la population prise en compte : ce poids dtermine fortement centre de gravit et variance du nuage de points. Pour y voir plus clair, supprimons la colonne Paris et la ligne Ns Franais . On focalise ainsi lattention sur la population dorigine trangre des agglomrations provinciales de plus de 50 000 habitants. Recommenons lanalyse sans cette ligne et cette colonne.

- % de variance pris en compte


% de variance % cumul Axe 1 54% Axe 2 18% 73% Axe 3 14% 86%

Tableau 3.7 : % de variance pris en compte par lAFC du tab. 3.6 Les deux premiers axes rsument presque les et les trois premiers presque les 9/10 de linformation du tableau 3.6 (sans ligne Paris et colonne Ns Franais ). - Aides linterprtation des colonnes Axe 1
poids 50-70m 70-100m 100-150m 150-200m 200-300m 300-500m 500m-2M 0.08 0.09 0.11 0.08 0.11 0.21 0.33

Axe 2

Axe 3

Coord CTR QR Coord CTR QR Coord CTR QR Somme F1 F1 F1 F2 F2 F2 F3 F3 F3 des QR 0.27 0.85 0.22 0.83 -0.02 0.00 0.01 -0.03 0.01 0.01 0.04 0.00 0.06 -0.04 0.01 0.06 0.08 0.07 0.25 0.36 0.13 0.08 0.03 0.14 -0.11 0.14 0.23 0.29 0.37 0.73 0.20 0.15 0.88 0.10 0.03 0.11 0.36 0.49 0.27 0.29 0.28 0.96 0.33 0.78 0.03 0.01 0.01 -0.13 0.28 0.17 0.81 -0.10 0.08 0.33 -0.12 0.32 0.47 -0.02 0.01 0.01 0.96 -0.15 0.31 0.78 0.06 0.16 0.13 -0.03 0.06 0.04

Tableau 3.8 : Aides linterprtation des colonnes du tab. 3.6 par lAFC - Aides linterprtation des lignes Axe 1
poids Fr/acquis. Italiens Espagnols Portugais Autre CEE Algriens Marocains Tunisiens Turcs Autres 0.43 0.08 0.05 0.08 0.04 0.12 0.07 0.03 0.02 0.09

Axe 2

Axe 3

Coord CTR QR Coord CTR QR Coord CTR QR Somme F1 F1 F1 F2 F2 F2 F3 F3 F3 des QR 0.81 -0.06 0.06 0.67 0.03 0.03 0.14 0.01 0.00 0.01 0.15 0.94 -0.04 0.01 0.03 -0.23 0.47 0.64 0.27 0.28 0.25 0.18 0.98 0.09 0.01 0.07 0.35 0.59 0.25 0.31 0.32 0.89 0.33 0.81 -0.01 0.00 0.00 -0.11 0.13 0.08 -0.12 0.02 0.25 -0.12 0.06 0.26 -0.05 0.01 0.04 0.55 0.80 -0.16 0.12 0.73 0.05 0.03 0.07 -0.01 0.00 0.00 0.30 0.92 0.24 0.92 -0.01 0.00 0.00 0.02 0.01 0.01 0.95 -0.33 0.14 0.73 -0.05 0.01 0.01 -0.18 0.17 0.21 0.28 0.06 0.50 -0.15 0.05 0.14 0.07 0.02 0.04 0.68 0.07 0.02 0.17 -0.01 0.00 0.00 -0.10 0.15 0.42 0.59

Tableau 3.9 : Aides linterprtation des lignes du tab. 3.6 par lAFC La Figure 3.1 reprsente les coordonnes des lignes et des colonnes sur les 3 premiers axes factoriels. La colonne Paris et la ligne Ns Franais y sont prsentes : elles ne sont pas intervenues dans les calculs mais ont t projetes a posteriori comme colonne et ligne supplmentaires sur chacun des axes (afin de tester leur comportement par rapport aux autres modalits sans que ne joue leur prpondrance dans lanalyse). - Scalogrammes des axes factoriels (figure 3.1) Sont graphiqus sur le scalogramme de chaque axe coordonnes des lignes et des colonnes, en vis vis, puisque la proximit de points ligne et colonne signifie sur-reprsentation et lloignement sous-reprsentation : cest l linformation essentielle de lAFC.

2.3.3 Interprtation des axes factoriels Elle doit tenir compte des scalogrammes (coordonnes sur chaque axe des modalits ligne et colonne) mais aussi des contributions (relatives car elles somment 1 pour chaque axe) et surtout des qualits de reprsentation (distance dun point sa projection sur laxe). Linformation essentielle est fournie par les coordonnes ( coord ) et, principalement par les plus fortes en valeur absolue. Le signe (+ ou -) affect alatoirement aux coordonnes ne signifie rien ; ce qui est signifiant, cest lopposition de modalits fortes coordonnes positives et ngatives car ce sont elles qui ont cre la direction de laxe. La lecture des contributions ( CTR ) indique si une modalit na pas pes de faon exagre sur la dfinition dun axe, auquel cas il convient de la retirer (ce que nous avons fait avec Paris et ns franais ) quitte la projeter en ligne ou colonne supplmentaire. Elles indiquent, a contrario, les modalits ayant trs faiblement particip la variance de laxe. Les qualits de reprsentation ( QR ) qui, logiquement, diminuent daxe en axe, sont surtout utiles pour les coordonnes proches de lorigine : si ces modalits sont bien reprsentes, elles ont rellement une valeur moyenne, sinon un axe ultrieur les reprsentera mieux. La somme des QR renseigne surtout sur les modalits mal prises en compte par lensemble des axes retenus. & Laxe 1(rsumant plus de la moiti de la variance) oppose : - les plus grandes agglomrations, sur-reprsentation des tunisiens et des algriens (ressortissants de la Communaut Europenne mal reprsents), - aux agglomrations moyennes et petites o portugais, marocains et turcs (moins bien pris en compte) sont sur-reprsents, - les franais par acquisition (de toute nationalit antrieure) sont bien pris en compte et ont une coordonne moyenne (plutt proche de celle des tunisiens et algriens), La logique de cette opposition tient sans doute : - lanciennet plus ou moins grande de leurs immigrations (vague migratoire algrienne et tunisienne plus ancienne que celle des portugais et marocains), - la rpartition des agglomrations dans lespace franais : plus lest pour les plus grandes (lest est plus proche de la Tunisie et de lAlgrie, louest est plus proche du Portugal et du Maroc). Les franais par acquisition sont assez bien rpartis mais avec une tendance voisine des migrations plus anciennes. & Laxe 2 (18% de la variance, soit 4/10 environ de la variance rsiduelle) oppose : - les agglomrations de 150 200 mille habitants o les espagnols sont plus nombreux quils seraient sil y avait indpendance entre cette nationalit et cette taille de villes, - aux autres agglomrations de taille moyenne (300-500 mille habitants) o les italiens sont sur-reprsents. Cet axe met en vidence une diffrence de distribution entre deux nationalits dancienne immigration (du moins la distribution de ceux rests de nationalit trangre). Lexplication tient sans doute la diffrence de rpartition sur le territoire franais des agglomrations (moyennes-petites et moyennes) en fonction de la proximit au pays dorigine (espagnols plus nombreux dans le sud ouest, italiens dans le sud est) : hypothse vrifier !

& Laxe 3 (encore 14% de la variance totale) oppose : - agglomrations de 100 200 mille habitants o espagnols et italiens sont surreprsents, - agglomrations de 200 300 mille habitants o ce sont les nationalits autres . La diffrenciation, mineure par rapport la prcdente, est nanmoins intressante : elle porte sur des agglomrations de taille moyenne et oppose des nationalits dancienne immigration (espagnols, italiens rests trangers) diffuses jusque dans les plus petites villes moyennes aux nationalits dimmigration trs rcente (Afrique, Asie) mieux reprsents dans de plus grandes villes (et surtout Paris, projet ici en modalit supplmentaire). & modalits mal reprsentes Il sagit surtout des agglomrations de 70 100 mille habitants , des turcs et des autres nationaux de la Communaut Europenne que les latins. Cela signifie probablement quils sont assez galement rpartis dans les villes de diffrentes tailles. 2.3.4 Typologie sur le plan des axes 1 et 2 (Figure 3.2)

Figure 3.2 : coordonnes sur le plan des axes 1 et 2 Marocains, Portugais et, dans une moindre mesure, Turcs sont sur-reprsents dans les villes de 50 70 mille et 200 300 mille habitants, Les espagnols dans celles de 150 200 mille, Les nationalits autres (essentiellement Afrique noire et Asie) dans celles de 70 150 mille habitants, Les italiens et les autres nationalits de la C.E. dans celles de 300 500 mille, Les Algriens et franais par acquisition dans les mtropoles, Les Tunisiens semblent surtout sous-reprsents dans les villes petites ou moyennes.

3. AFC sur tableaux de contingence plus de 2 caractres


Dans la pratique, il existe des tableaux deffectifs pour le croisement de plus de 2 caractres, leurs lignes et/ou leurs colonnes reprant alors la combinaison de modalits de caractres diffrents. Un 1er exemple est constitu dun tableau ayant en lignes des units spatiales (dpartements, rgions, agglomrations, zones demploi, ) et en colonnes des classes dge par sexe : faire lAFC dun tel tableau aboutit crer une typologie dunits spatiales en fonction de leurs pyramides dge. Dautres exemples peuvent tre fournis par des tableaux ayant en lignes des units spatiales et en colonnes les modalits dun caractre pour des dates ou des priodes diffrentes.

3.1 Exemple Le tableau 3.10, fabriqu partir dun S.I.G., croise pour le dpartement de la Savoie : - en ligne, la classe daltitude et le type dutilisation du sol, - en colonne, la classe de pente en degrs, - chaque case contient un nombre de pixels (carrs de 50*50 mtres au sol).
<1000-artificiel <1500-artificiel <2000-artficiel >=2000-artificiel <1000-agricole <1500-agricole <2000-agricole >=2000-agricole <1000-nature <1500-nature <2000-nature >=2000-nature code A B C D E F G H I J K L Pente 0-3 Pente 3-10 Pente10-20 Pente 20-35 Pente >=35 29825 24048 9322 2008 223 415 1942 2328 452 57 193 1075 1647 384 43 27 261 335 358 229 96869 116123 88654 26308 1628 997 2229017 28486 26347 1493 5994 3588 7390 5604 575 898 861 1613 2134 592 29800 32330 82459 133457 52190 3225 18960 71396 180514 72645 2387 19544 101355 223841 84178 5940 61243 221364 418133 201882

(sources : IGN, IFEN)

Tableau 3.10 : Tableau croisant pente, altitude, utilisation du sol du dpartement 73 Les classes sont les suivantes : - pente : 0-3, 3-10, 10-20, 20-35, 35 et plus - altitude : <1000m, 1000-1500m, 1500-2000m, 2000m et plus - utilisation du sol : artificielle (zones urbaines, industrielles ou commerciales, rseaux, chantiers, espaces verts non agricoles), agricole, naturelle (forts, zones humides, eau). La Savoie, dpartement le plus lev de France en moyenne, connat un fort tagement de ses activits et donc de ses utilisations du sol. De fait, le Khi calcul est extrmement fort et confirme une forte relation entre lignes et colonnes du tableau 3.10. Que nous dit de plus lAFC du tableau 3.10 ? & Les 2 premiers axes reprsentent 100% de linformation (75% pour le 1er, 25% pour le 2nd). & Les tableaux 3.11 et 3.12 fournissent les autres aides linterprtation (coordonnes des projections, Contributions relatives, Qualits de reprsentation).

- Aides linterprtation des colonnes


0-3 3-10 10-20 20-35 >=35 Poids Coord F1 CTR F1 QR F1 Coord F2 CTR F2 2.44 0.86 0.04 0.34 0.01 0.02 0.53 0.46 0.99 -0.82 -0.07 0.01 0.83 0.88 0.13 0.12 0.25 0.03 0.22 1.02 0.29 0.94 -0.25 0.05 1.09 0.89 0.09 0.13 -0.35 0.04 QR F2 0.98 0.01 0.08 0.06 0.09

Tableau 3.11 : Aides linterprtation des colonnes du tab. 3.10 - Aides linterprtation des lignes
<1000-artificiel <1500-artificiel <2000-artficiel >=2000-artificiel <1000-agricole <1500-agricole <2000-agricole >=2000-agricole <1000-nature <1500-nature <2000-nature >=2000-nature code A B C D E F G H I J K L Poids Coord F1 CTR F1 QR F1 Coord F2 CTR F2 QR F2 2.19 0.26 0.96 0.01 0.01 0.00 0.00 0.00 0.22 0.00 0.05 0.50 0.00 0.25 0.00 0.34 0.00 0.09 0.41 0.00 0.14 0.82 0.00 0.64 0.00 -0.07 0.00 0.01 1.45 0.57 0.99 0.07 0.14 0.00 0.01 0.48 0.48 0.98 -0.88 -0.13 0.03 0.02 1.24 0.81 0.00 0.57 0.00 0.17 0.03 0.70 0.00 0.00 0.58 0.58 0.00 0.40 0.84 0.93 0.07 0.06 0.23 0.01 0.07 1.00 0.92 0.07 0.09 -0.27 0.02 0.07 1.02 0.12 0.93 0.09 -0.26 0.02 0.06 0.19 0.97 0.23 0.94 -0.24 0.04 0.06

Tableau 3.12 : Aides linterprtation des lignes du tab. 3.10 - Pondrations Plus de la moiti de la surface (53%) a des pentes comprises entre 3 et 10 (avant pays, valles glaciaires) mais 31% a plus de 20. Lespace agricole compris entre 1000 et 1500m reprsente presque la moiti (48%) du territoire, lespace naturel au dessus de 1500m un gros quart (28%). 3.2 Interprtation de laxe 1(75% de variance) Il oppose : - surfaces agricoles situes entre 1000-1500m sur des pentes faibles (3-10), rsidu dagriculture montagnarde (levage pour lessentiel) sur paulements ou terrasses, - et espaces naturels toute altitude mais sur pentes moyennes ou fortes (>10), espaces rests naturels ou boiss cause de la pente (et de la dprise agricole), - on remarque aussi, du ct des pentes fortes ou moyennes de laxe 1, les surfaces 2000m ou plus ddies lagriculture (alpage) et, mme altitude, les surfaces artificialises (stations de sports dhiver). 3.3 Interprtation de laxe 2 (25% de variance) Il met surtout en vidence les espaces artificialiss, infrieurs 1000m et de pente faible : ce sont les espaces urbaniss des basses valles (Maurienne, Tarentaise, Sillon Alpin, cluse de Savoie). Apparaissent aussi, sur pentes faibles, les surfaces agricoles situes en dessous de 1000m (toujours dans les basses valles) et entre 1500 et 2000m (alpages). 3.4 Plan des axes 1 et 2 (100% de variance) La figure 3.3 rvle quatre grands types, plus ou moins affirms, de correspondances : - les espaces agricoles situs entre 1000 et 1500m (F) sur faibles pentes,

les espaces naturels sur fortes pentes toute altitude jusqu 2000m (I,J,K) les espaces urbaniss (A) et les espaces agricoles basse altitude (E) ou, au contraire, entre 1500 et 2000m mais tous sur faibles pentes, - les espaces artificialiss au dessus de 1000m (stations de sports dhiver, B,C,D) ou les alpages daltitude (H).

Figure 3.3 : plan des axes 1 et 2 de lAFC du tableau 3.10

LAnalyse Factorielle des Correspondances : - est adapte au rsum de tableaux de contingence (effectifs pour le croisement de caractres qualitatifs connus par modalits et/ou quantitatifs connus par classes), - fournit les mmes aides linterprtation en lignes et colonnes (mmes rsultats si on transpose le tableau de donnes), - sur le scalogramme dun axe ou un plan factoriel, la proximit dun point-ligne i et dun point-colonne j signifie sur-reprsentation de la classe i dans la classe j, leur loignement signifiant sous-reprsentation de la classe i dans la classe j.

B) EXERCICES CORRIGES
Exercice 1
On connat, grce au recensement de 1999, la structure dges des logements en France (source : INSEE, RGP 1999). Le tableau 3.13 en fournit une reprsentation simplifie pour chaque rgion de France mtropolitaine. Les nombres de logements construits chaque poque sont exprims en % du total de ligne (la somme pour chaque rgion est gale 100).

alsace aquitaine auvergne b_normandie bretagne bourgogne centre champagne corse f_comt h_normandie ile-de-France languedoc limousin lorraine midi_pyr nord picardie p_loire poitou provence rh-alpes

av49 49-74 75-89 32.70 33.10 21.70 33.20 28.40 26.40 39.30 28.40 23.60 35.60 30.60 24.30 25.30 33.10 28.50 41.40 28.50 22.10 34.30 30.70 25.40 35.80 35.50 21.70 25.50 31.50 31.80 35.20 32.10 22.70 32.70 34.50 24.70 33.70 37.80 19.40 29.00 27.30 29.40 38.30 30.10 23.70 35.20 36.00 21.10 31.30 30.00 25.20 39.90 31.50 21.70 40.90 29.20 21.90 29.80 29.70 27.40 37.50 25.80 24.90 26.10 38.10 25.30 28.50 34.10 24.90

90-99 12.50 12.10 8.70 9.50 13.10 8.10 9.60 7.00 11.10 10.00 8.10 9.10 14.30 7.90 7.70 13.50 6.80 8.10 13.10 11.80 10.60 12.50

Tableau 3.13: structure dge des logements par rgion en 1999 (source : INSEE) Une AFC a t pratique pour rsumer ce tableau. En voici les aides linterprtation : - % de variance des axes factoriels axe 1 : 65% axe 2 : 27% axes 1+2 : 92% - rsultats pour les colonnes
av49 49-74 75-89 90-99 Poids F1 0.34 -0.13 0.32 0.00 0.24 0.10 0.10 0.19 ctr 0.48 0.00 0.20 0.32 qr F2 ctr qr 0.88 -0.05 0.16 0.12 0.00 0.10 0.68 1.00 0.69 -0.04 0.07 0.10 0.77 -0.07 0.09 0.09

Tableau 3.14 : Aides linterprtation des colonnes du tab. 3.13 - rsultats pour les lignes (rgions)
alsace aquitaine auvergne b_normandie bretagne bourgogne centre champagne corse f_comt h_normandie ile-de-France languedoc limousin lorraine midi_pyr nord picardie p_loire poitou provence rh-alpes Poids 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 F1 0.03 0.06 -0.10 -0.04 0.19 -0.15 -0.01 -0.11 0.18 -0.04 -0.02 -0.06 0.17 -0.10 -0.09 0.09 -0.16 -0.15 0.12 -0.01 0.11 0.11 ctr 0.00 0.01 0.04 0.01 0.13 0.09 0.00 0.04 0.12 0.01 0.00 0.02 0.11 0.04 0.03 0.03 0.10 0.08 0.06 0.00 0.04 0.04 qr 0.08 0.37 0.69 0.71 0.97 0.84 0.09 0.59 0.75 0.70 0.07 0.18 0.76 0.85 0.49 0.65 0.98 0.89 0.88 0.01 0.37 0.76 F2 0.02 -0.07 -0.07 -0.02 0.03 -0.07 -0.02 0.09 0.01 0.01 0.07 0.13 -0.10 -0.03 0.10 -0.04 0.00 -0.05 -0.04 -0.13 0.14 0.05 ctr 0.00 0.05 0.04 0.00 0.01 0.04 0.00 0.07 0.00 0.00 0.04 0.15 0.08 0.01 0.08 0.02 0.00 0.02 0.02 0.15 0.18 0.02 qr 0.05 0.62 0.30 0.22 0.03 0.16 0.25 0.39 0.00 0.03 0.62 0.69 0.24 0.06 0.51 0.13 0.00 0.11 0.11 0.95 0.63 0.16

Tableau 3.15 : Aides linterprtation des lignes du tab. 3.13

Questions 1) 2) 3) 4) Quelle hypothse a fait choisir un tel tableau ? Pourquoi le rsumer par une AFC plutt que par une ACP ? Interprtez chacun des 2 axes factoriels Construisez une typologie su le plan des axes F1-F2 et cartographiez la

Question 1 Lhypothse, fort simple, est la suivante : un fort % de construction de logements une priode donne date le dynamisme dmographique et conomique des rgions. Question 2 Une ACP aurait t possible puisquon dispose pour 21 agrgats rgionaux de 4 variables de comptage (donc quantitatives). Une AFC a t prfre car : - le tableau 3.13 est un cas particulier de tableau de contingence o les sommes en colonne indiquent la frquence des diffrentes dates de construction des logements et o il est licite de calculer les sommes en lignes (gales pour toute rgion 100%). - Ce quon dsire, cest comparer les structures dge des logements en ayant, pour chaque rgion, connaissance de la sur- ou sous-reprsentation de chaque priode de construction. Question 3 Interprtation de laxe 1

Figure 3.4 : Coordonnes des priodes et des rgions sur laxe F1

Compte tenu des coordonnes et qualits de reprsentation, laxe 1 (reprsentant 65% de linformation du tableau 3.13) oppose : des rgions (en difficult industrielle ou peu urbanises) surplus de logements davant 1949 (Nord, Picardie, Bourgogne, Champagne, Auvergne, Limousin), celles (le plus souvent touristiques et/ou rurbanises) avec fort surplus de logements rcents (Bretagne, Corse, Languedoc, Pays de Loire, Rhne-Alpes).

Ce 1er axe ordonne chronologiquement les priodes de construction immobilire et les rgions selon lanciennet relative de leurs parcs de logements. Interprtation de laxe 2

Figure 3.5 : Coordonnes des priodes et des rgions sur laxe F2 Laxe 2 (27% de linformation du tableau 3.13) met en valeur la priode 1950-1975 qui tait peu reprsente par laxe prcdent. Il oppose : des rgions o cette poque des 30 glorieuses est sur-reprsente dans le parc actuel de logements (Provence, Ile de France, Lorraine, Champagne, Haute Normandie), des rgions o elle est sous-reprsente (Poitou, Languedoc, Bourgogne, Aquitaine, Auvergne).

Cet axe met donc en valeur lopposition entre rgions ayant connu un boom immobilier lors des 30 glorieuses et rgions qui, alors peu dynamiques dmographiquement et conomiquement, ont alors construit peu de logements neufs. Deux rgions ont t mal prises en compte par les 2 premiers axes de lAFC : lAlsace (qualit de reprsentation sur F1 et F2=0.13) et la rgion Centre (somme des 2 QR=0.34).

Question 4

Figure 3.6 : priodes de construction des logements et rgions sur le plan des axes F1-F2

Figure 3.7 : Cartographie des classes de la fig. 3.6 (lgende : carts des 4 priodes la moyenne nationale)

La figure 3.6 prsente, sur le premier plan factoriel, la projection des colonnes (priodes de construction des logements actuels) et des lignes (rgions) des tableaux 3.14 et 3.15 : un regroupement en 5 classes, plus ou moins homognes, y t effectu. La figure 3.7 est la carte thmatique correspondante: sa lgende (partie gauche) explicite pour chaque priode et chacune des 5 classes lcart la moyenne des rgions franaises mtropolitaines. Ces deux figures autorisent le commentaire suivant : classe C1 (Bretagne, Corse, Rhne-Alpes, Provence) caractrise par un parc immobilier assez jeune (trs faible % de logements davant 1949, forts % de plus rcents avec un pic datant de la priode 1975-89) ; ce profil chronologique sexplique en partie par le caractre touristique de ces rgions. Classe C2 (Languedoc, Pays de Loire, Midi Pyrnes, Aquitaine) caractrise galement par un parc immobilier assez rcent (faibles % avant 1975, assez forts prs) ; par rapport la classe C1, le pic de construction est plus rcent (1990-99). Classe C3 (Poitou, Basse Normandie, Centre, Franche Comt, Alsace) avec un profil moyen trs voisin de celui de lensemble de la France mtropolitaine ; noter que Alsace et Centre sont mal reprsents sur le plan F1-F2 tandis que les 3 autres rgions, bien reprsentes, ont rellement un profil moyen. Classe C4 (Champagne, Lorraine, Ile de France, Haute Normandie) avec une forte surreprsentation de logements datant de la priode 1949-74 et un dficit ensuite ; ces rgions ont connu leur ge dor immobilier pendant les 30 glorieuses . Classe C5 (Nord, Picardie, Bourgogne, Limousin, Auvergne) caractrise par limportance des logements les plus anciens (avant 1949) et la sous-reprsentation des autres priodes ; la raison est double : difficults conomiques ou caractre rural profond de ces rgions.

Compte tenu de ces profils, les classes 1 et 2 (sur-reprsentation des logements rcents) se diffrencient assez nettement des classes 4 et 5 ( sous-reprsentation de logements daprs 1974) tandis que la classe 3 a un profil moyen. Cette chronologie immobilire, avec ses pics et ses creux, donne une des images matrielles possibles des dynamiques territoriales de la France mtropolitaine ( granularit spatiale, il est vrai, assez grossire).

Exercice 2
code 59 62 76 80 22 29 35 44 56 17 40 85 14 33 50 64 Nom de dpartement Nord Pas-de-Calais Seine-Maritime Somme Ctes-dArmor Finistre lle-et-Vilaine Loire-Atlantique Morbihan Charente-Maritime Landes Vende Calvados Gironde Manche Pyrnes-Atlantiques pota_sup pota_sout indus_sup indus_sout irrig_sup irrig_sout 0 136892 89091 39423 203 1691 16753 135686 76963 31449 853 3648 25 105212 199437 54841 116 297 0 47552 13846 34438 260 18327 42071 10629 1634 1889 147 596 49122 17289 10490 4855 1552 1498 37687 16679 2499 2241 1581 1139 66554 22991 18874 1494 11884 3326 46933 12474 6136 3282 3978 2433 23325 26718 2363 3599 17087 88683 4682 36403 33218 11280 86215 132247 29525 15884 342 1822 19929 27479 10801 48054 2205 3444 397 890 21465 100833 33770 21332 18170 60189 17454 24343 3710 2585 265 2590 56297 21038 91605 6559 26993 1624

(sources : Agences de leau, RNDE, IFEN)

Tableau 3.16 : Principaux usages de leau en 2003 dans les dpartements atlantiques

Le tableau 3.16 rcapitule, en milliers de m3 pour lanne 2003, les principaux usages des eaux (superficielles ou souterraines) pour 16 dpartements de la faade (Manche et Atlantique) de la France mtropolitaine. Ny est pas comptabilis lusage des eaux pour la production nergtique (concentre pour lessentiel dans dautres dpartements).

% de variance des deux 1ers axes

axe F1 : 46% axe F2 : 36% plan F1-F2 : 82% Aides linterprtation des colonnes
Poids 0.17 0.31 0.23 0.09 0.07 0.14 F1 0.26 -0.34 -0.59 -0.51 1.06 1.19 ctr 0.03 0.08 0.19 0.05 0.20 0.45 qr 0.04 0.40 0.56 0.43 0.70 0.79 F2 1.26 -0.12 -0.20 -0.35 -0.24 -0.56 ctr 0.78 0.01 0.03 0.03 0.01 0.13 qr 0.96 0.05 0.07 0.20 0.04 0.18

pota_sup pota_sout indus_sup indus_sout irrig_sup irrig_sout

Tableau 3.17 : Aides linterprtation des colonnes de lAFC du tableau 3.16 Aides linterprtation des lignes
Poids 0.03 0.06 0.02 0.03 0.10 0.02 0.12 0.05 0.02 0.03 0.10 0.10 0.08 0.14 0.04 0.04 F1 -0.35 1.11 0.17 0.03 0.19 0.12 1.07 0.18 -0.12 0.20 -0.67 -0.57 -0.14 -0.77 -0.27 0.89 ctr 0.01 0.19 0.00 0.00 0.01 0.00 0.32 0.00 0.00 0.00 0.11 0.08 0.00 0.20 0.01 0.07 qr 0.13 0.78 0.01 0.00 0.20 0.01 0.72 0.03 0.03 0.03 0.76 0.79 0.03 0.67 0.08 0.89 F2 0.15 -0.32 1.53 1.12 -0.26 1.21 -0.59 0.99 0.54 1.21 -0.32 -0.16 0.34 -0.35 -0.47 0.26 ctr 0.00 0.02 0.16 0.12 0.02 0.11 0.13 0.15 0.02 0.13 0.03 0.01 0.03 0.05 0.03 0.01 qr 0.02 0.06 0.96 0.98 0.36 0.96 0.22 0.94 0.55 0.96 0.17 0.06 0.19 0.14 0.26 0.08

Calvados Charente-Maritime Ctes-dArmor Finistre Gironde lle-et-Vilaine Landes Loire-Atlantique Manche Morbihan Nord Pas-de-Calais Pyrnes-Atl. Seine-Maritime Somme Vende

Tableau 3.18 : Aides linterprtation des lignes de lAFC du tableau 3.16 Questions 1) Une ACP tait possible pour rsumer le tab. 3.16 : quelles auraient t les diffrences par rapport lAFC ici pratique ? 2) Signification des axes F1 et F2 3) Interprtez en gographe le plan F1-F2 Corrig Question 1 Une ACP sur les 6 variables standardises aurait principalement fait ressortir les dpartements les plus gros consommateurs deau (les plus peupls, industriels ou irrigateurs) car

standardiser les variables ne fait queffacer les diffrences de moyennes et de variances des descripteurs mais une fois standardise, une forte valeur reste une forte valeur relative. Ce qui nous importe ici, cest de comparer des profils dpartementaux dusage des consommations deau pour mettre en relief des originalits. LAFC est donc indique. Question 2 Interprtation de laxe F1

Figure 3.8 : Coordonnes des colonnes et des lignes de lAFC du tableau 3.16 sur laxe F1 Compte tenu des coordonnes, contributions et qualits de reprsentation, laxe F1 (presque la moiti de linformation du tableau 3.16) oppose nettement : Des dpartements o les eaux usage dirrigation sont sur-reprsentes (Charente Maritime, Landes, Vende mais avec une qualit de reprsentation mdiocre), A des dpartements o ce sont les usages industriels des eaux qui prvalent (Seine Maritime, Nord, Pas de Calais).

En somme ce 1er axe met en exergue le contraste entre usages des eaux ( par lindustrie et par lagriculture) dans des dpartements dorientations conomiques diffrentes.

Interprtation de laxe F2

Laxe F2 contient 36% de linformation du tableau 3.16. Rappelons quil est construit partir des rsidus non pris en compte par laxe F1 : il apporte donc une information complmentaire, indpendante de celle de laxe F1.

Figure 3.9 : Coordonnes des colonnes et des lignes de lAFC du tab. 3.16 sur laxe F2 Les coordonnes significatives sont toutes positives. Tous les dpartements bretons sont caractriss, dans leurs consommations, par la sur-reprsentation, deau potable superficielle. En effet, la nature gologique du massif armoricain limite limportance des nappes deau souterraine, la Bretagne est, par ailleurs, faiblement dote dindustries grosses consommatrices deau et lagriculture intensive bretonne nest pas fonde sur lirrigation. On peut donc y parler dorientation dmographique des usages de leau. Question 3 On saidera, pour y rpondre, dune typologie des 16 dpartements sur le plan F1-F2, de sa cartographie et dune lgende fonde sur le principe suivant : les valeurs moyennes des 6 variables ont t calcules pour chacune des 4 classes, ramenes en % et compares aux valeurs en % pour lensemble des 16 dpartements, si bien quon met ainsi en vidence les carts (originalits) de chacune des classes par rapport lensemble de la faade atlantique.

Figure 3.10 : Typologie sur le plan F1-F2 de lAFC du tableau 3.16

Figure 3.11 : Carte correspondant la typologie de la fig. 3.10

Les rsultats de lanalyse montrent une rgionalisation assez nette: Nord, Pas de Calais, Seine Maritime o lusage industriel de leau est important, Dpartements bretons o lusage de leau potable est plus fort quailleurs (relative faiblesse des usages industriel et dirrigation) ; pour des raisons gologiques, la provenance est essentiellement des eaux de surface, 3 dpartements atlantiques (Vende, Charente Maritime et Landes) font un usage de lirrigation plus grand quailleurs, la classe centrale, regroupant les autres dpartements, correspondent deux situations distinctes : & 2 dpartements mal pris en compte par lanalyse (Pyrnes Atlantiques : qr1+qr2=22%, Somme : qr1+qr2=34%), & 3 dpartements (Calvados, Manche, Gironde) de consommations peu prs conformes la moyenne de la faade atlantique.

Ces rsultats, issus dun tableau suffisamment simple pour donner lieu un exercice, nont rien de rvolutionnaires ! Ils ne font quordonner et hirarchiser des connaissances pralables, ici lmentaires.

Chapitre 4 Analyse des Correspondances Multiples (AFCM)


A) CONNAISSANCES DE BASE
1. Gnralits
Lanalyse factorielle des correspondances multiples (AFCM) est une extension de lAFC aux tableaux de contingence multiple, croisant deux deux m caractres qualitatifs. Ces tableaux sont couramment appels tableaux de Burt. 1.1 Transformation dun fichier en tableau de Burt - Exemple
N 1 11 18 25 32 34 38 43 64 81 91 92 101 124 140 153 158 168 172 184 189 211 212 215 231 236 247 269 282 283 Car1 opinion B M M B TM My B TM My M B TM TB TB My M My TB TB B M My My B B TM B B M B Car2 sexe F H H F F F H F F F F H F H F F H H H H F F H H H F H F F F Car3 csp Inactif Indep Inactif Inactif Inactif Cadre Emp-ouvr Indep Indep Cadre Inactif Inactif Cadre Inactif Inactif Inactif Inactif Indep Emp-ouvr Cadre Cadre Indep Emp-ouvr Inactif Inactif Cadre Indep Cadre Indep Inactif

Tableau 4.1 : Extrait dune enqute Le tableau 4.1 est un extrait (chantillon alatoire au 1/10) dune enqute dopinion concernant la ralisation dun tronon dautoroute traversant 7 communes priurbaines. Seuls 3 caractres qualitatifs, cods alphabtiquement, sont ici conservs : - son opinion sur le projet (Car1): Trs Bonne, Bonne, Moyenne, Mauvaise, Trs Mauvaise, - le sexe de lenqut (Car2): Homme ou Femme,

sa Catgorie Socio-Professionnelle (Car3): Indpendant (exploitant agricole, artisan, commerant), Cadre (moyen ou suprieur), Employ ou Ouvrier, Inactif (scolaire, retrait, chmeur, femme au foyer),

A chacune de ces questions, chaque enqut a fourni une rponse et une seule. Le tableau crois multiple (de Burt) correspondant ce fichier se prsente sous la forme du tableau 4.2.
TB TB B My M TM H F Indep Cadre Emp-ouvr Inactif 4 0 0 0 0 3 1 1 1 1 1 B 0 10 0 0 0 5 5 1 2 1 6 My 0 0 6 0 0 2 4 2 1 1 2 M 0 0 0 6 0 2 4 2 2 0 2 TM 0 0 0 0 4 1 3 1 1 0 2 H 3 5 2 2 1 13 0 3 1 3 6 F 1 5 4 4 3 0 17 4 6 0 7 Indep 1 1 2 2 1 3 4 7 0 0 0 Cadre Empl 1 2 1 2 1 1 6 0 7 0 0 1 1 1 0 0 3 0 0 0 3 0 Inactif 1 6 2 2 2 6 7 0 0 0 13

Tableau 4.2 : Tableau de Burt correspondant au tableau 4.1 Ce tableau de Burt croise les 3 caractres 2 2 (9 sous tableaux de contingence) : Les 3 sous tableaux sur la diagonale croisent les 3 caractres avec eux mmes et ne fournissent donc que les 3 distributions univaries ; seule la diagonale de ces 3 sous tableaux porte un effectif car on ne peut, par exemple, tre la fois homme et femme et lon est soit lun soit lautre (les modalits des caractres sont exclusives et exhaustives), Les trois sous tableaux de contingence situs au dessus de la diagonale du tableau de Burt croisent opinion et sexe, opinion et csp, sexe et csp, Les trois sous tableaux de contingence situs au dessous de la diagonale du tableau de Burt sont identiques aux 3 prcdents, sauf que lon a permut leurs lignes et colonnes.

LAFC de ce tableau de Burt donne les rsultats rsums suivants : - % de variance axe 1 : 31%, axe 2 : 19%, axe 3 : 13%, ensemble des 3 axes: 63% - laxe 1 oppose les opinions extrmes : trs bonne, sur-reprsente chez les employs-ouvriers, chez les hommes, versus trs mauvaise ou mauvaise chez les cadres et les femmes, - laxe 2 oppose les trs bonnes opinions, frquentes chez les Indpendants aux opinions bonnes seulement sur-reprsentes chez les inactifs, - laxe 3 oppose ceux des cadres qui ont trs bonne opinion du projet tous les indcis. - le plan des axes 1 et 2 individualise 4 groupes: & mauvaise et trs mauvaise opinion, sur-reprsente chez cadres et les femmes, & opinion moyenne, sur-reprsente chez les indpendants, & bonne opinion, sur-reprsente chez les inactifs,

& trs bonne opinion, lgrement sur-reprsente chez les employs-ouvriers et les hommes. Mais, on note immdiatement que lAFC sur tableau de Burt, partant deffectifs pour le croisement de modalits identiques en ligne et en colonne, ne nous fournit aucune information sur les individus enquts. Or, cest bien souvent le but dun dpouillement denqute que dtablir une typologie denquts en fonction de leurs profils de rponses aux questions poses. Il faut donc imaginer un codage de linformation du tableau 4.1 qui nous permette de connatre les coordonnes des individus sur les axes factoriels retenus. 1.2 Tableau disjonctif complet Ce recodage existe sous le nom de codage disjonctif complet. Le tableau 4.3 est le tableau disjonctif complet correspondant au tableau 4.1.
N TB B My M TM H F indep cadre empl- inactif ouvr 1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 5 7 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 1 1 1 1 0 0 1 1 1 0 1 0 0 0 0 0 1 1 1 0 1 1 1 1 0 1 0 1 1 0 0 0 0 1 1 0 0 0 1 0 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 5 0 0 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 1 0 1 1 0 9 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 3 0 1 1 1 0 0 0 0 0 1 1 0 1 1 1 1 0 0 0 0 0 0 1 1 0 0 0 0 1 13

11 18 25 32 34 38 43 64 81 91 92 101 124 140 153 158 168 172 184 189 211 212 215 231 236 247 269 282 283

4 10

4 13 17

Tableau 4.3 : Tableau disjonctif complet correspondant au tableau 4.1

Le recodage disjonctif complet de modalits (exclusives et exhaustives) de caractres qualitatifs consiste crer un tableau o : - il y a autant de lignes (individus) que dans le tableau initial, - autant de colonnes quil y a de modalits dans lensemble des caractres, - chaque case contient 1 si lindividu prsente la modalit et 0 sinon. L o il ny avait que 3 caractres dans le tableau 4.1, il y a 5+2+4 = 11 colonnes dans le tableau 4.3 : on ne peut donc traiter ainsi un trs grand nombre de caractres modalits nombreuses, sauf crer des tableaux nombre gigantesque de colonnes. La somme des cases dune ligne est, avec ce recodage binaire, toujours gal au nombre de caractres (3 dans lexemple) et les sommes en colonne indiquent le nombre dapparitions de chaque modalit (dernire ligne du tableau 4.3). Leffectif total (nombre de 1 dans le tableau) est le nombre dindividus multipli par le nombre de caractres. 1.3 Equivalence des AFC sur tableau disjonctif complet et tableau de Burt LAFCM est une AFC sur tableau binaire (tableau disjonctif complet). Par consquent, elle procde de la mme manire que lAFC: - calcul des profils-ligne et profils-colonne, - mme ajustement avec pondration par les poids des lignes (constant ici car gal au nombre de caractres) et des colonnes, - mme mtrique du Khi pour dterminer les axes, - mme sur-reprsentation dans ceux ci des modalits les plus rares. Les particularits, pour linterprtation des rsultats, tiennent au codage binaire. & Si tous les caractres prsentent seulement 2 modalits, les rsultats de lAFC sur tableaux de contingence, de Burt ou disjonctif complet fournissent exactement les mmes rsultats. & Si des caractres prsentent plus de deux modalits, les rsultats de lAFC sur tableaux de Burt et disjonctif complet sont quivalents une dilatation prs. Les facteurs de lune sont, en effet, co-linaires de ceux de lautre. Les % de variance de lune sont les carrs de ceux de lautre : par consquent, lAFC sur tableaux binaires fournit des % de variance pessimistes , quon ne doit plus strictement interprter comme parts dinformation prises en compte par les axes successifs mais comme hirarchie de rsums dinformation. Comme en AFC classique, on peut faire intervenir (a posteriori) des individus supplmentaires, des caractres supplmentaires (ou mme seulement telle ou telle de leurs modalits). Sil sagit dun caractre quantitatif continu, on le corrlera (comme en ACP) avec les axes factoriels retenus, ce qui fournit sa coordonne sur chacun deux.

2. Rsultats de lAFCM du tableau binaire 4.3


On ne considre ici que la partie des rsultats (Tableau 4.4) concernant les modalits des 3 caractres (les individus sont ici anonymes). - % de variance

axe 1 : 21%, axe 2 : 16%, axe 3 :14%, cumul des 3 : 55%, au lieu de 63% pour lAFCM sur le tableau de Burt (on a donc bien ici une version plus pessimiste des quantits dinformation prises en compte).
TB B My M TM H F Indep Cadre Emp-ouvr Inactif poids Coord F1 CTR F1 QR F1 Coord F2 CTR F2 QR F2 Coord F3 CTR F3 QR F3 4.4% 1.22 0.86 1.14 0.23 0.12 0.11 0.08 0.20 0.16 11.1% 0.25 0.03 0.01 -1.03 0.53 0.28 0.11 0.01 0.00 6.7% 0.76 -1.23 0.02 0.00 0.00 0.14 0.09 0.38 0.28 6.7% -0.72 0.13 0.06 0.58 0.08 0.05 0.57 0.08 0.06 4.4% -0.79 0.10 0.05 -0.28 0.01 0.01 -0.43 0.03 0.02 14.4% 0.92 0.65 0.22 -0.03 0.00 0.00 0.02 0.00 0.00 18.9% -0.71 0.65 0.17 0.02 0.00 0.00 -0.01 0.00 0.00 7.8% 1.09 -0.17 0.01 0.00 0.36 0.22 -0.75 0.17 0.12 7.8% 1.22 -0.81 0.20 0.09 0.26 0.02 0.01 0.46 0.32 3.3% 2.13 0.50 0.27 0.57 0.04 0.03 0.22 0.01 0.01 14.4% 0.04 0.00 0.00 -0.86 0.56 0.25 -0.31 0.07 0.04

Tableau 4.4 : Rsultats de lAFCM sur les colonnes du tableau 4.3 Les coordonnes des modalits sur les axes factoriels sont les mmes, une homothtie prs, que celles calcules sur le tableau de Burt : par consquent, linterprtation des oppositions de modalits sur les diffrents axes est la mme (comme le confirment les valeurs en gras dans le tableau 4.4). - Reprenons cette interprtation : - axe 1 oppose les opinions extrmes : trs bonne, sur-reprsente chez les employs-ouvriers, chez les hommes, trs mauvaise ou mauvaise chez les cadres et les femmes, - axe 2 oppose les trs bonnes opinions, frquentes chez les Indpendants aux opinions bonnes seulement sur-reprsentes chez les inactifs, - axe 3 oppose ceux des cadres qui ont trs bonne opinion du projet tous les indcis (opinion moyenne), - Reprsentation graphique sur le plan des axes 1 et 2

Figure 4.1: modalits du tableau 4.3 sur le plan des axes 1 et 2 Linterprtation est identique celle faite partir du tableau de Burt. Rappelons la ici.

Le plan des axes 1 et 2 individualise 4 groupes: & mauvaise et trs mauvaise opinion, sur-reprsente chez les cadres et les femmes, & opinion moyenne, sur-reprsente chez les indpendants, & bonne opinion, sur-reprsente chez les inactifs, & trs bonne opinion, lgrement sur-reprsente chez les employs-ouvriers et les hommes Dune faon gnrale, les reprsentations et les manipulations graphiques imaginables partir dune AFCM sont fort instructives. comme en AFC, la proximit entre modalits (de caractres diffrents) traduit la surreprsentation de lune dans lautre (la propension avoir des profils-ligne comparables) et lloignement traduit la sous-reprsentation. La proximit entre individus exprime quils ont des profils-colonne voisins (dans une enqute, patrons comparables de rponses aux diffrentes questions). La proximit de points individus un point modalit traduit la sur-reprsentation de celle ci chez ceux l et, de mme, l'loignement traduit leur sous-reprsentation sur cette modalit. Si lun des caractres est qualitatif ordinal (comme lopinion sur le projet dans notre exemple), il est instructif de relier dans lordre les diverses modalits de celui-ci. On peut projeter, sur un plan factoriel, une ou plusieurs modalits dun caractre qualitatif ou une variable quantitative continue et apprcier, comme prcdemment dcrit, leurs proximit ou loignement dautres points (ligne et/ou colonne). On peut, de mme, projeter des individus supplmentaires. On peut aussi zoomer sur linformation produite, par exemple en ne reprsentant que certaines modalits (issues dun mme caractre ou de caractres diffrents). On peut faire de mme pour certains groupes ou types dindividus (par exemple, ne considrer que les femmes). Enfin, on doit se souvenir que lAFCM (comme lAFC) valorise les diffrences rares (les points modalit sont dautant plus loin du centre de gravit que leurs frquences sont faibles).

Au del de ces avantages, il faut aussi souligner un certain nombre de limites de lAFCM. Le dcoupage en classes dune variable quantitative continue (nombre et limites de classes) doit suivre les prescriptions de la statistique univarie, Les nombres de modalits des caractres ne doivent pas tre trop diffrents entre eux car cela reviendrait, toutes choses gales par ailleurs, favoriser implicitement les caractres prsentant de nombreuses modalits. Mais, il nest pas toujours possible dquilibrer le nombre de modalits des diffrents caractres: dans notre exemple, le sexe ne peut avoir que 2 modalits tandis quil aurait t trop simplificateur de coder les CSP en moins de 4 postes (il y en a 8 dans la plus simple des typologies de lINSEE). Le codage des opinions en 5 catgories hirarchises est classique chez les sociologues (on aurait peut tre pu regrouper en 3 modalits : favorable, neutre, dfavorable).

Le choix deffectuer une AFCM sur tableau de Burt ou disjonctif complet dpend des donnes initiales et des objectifs de ltude : & Si les lignes du tableau sont des units spatiales (un gographe voudra souvent en rcuprer les coordonnes pour typologie et cartographie), alors il faut partir dun tableau disjonctif complet (notez que la plupart des logiciels transforment automatiquement les numros ou intituls de modalits, comme ceux du tableau .4.1, en codage boolen),

& Si les modalits des caractres sont dj binaires (prsence / absence, dans un ensemble de communes, dquipements de diffrents niveaux de raret spatiale, appartenance ou non tel ou tel type de zonage territorial), le choix est dj fait car le tableau des donnes est dj disjonctif complet, & En situation de dpouillement denqute effectif trs nombreux, o lon sintresserait surtout la relation entre modalits de rponses diverses questions, il serait plus simple de procder une AFCM sur tableau de Burt.

B) EXERCICES CORRIGES
Exercice 1
Une enqute sur un chantillon reprsentatif (1984, 972 personnes) des citoyens de Californie, a permis de recueillir un grand nombre de variables de statut et dopinion (source : SDA test data, Survey Research Center, University of Berkeley). Du fichier des rsultats nous avons extrait 7 variables que nous avons soumises une AFCM. Voici les noms de ces 7 questions et des modalits de rponse: - milit : opinion sur les dpenses militaires 1 : trop 3 : comme il faut 5 : pas assez - urban : opinion sur les dpenses lies aux problmes urbains 1 : trop 3 : comme il faut 5 : pas assez - crime : opinion sur les dpenses lies la criminalit 1 : trop 3 : comme il faut 5 : pas assez - welfare : opinion sur les dpenses de scurit sociale 1 : trop 3 : comme il faut 5 : pas assez - ideol : idologie politique 1 : librale 3 : conservatrice 5 : modre 7 : aucune - parti : identification un parti 1 : rpublicain 3 : dmocrate 5 : indpendant 6 : pas de prfrence - race : race ou groupe ethnique 1 : blanc 2 : noir 3 : hispanique 4 : autre Pour des raisons dencombrement nest pas fourni ici le trs gros tableau de donnes.. Les rsultats concernant les 972 interviews ne le sont pas davantage (ils ne prsentent, en outre, pas dintrt individuellement mais seulement comme ensemble reprsentatif). Les rsultats de lAFCM sur les 24 modalits de rponse aux 7 questions retenues figurent dans le tableau 4.5 (coordonnes sur 4 axes factoriels). Lanalyse portera donc sur elles exclusivement. - % de variance des 4 axes retenus
% de variance F1 9.5% F2 7.3% F3 6.3% F4 5.8%

- Coordonnes des modalits sur les 4 axes retenus


effectifs milit / 3 milit / 1 milit / 5 urban / 5 urban / 3 urban / 1 crime / 5 crime / 1 crime / 3 welfare / 1 welfare / 5 welfare / 3 ideol / 3 ideol / 1 ideol / 5 ideol / 7 parti / 5 parti / 3 parti / 6 parti / 1 race / 4 race / 3 race / 2 race / 1 334.00 592.00 46.00 646.00 266.00 60.00 680.00 33.00 259.00 188.00 469.00 315.00 252.00 326.00 351.00 43.00 263.00 421.00 58.00 230.00 81.00 52.00 131.00 708.00 poids 4.91 8.70 0.68 9.49 3.91 0.88 9.99 0.49 3.81 2.76 6.89 4.63 3.70 4.79 5.16 0.63 3.87 6.19 0.85 3.38 1.19 0.76 1.93 10.41 F1 0.75 -0.51 1.15 -0.32 0.66 0.54 0.00 -0.68 0.08 0.73 -0.61 0.47 0.89 -0.73 0.09 -0.41 -0.26 -0.53 0.01 1.27 -0.07 -0.59 -0.60 0.16 qr1 0.29 0.41 0.07 0.20 0.16 0.02 0.00 0.02 0.00 0.13 0.34 0.10 0.28 0.27 0.00 0.01 0.03 0.22 0.00 0.50 0.00 0.02 0.06 0.07 F2 -0.11 0.01 0.69 -0.08 -0.34 2.42 0.02 2.42 -0.37 0.87 0.00 -0.52 0.43 -0.11 -0.44 1.96 -0.14 -0.09 1.89 -0.15 0.25 0.76 0.52 -0.18 qr2 0.01 0.00 0.02 0.01 0.04 0.39 0.00 0.21 0.05 0.18 0.00 0.13 0.06 0.01 0.11 0.18 0.01 0.01 0.23 0.01 0.01 0.03 0.04 0.09 F3 0.15 0.05 -1.79 -0.26 0.62 0.02 -0.30 1.12 0.66 -0.48 -0.11 0.46 -0.61 -0.14 0.33 1.94 0.29 -0.29 1.84 -0.27 0.66 0.00 -0.58 0.03 qr3 0.01 0.00 0.16 0.13 0.15 0.00 0.22 0.04 0.16 0.06 0.01 0.10 0.13 0.01 0.06 0.17 0.03 0.06 0.21 0.02 0.04 0.00 0.05 0.00 F4 -0.15 0.06 0.30 -0.11 0.12 0.71 -0.38 2.15 0.73 -0.35 0.14 0.00 0.31 0.44 -0.54 -0.75 -0.10 0.07 -0.94 0.22 -1.29 1.06 -0.94 0.24 qr4 0.01 0.01 0.00 0.03 0.01 0.03 0.34 0.16 0.19 0.03 0.02 0.00 0.03 0.10 0.16 0.03 0.00 0.00 0.06 0.02 0.15 0.06 0.14 0.16

Tableau 4.5 : effectifs, coordonnes et qualits de reprsentation des 24 modalits

Questions
1) Commentez les effectifs par modalits des 7 questions slectionnes : comment joueront ils dans lAFCM ? 2) Pourquoi avoir fait une AFCM sur le tableau 4.5 ? Quels en sont les avantages et inconvnients ? 3) Interprtez chacun des 4 axes factoriels retenus 4) Pour approfondir votre comprhension de cette enqute, construisez quelques tableaux croisant 2 variables ( tris croiss ) et interprtez les.

Rponses suggres
Question 1 La colonne 2 du tableau 4.5 fournit les effectifs par modalit de rponse aux 7 questions. - dpenses militaires la majorit (60.9%) trouve quelles sont trop leves et seulement 4.7% quelles ne le sont pas

- dpenses pour les problmes urbains les 2/3 des interviews les trouvent insuffisantes, seulement 6.2% insuffisantes - dpenses de lute anti-criminalit 70% les trouvent insuffisantes et seulement 3.4% exagres - dpenses pour la scurit sociale les effectifs sont ici assez bien rpartis : une majorit relative pense quelles ne sont pas suffisantes et 20% quelles sont trop grandes - idologie revendique idologies librale, modre et conservatrice ont des effectifs notables, moins de 5% des enquts nen affichent aucune - parti reconnu une majorit relative se reconnat dans le parti dmocrate (au moment de lenqute), conservateurs (avous) et indpendants sont de taille comparable tandis que 6% naffichent pas de prfrence - rpartition ethnique/raciale 72.8% des enquts sont blancs, 13.5% noirs, 5.3% hispanique et 8.3% dune autre catgorie. La rpartition ethnique est globalement conforme celle de la population des USA tandis que les rpartitions idologique et politique semblent sur-reprsenter orientation librale et parti dmocrate, ce qui pourrait expliquer une partie des opinions majoritaires sur les dpenses militaires et pour rgler problmes urbains et sociaux. On doit cependant noter le nombre trs grand denquts pensant quil faut dpenser plus pour stopper lessor de la criminalit. La mtrique du Khi utilise par AFC et AFCM a pour rsultat ( cause de la division par leffectif en colonnes) daccorder beaucoup dimportance aux modalits peu frquentes : opinions de minorits (extrmistes voulant plus de dpenses militaires et moins de sociales ou gens sans parti ni idologie ou encore hispaniques et autres ethnies). Question 2 LAFCM est la seule analyse factorielle possible sur un tableau de donnes connues individu par individu, croisant individus en lignes (972 enquts ici) et variables qualitatives (ou codes en classes) en colonnes. Dans chaque case dun tel tableau figure un code, alphabtique ou numrique (reprant alors un numro de modalit). LAFCM est opre sur le tableau de Burt (croisant toutes les variables 2 2) ou sur le tableau disjonctif complet (tableau binaire qui, dans cet exemple, a 972 lignes et 24 colonnes). Lavantage principal de lAFCM est de crer des rsums hirarchiss et de permettre une vision beaucoup plus synthtique dun tableau (comme le 4.5) quun grand nombre de tableaux de contingence croisant les variables 2 2. Linconvnient principal de lAFCM ( cause du recodage boolen qui est pauvre et cre un grand nombre de colonnes) est de gnrer des axes ne prenant chacun en compte que peu de variance, ce qui offre une vision pessimiste de linformtion prise en compte. Une seconde proprit, commune lAFC et lAFCM, est de valoriser les diffrences rares (cest leffet de la pondration inverse par la frquence des modalits). On peut donc sattendre ici ce quapparaissent beaucoup les opinions de minorits tranches davantage que celles des majorits banales . Question 3

Pour chaque interprtation daxe, on ne retiendra que les modalits coordonne relativement importante en valeur absolue et dont la qualit de reprsentation est correcte (les deux tant point trop voisins de 0) : elles sont signales en gras dans le tableau 4.5. Laxe 1 oppose : & des gens proches de laile conservatrice du parti rpublicain, trouvant correctes les dpenses militaires mais exagres les dpenses sociales, & un segment libral (centriste) de lopinion publique amricaine, appartenant assez souvent au parti dmocrate, professant que les dpenses sociales (scurit sociale, problmes urbains) sont insuffisantes et exagres les dpenses militaires; - Laxe 2 oppose: & un segment de population sans prfrence de parti ou idologique mais jugeant les dpenses publiques lies la scurit sociale trop importantes. On peut parler de minorit exprimant un extrmisme droitier sans conscience politique. & le reste de la population Laxe 3 oppose : & encore des sans parti ni idologie affichs mais plus modrs que les prcdents, jugeant correctes les dpenses lies la criminalit et aux problmes urbains, & un ensemble didologie plutt conservatrice, jugeant insuffisantes les dpenses militaires, anti-criminalit et ddies aux problmes urbains. - Laxe 4 oppose : & des interviews trouvant exagres les dpenses anti-criminalit (les rpublicains y sont lgrement sur-reprsents) & un segment didologie modre les trouvant insuffisantes : y sont sur-reprsents noirs et minorits autres que blancs et hispaniques. Question 4 Globalement, ces 4 axes factoriels mettent en valeur des opinions et statuts souvent minoritaires, ce qui est frquemment le propre des AFC. On peut complter la vision quelle fournit par quelques coups de projecteur sur des relations 2 2 entre des variables, ce qui amne construire des tableaux de contingence. Lensemble de ceux ci, avec 7 variables, est de 7*6/2=21 : il ne serait pas raisonnable de tous les considrer et il faut donc choisir. On a ici choisi dexplorer : la relation idologie parti (y a til cohrence de ces dclarations ?), la relation race/ethnie parti (y a til vote ethnique ?) les relations entre idologie et opinions sur les dpenses militaires, de scurit sociale, anti-criminalit (y a til des relations quasi mcaniques ou non ?).

Pour chacune de ces relations nous avons calcul les effectifs observs (Nij) et thoriques (Nij), le Khi provenant de chaque case ((Nij/Nij)/ Nij) et leur somme (Khi total). Nous avons affect aux khi de chaque case le signe si Nij< Nij (+ sinon) et reprsent ces valeurs (positives ou ngatives) sous forme de graphiques en barres (reprsentant les sur ou sous reprsentations des modalits de la variable 1 dans celles de la variable 2).

- relation idologie parti

Figure 4.2 : sur/sous reprsentations des partis selon lidologie affiche Le Khi calcul valant 175.8 est hautement significatif (avec un risque derreur infrieur 1 pour mille) : il y a donc forte relation (redondance ?) entre idologie et parti (les rponses des interviews sont cohrentes sur ce point). On notera sur la figure 4.2 les forts carts positifs ou ngatifs concernant les rpublicains (opinions tranches, militantes) et les carts plus faibles concernant les dmocrates (didologie semble til plus mesure). La forte surreprsentation des sans idologie chez les sans parti est logique (sagit il dun lectorat flottant ou de non lecteurs ?). relation race/ethnie parti

Figure 4.3 : sur/sous reprsentations des partis selon lethnie dclare Le Khi est ici moins fort (61.4) mais toujours significatif dune relation avec un risque derreur infrieur 1 pour mille. On notera, parmi les sympathisants rpublicains, la forte sous-reprsentation des noirs et la sur-reprsentation des blancs comme la relative importance des sans parti net chez les hispaniques et autres ethnies (signe quils se sentent moins concerns ?). relation idologie dpenses militaires

Khi de 73.8, toujours significatif dune relation, au risque derreur infrieur 1 pour mille.

Figure 4.4 : sur/sous reprsentations des partis pour les dpenses militaires Les libraux (au sens amricain du terme, quelque chose comme centristes en Europe) trouvent globalement exagres les dpenses militaires tandis que les conservateurs les trouvent plus souvent convenables ou insuffisantes. Les modrs et les sans idologie ne manifestent pas dopinion tranche sur le sujet. - relation idologie dpenses de scurit sociale

Figure 4.5 : sur/sous reprsentations des idologies pour les dpenses sociales Khi de 58.4, significatif dune relation non due au hasard entre les 2 questions (toujours avec un risque derreur infrieur 1 pour mille). Le principal fait notable ici est la forte surreprsentation des rpublicains trouvant exagres les dpenses de scurit sociale (et le faible soutien des dmocrates pour les augmenter !). relation idologie dpenses pour diminuer la criminalit

Khi de 16.9, significatif au risque derreur gal 1% mais traduisant une relation bien moins avre que prcdemment. Lopinion sur les dpenses destines lutter contre la criminalit ne fait pas apparatre de clivage net entre sympathisants rpublicains et dmocrates (signifiant que le souci scuritaire est peu prs partag). Chez les sans idologie,

la frquence des opinions trop dargent contre la criminalit concerne trop peu de personnes pour signifier quoi que ce soit de collectif.

Figure 4.6 : sur/sous reprsentations des idologies sur les dpenses anti-criminalit

Exercice 2
Un hebdomadaire a publi en 2003 un classement de 34 villes franaises sur chacun dune dizaine dindicateurs de gestion environnementale . Nous en retenons ici 5 : TC : investissements rcents dans les transports en commun, VP : voies pitonnires, PC : pistes cyclables, EV : espaces verts, TS : tri slectif.

Pour chacun de ces 5 descripteurs, les donnes originelles taient des rangs (de 1 34).Pour chacun des 5 descripteurs, nous avons rparti ces rangs en 3 classes deffectifs voisins: classe 1 : villes de rang 1 11 inclus (tiers suprieur), classe 2 : villes de rang 12 22 inclus (tiers moyen), classe 3 : villes de rang 23 34 inclus (tiers infrieur).

Une AFCM a t pratique sur ce tableau de 34 lignes et 5*3 colonnes (modalits). Le tableau 4.6 prsente les donnes qui lui ont t soumises.

TC Aix/Prov. Amiens Angers Besanon Bordeaux Brest Caen Clermont Dijon Grenoble LeHavre LeMans Lille Limoges Lyon Marseille Metz Montpellier Mulhouse Nancy Nantes Nice Nimes Orleans Paris Perpignan Reims Rennes Rouen StEtienne Strasbourg Toulon Toulouse Tours 3 2 3 2 1 3 2 2 3 1 3 3 1 3 1 2 3 1 2 1 2 3 3 1 2 3 3 1 1 2 1 2 2 1

VP 1 2 3 1 3 3 1 1 2 2 3 2 2 1 2 3 1 1 1 1 2 3 3 3 3 2 3 2 2 3 1 3 2 1

PC 3 2 1 2 1 1 3 3 3 1 2 2 2 3 2 3 3 1 2 3 1 3 3 2 1 3 2 1 2 2 1 3 1 1

EV 3 3 1 1 2 1 1 2 1 3 1 2 2 1 3 3 1 1 3 2 2 3 1 2 3 3 3 1 2 2 3 3 2 2

TS 2 3 1 2 1 2 1 2 2 1 2 2 3 1 3 2 1 1 1 1 3 3 3 1 2 3 3 2 3 3 1 3 2 3

Tableau 4.6 : rpartition en 3 classes de mme effectif de 34 villes franaises (5 variables) De cette AFCM, nous avons retenu 4 axes factoriels. En voici les aides linterprtation. % de variance des axes factoriels

F1 F2 F3 F4 % de variance 20% 18% 12.5% 11.5% % cumul 38% 40.5% 52.0% Tableau 4.7 : % de variance des 4 axes factoriels

rsultats concernant les modalits

TC / 3 TC / 2 TC / 1 VP / 1 VP / 2 VP / 3 PC / 3 PC / 2 PC / 1 EV / 3 EV / 1 EV / 2 TS / 2 TS / 3 TS / 1

F1 0.74 -0.16 -0.65 0.68 -0.85 0.16 0.79 -0.76 -0.10 -0.15 1.00 -0.84 0.36 -0.78 0.49

ctr1 9.57 0.42 6.67 7.28 11.52 0.44 10.78 9.29 0.15 0.40 16.01 11.16 2.02 10.47 3.84

qr1 0.30 0.01 0.20 0.22 0.35 0.01 0.34 0.28 0.00 0.01 0.48 0.34 0.06 0.33 0.12

F2 -0.60 -0.38 1.04 0.71 -0.12 -0.55 -0.39 -0.34 0.77 -0.53 0.15 0.42 -0.41 -0.59 1.05

ctr2 7.17 2.65 19.58 9.31 0.25 5.99 3.06 2.09 10.71 5.52 0.43 3.22 3.00 6.93 20.09

qr2 0.20 0.07 0.51 0.24 0.01 0.16 0.08 0.05 0.28 0.15 0.01 0.08 0.08 0.19 0.53

F3 0.22 -0.16 -0.08 -0.59 0.46 0.11 -0.55 -0.06 0.66 -0.69 0.56 0.19 0.99 -0.46 -0.49

ctr3 1.43 0.71 0.17 9.17 5.72 0.37 8.94 0.09 11.69 13.83 8.31 1.00 26.07 6.06 6.42

qr3 0.03 0.01 0.00 0.16 0.10 0.01 0.17 0.00 0.21 0.26 0.15 0.02 0.47 0.11 0.12

F4 -0.73 1.23 -0.43 0.53 -0.13 -0.37 0.09 -0.09 0.00 0.04 -0.30 0.26 0.66 -0.42 -0.20

ctr4 16.47 42.46 5.18 7.75 0.45 4.11 0.23 0.23 0.00 0.05 2.55 1.83 12.14 5.45 1.10

qr4 0.29 0.72 0.09 0.13 0.01 0.07 0.00 0.00 0.00 0.00 0.04 0.03 0.21 0.10 0.02

Tableau 4.8 : aides linterprtation de 4 axes de lAFCM du tableau 4.6 (variables) rsultats concernant les villes
F1 ctr1 qr1 0.76 4.14 0.30 -0.85 5.21 0.36 0.72 3.77 0.26 0.35 0.88 0.06 -0.29 0.62 0.04 0.68 3.34 0.23 0.88 5.57 0.38 0.26 0.48 0.03 0.64 2.96 0.21 -0.39 1.12 0.08 0.47 1.60 0.11 -0.42 1.30 0.09 -1.22 10.70 0.72 1.16 9.75 0.68 -1.00 7.25 0.50 0.31 0.70 0.05 1.16 9.75 0.68 0.45 1.45 0.10 0.03 0.01 0.00 0.15 0.16 0.01 -0.85 5.28 0.36 0.24 0.41 0.03 0.60 2.62 0.19 -0.50 1.82 0.12 0.03 0.01 0.00 -0.08 0.04 0.00 -0.25 0.44 0.03 -0.07 0.04 0.00 -1.22 10.70 0.72 -0.75 4.03 0.28 0.09 0.05 0.00 -0.04 0.01 0.00 -0.50 1.80 0.12 -0.53 2.01 0.14 F2 ctr2 qr2 -0.41 1.37 0.09 -0.66 3.56 0.22 0.28 0.63 0.04 -0.09 0.06 0.00 0.91 6.94 0.41 -0.21 0.38 0.02 0.38 1.23 0.07 -0.01 0.00 0.00 -0.46 1.73 0.10 0.74 4.56 0.27 -0.58 2.83 0.17 -0.35 1.01 0.06 0.14 0.16 0.01 0.31 0.80 0.05 -0.18 0.27 0.02 -0.76 4.75 0.30 0.31 0.80 0.05 1.25 12.94 0.75 0.17 0.25 0.01 0.95 7.48 0.44 0.03 0.01 0.00 -0.89 6.60 0.43 -0.66 3.65 0.23 0.54 2.45 0.14 -0.37 1.12 0.07 -0.75 4.63 0.30 -0.87 6.34 0.41 0.48 1.92 0.11 0.14 0.16 0.01 -0.48 1.93 0.12 1.02 8.64 0.51 -0.82 5.56 0.36 0.10 0.08 0.00 0.79 5.15 0.30 F3 ctr3 qr3 -0.25 0.77 0.03 -0.37 1.63 0.07 0.43 2.27 0.09 0.30 1.09 0.04 0.16 0.32 0.01 1.03 12.93 0.54 -0.50 3.06 0.12 -0.05 0.03 0.00 0.68 5.62 0.23 -0.05 0.04 0.00 0.74 6.65 0.28 0.74 6.55 0.26 0.03 0.01 0.00 -0.35 1.45 0.06 -0.33 1.34 0.06 -0.12 0.19 0.01 -0.35 1.45 0.06 0.03 0.01 0.00 -0.81 7.89 0.32 -0.62 4.59 0.19 0.28 0.98 0.04 -0.55 3.72 0.17 -0.05 0.03 0.00 -0.13 0.20 0.01 0.37 1.66 0.07 -0.41 2.06 0.09 -0.35 1.51 0.07 1.05 13.44 0.53 0.03 0.01 0.00 -0.15 0.27 0.01 -0.48 2.80 0.11 -0.71 6.13 0.27 0.87 9.19 0.36 -0.11 0.14 0.01 F4 ctr4 qr4 0.24 0.74 0.03 0.26 0.89 0.03 -0.67 5.68 0.22 0.84 9.04 0.34 -0.31 1.22 0.05 -0.31 1.24 0.05 0.56 4.00 0.15 1.15 16.81 0.65 -0.17 0.38 0.02 -0.30 1.13 0.04 -0.35 1.54 0.06 -0.02 0.00 0.00 -0.34 1.47 0.06 -0.26 0.85 0.03 -0.43 2.33 0.09 0.69 6.03 0.24 -0.26 0.85 0.03 -0.17 0.37 0.01 0.63 5.04 0.19 0.10 0.13 0.00 0.39 1.93 0.07 -0.58 4.29 0.18 -0.72 6.66 0.28 -0.35 1.52 0.06 0.65 5.38 0.21 -0.48 2.94 0.12 -0.65 5.46 0.23 -0.08 0.09 0.00 -0.34 1.47 0.06 0.25 0.81 0.03 -0.03 0.01 0.00 0.24 0.72 0.03 0.84 8.97 0.34 -0.03 0.01 0.00

Aix/Prov. Amiens Angers Besanon Bordeaux Brest Caen Clermont Dijon Grenoble LeHavre LeMans Lille Limoges Lyon Marseille Metz Montpellier Mulhouse Nancy Nantes Nice Nimes Orleans Paris Perpignan Reims Rennes Rouen StEtienne Strasbourg Toulon Toulouse Tours

Tableau 4.9: aides linterprtation de 4 axes de lAFCM du tableau 4.6 (villes)

Questions
1) Procdez un examen critique du tableau de donnes (4.6) 2) Quel a t leffet sur les rsultats de lFCM de rpartir les villes en 3 classes deffectif peu prs gal ? 3) Interprtez les 4 axes factoriels retenus 4) Construisez sur le plan des axes 1 et 2 une typologie commente.

Rponses suggres
Question 1 Procder lexamen critique de donnes ne signifie pas en faire une critique radicale mais en dgager avantages et limites. Les limites sautent aux yeux et sont de divers ordres : & du point de vue gographique, le grand sud ouest est nettement sous reprsent (Pau, Biarritz-Bayonne, La Rochelle ne figurent pas dans lchantllon), & les descripteurs prsents dans le tableau traitent soit de ltat de lenvironnement (mais alors manquent, entre autres, des donnes sur les pollutions et la frquentation des transports en commun) soit de politiques correctrices, & ne sont prcises ni les sources de chacun des descripteurs (indice de leur fiabilit) ni les priodes prcises dobservation (dates, dures), & la transformation des valeurs en rangs puis en classes de rangs reprsentent une perte de prcision certaine. Mais le tableau 4.6 prsente aussi un certain nombre de vertus : & les informations localises sur lenvironnement sont la fois rares et disperses dans des publications trs disparates, couvrant des zones gographiques rarement compltes (et des chelles fort diffrentes), & or cest prcisment en zone urbaine que ltat de lenvironnement pose le plus de problmes et que les actions correctrices sont le plus ncessaires, & sur un plan mthodologique, lexercice (mme sur donnes imparfaites) illustre la possibilit de combiner des typologies spatiales (et ventuellement des zonages). question 2 On sait (et lexercice prcdent la amplement dmontr) que les AFC (dont lAFCM) valorisent les diffrences rares en gonflant limportance des modalits de faible frquence. Les 15 modalits du tableau 4.6 tant toutes de frquences trs voisines (11 ou 12 sur 34), cet inconvnient disparat : lAFCM du tableau 4.6 comparera sans cet effet l les profils des 34 villes sur les 5 descripteurs retenus. Rappelons aussi quen AFCM les sommes en ligne sont toutes gales (au nombre de descripteurs puisquune seule modalit est possible pour chacun, (modalit code 1 dans le tableau disjonctif complet lors que les autres sont codes 0).

question 3 Les interprtations tiendront compte la fois des coordonnes, des contributions relatives et des qualits de reprsentation : les plus notables sur chaque axe sont en gras dans les tableaux 4.8 et 4.9. et encadres dans les figures 4.7 4.10. Rappelons que la proximit dun point modalit et dun point ville signifie sur reprsentation de cette modalit dans cette ville, leur loignement signifiant sous reprsentation. On tiendra surtout compte des modalits extrmes : classe 1 (11 premiers rangs sur le critre) et classe 3 (12 derniers rangs).

Figure 4.7 : coordonnes des modalits et des villes sur laxe 1 - Laxe 1 (20% de la variance) oppose : & des villes (Metz, Limoges, Caen, Aix en Provence, Angers, Brest, Dijon, Nmes) faible investissement dans les transports en commun et les pistes cyclables mais bien dots en voies pitonnires et espaces verts, & des villes (Lille, Rouen, Lyon, Nantes, Amiens, Saint Etienne) retard certain en matire de gestion des dchets (tri slectif) mais effort rcent pour les transports en commun.

Figure 4.8 : Coordonnes des modalits et les villes sur laxe 2

- Laxe 2 (18% de la variance) oppose : & des villes vertes politique environnementale marque, o tous les indicateurs sont dans le premier 1/3 (tri slectif, investissement rcent dans les transports en commun, pistes cyclables, voies pitonnires) ; il sagit de Montpellier, Strasbourg, Nancy, Bordeaux, Tours, Grenoble, Orlans, & des villes en queue de peloton pour les mmes indicateurs et les espaces verts (Nice, Reims, Toulon, Marseille, Perpignan, Nmes, Amiens, Le havre) o lon note la forte prsence des villes mditerranennes (sauf Montpellier).

Figure 4.9 : Coordonnes des modalits et les villes sur laxe 3 - Laxe 3 (12.5% de variance) oppose : & des villes (Rennes, Brest, Toulouse, Le Havre, Le Mans, Dijon) surtout marques par limportance de leur rseau de pistes cyclables, & des villes (Mulhouse, Toulon, Nancy, Nice) ayant une forte surface de voies pitonnires mais peu despaces verts et de pistes cyclables.

Figure 4.10 : Coordonnes des modalits et les villes sur laxe 4

- Laxe 4 (11.5% de variance) oppose : & des villes (Clermont Ferrand, Besanon, Toulouse, Marseille, Paris, Mulhouse, Caen) ayant des scores moyens sur les investissements transports en commun et tri slectif, & des villes (Nmes, Angers, Reims, Nice) caractrises surtout par la faiblesse de leurs investissements rcents sur le poste transports en commun. Question 4 Les 4 rsums ci-dessus noffrent quune vision analytique : il faudrait pouvoir les combiner pour obtenir une typologie synthtique des villes vis vis de leurs politiques et tat de lenvironnement (combinaison que nous apprendrons matriser au chapitre 5). Dans ltat actuel de vos apprentissages, nous pouvons procder au dessin de patatodes sur le plan des axes 1 et 2 et commenter (voire cartographier) la typologie obtenue.

Figure .4.11 : Plan factoriel des axes F1 - F2 et typologie des villes Six classes, plus ou moins homognes, ont t dessines : - la classe C1 est surtout celle des villes bonnes performance et action environnementales, notamment pour leffort rcent en faveur de transports moins ou pas polluants (transports en commun, pistes cyclables) et la gestion des dchets, - la classe C2 ( majorit de villes mditerranennes) est caractrise par la raret des espaces verts, - la classe C3 est surtout marque par la faiblesse (ou labsence) de tri slectif des dchets, - la classe C4 a une politique de transports problmatique (faible investissement rcent pour les transports en commun et les pistes cyclables), - la classe 5 est surtout celle des villes importante surface en espaces verts, - la classe 6 est celle de 4 villes mal caractrises par le 1er plan factoriel (somme des qualits de reprsentation < 0.07 sur F1 et F2). On peut tenter une cartographie de cette typologie (la zone de montagne figure sur le fond de carte pour souligner la fragilit des zones de montagne face aux agressions environnementales.

Figure 4.12 : Typologie des villes issue de lAFCM commentaire

& Les villes du groupe C3, souvent des villes industrielles et souvent de grandes villes, sont caractrises par des modes de dplacement non automobile trs moyens, & les villes du groupe C2, presque exclusivement de la faade mditerranenne, ont de mauvais scores pour pistes cyclables et voies pitonnires (tous amnagements sans doute rendus difficiles par la structure mme, trs concentre, de ces villes), & Les villes de type C4 ont connu de faibles investissements pour les transports en commun, & Les villes de type C5 ont en commun de grandes surfaces despaces verts, & Les villes de type C1 ont dbut, apparemment, une politique environnementale pour le 21ime sicle : transports en commun, pistes cyclables, tri slectif,

Chapitre 5

Mthodes de classification

A) CONNAISSANCES DE BASE
Les analyses factorielles rsument, dans les grands tableaux numriques, linformation en colonnes. Les mthodes de classification, elles, ont pour but de rsumer celle de leurs lignes. Combiner analyse factorielle et classification permet un rsum complet.

1. Utilit en gographie
Les nombreuses mthodes de classification ont gnralement pour but de crer des typologies, cest dire un ensemble de classes les plus homognes possible et les plus diffrentes possible les unes des autres par leurs caractristiques sur un ensemble de variables. Ce faisant, on sappuie sur une mesure de ressemblance (multivarie) entre units statistiques. Cette forme de classification a bien sr tout son intrt en gographie puisquelle constitue les lgendes de cartes thmatiques combinant des variables. Si leur autocorrlation est forte (cest dire si les units spatiales voisines se ressemblent beaucoup), on peut forcer les algorithmes ne crer que des classes homognes et spatialement continues, aboutissant ainsi des zonations. Mais, toutes les zonations gographiques ne sappuient pas sur un principe de ressemblance. Il est aussi fort utile de crer des rgions fonctionnelles o les units spatiales sont interdpendantes. Les mmes mthodes de classification que dans le cas prcdent peuvent tre employes, la condition quon puisse mesurer (ou qualifier) diffrentes formes dinterdpendance fonctionnelle (par exemple par le truchement dindicateurs conomiques, de migrations alternantes, etc.). Toutes les mthodes de classification ne sont pas statistiques au sens troit du terme : il existe des mthodes graphiques, des mthodes fondes sur la thorie des graphes ou sur l intelligence artificielle (rseaux neuronaux, par exemple).

2. mthodes graphiques de classification


2.1 graphique cartsien Cest le graphique dun nuage de points par rapport deux axes orthogonaux (Y et X) qui peuvent tre les deux premiers axes dune analyse factorielle (o chaque point est repr par ses coordonnes en F1 et F2). Si les points du nuage sont peu nombreux, on diffrencie visuellement des groupes en fonction de leur proximit, crant ainsi des patatodes . Si les points sont nombreux, on superpose une grille au plan (en 5 ou 9 classes, cf figure 5.1).

Figure 5.1 : grilles de classification superposes un plan cartsien 2.2 classification par arborescence raisonne Cette mthode consiste crer, par raisonnement, un arbre de tri combinant 2 ou 3 variables ayant chacune peu de modalits. La combinaison peut tre graphique et manuelle si le nombre dunits trier est petit, informatique sinon (tests embots). Par exemple, un hebdomadaire a publi rcemment, pour 34 agglomrations franaises, un classement (cf chapitre 4) pour un certain nombre de critres ayant trait au dveloppement durable . Nous en avons extrait 3, relatifs lusage des transports en commun, limportance relative des pistes cyclables et des voies pitonnires. Pour chacun de ces critres, on a cod 1 les agglomrations de rang infrieur ou gal au rang 17 et 2 les autres. La combinaison de ces 3 critres binaires cre 23 classes, identifies par une lettre de A H (cf figure 5.2).

Figure 5.2 : Classification de 34 agglomrations franaises par arbre binaire sur 3 critres Il est clair quavec ce procd la nature des critres est quelconque mais que le nombre de critres et le nombre de modalits par critre doit tre trs limit, faute de quoi on aboutit trs vite une explosion combinatoire du nombre de classes finales. Par contre, le nombre dlments trier est quasiment illimit. Si le manipulateur tablit une hirarchie dimportance entre les critres (ici C1>C2>C3) et entre les modalits de chacun deux (ici M1>M2), le rsultat final est une typologie hirarchique : dans la figure 5.2, les villes de la

classe A ont un bon quipement gnral pour tenter de limiter les dplacements en voiture tandis qu loppos ceux de la classe H en ont un mauvais. Sil ny a pas de hirarchie des critres ou des modalits, le procd cre des classes dquivalence (diffrentes seulement). Dautres exemples darbres de tri peuvent tre trouvs dans des nomenclatures o chaque niveau de larborescence reprsente une subdivision plus dtaille du niveau prcdent. Ainsi la nomenclature europenne de lutilisation du sol (Corine Land Cover) comprend 3 niveaux. Au 1er niveau, on a 5 types dutilisation du sol (territoires artificialiss, agricoles, forts et milieux naturels, zones humides, surfaces en eau), le 2ime niveau du type 1 tant subdivis en 4 sous types (zones urbanises, zones industrielles ou commerciales, mines, dcharges et chantiers, espaces verts non agricoles) et le 3ime niveau du sous type 1.1 en tissu urbain continu ou discontinu. Au total, Corine Land Cover comprend 44 classes dutilisation du sol. 2.3 Diagramme triangulaire Pour que la construction dun diagramme triangulaire soit possible, il faut quexistent, pour un ensemble dunits statistiques, un caractre dont les 3 modalits somment 1 (ou 100%) : il en est ainsi, par exemple, pour la classification de sols en fonction de leur granulomtrie (% dlments grossiers, moyens, fins) ou pour une typologie dunits spatiales en fonction de la rpartition de leur population active en 3 secteurs (cf Figure 5.3).

(source : Parc National des Ecrins et INSEE)

Figure 5.3 : Typologie des communes du P.N. des Ecrins en selon les 3 secteurs demploi 2.4 Matrice ordonnable de J.Bertin Une matrice dinformation de n units statistiques en ligne et p variables en colonne peut tre reprsente visuellement sous forme de matrice de Bertin o chaque case ij porte un niveau de gris ou un rectangle proportionnel la valeur de la variable j pour lunit i. La permutation (manuelle ou informatique) des lignes et/ou des colonnes de la matrice permet de crer des groupes visuellement homognes. La figure 5.4 reprsente un exemple particulirement simple o lon classifie quelques pays en fonction de la composition de leur cheptel.

(source : http://www.sciences-po.fr/)

Figure 5.4 : exemple de matrice ordonnable de Bertin Le grand avantage des mthodes graphiques de classification est leur ct artisanal : le manipulateur apprend / comprend pendant la ralisation du graphique, surtout si celle ci est opre manuellement. En somme, les mthodes graphiques prsentent un intrt didactique mais aussi nombre de limitations : faiblesse opratoire en termes de nombre dunits statistiques et/ou de variables, absence (parfois) de critre explicite de rangement, absence (souvent) daides linterprtation, rsultats variables selon les utilisateurs,

3. Mthodes statistiques de classification


Comme les analyses factorielles, les mthodes classificatoires de la statistique descriptive sous entendent lexistence dun nuage de n points par rapport p variables et de mtriques (adaptes la nature des variables) pour mesurer la distance multivarie entre points du nuage. Il existe, en statistique descriptive, un grand nombre de ces mthodes, dont on nvoque ici que les plus prouves. 3.1 Algorithmes de convergence Lide gnrale de tous ces algorithmes est ditrer un procd de classification jusqu stabilit des rsultats lors de deux itrations successives (on parle alors de convergence). 3.1.1 Agrgation autour de centres mobiles

& Phase dinitialisation Le nombre k de classes est fix a priori et une unit statistique reprsentative de chacune est fournie par lutilisateur ou tire au hasard. Le choix de ces reprsentants nest quune initialisation de lalgorithme car ils seront remis en cause ultrieurement, par contre le choix du nombre de classes est dfinitif (si le rsultat est cartographier, ce nombre ne doit pas tre trop grand). Le calcul de la distance (euclidienne ou du Khi selon la nature des variables) permet daffecter chacune des n-k units statistiques aux k reprsentants de groupes. & Phases ultrieures Le centre de gravit de chacun des k groupes est recalcul. On dtermine alors la distance des n lments aux k centres de gravit, ce qui permet daffecter chacun de ces n lments au groupe dont il est le plus proche (avec la mtrique choisie).

Ces calculs sont recommencs jusqu ce que deux itrations successives produisent la mme partition en classes : le rsultat final est alors obtenu. & Aides linterprtation Tous les logiciels fournissent lappartenance des n units statistiques aux k classes (quon peut stocker comme une variable qualitative nominale code de 1 k) et le rapport variance intra-classes / variance totale, qui permet de juger de la qualit globale de la classification. Beaucoup fournissent la valeur sur les p variables du centre de gravit de chaque groupe, ce qui permet de diffrencier thmatiquement les k classes. Certains logiciels fournissent aussi lcart type sur les p variables de chaque groupe et, parfois, la somme des p carts types pour chaque classe, ce qui indique leur homognit ou htrognit ( la condition que les p variables soient non corrles, ce qui est le cas des axes dune analyse factorielle). Ces diverses informations permettent non seulement de cartographier la typologie multivarie obtenue mais aussi de superposer cette carte une reprsentation de la plus ou moins grande fiabilit (homognit) de chaque type. - Exemple De source INSEE, on dispose de donnes sur le type de contrat de travail de la population active masculine et fminine des rgions franaises (hormis la Corse). Les variables retenues sont les suivantes, pour les hommes comme pour les femmes :
H : Hommes F : Femmes cdi : Contrat Dure Indtermine Int : Intrim Stage : stage cdd : Contrat Dure Dtermine f p : fonction publique

NB : On pourrait dduire de ces indicateurs les % demplois prcaire et stable (CDI + f.p.) par rgion : ce nest pas ici le but. Nous illustrerons les diffrents procds de classification par convergence partir de ce mme tableau.

Nous avons effectu sur ce tableau deffectifs croisant 21 rgions et 10 variables une AFC : nous en avons retenu les deux premiers axes (F1 : 52% de variance, F2 : 30%). Le plan des axes 1 et 2 est reprsent figure 5.5.

Figure 5.5 : 1er plan factoriel de lAFC sur lexemple

La figure 5.5 met en vidence : la sur-reprsentation des emplois de la fonction publique et des CDD Hommes en Languedoc, Provence, Limousin, Midi Pyrnes, lopposition avec des rgions industrielles o les CDI et linterim sont relativement abondants comme la Haute Normandie, les Pays de Loire, la Franche Comt, la Picardie, Rhne-Alpes, lIle de France est, elle, originale par la place que tiennent les CDI fminins.

On procde dabord une classification par agrgation autour de centres mobiles. Les variables sont les coordonnes des rgions sur les axes 1 et 2 de lAFC. Le nombre de classes choisi est de 4 et 4 reprsentants sont tirs au hasard pour initialiser lalgorithme. Le rapport variance inter-classes / variance totale est de 79.6%, ce qui indique une assez bonne sparation en classes, globalement relativement homognes (variance intra-classes = 20.4%). Les classes obtenues sont les suivantes : classe 1 : Ile de France et Rhne-Alpes (classe globalement homogne, marque par limportance relative des emplois en CDI), classe 2 : Auvergne, Basse Normandie, Bourgogne, Bretagne, Centre, Champagne, Lorraine, Poitou (classe nombreuse, htrogne et assez moyenne car situe au centre du nuage de points), classe 3 : Alsace, Franche Comt, Haute Normandie, Nord, Pays de Loire, Picardie (classe de rgions industrielles o sont relativement abondants lintrim et les CDI masculins), classe 4 : Aquitaine, Languedoc, Limousin, Midi Pyrnes, Provence (classe o sont surreprsents lemploi dans la fonction publique et les CDD masculins).

Cette typologie nest pas optimale (aucune dailleurs ne peut ltre !), notamment cause de lhtrognit de la classe 2. Il faut donc envisager des mthodes mieux discriminantes. Il existe des variantes de ces algorithmes dagrgation autour de centres mobiles : par exemple, celle dnomme k means diffre lgrement de celle dcrite ci-dessus en ce quelle recalcule le centre de gravit dun groupe chaque fois quun nouvel lment lui est affect au lieu dattendre la fin des affectations pour tous les recalculer. Cet ajustement permanent des centres de gravit des classes peut mener des groupes plus homognes.

Les mthodes dagrgation autour de centres mobiles prsentent le grand avantage de lefficacit : on peut, en effet, les employer sur de trs grands tableaux avec des temps de calcul raisonnables. Par contre, la qualit de leur rsultat final dpend des choix initiaux (nombres de classes, reprsentant de chacune). Do lide de combiner plusieurs partitions initialises par des choix diffrents afin dobtenir des classes plus homognes. 3.1.2 Algorithme des nues dynamiques

Lide de base est deffectuer plusieurs partitions par agrgation autour de k centres mobiles (reprsentants choisis ou tirs au hasard) et de les intersecter , ce qui affecte aux classes finales les lments ayant toujours figur dans la mme classe au cours des diverses partitions effectues. Naturellement, les classes finales doivent comporter plus d1 lment (sinon, ce ne

sont pas des classes mais des lments isols). Lobjectif des nues dynamiques est donc de rechercher des groupements stables et plus fiables (mais nombre de classes plus grand ou lments isols). Pratiquons, sur les mmes 2 premiers axes factoriels de lACP, une seconde classification par agrgation autour de 4 centres mobiles (autres reprsentants tirs au hasard) ; les classes obtenues (avec une variance explique, 80.8%, lgrement meilleur que le prcdent) sont : classe 1 : Ile de France seule classe 2 : mme composition que la classe 4 prcdente, classe 3 : mme composition que la classe 3 prcdente, moins le Nord et plus Centre et Rhne-Alpes, classe 4 : mme composition que la classe 2 prcdente, plus le Nord et moins le Centre.

Intersectant les 2 classifications, on obtient donc 4 lments isols, dappartenance instable (Ile de France, Rhne-Alpes, Centre et Nord), et 3 classes stables : - groupe A compos de Alsace, Franche Comt, Haute Normandie, Pays de Loire, Picardie (sur-reprsentation de lintrim et des CDI masculins), - groupe B compos de Aquitaine, Languedoc, Limousin, Midi Pyrnes, Provence (surreprsentation de lemploi dans la fonction publique), - groupe C compos de Auvergne, Basse Normandie, Bourgogne, Bretagne, Champagne, Lorraine, Poitou (groupe plus htrogne, de caractristiques moyennes). Lalgorithme des nues dynamiques prsente lavantage daboutir des classes fiables mais il a aussi, surtout sil est appliqu de trs grands tableaux, des inconvnients : celui de crer un grand nombre de classes ( effectif ingal) et/ou de nombreux lments isols (quon peut tenter de rattacher au groupe le plus proche si lon dsire une partition ou laisser comme lments hors classe). 3.2 Classification Arborescente Hirarchique (CAH) Le principe gnral de lalgorithme est dagrger progressivement tous les lments deux deux en fonction de leur ressemblance multivarie. Au dbut du processus, les lments sont des units statistiques individuelles puis ce sont ensuite des groupes dlments. Si le tableau initial comporte p variables et n individus statistiques, aprs n-1 tapes tous les lments ne forment plus quun seul groupe. Lutilisateur dispose alors dune arborescence des regroupements successifs : cest sur cette arborescence quil choisira le nombre de classes et, donc, leur composition. A partir de cette architecture gnrale existent des variantes car lutilisateur doit choisir : - une distance multivarie entre individus statistiques, - un critre dagrgation des groupes dindividus.

3.2.1 choix dune distance entre individus statistiques Ce choix est fonction de la nature des variables et des intentions de lutilisateur : distance du khi sur des tableaux de contingence (comme en AFC),

distance euclidienne multivarie pour des variables quantitatives (comme en ACP) ou distance euclidienne au carr (pour loigner les individus valeurs trs diffrentes), distance rectilinaire ( de Manhattan ) pour, au contraire, les rapprocher , autre combinaison de diffrences partielles.

Les logiciels offrent en gnral le choix entre distances euclidienne ou du Khi. Ces distances multivaries tant des additions de diffrences sur chacune des p variables, il faut que ces p variables soient indpendantes (non corrles), faute de quoi laddition na gure de sens. Cest pourquoi la CAH a souvent pour variables dentre les axes factoriels dune ACP ou dune AFC et, alors, la distance entre individus est la distance euclidienne. 3.2.2 choix dun critre dagrgation L encore lutilisateur devra choisir une des variantes suivantes : plus proche voisin : la distance (multivarie) entre classes Ci et Cj est la plus petite distance sparant un individu de Ci dun individu de Cj (les groupes cres avec cette stratgie sont de longues chanes, peu homognes), diamtre maximum : la distance (multivarie) entre Ci et Cj est la plus grande distance sparant un individu de Ci dun individu de Cj (stratgie fonctionnant bien si le nuage de points est constitu de groupes bien distincts et fonctionnant mal si ces groupes sont allongs ), distance moyenne entre tous les individus de Ci et de Cj (mthode efficace si les groupes sont bien distincts dans le nuage de points) ; cette distance moyenne entre groupes peut tre pondre (par leur taille) ou non, distance au centre de gravit des groupes (pondre ou non par leur taille), mthode bien adapte aux cas de groupes de taille trs diffrente, mthode de Ward : elle cherche minimiser la variance intra-classes (donc maximiser la variance inter-classes) pour crer des groupes homognes les plus diffrents possibles les uns des autres.

3.2.3 Exemple Considrons le tableau 5.1 qui nous fournit plusieurs informations : le rgime des prcipitations mensuelles moyennes de 12 villes de Guine (en % de leur total annuel moyen de prcipitations), le total annuel moyen de prcipitations (en millimtres deau), le rang des 12 villes selon leur total annuel moyen de prcipitations, la classe laquelle appartiennent ces 12 villes en fonction de leur rgime mensuel (en %) de prcipitations.

La mthode de classification utilise est la CAH avec distance euclidienne et critre dagrgation de Ward (minimisation de la variance intra-classes).

janvier fvrier mars avril mai juin juillet aot sept. oct. nov. dec. total P. rang cls Mamou Kissidougou Macenta Kankan Faranah Lab N'Zrkor Kindia Koundara Siguiri Bok Conakry 0.1 0.4 0.5 0.1 0.1 0.1 0.5 0.1 0.0 0.0 0.0 0.0 0.3 1.0 2.0 0.1 0.2 0.2 2.4 0.1 0.0 0.2 0.0 0.0 1.2 2.4 3.6 1.6 0.8 0.5 6.1 0.6 0.0 0.4 0.0 0.1 4.1 7.5 4.6 4.7 2.1 8.7 2.5 0.2 2.6 0.2 0.5 8.7 11.6 8.3 10.3 9.1 13.8 9.0 14.1 8.5 14.2 9.5 10.8 9.1 12.5 4.5 12.5 7.4 13.7 4.5 11.0 3.6 10.1 18.6 22.6 18.8 11.2 13.7 17.5 17.0 12.8 15.1 19.6 16.9 17.9 21.8 20.8 19.2 20.7 18.0 9.9 8.9 8.1 2.7 4.0 4.8 1.2 2.9 8.1 4.2 2.0 0.8 0.7 2.9 1.8 0.3 1791.7 0.8 1935.0 1.5 2736.3 0.1 1466.1 0.0 1516.4 0.1 1642.3 1.3 1839.0 0.4 1953.1 0.0 1098.1 0.1 1238.5 0.1 2315.4 0.2 3775.8 7 5 2 10 9 8 6 4 12 11 3 1 A A A B B B B B C C C D 6.7 10.7 13.3

17.2 19.7 19.6 11.6 12.3 16.2 17.7 10.3 19.0 24.2 18.1 11.5 22.8 27.8 23.9 21.4 25.8 19.5 30.1 29.4 16.4 7.5 8.2 7.8

20.9 26.0 20.6 13.8

(source : Mto-Guine)

Tableau 5.1 : Rgime moyen de prcipitations pour 12 villes de Guine La figure 5.6 fournit larbre complet des regroupements successifs (jusqu une seule classe finale). La longueur dun lien entre deux nuds de larbre indique laugmentation de la variance intra-classes lors dun regroupement : pour obtenir des classes assez homognes, il convient donc de couper les branches provoquant une forte augmentation de variance. On obtient ainsi 4 classes (A, B, C et D).

Figure 5.6 : arbre des regroupements successifs (critre dagrgation de Ward)

Figure 5.7 : carte issue de la CAH (et carte physique explicative)

Figure 5.8 : rgimes mensuels de prcipitations des 4 classes de la CAH Des figures 5.7 et 5.8, on peut tirer les observations suivantes : la classe A, qui correspond pour lessentiel la dorsale guinenne, a des moyennes annuelles de prcipitations de lordre de 2 m et ses maxima de saison humide (t) sont moins accuss quailleurs, la classe B, correspondant aux plaines et massif (Fouta Djalon) intrieurs, a des prcipitations annuelles de lordre de 1,7 m avec des maxima dt moins accuss quailleurs (comme la classe A), la classe C, correspondant au Nord du pays, plus sec (prcipitations de lordre de 1,5m) a un rgime plus contrast : saison sche plus longue et maxima relatifs dt plus nets, la classe D, reprsente ici par Conakry seulement, correspond la zone ctire, fortement arrose (3,8 m) et aux saisons sche et humide nettement marques.

B) EXERCICES CORRIGES
Exercice 1
Le service statistique des Nations Unies calcule chaque anne un ensemble dindicateurs qui, combins, dfinissent pour tous les pays du monde un Indice de Dveloppement Humain plus parlant, en termes de bien tre social, que le simple Produit National Brut par habitant. Nous avons extrait du rapport 2004 du Dveloppement Humain de lONU 8 indicateurs : esp_vie, esprance de vie la naissance exprime entre 0 et 1 (maximum possible), educ, combinant taux dalphabtisation des adultes et % des jeunes scolariss (exprime aussi entre 0 et 1), cout_educ, % du PNB national ddi lducation, egal_sexe, indice (0-1) mesurant le niveau dgalit hommes femmes, activ_F, % de femmes adultes ayant une activit conomique, Pnb/hb, indice (0-1) de Produit National Brut par habitant, Gini, indice mesurant lingalit de distribution des revenus dans la population de chaque pays (0 : galit absolue, 100 :ingalit absolue), Chom_lg, % de la population adulte en chmage de longue dure.

Le tableau 5.2 fournit les valeurs de ces indicateurs pour 25 pays europens : Union Europenne moins Chypre et Malte (donnes manquantes) plus Suisse et Norvge.

esp-vie Allemagne Autriche Belgique Danemark Espagne Estonie Finlande France Grce Hongrie Irlande Italie Lettonie Lithuanie Luxembourg Norvge Pays Bas Pologne Portugal Royaume Uni Slovaquie Slovnie Sude Suisse Tchquie 0.88 0.88 0.89 0.85 0.89 0.76 0.87 0.89 0.89 0.77 0.86 0.89 0.75 0.78 0.87 0.89 0.88 0.80 0.84 0.87 0.80 0.84 0.91 0.90 0.83

educ cout_educ egal_sexe activ_F pnb/hb Gini chom_lg 0.97 0.96 0.99 0.98 0.97 0.94 0.99 0.97 0.92 0.93 0.96 0.94 0.93 0.93 0.9 0.98 0.99 0.94 0.93 0.99 0.91 0.94 0.99 0.94 0.89 4.6 5.9 5.8 8.3 4.4 7.4 6.3 5.7 3.8 5.1 4.3 5.0 5.9 5.0 4.1 6.8 5.0 5.4 5.8 4.6 4.1 5.0 7.6 5.6 4.4 0.916 0.915 0.928 0.92 0.901 0.800 0.923 0.922 0.874 0.826 0.908 0.903 0.789 0.801 0.907 0.937 0.926 0.826 0.870 0.920 0.829 0.871 0.931 0.918 0.842 69 65 65 84 55 82 86 76 57 72 51 58 81 79 57 84 66 80 70 74 84 80 89 66 84 0.91 30.0 0.92 23.1 0.92 25.0 0.93 24.7 0.87 32.5 0.74 37.6 0.91 25.6 0.91 32.7 0.84 32.7 0.79 24.4 0.93 35.9 0.9 27.3 0.69 32.4 0.70 32.4 1.00 26.9 0.94 25.8 0.92 32.6 0.74 31.6 0.85 35.6 0.90 36.1 0.78 19.5 0.85 28.4 0.90 25.0 0.94 33.1 0.81 25.4 4.1 0.8 3.4 0.8 4.6 7.9 2.2 3.0 5.0 2.6 1.2 5.3 9.8 9.5 0.7 0.2 0.8 9.6 1.8 1.2 11.1 4.1 1.1 0.6 3.7

(source : ONU, 1999-2002)

Tableau 5.2 : Quelques indicateurs pour le calcul de lindice de dveloppement humain Les 8 variables sont quantitatives, exprimes dans des units de mesure diffrentes : on les a donc rsumes par une ACP centre-rduite. Lexamen de la matrice de corrlation entre variables fait apparatre les principales liaisons suivantes (tableau 5.3).
Fortes corrlations positives Esp_vie egal_sexe Esp_vie pnb/hb Educ egal_sexe Pnb/hb egal_sexe Fortes corrlations ngatives Esp_vie chom_lg Egal_sexe chom_lg Pnb/hb chom_lg

Tableau 5.3 : Principales corrlations des 8 variables du tableau 5.2 On a conserv les 3 premiers axes de lACP dont les % de variance sont : - axe 1 : 51% - axe 2 : 23% - axe 3 : 13% Au total, ils rsument donc 87% de linformation du tableau 5.2. Sur les coordonnes des 25 pays sur ces trois premiers axes, nous avons pratiqu une Classification Arborescente Hirarchique (CAH) selon la mthode de Ward (maximisation de la variance inter-classes). On fournit sous forme graphique (figures 5.9 et 5.10) les lments permettant linterprtation de lACP (coordonnes et vecteurs de corrlation sur le plan F1-F2) et de la CAH (dendrogramme des regroupements avant forte augmentation de variance intra classes).

Figure 5.9: Coordonnes et vecteurs de corrlation sur le plan des axes F1 et F2

Figure 5.10: Dendrogramme de la CAH opre sur les 3 axes F1,F2,F3

Questions
1) Quelles sont les hypothses sous jacentes la slection des variables ? 2) Pourquoi avoir fait une CAH sur les axes de lACP (et non directement sur les 8 variables) ? Pourquoi une ACP et non une AFC ? Pourquoi sur variables standardises ? 3) Interprtez les axes factoriels laide de la figure 5.9 4) Un algorithme de convergence autour de 5 centres mobiles a aussi t utilis avec les coordonnes des 25 pays sur F1, F2 et F3. En combinant les 2 classifications: Portugal et Allemagne sont passs de la classe 3 la classe 4 La Slovnie est passe de la classe 3 la classe 2 quen induire sur les rsultats de la CAH ? 5) Interprtez les 5 classes de la CAH (cres sur les coordonnes de F1, F2, F3).

Rponses suggres
Question 1 Les 8 variables retenues ressortent de 5 thmes : & dure moyenne de vie, paramtre dmographique essentiel du dveloppement social dun pays, & effort pour lducation, apprhend par le % du revenu national qui lui est consacr et ses effets (alphabtisation, % de la population jeune scolarise) : cet effort est clairement un gage de dveloppement culturel, & galit entre les sexes devant le travail et les fruits du travail, & revenu moyen par habitant, donnant plus ou moins de possibilits datteindre des formes de bien tre social, & indices dingalit et dinefficacit conomiques vus travers lindice de Gini de concentration des revenus et lexclusion du march du travail. Les statisticiens de lONU ont combin ces indices (et dautres) pour crer par addition une variable numrique, lindice de dveloppement humain ( valeurs comprises entre 0 et 1), suggrant une hirarchie unique entre les pays du monde. Notre hypothse est que, sans nier cette hirarchie, on peut affirmer aussi quil en existe des formes diffrentes et quil ny a pas ncessairement sens pratiquer des additions entre indicateurs : par exemple, une grande ingalit hommes femmes est elle compense par un haut revenu moyen et aboutit on ainsi un bon niveau de dveloppement humain ? Question 2 Pratiquer une CAH sur un tableau de donnes implique que ses variables sont indpendantes (leurs inter - corrlations montrent quelles ne le sont pas). En effet, toute CAH commence par le calcul, entre individus statistiques, de distances multivaries qui sont des additions de diffrences sur chaque variable. Si les variables sont redondantes, le rsultat de la typologie est difficilement interprtable. Faire une CAH sur des axes factoriels garantit lindpendance : additionner des diffrences partielles a donc un sens. Ici, lanalyse factorielle pratique est une ACP car les variables sont quantitatives ; exprimes dans des units de mesure diffrentes, elles ont t centres rduites (=standardises). Question 3 Aucune variable ni aucun pays ntant mal reprsents par lACP, seules les corrlations variables axes et les coordonnes des pays ont t fournies (figure 5.9). & Laxe 1 (la moiti de linformation du tableau 5.2) oppose des pays dEurope du Nord et alpine (Norvge, Sude, Pays Bas, Belgique, Suisse, Autriche, Danemark) bonne galit hommes femmes, fort Pnb/hb et esprance de vie longue des pays dEurope centrale (Pays Baltes, Slovaquie, Pologne, Hongrie, Tchquie) ayant un fort % de chmeurs de longue dure et de plus faibles valeurs sur esprance de vie, Pnb/hb et galit des sexes. Cet axe 1 pourrait sintituler du modle scandinave aux effets du protectorat sovitique . & Laxe 2 (environ de linformation) met en valeur le taux dactivit fminine et lducation opposant les pays nordiques (Danemark, Sude, Norvge, Finlande) des pays

(Grce, Irlande, Luxembourg, Espagne) o taux dactivit fminine et effort pour lducation sont relativement plus faibles. & Laxe 3 (13% de linformation) met surtout en vidence lindice de Gini qui, ici, mesure lingalit de distribution des revenus : Lettonie, Slovnie, Grce, Suisse, France prsentent une distribution assez ingalitaire alors que celles du Danemark, de Norvge, des Pays Bas sont bien plus galitaires. Ces 3 rsums nous mnent loin dun indicateur hirarchique unique : laxe 1 rsume un tat de dveloppement en termes de revenu moyen, desprance de vie, dgalit des sexes, de faible taux de chmage longue dure (peu dexclusion sociale), laxe 2 insiste plus sur les ferments de dveloppement futur (effort pour lducation, taux dactivit fminine) tandis que laxe 3 met en valeur lingalit plus ou moins forte de distribution des revenus (complment indispensable aux Pnb/habitant qui sont des revenus moyens). Question 4 Globalement, la typologie issue de la CAH est fiable puisque 22 pays sur 25 se retrouvent dans la mme classe avec lalgorithme de nues dynamiques. Lanalyse de variance sur les rsultats de celui-ci donne 87% de variance inter-classes (13% de variance intra-classes) : les 5 classes de la CAH sont donc globalement homognes et bien distinctes les unes des autres. Seule la classe 3 est moins homogne puisque Slovnie, Portugal et Allemagne sen sont spars. La relative htrognit de cette classe se lit bien, dailleurs, sur la figure 5.9. Les 4 autres classes sont, quant elles, restes de mme composition. Question 5 Pour interprter la CAH, il faut exprimer loriginalit de chaque classe et ses principales diffrences aux autres. On a calcul pour chaque classe sa moyenne sur les 8 variables du tableau 5.2, moyennes que lon a standardises pour pouvoir les comparer (figure 5.11).

Figure 5.11: Ecarts aux moyennes des 8 variables pour les 5 classes de la CAH

& Classes 1 et 2 sont assez semblables du point de vue de leurs principales caractristiques : - faible esprance vie, - faible galit des sexes, - assez grande importance du chmage de longue dure, mais elles diffrent par : - leur Pnb/hb, infrieur en classe 1, - leffort pour ducation, scolarisation et alphabtisme, infrieurs en classe 2, - le taux dactivit fminine, infrieur en classe 2. & Classes 3 et 4 prsentent, de mme, un certain nombre de similitudes : - forts Pnb/hb et esprance vie, - assez bonne galit de la distribution des revenus, - assez faible taux dactivit fminine, mais diffrent par : - taux dactivit fminine plus faible en classe 3, - effort pour ducation, scolarisation et alphabtisme infrieurs en classe 3. & La classe 5 a tous les voyants du dveloppement au vert et, principalement, tout ce qui touche lducation, au taux dactivit fminine et au revenu moyen par habitant. Une carte de cette typologie (figure 5.12) montre que ces classes sont assez bien zones .

Figure 5.12 : Cartographie de la typologie obtenue par CAH La carte montre bien lexistence de 3 zones principales de dveloppement humain en Europe: - les pays nordiques, - lEurope centrale des nouveaux membres, - lEurope des quinze ( laquelle sagrge la Slovnie).

Exercice 2
Des tudiants ont effectu des relevs de terrain sur le Mont Rachais (1046 m) qui surplombe directement la ville de Grenoble. Le Rachais, retombe mridionale du massif pralpin calcaire de la Chartreuse, tait autrefois cultiv (vigne, notamment). Aujourdhui, des quartiers rsidentiels ont envahi le bas des pentes et une fort de recolonisation leur succde en altitude. Lespce arbore dominante est le chne pubescent. Le tableau 5.4 prsente 2 facteurs qui lui sont favorables (altitude, ancienne utilisation du sol) pour un chantillon reprsentatif de 30 placettes en position dadret entre 215 m et 700 m(source : G.Rovera & C.Corona). La Figure 5.13 localise ces 30 placettes par rapport aux principales courbes de niveau et parcelles cadastrales.

Figure 5.13 : Localisation des 30 parcelles de relev (source : G.Rovera & C.Corona) Les caractres du tableau 5.4 ont t cods numriquement en 3 modalits : altitude : 1 : 215-400 m, 2 : 401-550 m 3 : 551-700 m utilisation du sol en 1850 : 1 : vigne-verger 2 : fort 3 : cultures couverture par chnes pubescents : 1 : 1-25% 2 : 26-50% 3 : >50%

Les 9 modalits du tableau 5.4 ont t rsums par les 3 premiers facteurs dune AFCM qui prennent respectivement en compte 41%, 28% et 18% de la variance (donc 87% au total).

N site altitude Sol 1850 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 3 2 2 2 3 3 3 3 1 1 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 3 2 3 3 2 3 3 3 2 1 2 2 3 3 2 2 1 3

chnes 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 3 2 3 3 2 3 3 3 2 1 1 3 3 1 3

(source : G.Rovera & C.Corona)

Tableau 5.4 : N de classes des parcelles enqutes Le tableau 5.5 fournit les aides linterprtation des 9 modalits et leur effectif. Les valeurs juges reprsentatives (coordonnes, contributions la variance de laxe, qualits de reprsentation) sont en caractre gras.
modalit alt. / 3 alt. / 1 alt. / 2 1850 / 1 1850 / 3 1850 / 2 chn / 1 chn / 2 chn / 3 n f1 ctr1 qr1 f2 ctr2 qr2 f3 ctr3 qr3

10.00 -0.83 7.00 -0.71 9.00 -0.38

9.29 0.34 -0.92 16.98 0.42 -0.37 0.27 0.01 0.11 3.85 0.12 -0.03 4.82 0.16 1.50 31.75 0.68 0.31 1.72 0.06 1.35 32.92 0.78 -0.22 0.05 0.00 0.07

4.18 0.07 0.52 0.01 2.13 0.03 0.04 0.00 1.38 0.02 2.59 0.04 0.25 0.01

13.00 1.02 18.35 0.80 -0.10 14.00 0.89 14.94 0.69 -0.37

7.00 -1.30 15.85 0.51 -0.99 13.93 0.30 0.35 17.00 0.81 15.06 0.86 0.04 4.00 -1.25 8.42 0.24 -0.18 9.00 -0.98 11.56 0.41 0.01

0.26 0.00 2.14 56.48 0.71 0.00 0.00 -1.08 32.44 0.50

Tableau 5.5 : Rsultats de lAFCM du tableau 5.4 (modalits) Le tableau 5.6 fournit les mmes informations pour les 30 placettes, plus : - un numro de classe obtenu par algorithme de convergence, - un numro de classe obtenu par classification arborescente hirarchique sur les 3 premiers axes de lAFCM.

Site N

f1 1 0.32 2 1.00 3 1.00 4 1.00 5 1.00 6 1.00 7 1.00 8 1.00 9 1.00 10 1.00 11 1.00 12 1.00 13 -0.10 14 -1.20 15 -0.10 16 -0.76 17 -1.24 18 -0.76 19 -0.76 20 -0.86 21 -1.14 22 -0.34 23 -1.14 24 -1.24 25 0.54 26 0.54 27 -1.14 28 -1.14 29 0.32 30 -0.80

ctr1

qr1

f2

ctr2

qr2

f3

ctr3

qr3 conv. cah 1 1 1 1 1 1 1 1 1 1 1 1 3 4 3 3 4 3 3 3 2 2 2 4 1 1 2 2 1 2 4 4 4 4 4 4 4 4 4 4 4 4 3 2 3 3 2 3 3 2 1 1 1 2 3 3 1 1 4 1

0.41 0.08 -0.56 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 4.05 0.93 -0.19 5.80 0.33 0.15 2.33 0.22 1.28 6.22 0.39 -0.94 2.33 0.22 1.28 2.33 0.22 1.28 2.99 0.18 1.20 5.25 0.51 -0.86 0.46 0.06 -0.57 5.25 0.51 -0.86 6.22 0.39 -0.94 1.16 0.20 0.58 1.16 0.20 0.58 5.25 0.51 -0.86 5.25 0.51 -0.86 0.41 0.08 -0.56 2.60 0.29 0.20

1.90 0.24 -0.18 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09 0.23 0.04 0.09

0.31 0.03 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.01 0.07 0.00 0.07 0.00 2.79 0.11 2.79 0.11 2.79 0.11 3.47 0.15 6.23 0.37 3.47 0.15 0.00 0.00 0.00 0.00 3.47 0.15 3.47 0.15 0.31 0.03 7.97 0.39

0.04 0.00 1.30 10.17 0.79 0.09 0.04 0.00 1.30 10.17 0.79 0.09 9.95 0.62 -0.55 9.95 0.62 -0.55 9.95 0.62 -0.55 4.43 0.29 -0.61 2.00 0.18 -0.82 4.43 0.29 -0.61 2.01 0.23 -0.02 2.01 0.23 -0.02 4.43 0.29 -0.61 4.43 0.29 -0.61 1.90 0.24 -0.18 0.23 0.02 -0.93

0.13 0.00 1.55 22.33 0.55

5.34 0.22 1.18 12.78 0.35

8.69 0.35 1.24 14.17 0.38

5.34 0.22 1.18 12.78 0.35

Tableau 5.6 : Rsultats de lAFCM du tableau 5.4 (placettes)

Figure 5.14 : Dendrogramme de la CAH sur les 3 axes factoriels du tableau 5.6

Questions
1) 2) 3) 4) Pourquoi avoir procd une AFCM avant de classifier les 30 sites ? Interprtez les 3 axes de cette AFCM Interprtez les 4 classes issues de la CAH Comparez les rsultats de la CAH avec ceux (en 4 classes aussi) issus de lalgorithme de convergence : quen dduire ? 5) Cartographiez linterpolation spatiale issue de cette comparaison.

Rponses suggres
Question 1 Une analyse factorielle a t pratique avant la CAH pour rendre les super-variables (que sont les axes factoriels) indpendantes et pouvoir donc calculer des diffrences globales entre les 30 placettes chantillon en additionnant des diffrences partielles. Lanalyse factorielle adapte est ici lAFCM car les 3 caractres (tranche daltitude, utilisation du sol en 1850, taux de couverture par chnes pubescents) sont des variables catgorielles c.a.d. des variables peu de modalits connues individu par individu. Une ACP, adapte des variables quantitatives continues, tait exclue de mme quune AFC simple, adapte une distribution bivarie (croisement de seulement 2 caractres connus par modalits). Question 2 Linterprtation des coordonnes des placettes sur les axes factoriels nest pas ici fondamentale dans la mesure o elles ne sont que reprsentatives de leur voisinage (et non des entits significatives en elles mmes). On peut donc se contenter de ninterprter ces axes quen termes de modalits (tableau 5.5). & Laxe 1 (41% de la variance) oppose les placettes jadis en vigne-verger, situes basse altitude (N 2 12), faiblement colonises par le chne pubescent celles fortement couvertes de chnes pubescents et situes au dessus de 550 mtres daltitude. & Laxe 2 (28% de la variance) oppose des parcelles daltitude moyenne (400-550 mtres) cultives en 1850 des parcelles daltitude plus leve dj en fort en 1850. & Laxe 3 (18% de la variance) oppose des parcelles densit moyenne (25-50%) de chnes pubescents (N 14, 17, 20, 24) dautres (N 22, 30) o cette densit est suprieure 50%. Question 3 Pour interprter les 4 classes issues de la CAH, il est bon de construire un tableau reprsentant, pour chacune, la frquence des 9 modalits (tableau 5.7) et, ventuellement, une reprsentation graphique (figure 5.15) qui en facilite la lecture.

alt-1 alt-2 alt-3 1850-1 1850-2 1850-3 chen-1 chen-2 chen-3 c1 0 0 100 16.5 67 16.5 0 0 100 c2 0 50 50 0 75 25 0 100 0 c3 71.5 28.5 0 0 0 100 57 43 0 c4 84.5 15.5 0 100 0 0 100 0 0

Tableau 5.7 : Frquence des 9 modalits dans chacune des 4 classes de la CAH

Figure 5.15 : Reprsentation graphique de ces frquences & La classe C1 est compose de 6 parcelles toutes plus de 550 mtres et forte densit de chnes pubescents dont lutilisation du sol en 1850 tait au 2/3 de la fort. & La classe C2, comprenant 4 parcelles, a pour point commun entre elles un taux moyen de recouvrement en chnes pubescents : 3 dentre elles taient en fort en 1850. Cette classe est htrogne du point de vue des altitudes. & La classe C3 est compose de 7 parcelles, la plupart basse altitude et toutes en cultures en 1850 : elles sont aujourdhui en voie de colonisation par le chne pubescent. & La classe C4 est compose de 13 placettes (43% de leffectif total). Elle regroupe des parcelles jadis en vigne-verger, aujourdhui faible proportion de chnes pubescents et trs majoritairement de faible altitude (donc proches des habitats). Si lon focalise lattention sur la densit de chnes pubescents : & il est assez faiblement reprsent dans les placettes de type C2 ou C4 (daltitude moyenne ou haute), & dans celles de type C3 (jadis totalement cultives), la recolonisation est moyenne, & dans celles de type C1, recolonisation par le chne pubescent dense de toutes les parcelles qui ntaient pas dj en fort il y a 150 ans. Question 4 Comparer la classification issue de la CAH avec celle issue de lalgorithme de convergence permet de voir quelles placettes figurent ensemble dans la mme classe avec les deux mthodes : ces classes croises sont fiables par leur composition tandis que celles contenant des parcelles qui ont chang de classe dune mthode lautre le sont beaucoup moins. Pour croiser les 2 typologies en 4 classes, on construit le tableau 5.8 o les cases contiennent les numros de parcelles de la typologie croise.

CAH-C1 Conv-C1 Conv-C2 Conv-C3 Conv-C4 effectifs 21,22,23,27,28,30

CAH-C2

CAH-C3 25,26 13,15,16,18,19 7

20 14,17,24 4

CAH-C4 effectifs 1!12, 29 15 ! 6 6 3 13 30

Tableau 5.8 : croisement des 2 typologies Le croisement des 2 typologies est globalement rvlatrice dune bonne homognit des classes dans la mesure o 10% seulement (3/30) des placettes ont chang daffectation dune typologie lautre : les placettes numro 20, 25 et 26 (ces 2 dernires tant isoles dans langle sud est). La question qui se pose maintenant est de savoir si les placettes classes dans le mme type sont gographiquement proches les unes des autres (formant des zones homognes) ou disperses sans ordre spatial visible. Question 5 Il existe des mthodes dinterpolation spatiale mais elles sont relativement complexes : on procdera donc une interpolation graphique main leve sur la figure 5.13.

Figure 5.16 : Projection de la typologie par CAH sur le croquis de relevs de terrain Globalement, il y a une forte autocorrlation spatiale sur la figure 5.16 : les placettes appartenant la mme classe sont gographiquement voisines, ce qui autorise un essai de hirarchie et de combinaison des facteurs expliquant le taux de recouvrement en chnes pubescents. Le recouvrement maximum est celui de la zone C1 correspondant la plus haute tranche daltitude, la plus loigne de lhabitat urbain et fort taux de boisement ancien, le recouvrement minimum est celui de la zone C4, la fois daltitude assez basse, la plus proche de lhabitat urbain dense (situ au sud est) et jadis entirement couverte de vignes et vergers. La zone C2, daltitude intermdiaire, a un taux de recouvrement relativement important sur danciennes parcelles en fort ou en culture. La zone C3, daltitude comparable C4, est plus

loigne quelle du bti trs dense et a de plus forts taux de recouvrement par le chne pubescent. A la consultation de la figure 5.16, les facteurs majeurs de recolonisation dun adret calcaire jadis bois en haut et cultiv en bas sont laltitude (prsente dans les donnes) et la proximit du bti urbain dense (non prsent dans les donnes). Lancienne utilisation du sol explique aussi, surtout en altitude, la progression du chne pubescent, espce de type submditerranen (prsente ici en position dadret trs protg sur des sols minces issus du sous sol calcaire).

Rfrence cite dans ce chapitre


CORONA Christophe, 1998.- L'volution paysagre post-viticole des bas-versants adrets de la Chartreuse mridionale depuis le XIXe sicle : le cas des communes de La Tronche et de Crolles. (Mmoire de matrise sous la direction de G.Rovera, IGA-UJF, 180 p).

Chapitre 6

Rgression multiple

A) CONNAISSANCES DE BASE
La gographie offre trs peu dexemples dun phnomne en expliquant directement un autre (cas qui correspond une rgression simple). Science thmatiquement combinatoire sur une base spatiale, elle offre beaucoup plus dexemples o une rpartition gographique est explicable par la conjonction de plusieurs facteurs : il faut, par consquent, passer dun modle de rgression simple un modle de rgression multiple, o plusieurs variables explicatives notes X1,,Xp rendent compte de la variabilit de Y, variable expliquer (Y et les Xj tant des variables quantitatives continues connues par individu).

1. Le modle de la rgression multiple


Cest une extension du modle de rgression simple, une diffrence prs : alors que la rgression simple est symtrique (on peut permuter les rles de Y et X, tour tour variables expliquer et explicative), la rgression multiple est, elle, dissymtrique : cest bien la distribution de Y quil sagit dexpliquer par celles des Xj. 1.1 Extension du modle de rgression simple plusieurs variables explicatives La rgression simple, rendant compte de la variabilit de Y en fonction de celle de X, procde lajustement dans un nuage de points bi-dimensionnel dune droite dquation Y=aX+b o Y est la valeur ajuste de Y, a le coefficient directeur (pente) de la droite et b son ordonne lorigine (valeur de Y quand X=0). La rgression multiple consiste projeter les points dun nuage multidimensionnel sur un hyperplan (gnralisation dun plan plus de 2 dimensions). Comme en rgression simple, lajustement des projections est ralis par moindres carrs, tels que soit minimale la somme des carrs des projections des Yi sur lhyperplan (paralllement laxe des Y): (Y-Y)=min 1.1.1 Coefficients de lquation de rgression Lquation de rgression multiple (avec p variables explicatives) est : Y=a1X1++apXp+b o les aj sont les coefficients de rgression et b est lordonne lorigine (valeur de Y quand tous les Xj=0).

1.1.2 Coefficients de rgression standardiss b disparat si Y et les Xj sont standardiss, puisque la standardisation (centrage et rduction des variables) opre un changement dorigine (origine nouvelle=0,,0) et dchelle (nouvelle unit=1,,1). Lquation de rgression devient alors : Y=1Z1++pZp o Y et les Zj sont les variables standardises (centres rduites) et les j sont les coefficients de rgression standardiss, comparables entre eux car dbarrasss des effets de diffrences de moyenne, dcart type et dunit de mesure. On peut obtenir les coefficients de rgression j sans passer par la standardisation des variables grce la relation : j = aj (Xj / Y ) 1.1.3 Indpendance des variables explicatives Pour quon puisse additionner les effets des variables explicatives et, donc, connatre la part dexplication de Y par chacune des variables explicatives Xj, il faut quelles soient indpendantes les unes des autres ; Ce qui est souhaitable, cest donc que : les variables explicatives Xj soient trs peu corrles entre elles, les variables explicatives Xj soient bien corrles avec Y, la variable expliquer.

Ce sont des conditions vrifier avant de poursuivre. & Si (et seulement si) lindpendance des Xj est vrifie, alors les coefficients : aj sinterprtent comme en rgression simple (quand Xj augmente de 1, Y augmente de aj) j=aj*(Xj/Y) indiquent la part de variance de Y due chacun des Xj.

& Si lindpendance des Xj nest pas vrifie , il faudra se dbarrasser de leffet de leurs redondances. 1.1.4 Rsidus de la rgression Les rsidus de la rgression (Ei=Yi-Yi) doivent tre considrs comme en rgression simple et, comme en rgression simple, il y a intrt tudier leur distribution (histogramme de YY) et les cartographier, par exemple avec une lgende en 3 classes : - (Yi-Yi) trs infrieur 0, le modle sous estime la valeur Yi observe, - (Yi-Yi) voisin de 0, le modle estime bien la valeur Yi observe, - (Yi-Yi) trs suprieur 0, le modle sur estime la valeur Yi observe. Les rsidus, sils sont assez importants, peuvent traduire : - la ncessit dajouter une variable explicative oublie, - lexistence dindividus hors norme , situs loin de lhyperplan, - des particularits locales, - leffet dune erreur alatoire (dchantillonnage ou sur les mesures).

1.1.5 -

Conditions de validit dune rgression multiple

la relation entre chaque variable explicative Xj et la variable expliquer Y doit tre linaire ; si ce nest pas le cas, il faut pratiquer une transformation des variables en relation non linaire avec Y (carrs, log, ) ou utiliser dautres techniques (rseaux neuronaux , par exemple), il ne doit pas y avoir de variables colinaires, cest dire de variables dont la somme des valeurs est gale une constante ; par exemple, dans une rgression entre revenu moyen par habitant en Y et pourcentages demploi dans les 3 secteurs primaire, secondaire et tertiaire, lune de ces 3 variables explicatives doit tre enleve (car son % se dduit de 100% moins la somme des 2 autres) et les rsultats nen seront pas changs, les variables explicatives doivent tre indpendantes (avoir de trs faibles corrlations entre elles) ; dans le cas contraire, il peut aussi tre fait appel aux rseaux neuronaux il est par contre souhaitable que chacune ait une bonne corrlation avec Y

En cas derreur alatoire, dchantillonnage ou de mesure, sur Y (mais pas sur les Xj, considrs comme dnus derreur alatoire), on pourra procder des tests supposant, comme en rgression simple, - la normalit des rsidus Y-Y - leur homoscdasticit (variance peu prs gale quelque soit lintervalle de valeurs de Y). 1.2 Exemple lmentaire Il est fourni par le tableau 6.1, expliquant Y, la temprature moyenne annuelle de 6 villes du foss rhnan et de ses abords lorrains par leurs latitude et longitude (X1 et X2). Lexemple na dautre utilit que calculatoire.
Lat. strasbourg bale fribourg nancy belfort luxeuil 48.55 47.60 48.00 48.70 47.63 47.78 Long. 7.6 7.5 7.8 6.2 6.8 6.3 Temp Temp 10.6 10.574 11.3 10.576 9.5 9.269 10.0 9.752 rsidu 0.026 0.724 0.231 0.248 9.6 10.200 -0.600

9.5 10.129 -0.629

Tableau 6.1 : quelques variables explicatives des tempratures moyennes annuelles Le tableau 6.2 fournit les coefficients de dtermination entre les variables.
Temp Lat 0.139 Long 0.389 Long 0.016

Tableau 6.2 : r entre variables du tableau 6.1 Les deux variables explicatives, latitude et longitude des 6 stations, sont indpendantes (coefficient de dtermination r trs voisin de 0) ; en revanche, elles sont assez faiblement corrles avec les tempratures moyennes annuelles observes, variable Y expliquer. Lquation de rgression est : Temp=-0.4588Lat+0.6160Long+27.79

Quand la latitude augmente de 1 (vers le nord), la temprature baisse en moyenne de 0.46 Quand la longitude augmente de 1(vers lest), la temprature augmente en moyenne de 0.62 au dessus dune valeur de 27.79.

Les coefficients de rgression standardiss sont : - 1=a1(X1/Y) = -0.4588 ( 0.47466/0.73052) = -0.298 - 2=a2(X2/Y) = 0.616 ( 0.69474/0.73052) = 0.586 Un coefficient de rgression standardis exprime laugmentation moyenne de Y quand une variable explicative augmente de un cart type et que les autres variables explicatives sont maintenues constantes. Ici, les coefficients de rgression standardiss indiquent, pour les 6 villes considres, linfluence sur leurs tempratures moyennes annuelles : - de la latitude longitude constante, - de la longitude latitude constante. Les deux dernires colonnes du tableau 6.1 indiquent les tempratures prdites par le modle de rgression linaire multiple (Temp) et les rsidus de la rgression (diffrence entre tempratures relles et prdites par lquation de rgression). Par exemple pour Strasbourg, Temp=(-0.4588*48.55)+(0.616*7.6)+27.79=10.19710.2 Et le rsidu est de 9.6-10.2=-0.6 : le modle surestime donc la temprature de Strasbourg. Il est clair que lon a ici un exercice dcole et que ltude thermique du foss rhnan et de ses abords ncessiterait bien dautres stations et variables (altitude, par exemple). Le but, ici, nest que dillustrer les principales aides lexplicitation des rsultats. 1.3 En rsum 1.3.1 corrlations simples entre variables Elles doivent tre minimales entre les Xj, variables explicatives (indpendance) et bonnes entre variables explicatives Xj et variable expliquer Y. La contrainte dindpendance entre variables explicatives (latitude et longitude des 6 villes) est ici respecte puisque leur coefficient de dtermination r (variance commune) est de 0.02. Le coefficient de dtermination r (cf tableau 6.2) entre : - Tempratures et latitude est de 0.14 (r=-0.37) : les tempratures moyennes tendent lgrement tre + chaudes au Nord, o les villes sont daltitude plus basse) - Tempratures et longitude est de 0.39 (r=0.62) : les tempratures moyennes tendent tre plus chaudes lEst, situ dans le foss rhnan). 1.3.2 quation de rgression Lajustement par moindres carrs nous fournit une quation de rgression multiple. Linterprtation des coefficients est la mme quen rgression simple ; si les variables explicatives sont indpendantes (trs peu corrles), les coefficients de rgression standardiss indiquent limportance de chacune dans lexplication de Y. 1.3.3 rsidus de la rgression On vrifie sur le tableau 6.1 que la moyenne des rsidus est nulle (aux arrondis de calcul prs). Limportance des carts Y-Y est un premier indicateur de la qualit de lajustement. Il faut donc regarder de prs, cartographier et interprter les rsidus les plus forts (<0 et >0).

Les rsidus du tableau 6.1 (dernire colonne) semblent forts, notamment 3 dentre eux : La temprature moyenne annuelle est nettement surestime par lquation de rgression Belfort (altitude plus leve : 422 mtres) et Strasbourg, Elle est nettement sous estime Fribourg.

Reste trouver lexplication ces forts rsidus (altitude, topographie locale, chantillon de villes non significatif,). 1.4 Tests sur donnes dchantillon Si (et seulement si) les donnes proviennent dun chantillon reprsentatif dont on veut gnraliser les rsultats toute la population mre (toute la zone dans lexemple), on procdera des tests de significativit des rsultats de la rgression (dont les lments sont fournis par la plupart des logiciels statistiques).

1.4.1 Rsidus comme erreur alatoire du modle de rgression ? Comme en rgression simple, la distribution des rsidus (Ei=Yi-Yi), exprims dans lunit de mesure de Y (en degrs Celsius dans lexemple), doit alors donner lieu examen : - la distribution des Ei doit tre normale (gaussienne), - le nuage de points E (en ordonnes) Y (en abcisses) ne doit pas montrer de nettes croissance ou dcroissance des valeurs de E en fonction de celles de Y, Si la distribution de lerreur alatoire est gaussienne, on peut donc utiliser la distribution de probabilits de la loi de Gauss pour extrapoler les rsultats. 1.4.2 Significativit de lensemble des variables explicatives On effectue une analyse de variance et un test F de Fisher Snedecor car la Somme des Carrs des Ecarts (SCE) totale de Y = SCE explique par la rgression + SCE des rsidus Y-Y. SCEY = (Yi y ) , SCEresidu = (Yi Yi ' ) et SCEregr = SCEY SCEresidu
i =1 i =1 n n

Carr Moyen d la rgression : CMregr=SCEregr/p Carr Moyen des rsidus : CMresidu=SCEresidu/(n-p-1) F calcul = CMregr/CMrsidu

p variables explicatives n individus

On lit dans la table du F de Fisher Snedecor (pour un risque derreur choisi) la valeur de F correspondant p et n-p-1 degrs de libert. Si F calcul > F lu, on accepte (au risque derreur choisi) lhypothse que la rgression est gnralisable la population mre (toute la zone rhnane vosgienne ici). Le tableau 6.3 fournit les valeurs pour cette analyse de variance.
SCE due rgression Rsidus totale SCE 1.2721 1.3962 2.6683 Degrs de Libert P=2 n-p-1 = 3 n-1 = 5 Carr Moyen 0.6360 0.4654

Tableau 6.3 : analyse de variance relative la rgression du tableau 6.1

F calcul vaut ici 0.6360/0.4654=1.37 Au risque derreur de 5%, F lu dans la table pour 2 et 3 degrs de libert vaut 19.16 F calcul < F lu : on ne peut gnraliser la rgression toute la zone. On vrifie par ailleurs que, sur lchantillon des 6 villes, lintensit de la relation est faible: I=SCEregr/SCEtot = 1.2721/2.6683 =0.477 Latitude et longitude nexpliquent, dans lchantillon, que 47.7% des variations inter-cits de tempratures annuelles moyennes. 1.4.3 Significativit de chacune des variables explicatives Mme si lensemble des variables explicatives est significatif, il se peut que certaines dentre elles ne le soient pas, do le test de chaque coefficient aj de rgression laide dun t de Student qui vaut t calcul = aj/erreur type de aj (erreur type dchantillon de aj). Les logiciels fournissent gnralement les lments de ces tests. Le tableau 6.4 les rcapitule.
Var. explicative Latitude longitude Coefficient a de rgression -0.4588 0.6160 Erreur type de a 0.6481 0.4428 T calcul -0.71 1.39 Risque derreur 0.530 0.258

Tableau 6.4 : test de Student des coefficients de rgression T calcul pour la latitude = -0.4588/0.6481= -0.71 T calcul pour la longitude=0.6160/0.4428= 1.39 On pourrait comparer avec des valeurs de t lues dans la table de Student mais nous sont ici donns les risques derreur des tests. Ainsi, au vu de ceux ci (53.0% et 25.8%), ni a1 ni a2 ne sont significativement diffrents de 0 dans la population mre : ni la latitude ni la longitude ne jouent un rle gnralisable toute la zone dans lexplication de ses tempratures annuelles moyennes (en outre, trs petit chantillon, probablement non reprsentatif). 1.4.4 Elments hors norme ( outliers ) Au risque derreur de 5%, ce sont les lments dont le rsidu Yi-Yi standardis (divis par lcart type de Y-Y) est infrieur 1.96 ou suprieur +1.96 (infrieur 2.57 ou suprieur +2.57 au risque derreur de 1%). Il est videmment essentiel dexaminer de prs dventuels outliers, voire de les supprimer. Dans lexemple, en standardisant les rsidus (les divisant par leur cart type=0.5284), on observe quaucun nest infrieur 1.96 ou suprieur 1.96.

2. Corrlations multiple et partielles


2.1 Coefficient de corrlation multiple Cest le coefficient de corrlation de Bravais Pearson entre Y et Y, cest dire entre valeurs observes et prdites par le modle de rgression : il est not RY,Xj .

Comme en rgression simple, cest le carr du coefficient de corrlation (R : coefficient de dtermination) qui exprime le pourcentage de variance pris en compte par le modle et qui mesure donc la qualit de lajustement linaire. Si les variables explicatives Xj sont parfaitement indpendantes les unes des autres (aucune redondance entre elles), R multiple est la somme des r simples entre chaque Xj et Y. Dans lexemple du tableau 6.1, le coefficient de corrlation multiple (corrlation simple entre les variables Temp et Temp) est de 0.691 et le coefficient de dtermination de 0.477. R mesure la variance explique par la rgression R= I=SCEregr/SCEtot = 1.2721/2.6683 =0.477 Comme lanalyse de variance lavait dj rvl, lquation de rgression multiple nexplique que 48% des diffrences de temprature moyenne annuelle entre les 6 villes de lchantillon tandis que 52% de celle ci est inexplique (et due dautres facteurs). Analyse de variance et R fournissent donc la mme information ( variation de Y explicable par lensemble des Xj). 2.2 Tests sur R et R Si (et seulement si) les donnes de Y proviennent dun chantillon, on procdera des tests de gnralisation la population mre. 2.2.1 test de significativit de R, exactement comme en rgression simple : hypothse H0 dindpendance entre Y, la variable expliquer, et lensemble des variables explicatives X1, , Xp lecture dans la table du r de Bravais Pearson dune valeur plafond pour un risque derreur choisi et un nombre de degrs de libert =n-p-1 (p variables explicatives), si R calcul <= R lu dans la table, on accepte lhypothse dindpendance, si R calcul > R lu dans la table, on rejette lhypothse dindpendance (en pratique, on conclut une relation significative, au risque derreur choisi).

Dans lexemple du tableau 6.1 : - R calcul = 0.69, - R lu dans la table (pour =0.05 et =6-2-1=3) = 0.88 - R calcul est infrieur R lu. On ne peut pas rejeter lhypothse dindpendance entre tempratures moyennes annuelles des 6 villes, leurs latitude et longitude : on conclut en pratique que leur relation nest pas significative. Il est clair, en outre, que lchantillon des 6 villes a peu de chances dtre reprsentatif de la zone rhnane (lexercice nest quun exercice dcole !). 2.2.2 test de R par analyse de variance Dj effectu pour tester la significativit de lensemble des variables explicatives, lanalyse de variance du &1.4.2 est le test de R (et a donc dj fourni linformation). 2.3 Coefficients de corrlation partielle

Quand les variables explicatives ne sont pas indpendantes, lexplication de la variance de Y par chacun des Xj est partiellement redondante. On procde alors au calcul de coefficients de corrlation et de dtermination partielles entre chaque Xj et Y. Quand il ny a que deux variables explicatives X1 et X2, la formule est, pour X1 par exemple : rYX 1 / X 2 = rYX 1 rYX 2 rX 1 X 2 (1 r YX 2 )(1 r X 1 X 2 ) o les r et les r sont les coefficients simples.

Le coefficient de dtermination partielle est le carr du coefficient de corrlation partielle. Il reprsente la part de la variance de Y quexplique une variable explicative Xj quand les autres variables explicatives sont prsentes mais maintenues constantes par rapport Y et Xj. En dautres termes, le coefficient de dtermination partielle explique la part de variance de Y non dj prise en compte par les autres variables explicatives : cest lapport spcifique de Xj lexplication de Y, complmentaire celui des autres variables explicatives. Par exemple, si lon a mesur, pour n parcelles tmoin sur un mois donn, la production vgtale Y, la pluviomtrie X1 et le nombre dheures densoleillement X2, le coefficient de dtermination partielle entre production vgtale et ensoleillement indique quelle est la part de variance de Y quexplique lensoleillement comme si la pluviomtrie avait t partout la mme ( pluviomtrie constante donc).

3. Rgression multiple pas pas


Avec laccessibilit croissante de grandes bases de donnes numriques, il devient frquent dadopter une dmarche exploratoire recherchant, parmi les variables stockes, la meilleure combinaison des Xj disponibles pour expliquer Y : cela participe de ce que lon appelle fouille de donnes ( data mining en anglais). Dans ce contexte, des stratgies dajout progressif au modle de variables explicatives afin de maximiser R sont devenues dusage courant sous le nom de rgression pas pas ( stepwise regression en anglais). La procdure, itrative, est la suivante : - rgression simple entre Y et celle (Xk par exemple) ayant avec Y le plus fort R, - ajout, parmi toutes les combinaisons de variables explicatives, de celle (Xl) conduisant au plus fort R avec Y (quation : Y=a1Xk+a2Xl+b), - itration du procd jusqu une condition darrt des ajouts. Naturellement, les prcautions habituelles pour une rgression multiple sont respecter (notamment lindpendance des Xj progressivement ajoutes) mais des questions supplmentaires se posent aussi: - on ne peut itrer le procd jusqu ce que p, le nombre de variables explicatives, soit disproportionn par rapport au nombre dindividus n (on considre, en gnral, que n doit tre au moins gal 10 fois p). - Mme en ajoutant des variables bidon (composes de nombres tirs au hasard), on a toute chance daugmenter la valeur de R puisquil est rarissime quune corrlation soit exactement gale 0. Il faut donc choisir o arrter lajout de variables. - Le gain de variance explique entre deux itrations successives doit tre consquent. Dans ces cas l, la variable ajoute doit amener un surplus significatif de R (on considre empiriquement que la variable ajoute doit tre significative avec un risque derreur infrieur 15%).

La procdure ci dessus dcrite est ascendante (ajout progressif de variables explicatives). Il existe aussi des procdures descendantes (retranchant progressivement les variables les moins significatives).

4. Ajout dune variable catgorielle une rgression multiple


Pour en faire saisir lintrt (et les limites), prenons un exemple. 4.1 Exemple Considrons, pour un ensemble de pays europens en 2003, la rgression simple entre Y : esprance de vie la naissance des hommes (en annes) et X: Produit National Brut par habitant (en milliers de dollars). La figure 6.1 fournit le graphique du nuage de points correspondant.

Figure 6.1 : Nuage de points croisant esprance de vie masculine et PNB/habitant Deux remarques peuvent y tre faites : - La relation est apparemment linaire (r=0.93), - Cette linarit tient essentiellement lappartenance des pays lEurope occidentale (W) ou centrale (C ) qui apparat comme une variable explicative pertinente. Or, cette variable (Z) est qualitative et ne peut tre traite par rgression classique : elle peut ltre par ANCOVA (Analyse de covariance) dont lide directrice est la suivante : - calculer la rgression entre variables quantitatives continues (ici rgression simple entre Y : esprance de vie et X : PNB/hb), - faire une analyse de variance (ANOVA) entre les rsidus Y-Y de la rgression (variable expliquer) et la variable qualitative Z k modalits (2 seulement ici). - Le commentaire des rsultats est donc le mme quen analyse de variance. Dtaillons quelque peu laide des tableaux 6.5 et 6.6.

Y : espvie H X : PNB/hb

Z :region W W W W W W C C C C C C

Al Au Be Fr PB Ch Bu Ho Po Ro Sl Tc

Allemagne Autriche Belgique France Pays Bas Suisse Bulgarie Hongrie Pologne Roumanie Slovaquie Tchquie

75 76 75 76 76 77 69 68 70 67 70 72

25.24 26.38 26.15 24.08 27.39 30.97 6.74 11.99 9.37 5.78 11.78 14.32

Source : INED 2003

Tableau 6.5 : tableau pour lANCOVA & Rsultats de la rgression Lquation de rgression est : Esp vie H=0.383 PNB/hb + 65.6

Pour lensemble des 12 pays considrs en 2003, lesprance de vie masculine augmente, au dessus de la valeur 65.6 ans, d1 an pour chaque augmentation du PNB/hb de 383 dollars. Seule la Hongrie est un outlier: son rsidu standardis vaut 2.32 (son esprance de vie est nettement infrieure ce que laisserait attendre son PNB/habitant). Coefficients r de corrlation linaire : 0.97 et r de dtermination : 0.93. & Rsultats de lanalyse de variance rsidus rgion dEurope
Degrs de libert Modle Rsidus Total 2 9 11 Somme des carrs 135.46 9.45 144.92 Carrs moyens 67.73 1.05

Tableau 6.6 : ANOVA entre rsidus de la rgression et la variable rgion La variance explique par le modle est de 135.46 / 144.92 = 93.5% Il ny a pas lieu ici de procder un test probabiliste puisque Y, issue dune comptabilit exhaustive et non dun chantillon, est sans erreur alatoire. Dans le cas contraire (si Y provenait dun chantillon reprsentatif ou tait affect derreurs de mesure alatoires), on procderait un test F de Fisher Snedecor. 4.2 Conditions de validit de lANCOVA & Ce sont celles de la rgression et de lanalyse de variance. - les variables explicatives Xj (quantitative(s) et qualitative) doivent tre sans erreur alatoire et seule la variable expliquer Y peut ltre ventuellement (Y est sans erreur alatoire dans lexemple), - les variables explicatives quantitatives doivent tre linairement lies Y (ce qui est le cas ici, voir Figure 6.1),

il ne doit pas y avoir de nette diffrence de pente ou dordonne lorigine des rgressions dans chacun des groupes dfinis par les modalits de Z (condition respecte dans lexemple ci-dessus). Si ce nest pas le cas, il faut faire une rgression par modalit de Z. Il ne doit pas y avoir dans la rgression doutlier (condition assez mal respecte dans notre exemple puisque la Hongrie a un rsidu rduit de 2.32), Sil y a plusieurs variables explicatives quantitatives,elles ne doivent pas tre co-linaires (sommant une constante). Sil y a erreur alatoire sur Y, pour que le test soit valide : la distribution des rsidus doit tre ( peu prs) gaussienne, leur variance doit tre ( peu prs) constante quelque soit la valeur de Y, dans chaque groupe dfini par les modalits de Z, la distribution des valeurs de Y-Y doit tre ( peu prs) gaussienne et de mme variance (condition qui serait mal respecte ici puisque les rsidus sont plus importants dans le groupe C que dans le groupe W).

& -

B) EXERCICES CORRIGES
Exercice 1
Le tableau 6.7 prsente, pour 33 villes des USA : - Y: temprature de janvier, en degrs Celsius (moyenne sur 31 ans, de 1960 1990), - 3 variables explicatives : X1 latitude, X2 longitude, X3 altitude, - Tempratures Tjv prdites par la rgression multiple, rsidus (T-T) et rsidus rduits.
Montgomery,AL Phoenix,AZ LittleRock,AR LosAngeles,CA SanFrancisco,CA Denver,CO Washington,DC KeyWest,FL Miami,FL Atlanta,GA Boise,ID Chicago,IL Indianapolis,IN DesMoines,IA NewOrleans,LA Boston,MA Detroit,MI Helena,MT Concord,NH Albany,NY NewYork,NY Raleigh,NC Bismarck,ND OklahomaCity,OK Harrisburg,PA Philadelphia,PA Charleston,SC Nashville,TN Houston,TX SaltLakeCity,UT Seattle,WA Madison,WI Cheyenne,WY T jv 3.3 1.7 -0.6 8.3 5.6 -9.5 -1.1 18.3 14.5 2.8 -5.6 -7.2 -6.1 -11.7 7.2 -5.0 -6.1 -13.3 -11.7 -10.0 -2.8 -0.6 -17.8 -2.2 -4.4 -4.4 3.3 -0.6 6.7 -7.8 0.6 -12.8 -10.0 Lat. 32.9 33.6 35.4 34.3 38.4 40.7 39.7 25.0 26.3 33.9 43.7 42.3 39.8 41.8 30.8 42.7 43.1 47.1 43.5 42.6 40.8 36.4 47.1 35.9 40.9 40.9 33.3 36.7 30.1 41.1 48.1 43.4 41.2 Long. 86.8 112.5 92.8 118.7 123.0 105.3 77.5 82.0 80.7 85.0 117.1 88.0 86.9 93.6 90.2 71.4 83.9 112.4 71.9 73.7 74.6 78.9 101.0 97.5 77.8 75.5 80.8 87.6 95.9 112.3 122.5 90.2 104.9 Alt. 67.4 363.3 78.6 38.4 3.4 1793.1 4.9 1.5 3.4 312.7 871.1 188.7 242.9 291.7 1.2 6.1 194.8 1180.5 342 86.9 4.0 133.2 511.1 394.7 94.5 6.4 7.3 177.4 29.9 1288.4 130.8 262.7 1876.0 T'jv T-T' en C T-T' reduits 4.69 -1.39 -0.45 6.01 -4.31 -1.39 2.67 -3.27 -1.06 7.92 0.38 0.12 4.09 1.51 0.49 -10.97 1.47 0.47 -4.03 2.93 0.95 13.31 4.99 1.61 11.63 2.87 0.93 1.94 0.86 0.28 -7.56 1.96 0.63 -6.46 -0.74 -0.24 -4.09 -2.01 -0.65 -5.65 -6.05 -1.96 7.93 -0.73 -0.24 -8.33 3.33 1.08 -8.00 1.90 0.61 -13.81 0.51 0.16 -11.02 -0.68 -0.22 -8.33 -1.67 -0.54 -5.70 2.90 0.94 -0.80 0.20 0.06 -11.78 -6.02 -1.94 1.04 -3.24 -1.05 -5.84 1.44 0.47 -5.69 1.29 0.42 3.69 -0.39 -0.13 -0.11 -0.49 -0.16 9.40 -2.70 -0.87 -7.62 -0.18 -0.06 -7.68 8.28 2.67 -7.80 -5.00 -1.62 -12.05 2.05 0.66

(source : http://name.math.univ-rennes1.fr/bernard.delyon/tp/temp.dat)

Tableau 6.7 : Tempratures moyennes de janvier de 33 villes des USA

Figure 6.2 : localisation des villes de lchantillon Lquation de rgression est : Y ' = 1 . 134 X 1 + 0 . 146 X 2 0 . 006 X 3 + 29 . 681

Le tableau 6.8 vous fournit les coefficients de dtermination entre les 4 variables.
Lat Long Alt Tjv 0.752 0.000 0.242 Lat 0.032 0.124 Long

0.211

Tableau 6.8 : r entre variables On considre, dans cet exercice, que Y est entach dune erreur alatoire (dchantillon). Par consquent, les tableaux 6.9 et 6.10 fournissent lanalyse de variance de la rgression et le test t de Student sur chacun de ses coefficients avec leurs risques derreur.
source Rgression Rsidus Total Degrs de libert Somme des Carrs moyens F de Fisher Risque carrs derreur 3 1797.96 599.32 56.68 0.0001 29 306.66 10.57 32 2104.62

Tableau 6.9 : analyse de variance de la rgression multiple

Constante b Lat Long Alt

Valeur erreur-type t de Student Risque derreur 29.681 5.396 5.501 0.000 -1.134 0.108 -10.527 0.000 0.146 0.041 3.529 0.001 -0.006 0.001 -4.062 0.000

Tableau 6.10 : significativit des coefficients de la rgression

La figure 6.3 prsente lhistogramme des rsidus et leur distribution par rapport Y.

Figure 6.3 : distributions des rsidus de la rgression multiple

Questions
Les principales variables explicatives des tempratures lchelle continentale, notamment en hiver, sont bien laltitude (diminution moyenne cette chelle de 0.6 tous les 100 mtres), la latitude (plus ou moins proche du ple ou de lquateur) et la longitude (continentalit, opposition des faades maritimes est et ouest). La rgression devrait donc logiquement conduire un fort R et permettre de juger leffet de ces 3 facteurs, condition que les principales contraintes dune rgression multiples soient respectes. 1) Ces principales contraintes sont elles ici respectes ? Pour ce faire, examinez les coefficients de dtermination entre les variables (Tableau 6.8) 2) Quelle part de variance de Y expliquent les 3 variables explicatives ? 3) Commentez leur importance relative dans la diffrenciation des tempratures moyennes de janvier. 4) Lchantillon des 33 villes vous semble til spatialement reprsentatif ? de quoi ? 5) Faisons comme sil ltait. Commentez les rsultats des tests (R, R, coefficients de lquation de rgression) et le graphique des rsidus : peut on extrapoler tout le territoire des USA ?

Rponses suggres
Question 1 La premire condition de validit examiner porte sur lindpendance des 3 variables explicatives, car lquation de rgression multiple additionne leurs valeurs (pondres par les aj ) pour expliquer celles de Y. On peut vrifier lindpendance des Xj en observant les coefficients de dtermination du tableau 6.8. Il y a rellement indpendance (r0) entre latitude et longitude des 33 villes (traduisant la bonne rpartition planimtrique de lchantillon) et r faible entre latitude et altitude. Par contre, il y a quelque dpendance (r=0.211 soit 21% de redondance) entre altitude et longitude, ce qui traduit une petite concentration des villes retenues certaines altitudes et latitudes (les principales zones montagneuses, les Rocheuses, sont louest des USA). Cela ne nous empchera pas de garder laltitude comme variable explicative mais rendra prudent dans linterprtation. La seconde condition fondamentale vrifier est la linarit des rgressions simples entre les Xj et Y : on peut, indirectement, apprcier si les relations sont bien ajustes par des droites (ou pas) en examinant les coefficients de dtermination r du tableau 6.8 (colonne Tjv). Si le r est assez voisin de 1, il y a bonne relation linaire (cest le cas entre Tjv et latitude). Sil est voisin de 0, ou bien il ny a pas de corrlation linaire ou bien pas de corrlation du tout (rappelons quil est souhaitable que les variables explicatives Xj soient bien corrles avec la variable Y expliquer). Dans lchantillon des 33 villes (figure 6.2), la temprature moyenne de janvier est : - indpendante de la longitude (r=0.00), ce qui traduit sans doute la sur reprsentation dans lchantillon des villes de 2 faades maritimes (est et ouest), trs diffrentes du point de vue thermique et la sous reprsentation des villes du middle west , - faiblement dpendante de laltitude (r=0.24), ce qui sexplique par la forte proportion dans lchantillon de villes ctires, de trs faible altitude (o le facteur thermique majeur nest pas laltitude). Pour vrifier la linarit des relations entre Y et les Xj , nous avons graphiqu les 3 nuages de points (figure 6.4).

Figure 6.4 : nuages de points temprature de janvier variables explicatives Il en ressort que : mis part un net outlier , la relation entre Tjv et latitude est raisonnablement linaire, il y a rellement indpendance (dans lchantillon) entre Tjv et longitude, il y a tendance relation (mais de type exponentielle ngative et non linaire) entre Tjv et altitude (grand nombre de villes de faible altitude).

Si la condition dindpendance entre elles des Xj est raisonnablement respecte, on ne peut en dire autant de celle de linarit entre les Xj et Y : on doit sattendre ce que le facteur majeur de variation des tempratures hivernales soit la latitude (frquentes coules dair polaire dans le centre et lest des USA, en outre pas ou peu montagneux). Question 2 La part de variance de Y quexplique laddition des 3 variables explicatives peut tre tire du tableau 6.9 puisque : R = somme des carrs due la rgression / somme des carrs totale Soit, ici, R = 1797.96 / 2104.62 = 0.854 = 85.4%

La conjonction des 3 variables latitude, longitude, altitude explique 85% des diffrences de temprature moyenne des 33 villes de lchantillon, mais fort probablement linfluence de chacune est fort diverse : lexamen de lquation de rgression permettra de le constater. Question 3 Lquation de rgression est : Y ' = 1 . 134 lat + 0 . 146 long 0 . 006 alt + 29 . 681 Si les variables explicatives taient parfaitement indpendantes, la temprature de janvier : diminuerait de 1.134 celsius pour tout dplacement en latitude vers le nord de 1, augmenterait de 0.146 celsius pour tout dplacement en longitude vers louest de 1, diminuerait de 0.6 celsius pour toute augmentation daltitude de 100 mtres,

par rapport une temprature constante de 29.681 celsius. La latitude a clairement une importance majeure, au moins pour les villes de lchantillon. Si les Xj taient parfaitement indpendantes (r=0 exactement pour tous les couples de variables explicatives), la somme des coefficients de rgression standardiss serait de 1 et chacun fournirait (en % de variance de Y) limportance relative de chaque Xj sur les variations de Y. Ce nest pas tout fait le cas ici. Question 4 La consultation de la carte de rpartition des 33 villes sur le territoire des USA (figure 6.2) et les remarques faites (Question 1) nous indiquent assez clairement que lchantillon nest pas tout fait spatialement reprsentatif (cela pourrait dailleurs tre test). En effet, les villes retenues sont soit des capitales dtat soit de grandes villes : leur rpartition reflte surtout lhistoire du peuplement des USA (tats plus petits et nombreux lest) et la densit de population plus quune rpartition satisfaisante du point de vue climatologique (comme aurait pu ltre une grille rgulire de points de mesure). La figure 6.2 fait clairement ressortir : la sur reprsentation de la partie est du territoire, la plus anciennement colonise et la plus basse, et donc la sous reprsentation de la partie ouest, la plus montagneuse,

la trs forte sous reprsentation du middle west (S. Dakota, Nebraska, Kansas).

Nous allons nanmoins traiter cet chantillon comme reprsentatif, pour exemplifier le traitement de donnes comportant une erreur alatoire sur Y (erreur provenant de lchantillonnage et/ou derreurs non systmatiques de mesure de Y). Considrons ici que lerreur alatoire provient de limprcision des mesures de temprature. Question 5 Les tests doivent porter, dans ce cas, sur : la significativit de la rgression, la significativit de chacune de ses variables explicatives, la conformit des rsidus.

- significativit de la rgression Lanalyse de variance (tableau 6.9) qui a permis de calculer R, permet aussi de juger de la validit globale de la rgression. Le F calcul de Fisher Snedecor est gal au carr moyen d la rgression divis par celui d aux rsidus (un carr moyen est la somme des carrs divise par le nombre de degrs de libert correspondant). Ici F = 599.32 / 10.57 = 56.7 (la variance moyenne des rsidus est 56 fois plus petite que celle prise en compte par la rgression). On peut tester ce F calcul laide dune table mais nous est directement fourni le risque derreur de 0.0001 (0.01% soit 1 pour 10 000) : il y a une chance sur 10 000 que la corrlation entre temprature moyenne de janvier et latitude, longitude, altitude ne soit pas avre. En dautres termes, les erreurs de mesure des tempratures sont insignifiantes et pas de nature contester la validit de lexplication, au moins pour lensemble des 33 villes retenues. Mais, est ce dire que toutes les variables explicatives sont significatives ? - significativit de chacune des variables explicatives Le tableau 6.10 permet den juger travers les calculs du t de Student (=valeur/erreur type). Tous les paramtres de la rgression sont significatifs (avec un risque derreur maximum de 1 pour mille) : toutes les variables explicatives jouent un rle quasi certain dans la dtermination des tempratures moyennes de janvier des 33 villes. - conformit des rsidus Encore faut il, pour cela, que les rsidus Y-Y aient une distribution conforme aux conditions 1) de normalit (lhistogramme des Y-Y doit suivre peu prs une loi de Gauss), 2) dhomoscdasticit (la variance des rsidus doit tre peu prs gale pour tout intervalle de valeurs de Y), 3) d outliers peu nombreux (un outlier a un rsidu rduit (standardis) important). La figure 6.3 permet den juger. Le diagramme en btons (du haut de la figure) nest pas trop dissymtrique et peut tre approxim par une gaussienne (condition 1). Le nuage de points Y par rapport aux rsidus Y-Y a une variance peu prs constante pour tout intervalle de valeurs de Y, sauf pour les plus fortes (condition 2). La dernire colonne du tableau 6.7 permet de reprer un seul outlier, Seattle, avec une valeur suprieure 1.96 (condition 3). La temprature de janvier Seattle est anormalement leve (courant chaud des faades ouest de continent aux latitudes tempres ?). Les 3 conditions sont peu prs remplies : si lchantillon avait t spatialement reprsentatif, on aurait pu interpoler ses rsultats tout le

territoire continental des USA. Cette reprsentativit ntant pas assure, la rgression ne vaut que pour lchantillon des 33 villes. - complments Si lon effectue une rgression multiple pas pas ascendante, les variables explicatives progressivement intgres sont la latitude, laltitude et, en dernier lieu, la longitude qui amliore peu la valeur de R et qui, en outre, est corrle laltitude et trs peu corrle avec la temprature de janvier : on peut donc lter de la rgression. Comme latitude et altitude sont partiellement corrls, il est bon de calculer les coefficients de corrlation partielle. Celui entre temprature et latitude altitude constante vaut -0.71, celui entre temprature et altitude latitude constante vaut 0.17, ce qui fixe lordre dimportance des facteurs de temprature hivernale, pour les 33 villes considres.

Exercice 2
Le tableau 6.11 prsente, pour les actifs ayant un emploi en France mtropolitaine au recensement de population de 1999, leur rpartition rgionale par type de contrat professionnel et le PIB/habitant de chaque rgion. Rappelons que le Produit Intrieur Brut est lensemble des richesses produites une anne donne (en 2003 ici) par lensemble des agents conomiques prsents dans la rgion (originaires ou non de celle ci) : divis par le nombre dhabitants, il fournit un indicateur de richesse moyenne produit dans chaque rgion. LIle de France et la Corse ayant des rpartitions tout fait particulires ont t supprimes du tableau si bien que lexercice ne porte que sur 20 rgions de province .
CDI Alsace Aquitaine Auvergne B.Normandie Bourgogne Bretagne Centre Champagne F.Comt H.Normandie Languedoc Limousin Lorraine Midi Pyrnes Nord Pays de Loire Picardie Poitou Provence Rhne Alpes 276965 325976 154119 170365 199534 335711 318317 170825 154957 240019 207669 76230 315154 282218 487541 419802 250523 184493 457278 771394 CDD 22779 37591 15293 18281 19129 40080 30240 17979 13318 22760 30979 7358 28443 32731 49067 45992 24527 20427 65501 84230 Intrim 12671 12540 5871 7901 8570 13868 15117 8063 7059 12742 6022 2617 15084 9444 23790 22254 11723 7147 13433 29968 Emploi aid stage Fonction publique 3660 10023 51569 94930 41442 39725 49584 95480 75847 43046 33719 45338 77163 25468 78272 84443 110868 82104 54358 48438 155312 152309 5158 5400 4850 6933 8043 8524 PIB/hb 24.804 22.475 21.011 20.599 22.511 21.402 22.192 22.926 21.897 23.013 19.416 20.592 20.297 22.025 19.835 22.300 19.932 20.325 22.901 25.153

10106 13394

7689 14052 6151 13020 4885 3079 6778 6151

6430 10533 10349 11132 2769 3200 7239 11320 8820 12054 22398 16640 8702 21859 8930 6390 9088 9425

13262 20768 13732 25111

(Source : INSEE, RGP 1999)

Tableau 6.11 : population employe par type de contrat et PIB/habitant

On fait lhypothse quil existe une relation entre PIB/habitant et frquence des types de contrat de travail mais il nest pas envisageable de faire directement une rgression multiple expliquant le PIB/hb par les types de contrat. Ceux ci constituant un tableau de contingence, on la rsum par AFC (2 axes retenus, prenant en compte 70% et 16% de la variance soit prs des 9/10ime eux deux). La figure 6.5 en prsente le nuage de points (rgion et statut).

Figure 6.5 : Plan des axes 1 et 2 de lAFC portant sur les types de contrats de travail On peut maintenant procder une rgression expliquant le PIB/hb (exprim en milliers de francs 1999) par les axes F1 et F2. Le tableau 6.12 fournit les r simples entre les variables. PIB/hb F1 F1 0.198 F2 0.471 0.005 Tableau 6.12 : r simples entre les 3 variables Les nuages de points des rgressions simples PIB/hb F1 et PIB/hb F2 sont reprsents par la figure 6.6.

Figure 6.6 : rgressions simples entre PIB/hb et F1 puis F2

Lquation de rgression est :

PIB/HB=7.3F1-28.9F2+21.9

Elle conduit un R de 0.63, rsultat assez conforme lhypothse mise. Une rgression pas pas indique que F2 est une meilleure variable explicative du PNB/hb rgional que F1. Pour aller plus loin, on tente de valider lhypothse que la relation entre PIB/habitant et facteurs rsumant les contrats de travail est sensible au fait quune rgion est situe ou non au nord ou lest de la fameuse ligne Marseille Le Havre sense partager lhexagone entre une France industrielle et une France qui lest peu. Une analyse de covariance intgrant cette variable qualitative donne un R de 0.67, peu de chose prs identique celui de la rgression multiple sans cette variable qualitative. Sparant les 20 rgions en 2 paquets de 10 rgions selon leur situation gographique (Nord et Est ou Sud et Ouest de la ligne Le Havre Marseille), on a effectu 2 rgressions multiples dont les rsultats sont les suivants : - zone N et E : - zone S et O : R=0.63, R=0.66, quation : quation : PIB/hb=7.7F1-31.2F2+22.2 PIB/hb=3.9F1-26.4F2+21.5

Dans les 2 paquets la variable F2 explique mieux le PIB/habitant que la variable F1.

Questions
1) Interprtez le rsum effectus par les 2 premiers axes de lAFC (figure 6.5) 2) A votre avis, les conditions de validit sont elles ( peu prs) runies pour expliquer le PIB/habitant par les 2 facteurs de lAFC ? 3) Si oui, interprtez lquation de rgression 4) Que penser de la ligne Le Havre Marseille (au vu des donnes de cet exercice et lchelle rgionale) ?

Rponses suggres
Question 1 Linterprtation des 2 axes de lAFC (F1 :70%, F2 :16% de linformation initiale) se fera ici partir de le figure 6.5. Le 1er axe oppose des rgions o lemploi dans la fonction publique est sur reprsent (Languedoc, Provence, Limousin) des rgions o est sur reprsent lemploi en CDI et en intrim (rgions industrielles : Alsace, Haute Normandie, Pays de Loire, Franche Comt, Rhne Alpes). Le 2nd axe met en relief deux rgions o lemploi prcaire (emploi aid, intrim) est sur reprsent (Nord, Picardie).

Une typologie effectue sur le plan des axes 1 et 2 aboutit 5 classes : forte importance relative de la fonction publique (Languedoc, Provence, Limousin), faute demploi industriel suffisant, importance relative de lemploi dure dtermine (Midi Pyrnes, Aquitaine, Bretagne, Auvergne, Poitou), importance relative des CDI en Basse Normandie, Champagne, Lorraine, Bourgogne, Centre, relative importance des emplois aids et de lintrim dans le Nord et en Picardie, relative importance des CDI et de lintrim dans les rgions les plus industrielles (Rhne Alpes, Franche Comt, Pays de Loire, Haute Normandie et Alsace).

Trois facteurs majeurs de diffrenciation : lemploi industriel, lemploi dans la fonction publique, des formes demploi prcaire. Question 2 La 1re condition vrifier porte sur lindpendance des variables explicatives : par construction, les axes factoriels sont orthogonaux donc indpendants (le r de 0.005 est d aux arrondis de calcul). Il est galement souhaitable que les variables explicatives soient bien corrles avec la variable expliquer, ce qui est surtout le cas de F2 (cf tableau 6.12). La 2nde condition vrifier imprativement porte sur la linarit des relations entre variable expliquer et variable explicative : la figure 6.6 montre que cest peu prs le cas (bien que dautres ajustements que linaires auraient mieux ajust les 2 nuages de points). On peut donc considrer quil est envisageable dajuster un modle de rgression multiple sans dnaturer le problme pos. Question 3 Lquation de rgression est : PIB/HB=7.3F1-28.9F2+21.9

Rappelons que F1 oppose rgions surplus relatif de fonction publique et rgions surplus demploi en CDI et intrim. F2 met principalement en lumire les emplois prcaires aids (par les collectivits publiques). En gnral, pour les 20 rgions (moins lIle de France et la Corse), la richesse produite par habitant augmente, au dessus de 21 900 francs 1999, de 7 300 Francs quand F1 (CDI et intrim, forte orientation industrielle) augmente de 1 unit et diminue de 28 900 quand F2 (emploi prcaire, gnralement peu rtribu) augmente de 1 unit. F1 et F2 tant indpendants, leurs effets sadditionnent directement, expliquant tous deux ensemble 63% des diffrences rgionales de PIB/hb. Plus du 1/3 de celles ci sont rechercher dans dautres facteurs. Question 4 En effectuant 2 rgressions multiples, une pour les 10 rgions situes au nord et lest de la ligne Le Havre Marseille, lautre sur les 10 rgions situes au sud et louest, on obtient 2 quations de rgression aux coefficients aj diffrents (donc empchant de faire une mme analyse de covariance sur les 20 rgions ensemble).

YNE = 7.7 F1 31.2 F2 + 22.2

et

YSO = 3.9 F1 26.4 F2 + 21.5

Globalement, une augmentation unitaire de lemploi en CDI ou interim fait augmenter bien plus le PIB/hb et lemploi prcaire le fait moins diminuer lest et nord quau sud et ouest. Mais la variance explique na gure augment (63% et 66% au lieu de 63%). Lexplication du PIB/habitant bute sur ce plafond des 2/3 et la raison en est simple : si lon considre les 5 rgions plus faible PIB/hb (<20 500 Francs 1999), 3 sont situs dun cot de la ligne Le Havre Marseille (Nord, Picardie, Lorraine) et 2 de lautre (Languedoc, Poitou) et nappartiennent pas aux mmes classes de profil demploi, si lon considre les 5 rgions plus fort PIB/hb (>22 500 Francs 1999), elles sont toutes lest de Marseille Le Havre mais 3 (Haute Normandie, Alsace, Rhne Alpes) figuraient dans la classe 5 (prdominance CDI et intrim, grande industrie) et 2 (Bourgogne, Champagne) dans dautres classes.

Par consquent, la ligne Marseille Le Havre, qui avait une validit descriptive certaine en termes dintensit industrielle, na aujourdhui quune validit restreinte en termes de richesse produite par habitant dans la mesure o la productivit industrielle (grande cratrice de PIB) sest fortement diffrencie, par branche et, donc, par rgion.

Chapitre 7

Mthodes explicatives : complments

Sous ce titre, on prsente ici deux mthodes (parmi beaucoup dautres possibles) : analyse discriminante, segmentation (ou arbre de dcision ).

Elles ont en commun de viser le mme but gnral explicatif (au sens statistique du terme) que la rgression multiple mais ne portant pas sur des variables exclusivement quantitatives. On les prsente ici dans un objectif de comprhension gnrale, travers des exemples, plutt que dapplication laide dexercices corrigs. On entre donc trs peu, ici, dans les dtails procduraux.

1. Lanalyse discriminante
1.1 modle gnral Lide de base est d expliquer Y, variable catgorielle (qualitative ou quantitative classes peu nombreuses) par un ensemble X1,,Xp de variables quantitatives. Le but de lanalyse discriminante est de remplacer les X1,,Xp par un nombre rduit de fonctions discriminantes Z qui diffrencient au mieux les classes de Y par leurs valeurs sur X1,, Xp. Comme en ACP, ces fonctions, orthogonales les unes aux autres et de variance dcroissante, sont obtenues par combinaison linaire des variables X1,,Xp . Lquation de ces fonctions linaires discriminantes, sur variables centres, sont de la forme: Z = a1 X 1 + ... + a p X p Les coordonnes des points sur une droite discriminante sont les projections orthogonales sur celle-ci, de faon minimiser la superposition entre groupes (maximiser la variance explique par le modle). Considrons un exemple lmentaire (figure 7.1): soit une variable catgorielle Y 2 modalits (individus reprsents par un rectangle noir ou un triangle blanc) et 2 variables quantitatives X1 (en ordonnes) et X2 (en abcisses). Dans une application gographique, la variable Y pourrait tre lappartenance des pays europens au bloc de louest ou de lest et les 2 variables quantitatives leurs taux de natalit et de mortalit.

(source : M.Calciu & C.Benavent)

Figure 7.1 : nuage de points sur X1-X2 avec diffrenciation des 2 classes de Y La figure 7.1 prsente le nuage de points X1-X2 o lon a diffrenci les individus appartenant aux classes Y1 et Y2 de Y. La plupart dentre eux sont lintrieur dellipses permettant de vrifier si les distributions de X1 et X2 sont peu prs gaussiennes dans chaque classe de Y. Ces ellipses se chevauchent partiellement, dfinissant une zone dincertitude. La recherche de fonctions discriminantes (une seule dans cet exemple) a pour but de minimiser cette zone de chevauchement en maximisant la variance explique (variance interclasses / variance totale sur X1-X2) comme le montre la figure 7.2.

(source : M.Calciu & C.Benavent)

Figure 7.2 : fonction discriminante Z maximisant la variance explique

1.2 Deux usages de lanalyse discriminante Selon que laccent est mis sur ses rsultats en termes de variables ou dindividus, on insiste sur lanalyse smantique des fonctions discriminantes et de leurs paramtres, sur la construction dune classification explicative / prdictive,

les deux usages tant complmentaires pour le gographe (classer / expliquer ou vice versa). 1.2.1 analyse des fonctions discriminantes La question prioritaire est alors : quest ce qui rend les classes de Y diffrentes les unes des autres ? Dans lexemple lmentaire voqu ci-dessus, on peut dterminer le profil de chacun des deux groupes de pays quant leurs natalit et mortalit. Les coefficients a1,,ap de la fonction discriminante sont calculs de faon maximiser le rapport variance inter-groupes / variance totale cest dire sparer au mieux des classes les plus homognes possibles. Ils indiquent le poids des variables dans la diffrenciation des groupes de Y mais coefficients bruts (exprims dans lunit de mesure des Xj), ils nindiquent pas limportance relative de chaque Xj dans la construction de la fonction discriminante. Pour viter leffet dunits de mesure diffrentes des variables explicatives, on calcule des coefficients 1,, p standardiss (aj / Xj) pour connatre la contribution de chacune. Lintensit de la relation entre Y et les Xj (quivalent du R de la rgression multiple) se dtermine en rapportant la variance inter-groupes la variance totale. Si le jeu de donnes comporte une erreur alatoire, on procde un test F de Fisher-Snedecor pour savoir si la fonction discriminante est probablement significative (cest dire si les groupes de Y sont probablement distincts ou non quant aux variables explicatives retenues). 1.2.2 Construction dune classification explicative / prdictive Les fonctions discriminantes constituent des frontires entre classes de Y sur la base de combinaisons linaires des variables quantitatives continues X1,,Xp. Ce sont des classifieurs gomtriques : un individu est affect la classe dont le centre de gravit lui est le plus proche (au sens de la distance de Mahalanobis). Lanalyse discriminante peut donc aussi tre vue comme une mthode de classification explicative. Le profil de chaque classe est connu par les valeurs de la projection de son point moyen sur les fonctions discriminantes, son homognit par sa variance intra-classe et la diffrence entre classes par la variance inter-classes. Lanalyse discriminante peut surtout tre utilise comme une mthode de classification prdictive. De nouveaux individus peuvent tre introduits : ils seront affects la classe dont le centre de gravit leur est le plus proche. On peut alors observer lvolution des variances intra et inter-classes pour voir si la classification est stable ou non et a encore une qualit acceptable. Dans une perspective de validation dune typologie, le gographe peut partager sa

population ou son chantillon en deux parties deffectifs gaux, faire lanalyse sur un des deux groupes puis, indpendamment ou en individus supplmentaires, sur lautre et comparer. En gnral, les groupes sintersectent partiellement : un individu appartient dans ce cas plusieurs groupes avec des probabilits plus ou moins grandes selon ses distances leurs centres de gravit. Les groupes sont alors des sous ensembles flous : on peut connatre les probabilits dappartenance dun lment tel ou tel dentre eux. Des probabilits voisines indiquent une zone de chevauchement et on peut alors : Ou bien laisser ces individus hors classification (pour navoir que des classes homognes), Ou bien faire des zones de chevauchement des classes mixtes, considres part.

1.2.3 Conditions de validit du modle Lanalyse discriminante suppose : - lgalit des variances et covariances dans les groupes, - une distribution normale des variables explicatives Xj dans chaque classe : le modle est assez robuste quand on sen loigne mais il y a dgradation de sa qualit. Evidemment, les variables explicatives Xj ne doivent pas tre co-linaires. Si elles sont fortement corrles, une ACP pralable est recommande : lanalyse discriminante seffectue alors sur les 1ers axes factoriels, parfaitement indpendants. 1.3 Exemple danalyse discriminante Cet exemple est tir dun rapport de 2003 (d Robert J.Wolfe et Victor Fisher) au US Fish & Wildlife Service dAlaska. Lobjectif de ltude est dy discriminer populations rurales (bnficiant dun soutien financier) et non rurales. Pour ce faire, lanalyse discriminante a t mise en uvre sur une slection de 195 populations (ayant plus de 49 personnes et une production vivrire annuelle infrieure 450 kilos par tte). Les populations de moins de 50 personnes ou dont la production vivrire annuelle par tte est suprieure 450 kilos ont, en effet, t directement classes comme rurales. La variable (qualitative) expliquer a donc deux modalits (rural / non rural) et deux variables (quantitatives) explicatives ont t retenues : la production vivrire annuelle par tte et la densit de population. La figure 7.3 prsente le nuage de points de la relation entre production vivrire (Y sur la figure) et la densit (X sur la figure) ainsi quune droite de sparation entre rural (faible densit, production vivrire relativement forte) et non rural (densit relativement forte, faible production vivrire). Cette droite de sparation est encadre par un intervalle situ 1 cart type de chacun des points moyens. Cette premire analyse, exploratoire, atteste le pouvoir discriminant des 2 variables explicatives retenues.

Figure 7.3 : analyse du pouvoir discriminant des 2 variables explicatives retenues (source :
R.J.Wolfe & V.Fisher)

Une analyse discriminante a donc t mene avec ces deux variables explicatives pour valider cette premire typologie. Lquation de la fonction discriminante calcule est : Y=2.828 food 0.812 density 4.882. La variance explique par ce modle est de 0.832 (sa racine, appele ici corrlation canonique est de 0.907), ce qui valide encore le choix des 2 variables explicatives. Lquation de la fonction discriminante permet de calculer le score Yi de chacune des 195 populations et de la qualifier de rurale ou non rurale. De la comparaison avec la premire analyse, il ressort que : 95% des populations (185 sur 195) ont t classes de la mme faon par les 2 mthodes (134 comme rurales, 51 comme non rurales), pour les 10 autres populations, dappartenance douteuse, ladjonction dautres variables discriminantes (utilisations extensives du sol, productions spcialises) a permis den affecter 6 au rural et 4 au non rural.

2. La segmentation (ou arbre de classification)


Son ide directrice est voisine de celle de la rgression multiple ou de lanalyse discriminante. Comme ces dernires, elle cherche expliquer une variable par une combinaison de variables explicatives. Comme lanalyse discriminante, elle permet aussi de rpartir en classes les lments dune population ou dun chantillon. A la diffrence des deux mthodes prcdentes, elle porte sur des variables catgorielles (qualitatives ou quantitatives peu de classes). Comme la CAH (cf chapitre 5), cest une mthode construisant une arborescence mais qui divise successivement le tout en parties (mthode descendante ) au lieu dagrger progressivement les lments en classes (mthode ascendante ).

2.1 Lalgorithme La segmentation (aussi appele, selon les usages quon en fait, arbre de classification ou arbre de dcision ), produit un arbre binaire cherchant expliquer les modalits dune variable catgorielle Y par un ensemble de variables X1,,Xp de nature quelconque mais que lalgorithme transforme, chaque tape, en variables binaires. Si Xj est quantitative, il recherche le seuil qui en partage au mieux les valeurs en 2 classes, si elle est catgorielle plus de 2 modalits, il en recherche la meilleure combinaison en 2 classes. On appelle segment dabord lensemble de la population ou de lchantillon puis ses sous ensembles successifs. Le segment initial est appel racine , les segments intermdiaires nuds et les segments terminaux feuilles de larbre. Lalgorithme est itratif : chacune de ses itrations, il partage les lments dun segment en 2 classes en fonction du plus fort gain dinformation ou de la meilleure liaison entre variable expliquer et variables explicatives . Pour chaque segment (nud de larbre binaire en construction), lalgorithme construit p tableaux de contingence (sil y a p variables explicatives) : chacun croise la variable expliquer avec une variable explicative. Le tableau manifestant entre Y et Xj le plus fort gain dinformation ou la plus forte liaison permet de retenir, pour ce segment, lune des variables explicatives dont les modalits ou les valeurs sont partitionnes en 2 parties pour dfinir 2 sous segments (selon la valeur ou la modalit prise par chaque individu du segment). Pour que la mthode soit oprationnelle, il faut dfinir : un critre mesurant le gain dinformation ou la relation entre variables expliquer et explicatives, une condition darrt de la construction progressive de larbre.

2.1.1 critre de choix dune variable explicative Plusieurs critres sont possibles. Les plus frquemment utiliss sont : des mesures drives du Khi (V de Cramer, T de Tschuprow, Phi, ), des indicateurs fonds sur les distributions de frquences conditionnelles, et, le plus souvent, des mesures drives de la thorie de linformation (entropie conditionnelle, redondance, perte dentropie) bien adaptes aux variables catgorielles.

Le processus de partitions successives garantit que les segments sont de plus en plus homognes et de mieux en mieux explicatifs de la variable Y. On dit que les segments sont, au fur et mesure, de plus en plus purs : un segment est pur si tous ses lments appartiennent la mme classe de Y, impur si leur distribution par classe de Y est uniforme. 2.1.2 Conditions darrt de construction de larbre

Deux faons de faire existent (selon le logiciel utilis) : - ou bien, vrifier avant chaque partition dun segment que :

on ne dpasse pas le nombre de niveaux initialement fix larbre, chaque sous segment crer comprend un nombre minimum dlments, le gain de puret est suffisant pour quon coupe le segment en 2 sous segments.

ou bien crer larborescence entire puis laguer les branches - celles qui ne correspondraient pas lune des conditions ci-dessus.

2.2

Aides linterprtation

La premire aide linterprtation est le graphique de larborescence. Pour en faire saisir lintrt, considrons lexemple des motivations de migration rsidentielle vers le priurbain partir dune enqute mene en 1980 auprs de 1513 chefs de mnage du triangle Lyon Grenoble Valence. Pour expliquer lintensit de leur mobilit (Y, variable expliquer rduite 2 modalits : moins de 3 logements occups, 3 ou plus), on a fait appel 10 variables explicatives (tableau 7.1), de natures diverses (nominale, ordinale, quantitative) mais ramenes, pour chaque nud, 2 catgories par recherche de seuil ou association de modalits.

Tableau 7.1 : variables explicatives de larbre de segmentation des 1513 chefs de mnage
(source : P.Dumolard)

De ces 10 variables explicatives, 4 seulement ont jou un rle majeur avant que les conditions darrt ninterrompent les partitions. Il sagit de : la CSP (en 1980) des chefs de mnage (sans profession et agriculteurs sont peu mobiles) leur ge (carrires rsidentielles peu prs acheves partir de la cinquantaine) le statut du logement (individuel, il est souvent en accession la proprit dont la dette freine la mobilit ultrieure) la mobilit professionnelle.

Les feuilles de larbre (identifies sur la figure 7.4 par une lettre de A F et dont leffectif est indiqu) sont plus homognes que les nuds intermdiaires : de A F, lintensit migratoire

des chefs de mnage est croissante : % minimal de mobiles pour les sans profession et agriculteurs ayant occup moins de 3 emplois, maximal pour les professions non agricoles ayant plus de 50 ans et ayant occup au moins 5 emplois successifs.

Figure 7.4 : arbre de segmentation des 1500 chefs de mnage (source : P. Dumolard) Le graphique de larbre fournit donc aussi un profil explicatif dune mobilit rsidentielle faible ou plus forte, profil explicatif propre chaque segment terminal. Dautres aides linterprtation peuvent aussi tre fournies : 2.3 pour chaque segment, les proportions rencontres de chaque modalit de la variable expliquer (indiquant le gain dhomognit des feuilles par rapport la racine), un indicateur global de qualit de la partition. Usages, avantages et limites de la segmentation

2.3.1 Deux types dusage La segmentation peut tre utilise de deux faons : ou bien comme mthode de classification explicative (cf lexemple ci dessus) sur lensemble des lments, ou bien comme mthode de prdiction dappartenance une classe. Un arbre est construit sur un chantillon reprsentatif puis des lments supplmentaires sont introduits : on observe alors les modifications de la puret de ses feuilles. Principales utilisations actuelles

2.3.2

Les principales applications concernent : le marketing et la gestion financire, le diagnostic mdical, linterprtation dimages satellite, le traitement denqutes, des tudes environnementales varies (pdologie, gomorphologie, climatologie,). Avantages et limites de la mthode

2.3.3

Les principaux avantages sont les suivants : en tant que mthode non paramtrique, la segmentation nimplique aucune hypothse sur la distribution (gaussienne) des variables, les variables explicatives (binarises par lalgorithme) peuvent y tre de toute nature, pour chaque feuille de larbre, on dispose de la hirarchie de leur importance, la segmentation cre des rgles de partition comprhensibles qui peuvent, par la suite, servir interroger des bases de donnes (via un langage de requtes dnomm SQL), lalgorithme, conome en temps calcul, permet de traiter un grand nombre dlments.

Mais il y a aussi un certain nombre de limites : pour chaque segment chaque tape de partition, on ne tient compte que dune seule des variables explicatives et non dune combinaison de celles ci, pour les variables explicatives quantitatives, la perte dinformation peut tre grande les rduire 2 catgories seulement, la mthode nest pas fiable si le nombre dlments N est petit et le nombre p de variables explicatives est grand, gomtriquement, la segmentation cre des botes rectangulaires de partition de nuages de points, ce qui peut en caricaturer certains.

2.4 1er Exemple : les femmes suisses entre la famille et le travail Cet exemple provient dune tude due F.B.Losa et P.Origoni sur les compromis entre carrires familiales et professionnelles des femmes de 20 61 ans nes et prsentes en Suisse au recensement de 2000. Ces compromis sont dicts la fois par loffre du march de travail en Suisse et la demande de travail des femmes, tenant compte de leurs impratifs familiaux. Une des hypothses de base de ltude est quil existe, entre les 3 rgions de Suisse (italienne, romande, almanique) des diffrences culturelles qui concourent expliquer la faible participation des femmes au march du travail en Suisse italienne et la prdilection de celles de Suisse almanique pour les emplois temps partiel court. Pour mettre en vidence ce facteur culturel, 9 arbres de segmentation (dans chaque rgion distinction entre femmes sans enfant / maries ou veuves / clibataires ou divorces) ont t cres et compars (sur les donnes du recensement de 2000) partir des mmes critres : variable catgorielle expliquer : 4 modalits (pas demploi, emploi temps partiel court, temps partiel long, temps complet), variables explicatives (binarises par lalgorithme): - fait dtre mre ou pas, - existence ou non dun partenaire actif dans le mnage, - niveau de formation de la femme, - ge de la femme, - profession de la femme, - ge du dernier enfant, - nombre denfants.

A titre dillustration, nous reproduisons (figure 7.5) larbre binaire correspondant aux femmes clibataires ou divorces de Suisse romande.

Figure 7.5 : taux doccupation en 2000 des femmes clibataires ou divorces de Suisse romande (source : F.B.Losa & P.Origoni) Sur la figure 7.5, chaque segment de larbre binaire est accompagn des frquences correspondant aux 4 modalits de la variable expliquer, ce qui permet de juger leurs gains de puret au fur et mesure de la descente de la racine aux feuilles. Ces gains de puret peuvent tre rsums par des calculs dentropie de la distribution en frquence des modalits de la variable expliquer la racine et pour chaque feuille. Rappelons ici que lentropie est, en statistique, une mesure de dispersion de la distribution dune variable catgorielle. Elle est maximale quand toutes les modalits ont mme frquence (gale 1/k sil y a k classes) et minimale si une seule classe a une frquence de 1. Lentropie dune distribution de frquences vaut : H = f j * log e ( f j )
j =1 k

Lentropie maximale possible vaut : 1 1 H max = * log e ( ) k j =1 k Et donc, aux fins de comparaison, lentropie relative vaut : H r = H / H max Lentropie relative la racine est ici de 0.848, celle pour le segment dernier enfant >13 ans / autre profession / plus de 56 ans / formation suprieure de 0.665. La perte dentropie mesure donc le gain dhomognit de cette feuille quant aux modalits de la variable expliquer.
k

Pour une feuille (segment terminal) donn, le chemin depuis la racine indique la hirarchie de ses variables explicatives et les seuils permettant de les binariser. Par exemple, le % de femmes clibataires ou divorces employes plein temps est de 46.0% en Suisse romande, la 1re variable explicative est lge du dernier enfant (% montant 52.1% sil a plus de 13 ans). Parmi celles ci, il monte 53.3% si la profession est autre que hotellerie restauration et, pour ces dernires, 62.4% pour les plus de 56 ans de formation suprieure : on a l un profil particulier de romandes, dont le taux doccupation plein temps est suprieur de plus d1/3 la moyenne. Pour en venir lhypothse dune diffrence culturelle en termes de taux doccupation des femmes dans les 3 Suisses, elle semble avre. Les femmes de Suisse latine et particulirement italienne semblent plus attaches un modle traditionnel de famille (impliquant de moindres taux doccupation) que leurs consoeurs de Suisse almanique o les stratgies de compromis entre travail et famille semblent traduire un modle plus moderne avec frquent recours au temps partiel. Cette diffrence culturelle semble, bien sr, combiner avec dventuels effets de structure (diffrences des 3 marchs du travail, compositions par ge des 3 populations expliquant une volution inter-gnrationnelle plus ou moins prononce des mentalits). 2.5 2nd Exemple : la morphologie du terrain sur la plante Mars Ltude (due R.Vilalta et T.F.Stepinski) ici rsume exprimente la fabrication dune carte gomorphologique de la valle Tisia sur la plante Mars pour en infrer les mcanismes ayant cre les formes. Les auteurs disposent dun Modle Numrique de Terrain (MNT) de la zone cre par le dispositif MOLA ( Mars Orbiter Laser Altimeter ), reprsent sur la figure 7.6A : on y remarque visuellement limportance surfacique de cratres, de pdiments inter-cratres et lexistence de chenaux. Ce MNT (figure 7.6A) est une grille daltitude de 161 626 cases (on nomme ces cases pixels en traitement dimages). A partir de ce MNT, 6 variables ont t calcules pour chaque pixel : son altitude moyenne, la diffrence entre son altitude et son altitude comme si toute la zone tait draine, sa pente principale, sa pente principale comme si toute la zone tait draine, le nombre de pixels amont de son bassin versant , ce nombre comme si toute la zone tait draine.

La masse dinformation reprsentant presque un million de valeurs (161 626 * 6), les auteurs ont constitu, pour les 6 variables, un chantillon spatialement reprsentatif de 40 000 pixels sur 161 626 (1 pixel sur 4). Un algorithme de classification ascendante sur cet chantillon a permis de crer 12 classes de formes (tableau 7.2) elles mmes regroupes en 4 grandes catgories : plaines inter-cratres (classes 1, 5, 8, 11), intrieur des cratres (classes 3, 4, 7, 10), crtes (classes 2 et 6), chenaux (classe 9).

classe 1 5 8 11 3 4 7 10 12 2 6 9

signification Plaines intra-cratre altitude moyenne Plaines intra-cratre altitude leve Plaines intra-cratre altitude basse Plaines intra-cratre altitude moyenne-basse Terrain intra-cratre assez profond sous la crte Terrain intra-cratre trs profond sous la crte Terrain intra-cratre juste sous la crte Terrain intra-cratre intermdiaire entre classes 3 et 4 Terrain intra-cratre sur un haut fond partiellement enseveli Terrain dominant une valle Terrain situ juste sous le bord extrieur du cratre chenal

Tableau 7.2 : principales formes de la valle Tisia sur Mars (source : R.Vilalta & T.F.Stepinski) Cette classification ascendante sur lchantillon reprsentatif a donc jou le rle de mthode dapprentissage des formes de terrain en jouant la fois sur des variables propres chaque pixel (variables 1,3, 5) et sur des variables simules, gographiquement contextuelles (variables 2, 4, 6). Un arbre de dcision a ensuite permis, sur la base de leurs 6 valeurs, de rpartir au mieux les 121 626 autres pixels aux 12 classes prcdemment cres. La figure 7.6B reprsente la carte gomorphologique issue de ce traitement de linformation. La comparaison des figures 7.6A et B montre une bonne discrimination des formes, ce qui permettra de remonter aux processus gomorphologiques producteurs.

Figure 7.6 : carte gomorphologique de la valle Tisia sur Mars (source : R.Vilalta & T.F.Stepinski) Ltude, outre son intrt thmatique dactualit, prsente nombre dintrts mthodologiques (traitement dune grande masse de donnes, utilisation dun chantillon dapprentissage, combinaison de classifications ascendante puis descendante, cration dune carte support dun raisonnement inductif en gomorphologie, ).

Rfrences cites dans ce chapitre


M.Calciu, C.Bnavent : http://www.christophe.benavent.free.fr/cours/stat/AFD.PDF R.J.Wolfe, V.Fisher : Discriminating rural populations in Alaska (US Fish & Wildlife Service, 2003, rapport) P.Dumolard : Migrations et mobilit en bas Dauphin (thse, Universit Lyon 2, 1983, 575 pages) R.Vilalta, T.F.Stepinski : http://www.geocities.com/js_source/tab04.html

A noter galement
M.Phipps : Espace, entropie, environnement (5ime rencontres Tho Quant, Besanon, 2001) Lexistence dun logiciel libre de segmentation (CTREE, add in Excel) tlchargeable
http://www.geocities.com/adotsaha/Ctree/

Bibliographie sommaire

! -

Prrequis de 1er cycle

Dumolard P., Dubus N., Charleux L. : Les statistiques en gographie (Belin, coll. Atouts, 2003) Minvielle E., Souiah S.A. : Lanalyse statistique et spatiale (Ed. du Temps, 2003) Groupe Chadule : Initiation aux pratiques statistiques en gographie (A.Colin, coll. U, 1997, 4ime ed.) !

En lien avec la cartographie thmatique

Bguin M., Pumain D. : La reprsentation des donnes gographiques (A.Colin, 2000) Godard V. : http://margaux.ipt.paris8.fr/vgodard/ Grasland C. : http://www.grasland.cicrp.jussieu.fr/grasland/agreg/module4/ !

Statistique multivarie gographique

Sanders L. : Lanalyse statistique des donnes en gographie (Reclus modes demploi, 1990) Charre J. : Statistique et territoire (Reclus modes demploi, 1995) Cybergeo : http://www.cybergeo.presse.fr/ !

Statistique multivarie

Lebart L., Morineau A., Piron M. : Statistique exploratoire multidimensionnelle (Dunod, 2002, 3ime ed.) Escofier B., Pages J. : Analyses factorielles simples et multiples (Dunod, 1998, 3ime ed.) Statsoft : http://www.statsoft.com/textbook/stathome.html/

LOGICIELS UTILISES
Lusage de la statistique multivarie ne sest rpandu dans toutes les disciplines qu partir de la large diffusion de linformatique (et, spcialement, de la micro informatique). Cest assez dire que sa mise en uvre implique lutilisation dun ou plusieurs logiciels. On a choisi, dans ce manuel, de nutiliser que des logiciels commerciaux de cot abordable et de manipulation aise (afin de ne pas ajouter de difficults de manipulation informatique celles des mthodes statistiques multivaries). On a donc utilis : ! EXCEL

Pour sa gestion simple de donnes numriques tabules, ses quelques possibilits graphiques et statistiques et, surtout, le fait quil est prsent sur peu prs tous les micro ordinateurs. En outre, pratiquement tous les logiciels statistiques importent et exportent des donnes au format Excel (ce qui en fait un choix dentre de gamme). ! XLSTAT

Un des grands intrts de ce logiciel est que cest un add in dExcel (une fois install, il lui est intgr), quil est dusage simple et quil contient la trs grande majorit des mthodes exposes dans ce manuel : analyses factorielles, classifications (convergence, CAH), rgression multiple, analyse discriminante, quelques possibilits graphiques, La version utilise (4.4) est un peu ancienne mais les nouvelles versions (7.5) cotent beaucoup plus cher et najoutent pas de notables mthodes multivaries (hormis dans le domaine des chroniques ). ! MINITAB

Autre logiciel de manipulation aise qui, outre les mthodes prsentes dans XLSTAT, comporte aussi des facilits de gestion des donnes, de calculs simples, une rubrique chroniques et une analyse de variance multiple. On a, exceptionnellement, utilis dautres logiciels entre autres : Idrisi kilimandjaro (S.I.G. raster comportant notamment des fonctions de statistique spatiale et danalyse dimages) Statistica (logiciel assez complexe mais produisant des graphiques de grande qualit)

On terminera en signalant un site rpertoriant un certain nombre de logiciels statistiques tlchargeables (dusage gratuit pour une priode limite ou ad aeternam : http://freestatistics.altervista.org/stat.php/

Exemples et exercices traits

Chapitre 2 : Analyse en Composantes Principales 7 variables dmographiques et sociales pour 27 pays europens 5 variables dmographiques pour 15 pays ouest africains Crots naturel et migratoire (1954-99) de 14 dpartements du S.E. franais

Chapitre 3 : Analyse des Correspondances Nationalits par taille de villes franaises de plus de 50 000 habitants en 1999 Pentes, altitudes et utilisations du sol du dpartement de la Savoie Structure dge des logements des rgions franaises en 1999 Principaux usages de leau dans les dpartements franais atlantiques en 2003

Chapitre 4 : Analyse des Correspondances Multiples Extrait dune enqute pralable la construction dun tronon autoroutier Enqute dopinion sur les dpenses publiques aux U.S.A. 5 indicateurs de politique environnementale de 34 villes franaises

Chapitre 5 : Classifications Types de contrats de travail de la population active par rgion franaise Prcipitations moyennes mensuelles de 12 villes guinennes 8 indicateurs de dveloppement humain de 25 pays europens recolonisation par le chne pubescent dun adret calcaire de Chartreuse

Chapitre 6 : Rgression multiple Tempratures moyennes annuelles de 6 villes du foss rhnan et abord vosgien Relation esprance de vie PNB/hb des pays dEurope de louest ou du centre Explication des tempratures moyennes de janvier dun chantillon de 33 villes US Relation PIB/hb types de contrat de travail (rgions franaises, 1999)

Chapitre 7 : Analyse discriminante et segmentation Discrimination des populations rurales et urbaines en Alaska Segmentation dune population par rapport aux facteurs de sa mobilit rsidentielle La population fminine suisse : les compromis de carrires familiale et professionnelle Etablissement dune carte gomorphologique de la valle Tisia (plante Mars)