Vous êtes sur la page 1sur 6

3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.

Cunty

TD4 : La classification multivariée d’entités spatiales


L’exemple de la composition des ménages dans Paris
et les départements de petite couronne en 2017
QGIS
I. Objectif............................................................................................................................................................. 1
II. Préparer les données..........................................................................................................................................1
III. Choisir les paramètres de la classification.........................................................................................................1
IV. Analysez les résultats........................................................................................................................................5
V. Mettez en page la carte en ajoutant les départements limitrophes avec leurs noms...........................................8
Commencez par créer un dossier nommé TD_classificationVotreNoms dans lequel vous créez deux sous-dossiers :
Donnees_Origine et Donnees_Produites
Jeux de données à utiliser et déposer dans le dossier Donnees_Origine
Prendre les données en ligne dans le dossier TD 4 sur le moodle
 Le fichier shape des IRIS de la région Ile-de-France : IGN,
 ParisPC_Iris_2017_indices_taux_prEtu.xlsx : ce fichier comprend les indices de spécialisation et les taux des
types de ménage/nombre total de ménage par IRIS

I. Objectif
L’objectif de ce TD est de poursuivre l’analyse de la composition familiale des IRIS de Paris et des
départements de la petite couronne. Il s’agit ici de faire une classification sur plusieurs variables pour créer
une information synthétique sous forme de classes (des groupes, d’une typologie) d’IRIS qui se ressemblent
en terme de composition des ménages. Les variables que vous allez utiliser sont les taux des types de
ménages par IRIS. Les résultats de la classification sont cartographiés.

II. Préparer les données


1. Dans QGIS créer un fichier shape contenant l’ensemble des Iris de Paris et la première couronne décrit par
les taux (et non par les indices de spécialisation) des types de ménages (attention les champs ne doivent pas
être affichés de manière temporaire mais faire partie intégrante de la table attributaire). .....................................
..............................................................................................................................................................................
..............................................................................................................................................................................

III. Choisir les paramètres de la classification


Pour pouvoir faire une classification multivariée avec QGIS il est nécessaire de faire fonctionner le script
FactoQGIS.
Un script est un petit bout programme informatique qui, pour fonctionner, doit être « interprété » par un
programme ou un serveur dédié au langage dans lequel ils ont été écrits.
FactoQGIS est un script qui fonctionne avec QGIS, mais qui est basé sur le langage d’un logiciel libre utilisé pour
faire des analyses statistiques qui s’appelle R et qui doit donc également être installé sur l’ordinateur.
- FactoQGIS est installé sur les PC de la salle informatique 1006 à l’université.
- Vous avez normalement installé FactoQGIS sur votre ordinateur personnel, si ce n’est pas le cas suivez la
démarche expliqué dans le document Installation_R_FactoQGIS sur le moodle : https://moodle.univ-
lyon2.fr/mod/resource/view.php?id=159889

Une fois ce script installé, l’outil de QGIS qui permet de faire la classification multivariée sur un jeu de
données vecteur se trouve dans dans la boîte à outil des traitements > R > FactoQGIS. Il s’intitule Analyse
typologique ACP et CAH FR.

1
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty

Ouvrez l’outil Analyse typologique ACP et CAH FR et paramétrez l’outil :


1. Choisir l’Espace de travail : indiquez le dossier dans lequel les résultats seront enregistrés (DonneesProduites)

2. Couche en entrée : jeu de données vecteur sur lequel porte l’analyse.

3. Identifiant des unités spatiales : choix du champ qui correspond à une identifiant unique de chaque IRIS. Pour
information : Les codes officiels des IRIS sont composés de 9 chiffres : les 2 premiers correspondent au
département, les 3 suivant au code de la commune, les 4 dernier au code de l’IRIS.

4. Choisir les variables quantitatives actives. Il s’agit des variables sur lesquelles portera la classification. Vous
effectuerez la classification sur les 5 variables sous forme de taux décrivant les ménages en termes de
composition familiale.
(Ne rien indiquer pour les variables quantitatives /qualitatives illustratives)

5. Centrer Réduire les données : laisser par défaut ou « False »


6. Nombre d’axes à garder pour le ACP : laisser la valeur par défaut (qui correspond au nombre de variables)
7. Nombre d’axes à garder pour le CAH : indiquer le même nombre que de variables (ici 5)
8. Nombre de classes à garder pour la CAH : mettez 5 classes (nombre par défaut normalement). Nous
reviendrons sur la question du nombre de classes un peu plus bas.
9. Type de distance pour la CAH – par défaut

2
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty

10.Méthode d’agrégation pour définir les classes (clusters) : gardez la méthode par défaut (Ward)
11.Enregistrement des résultats :
- Table des valeurs propres : laissez l’enregistrement par défaut – ne pas demander l’ouverture (nous n’en
avons pas besoin ici)
- Table des coordonnées des variables : laissez l’enregistrement par défaut – ne pas demander l’ouverture
(nous n’en avons pas besoin ici)
- Couche avec les classes : enregistrez-le dans DonneesProduites et nommez-la de façon explicite – ex.
IRISMen17PC_xClasses (en remplaçant x par le nombre de classes choisi)
12. Exécutez l’analyse (attention l’analyse peut durer assez longtemps – une dizaine de minutes)
En attendant, nous vous conseillons de revenir sur le cours de la semaine dernière et bien comprendre comment
interpréter les résultats de la classification (diapos 33 – 44 – celles concernant les résultats avec QGIS).

13. Lorsque l’outil a été exécuté, le rapport s’affiche dans votre navigateur internet.
14. Pour pouvoir choisir le nombre de classes optimal pour la typologie, il est nécessaire de regarder le
dendrogramme « l’arbre hiérarchique de groupes » (Hierarchical cluster tree) dans le rapport.
Analyse de l’arbre (voir figure ci-dessous) : Par défaut 5 classes ont été créés et sont visibles en bas de l’arbre
hiérarchique, avec 5 couleurs différentes.
Les deux classes qui se ressemblent le plus sont les classes 4 et 5 (se regroupent en premier) [A]
Ensuite s’ajoute la classe 3 au regroupement des classes 4 et 5 [B]
Puis, en [C] se combinent la classe 2 et la classe B
Enfin la classe [C] est regroupé avec la classe 1 en [D]
La longueur des branches des arbres indique la différence entre les classes : plus une branche est longue plus la
classe de différencie avec la classe avec laquelle elle se regroupe. Exemples :
- La branche bleu est très longue et montre que la classe 1 comprend des IRIS avec des caractéristiques très
différentes des autres classes - et c’est pourquoi elle ne se regroupe avec les autres classes qu’en haut de
l’arbre.
- La branche jaune est assez longue : la classe jaune est donc assez différente des classes 3, 4 et 5.
- Les branches grise, rouge et bleue sont assez courtes. Les trois classes se regroupent rapidement en une
classe [B]

Pour choisir le nombre de classes adapté on découpe l’arbre (voir les traits en tireté) : ici il est adapté de choisir
3 classes car cela permet de garder les deux classes 1 et 2 qui sont assez différents des autres classes.

3
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty

La classe 1 ne se regroupe
[D] qu’à la fin de la classification
avec les autres classes.

Découpage en 2 classes : classe 1 et classe [C]


qui regroupe les classes 2, 3, 4 et 5

Découpage en 3 classes :
classe 1, classe 2 et classe
[B] qui regroupe les classes
[C]
3, 4 et 5
Les 5 classes qui chacune
regroupe un certain nombre
d’IRIS (dans chaque classe
les IRIS qui la compose ont
des profils de type de
[B] ménages qui se ressemblent
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5
[A] plus qu’ils ne ressemblent
aux Iris des autres classes).

Les classes 4 et 5 se
ressemblent le plus

Après avoir déterminé le nombre de classes qui vous semble adapté, il est nécessaire de refaire la même analyse, en
ayant indiqué ce nombre de classes que vous souhaitez. Il faut donc simplement modifier le nombre de classes (3 ici)
et le nom de la couche résultat.

IV. Représentez le résultat sur la carte

a. Un nouveau jeu de données vecteur a été créé et ouvert dans le projet en cours. Dans la table attributaire a été
ajouté un champ qui définit la classe à laquelle appartient chaque IRIS s’appelle Clust (pour cluster). Faites
la carte de la classification. Quelle variable visuelle utilisez-vous ? Pourquoi ?...................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
b. Comment se répartissent les communes entre les classes (nombre d’IRIS par classe). Pour le savoir il faut
regarder le jeu de données shape créé par la classification. Comment faites-vous pour connaître le nombre
d’IRIS appartenant à chacune des trois classes ?...................................................................................................
..............................................................................................................................................................................

4
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty

V. Analysez les résultats


Ne vous intéressez pas aux 7 premiers tableau et figures qui concerne une autre analyse que la classification
(l’ACP).
1. Observez l’arbre hiérarchique : vous devez voir les 3 classes choisies.

2. En vous appuyant sur le rapport analysez les résultats de la classification.


a. Commencez par décrire la situation globale quant aux caractéristiques des compositions familiales des
ménages sur le territoire. Pour cela vous pouvez vous appuyer sur un des tableaux dans le rapport qui donne
la moyenne des taux des IRIS pour chaque type de ménage (Overall mean = moyenne générale des IRIS que
vous trouvez dans les tableaux de chaque classe), mais vous pouvez aussi utiliser la moyenne pondérée qui a
été calculée dans le fichier excel (voir tableau ci-dessous). La moyenne pondérée par le nombre de ménages
de l’ensemble des IRIS correspond aux taux calculés sur l’ensemble du territoire de Paris et de la petite
couronne (dans le tableau de contingence c’est = N.j / N.. * 100). Ici la différence entre les deux moyennes
est relativement faible, pourquoi à votre avis ?

b. Calculer le coefficient de variation (CV = écart-type/moyenne) pour chacune des variables. Le coefficient de
variation est un paramètre de dispersion relative qui donne une indication de la variabilité des modalités des
différentes variables. Ainsi, plus le coefficient de variation est élevé, plus les IRIS se différencient pour la
variable en question. Quelle est la variable qui différencie le plus les IRIS ? ......................................................
..............................................................................................................................................................................
Moyenne Ecart-type Coefficient
Variable
générale général de variation
J_TXCOUPAE 37,5 5,3 0,14
J_TXMONO 16,4 5,9 0,36
J_TXMSFAM 2,9 1,7 0,59
J_TXMCOUPS 17,7 5,6 0,32
J_TXMPSEUL 25,4 5 0,20

c. Décrivez les spécificités de chaque classe et proposez un nom synthétique à chaque groupe. Pour cela on
compare les moyennes des variables des classes avec les moyennes générales. Les valeurs test (v.test) et les
graphiques permettent de savoir quelles sont les variables qui caractérisent les classes. Les variables avec
une valeur test positif et élevé indique une forte sur-représentation des ménages correspondants (attention
l’ordre des variables dans le tableau et le graphique est inversé et différent pour chaque classe.
Pour vous aider : le premier groupe qui comprend 536 IRIS est caractérisé par une très forte sur-
représentation des ménages avec enfants (en couple ou monoparentales). Dans cette classe il y a en moyenne
37,5% des ménages qui sont des couples avec enfants par rapport à seulement 25,7% en moyenne dans les
l’ensemble des IRIS. Les familles monoparentales correspondent en moyenne à 16,7% des ménages par
rapport à 11,4% en moyenne dans les IRIS de Paris et des départements de la première couronne. Il y a aussi
dans cette classe une très forte sous-représentation de personnes vivant seuls (25,4% / 40,4%), des personnes
vivant en colocation (sans famille) (2% / 4 %)
ATTENTION – rappel cours : lorsqu’un IRIS est caractérisé par une sur-représentation de ménages
monoparentales, cela ne signifient pas que ces ménages sont plus nombreux que les autres (ou ont des taux
plus élevés) et sont les ménages les plus présents dans l’IRIS, mais que le taux de familles monoparentales

5
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty

est supérieur à la moyenne des taux de l’ensemble des IRIS => c’est une spécialisation et non une
dominante.

Groupe 1

Groupe 2

Groupe 3

3. Commentez l’organisation spatiale des différents types issus de la classification...........................................


........................................................................................................................................................................
........................................................................................................................................................................
........................................................................................................................................................................
........................................................................................................................................................................
........................................................................................................................................................................
........................................................................................................................................................................
........................................................................................................................................................................

VI. Mettez en page la carte en ajoutant les départements limitrophes avec leurs
noms.
- Soignez le titre et n’oubliez aucun des éléments d’habillage.
- La cartographie d’une classification multivariée nécessite de trouver des noms appropriés pour
décrire chaque classe. Proposez des libellés synthétiques pour chacune des trois classes et
introduisez-les dans la légende. Ex. pour la classe 1 :
 Sur-représentation de couples (sans ou avec enfants) et sous-représentation de ménages de
personnes vivant seules ou sans famille en colocation
 Ou plus court : Sur-représentation de couples sans ou avec enfants
- Indiquez en légende qu’il s’agit d’une analyse multivariée à partir de x variables décrivant la
composition familiale.

Vous aimerez peut-être aussi