Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Cunty
I. Objectif
L’objectif de ce TD est de poursuivre l’analyse de la composition familiale des IRIS de Paris et des
départements de la petite couronne. Il s’agit ici de faire une classification sur plusieurs variables pour créer
une information synthétique sous forme de classes (des groupes, d’une typologie) d’IRIS qui se ressemblent
en terme de composition des ménages. Les variables que vous allez utiliser sont les taux des types de
ménages par IRIS. Les résultats de la classification sont cartographiés.
Une fois ce script installé, l’outil de QGIS qui permet de faire la classification multivariée sur un jeu de
données vecteur se trouve dans dans la boîte à outil des traitements > R > FactoQGIS. Il s’intitule Analyse
typologique ACP et CAH FR.
1
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty
3. Identifiant des unités spatiales : choix du champ qui correspond à une identifiant unique de chaque IRIS. Pour
information : Les codes officiels des IRIS sont composés de 9 chiffres : les 2 premiers correspondent au
département, les 3 suivant au code de la commune, les 4 dernier au code de l’IRIS.
4. Choisir les variables quantitatives actives. Il s’agit des variables sur lesquelles portera la classification. Vous
effectuerez la classification sur les 5 variables sous forme de taux décrivant les ménages en termes de
composition familiale.
(Ne rien indiquer pour les variables quantitatives /qualitatives illustratives)
2
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty
10.Méthode d’agrégation pour définir les classes (clusters) : gardez la méthode par défaut (Ward)
11.Enregistrement des résultats :
- Table des valeurs propres : laissez l’enregistrement par défaut – ne pas demander l’ouverture (nous n’en
avons pas besoin ici)
- Table des coordonnées des variables : laissez l’enregistrement par défaut – ne pas demander l’ouverture
(nous n’en avons pas besoin ici)
- Couche avec les classes : enregistrez-le dans DonneesProduites et nommez-la de façon explicite – ex.
IRISMen17PC_xClasses (en remplaçant x par le nombre de classes choisi)
12. Exécutez l’analyse (attention l’analyse peut durer assez longtemps – une dizaine de minutes)
En attendant, nous vous conseillons de revenir sur le cours de la semaine dernière et bien comprendre comment
interpréter les résultats de la classification (diapos 33 – 44 – celles concernant les résultats avec QGIS).
13. Lorsque l’outil a été exécuté, le rapport s’affiche dans votre navigateur internet.
14. Pour pouvoir choisir le nombre de classes optimal pour la typologie, il est nécessaire de regarder le
dendrogramme « l’arbre hiérarchique de groupes » (Hierarchical cluster tree) dans le rapport.
Analyse de l’arbre (voir figure ci-dessous) : Par défaut 5 classes ont été créés et sont visibles en bas de l’arbre
hiérarchique, avec 5 couleurs différentes.
Les deux classes qui se ressemblent le plus sont les classes 4 et 5 (se regroupent en premier) [A]
Ensuite s’ajoute la classe 3 au regroupement des classes 4 et 5 [B]
Puis, en [C] se combinent la classe 2 et la classe B
Enfin la classe [C] est regroupé avec la classe 1 en [D]
La longueur des branches des arbres indique la différence entre les classes : plus une branche est longue plus la
classe de différencie avec la classe avec laquelle elle se regroupe. Exemples :
- La branche bleu est très longue et montre que la classe 1 comprend des IRIS avec des caractéristiques très
différentes des autres classes - et c’est pourquoi elle ne se regroupe avec les autres classes qu’en haut de
l’arbre.
- La branche jaune est assez longue : la classe jaune est donc assez différente des classes 3, 4 et 5.
- Les branches grise, rouge et bleue sont assez courtes. Les trois classes se regroupent rapidement en une
classe [B]
Pour choisir le nombre de classes adapté on découpe l’arbre (voir les traits en tireté) : ici il est adapté de choisir
3 classes car cela permet de garder les deux classes 1 et 2 qui sont assez différents des autres classes.
3
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty
La classe 1 ne se regroupe
[D] qu’à la fin de la classification
avec les autres classes.
Découpage en 3 classes :
classe 1, classe 2 et classe
[B] qui regroupe les classes
[C]
3, 4 et 5
Les 5 classes qui chacune
regroupe un certain nombre
d’IRIS (dans chaque classe
les IRIS qui la compose ont
des profils de type de
[B] ménages qui se ressemblent
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5
[A] plus qu’ils ne ressemblent
aux Iris des autres classes).
Les classes 4 et 5 se
ressemblent le plus
Après avoir déterminé le nombre de classes qui vous semble adapté, il est nécessaire de refaire la même analyse, en
ayant indiqué ce nombre de classes que vous souhaitez. Il faut donc simplement modifier le nombre de classes (3 ici)
et le nom de la couche résultat.
a. Un nouveau jeu de données vecteur a été créé et ouvert dans le projet en cours. Dans la table attributaire a été
ajouté un champ qui définit la classe à laquelle appartient chaque IRIS s’appelle Clust (pour cluster). Faites
la carte de la classification. Quelle variable visuelle utilisez-vous ? Pourquoi ?...................................................
..............................................................................................................................................................................
..............................................................................................................................................................................
b. Comment se répartissent les communes entre les classes (nombre d’IRIS par classe). Pour le savoir il faut
regarder le jeu de données shape créé par la classification. Comment faites-vous pour connaître le nombre
d’IRIS appartenant à chacune des trois classes ?...................................................................................................
..............................................................................................................................................................................
4
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty
b. Calculer le coefficient de variation (CV = écart-type/moyenne) pour chacune des variables. Le coefficient de
variation est un paramètre de dispersion relative qui donne une indication de la variabilité des modalités des
différentes variables. Ainsi, plus le coefficient de variation est élevé, plus les IRIS se différencient pour la
variable en question. Quelle est la variable qui différencie le plus les IRIS ? ......................................................
..............................................................................................................................................................................
Moyenne Ecart-type Coefficient
Variable
générale général de variation
J_TXCOUPAE 37,5 5,3 0,14
J_TXMONO 16,4 5,9 0,36
J_TXMSFAM 2,9 1,7 0,59
J_TXMCOUPS 17,7 5,6 0,32
J_TXMPSEUL 25,4 5 0,20
c. Décrivez les spécificités de chaque classe et proposez un nom synthétique à chaque groupe. Pour cela on
compare les moyennes des variables des classes avec les moyennes générales. Les valeurs test (v.test) et les
graphiques permettent de savoir quelles sont les variables qui caractérisent les classes. Les variables avec
une valeur test positif et élevé indique une forte sur-représentation des ménages correspondants (attention
l’ordre des variables dans le tableau et le graphique est inversé et différent pour chaque classe.
Pour vous aider : le premier groupe qui comprend 536 IRIS est caractérisé par une très forte sur-
représentation des ménages avec enfants (en couple ou monoparentales). Dans cette classe il y a en moyenne
37,5% des ménages qui sont des couples avec enfants par rapport à seulement 25,7% en moyenne dans les
l’ensemble des IRIS. Les familles monoparentales correspondent en moyenne à 16,7% des ménages par
rapport à 11,4% en moyenne dans les IRIS de Paris et des départements de la première couronne. Il y a aussi
dans cette classe une très forte sous-représentation de personnes vivant seuls (25,4% / 40,4%), des personnes
vivant en colocation (sans famille) (2% / 4 %)
ATTENTION – rappel cours : lorsqu’un IRIS est caractérisé par une sur-représentation de ménages
monoparentales, cela ne signifient pas que ces ménages sont plus nombreux que les autres (ou ont des taux
plus élevés) et sont les ménages les plus présents dans l’IRIS, mais que le taux de familles monoparentales
5
3BAAD016 L3 – Recueil et Traitement de données en géographie. C. Aschan et C.Cunty
est supérieur à la moyenne des taux de l’ensemble des IRIS => c’est une spécialisation et non une
dominante.
Groupe 1
Groupe 2
Groupe 3
VI. Mettez en page la carte en ajoutant les départements limitrophes avec leurs
noms.
- Soignez le titre et n’oubliez aucun des éléments d’habillage.
- La cartographie d’une classification multivariée nécessite de trouver des noms appropriés pour
décrire chaque classe. Proposez des libellés synthétiques pour chacune des trois classes et
introduisez-les dans la légende. Ex. pour la classe 1 :
Sur-représentation de couples (sans ou avec enfants) et sous-représentation de ménages de
personnes vivant seules ou sans famille en colocation
Ou plus court : Sur-représentation de couples sans ou avec enfants
- Indiquez en légende qu’il s’agit d’une analyse multivariée à partir de x variables décrivant la
composition familiale.