Vous êtes sur la page 1sur 114

Analyse Exploratoire des

Données Géographiques

ESDA
Didier JOSSELIN
ESPACE, UMR 6012, CNRS, Avignon, France
didier.josselin@univ-avignon.fr
Tél.: 04 90 16 26 93
Introduction

Quelques outils de base de l’EDA


Méthodes à noyaux
Filtres spatiaux robustes
Variogrammes robustes
P Autocorrélation spatiale
Filtres adaptatifs
L Médienne, Distogramme
Rapport SIG / outils de Statistique
A ARPEGE, LAVSTAT
N Conclusion
Exploratory Spatial Data
Analysis :
Application de l’EDA à
l’analyse spatiale
L’enjeux principal de l’analyse spatiale
et donc … de l’ESDA
- L’analyse d’ensemble locale d’objets géographiques…
points
surfaces
lignes
objets complexes

- Pour rechercher les :


relations statistiques
relations spatiales
relations à travers les échelles
relations « statistico-spatiales » à travers…
L’ E D A et
la statistique “classique”
Analyse des données
Confirmatoire Exploratoire
Moyenne Médiane
Histogramme Branchage, histogramme
(amplitude égale) dynamique, boîte à pattes
Test de normalité Quantile-Quantile Plot
Régression linéaire, Ré-expression, Lowess
non linéaire régression robuste
An. de la variance Median polish
An. factorielle Projection révélatrice
La voie de l’EDA
Histogramme, branchage,
boîte à pattes, dot plot ...
Question : quels sont les
qualités et les défauts de
l’histogramme ?
100

50 Est
Ouest
0
1er 3e Nord
trim. trim.
Les qualités ...
+
- Mode de représentation synthétique

- Mathématiquement bien étudié et établi

- Permet de nombreux tests de dépendance


statistique (contingence)

- Méthodes de discrétisations « automatiques »


Les défauts ...
-
- Sensibilité au nombre de classes

- Mélange d’individus différents par classe

- Contrainte de surfaces proportionnelles


aux fréquences  formes « bizarres »

- Méthodes de discrétisations « automatiques »


Réponse apportée par le branchage (Stem and leaf)

Branchage de la Population Urbaine (% de la population dans des zones urbaines)

37 87 95 64 97 71 41 68 54 56 85 76 73 63 75 76 89 59 65 58 92 67
73 21 72 89 60 89 52 100 73 89 64 36 56 65 94 51 59 61 83 69 70 57

feuilles non ordonnées feuilles ordonnées

Tronc Feuilles Tronc Feuilles


2 1 2 1
3 76 3 67
4 1 4 1
5 469826197 5 124667899
6 4835704519 6 0134455789
7 163563230 7 012333566
8 7599993 8 3579999
9 5724 9 2457
10 0 10 0

D. Ladiray, 1999
Réponse apportée par des graphiques simples

Dot Plot
0 10 20 30 40 50 60 70 80 90 100

Stacked
Plot
0 10 20 30 40 50 60 70 80 90 100

Jittered
30 45 60 75 90
Plot
Réponse apportée par la boîte à pattes

proches
intérieurs adjaçents lointains
Q1 Q2 Q3
min max

Distance Inter Quartile (dIQ)

1,5 x (Q3-Q2)
Réponse apportée par l’histogramme dynamique
(ex : le distogramme, Josselin, 1999)
Démo
histogramme dynamique
et boîte à pattes
Question :
quels sont les qualités et les
défauts des méthodes classiques
de comparaison de distributions
(Khi2, Kolmogorov-Smirnov ...)
sur tableau de contingence ?
Les qualités ...
+

- Utilisent l’histogramme

- Sont synthétiques et font appel à des tests de


probabilité

- Mathématiquement bien étudié et établi


Les défauts ...
-
- Sensibilité au nombre de cases

- On perd l’individu

- On ne peut pas évaluer la forme de la distribution

- Plusieurs valeurs peuvent correspondre à des


réalités significativement différentes
La réponse du QQ Plot

Valeurs
xi
classées
par ordre
croissant
(i est
l’indice)

i3
F 1 ( p i  8)
i 1
4
Quantiles théoriques suivant une loi normale
Démo QQ-Plot
Ré-expression de variable,
régressions robustes, Lowess
Question :
quels sont les qualités et les
défauts des régressions de type
“moindres carrés”, linéaires
ou non linéaires ?
Les mêmes qualités que
d’habitude ...
et les mêmes défauts ...

- Sensibilité aux valeurs extrêmes…

- Nécessité de normalité des résidus et bonne


répartitions des individus en X et Y
Une première réponse :
la ré-expression des données
Puissance Transformée
4 X4
3 X3
2 X2
1 X
½ racine(X)
0 log(X) Log(x)
-½ -1/racine(X)
-1 -1/X
-2 -1/X2
-3 -1/X3

L’échelle de puissance de Tukey


La réponse de la “droite résistante”
à la régression linéaire
(ex :grigri-plot, A. Banos, 1999)

Résistant line

Régression
Moindres carrés
Principe de la droite résistante

 On regroupe les individus en 3 paquets


d’effectifs égaux (en fonction de X)

 Oncalcule pour chaque groupe l’individu


robuste {médiane des X, médiane des Y}

 On ajuste la droite sur les 2 points médians


extrêmes, puis sur le point médian central
Démo Droite Résistante
La réponse du “Lowess”
à la régression non linéaire
Principe du lowess (lissage
robuste d’un nuage de points)
 Ondéfinit une distance et on calcule, pour
chaque point les poids des points voisins

 Oncalcule la régression locale sur chaque


point (polynôme)

 On calcule les résidus et on applique un


ajustement robuste par la médiane, pour
éliminer les résidus trop importants
La voie de l’ESDA ?
Démo
Lowess, filtres
robustes sur données
ESDA : outils existants
Stat. usuelle exploratoire

Moyenne mobile (pondérée) Médiane mobile temporelle / spatiale

Bootstrap Bootstrap spatial

Filtres spatiaux moyens filtres médians, adaptatifs,


(pondérés) estimateurs de densités, kernel
Régression Régression géographique locale

Variogramme Variogramme robuste

Autocorrélation spatiale LISA : autocorrélation spatiale locale


globale
Analyse spatiale multivariée Data mining interactif, GAM
Question :
Comment lisser, homogénéiser,
simplifier
et
analyser à travers les échelles
... un phénomène observé ?
Filtres spatiaux robustes
Principe

On promène un filtre d’amplitude a choisi par l’utilisateur


En chaque valeur de la série, on applique la fonction f (pour nous la
médiane) :

t  (round (a ))
2
Y ( x, t )  f ( x t ) à ( x t ) ( x  t );( x  t  1);...; x;...; ( x  t  1); ( x  t ) 

X-1 X+1

X-2 X X+2

a=5, t=2
Médiane mobile
Même principe
Filtres spatiaux que sur série,
mais s’applique
en 2D

Degré de contiguïté Distance


Contiguïté
5 zones Matrice de contiguïté (i,j)
I J 1 2 3 4 5
1 2 1 0 1 1 1 0

3 2 1 0 1 0 1

3 1 1 0 1 1
4 5
4 1 0 1 0 1

5 0 1 1 1 0

Cij = 1 si i et j ont une frontière commune


0 sinon
On peut aussi définir des degrés de contiguïté :
- d'ordre k (supérieur à 1)
- d'ordre infèrieur à k
Distance
5 zones Matrice de contiguïté (i,j)
I J 1 2 3 4 5
1 2 1 0 25 33 50 22

3 2 25 0 53 22 50

3 33 53 0 33 53
4 5
4 50 22 33 0 25

5 22 50 53 25 0
a =1

Cij = 1/daij si i  j avec a > 1


0 sinon
On peut aussi d₫finir des pond₫rations dans la distance
en jouant sur a
Filtres spatiaux
Estimateurs de densité
Application aux accidents de la route en 1996 dans la CUDL

A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996


Estimation de densité par fonction de Kernel
et les fenêtres mobiles adaptatives

 Principe général :

- estimation en tout point de l’espace


de l’intensité d’un phénomène
(nombre d’accidents)

- balayage systématique de la zone


d’étude par une fenêtre circulaire
mobile de rayon r défini par
l’utilisateur ou auto-adaptative
D’après Bailey T., Gatrell, A., 1995
- pondération du nombre d’accidents
en fonction de la distance de chaque
accident au centre de la fenêtre
circulaire A. Banos, F. Huguenin-Richard, 1999
Estimation de densités locales. Représentation surfacique

Densités estimées à partir de 20 000 Densités estimées à partir de 20 000 fenêtres


fenêtres mobiles fixes de rayon 1000 m mobiles adaptatives de rayon 1000 m

Source : CUDL, 1996 A. Banos, F. Huguenin-Richard, 1999


Estimation de densités locales. Représentation 3D

Densités estimées à partir de 20 000 Densités estimées à partir de 20 000 fenêtres


fenêtres mobiles fixes de rayon 1000 m mobiles adaptatives de rayon 1000 m

Source : CUDL, 1996 A. Banos, F. Huguenin-Richard, 1999


Les clusters
Population de référence

 Soit une population de référence : l’ensemble


des accidents en 1996 dans la Cudl
 Extraction d’une sous-population : les
accidents ayant impliqué au moins un piéton
enfant
 Constat visuel : forme de la distribution
spatiale des 2 semis de points semble identique Sous-population

 Question :
- existent-t ils dans la sous-population des
concentrations locales non identifiables à l’œil
nu ?

A. Banos, F. Huguenin-Richard, 1999


Principe de la méthode des clusters

 Comparaison statistique de la distribution spatiale de la sous-


population avec sa distribution théorique associée, construite sous
hypothèse d’une répartition spatiale aléatoire

 Application de la loi de Poisson pour tester la significativité des


écarts observés entre les 2 distributions

 Couverture de la zone d’étude par des fenêtres mobiles circulaires


- nombre défini par l’utilisateur
- rayon variable, choisi au hasard dans un intervalle fixé par
l’utilisateur
Identification de concentrations locales
P(,) < 0.05 P(,) < 0.01

P(,) < 0.005 P(,) < 0.001

A. Banos, F. Huguenin-Richard, 1999


Démo
Filtres spatiaux robustes
Question :
Comment quantifier la
variation d’un phénomène dans
l’espace, à travers les échelles,
en changeant de résolution
spatiale ?
Variogrammes ... robustes
Principe sur une maille fixe
(Modèles Numériques de Terrain)
Z1

Z20

d Zn
2d

 Croiser variance et distance pour identifier des structures


Possible aussi sur semis de
points sans structure
Méthode

1 - On détermine la matrice des distances dij entre tous


les couples de points {i,j}

2 – Pour toutes les valeurs de distance dij (réparties en


classes, multiples de d ou non), on calcule la variance
de la variable Z

3 – On réalise un nuage de points croisant cette


variance (Y) et les distances (dij)
Variogramme « classique » et « robuste »
2
 Le Variogramme « classique » V (Z )  1
(Matheron) d
2.nd
 Z
i, j
i Zj

Et ses équivalents « robustes » (Cressie)


4
1  1 
1
2
Vd ( Z )  
2  nd
Z i Zj   0.457  0.494 
 i, j   
 n d 

4
1 2 
Vd ( Z )  med  Z i  Z j ; i, j nd 
1
2

2   0.457

• avec i et j les points considérés


d la résolution spatiale
Z la variable à étudier
nd le nombre de couples de points à la résolution d
Exemple : population communale
Quantiles
1 : variogramme classique
2 : variogramme robuste 1 1
3 variogramme robuste 2
2
3

Amplitudes égales
3
forte
faible

1,2
Variogramme exploratoire

(abs (Zi – Zj))


Lowess Log (abs (Zi – Zj))

Log (dij)
Dij
Autocorrélation spatiale
Question :
Comment mesurer à quel point
des individus proches
géographiquement se
ressemblent ?
Buts et usages de la mesure
d'autocorrélation spatiale

 Mesurer des contrastes sur une carte


ou une image
 Evaluer globalement ou localement la
structure d'un phénomène
 Identifier des zones homogènes vs
hétérogènes
 Aider à la détection de discontinuïtés
spatiales et des frontières
Disciplines et domaines concerné
 Analyse spatiale, géographie
quantitative
 Géostatistiques (phénomènes continus
et discrets)
 Traitement d'images
 Analyse des réseaux
 Economie spatiale
 Archéologie
 Ecologie
 Etc.
Les individus proches se
ressemblent... (autocorrélation +)
Les individus proches sont
différents... (autocorrélation -)
De quoi ai-je besoin pour
mesurer l'autocorrélation
spatiale ?
- D'une (ou de) variable(s) à mesurer
- D'une méthode pour mesurer la distance ou la
contiguïté :
* choix d'une mesure
* calcul d'une matrice de distance ou contiguïté
- D'une méthode pour évaluer l'autocorrélation
sous contrainte de distance / contiguïté
* choix d'une mesure
* choix d'une fenêtre d'application
- D'une méthode de validation, visualisation
Indices de MORAN
L’indice de MORAN global est défini comme suit (Moran) :

n
 i j
lij ( X i   )( X j   )
M ( 1  1) 
i j

 li  i
( X i   )2

Et son équivalent local (LISA, Anselin) :


( X i   ) lij ( X j  )
( 1 
1)

j
Mi
( X i   )2
 i n
• avec u la moyenne des valeurs
n le nombre d’individus
lij =1 si i et j contigus ou répondent à une condition, 0 sinon
M<0 ou Mi<0 si l’autocorrélation est négative
M>0 ou Mi>0 si l’autocorrélation est positive
Indices de GEARY
L’indice de GEARY global est défini comme suit (Geary):
l ( X  X ) 2

 i  j ij i

2 lij
j

(0 
  )

ij
G
( X i   )2

i n 1
Et son équivalent local (LISA, Anselin) :
(0 
  )
 i j
lij ( X i  X j ) 2

j
Gi
( X i   )2
i n
• avec u la moyenne des valeurs
n le nombre d’individus
lij =1 si i et j contigus ou répondent à une contrainte, 0 sinon
G ou Gi plus la valeur est grande et plus l’autocorrélation est forte
Démo LISA
Filtres temporels et spatiaux
robustes
Les individus proches se
ressemblent... (autocorrélation +)
Les individus proches sont
différents... (autocorrélation -)
Même principe,
que filtres spatiaux
lien lij

Degré de contiguïté (lij = cij) Distance (lij = dij)


Indices de MORAN
L’indice de MORAN global est défini comme suit (Moran) :

n
 i j
lij ( X i   )( X j   )
M ( 1  1) 
i j

 li  i
( X i   )2

Et son équivalent local (LISA, Anselin) :


( X i   ) lij ( X j  )
( 1 
1)

j
Mi
( X i   )2
 i n
• avec u la moyenne des valeurs
n le nombre d’individus
lij =1 si i et j contigus ou répondent à une condition, 0 sinon
M<0 ou Mi<0 si l’autocorrélation est négative
M>0 ou Mi>0 si l’autocorrélation est positive
Indices de GEARY
L’indice de GEARY global est défini comme suit (Geary):
l ( X  X ) 2

 i  j ij i

2 lij
j

(0 
  )

ij
G
( X i   )2

i n 1
Et son équivalent local (LISA, Anselin) :
(0 
  )
 i j
lij ( X i  X j ) 2

j
Gi
( X i   )2
i n
• avec u la moyenne des valeurs
n le nombre d’individus
lij =1 si i et j contigus ou répondent à une contrainte, 0 sinon
G ou Gi plus la valeur est grande et plus l’autocorrélation est forte
Démo LISA
Principe

On promène un filtre d’amplitude a choisi par l’utilisateur


En chaque valeur de la série, on applique la fonction f :

t  (round (a ))
2
Y ( x, t )  f ( x t ) à ( x t ) ( x  t );( x  t  1);...; x;...; ( x  t  1); ( x  t ) 

X-1 X+1

X-2 X X+2

a=5, t=2
Filtres sur série temporelle
Même principe,
Filtres spatiaux mais s’applique
en 2D

Degré de contiguïté Distance


Les outils du marché ...
SIG, logiciels de cartographie
ou logiciels de Statistique ?
Des logiciels de statistique
très élaborés...
+
 La variété et la puissance des modèles et des
logiciels statistiques disponibles

 L ’intégration des outils classiques et de


l ’EDA

 L ’existence de modèles statistiques et de


logiciels spécifiques en EDA spatiale (ESDA)
… qui intègrent peu le spatial.
-
 Il n ’existe que des « viewers » de données
géographiques

 Les « grands » logiciels de statistique


intègrent peu les modèles de l ’ESDA

 L ’approche générale reste de type Entrée-


Sortie
Des logiciels de cartographie
conviviaux ...

+
 L ’interactivité

 La facilité d ’utilisation

 La qualité de la sémiologie

 L ’association à des représentations statistiques


… avec cependant quelques
limites ...
-

 Outils relativement fermés

 Pas de structure de données accessible

 Pas de langage de requête autre que graphique

 Absence de modèle topologique


Des Systèmes d ’Information
Géographique puissants ...

 Acquérir

 Archiver

 Accéder

 Afficher

 Analyser

 Abstraire
Les fonctionnalités à
l’avantage des SIG
+
 Le géocodage de l ’information
 Intégration d ’informations hétérogènes
 Langages de requête élaborés
 Modèles de données structurés
 Variété des SIG dédiés ou généralistes
 Langage de programmation souvent intégré
 Parfois modèle topologique
Mais quelques inconvénients
majeurs ...
-

 Interactivité faible (sauf requête SQL)


 Peu d ’intégration d ’ outils statistiques (sauf
gros systèmes)
 Souvent empilement d ’informations mal
structurées (couches)

Anarchie ?
Conclusion : 3 voies sont
techniquement possibles

 Prendre un outil existant et l ’utiliser,

 Marierdeux (ou plusieurs) outils pour le


meilleur et pour le pire (LAVSTAT)

 Développer les besoins spécifiques dans les


outils proposés (ARPEGE)
Exploratory Spatial Data
Analysis :
nos propositions pour
l’enseignement et la recherche
Le « Distogramme »
Objectifs

Rechercher les discontinuités spatiales

Analyser les discontinuités dans les valeurs des


variables décrivant les individus

Chercher la meilleure configuration statistique


pour restituer une information cartographique
La règle des D
 une Double vue : une carte et une distribution statistique
 Deux types de Distributions croisées : spatiale et
statistique
 Un lien Dynamique entre elles
 Un outil pour Discrétiser des variables continues
 Un outil pour analyser les Discontinuités spatiales et
statistiques
 Un outil pour transformer les Données (“Distorsion” de
valeurs)
Le Distogramme : un lien dynamique
entre une carte et des distributions
Démo Distogramme
ARPEGE’
pour détecter les objets
géographiques composites
multiscalaires
Hypothèse
« Analyser dynamiquement les
relations statistiques et spatiales à
différentes échelles permet une
meilleure compréhension des entités
géographies et des relations qu’elles
entretiennent (statistiques, spatiales
et topologiques) »
L’exemple des flux agricoles
intercommunaux

Commune A Commune B
1 ha
SAU = flux 10 ha
Flux sortants
internes + entrants 360 ha
LES FLUX SORTANTS EN FRANCHE-COMTÉ
EN 1988

Un enchevêtrement
inextricable...

Source : RGA 1988


Notion de « pertinence territoriale »

Pi = flux internes / tous les flux

«Mauvais»  i
F int

Pi  i

avec
 i
(
i
F int
 Fi
out
 Fi
inc
)

Tous flux = flux internes (Fint ) + flux externes



«Bon» flux externes = sortants (Fout) + entrants (F
(Finc)
La « pertinence territoriale » calculée pour la PEZMA
(si elle était mal attribuée territorialement)
Distribution spatiale de la
pertinence territoriale communale
Communes Cantons
Qualité des données : complétude
(Josselin, Bolot, Chatonnay,2000)
Effet de bordure Secret statistique
Que cherchons-nous ?

Des collections
d’objets composites
associés par :

leurs dépendances sémantiques


et/ou statistiques

leurs relations spatiales, Commune aggregate with its key and boundary
topologiques et/ou
fonctionnelles Commune described by an attribute

Commune couple flow


Le « visionneur » d ’ARPEGE’
Application du prototype ARPEGE’
Démo
ARPEGE’
LAVSTAT
Un lien dynamique entre
ArcView et XlispStat
Objectifs

Analyser l’espace de manière systémique

Ne pas réinventer la roue

Faire coopérer des outils complémentaires


ArcView
Un SIG associé à ArcInfo
 Modèle topologique
 Requêtes variées
 Une connexion SQL (à Access par ex.)
 Tables indexées et liens entre tables
 Un langage de « meta-programmation » (Avenue)
Xlisp-Stat
Un environment puissant de
programmation statistique
 Représentations statistiques multiples
 Basé sur méthodes robustes (ESDA)
 Un lien dynamique entre les représentations

 Unlangage de programmation ouvert


(LISP Orienté Objet)
Interaction
Méthodologie de lien

Application 3
Services, DDE

Serveur

Xlisp-Stat

ArcView

Application N
Application de LAVSTAT

Vous aimerez peut-être aussi