Vous êtes sur la page 1sur 5

M1 Histoire – Stats-carto 6/01/2010

Séance 8 : La relation entre deux caractères :


corrélation et relation linéaire
Bonne année ! Appel
Dernier point sur leur dossier et la date limite de remise  vendredi.
 15 min. 10h15.
Aujourd’hui, suite des statistiques bivariées et de l’exploration des relations entre deux
caractères. La dernière fois, étude des transformations des caractères (rang, indices, standardisation)
pour pouvoir les comparer et faire l’hypothèse d’une relation entre eux.

1- La corrélation

Deux façons de tester l’existence d’une corrélation entre deux caractères :

 Le diagramme cartésien

= diagramme de corrélation, que l’on a vu la dernière fois.


Interroger les étudiants sur les formes possibles de relation.
Distinguer :
- intensité de la relation
- forme de la relation
- sens de la relation
Voir la première feuille du TD 8, à télécharger sur le serveur ftp.
Exercice TD 8 :
1. Analysez la relation entre les deux caractères «  densité de population » et « taux de
végétation » communal dans les communes des Hauts-de-Seine.
1ère étape : faire un diagramme cartésien. Hypothèse d’une relation linéaire négative forte
entre les deux caractères.
 15 min. 10h30.

 Le coefficient de corrélation de Bravais-Pearson

Façon plus fiable encore de tester l’existence d’une relation statistiquement significative
(corrélation) entre deux caractères.
Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité de
la relation entre deux caractères et de son sens lorsque cette relation est monotone. Le coefficient de

-1-
M1 Histoire – Stats-carto 6/01/2010

corrélation de Bravais-Pearson permet d’analyser les relations linéaires et le coefficient de


corrélation de Spearman les relations non-linéaires monotones.
 coefficient de corrélation linéaire de Bravais-Pearson = permet de détecter la présence ou
l’absence de relation linéaire entre deux caractères quantitatifs continus.
Calcul dans Excel : « =coefficient.determination(x connus; y connus) ». Il est noté « r ».
Interprétation : ce coefficient varie entre -1 et +1. Son interprétation est la suivante :
- si r est proche de 0, il n’y a pas de relation linéaire entre X et Y ;
- si r est proche de -1, il existe une forte relation linéaire négative entre X et Y ;
- si r est proche de 1, il existe une forte relation linéaire positive entre X et Y.
Le signe de r indique donc le sens de la relation tandis que la valeur absolue de r
indique l’intensité de la relation c’est-à-dire la capacité à prédire les valeurs de Y en fonction
de celles de X.
Relation linéaire = Y dépend de X selon une fonction affine de type y = ax + b (soit, une
droite).
Ici, coefficient de corrélation = -0,80, donc a priori, cela confirme l’existence d’une relation
linéaire négative forte entre les deux caractères.
Dernière étape indispensable = test de la significativité d’une relation.
Le calcul d’un coefficient de corrélation ne constitue qu’une première étape dans l’analyse de
la relation entre deux caractères. Il s’agit tout au plus d’une étape exploratoire qui doit être validée
par un test de la significativité de la relation et par une vérification de la validité de la relation
(absence de biais).
Les coefficients de corrélation de Bravais-Pearson ou de Spearman ne renseignent pas sur le
degré de significativité d’une relation car celle-ci dépend également du nombre d’observations.
Exemple : on veut étudier le lien entre cancer et tabagisme.
- Un r de + 0.6 établi sur un échantillon de 10 personnes n’est pas significatif au seuil d’erreur
de 5 % (il peut s’agir d’un hasard).
- Un r de + 0.2 établi sur un échantillon de 200 personnes est significatif au seuil de 5 % (la
taille de l’échantillon fait que la relation, bien que faible, a peu de chances d’être due au hasard).
Pour déterminer si une relation est significative, il faut procéder à un test d’hypothèse en
procédant de la façon suivante :
1- H0 = il n’y a pas de relation entre les deux caractères X et Y
2- On se fixe un risque d’erreur pour le rejet de H0 (exemple alpha = 5 %) et on calcule le
nombre de degrés de liberté. ddl = N (effectif) – 2.
3- On calcule la valeur absolue du coefficient de corrélation pour les données observées

-2-
M1 Histoire – Stats-carto 6/01/2010

4- On calcule la valeur théorique r(alpha, ddl) de ce coefficient qui n’est dépassée que dans
alpha % des cas
Téléchargez le fichier « Valeurs critiques de Bravais-Pearson. Leur expliquer comment lire le
tableau.
5- On teste H0 vraie si r(alpha, ddl) > abs[r(X,Y)]
6- On accepte ou rejette H0
Exemple : Pour 36 observations (ddl = 34), les valeurs critiques du coefficient de Bravais-
Pearson sont 0,3293 au seuil de 5 % et 0,2787 au seuil de 1 %. La valeur observée étant de -0,80, on
peut rejeter H0 et affirmer avec moins de 1 % de chances de se tromper que la relation observée
entre la densité et le taux de végétation communal dans les Hauts-de-Seine n’est pas le fruit du
hasard.
 30 min. 11h.

2- La régression linéaire

Dans le cas de deux caractères liés entre eux par une relation linéaire, il est possible de mettre
en place un modèle d’estimation des valeurs d’un caractère par rapport à l’autre, c’est la régression
linéaire.
Suite de l’exercice :
2. Déterminez l’équation qui traduit la relation linéaire entre ces deux caractères
Hypothèse : le taux de végétation communal s’explique (≠ causalité logique) par la densité de
population selon une fonction affine du type y = ax + b. On pourrait donc calculer les valeurs de y
(le taux de végétation) à partir de x (la densité). y est le caractère dépendant (à expliquer) et x le
caractère indépendant (explicatif).
On peut donc utiliser le modèle de régression linéaire : ajustement de y en x (ou de y selon x).
Pour déterminer l’équation de la droite, il faut calculer a et b. Le coefficient a, ou coefficient
de régression, traduit la pente de la droite. Il exprime de combien d’unités varie y lorsque x varie
d’une unité. Le coefficient b, ou constante, indique la valeur de y pour x=0. C’est donc la
coordonnée du point où la droite coupe l’axe Oy. On l’appelle « ordonnée à l’origine ».
Ces coefficients peuvent être calculés à la main :
- Pente de la droite : a =
- Ordonnée à l’origine : b =
Calcul des deux coefficients par les étudiants.
Tracez la courbe sur le graphique : Menu Graphique, Ajouter une courbe de tendance,
Courbe linéaire.

-3-
M1 Histoire – Stats-carto 6/01/2010

Pour apprécier la qualité de l’ajustement, on calcule le coefficient de détermination (r2). Dans


Excel, soit formule « coefficient.détermination », soit coefficient de corrélation au carré.
On peut aussi double cliquer sur la courbe de tendance et, dans options, demander l’affichage
de l’équation et du coefficient de détermination (R2) sur le graphique.
 30 min. 11h30.
PAUSE
 15 min. 11h45.
3. Calculez, cartographiez et analysez les résidus de cette relation
À partir de cette équation, il est possible de calculer les valeurs théoriques de y en fonction de
x, si la relation était parfaitement linéaire (r = -1). Les écarts des valeurs réelles à ces valeurs
estimées correspondent à la part de chaque modalité de y qui n’est pas déterminée par x.
Dans notre exemple, on sait que l’essentiel du taux de végétation communal dépend de la
densité. Ici, on peut éliminer l’influence de la densité sur le taux de végétation communal en
analysant ces écarts, que l’on appelle des résidus.
L’analyse des résidus de régression permet de déterminer ce qui, dans les variations de y ne
peut pas être expliqué par les variations de x. La cartographie des résidus permet souvent de
découvrir des facteurs secondaires (z) qui étaient masqués par la relation principale entre y et x.
Calcul des valeurs estimées par la modèle et des résidus. Valeur estimée de y = ax + b.
Résidu = valeurs observée – valeur estimée.
On peut mettre en évidence par des couleurs les résidus les plus importants.
 30 min. 12h15.
Cartographie des résidus : nouvelle feuille, copier les identifiants et les résidus, les trier,
calculer les paramètres de description de la distribution. Choix de la discrétisation.
! Note sur le choix de la discrétisation : en général, si comparaison de deux caractères,
discrétisation en classe d’égal effectif (quantiles), et éventuellement standardisée pour visualiser les
écarts à la moyenne si distribution symétrique. La discrétisation en classes d’égale amplitude ne
permet pas la comparaison. Si la distribution est normale (gaussienne), c’est-à-dire symétrique et
peu dispersée (2/3 des effectifs entre + 1 et – 1 écart-type autour de la moyenne), on peut utiliser la
moyenne et l’écart-type. Pour les résidus, valeurs positives et négatives, référence à la moyenne,
distribution presque symétrique et peu dispersée, donc discrétisation avec la moyenne et l’écart-
type.
Leur montrer les deux démarches pour 5 ou 6 classes. Ici 6 classes moins une.
Carte choroplèthe. Titre, échelle, légende (! à la notation des bornes de classe), source.
Montrer la carte.
Interprétation : montrer la carte topographique de Paris et la proche couronne.

-4-
M1 Histoire – Stats-carto 6/01/2010

Morphologie urbaine : lotissements pavillonnaires, des plus anciens (Antony, Sceaux, fin XIXe

siècle) aux plus récents (à proximité de la ville nouvelle de Saint-Quentin-en-Yvelines) au sud du


département, qui s’opposent à la banlieue industrielle dense de la petite couronne (Montrouge,
Malakoff, etc.) et à la banlieue industrielle du nord du département (habitat collectif, emprises
industrielles), dans la boucle de la Seine (Asnières, Gennevilliers).
+ contraste social : communes riches du sud du département / communes pauvres du nord.
Espace vert = entraîne des prix immobiliers plus élevés depuis longtemps, donc point de fixation
des classes aisées, qui en retour font en sorte de limiter la densification de leur commune (POS,
etc.) et de favoriser le maintien ou l’extension des espaces verts.
 45 min. 13h.

-5-

Vous aimerez peut-être aussi