Académique Documents
Professionnel Documents
Culture Documents
Analyse de corrlation
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 2
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Avant-propos
Ce support dcrit les mthodes statistiques destines quantier et tester la liaison entre 2 variables
quantitatives : on parle d'analyse de corrlation dans la littrature.
Il correspond une partie des enseignements d'conomtrie (je prfre l'appellation Rgression Li-
Page: 3
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Avant-propos
celui de Avazian [1], qui fait partie des rfrences, introuvables aujourd'hui, que je bichonne dans ma
bibliothque.
Ce support est totalement gratuit. Vous pouvez en reprendre des parties dans vos propres productions
ou dans vos enseignements, tant qu'elles sont elles-mmes diuses titre non commercial. Une citation
de la source originale serait apprcie.
Bien entendu, selon la formule consacre, ce document n'engage que son auteur. Toutes suggestions
ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.
Page: 4
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
............................................
1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coecient de corrlation
.........................................................
2.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
11
16
17
26
31
31
34
3.3 Le coecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.4 de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.5 de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
52
..........................
59
59
61
64
68
Page: 5
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Corrlation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
73
73
75
A Fichier de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
............................................
81
...........................................................................
83
Littrature
Page: 6
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Partie I
Analyse de Corrlation
Page: 1
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 2
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
1
tudier la liaison entre deux variables quantitatives
1. http://www.ebsi.umontreal.ca/jetrouve/illustre/nuage.htm
Page: 3
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Fig. 1.1.
Liaison linaire ngative. X et Y voluent en sens inverse. La pente est inchange quelle que soit
la valeur de X .
Liaison monotone positive non-linaire. X et Y voluent dans le mme sens, mais la pente est
dirente selon le niveau de X .
Liaison non-linaire non-monotone. Il y a une relation fonctionnelle (de type sinusodale ici) entre
X et Y . Mais la relation n'est pas monotone, Y peut augmenter ou diminuer selon la valeur de X .
Absence de liaison. La valeur de X ne donne indication sur la valeur de Y , et inversement. L'autre
situation caractristique est que X (ou Y ) est constant quelle que soit la valeur de la seconde
variable.
Page: 4
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
1.3 Notations
1.3 Notations
Nous utiliserons les conventions suivantes dans ce support :
Une
{(xi , yi ), i = 1, . . . , n}.
La moyenne empirique calcule sur l'chantillon est x
=
n
L'cart type empirique est sx = n1 i=1 (xi x
)2
Page: 5
job: Analyse_de_Correlation
1
n
n
i=1
macro: svmono.cls
xi
date/time: 11-Jan-2012/23:04
Page: 6
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
2
Coecient de corrlation de Bravais-Pearson
2.1 Covariance
L'objectif de la covariance est de quantier la liaison entre deux variables X et Y , de manire mettre
en vidence le sens de la liaison et son intensit.
2.1.1 Dnition
La covariance est gale l'esprance du produit des variables centres.
(2.1)
On peut aussi l'crire comme l'esprance du produit des variables, moins le produit des esprances.
(2.2)
Signication. La covariance mesure la tendance des deux variables tre simultanment au dessus
ou en dessous de leurs esprances respectives. Elle modlise une liaison monotone.
Quelques remarques :
1. La rfrence est donc l'esprance mathmatique, on veut savoir si : lorsque X est suprieur a son
esprance, Y a tendance tre suprieur (ou infrieur) son esprance.
2. On peut maintenant quantier le sens de la liaison
COV (X, Y ) > 0 : la relation est positive c.--d. lorsque X est plus grand que son esprance, Y a
tendance l'tre galement ;
COV (X, Y ) = 0 : absence de relation monotone ;
COV (X, Y ) < 0 : la liaison est ngative c.--d. lorsque X est plus grand que son esprance, Y a
tendance tre plus petit que sa propre esprance.
3. La covariance d'une variable avec elle-mme est la variance, la relation est toujours positive. En eet,
Page: 7
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
2 Coecient de corrlation
COV (X, X) = E{[X E(X)][X E(X)]}
= E{[X E(X)]2 }
= V (X)
>0
2.1.2 Proprits
Voici les principales proprits de la covariance (Note : essayez d'eectuer les dmonstrations partir
de la dnition et des proprits de l'esprance mathmatique).
1.
2.
E[X] + E[Y ])
3.
4.
5.
6.
2.1.4 Estimation
Sur un chantillon de taille n, la covariance empirique est dnie de la manire suivante :
n
Sxy =
i=1 (xi
x
)(yi y)
n
job: Analyse_de_Correlation
macro: svmono.cls
(2.3)
n1
n COV
(X, Y ).
date/time: 11-Jan-2012/23:04
2.1 Covariance
n
(X, Y ) =
COV
x
)(yi y)
=
n1
i=1 (xi
n
i=1
xi yi n
xy
n1
(2.4)
Dtails des calculs sur un exemple. Pour prciser les ides, dtaillons les calculs dans le tableur
EXCEL. Nous cherchons calculer la covariance entre la cylindre et la puissance de 28 vhicules (Figure
2.1) :
Fig. 2.1.
Comparaison de covariances.
lorsque les variables sont exprimes dans des units direntes. Nous souhaitons travailler sur un chier
de 28 vhicules dcrites l'aide de la cylindre, la puissance, le poids et la consommation (Figure 2.2 ; ce
chier reviendra plusieurs fois dans ce support).
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
10
2 Coecient de corrlation
Fig. 2.2.
La covariance empirique de la variable "consommation" avec les autres variables nous donne respectivement : cylindre = 1197.6 ; puissance = 61.7 ; poids = 616.3. Manifestement, les valeurs ne se situent
pas sur la mme chelle, toute comparaison n'a aucun sens.
COV (X, Y )
rxy =
V (X) V (Y )
COV (X, Y )
=
x y
(2.5)
(2.6)
Remarque 1 (Prcisions sur la notation). Dans ce qui suit, s'il n'y a pas d'ambiguts, nous omettrons les
indices X et Y .
2.2.2 Proprits
1. Il est de mme signe que la covariance, avec les mmes interprtations.
Page: 10
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
11
2. X et Y sont indpendants, alors r = 0. La rciproque est fausse, sauf cas particulier que nous prcisons
maintenant.
3. Lorsque le couple de variables (X, Y ) suit une loi normale bi-varie, et uniquement dans ce cas, nous
avons l'quivalence r = 0 X et Y sont indpendants. Dans ce cas, le coecient de corrlation
caractrise parfaitement la liaison entre X et Y . Dans les autres cas, le coecient de corrlation
constitue une mesure parmi les autres de l'intensit de la corrlation.
4. Le coecient de corrlation constitue une mesure de l'intensit de liaison linaire entre 2 variables.
Il peut tre gal zro alors qu'il existe une liaison fonctionnelle entre les variables. C'est le cas lorsque
la liaison est non monotone.
5. La corrlation d'une variable avec elle mme est rxx = 1.
1 r +1
(2.7)
Lorsque :
r = +1, la liaison entre X et Y est linaire, positive et parfaite c.--d. la connaissance de X nous
fournit la valeur de Y (et inversement).
r = 1, la liaison est linaire et ngative.
) 0 r +1
x
y
V(
Page: 11
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
12
2 Coecient de corrlation
Fig. 2.3.
)(yi y)
i=1 (xi x
n
2
)
i=1 (xi x
i=1 (yi
r = n
y)2
(2.8)
r =
xi yi n
xy
yi2 n
y2
x2i n
x2
(2.9)
Nous pouvons calculer le coecient de corrlation sans disposer du dtail des observations, les quan
2
2
tits pr-calcules x
, y,
xi yi ,
xi et
yi susent.
Page: 12
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
13
2.3.2 Interprtation
Le coecient de corrlation sert avant tout caractriser une relation linaire positive ou ngative.
Il s'agit d'une mesure symtrique. Plus il est proche de 1 (en valeur absolue), plus la relation est forte.
coecient de dtermination, s'interprte comme la proportion de variance de Y (resp. X ) linairement explique par X (resp. Y ). On peut faire le rapprochement avec les rsultats produits avec la
rgression linaire 3 .
Ainsi, r = 0.9, on voit que la liaison est forte, puisqu'elle se rapproche de 1. C'est tout. En revanche,
avec r2 = 0.81, on peut dire que 81% de la variance de Y est explique par X (et inversement)(voir [3],
page 90).
Il existe par ailleurs d'autres interprtations du coecient de corrlation de Pearson. Parmi les plus
intressants gure l'interprtation gomtrique qui assimile r au cosinus de l'angle entre les deux vecteurs
de n observations X et Y 4 .
cr
du produit des variables centres rduites. Si l'on dsigne par x (resp. y ) les valeurs de X (resp. Y )
centres et rduites c.--d.
cr
xi =
xi x
sx
1 cr cr
xi yi
n i=1
n
r =
(2.10)
En particulier, lorsque les donnes sont centres et rduites, covariance et corrlation empiriques sont
quivalents.
E[
r] = r
r(1 r2 )
2n
3. Voir http://fr.wikipedia.org/wiki/Rgression_linaire_multiple
4. Voir http://en.wikipedia.org/wiki/Correlation_coefficient
Page: 13
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
14
2 Coecient de corrlation
Pour cette raison, certains logiciels proposent un coecient de corrlation ajust 5 ([6], page 274)
raj =
n1
(1 r2 )
n2
(2.11)
Bien entendu, l'ajustement est d'autant plus sensible que l'eectif est faible. Lorsque n est lev, r et
raj se confondent.
notre chier "voitures". Nous dtaillons les calculs dans la feuille EXCEL (Figure 2.4) :
Fig. 2.4.
102138444 et 197200.
5. Voir le parallle avec le coecient de dtermination ajust en rgression linaire multiple http://fr.
wikipedia.org/wiki/Rgression_linaire_multiple
Page: 14
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
15
543169.291.
Reste former le rapport, la corrlation entre la cylindre et la puissance est r = 0.9475.
La fonction "COEFFICIENT.CORRELATION(...)" du tableur EXCEL propose la mme valeur.
Nuage de points. Il y a une forte liaison linaire entre "cylindre" et "puissance", ce que conrme
le graphique nuage de points (Figure 2.5). On notera aussi, et le coecient de corrlation ne sait pas
traduire ces informations, que 2 points semblent s'carter des autres, mais pas de la mme manire :
Fig. 2.5.
La "Lancia K 3.0 LS" est une grosse cylindre, trs puissante. Elle s'carte du nuage certes, mais
elle est dans la ligne de la liaison entre les deux variables.
La "Hyundai Sonata 3000" est aussi une grosse cylindre, mais elle est relativement anmique. Le
point est un peu l'cart des autres, tout comme la Lancia, mais elle ne respecte pas, apparemment,
l'apparente liaison (visuelle et numrique) entre cylindre et puissance. Si on retire cette observation,
la corrlation est renforce, elle passe 0.9635.
pouvons pas armer s'il est signicativement plus lev que les autres.
Page: 15
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
16
2 Coecient de corrlation
H0 : r = 0
H1 : r = 0
Remarque 2 (Autres hypothses alternatives). On peut vouloir dnir une hypothse alternative dirente
(H1 : r < 0 ou H1 : r > 0). Les caractristiques des distributions restent les mmes. Pour un risque
donn, seul est modi le seuil de rejet de H0 puisque le test est unilatral dans ce cas.
Test exact. Le test tudi dans cette section est paramtrique. On suppose a priori
(X, Y ) suit une loi normale
bivarie 6 .
que le couple
nous prsenterons plus bas est exacte ; le test de signicativit quivaut un test d'indpendance.
Test asymptotique. Cette restriction est moins contraignante lorsque n est susamment grand 7 . A
partir de 25 observations, l'approximation est bonne, mme si nous nous cartons (un peu) de la distribution normale conjointe ([10], page 308). La distribution est asymptotiquement valable sous l'hypothse
(2.12)
1
r2
n2
Rgion critique. La rgion critique (rejet de l'hypothse nulle) du test au risque s'crit :
R.C. : |t| > t1 2 (n 2)
o t1 2 (n 2) est le quantile d'ordre 1
Probabilit critique (p-value). Plutt que de comparer la statistique calcule avec la seuil thorique
fournie par la loi de Student, les logiciels proposent souvent la probabilit critique (p-value ) que l'on doit
comparer au risque que l'on s'est x. Si la p-value est plus petite, alors nous rejetons l'hypothse nulle.
6. Si (X, Y ) suit une loi normale bivarie, alors X et Y suivent individuellement une loi normale. En revanche,
ce n'est pas parce que X et Y sont individuellement gaussiens que le couple (X, Y ) l'est forcment. Enn, si X
ou Y n'est pas gaussien, le couple (X, Y ) ne l'est pas non plus.
7. Voir http://faculty.vassar.edu/lowry/ch4pt1.html et http://www2.chass.ncsu.edu/garson/PA765/
correl.htm#assume
Page: 16
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
17
0.9475
10.94752
282
= 15.1171
distribution.
z =
1 1 + r
ln
2 1 r
8. Il existe une approximation ([1], page 108) plus prcise de l'esprance E[z ]
lger biais, mais il devient trs vite ngligeable ds que n augmente.
Page: 17
job: Analyse_de_Correlation
(2.13)
macro: svmono.cls
1
2
ln
1+r
1r
r
2(n1)
. Il y a un
date/time: 11-Jan-2012/23:04
18
2 Coecient de corrlation
1 1+r
ln
2 1r
1
V [
z]
n3
E[
z]
L'approximation est bonne ds les (relativement) petites valeurs de n (ds n > 10 en pratique).
Nous pouvons nous appuyer sur cette statistique pour raliser le test de signicativit ci-dessus. Mais,
plus intressant encore, la transformation nous ore d'autres possibilits.
r =
e2z 1
e2z + 1
(2.14)
z1,2 = z u
1
2
1
n3
(2.15)
Exemple numrique. Nous souhaitons calculer l'intervalle de conance de la corrlation entre cylindre et puissance pour un niveau de conance de 95%. Rappelons que r = 0.9475.
Le quantile de la loi normale centre rduite d'ordre 0.975 est u0.975 = 1.96
La transformation de Fisher nous donne z =
1
= 0.2
L'cart type de z est gal 283
1
2
1+0.9475
ln 10.9475
= 1.8072
La borne basse de l'intervalle de conance s'crit z1 = 1.8072 1.96 0.2 = 1.4152 ; selon le mme
procd, la borne haute z2 = 2.1992
Nous en dduisons les bornes de l'intervalle de conance du coecient de corrlation :
e21.4152 1
= 0.8886
e21.4152 + 1
e22.1992 1
r2 = 22.1992
= 0.9757
e
+1
r1 =
[0.8886 ; 0.9757]
Page: 18
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
19
1
2
1+r0
ln 1r
, l'hypothse nulle du test s'crit
0
H0 : z = z0
La statistique du test U est
z z0
U=
= (
z z0 ) n 3
(2.16)
1
n3
Exemple : Corrlation cylindre - puissance. Nous souhaitons eectuer le test unilatral suivant
au risque 5%
H0 : r = 0.9
H1 : r > 0.9
Les tapes du calcul sont les suivantes
Nous calculons la valeur de rfrence transforme z0 =
Rappelons que r = 0.9475 et z = 1.8072
La statistique du test est U = (
z z0 )
1
2
1+0.9
ln 10.9
= 1.4722
n 3 = (1.8072 1.4722)
28 3 = 1.6750
Que nous devons comparer avec le quantile d'ordre 1 = 1 0.05 = 0.95 de la loi normale centre
rduite c.--d. u0.95 = 1.6449
Au risque = 5%, l'hypothse nulle n'est pas compatible avec nos donnes, nous acceptons H1
H0 : r1 = r2
H1 : r1 = r2
Page: 19
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
20
2 Coecient de corrlation
Nous disposons de 2 chantillons de taille n1 et n2 . Nous introduisons la statistique
D = z1 z2
(2.17)
Sous H0 , puisque les estimateurs r (et par consquent z) sont indpendants (estims sur des chantillons indpendants), la statique D suit asymptotiquement une loi normale de paramtres
E[D] = 0
V [D] =
1
1
+
n1 3 n2 3
R.C. : U =
|
z1 z2 |
1
n1 3
1
n2 3
u1 2
Exemple numrique : comparer la corrlation taille - poids chez les hommes et chez
les femmes. Nous disposons d'un chantillon de n1 = 15 femmes, et n2 = 20 hommes (Figure 2.6).
Nous souhaitons tester l'galit du coecient de corrlation entre le poids et la taille dans les deux
sous-populations au risque de 5%. Les tapes du calcul sont numres ci-dessous.
Nous calculons les coecients de corrlation, nous obtenons r1 = 0.5661 et r2 = 0.4909
Nous appliquons la transformation de Fisher, z1 = 0.6417 et z2 = 0.5372
Nous calculons la statistique D = z1 z2 = 0.1045, puis sa variance V (D) =
Nous en dduisons alors U =
|0.1045|
0.1422
0.3652
0.3770
1
153
1
203
= 0.1422
= 0.2771
Que nous comparons au quantile d'ordre 0.975 de la loi normale centre rduite, soit u0.975 = 1.96
Conclusion : au risque de 5%, les donnes sont compatibles avec l'hypothse nulle c.--d. le coecient
de corrlation entre le poids et taille n'est pas signicativement dirent chez les hommes et les
femmes.
2.5.5 Comparaison de K
(K 2)
Il est possible de gnraliser ce test pour comparer K coecients de corrlation dans K souspopulations. La statistique du test s'crit diremment, elle suit une loi du 2 dans ce cas (voir [2], page
22). Il s'agit bien souvent de comparer le mme coecient de corrlation sur plusieurs sous-populations.
Remarque 3 (C'est une vraie gnralisation). Lorsque K = 2, nous devrions retrouver le test prcdent,
nous vrierons cela sur le mme exemple que prcdemment (section 2.5.4).
L'hypothse nulle du test est
H0 : r1 = r2 = = rK
L'hypothse alternative est "un des coecients au moins s'carte des autres".
Page: 20
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Fig. 2.6.
21
2 =
(nk 3)
zk2
k=1
K
zk ]2
[ k=1 (nk 3)
K
k=1 (nk 3)
(2.18)
1
2
1+
rk
ln 1
rk .
Sous H0 , la statistique du test suit une loi du 2 (K 1) K 1 degrs de libert. On rejette l'hypothse
nulle lorsqu'elle est suprieure au quantile 21 (K 1) de la loi thorique pour un risque .
Exemple numrique 1 : comparaison de la corrlation poids vs. consommation des vhicules de direntes origines. Nous souhaitons vrier, au risque de 5%, que la corrlation entre
le poids et la consommation des vhicules est la mme pour des vhicules en provenance de l'Europe
(France, Allemagne, etc.), du Japon, et des USA. Le chier est disponible sur le site DASL (Data and
Story Library) 9 . Du chier original, nous avons supprim l'observation atypique (la fameuse Buick Estate
Wagon). Nous disposons pour chaque catgorie de vhicule de n1 = 9, n2 = 7 et n3 = 21 observations.
Tous les calculs ont t mens dans une feuille EXCEL (Figure 2.7), en voici les dtails :
9. http://lib.stat.cmu.edu/DASL/Stories/FuelEfficientBuickWagon.html
Page: 21
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
22
2 Coecient de corrlation
Fig. 2.7.
Pour chaque origine des vhicules, nous disposons des deux colonnes de donnes (Poids et Consommation).
Nous obtenons les coecients de corrlation empiriques r1 = 0.9716, r2 = 0.9540, r3 = 0.9647 ; en
appliquant la transformation de Fisher, nous avons : z1 = 2.1198, z2 = 1.8741, z3 = 2.0092.
113.6718.
La statistique du test est 2 = C
A
B
= 0.1459.
Le quantile d'ordre 1 = 95% de la loi du 2 (K 1) = 2 degrs de libert est 20.95 (2) = 5.9915.
Nos donnes sont compatibles avec l'hypothse nulle : les corrlations sont les mmes quelle que
soit l'origine des vhicules.
De la mme manire, nous aurions pu calculer la probabilit critique du test (la p-value), elle est
gale 0.9297, largement suprieure au risque 5%. La conclusion est bien videmment la mme.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
23
les rsultats sont en accord avec notre exemple de la section 2.5.4. Dtaillons de nouveaux les calculs en
reprenant les notations de l'exemple prcdent
A = [(15 3) 0.6417 + (20 3) 0.5372]2 = 283.3678
B = (15 3) + (20 3) = 29
C = (15 3) 0.64172 + (20 3) 0.53722 = 9.8481
Ainsi, la statistique du test est 2 = C
A
B
Conformment au test prcdent, on conclut, au risque 5%, que les donnes sont compatibles avec
l'hypothse d'galit des coecients de corrlation.
En regardant de plus prs les rsultats, nous constatons que
tement la valeur de la statistique du test bas sur la loi normale. Ce n'est gure tonnant, en eet
n'oublions pas qu'il y a une relation entre la loi normale et la loi du 2 1 degr de libert c.--d.
H0 : ryx = ryz
On peut vouloir construire un test unilatral (ryx > ryz ou ryx < ryz ) ou bilatral (ryx = ryz ).
Dans ce cadre, le test t de Williams est conseill ds lors que n est assez grand (n 20). La statistique
s'crit ([2], page 24)
t = (
ryx ryz )
(n 1)(1 + rxz )
2 n1
2 (1 rxz )3
n3 |R| + r
(2.19)
2
2
2
o r = (
ryx + ryz )/2 ; |R| = 1 ryx
ryz
rxz
+ 2
ryx ryz rxz
Remarque 4 (X et Z sont orthogonaux). Nous remarquons que le degr du lien entre les variables X et Z
inue sur les rsultats. Si X et Z sont orthogonaux (c.--d. rxz = 0), la statistique dpend uniquement
des corrlations ryx et ryz .
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
24
2 Coecient de corrlation
Fig. 2.8.
r = (
ryx + ryz )/2 = 0.8898
C = (1 rxz )3 = 0.0001
Nous obtenons la statistique du test t = A
B
2 27
25 0.0191+0.88980.0001
= 0.1448
Au risque 5%, nos donnes sont compatibles avec l'hypothse nulle, la consommation est identiquement corrle la cylindre et la puissance.
La p-value du test gal 0.8861 conduit bien videmment la mme conclusion.
Page: 24
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
25
H0 : rxy = rzw
H1 : rxy = rzw
Le test peut tre unilatral (c.--d. H1 : rxy < rzw ou rxy > rzw ).
De prime abord, ce test parat assez trange. Est-ce que comparer des corrlations calcules sur des
concepts dirents a rellement un sens ? Prenons l'exemple des voitures, opposer la corrlation entre
la puissance et la consommation, d'une part, et la corrlation entre le poids et le prix, d'autre part, ne
parat pas trs pertinent.
On comprend mieux le sens de ce test la lumire de l'exemple propos par une des rares rfrences
qui le dcrit (voir [2], page 24). Pour un ensemble d'lecteurs, on calcule la corrlation entre les donations
et les intentions de votes, une anne donne, puis 4 ans plus tard. L'objectif est de vrier si le lien entre
ces deux variables a t modi entre temps.
De cet exemple, nous retiendrons avant tout l'ide d'appariement. Nous voulons comparer l'intensit
d'un lien avant et aprs l'occurrence d'un vnement, qui peut tre simplement un certain dlai, mais qui
peut tre aussi une action particulire. Mais la notion d'appariement est plus large. Il y a eectivement
la situation "avant - aprs". Mais nous pouvons la dnir surtout comme des mesures eectues sur une
unit statistique : dans un mnage, mesurer et comparer une caractristique chez l'homme et la femme ;
comparer la mme variable chez des jumeaux ; etc. 10 .
Le test de Clark et Dunn est conseille pour cette conguration. Il suit asymptotiquement une loi
normale centre rduite, il est valable ds lors que n 20. Par commodits, nous numroterons les
variables X = 1, Y = 2, Z = 3 et W = 4. Nous crirons par exemple r12 pour rxy , ou r34 pour rzw , etc.
La statistique du test s'crit
U = (
z12 z34 )
n3
2 2
s
(2.20)
avec
z =
1
2
s =
(1
r 2 )2
r12 +
r34
2
r =
1+
r
ln 1
r , la transformation de Fisher ;
;
;
= 0.5{[(
r13 r23 r)(
r24 r23 r)] + [(
r14 r13 r)(
r23 r13 r)] + [(
r13 r14 r)(
r24 r14 r)] + [(
r14
r24 r)(
r23 r24 r)]}
Exemple : les donations au parti. Reprenons directement l'exemple dcrit dans l'ouvrage de Chen
et Popovich ([2], page 25). Il s'agit de tester, pour n = 203 votants, si le lien entre les donations au parti
et les intentions de vote a volu dans un laps de temps de 4 annes. Les corrlations comparer sont
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
26
2 Coecient de corrlation
La statistique du test est gal U = 1.48. Au risque 5%, pour un test bilatral, nous comparons
|U | = 1.48 avec le quantile de la loi normale centre rduite u0.975 = 1.96. Les donnes sont compatibles
avec l'hypothse nulle, 4 annes plus tard, le lien entre les intentions de vote et les donations n'a pas
volu signicativement.
Page: 26
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
27
une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rle de facteur confondant.
L'apparente liaison est un artefact li l'existence d'un facteur non matris.
Dans le cas o le facteur confondant est qualitatif, on dtecte facilement le problme en construisant
un nuage de points en distinguant les sous-groupes. tudions plus en dtail notre exemple "taille vs.
longueur de cheveux" chez les hommes et chez les femmes. Lorsque nous construisons le nuage de points,
nous constatons que le nuage des hommes se distingue du nuage des femmes (Figure 2.9). Globalement,
une liaison compltement factice apparat. La corrlation est r1 = 0.074 chez les hommes, r2 = 0.141
chez les femmes, il passe r = 0.602 sur la totalit des individus.
Fig. 2.9.
Nuage de points "taille vs. longueur des cheveux" - Hommes et femmes confondus
Lorsque le facteur est quantitatif, c'est un peu plus compliqu (exemple : vente de lunettes de soleil et
de crmes glaces, il n'y a pas de lien direct, c'est l'ensoleillement ou la temprature qui les font varier de
manire concomitante). Nous tudierons plus en dtail le calcul de la corrlation en contrlant les eets
d'une ou plusieurs tierces variables dans la partie consacre la corrlation partielle.
Page: 27
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
28
2 Coecient de corrlation
Les raisons de l'apparition de ce type d'observations sont multiples : erreur lors du recueil des donnes
(exemple : une personne de 4 ans souscrit une assurance-vie, en ralit elle a 40 ans) ; un comportement
rellement dirent (exemple : un sportif tellement dop qu'il porte les records du monde des sommets
jamais atteints) ; etc.
Le positionnement de ces points par rapport au nuage global laisse croire (ou masque) l'existence
d'une liaison manifeste entre les variables. Il existe certes des techniques statistiques destines identier
automatiquement les donnes atypiques, mais force est de constater que des graphiques simples telles que
les nuages de points permettent souvent de dtecter rapidement les anomalies.
Fig. 2.10.
Dans un premier exemple (Figure 2.10), on note le positionnement totalement atypique de l'individu
numro 7. Si on l'utilise dans les calculs, le coecient empirique est 0.9976, trs proche de liaison linaire
parfaite. Si on le retire c.--d. on calcule le coecient sur les 6 points restants, la corrlation passe
Fig. 2.11.
Parfois, le point aberrant est particulirement sournois. Il est conforme au domaine de dnition de
X et Y . Mais sur la conjonction (X, Y ), il s'carte du nuage principal (Figure 2.11). Dans cet exemple,
le point atypique (entour de rouge) masque en partie la forte liaison entre X et Y . Les techniques
Page: 28
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
29
statistiques de dtection univarie des points atypiques 11 sont totalement inoprantes ici. Il faut se tourner
vers d'autres procdures. Certaines sont lies la mthode statistique mise en oeuvre pour analyser les
donnes 12 .
r peut nous induire en erreur sur l'existence et l'intensit de la relation entre les variables.
Liaison monotone. Lorsque la liaison est non linaire mais monotone, le coecient de corrlation
est certes peu adapt mais n'est pas compltement hors de propos : il donne des indications quant
l'existence de la liaison, mais il traduit mal son intensit.
Fig. 2.12.
Dans la gure 2.12, nous constatons visuellement l'existence d'une liaison fonctionnelle quasi parfaite
entre X et Y , c'est patent lorsqu'on relie les points. Pourtant le coecient de corrlation nous annonce
r = 0.7804, indiquant clairement qu'il y a une liaison certes, mais ne rendant pas compte de son intensit.
Nous verrons plus loin avec les indicateurs bass sur les rangs comment palier ce problme sans avoir
faire des manipulations compliques.
Liaison non monotone. Lorsque la liaison est non monotone, c'est la catastrophe : le coecient de
corrlation ne rend compte ni de l'intensit de la liaison, ni mme de son existence.
Dans la gure 2.13 (A), on constate immdiatement la forme parabolique de la relation. Pourtant le
coecient de corrlation nous indique rxy = 0.0118. Eectivement, elle n'est pas linaire, mais il y a
bien une liaison entre X et Y , le coecient de Pearson est totalement inadapt ici.
Linarisation par transformation de variables. Une solution vidente, surtout si l'on considre
l'exemple prcdent, est de proposer une transformation de variables de manire mettre en exergue
une relation linaire. Dans la gure 2.13 (B), si nous proposons une nouvelle variable Z = X 2 , la corrlation mesure en est grandement modie rzy = 0.990. Il y a bien un lien entre les variables, elle est
particulirement forte.
12. Pour la rgression multiple, il existe toute une panoplie d'indicateurs assez ecaces - Voir http://
tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html
Page: 29
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
30
2 Coecient de corrlation
Fig. 2.13.
Page: 30
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3
Variations autour de la corrlation
Dans certaines situations, relatives au type des variables, ou conscutives une transformation des
variables, le coecient de corrlation est simpli. Son interprtation peut tre modie et/ou enrichie.
Dans cette partie, nous numrons quelques unes de ces variantes, les formules et les tests associes.
Puis nous montrons leur utilisation et leur interprtation sur un jeu de donnes.
Quelques rfrences pour cette partie, donnant un positionnement clair des direntes techniques,
sont les sites de Garson - http://www2.chass.ncsu.edu/garson/PA765/correl.htm, toujours aussi excellents, et de Calkins, de l'Universit d'Andrews (USA) - http://www.andrews.edu/~calkins/math/
edrm611/edrm13.htm
1. Voir http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1 pour la traduction des termes statistiques
2. Voir http://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient
Page: 31
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
32
rpb =
y1 y0
sn1
n1 n0
n(n 1)
(3.1)
avec y1 et y0 les moyennes conditionnelles ; sn1 l'cart type estim sur l'ensemble de l'chantillon
n
1
c.--d. s2n1 = n1
)2 .
i=1 (yi y
tr =
rpb
(3.2)
2
1rpb
n1 +n0 2
tc =
y1 y0
s
(3.3)
variances conditionnelles.
A priori, cette formulation est totalement quivalente celle base sur le coecient de corrlation.
Vrierons cela sur un exemple.
3.1.4 Exemple
Nous voulons vrier la liaison entre le genre des personnes et leur taille. En d'autres termes nous
cherchons savoir si les hommes, en moyenne, sont plus grands que les femmes. Nous utilisons les donnes
dj traites dans la section 2.6.2, nous ne conservons que la taille (Figure 3.1). Nous allons travailler
en deux temps, tout d'abord en calculant le coecient de corrlation sur les donnes codes, puis en
mettant en oeuvre le calcul spcique sous forme de comparaison de moyennes. Les rsultats doivent tre
cohrents.
Dans les colonnes B et C du tableur, nous avons les donnes, puis les rsultats des calculs bass sur
le coecient de Pearson. Voici les dtails des calculs :
Les hommes sont cods 1, les femmes 0. En soi a n'a pas d'importance, mais il faudra s'en rappeler
lors de l'interprtation du coecient, le codage dtermine le signe du coecient.
3. http://en.wikipedia.org/wiki/Student's_t-test
Page: 32
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Fig. 3.1.
33
Voyons justement le coecient de Pearson empirique, il est gal r = 0.748034. Le signe est positif,
cela veut dire qu'en moyenne les hommes sont plus grands que les femmes.
Le graphique nuage de points conrme cette ide, le nuage des hommes est visuellement plus lev
que celui des femmes, la dispersion tant peu prs la mme dans les deux groupes.
Pour raliser le test de signicativit, nous calculons tr = 6.4749. Il suit une loi de Student
n 2 = 33 degrs de libert.
La probabilit critique du test est 2.4 107 , trs petite.
Au risque 5%, l'hypothse nulle, il n'y aucun lien entre le genre et la taille, n'est pas compatible
avec les donnes.
Dans les colonnes E, F , G et H du tableur, nous avons les calculs relatifs au coecient rpb :
Avec le tableau crois dynamique, nous avons conrmation des eectifs : n0 = 15 femmes, et n1 = 20
hommes.
Les moyennes et carts type dans les sous-groupes sont respectivement (y0 = 1.589, y1 = 1.733) et
(s1 = 0.071, s0 = 0.061).
Page: 33
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
34
1.7331.589
0.0005
190.0712 +140.0612 1
( 20
20+152
1
15 )
= 0.0005
La distribution et les degrs de libert tant les mmes, la p-value du test et la conclusion associe
sont identiques.
biserial correlation en anglais 5 . Elle mesure le lien entre une variable dichotomique X et une variable
quantitative Y . La principale direnciation avec la corrlation bisriale ponctuelle est qu'ici, la
variable
doit tre issue d'un dcoupage en 2 intervalles d'une variable continue gaussienne (voir [2],
page 36 ; par exemple : poids bas ou lev, tension artrielle suprieure un seuil ou pas, etc.). Attention,
dans ce cas le codage de X n'est plus anodin. La valeur 1 correspond naturellement la fraction leve
(suprieure au seuil de dcoupage) de la variable sous-jacente.
Remarque 5 (Laquelle privilgier : corrlation bisriale ponctuelle ou corrlation mutuelle ?). La corrlation mutuelle est plus restrictive, si la condition n'est pas respecte, l'infrence statistique est sujette
caution. En revanche, si la condition est remplie, la corrlation mutuelle est plus puissante c.--d. elle
dtectera mieux l'existence d'une relation entre X et Y .
Le coecient de corrlation mutuelle s'crit
rb =
o
s2n1 =
1
n1
i (yi
y1 y0
n1 n0
2
sn1
n n1 /n
(3.4)
n1 /n est l'ordonne de la fonction de densit de la loi normale centre rduite la coordonne gale
au quantile d'ordre n1 /n (ouf !).
4. Nous viterons cette dnomination pour ne pas la confondre avec la corrlation bisriale ponctuelle (ah ces
linguistes je vous jure, hein..).
5. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
Page: 34
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
35
Nous appliquons alors la fonction de densit de la loi normale pour obtenir c.--d.
0.92082
1
= fN (0.9208) = e 2 = 0.2611
2
Remarque 7 (Violation de l'hypothse de normalit sous-jacente). Dans certains cas, lorsque la distribution continue sous-jacente de X s'loigne fortement de la loi normale, bimodale ou trs aplatie, rb peut
prendre des valeurs suprieures 1. Ce sont quand mme des situations extrmes. Lorsque la distribution
sous-jacente de X est unimodale et raisonnablement symtrique, la procdure est robuste.
Test de signicativit.
de conance, nous pouvons utiliser l'arsenal dvelopp dans les sections 2.4 et 2.5, en substituant la
corrlation mutuelle au coecient de Pearson.
3.2.2 Exemple
Nous cherchons calculer la corrlation entre la cylindre dichotomise (X = 1 lorsque cylindre
> 1200, 0 sinon) et la puissance (Y ). Dans les tudes relles, nous ne disposons que des valeurs binaires
de X , nous n'avons pas les valeurs originelles qui ont servi construire X mme si nous savons par ailleurs
que la variable sous-jacente est continue.
Dtaillons les calculs (Figure 3.2) :
Nous disposons des eectifs n = 28, n1 = 23 et n0 = 5
A partir du rapport n1 /n = 0.8214, nous obtenons le quantile d'ordre 0.8214, soit u0.8214 = 0.9208.
Nous calculons alors l'ordonne de la fonction de densit de la loi normale centre rduite cette
coordonne fN (0.9208) = 0.2611
Paralllement cela, nous calculons l'estimation (non biaise) de l'cart type sn1 = 32.2569, puis
les moyennes conditionnelles m1 = 87.43 et m0 = 33.00
Nous disposons maintenant de tous les lments pour former la corrlation mutuelle, nous obtenons
rb = 0.9481
Le t pour le test de signicativit est calcul l'aide de la formule usuelle t =
rb
1
r2
b
n2
= 15.2016
La corrlation est trs hautement signicatif, la p-value est trs petite. Les donnes ne sont pas
compatibles avec l'hypothse de nullit du coecient.
Page: 35
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
36
Fig. 3.2.
rb = rpb
Page: 36
job: Analyse_de_Correlation
n1 n0 (n 1)
2n1 /n n3
macro: svmono.cls
(3.5)
date/time: 11-Jan-2012/23:04
3.3 Le coecient
37
Nous avons eectu plusieurs vrications pour notre exemple prcdent (Figure 3.2). Dtaillons les
rsultats :
En calculant le coecient de Pearson sur les donnes originelles (la variable X non dichotomise),
nous obtenons r = 0.9475. Rappelons que la corrlation mutuelle est rb = 0.9481. Il est quand
mme remarquable que cette dernire puisse reconstituer avec une telle prcision les rsultats en se
basant sur la variable dichotomise et une hypothse de normalit de la variable sous-jacente.
La corrlation bisriale ponctuelle, base uniquement sur la variable dichotomise, qu'importe qu'elle
soit intrinsquement qualitative ou non, sous-estime fortement l'intensit du lien. En eet, on obtient
rpb = 0.6582. Mme si elle reste signicative, elle est loin de traduire la liaison relle qui existe entre
les variables cylindre et puissance, vidente lorsque l'on construit le graphique nuage de points
associ (Figure 2.5).
En appliquant la formule de passage ci-dessus (quation 3.5), nous retrouvons exactement la valeur
de la corrlation mutuelle [la case rb (vrication)].
Concernant le passage entre la corrlation mutuelle et la corrlation bisriale ponctuelle, on montre
que
n1 n0 (n 1)
1.25
2n1 /n n3
La corrlation mutuelle est toujours suprieure la corrlation bisriale ponctuelle (rb > rpb ). Elle a
tendance mieux mettre en vidence les carts l'hypothse nulle. Cela n'est pas sans dangers, comme
nous le signalions plus haut, dans certaines situations rb peut prendre des valeurs suprieures 1.
3.3 Le coecient
coecient est de calculer le coecient de Pearson sur les variables codes 0/1. Aucune correction n'est
ncessaire, nous obtenons directement la valeur adquate.
Calcul bas sur le tableau de contingence. Comme les variables sont censes tre dichotomiques
qualitatives c.--d. les modalits ne sont pas ordonnes. Nous pouvons laborer un tableau de contingence
Page: 37
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
38
croisant les modalits de X et Y . Et calculer l'indicateur dessus. Nous nous rapprochons en cela des
mesures d'association entre variables qualitatives 6
Partons du tableau de contingence gnrique 2 2 pour tablir les formules (Tableau 3.1). En ligne
les modalits de Y , en colonne celles de X .
Y vs. X
1
0
Tableau 3.1.
1
a
c
0
b
d
Tableau gnrique 2 2
Le coecient s'crit :
ad bc
=
(a + b)(c + d)(a + c)(b + d)
(3.6)
Le codage 0 ou 1 dtermine le signe de , il n'a pas d'incidence sur la valeur absolue du coecient.
Cela permet de dtecter les attraction ou les rpulsions entre les modalits.
au coecient de Pearson.
3.3.2 Exemple
Reprenons notre exemple de la puissance et de la cylindre (Figure 2.5). Les deux variables ont t
maintenant dichotomises, nous avons choisi le seuil 1800 pour la variable cylindre, 75 pour "puissance".
Ce faisant nous perdons de l'information car ne tient pas compte de la nature continue des variables sousjacentes. Nous essaierons de voir justement dans quelle mesure la perte d'information est prjudiciable.
Dtaillons notre feuille de calcul (Figure 3.3) :
Dans les colonnes C et D, nous avons les variables originales. En E et F, les variables dichotomises.
Dans la partie droite, sous le tableau de donnes, nous avons classiquement calcul le coecient
de Pearson sur donnes dichotomiques.Nous obtenons r = 0.9309. Le test de signicativit propose
t = 13.0. L'hypothse nulle d'absence de liaison n'est pas compatible avec les donnes.
Voyons maintenant la partie gauche. Nous avons form le tableau de contingence, puis partir de
la formule 3.6, nous avons obtenu = 0.9309. La valeur concide avec le coecient prcdent. C'est
heureux.
Rappelons que la corrlation sur les variables continues originelles est rcyl,puiss = 0.9475. Aprs dcoupage en 2 intervalles des variables, nous retrouvons quand mme l'intensit de la liaison avec r = 0.9309.
6. Rakotomalala, R.,
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.3 Le coecient
Fig. 3.3.
39
Dans ce cas il y a peu de pertes d'informations. Ce n'est pas tonnant, les seuils ont t judicieusement
choisis, ils se rapprochent, peu prs, du barycentre du nuage de points (Figure 2.5). Si nous avions
choisi des seuils qui ne sont pas en correspondance, par exemple 900 pour la cylindre et 100 pour la
puissance, nous aurions obtenu r = 0.3523, laissant croire que le lien est faible. Ce qui est totalement
erron bien sr.
Remarque 9 (Dcouper en intervalles peut mme tre protable). Encore une fois, la prparation des
donnes, en l'occurrence le choix des bornes lorsque l'on dcoupe les donnes, est donc trs important
pour ce type d'indicateur. Il faut faire trs attention. Mais a contrario, un choix judicieux des bornes
peut tre protable l'analyse. Si la relation est fortement non linaire, le coecient de Pearson sur
les variables originelles est fauss. Le dcoupage en intervalles peut aider mieux mettre en vidence
l'existence de la liaison.
Page: 39
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
40
coecient en anglais 7 ).
Ce coecient s'appuie sur l'hypothse de normalit sous jacente pour corriger le coecient (quation
3.6). Grosso modo, le numrateur reste le mme, le dnominateur doit tenir compte en revanche de la
distribution normale en intgrant de nouveau l'ordonne de la loi normale centre et rduite pour les
quantiles des proportions
a+b
n
et
a+c
n .
problmes lorsque l'on s'loigne trop de l'hypothse de normalit. Ce coecient est trs peu utilis dans
la pratique.
3.4
de Spearman
para-
mtrique. L'infrence statistique ne repose plus sur la normalit bivarie du couple de variables (X, Y ).
Nous pouvons bien entendu mettre en oeuvre tous les tests mis en avant dans la section 2.5, y compris
ceux relatifs la comparaison de coecients.
3.4.1 Principe
L'ide est de substituer aux valeurs observes leurs rangs. Nous crons donc deux nouvelles colonnes
dans notre tableau : Ri = Rang(xi ), correspond au rang 9 de l'observation xi dans la colonne des X ; et
Si = Rang(Yi ).
Le de Spearman est ni plus ni moins que le coecient de Pearson calcul sur les rangs.
n
i S)
(Ri R)(S
= i=1
2
2
i (Ri R)
i (Si S)
=
Compte tenu de certaines proprits des rangs (par ex. S = R
n+1
2
(3.7)
n
12 i=1 Ri Si
3(n + 1)
=
n(n2 1)
n1
(3.8)
7. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
8. Voir http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm concernant les fondements et
les interprtations de la mesure ; voir http://lib.stat.cmu.edu/apstat/116 sur son mode de calcul dans les
logiciels de statistique
9. La plus petite valeur prend le rang 1, la plus grande le rang n
Page: 40
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.4 de Spearman
41
Enn, si nous dnissons Di telle que Di = Ri Si est l'cart entre les rangs, nous obtenons une
autre expression quivalente
n
6 i=1 Di2
= 1
n(n2 1)
(3.9)
a des ex-aequo dans les donnes, surtout s'ils sont assez nombreux. Nous reviendrons en dtail sur
les corrections introduire plus loin (section 3.4.5).
Le de Spearman est une variante du coecient de Pearson, il en reprend les proprits essentielles,
savoir : 1 +1 ; il prend la valeur 0 lorsque les variables sont indpendantes.
3.4.2 Un exemple
Fig. 3.4.
Nous reprenons notre exemple du lien entre la taille et le poids. Nous avons modi les donnes de
manire viter les ex-aequo :
Nous avons tout d'abord form le nuage de points. Il semble y avoir une liaison entre les 2 variables.
Le coecient de corrlation de Pearson est de r = 0.58452.
Dans la colonne D et E, nous calculons respectivement les rangs Ri et Si
Page: 41
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
42
Ri Si = 1133. A
partir de la formule 3.8, nous produisons = 0.61786. La mme valeur que prcdemment.
Enn, en colonne G, nous calculons l'cart Di et nous formons la colonne Di2 . La somme i Di2 =
214. En appliquant la formule 3.9, la troisime estimation = 0.61786 est totalement cohrente
avec les prcdentes.
t=
12
n2
U=
1
n1
n1
//www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm).
Exemple numrique.
Nous avons mis en oeuvre les deux approximations dans notre exemple ci-
dessus (Figure 3.4). Nous avons t = 2.83320 avec une p-value de 0.01410 pour le premier test ; U = 2.31181
avec p-value = 0.02079 pour le second. Les rsultats ne sont gures dirents au nal, ils aboutissent
la mme conclusion, le rejet de l'hypothse de nullit du coecient au risque 5%.
Page: 42
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.4 de Spearman
43
Test non paramtrique. Il est non paramtrique, il n'est donc pas ncessaire de faire des hypothses
sur les distributions sous-jacentes de X et Y . Mais lorsque le couple (X, Y ) est distribu selon une loi
normale bivarie, il est quasiment aussi puissant que le coecient de Pearson. Les deux indicateurs
proposent des valeurs similaires, il est ds lors possible d'interprter le carr du coecient de Spearman
en termes de variance explique.
le de Spearman peut traiter les variables intrinsquement ordinales : un indice de satisfaction, une
apprciation ou une note attribue, etc. L'infrence statistique (tests, intervalles de conance) n'est pas
modie.
Liaison monotone non linaire. Trs intressant dans la pratique, le de Spearman peut caractriser d'une liaison non-linaire monotone, la dirence du coecient de Pearson qui ne retranscrit que
les relations linaires. Cela nous vite d'avoir eectuer le choix douloureux de la fonction de transformation lors de la tentative de linarisation de l'association. La transformation par les rangs est susamment
gnrique pour que l'on puisse rendre compte de l'existence d'une liaison monotone.
De manire gnrale, une forte disparit entre et r devrait nous alerter quant la non linarit de
la relation entre X et Y .
Fig. 3.5.
Reprenons l'exemple illustratif de la section 2.6 (Problmes et cas pathologiques). Rappelons nous,
malgr une liaison visuellement vidente, le coecient de Pearson nous annonait une corrlation r =
0.7804. Nous avons remplac les valeurs initiales par les rangs, puis nous avons calcul le coecient de
Spearman, la liaison parfaite est maintenant bien dtecte (Figure 3.5). Ceci s'explique en partie par le fait
que
le passage aux rangs symtrise les distributions. En eet, dans notre exemple, la distribution
Page: 43
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
44
Fig. 3.6.
Reprenons l'exemple prsent plus haut (section 2.6, gure 2.10). Nous avions not que le coecient
de Pearson pouvait tre fortement aect par l'existence d'un point extrme. Nous avons transform
les donnes en rangs, ce faisant nous avons liss les carts entre les valeurs. Nous calculons sur l'ensemble des observations, nous obtenons = 0.39286, et nous notons surtout que le coecient n'est pas
signicativement dirent de 0, avec t = 0.95526 et une p-value = 0.38332.
Rangs moyens. Lors de la transformation des donnes en rangs, nous devons tenir compte maintenant des ex-aequo. Pour un chantillon de taille n, admettons qu'il n'y ait que G valeurs direntes.
Remarquons que si G = n, cela veut dire qu'il n'y pas d'ex aequo dans nos donnes.
Au dpart nous aectons les rangs aux observations selon la procdure habituelle. Dans un deuxime
temps, nous eectuons un nouveau passage sur les donnes, nous attribuons aux individus portant des
valeurs identiques la moyenne des rangs associs.
Prenons un petit exemple pour dtailler cela (Figure 3.7). Nous avons 12 observations tris selon
la valeur de X . Nous attribuons le rang normalement (Rangs bruts) en utilisant la fonction RANG(...)
d'EXCEL. Nous notons que plusieurs observations ont des valeurs identiques (A,B), (D,E,F) et (J,K) 10 .
Nous eectuons un second passage sur les donnes, nous calculons et attribuons la moyenne de leur rangs
10. La procdure est totalement gnrique bien sr, nous pouvons avoir 10 valeurs identiques
Page: 44
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.4 de Spearman
Fig. 3.7.
45
aux individus portant les mmes valeurs. Ici, A et B ont la mme valeur, ils portent respectivement les
rangs 1 et 2, nous leur aectons au nal le rang moyen
calcul
4+5+6
3
Facteur de correction.
10+11
2
1+2
2
= 10.5.
distinctes parmi les rangs moyens, pour chaque valeur nous comptons son nombre d'apparition tg . Nous
produisons alors la quantit Tx qui sera introduite dans la formule du coecient de Spearman (il en sera
de mme pour Ty , facteur de correction pour Y )
Tx =
(t3g tg )
(3.10)
g=1
Reprenons notre exemple ci-dessus (Figure 3.7). Nous avons n = 12 et G = 8. Pour chaque valeur
du rang moyen, nous associons le nombre d'occurrence tg . Nous appliquons la formule 3.10 pour obtenir
Tx = 36 (Figure 3.8).
Fig. 3.8.
Coecient de Spearman corrig. Enn, il nous faut introduire le facteur de correction dans le
calcul du de Spearman (Equation 3.9) (voir [9], page 239, quation 9.7)
n
(n3 n) 6 i=1 d2i (Tx + Ty )/2
=
(n3 n)2 (Tx + Ty )(n3 n) + Tx Ty
Page: 45
job: Analyse_de_Correlation
macro: svmono.cls
(3.11)
date/time: 11-Jan-2012/23:04
46
Fig. 3.9.
= 0.5442
Remarque 11 (Traitement des ex-aequo pour le coecient de Pearson sur les rangs). Comme nous le
signalions plus haut, il est possible d'obtenir le de Spearman en calculant le r de Pearson sur les rangs.
Avec cette stratgie, lorsqu'il y a des ex aequo dans les donnes, nous utilisons toujours le principe des
rangs moyens. En revanche il n'est pas ncessaire de corriger le coecient obtenu 11 . Dans notre exemple
ci-dessus (Figure 3.9), si nous appliquons la formule de la corrlation empirique (Equation 2.8) sur les
colonnes des rangs moyens R et S , nous obtenons directement la bonne valeur de = 0.5442.
3.5
de Kendall
Le de Kendall n'est pas proprement parler une variante du coecient de Pearson. On n'applique
pas la formule sur des donnes recodes. Il repose sur un principe trs dirent, il s'interprte galement
de manire dirente. Nous le prsentons dans ce support car il est trs largement dius, et certains
auteurs s'accordent dire qu'il est meilleur que le de Spearman 12 . Nous ne rentrerons pas dans cette
polmique. En revanche, nous ne pouvons pas passer ct de cette mesure, d'autant plus qu'elle est
aussi non paramtrique.
11. http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient
12. Voir par exemple http://www.rsscse.org.uk/ts/bts/noether/text.html ; voir aussi [6], page 332
Page: 46
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.5 de Kendall
47
ou (xi < xj
alors yi < yj ). Nous pouvons simplier l'criture avec (xi xj ) (yi yj ) > 0
2. On dit que les paires sont discordantes lorsque (xi > xj alors yi < yj )
ou (xi < xj
alors yi > yj ), en
P Q
1)
(3.12)
1
2 n(n
Remarque 12 (Donnes continues, donnes ordinales). Notons qu'il est possible de calculer directement
sur des donnes continues (X et Y ) sans qu'il soit ncessaire de les transformer en rangs. Le de Kendall
s'applique naturellement aussi lorsqu'une des variables est continue, l'autre ordinale.
Interprtation. Le
(ou 2 notations). Si toutes les paires sont concordantes c.-d. le classement selon X concorde systmatiquement avec le classement selon Y , = 1 ; si toutes les paires sont discordantes, = 1 ; enn, si les
deux classements sont totalement indpendants, = 0.
Surtout, et c'est sa principale direnciation avec le de Spearman, le de Kendall se lit comme une
probabilit. Il est le fruit de la dirence entre 2 probabilits : celle d'avoir des paires concordantes et
celle d'avoir des paires discordantes. Ainsi, lorsque = 0, une paire d'observations a autant de chances
d'tre concordante que d'tre discordante.
Le de Kendall thorique, calcul sur la population, est dni par (voir [7], 138)
(3.13)
Calcul pratique. La manire la plus simple de calculer est de trier les donnes selon X , puis de
comptabiliser la quantit suivante
13. http://en.wikipedia.org/wiki/Concordant_pairs
Page: 47
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
48
S=
n1
ij
i=1 j=i+1
+1 , si y < y
i
j
ij =
1 , si yi > yj
(3.14)
et
i =
ij
j=i+1
S
1
2 n(n
1)
2S
n(n 1)
(3.15)
Un exemple. Dtaillons les calculs sur exemple. Nous limitons les eectifs n = 6 car les calculs
deviennent rapidement inextricables. Nous mettons en relation la taille et le poids des 6 plus petits
individus du chier (Figure 3.4). Les donnes sont tries selon la taille, nous allons calculer les quantits
ij , i et S (Figure 3.10).
Fig. 3.10.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.5 de Kendall
49
n1
i=1
2 (1)
= 0.0667
6 (6 1)
U=
2(2n+5)
9n(n1)
= 3
n(n 1)
2(2n + 5)
(3.16)
U suit une loi normale centre et rduite sous H0 . La rgion critique du test pour un risque s'crit
|U | > u1 2
Un exemple. L'approximation est bien videmment mauvaise (n = 6) pour notre exemple ci-dessus
(Figure 3.10). Nous allons quand mme l'utiliser pour illustrer simplement la dmarche. Rappelons que
U = 3 (0.0667)
6(6 1)
= 0.1879
2(2 6 + 5)
En comparant |U | avec le seuil critique du test u0.975 = 1.96, nous concluons que les donnes sont
compatibles avec l'hypothse d'absence de lien entre X et Y .
1 3
2
+1
14. http://www.unesco.org/webworld/idams/advguide/Chapt4_2.htm
Page: 49
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
50
Enn, lorsque le (X, Y ) suit une loi normale bivarie, nous avons la relation (voir [7], page 138)
2
arcsin
Calcul de
ij . Pour le calcul des cart entre paires concordantes et discordantes S , nous devons
pour X ( la
Ex =
Gx
tg (tg 1)
(3.17)
g=1
Remarque 13 (Facteur de correction). Attention, le facteur de correction Ex est dirent de celui utilis
pour le de Spearman (Tx ). Ici aussi, nous remarquons que Ex = 0 si les donnes ne comportent pas
d'ex-aequo.
Coecient de Kendall corrig. Il faut maintenant introduire les facteurs de corrections pour les
donnes comportant des ex-aequo
2S
n(n 1) Ey
(3.18)
n(n 1) Ex
Page: 50
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
3.5 de Kendall
Fig. 3.11.
51
2 19
=
= 0.76061
8(8 1) 8 8(8 1) 4
Pour tester la signicativit du coecient, nous utilisons l'approximation normale
U = 3 0.76061
8(8 1)
= 2.63483
2(2 8 + 5
La p-value est 0.00842. Au risque 5%, on peut conclure l'existence d'un lien positif entre un correcteur expriment et un correcteur novice. Mieux mme, puisque nous pouvons interprter le de
Page: 51
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
52
Kendall comme une probabilit, nous dirions que 76.06% correspond au surcrot de chances que les deux
correcteurs rangent de la mme manire 2 copies prises au hasard (ouf !).
mesure asymtrique,
un rsum de Y lorsque X prend la valeur x. Dans la rgression linaire simple par exemple, nous faisons
l'hypothse que cette esprance est une fonction linaire de X c.--d. E[Y /X = x] = a X + b.
Dans le cas du rapport de corrlation, nous estimons directement cette quantit partir des observations. Cela suppose, et c'est la principale limite de cette mesure, que l'on dispose de plusieurs observations
de Y pour chaque valeur x de X .
Le
(3.19)
2
2
Domaine de dnition. Le rapport de corrlation 17 y/x
est dni sur l'intervalle 0 y/x
1.
Lorsqu'il est gal 0, cela veut dire que la connaissance de X ne donne aucune information sur Y .
La moyenne de Y est la mme quelle que soit la valeur de X .
A contrario, lorsqu'il est gal 1, la connaissance de X permet de dterminer avec certitude la
valeur de Y c.--d. chaque valeur x de X correspond une seule valeur de Y .
Le rapport de corr-
lation a une porte plus large que la simple alternative pour mesurer une liaison non linaire entre 2
variables quantitatives. Nous constatons dans la dnition ci-dessus (formule 3.19) qu' aucun moment
nous faisons rfrence au caractre ordonn de X . De fait, le rapport de corrlation peut tre utilis pour
caractriser l'association entre une variable qualitative X et une variable quantitative Y ([7], page 143).
On se rapproche en cela du schma de l'analyse de variance (ANOVA).
15. en anglais, coecient of nonlinear relationship, ou eta coecient, ou encore eta correlation ratio
16. Voir http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/multivariable/quanti/rapport.htm
17. Voir http://nte-serveur.univ-lyon1.fr/nte/immediato/math2002/Mass11/cours/chapitr3d.htm
Page: 52
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
53
K
yk y)2
k=1 nk (
=
n
)2
i=1 (yi y
(3.20)
K
2
y/x
=1
nk
nk i=1
(yi
k=1
n
(y
y)2
i=1 i
yk )2
(3.21)
La formule n'utilise jamais de manire explicite les valeurs xk . De mme, elle ne tient pas compte du
caractre ordonn de X c.--d. xk+1 > xk . On fait donc l'impasse sur une information qui est pourtant
importante. C'est le prix payer pour ne pas avoir faire d'hypothses sur la forme de la relation.
On voit bien la limite de l'indicateur dans cette nouvelle formulation. Si nous ne disposons que d'une
seule observation pour chaque valeur de X c.--d. K = n, nk = 1, k et yi = yk . Le rapport de corrlation
sera mcaniquement gal 1 sans qu'il n'y ait aucune relation entre X et Y . Nanmoins cette restriction
n'est pas aussi contraignante qu'on pourrait le penser :
1. Dans les sciences exprimentales o les donnes sont le fruit d'une exprimentation raisonne, la
rptition des observations pour une valeur de X est tout fait naturelle. Par exemple, pour valuer
la rduction du nombre de microbes conscutive l'administration d'un mdicament, on rpartit les
cobayes en groupes, dans un groupe on donne une dose identique. Nous disposons de plusieurs valeurs
de Y (rduction des microbes) pour chaque valeur de X (dose du mdicament).
2. Nous avons la possibilit de dcouper les valeurs de X en classes de manire obtenir un certain
nombre d'observations dans chaque groupe. Dans ce cas, le choix des bornes des intervalles est dterminant. Si elles sont mal dnies, des informations primordiales peuvent tre masques. A l'extrme,
si on ne prend qu'un seul intervalle qui va du minimum au maximum, on ne pourra rien en tirer.
sont censs mesurer le lien entre deux variables, la dirence que le premier fait l'hypothse de la
2
2
linarit de la relation. On peut noter alors quelques relations importantes entre rxy
et y/x
:
2
2
De manire gnrale, y/x
rxy
. On le comprend aisment, r introduit une contrainte supplmen2
2
taire, l'hypothse de linarit, pour mesurer la liaison. On peut d'ailleurs utiliser l'cart (y/x
rxy
)
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
54
2
H0 : y/x
=0
2
H1 : y/x
>0
Est quivalent 20
H0 : 1 = = K
H1 : une au moins diere des autres
Sous l'hypothse nulle, et sous condition que les distributions conditionnelles soient gaussiennes et de
variance identique (hypothse d'homoscdasticit ) 21 , la statistique :
F =
2
K1
1
2
nK
nK
2
K 1
1 2
(3.22)
R.C. : F > F1 (K 1, n K)
o F1 (K 1, n K) est le quantile d'ordre (1 ) de la loi de Fisher (K 1, n K) degrs de
libert.
3.6.3 Un exemple
Nous essayons de vrier, au risque de 10%, l'inuence de la consommation de cigarettes (en nombre
de paquets par jour) sur le risque d'apparition de la leucmie chez 43 gros fumeurs. L'analyse est bien
asymtrique, dans l'autre sens, a priori, elle n'aurait pas trop d'intrt 22 .
A partir de ces n = 43 observations, nous menons dans un premier temps une analyse de corrlation
classique en calculant le coecient de Pearson (Figure 3.12, colonnes A et B de la feuille de calcul). Nous
obtenons :
Le coecient de corrlation empirique est r = 0.01876, son carr r2 = 0.00035
Pour tester la signicativit, nous formons le t de Student, t = 0.12016
18.
19.
20.
21.
22.
http://spiral.univ-lyon1.fr/mathsv/cours/pdf/stat/Chapitre9.pdf
Le rapport de corrlation est toujours positif ou nul, le test est forcment unilatral.
k = E[Y /X = xk ], la moyenne conditionnelle thorique
l'ANOVA est quand mme bien robuste par rapport ces hypothses
Les donnes sont ctives, que le lecteur mdecin ne s'aole pas.
Page: 54
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
55
Fig. 3.12.
S'arrter ce stade serait une grave erreur, un petit graphique mettant en relation les deux variables
claire la relation sous un autre jour. Calculons maintenant le rapport de corrlation (Figure 3.12, colonnes
D F de la feuille de calcul) :
Dans le graphique, on se rend compte que pour chaque valeur de X , les nuages de points correspondant sont assez dcals. Impression conrme par les moyennes conditionnelles en rouge que nous
Page: 55
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
56
n1 = 6 et y1 = 6.45
L'eectif global est bien n = 43 et la moyenne y = 6.87.
Nous calculons le numrateur de la formule 3.20, nous obtenons B = 2.63695
De la mme manire, nous formons le dnominateur, nous obtenons T = 13.70647
Le rapport de corrlation estim est gal 2 =
B
T
prcdemment. Si liaison il y a, elle n'est absolument pas linaire en tous les cas.
Voyons justement ce qu'il en est de la signicativit. Nous formons la statistique F (quation 3.22),
elle est gale F = 2.26307.
Pour un risque = 0.1, nous la comparons F0.9 (4, 38) = 2.09896. Au risque = 10%, le rapport
de corrlation est dirent de 0, rsultat conrm par la p-value gale 0.08032.
Il y a donc bien un lien entre la consommation de cigarettes et le risque de leucmie, mais la liaison
est assez complexe. On a des srieux problmes quand on en consomme 2 paquets par jour, au del,
on dirait que la situation s'amliore (ah bon ? ! ). Mais il ne faut pas se faire d'illusions, mon avis,
c'est parce qu'on va mourir d'autre chose avant de contracter une leucmie.
Page: 56
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Partie II
Page: 57
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 58
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
4
Corrlation partielle paramtrique et non paramtrique
vitam ...). Les voitures luxueuses, chres, sont aussi souvent de lourdes grosses cylindres. Toute la
lire automobile vous dit merci.
Corrlation entre la hausse des prix et le budget alimentation des mnages (les soucis donnent faim,
c'est bien connu...). Il faudrait plutt exprimer la consommation alimentaire en volume, autrement
en tous les cas.
Etc.
L'ide de la corrlation partielle est de mesurer la corrlation entre X et Y en annulant (en contrlant)
l'eet d'une troisime variable Z . Lorsque cette dernire est qualitative, la stratgie est simple, il s'agit de
calculer r dans chaque groupe du point de vue numrique, et de distinguer explicitement les groupes dans
le graphique nuage de points (Figure 2.9 par exemple pour la corrlation taille et longueur de cheveux).
Page: 59
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
60
Fig. 4.1.
On parle de corrlation brute lorsque l'on souhaite mesurer la relation directe rxy . On parle de corrlation partielle lorsque l'on souhaite faire intervenir une ou plusieurs variables de contrle : plus prcisment,
corrlation partielle d'ordre p lorsque l'on a p variables de contrle.
1. Dans les sciences exprimentales o nous contrlons la production des donnes, nous pourrions, pour chaque
valeur de Z , rpter l'exprimentation de manire recueillir plusieurs observations (xi , yi ). On retrouve ainsi le
schma de la variable de contrle discrte. Mais dans les sciences sociales, souvent le triplet (xi , yi, zi ) est unique
dans le chier, la seule solution est de passer par la corrlation partielle.
Page: 60
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
61
Corrlation (mme partielle) n'est toujours pas causalit. Prcisons encore et toujours qu'il s'agit toujours l de procdures numriques destines mesurer l'existence et
l'intensit d'une liaison. La corrlation partielle ne droge pas cette rgle. La mise en
vidence d'une ventuelle causalit ne peut et ne doit reposer que sur les connaissances du
domaine. En revanche, et c'est pour cela qu'elle peut tre trs bnque dans une analyse,
la corrlation partielle peut permettre de clarier la relation qui existe (ou qui n'existe pas)
entre 2 variables.
Remarque 14 (Quelques lments sur les notations). Dans cette partie du support, nous noterons en
priorit r le coecient partiel, sauf s'il y a ambigut, auquel cas nous indiquerons les indices adquats.
Concernant la transformation de Fisher, pour viter la confusion avec la (ou les) variable(s) de contrle,
nous la noterons f .
rxy.z =
2
2
1 rxz
1 ryz
(4.1)
L'ide est assez limpide, on retranche de la relation directe (X, Y ) les relations respectives de X et Y
avec Z . Puis un terme de normalisation (symtrique, X vs. Z et Y vs. Z ) est introduit de manire ce
que 1 rxy.z +1
Remarquons plusieurs rsultats intressants. Pour xer les ides, sans que cela ne rduise la porte
du propos, nous dirons que rxy > 0 :
Lorsque Z est indpendant de X et Y (rxz = ryz = 0), rxy.z = rxy c.--d. Z ne pse en aucune
manire dans la relation entre X et Y
Lorsque Z est fortement li positivement avec X et Y , on peut aboutir au rsultat rxy.z 0 c.--d.
il n'y a rien dans la relation (X, Y ) qui ne soit pas dj explique par Z
Lorsque les liaisons entre Z d'une part, X et Y d'autre part, sont de signe opposs (ex. rxz > 0 et
ryz < 0), le produit rxz .ryz < 0, on constate que rxy.z > rxy
Page: 61
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
62
rxy.z =
2
2
1 rxz
1 ryz
(4.2)
Fig. 4.2.
Page: 62
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
63
H0 : rxy.z = 0
Sous H0 , la statistique du test
t=
(4.3)
1
r2
n3
Intervalle de conance. La distribution du test est uniquement valide dans le voisinage rxy.z = 0.
Pour laborer l'intervalle de conance au niveau (1 ), nous devons passer, comme pour la corrlation
brute, par la transformation de Fisher.
Elle est dnie de la mme manire,
f=
Page: 63
job: Analyse_de_Correlation
1 1 + rxy.z
ln
2 1 rxy.z
macro: svmono.cls
date/time: 11-Jan-2012/23:04
64
f2 =
1
n3
(4.4)
Dans notre exemple (Figure 4.2), nous souhaitons construire l'intervalle de conance 95% :
1+0.29553
Nous calculons la transformation de Fisher f = 12 ln 10.29553
= 0.30461
1
L'cart type associ est gale f = 283
= 0.2
e2(0.08738) 1
e2(0.08738) +1
Nous constatons que l'intervalle englobe la valeur 0, c'est une autre manire de dtecter la nonsignicativit de r.
(p > 1)
4.3.1 Dnition
La corrlation partielle d'ordre p est une gnralisation de la corrlation partielle. L'objectif est d'introduire plusieurs variables de contrle. Dans notre exemple des voitures (Figure 2.2), nous savons pertinemment que le "poids" est un aspect important que la consommation. Nous souhaitons galement
annuler son ventuelle action dans la relation "consommation" - "puissance".
Comment estimer la corrlation partielle rxy.z1 z2 ...zp ?
Calcul rcursif
On montre qu'il est possible de calculer les corrlations partielles d'ordre p+1 partir des corrlations
partielles d'ordre p. On utilise pour cela la formule de passage suivante, qui n'est pas sans rappeler
d'ailleurs le passage des corrlations brutes vers la corrlation partielle d'ordre 1
(4.5)
Pour la corrlation partielle d'ordre 2 que nous mettrons en oeuvre sur un exemple ci-dessous, la
formulation adquate est
2. voir
http://en.wikipedia.org/wiki/Partial_correlation ;
http://www.stat.psu.edu/online/
development/stat505/07_partcor/06_partcor_partial.html
Page: 64
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
rxy.z1 z2 =
2
2
1 rxz
1 ryz
2 .z1
2 .z1
65
(4.6)
Si l'criture est simple, le calcul est assez complexe. En eet, pour obtenir la corrlation partielle
d'ordre p, nous devons dans un premier temps calculer les corrlations brutes de toutes les variables 2
( )
2 partir des donnes c.--d. p+1
corrlations. Puis mettre jour de proche en proche cette matrice de
2
corrlation en introduisant la premire variable de contrle z1 , puis la seconde z2 , etc. jusqu' ce qu'on
obtienne la profondeur souhaite.
Exemple : Mesurer la relation "puissance (X ) - consommation (Y )" en contrlant "cylindre" (Z1 ) et "poids" (Z2 ) - Approche no 1. Corsons notre aaire de voitures en introduisant 2
variables de contrle. Nous voulons produire le rsultat partir de l'quation 4.6. La squence des calculs
est la suivante (Figure 4.3) :
Fig. 4.3.
Page: 65
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
66
0.9263, etc. C'est l'objectif de la matrice "Corrlations brutes croises" dans la partie basse de la
feuille EXCEL.
Ensuite, nous devons calculer toutes les corrlations croises d'ordre 1 o Z1 (cylindre) joue le rle
de variable de contrle. Nous obtenons rxy.z1 = 0.2955, rxz2 .z1 = 0.6878 et ryz2 .z1 = 0.1663 (cf. la
matrice "Corrlations partielles / Z1")
Enn, dernire tape, partir de la matrice prcdente nous appliquons l'quation 4.6 pour introduire la seconde variable de contrle Z2 (poids). Nous obtenons
rxy.z1 z2 =
= 0.25309
1 0.68782 1 0.16632
Il n'y a plus qu'un seul chire dans la matrice "Corrlations partielles /Z1,Z2", nous sommes arrivs
au bout du processus rcursif.
Tant que le nombre de variables reste faible, ce processus est intressant, surtout pdagogiquement.
Lorsqu'il devient lev, nous utilisons une autre approche, plus ecace, plus directe, pour obtenir la
valeur de la corrlation partielle d'ordre p.
Exemple : Mesurer la relation "puissance (X ) - consommation (Y )" en contrlant "cylindre" (Z1 ) et "poids" (Z2 ) - Approche no 2
La feuille de calcul est organise de manire dirente maintenant (Figure 4.4).
= 0.00443Z2 +
Tout d'abord, nous devons produire les quations de rgression, nous obtenons X
(colonne G dans
0.00130Z1 + 1.14755. Nous en dduisons la nouvelle colonne de rsidus ex = X X
la feuille de calcul)
De la mme manire, nous dduisons le rsidu ey = Y Y aprs la rgression Y = 0.01093Z2 +
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Fig. 4.4.
67
t=
r
1
r2
np2
(4.8)
f2 =
1
np2
(4.9)
3. Voir http://www.stat.psu.edu/online/development/stat505/07_partcor/06_partcor_partial.html
Page: 67
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
68
4.3.3 Exemple
Finissons notre exemple de corrlation partielle d'ordre 2 sur le chier voitures (Figure 4.3). Nous
pouvons dtailler maintenant le contenu des H et I de la feuille EXCEL.
Concernant le test de signicativit :
La corrlation partielle est r = 0.25309
Nous calculons t l'aide de l'quation 4.8, t =
0.25309
10.253092
2822
= 1.28161
Le seuil critique au risque 5% pour un test bilatral est t0.975 (28 2 2) = 2.39095. Les donnes
sont compatibles avec l'absence de lien entre "puissance" et "consommation", une fois retranche
l'information apporte par "cylindre" et "poids".
Concernant l'intervalle de conance au niveau 95% :
Nous appliquons tout d'abord la transformation de Fisher : f =
1
L'cart type estim est f = 2822
= 0.20412
1
2
1+0.25309
ln 10.25309
= 0.25871
e2(0.14136) 1
e2(0.14136) +1
Le rsultat est cohrent avec le test d'hypothses, l'intervalle de conance englobe la valeur 0.
4.4.1
Pour calculer le coecient de Spearman partiel d'ordre p sur un chantillon de donnes (xy.z1 ...zp ),
il sut d'adopter la dmarche suivante 4 :
1. Transformer toutes les variables en rangs. Adopter les rangs moyens en cas d'ex-aequo.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
69
2. Calculer le rsidu x (resp. y ) de la rgression des rangs de X (resp. rangs de Y ) avec les rangs des
variables de contrle.
3. Le partiel est tout simplement le coecient de corrlation de Pearson appliqu sur ces 2 rsidus
c.--d.
xy.z1 ...zp = rx y
4. Le dispositif infrentiel reste inchang, on doit tenir compte de p dans le calcul des degrs de libert.
4.4.2
De la mme manire que pour le coecient de Pearson, nous pouvons utiliser les formules de rcurrence
(quations 4.1, 4.6 et 4.5) pour calculer les de Spearman partiels de proche en proche. Cette technique
est plus simple tant que p est faible (de l'ordre de 1 ou 2 maximum).
xy.z =
= 0.32280
1 0.62132 1 0.72642
t=
0.32280
10.322802
4212
Avec la loi de Student (n 1 2 = 39) degrs de libert, nous obtenons une p-value de 0.0395
Au risque 5%, on rejette l'hypothse nulle. Il semble qu'il y ait autre chose non explique par la
cigarette dans la liaison entre les 2 types de cancer (ceci tant 1% la liaison n'est pas signicative,
la liaison partielle est assez tenue).
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
70
Fig. 4.5.
A titre de comparaison, voici les commandes et sorties SAS (Figure 4.6). Les rsultats concordent.
C'est prfrable tant donn qu'on a suivi la lettre le descriptif de la documentation en ligne.
Remarque 15 (Corrlation partielle base sur le de Kendall). Il est possible de calculer le partiel de
Kendall partir des bruts en utilisant la formule de passage analogue celle du coecient de Pearson
(quation 4.1) (voir [9], page 254 262 ; ou son rsum en franais sur le site http://www.cons-dev.
org/elearning/stat/stat7/st7.html). On peut trs bien la mettre en oeuvre lorsque les donnes sont
intrinsquement des classements (des rangs aects). Malheureusement, les avis divergent quant au calcul
de la distribution de la statistique, le test de signicativit est dicile, ce qui est un frein considrable
son utilisation.
Page: 70
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Fig. 4.6.
Page: 71
71
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 72
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
5
Corrlation semi-partielle
variance de Y explique par X , sachant que l'on a retranch de cette dernire l'information apporte par
Z . En d'autres termes, quelle est la part de Y qu'explique l'information additionnelle de X par rapport
Z.
Notons bien la dirence avec la corrlation partielle. Avec ce dernier, nous retranchons l'information
apporte par Z sur la fois Y et X , et nous mesurons la liaison sur les rsidus. Dans le cas de la corrlation
semi-partielle, nous cherchons quantier la liaison de Y avec la partie rsiduelle de X par rapport Z .
On discerne bien le caractre asymtrique de l'approche.
Dans notre exemple des vhicules (Figure 2.2), nous posons la question suivante : si on enlve de la
puissance (X ) l'information porte par la cylindre (Z ), est-ce qu'il reste quelque chose pour expliquer
la consommation (Y ) ? En d'autres termes, on cherche valuer l'apport additionnel de puissance (X ),
par rapport la cylindre (Z ), dans l'explication de la consommation (Y ).
ry(x.z) =
1.
2
1 rxz
(5.1)
Page: 73
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
74
5 Corrlation semi-partielle
Notons d'ores et dj que ry(x.z) = ryx si X et Z sont orthogonaux rxz = 0. Tout l'information de X
peut tre utilise pour expliquer Y . Si X et Z sont parfaitement corrls c.--d. rxz = 1, l'quation 5.1
est indnie, mais on comprend aisment qu'il ne reste plus rien dans le rsidu de X pour expliquer Y .
En faisant le parallle avec la formule de la corrlation partielle (quation 4.1), on constate de manire
gnrale que
ryx.z ry(x.z)
Estimation.
remplacer les corrlation thoriques de la formule 5.1 par les corrlations empiriques.
Test de signicativit.
unilatral ou bilatral), nous utilisons le t de Student qui est a la mme expression que celle de la
corrlation partielle, avec la mme distribution et les mmes degrs de libert (n 3), savoir
t=
(5.2)
1
r2
n3
Fig. 5.1.
Nous avons n = 28
La corrlation brute entre Y et X est ryx = 0.88781, la liaison semble forte.
Les autres corrlations brutes sont rxz = 0.94755 et ryz = 0.89187
Page: 74
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
75
ry(x.z) =
= 0.13367
(1 0.947552
t=
0.13367
10.133672
283
= 0.67439
Au risque 5%, le seuil critique est t0.975 (25) = 2.38461. Nous acceptons l'hypothse de nullit du
coecient. Manifestement, une fois retranche de "puissance" l'information porte par "cylindre",
il ne reste plus rien pour expliquer la "consommation".
t=
r
1
r2
np2
(5.3)
X = a0 + a1 Z1 + . . . ap Zp +
ei = xi x
i
La corrlation semi partielle estime est obtenue l'aide de la corrlation empirique entre Y et le
rsidu e
ry(x.z1 zp ) = rye
Page: 75
job: Analyse_de_Correlation
macro: svmono.cls
(5.4)
date/time: 11-Jan-2012/23:04
76
5 Corrlation semi-partielle
rgression.
On raliser une seconde rgression intgrant la variable supplmentaire X parmi les explicatives,
2
un nouveau coecient de dtermination Ru.xz
est dgag.
1 zp
(5.5)
0.7953 = 0.01787
Et sa racine carre est la corrlation semi-partielle ry(x.z) =
exactement la mme valeur qu'avec la mthode directe dcrite dans la section 5.2.
Dtaillons maintenant l'approche base sur les rsidus de la rgression :
Nous ralisons la rgression de X sur la variable de contrle Z . Nous utilisons les coecients pour
calculer la colonne des rsidus qui correspond la fraction de X non explique par Z
ei = xi (0.04901 zi 10.94646)
Nous calculons la corrlation de Pearson entre le rsidu e et la variable Y , elle correspond la
corrlation semi-partielle ry(x.z) = rye = 0.13367. De nouveau la valeur obtenue est cohrente avec
celles proposes par les approches alternatives.
Page: 76
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Fig. 5.2.
Page: 77
77
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 78
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
A
Fichier de donnes
Tout au long de ce support, nous illustrons notre propos l'aide d'exemples numriques. Les donnes
et les calculs associs sont disponibles dans un classeur EXCEL accessible en ligne. L'URL du chier est
http://eric.univ-lyon2.fr/~ricco/cours/cours/dataset_analyse_correlation.xls.
A chaque feuille du classeur correspond un thme du support. Pour faire la correspondance, le plus
simple est de se rfrer l'onglet de la feuille (Figure A.1).
Fig. A.1.
Page: 79
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 80
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
B
L'analyse de corrlation avec Tanagra
Les techniques prsentes dans ce support sont implments dans le logiciel gratuit et open source
Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/.
Leur mise en oeuvre et la lecture des rsultats sont dcrites dans plusieurs didacticiels, en voici
quelques uns :
1. Corrlation semi-partielle
http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-semi-partielle.html
2. Corrlation partielle
http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-partielle.html
3. Corrlations croises
http://tutoriels-data-mining.blogspot.com/2008/04/coefficient-de-corrlation-linaire.
html
4. De manire gnrale, on pourra accder aux didacticiels qui abordent le coecient de corrlation
linaire et ses variantes en eectuant une recherche par mots cls sur le site de tutoriels
http://tutoriels-data-mining.blogspot.com/
Page: 81
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Page: 82
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04
Littrature
Ouvrages
1. Avazian, S., Etude
2.
Page: 83
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 11-Jan-2012/23:04