Académique Documents
Professionnel Documents
Culture Documents
Analyse de Correlation PDF
Analyse de Correlation PDF
Analyse de corrlation
tude des dpendances - Variables quantitatives
Version 1.1
Ce support dcrit les mthodes statistiques destines quantier et tester la liaison entre 2 variables
Il correspond une partie des enseignements d'conomtrie (je prfre l'appellation Rgression Li-
naire Multiple ) en L3-IDS de la Facult de Sciences Economiques de l'Universit Lyon 2 (http:
//dis.univ-lyon2.fr/). Il se veut avant tout oprationnel. Nous nous concentrons sur les principales
formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle
avec les rsultats fournis par les logiciels de statistique libres et/ou commerciaux. Le bien-fond des tests,
la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux
d'approfondir les bases thoriques consulter les ouvrages numrs dans la bibliographie.
Un document ne vient jamais du nant. Pour laborer mes supports, je m'appuie sur direntes
rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus
prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents
sont le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart
de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail (de toute manire je
multiple les vrications avant d'y faire rfrence) ; une disponibilit plus ou moins alatoire, au gr des
migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier (dsol s'il
y a des liens qui ne fonctionnent plus) ; les informations sont disparates, avec une absence d'organisation,
la dirence des ouvrages qui suivent une ligne pdagogique trs structurante.
Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles
pour les enseignements. Il y a la gratuit bien sr. C'est un aspect important. Mais il y a aussi l'accs
des fonctionnalits qui sont moins videntes avec les supports classiques. Par exemple, dans la grande
majorit des cas, les donnes qui illustrent les documents sont accessibles sur le site web de diusion.
C'est un atout fort. Pour notre cas, le lecteur pourra (j'espre) reproduire aisment les calculs prsents
Concernant ce support, rendons Csar ce qui lui appartient. Parmi les direntes rfrences utilises,
j'ai beaucoup t inuenc par 2 excellents ouvrages : celui de Chen et Popovitch [2], il fait partie de la
non moins excellente srie "Quantitative Applications in the Social Sciences" de Sage University Paper ;
celui de Avazian [1], qui fait partie des rfrences, introuvables aujourd'hui, que je bichonne dans ma
bibliothque.
Ce support est totalement gratuit. Vous pouvez en reprendre des parties dans vos propres productions
ou dans vos enseignements, tant qu'elles sont elles-mmes diuses titre non commercial. Une citation
Bien entendu, selon la formule consacre, ce document n'engage que son auteur. Toutes suggestions
1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4 de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.5 de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6 Corrlation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
B Fichier de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Littrature ........................................................................... 99
Analyse de Corrlation
2. Caractriser la forme de la liaison (la relation) entre X et Y (positive ou ngative, linaire ou non
5. Valider la liaison identie. Est-ce qu'elle n'est pas le fruit d'un simple artefact ou le produit d'autres
Attention, la position des variables est symtrique dans ce cadre. On ne veut pas valuer l'inuence
multiple : nous pouvons situer les proximits entre les individus ; tudier la forme globale des points, voir
notamment s'il existe une forme de liaison ou de rgularit ; dtecter visuellement les points qui s'cartent
des autres, les observations atypiques ; vrier s'il n'y a pas de regroupement suspects, laissant entendre
qu'il y a en ralit une troisime variable qui inuence le positionnement des individus...
Dans la gure 1.1, nous illustrons quelques types de liaisons qui peuvent exister entre 2 variables
continues :
Liaison linaire positive. X et Y voluent dans le mme sens, une augmentation de X entrane une
1. http://www.ebsi.umontreal.ca/jetrouve/illustre/nuage.htm
Liaison linaire ngative. X et Y voluent en sens inverse. La pente est inchange quelle que soit
la valeur de X.
Liaison monotone positive non-linaire. X et Y voluent dans le mme sens, mais la pente est
situation caractristique est que X (ou Y) est constant quelle que soit la valeur de la seconde
variable.
1.3 Notations
Nous utiliserons les conventions suivantes dans ce support :
2.1 Covariance
L'objectif de la covariance est de quantier la liaison entre deux variables X et Y , de manire mettre
en vidence le sens de la liaison et son intensit.
2.1.1 Dnition
La covariance est gale l'esprance du produit des variables centres.
On peut aussi l'crire comme l'esprance du produit des variables, moins le produit des esprances.
Signication. La covariance mesure la tendance des deux variables tre simultanment au dessus
ou en dessous de leurs esprances respectives. Elle modlise une liaison monotone.
Quelques remarques :
1. La rfrence est donc l'esprance mathmatique, on veut savoir si : lorsque X est suprieur a son
COV (X, Y ) > 0 : la relation est positive c.--d. lorsque X est plus grand que son esprance, Y a
COV (X, Y ) < 0 : la liaison est ngative c.--d. lorsque X est plus grand que son esprance, Y a
3. La covariance d'une variable avec elle-mme est la variance, la relation est toujours positive. En eet,
2.1.2 Proprits
Voici les principales proprits de la covariance (Note : essayez d'eectuer les dmonstrations partir
Attention, la rciproque est gnralement fausse. Ce n'est pas parce que la covariance est nulle que
(Remarque : Pour dmontrer cette proprit, il ne faut pas oublier que lorsque X et Y sont indpen-
rendre compte du sens de la liaison. Plus sa valeur est leve (en valeur absolue), plus la liaison est
forte. Mais nous ne savons pas quelle est la limite. Nous ne pouvons pas non plus comparer la covariance
d'une variable X avec deux autres variables Y et Z. Dans la pratique, nous prfrerons donc une mesure
2.1.4 Estimation
Sur un chantillon de taille n, la covariance empirique est dnie de la manire suivante :
n
i=1 (xi x)(yi y)
Sxy = (2.3)
n
n1
On montre que c'est un estimateur biais de la covariance, en eet E[Sxy ] = n COV (X, Y ).
n n
(X, Y ) = i=1 (xi x)(yi y) i=1 xi yi nxy
COV = (2.4)
n1 n1
Dtails des calculs sur un exemple. Pour prciser les ides, dtaillons les calculs dans le tableur
EXCEL. Nous cherchons calculer la covariance entre la cylindre et la puissance de 28 vhicules (Figure
2.1) :
Dans la colonne E, nous calculons le produit (xi yi ), dont la somme est 4451219.
Nous pouvons alors former la covariance empirique (formule 2.3), elle est gale 18381.4133.
L'estimateur sans biais (formule 2.4) tant lui gal 19062.2063. L'cart entre les deux valeurs
lorsque les variables sont exprimes dans des units direntes. Nous souhaitons travailler sur un chier
La covariance empirique de la variable "consommation" avec les autres variables nous donne respec-
tivement : cylindre = 1197.6 ; puissance = 61.7 ; poids = 616.3. Manifestement, les valeurs ne se situent
COV (X, Y )
rxy = (2.5)
V (X) V (Y )
COV (X, Y )
= (2.6)
x y
Remarque 1 (Prcisions sur la notation). Dans ce qui suit, s'il n'y a pas d'ambiguts, nous omettrons les
indices X et Y.
2.2.2 Proprits
1. Il est de mme signe que la covariance, avec les mmes interprtations.
2. X et Y sont indpendants, alors r = 0. La rciproque est fausse, sauf cas particulier que nous prcisons
maintenant.
3. Lorsque le couple de variables (X, Y ) suit une loi normale bi-varie, et uniquement dans ce cas, nous
caractrise parfaitement la liaison entre X et Y. Dans les autres cas, le coecient de corrlation
4. Le coecient de corrlation constitue une mesure de l' intensit de liaison linaire entre 2 variables.
Il peut tre gal zro alors qu'il existe une liaison fonctionnelle entre les variables. C'est le cas lorsque
1 r +1 (2.7)
Lorsque :
r = +1, la liaison entre X et Y est linaire, positive et parfaite c.--d. la connaissance de X nous
le coecient de corrlation (Figure 2.3). Si la liaison est non monotone, r n'est d'aucune utilit. Si la
liaison est monotone mais non linaire, r caractrise mal l'intensit de la liaison.
n
i=1 (xi x)(yi y)
r = n n (2.8)
i=1 (xi x) y)2
2
i=1 (yi
On parle de coecient de corrlation empirique dans la littrature. Aprs quelques simplications,
xi yi nxy
r = (2.9)
x2i nx2 yi2 ny 2
Nous pouvons calculer le coecient de corrlation sans disposer du dtail des observations, les quan-
tits pr-calcules x, y , xi yi , x2i et yi2 susent.
2.3.2 Interprtation
Le coecient de corrlation sert avant tout caractriser une relation linaire positive ou ngative.
Il s'agit d'une mesure symtrique. Plus il est proche de 1 (en valeur absolue), plus la relation est forte.
La valeur de r n'a pas de signication intrinsque. En revanche, son carr c.--d. r2 , que l'on appelle
Ainsi, r = 0.9, on voit que la liaison est forte, puisqu'elle se rapproche de 1. C'est tout. En revanche,
2
avec r = 0.81, on peut dire que 81% de la variance de Y est explique par X (et inversement)(voir [3],
page 90).
Il existe par ailleurs d'autres interprtations du coecient de corrlation de Pearson. Parmi les plus
intressants gure l'interprtation gomtrique qui assimile r au cosinus de l'angle entre les deux vecteurs
de n observations X et Y 4.
coecient de corrlation de Pearson. Cela s'explique par le fait qu'il peut s'exprimer comme la moyenne
cr cr
du produit des variables centres rduites. Si l'on dsigne par x (resp. y) les valeurs de X (resp. Y)
centres et rduites c.--d.
cr xi x
xi =
sx
Le coecient de corrlation empirique peut s'crire
1 cr cr
n
r = xi yi (2.10)
n i=1
En particulier, lorsque les donnes sont centres et rduites, covariance et corrlation empiriques sont
quivalents.
ngligeable lorsque l'eectif augmente. L'esprance de l'estimateur s'crit ([1], page 107) :
r(1 r2 )
E[r] = r
2n
3. Voir http://fr.wikipedia.org/wiki/Rgression_linaire_multiple
4. Voir http://en.wikipedia.org/wiki/Correlation_coefficient
n1
raj = 1 (1 r2 ) (2.11)
n2
Bien entendu, l'ajustement est d'autant plus sensible que l'eectif est faible. Lorsque n est lev, r et
raj se confondent.
notre chier "voitures". Nous dtaillons les calculs dans la feuille EXCEL (Figure 2.4) :
Nous formons les quantits (xi yi ), x2i et yi2 . Nous calculons leurs sommes respectives : 4451219,
102138444 et 197200.
5. Voir le parallle avec le coecient de dtermination ajust en rgression linaire multiple http://fr.
wikipedia.org/wiki/Rgression_linaire_multiple
543169.291.
Reste former le rapport, la corrlation entre la cylindre et la puissance est r = 0.9475.
La fonction "COEFFICIENT.CORRELATION(...)" du tableur EXCEL propose la mme valeur.
Nuage de points. Il y a une forte liaison linaire entre "cylindre" et "puissance", ce que conrme
le graphique nuage de points (Figure 2.5). On notera aussi, et le coecient de corrlation ne sait pas
traduire ces informations, que 2 points semblent s'carter des autres, mais pas de la mme manire :
La "Lancia K 3.0 LS" est une grosse cylindre, trs puissante. Elle s'carte du nuage certes, mais
La "Hyundai Sonata 3000" est aussi une grosse cylindre, mais elle est relativement anmique. Le
point est un peu l'cart des autres, tout comme la Lancia, mais elle ne respecte pas, apparemment,
l'apparente liaison (visuelle et numrique) entre cylindre et puissance. Si on retire cette observation,
cient de corrlation de consommation avec les autres variables, nous obtenons respectivement : cylindre
pouvons pas armer s'il est signicativement plus lev que les autres.
H0 : r = 0
H1 : r = 0
Remarque 2 (Autres hypothses alternatives). On peut vouloir dnir une hypothse alternative dirente
(H1 :r<0 ou H1 : r > 0). Les caractristiques des distributions restent les mmes. Pour un risque
donn, seul est modi le seuil de rejet de H0 puisque le test est unilatral dans ce cas.
Test exact. Le test tudi dans cette section est paramtrique. On suppose a priori que le couple
(X, Y ) 6
suit une loi normale bivarie . Dans ce cas : la distribution sous H0 de la statistique du test que
nous prsenterons plus bas est exacte ; le test de signicativit quivaut un test d'indpendance.
Test asymptotique. Cette restriction est moins contraignante lorsque n est susamment grand 7 . A
partir de 25 observations, l'approximation est bonne, mme si nous nous cartons (un peu) de la distri-
bution normale conjointe ([12], page 308). La distribution est asymptotiquement valable sous l'hypothse
r
t= (2.12)
1r 2
n2
Rgion critique. La rgion critique (rejet de l'hypothse nulle) du test au risque s'crit :
Probabilit critique (p-value). Plutt que de comparer la statistique calcule avec la seuil thorique
fournie par la loi de Student, les logiciels proposent souvent la probabilit critique ( p-value ) que l'on doit
comparer au risque que l'on s'est x. Si la p-value est plus petite, alors nous rejetons l'hypothse nulle.
6. Si (X, Y ) suit une loi normale bivarie, alors X et Y suivent individuellement une loi normale. En revanche,
ce n'est pas parce que X et Y sont individuellement gaussiens que le couple (X, Y ) l'est forcment. Enn, si X
ou Y n'est pas gaussien, le couple (X, Y ) ne l'est pas non plus.
des donnes ne sont pas compatibles avec une absence de corrlation. On s'en serait dout avec une
valeur aussi leve. A la dirence que maintenant, nous pouvons associer un risque la prise de
dcision.
Sous l'hypothse H0 : r = 0, la convergence est plus rapide. Lorsque n > 100, la loi de r peut tre
approxime l'aide de la loi normale N (0; 1 ). Le test de signicativit peut s'appuyer sur cette
n1
distribution.
faudrait connatre la distribution de la statistique de manire gnrique c.--d. quelle que soit la vraie
Or, on se rend compte que dans un voisinage autre que r = 0, la convergence vers la loi normale est
plus lente et, pour les petits eectifs, la distribution de r tend tre dissymtrique gauche ([2], page
15).
Pour remdier cela, il est conseill de passer par une transformation dite de Fisher.
1 1 + r
z = ln (2.13)
2 1 r
Elle est distribue asymptotiquement selon une loi normale de paramtres 8
8. Il existe une approximation ([1], page 108) plus prcise de l'esprance E[z] 1
2
ln 1+r
1r
+ r
2(n1)
. Il y a un
lger biais, mais il devient trs vite ngligeable ds que n augmente.
Nous pouvons nous appuyer sur cette statistique pour raliser le test de signicativit ci-dessus. Mais,
e2z 1
r = (2.14)
e2z + 1
Voici la dmarche adopter pour obtenir l'intervalle de conance au niveau de conance (1 ) :
1
z1,2 = z u 1 (2.15)
2
n3
En dduire alors les bornes de l'intervalle de conance de r (Equation 2.14)
Exemple numrique. Nous souhaitons calculer l'intervalle de conance de la corrlation entre cy-
lindre et puissance pour un niveau de conance de 95%. Rappelons que r = 0.9475.
Le quantile de la loi normale centre rduite d'ordre 0.975 est u0.975 = 1.96
1 1+0.9475
La transformation de Fisher nous donne z = ln 10.9475 = 1.8072
2
1
L'cart type de z est gal
283 = 0.2
La borne basse de l'intervalle de conance s'crit z1 = 1.8072 1.96 0.2 = 1.4152 ; selon le mme
e21.4152 1
r1 = = 0.8886
e21.4152 + 1
e22.1992 1
r2 = 22.1992 = 0.9757
e +1
L'intervalle de conance au niveau 95% de la corrlation entre la cylindre et la puissance est
[0.8886 ; 0.9757]
possibilit de comparer la valeur du coecient de corrlation avec une valeur de rfrence r0 . La loi
associe z est valable quelle que soit la valeur de r dans la population parente.
1 1+r0
Nous passons par la transformation de Fisher, avec z0 = 2 ln 1r 0
, l'hypothse nulle du test s'crit
H0 : z = z0
z z0
U= = (z z0 ) n 3 (2.16)
1
n3
Exemple : Corrlation cylindre - puissance. Nous souhaitons eectuer le test unilatral suivant
au risque 5%
H0 : r = 0.9
H1 : r > 0.9
faut surtout pas en faire une rfrence absolue. Il importe de dlimiter clairement son champ d'action
et identier les cas o ses indications sont sujettes caution. La qualit des interprtations conscutives
aux calculs en dpend (voir aussi [3], pages 93-94, concernant les "petites corrlations").
sur les donnes annuelles de 1897 1985, des tudes ont montr une corrlation de 0.91 entre le revenu
national amricain et le nombre de tches solaires (les zones sombres du soleil, ce sont des zones moins
chaudes). Personne ne peut dcemment soutenir qu'il y a une relation quelconque entre ces 2 grandeurs.
relation ngative entre la taille des personnes et la longueur de leur chevelure. On pourra toujours avancer
des arguments plus ou moins psychologiques, mais avant de s'avancer outre mesure, on ferait mieux de
revenir sur les conditions du recueil des donnes et vrier qu'il n'y a pas d'informations caches derrire
tout cela.
Dans cet exemple, on se rend compte que les hommes et les femmes sont mlangs dans le chier de
donnes. Or, en moyenne, les hommes sont plus grands que les femmes, et inversement, les femmes ont
une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rle de facteur confondant.
Dans le cas o le facteur confondant est qualitatif, on dtecte facilement le problme en construisant
un nuage de points en distinguant les sous-groupes. tudions plus en dtail notre exemple "taille vs.
longueur de cheveux" chez les hommes et chez les femmes. Lorsque nous construisons le nuage de points,
nous constatons que le nuage des hommes se distingue du nuage des femmes (Figure 2.6). Globalement,
une liaison compltement factice apparat. La corrlation est r1 = 0.074 chez les hommes, r2 = 0.141
chez les femmes, il passe r = 0.602 sur la totalit des individus.
Fig. 2.6. Nuage de points "taille vs. longueur des cheveux" - Hommes et femmes confondus
Lorsque le facteur est quantitatif, c'est un peu plus compliqu (exemple : vente de lunettes de soleil et
de crmes glaces, il n'y a pas de lien direct, c'est l'ensoleillement ou la temprature qui les font varier de
manire concomitante). Nous tudierons plus en dtail le calcul de la corrlation en contrlant les eets
cativement des autres, on parle de points "aberrants" ou "atypiques", dans le sens o ils n'appartiennent
Les raisons de l'apparition de ce type d'observations sont multiples : erreur lors du recueil des donnes
(exemple : une personne de 4 ans souscrit une assurance-vie, en ralit elle a 40 ans) ; un comportement
rellement dirent (exemple : un sportif tellement dop qu'il porte les records du monde des sommets
Le positionnement de ces points par rapport au nuage global laisse croire (ou masque) l'existence
d'une liaison manifeste entre les variables. Il existe certes des techniques statistiques destines identier
automatiquement les donnes atypiques, mais force est de constater que des graphiques simples telles que
Dans un premier exemple (Figure 2.7), on note le positionnement totalement atypique de l'individu
numro 7. Si on l'utilise dans les calculs, le coecient empirique est 0.9976, trs proche de liaison linaire
parfaite. Si on le retire c.--d. on calcule le coecient sur les 6 points restants, la corrlation passe
Parfois, le point aberrant est particulirement sournois. Il est conforme au domaine de dnition de X
et Y . Mais sur la conjonction (X, Y ), il s'carte du nuage principal (Figure 2.8). Dans cet exemple, le point
atypique (entour de rouge) masque en partie la forte liaison entre X et Y . Les techniques statistiques de
9
dtection univarie des points atypiques sont totalement inoprantes ici. Il faut se tourner vers d'autres
procdures. Certaines sont lies la mthode statistique mise en oeuvre pour analyser les donnes
10 .
9. Voir http://tutoriels-data-mining.blogspot.com/2008/05/dtection-univarie-des-points-aberrants.
html
10. Pour la rgression multiple, il existe toute une panoplie d'indicateurs assez ecaces - Voir http://
tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html
r peut nous induire en erreur sur l'existence et l'intensit de la relation entre les variables.
Liaison monotone. Lorsque la liaison est non linaire mais monotone, le coecient de corrlation
est certes peu adapt mais n'est pas compltement hors de propos : il donne des indications quant
Dans la gure 2.9, nous constatons visuellement l'existence d'une liaison fonctionnelle quasi parfaite
entre X et Y, c'est patent lorsqu'on relie les points. Pourtant le coecient de corrlation nous annonce
r = 0.7804, indiquant clairement qu'il y a une liaison certes, mais ne rendant pas compte de son intensit.
Nous verrons plus loin avec les indicateurs bass sur les rangs comment palier ce problme sans avoir
Liaison non monotone. Lorsque la liaison est non monotone, c'est la catastrophe : le coecient de
corrlation ne rend compte ni de l'intensit de la liaison, ni mme de son existence.
Dans la gure 2.10 (A), on constate immdiatement la forme parabolique de la relation. Pourtant le
coecient de corrlation nous indique rxy = 0.0118. Eectivement, elle n'est pas linaire, mais il y a
bien une liaison entre X et Y, le coecient de Pearson est totalement inadapt ici.
Linarisation par transformation de variables. Une solution vidente, surtout si l'on considre
l'exemple prcdent, est de proposer une transformation de variables de manire mettre en exergue
une relation linaire. Dans la gure 2.10 (B), si nous proposons une nouvelle variable Z = X 2, la cor-
rlation mesure en est grandement modie rzy = 0.990. Il y a bien un lien entre les variables, elle est
particulirement forte.
n'est pas toujours vidente produire ; dans le traitement de gros chiers o nous avons manipuler
Dans cette section sont runis quelques tests de comparaison de corrlations que l'on retrouve peu
souvent dans la littrature francophone et qui, pourtant, rpondent des problmatiques trs concrtes.
populations direntes. Mettons que nous souhaitons comparer la corrlation entre le poids et la taille
chez les hommes et chez les femmes. Est-ce qu'elle est identique dans les deux populations ?
Nous travaillons sur 2 chantillons indpendants, extraits au hasard dans chaque sous population.
La corrlation thorique est r1 (resp. r2 ) chez les femmes (resp. chez les hommes). Le test d'hypothses
s'crit :
H0 : r1 = r2
H1 : r1 = r2
D = z1 z2 (3.1)
Sous H0 , puisque les estimateurs r (et par consquent z ) sont indpendants (estims sur des chan-
E[D] = 0
1 1
V [D] = +
n1 3 n2 3
Au risque , la rgion critique du test bilatral s'crit :
|z1 z2 |
R.C. : U = u1 2
1 1
n1 3 + n2 3
Exemple numrique : comparer la corrlation taille - poids chez les hommes et chez
les femmes. Nous disposons d'un chantillon de n1 = 15 femmes, et n2 = 20 hommes (Figure 3.1).
Nous souhaitons tester l'galit du coecient de corrlation entre le poids et la taille dans les deux
femmes.
22). Il s'agit bien souvent de comparer le mme coecient de corrlation sur plusieurs sous-populations.
Remarque 3 (C'est une vraie gnralisation). Lorsque K = 2, nous devrions retrouver le test prcdent,
nous vrierons cela sur le mme exemple que prcdemment (section 3.1).
H0 : r1 = r2 = = rK
L'hypothse alternative est "un des coecients au moins s'carte des autres".
K K
[ k=1 (nk 3)zk ]2
=2
(nk 3)zk2 K (3.2)
k=1 k=1 (nk 3)
Sous H0 , la statistique du test suit une loi du 2 (K 1) K 1 degrs de libert. On rejette l'hypothse
nulle lorsqu'elle est suprieure au quantile 21 (K 1) de la loi thorique pour un risque .
(France, Allemagne, etc.), du Japon, et des USA. Le chier est disponible sur le site DASL (Data and
1
Story Library) . Du chier original, nous avons supprim l'observation atypique (la fameuse Buick Estate
Tous les calculs ont t mens dans une feuille EXCEL (Figure 3.2), en voici les dtails :
Pour chaque origine des vhicules, nous disposons des deux colonnes de donnes (Poids et Consom-
mation).
1. http://lib.stat.cmu.edu/DASL/Stories/FuelEfficientBuickWagon.html
De la mme manire, nous aurions pu calculer la probabilit critique du test (la p-value), elle est
gale 0.9297, largement suprieure au risque 5%. La conclusion est bien videmment la mme.
tement la valeur de la statistique du test bas sur la loi normale. Ce n'est gure tonnant, en eet
n'oublions pas qu'il y a une relation entre la loi normale et la loi du 2 1 degr de libert c.--d.
deux variables X et Z avec la variable Y. La situation est un peu plus complexe car les corrlations sont
H0 : ryx = ryz
On peut vouloir construire un test unilatral (ryx > ryz ou ryx < ryz ) ou bilatral (ryx = ryz ).
Dans ce cadre, le test t de Williams est conseill ds lors que n est assez grand (n 20). La statistique
s'crit ([2], page 24)
(n 1)(1 + rxz )
t = (ryx ryz ) (3.3)
n3 |R|
2 n1 + r2 (1 rxz )3
Remarque 4 (X et Z sont orthogonaux). Nous remarquons que le degr du lien entre les variables X et Z
inue sur les rsultats. Si X et Z sont orthogonaux (c.--d. rxz = 0), la statistique dpend uniquement
sa corrlation avec la puissance (Z). Nous sommes sur un test bilatral, on veut vrier si l'cart observ
l'cart observ est signicatif c.--d. transposable dans la population (H1 ) ou uniquement du aux
Nous calculons la corrlation rxz = 0.9475. Nous constatons qu'elles sont trs lies. Peut tre
d'ailleurs qu'elles amnent le mme type d'information vis vis de Y , nous vrierons cette assertion
dans la partie de ce support consacre aux corrlation partielles.
H0 : rxy = rzw
H1 : rxy = rzw
Le test peut tre unilatral (c.--d. H1 : rxy < rzw ou rxy > rzw ).
De prime abord, ce test parat assez trange. Est-ce que comparer des corrlations calcules sur des
concepts dirents a rellement un sens ? Prenons l'exemple des voitures, opposer la corrlation entre
la puissance et la consommation, d'une part, et la corrlation entre le poids et le prix, d'autre part, ne
On comprend mieux le sens de ce test la lumire de l'exemple propos par une des rares rfrences
qui le dcrit (voir [2], page 24). Pour un ensemble d'lecteurs, on calcule la corrlation entre les donations
et les intentions de votes, une anne donne, puis 4 ans plus tard. L'objectif est de vrier si le lien entre
De cet exemple, nous retiendrons avant tout l'ide d' appariement. Nous voulons comparer l'intensit
d'un lien avant et aprs l'occurrence d'un vnement, qui peut tre simplement un certain dlai, mais qui
peut tre aussi une action particulire. Mais la notion d'appariement est plus large. Il y a eectivement
la situation "avant - aprs". Mais nous pouvons la dnir surtout comme des mesures eectues sur une
unit statistique : dans un mnage, mesurer et comparer une caractristique chez l'homme et la femme ;
Le test de Clark et Dunn est conseille pour cette conguration. Il suit asymptotiquement une loi
normale centre rduite, il est valable ds lors que n 20. Par commodits, nous numroterons les
variables X = 1, Y = 2, Z = 3 et W = 4. Nous crirons par exemple r12 pour rxy , ou r34 pour rzw , etc.
n3
U = (z12 z34 ) (3.4)
2 2s
avec
1 1+r
z = 2 ln 1r , la transformation de Fisher ;
s = (1r 2 )2 ;
r12 +r34
r = 2 ;
= 0.5{[(r13 r23 r)(r24 r23 r)] + [(r14 r13 r)(r23 r13 r)] + [(r13 r14 r)(r24 r14 r)] + [(r14
r24 r)(r23 r24 r)]}
Une autre formulation est possible. Elle s'appuie sur l'ide que nous pouvons simplier l'expression
sous l'hypothse nulle d'galit des corrlations (voir [7], page 97).
Exemple : les donations au parti. Reprenons directement l'exemple dcrit dans l'ouvrage de Chen
et Popovich ([2], page 25). Il s'agit de tester, pour n = 203 votants, si le lien entre les donations au parti
et les intentions de vote a volu dans un laps de temps de 4 annes. Les corrlations comparer sont
|U | = 1.48 avec le quantile de la loi normale centre rduite u0.975 = 1.96. Les donnes sont compatibles
avec l'hypothse nulle, 4 annes plus tard, le lien entre les intentions de vote et les donations n'a pas
volu signicativement.
2. Voir http://www.tufts.edu/~gdallal/paired.htm
nment. Elle retranscrit les corrlations entre les variables prises deux deux. Elle est symtrique, et la
Le test de nullit des corrlations croises vise tablir l'orthogonalit deux deux des variables de
l'ensemble de donnes. En d'autres termes, il s'agit de savoir si la matrice des corrlations est assimilable
Le test de sphricit de Bartlett est parfois associ l'analyse en composantes principales (ACP) dans
les logiciels. L'objectif est d'identier s'il existe une certaine redondance dans les donnes que l'on pourra
exploiter pour produire des axes factoriels porteurs d'informations pertinentes. Si l'hypothse nulle est
compatible avec les donnes, essayer d'obtenir un rsum de l'information via une ACP serait vain .
3
Pour mesurer le lien entre les variables, le dterminant de la matrice des corrlations |R| est calcul.
Sous l'hypothse d'orthogonalit des variables, |R| = 1 puisque tous les coecients hors diagonale prin-
cipale sont nuls. Le principe du test consiste valuer dans quelle mesure l'on s'carte de cette situation
de rfrence |R| = 1.
La statistique du test s'crit :
( )
2p+5
= n1
2
ln(|R|) (3.5)
6
O p est le nombre de variables, n est le nombre d'observations.
p(p1)
Sous H0 , la statistique suit une loi du 2
2 degrs de libert.
Exemple : Traitement du chier "Consommation des automobiles" (Figure 2.2). Nous sou-
haitons tester la nullit des corrlations croises entre les p=4 variables qui composent la base. Tous les
La matrice des corrlations |R| est calcule tout d'abord. Elle est symtrique. La corrlation d'une
variable avec elle-mme est gale 1, ce sont les valeurs que nous observons sur la diagonale
principale. Nous constatons que les variables sont trs fortement lies entre elles (les valeurs sont
Le dterminant est gal |R| = 0.0025826, proche de 0. Ce qui conrme les fortes corrlations
3. cf. Tutoriel Tanagra, ACP sous R - Indice KMO et test de Bartlett, mai 2012, http://
tutoriels-data-mining.blogspot.fr/2012/05/acp-sous-r-indice-kmo-et-test-de.html
( )
24+5
2 = 28 1 ln(0.0025826) = 147.9813
6
43
Elle est distribue selon une loi du 2
2 =6 degrs de libert. La probabilit critique est gale
2.067 1029 .
L'hypothse de sphricit - orthogonalit deux deux des variables - est trs largement incompatible
avec les donnes. On s'en doutait un peu rien qu'en regardant la matrice des corrlations ceci tant.
test bas sur la statistique de Fisher (section 2.5). En eet, si r est la corrlation entre les 2 variables :
( )
2p+5
2 = n 1 ln(|R|)
6
( )
22+5
= n1 ln(|R|)
6
1
= (2 n 5) ln(1 r2 )
2
Reprenons notre exemple de la section 2.4.2, nous avions n = 28 et r = 0.9475 entre la cylindre et
la puissance (Fichier "Consommation des automobiles", gure 2.2). En appliquant la formule simplie
1
2 = (2 n 5) ln(1 r2 )
2
1
= (2 28 5) ln(1 0.94752 )
2
= 58.1733
2s = (n 3) 2
zjk (3.6)
j k>j
O zjk est la transformation de Fisher de la corrlation estime entre les variables Xj et Xk . Sous
p(p1)
H0 , la statistique 2s suit une loi du 2
2 degrs de libert.
La procdure est indubitablement plus simple. Il nous vite de calculer le dterminant de la matrice
Exemple : Reprenons notre exemple numrique du chier "Consommation des automobiles". Nous
calculons la matrice des corrlations transformes par la formule de Fisher (section 2.5). Puis nous formons
2s = (n 3) 2
zjk
j k>j
La conclusion est la mme, les corrlations croises sont signicatives avec une p-value de 4.031068 .
On notera nanmoins que la valeur de la statistique de test est particulirement leve. Plus encore que
pour le test de Bartlett, nous devons tre trs prudent avec cet outil qui conclut quasi-systmatiquement
au rejet de l'hypothse nulle ds que les eectifs n augmentent un tant soit peu (cf. documentation du
tinctes. Il s'agit donc d'un test de comparaison de plusieurs corrlations - considres simultanment -
Par exemple, pour reprendre notre chier "Consommation des automobiles"(Figure 2.2), l'ide serait
de vrier s'il y a une dirence dans la structure des relations entre les variables selon que l'on a aaire
Nous prsentons la procdure cortest.normal du package 'psych' ([8], pages 59 61) dans cette
section. La mthode est attribue Steiger (1980). Elle s'appuie sur le carr de l'cart entre les transfor-
Soit zm,jk est la transformation de Fisher de la corrlation estime rm,jk entre les variables Xj et Xk
dans la sous-population m (m {1, 2}). La statistique de test s'crit :
( )
n1 n2 2
2
s = (z1,jk z2,jk ) (3.7)
n1 + n2 j k>j
Sous H0 , les corrlations sont globalement identiques dans les deux sous-populations, la statistique
p(p1)
suit une loi du 2
2 degrs de libert.
Exemple numrique : Nous souhaitons comparer les structures de corrlations entre les vhicules
asiatiques et europennes dans le chier "Consommation des automobiles" (Figure 2.2). Nous devons tout
d'abord scinder en 2 parties les donnes puis calculer les matrices des corrlations croises R1 et R2 dans
lations semblent trs similaires globalement. Voyons si les calculs conrment cela :
Les matrices Z1 et Z2 sont formes partir des transformations de Fisher des corrlations. Par
exemple, pour le croisement entre la cylindre et la puissance chez les vhicules asiatiques, nous
Fig. 3.6. Matrices des corrlations dans les sous-populations - Fichier "Consommation des automobiles"
n1 n2
Nous calculons le terme de pondration c= n1 +n2 = 6.4286
Et nous obtenons nalement la statistique de test
p(p1) 43
Sous l'hypothse nulle, cette statistique suit une loi du 2
2 = 2 = 6 degrs de libert.
La probabilit critique est gale 0.9584. Au risque 5%, l'hypothse d'galit des corrlations n'est pas
puie sur une formulation autrement plus complexe. Le texte n'est pas vraiment prcis. Il est heureu-
sement possible de retracer les formules en explorant le code source du package 'psych' ([8], procdure
cortest.jennrich 4 ).
La statistique de test s'crit :
4. On peut trs facilement obtenir le code source d'une fonction en introduisant son nom dans la ligne de
commande R. Une autre piste est de charger le code source du package sur le serveur CRAN et de le dzipper -
http://cran.r-project.org/web/packages/psych/index.html
Fig. 3.7. Comparaison de 2 matrices des corrlations - Test de Steiger - Fichier "Consommation des automobiles"
1
2 = tr(Z Z T ) diag(Z)T S 1 diag(Z) (3.8)
2
O :
n1 R1 +n2 R2
R est la moyenne pondre des 2 matrices des corrlations c.--d. R= n1 +n2 ;
Z= c R1 (R1 R2 )
diag(Z) est la diagonale principale de la matrice Z qui se prsente (dans notre formulation tout du
Nous retranscrivons tous les calculs dans une feuille Excel pour le chier "Consommation des automo-
biles" (Figure 3.8). Sans rentrer dans les dtails, nous obtenons la sortie 2 = 4.5202 avec une p-value
2
de 0.6066 pour un 6 degrs de libert. Ici galement, les donnes sont compatibles avec l'hypothse
Remarque : L'ide qu'il faut retenir de cette section est que nous disposons de deux tests qui reposent
sur la dirence entre les matrices des corrlations, soit sous leur forme native (R1 R2 ) (Jennrich), soit
via la transformation de Fisher (Z1 Z2 ) (Steiger). Ce qui, somme toute, est tout fait logique s'agissant
de la comparaison de corrlations.
coecients de corrlations sont peu dcrits, peu rpandus, et de ce fait rarement disponibles dans les
logiciels ( moins que ce ne soit l'inverse, c'est parce qu'ils sont peu programms qu'ils sont peu utiliss).
C'est regrettable car les applications pratiques sont nombreuses, elles ouvrent d'autres pistes pour l'ex-
ploration des donnes. De plus, argument important qui milite en faveur de leur diusion, le dispositif est
trs souple : les tests restent valables pour les mesures de corrlation drives du coecient de Pearson,
Dans certaines situations, relatives au type des variables, ou conscutives une transformation des
variables, le coecient de corrlation est simpli. Son interprtation peut tre modie et/ou enrichie.
Dans cette partie, nous numrons quelques unes de ces variantes, les formules et les tests associes.
Puis nous montrons leur utilisation et leur interprtation sur un jeu de donnes.
Quelques rfrences pour cette partie, donnant un positionnement clair des direntes techniques,
utilis pour mesurer la liaison entre une variable dichotomique (X pour xer les ides) et une variable
continue. La variable binaire peut l'tre naturellement (ex. sexe = H ou F) ou suite un dcoupage en 2
intervalles (ex. revenu, dcoup en 2 intervalles). Bien que dans ce second cas, son utilisation ne soit pas
2
trs recommande , on prfrera des indicateurs plus puissants (voir chapitre 4.2).
cod 0/1, nous obtenons exactement le coecient bisriale ponctuelle. En y regardant de plus prs, on
se rend compte rapidement qu'il s'agit en ralit de la statistique de la comparaison de moyenne entre 2
chantillons indpendants. On cherche savoir si dans les sous-groupes dnis par X, Y est dirent en
moyenne.
La corrlation bisriale ponctuelle est dnie comme suit pour chantillon de taille n, avec n1 individus
1. Voir http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1 pour la traduction des termes statistiques
2. Voir http://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient
y1 y0 n1 n0
rpb = (4.1)
sn1 n(n 1)
avec y1 et y0 les moyennes conditionnelles ; sn1 l'cart type estim sur l'ensemble de l'chantillon
n
2
c.--d. sn1 = 1
n1 i=1 (yi y)
2
.
rpb
tr = 2
(4.2)
1rpb
n1 +n0 2
nous pouvons vrier si les moyennes sont signicativement direntes dans les sous-groupes. La statis-
y1 y0
tc = (4.3)
s
s est l'cart type estim de l'cart entre les moyennes
A priori, cette formulation est totalement quivalente celle base sur le coecient de corrlation.
4.1.4 Exemple
Nous voulons vrier la liaison entre le genre des personnes et leur taille. En d'autres termes nous
cherchons savoir si les hommes, en moyenne, sont plus grands que les femmes. Nous utilisons les donnes
dj traites dans la section 2.6.2, nous ne conservons que la taille (Figure 4.1). Nous allons travailler
en deux temps, tout d'abord en calculant le coecient de corrlation sur les donnes codes, puis en
mettant en oeuvre le calcul spcique sous forme de comparaison de moyennes. Les rsultats doivent tre
cohrents.
Dans les colonnes B et C du tableur, nous avons les donnes, puis les rsultats des calculs bass sur
Les hommes sont cods 1, les femmes 0. En soi a n'a pas d'importance, mais il faudra s'en rappeler
lors de l'interprtation du coecient, le codage dtermine le signe du coecient.
3. http://en.wikipedia.org/wiki/Student's_t-test
Fig. 4.1. Corrlation bisriale ponctuelle : taille selon le genre des individus
Voyons justement le coecient de Pearson empirique, il est gal r = 0.748034. Le signe est positif,
cela veut dire qu'en moyenne les hommes sont plus grands que les femmes.
Le graphique nuage de points conrme cette ide, le nuage des hommes est visuellement plus lev
que celui des femmes, la dispersion tant peu prs la mme dans les deux groupes.
Pour raliser le test de signicativit, nous calculons tr = 6.4749. Il suit une loi de Student
n 2 = 33 degrs de libert.
Au risque 5%, l'hypothse nulle, il n'y aucun lien entre le genre et la taille, n'est pas compatible
Dans les colonnes E, F , G et H du tableur, nous avons les calculs relatifs au coecient rpb :
Avec le tableau crois dynamique, nous avons conrmation des eectifs : n0 = 15 femmes, et n1 = 20
hommes.
Les moyennes et carts type dans les sous-groupes sont respectivement (y0 = 1.589, y1 = 1.733) et
sont identiques.
quantitative Y . La principale direnciation avec la corrlation bisriale ponctuelle est qu'ici, la variable
X doit tre issue d'un dcoupage en 2 intervalles d'une variable continue gaussienne (voir [2],
page 36 ; par exemple : poids bas ou lev, tension artrielle suprieure un seuil ou pas, etc.). Attention,
dans ce cas le codage de X n'est plus anodin. La valeur 1 correspond naturellement la fraction leve
Remarque 5 (Laquelle privilgier : corrlation bisriale ponctuelle ou corrlation mutuelle ?). La corrla-
tion mutuelle est plus restrictive, si la condition n'est pas respecte, l'infrence statistique est sujette
caution. En revanche, si la condition est remplie, la corrlation mutuelle est plus puissante c.--d. elle
y1 y0 n1 n0
rb = 2 (4.4)
sn1 n n1 /n
o
s2n1 = 1
n1 i (yi y)2 est l'estimation de la variance ;
n1 /n est l'ordonne de la fonction de densit de la loi normale centre rduite la coordonne gale
frein l'utilisation de cet indicateur, qui est trs peu prsent dans les logiciels. Essayons de dtailler la
4. Nous viterons cette dnomination pour ne pas la confondre avec la corrlation bisriale ponctuelle (ah ces
linguistes je vous jure, hein..).
5. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
Nous appliquons alors la fonction de densit de la loi normale pour obtenir c.--d.
1 0.92082
= fN (0.9208) = e 2 = 0.2611
2
Remarque 7 (Violation de l'hypothse de normalit sous-jacente). Dans certains cas, lorsque la distribu-
tion continue sous-jacente de X s'loigne fortement de la loi normale, bimodale ou trs aplatie, rb peut
prendre des valeurs suprieures 1. Ce sont quand mme des situations extrmes. Lorsque la distribution
sous-jacente de X est unimodale et raisonnablement symtrique, la procdure est robuste.
de conance, nous pouvons utiliser l'arsenal dvelopp dans les sections 2.4 et 2.5, en substituant la
4.2.2 Exemple
Nous cherchons calculer la corrlation entre la cylindre dichotomise (X = 1 lorsque cylindre
> 1200, 0 sinon) et la puissance (Y ). Dans les tudes relles, nous ne disposons que des valeurs binaires
de X , nous n'avons pas les valeurs originelles qui ont servi construire X mme si nous savons par ailleurs
rb = 0.9481
Le t pour le test de signicativit est calcul l'aide de la formule usuelle t= rb = 15.2016
1r 2
b
n2
La corrlation est trs hautement signicatif, la p-value est trs petite. Les donnes ne sont pas
de dcoupage (nous avons choisi la valeur 1200 pour cylindre dans notre exemple) est primordiale. S'il
est malheureux, nous pouvons totalement masquer les informations importantes ou, pire, produire des
valeurs qui posent problme. Un coecient de corrlation suprieur 1 notamment ne manquerait pas de
jeter le discrdit sur les techniques que l'on manipule. Il faut donc avoir de bonnes raisons pour eectuer
le dcoupage. Dans la plupart des cas, ce sont les contraintes du domaine ou les exigences de l'tude
qui le xent arbitrairement. Dans notre exemple, on pourrait avancer qu'au del de la cylindre 1200, la
du fait que la variable sous-jacente X est continue et gaussienne. Ce surcrot d'information utilis dans
les calculs la rend particulirement puissante lorsque l'assertion est vraie. Dans la pratique, on se rend
compte qu'il y a une formule de passage entre les 2 indicateurs ([2], page 37)
n1 n0 (n 1)
rb = rpb (4.5)
2n1 /n n3
Nous avons eectu plusieurs vrications pour notre exemple prcdent (Figure 4.2). Dtaillons les
rsultats :
En calculant le coecient de Pearson sur les donnes originelles (la variable X non dichotomise),
nous obtenons r = 0.9475. Rappelons que la corrlation mutuelle est rb = 0.9481. Il est quand
mme remarquable que cette dernire puisse reconstituer avec une telle prcision les rsultats en se
La corrlation bisriale ponctuelle, base uniquement sur la variable dichotomise, qu'importe qu'elle
soit intrinsquement qualitative ou non, sous-estime fortement l'intensit du lien. En eet, on obtient
rpb = 0.6582. Mme si elle reste signicative, elle est loin de traduire la liaison relle qui existe entre
les variables cylindre et puissance, vidente lorsque l'on construit le graphique nuage de points
En appliquant la formule de passage ci-dessus (quation 4.5), nous retrouvons exactement la valeur
que
n1 n0 (n 1)
1.25
2n1 /n n3
La corrlation mutuelle est toujours suprieure la corrlation bisriale ponctuelle (rb > rpb ). Elle a
tendance mieux mettre en vidence les carts l'hypothse nulle. Cela n'est pas sans dangers, comme
nous le signalions plus haut, dans certaines situations rb peut prendre des valeurs suprieures 1.
4.3 Le coecient
Calcul bas sur le coecient de Pearson. Une premire manire trs simple de calculer le
coecient est de calculer le coecient de Pearson sur les variables codes 0/1. Aucune correction n'est
Calcul bas sur le tableau de contingence. Comme les variables sont censes tre dichotomiques
qualitatives c.--d. les modalits ne sont pas ordonnes. Nous pouvons laborer un tableau de contingence
croisant les modalits de X et Y. Et calculer l'indicateur dessus. Nous nous rapprochons en cela des
Partons du tableau de contingence gnrique 22 pour tablir les formules (Tableau 4.1). En ligne
Y vs. X 1 0
1 a b
0 c d
Le coecient s'crit :
ad bc
= (4.6)
(a + b)(c + d)(a + c)(b + d)
Le codage 0 ou 1 dtermine le signe de , il n'a pas d'incidence sur la valeur absolue du coecient.
Cela permet de dtecter les attraction ou les rpulsions entre les modalits.
au coecient de Pearson.
4.3.2 Exemple
Reprenons notre exemple de la puissance et de la cylindre (Figure 2.5). Les deux variables ont t
maintenant dichotomises, nous avons choisi le seuil 1800 pour la variable cylindre, 75 pour "puissance".
Ce faisant nous perdons de l'information car ne tient pas compte de la nature continue des variables sous-
jacentes. Nous essaierons de voir justement dans quelle mesure la perte d'information est prjudiciable.
Dans les colonnes C et D, nous avons les variables originales. En E et F, les variables dichotomises.
Dans la partie droite, sous le tableau de donnes, nous avons classiquement calcul le coecient
t = 13.0. L'hypothse nulle d'absence de liaison n'est pas compatible avec les donnes.
Voyons maintenant la partie gauche. Nous avons form le tableau de contingence, puis partir de
la formule 4.6, nous avons obtenu = 0.9309. La valeur concide avec le coecient prcdent. C'est
heureux.
Rappelons que la corrlation sur les variables continues originelles est rcyl,puiss = 0.9475. Aprs dcou-
page en 2 intervalles des variables, nous retrouvons quand mme l'intensit de la liaison avec r = 0.9309.
6. Rakotomalala, R., Etude des dpendances - Variables qualitatives, http://eric.univ-lyon2.fr/~ricco/
cours/cours/Dependance_Variables_Qualitatives.pdf. Voir la section 4.1 concernant le coecient et sa
relation avec le coecient de corrlation.
Dans ce cas il y a peu de pertes d'informations. Ce n'est pas tonnant, les seuils ont t judicieusement
choisis, ils se rapprochent, peu prs, du barycentre du nuage de points (Figure 2.5). Si nous avions
choisi des seuils qui ne sont pas en correspondance, par exemple 900 pour la cylindre et 100 pour la
puissance, nous aurions obtenu r = 0.3523, laissant croire que le lien est faible. Ce qui est totalement
Remarque 9 (Dcouper en intervalles peut mme tre protable). Encore une fois, la prparation des
donnes, en l'occurrence le choix des bornes lorsque l'on dcoupe les donnes, est donc trs important
pour ce type d'indicateur. Il faut faire trs attention. Mais a contrario, un choix judicieux des bornes
peut tre protable l'analyse. Si la relation est fortement non linaire, le coecient de Pearson sur
les variables originelles est fauss. Le dcoupage en intervalles peut aider mieux mettre en vidence
l'existence de la liaison.
une loi normale bivarie, on privilgiera le coecient tetrachorique qui est plus puissant ( Tetrachoric
coecient 7
en anglais ).
Ce coecient s'appuie sur l'hypothse de normalit sous jacente pour corriger le coecient (quation
4.6). Grosso modo, le numrateur reste le mme, le dnominateur doit tenir compte en revanche de la
distribution normale en intgrant de nouveau l'ordonne de la loi normale centre et rduite pour les
la pratique.
4.4 de Spearman
Fondamentalement, le coecient de Spearman est aussi un cas particulier du coecient de Pearson,
calcul partir des transformations des variables originelles. Mais il prsente l'avantage d'tre non para-
mtrique. L'infrence statistique ne repose plus sur la normalit bivarie du couple de variables (X, Y ).
Nous pouvons bien entendu mettre en oeuvre tous les tests mis en avant dans la section 2.5, y compris
4.4.1 Principe
L'ide est de substituer aux valeurs observes leurs rangs. Nous crons donc deux nouvelles colonnes
Si = Rang(Yi ).
Le de Spearman est ni plus ni moins que le coecient de Pearson calcul sur les rangs.
n
(Ri R)(Si S)
= i=1 (4.7)
i (R i R) 2
i (Si S)
2
n+1
Compte tenu de certaines proprits des rangs (par ex. S = R = 2 ; voir [3], pages 105 108), nous
pouvons dduire une expression simplie
n
12 i=1 Ri Si 3(n + 1)
= (4.8)
n(n2 1) n1
7. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
8. Voir http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm concernant les fondements et
les interprtations de la mesure ; voir http://lib.stat.cmu.edu/apstat/116 sur son mode de calcul dans les
logiciels de statistique
9. La plus petite valeur prend le rang 1, la plus grande le rang n
Enn, si nous dnissons Di telle que Di = Ri Si est l'cart entre les rangs, nous obtenons une
n
6 i=1 Di2
= 1 (4.9)
n(n2 1)
Attention, pour ces quations simplies, il est ncessaire d' introduire une correction lorsqu'il y
a des ex-aequo dans les donnes, surtout s'ils sont assez nombreux. Nous reviendrons en dtail sur
les corrections introduire plus loin (section 4.4.5).
Le de Spearman est une variante du coecient de Pearson, il en reprend les proprits essentielles,
4.4.2 Un exemple
Nous reprenons notre exemple du lien entre la taille et le poids. Nous avons modi les donnes de
Nous avons tout d'abord form le nuage de points. Il semble y avoir une liaison entre les 2 variables.
Le coecient de corrlation de Pearson est de r = 0.58452.
Dans la colonne D et E, nous calculons respectivement les rangs Ri et Si
Nous calculons alors le avec la formule 4.7 c.--d. en appliquant directement la formule de Pearson
sur les rangs. Nous obtenons = 0.61786
Dans la colonne F, nous formons le produit Ri Si , nous obtenons la somme i Ri Si = 1133. A
partir de la formule 4.8, nous produisons = 0.61786. La mme valeur que prcdemment.
Enn, en colonne G, nous calculons l'cart Di et nous formons la colonne Di2 . La somme i Di2 =
214. En appliquant la formule 4.9, la troisime estimation = 0.61786 est totalement cohrente
Concernant le test de signicativit, nous nous appuyons sur le t de Student lorsque n est de l'ordre
de 20 30
t=
12
n2
U= = n1
1
n1
ordre d'ide. Les ouvrages divergent ce sujet, Dodge et Rousson rapportent que l'approximation normale
sut ds que n > 10 (voir [3], page 107) ; Siegel et Castellan, eux, rapportent qu'on peut s'appuyer sur
l'approximation normale lorsque n est autour de 20 - 25 (voir [11], page 243). Ce qui est sr, c'est
que lorsque les eectifs sont vraiment faibles (4 n 10), nous avons intrt utiliser des tables
spciques pour les tests de signicativit (voir la table 24 dans [1] ; la table Q dans [11] ; ou http:
//www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm).
Exemple numrique. Nous avons mis en oeuvre les deux approximations dans notre exemple ci-
dessus (Figure 4.4). Nous avons t = 2.83320 avec une p-value de 0.01410 pour le premier test ; U = 2.31181
avec p-value = 0.02079 pour le second. Les rsultats ne sont gures dirents au nal, ils aboutissent
privilgi ds que l'on eectue des traitement automatiss. Il vite bien des cueils qui faussent souvent
Test non paramtrique. Il est non paramtrique, il n'est donc pas ncessaire de faire des hypothses
sur les distributions sous-jacentes de X et Y. Mais lorsque le couple (X, Y ) est distribu selon une loi
normale bivarie, il est quasiment aussi puissant que le coecient de Pearson. Les deux indicateurs
proposent des valeurs similaires, il est ds lors possible d'interprter le carr du coecient de Spearman
Traitement des donnes ordinales. Toujours consquence du fait qu'il soit non paramtrique,
le de Spearman peut traiter les variables intrinsquement ordinales : un indice de satisfaction, une
apprciation ou une note attribue, etc. L'infrence statistique (tests, intervalles de conance) n'est pas
modie.
Liaison monotone non linaire. Trs intressant dans la pratique, le de Spearman peut caract-
riser d'une liaison non-linaire monotone, la dirence du coecient de Pearson qui ne retranscrit que
les relations linaires. Cela nous vite d'avoir eectuer le choix douloureux de la fonction de transforma-
tion lors de la tentative de linarisation de l'association. La transformation par les rangs est susamment
gnrique pour que l'on puisse rendre compte de l'existence d'une liaison monotone.
De manire gnrale, une forte disparit entre et r devrait nous alerter quant la non linarit de
la relation entre X et Y.
Fig. 4.5. Avantage du de Spearman sur une relation non linaire monotone
Reprenons l'exemple illustratif de la section 2.6 (Problmes et cas pathologiques). Rappelons nous,
malgr une liaison visuellement vidente, le coecient de Pearson nous annonait une corrlation r =
0.7804. Nous avons remplac les valeurs initiales par les rangs, puis nous avons calcul le coecient de
Spearman, la liaison parfaite est maintenant bien dtecte (Figure 4.5). Ceci s'explique en partie par le fait
que le passage aux rangs symtrise les distributions. En eet, dans notre exemple, la distribution
initiale de la variable en ordonne est trs asymtrique, faussant le coecient de Pearson.
Le de Spearman a quand mme des limites. Lorsque la liaison est non monotone, il n'est pas oprant.
Il faut se tourner vers une transformation de variable spcique inspire par le graphique nuage de points
Reprenons l'exemple prsent plus haut (section 2.6, gure 2.7). Nous avions not que le coecient
de Pearson pouvait tre fortement aect par l'existence d'un point extrme. Nous avons transform
les donnes en rangs, ce faisant nous avons liss les carts entre les valeurs. Nous calculons sur l'en-
semble des observations, nous obtenons = 0.39286, et nous notons surtout que le coecient n'est pas
portant des valeurs identiques. Il faut alors ajuster le coecient de Spearman lorsque nous voulons utiliser
l'quation 4.9 (voir [11], pages 239 241). La correction est d'autant plus sensible que le nombre de valeurs
Remarquons que si G = n, cela veut dire qu'il n'y pas d'ex aequo dans nos donnes.
Au dpart nous aectons les rangs aux observations selon la procdure habituelle. Dans un deuxime
temps, nous eectuons un nouveau passage sur les donnes, nous attribuons aux individus portant des
Prenons un petit exemple pour dtailler cela (Figure 4.7). Nous avons 12 observations tris selon
la valeur de X. Nous attribuons le rang normalement (Rangs bruts) en utilisant la fonction RANG(...)
d'EXCEL. Nous notons que plusieurs observations ont des valeurs identiques (A,B), (D,E,F) et (J,K)
10 .
Nous eectuons un second passage sur les donnes, nous calculons et attribuons la moyenne de leur rangs
10. La procdure est totalement gnrique bien sr, nous pouvons avoir 10 valeurs identiques
aux individus portant les mmes valeurs. Ici, A et B ont la mme valeur, ils portent respectivement les
1+2
rangs 1 et 2, nous leur aectons au nal le rang moyen
2 = 1.5. Pour D, E et F nous eectuons le
4+5+6
calcul
3 = 5. Et pour J et K, nous calculons 10+11
2 = 10.5.
Facteur de correction. Pour calculer le facteur de correction Tx , nous recensons les G valeurs
distinctes parmi les rangs moyens, pour chaque valeur nous comptons son nombre d'apparition tg . Nous
produisons alors la quantit Tx qui sera introduite dans la formule du coecient de Spearman (il en sera
G
Tx = (t3g tg ) (4.10)
g=1
Reprenons notre exemple ci-dessus (Figure 4.7). Nous avons n = 12 et G = 8. Pour chaque valeur
du rang moyen, nous associons le nombre d'occurrence tg . Nous appliquons la formule 4.10 pour obtenir
Tx = 36 (Figure 4.8).
Coecient de Spearman corrig. Enn, il nous faut introduire le facteur de correction dans le
calcul du de Spearman (Equation 4.9) (voir [11], page 239, quation 9.7)
n
(n3 n) 6 i=1 d2i (Tx + Ty )/2
= (4.11)
(n3 n)2 (Tx + Ty )(n3 n) + Tx Ty
Remarquons que s'il n'y a pas d'ex-aequo en X et en Y, nous aurons Tx = Ty = 0, la formule 4.11
Compltons notre exemple avec les valeurs de Y. Pour rendre l'expos plus clair, il n'y a pas d'ex
aequo sur cette seconde variable, de facto Ty = 0 (Figure 4.8). Nous construisons les rangs Si , nous
calculons les carts Di = R i Si . Reste produire Di2 que nous introduisons dans l'quation 4.11 :
Remarque 11 (Traitement des ex-aequo pour le coecient de Pearson sur les rangs). Comme nous le
signalions plus haut, il est possible d'obtenir le de Spearman en calculant le r de Pearson sur les rangs.
Avec cette stratgie, lorsqu'il y a des ex aequo dans les donnes, nous utilisons toujours le principe des
ci-dessus (Figure 4.9), si nous appliquons la formule de la corrlation empirique (Equation 2.8) sur les
colonnes des rangs moyens R et S, nous obtenons directement la bonne valeur de = 0.5442.
4.5 de Kendall
Le de Kendall n'est pas proprement parler une variante du coecient de Pearson. On n'applique
pas la formule sur des donnes recodes. Il repose sur un principe trs dirent, il s'interprte galement
de manire dirente. Nous le prsentons dans ce support car il est trs largement dius, et certains
polmique. En revanche, nous ne pouvons pas passer ct de cette mesure, d'autant plus qu'elle est
11. http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient
12. Voir par exemple http://www.rsscse.org.uk/ts/bts/noether/text.html ; voir aussi [6], page 332
sement (ou rangs) aects par des juges. Son champ d'application couvre donc parfaitement celui du
de Spearman.
1. On dit que les paires observations i et j sont concordantes si et seulement si (xi > xj alors yi > y j )
ou (xi < xj alors yi < yj ). Nous pouvons simplier l'criture avec (xi xj ) (yi yj ) > 0
2. On dit que les paires sont discordantes lorsque (xi > xj alors yi < yj ) ou (xi < xj alors yi > yj ), en
Pour un chantillon de taille n, soit P (resp. Q) le nombre de paires concordantes (resp. discordantes).
Le de Kendall est dni de la manire suivante
P Q
= (4.12)
1
2 n(n 1)
Le dnominateur reprsente le nombre total de paires possibles c.--d.
( )
1 n
n(n 1) =
2 2
Remarque 12 (Donnes continues, donnes ordinales). Notons qu'il est possible de calculer directement
sur des donnes continues (X et Y ) sans qu'il soit ncessaire de les transformer en rangs. Le de Kendall
s'applique naturellement aussi lorsqu'une des variables est continue, l'autre ordinale.
(ou 2 notations). Si toutes les paires sont concordantes c.-d. le classement selon X concorde systmati-
quement avec le classement selon Y , = 1; si toutes les paires sont discordantes, = 1 ; enn, si les
Surtout, et c'est sa principale direnciation avec le de Spearman, le de Kendall se lit comme une
probabilit. Il est le fruit de la dirence entre 2 probabilits : celle d'avoir des paires concordantes et
celle d'avoir des paires discordantes. Ainsi, lorsque = 0, une paire d'observations a autant de chances
Le de Kendall thorique, calcul sur la population, est dni par (voir [9], 138)
Calcul pratique. La manire la plus simple de calculer est de trier les donnes selon X, puis de
13. http://en.wikipedia.org/wiki/Concordant_pairs
n1
n
S= ij
i=1 j=i+1
+1 , si y < y
i j
ij = (4.14)
1 , si yi > yj
et
n
i = ij
j=i+1
S est donc l'cart entre le nombre total de paires concordantes, et le nombre total de paires discordantes
c.--d. S = P Q. Nous pouvons ds lors r-crire le coecient de Kendall
S 2S
= = (4.15)
1
2 n(n 1) n(n 1)
Un exemple. Dtaillons les calculs sur exemple. Nous limitons les eectifs n = 6 car les calculs
deviennent rapidement inextricables. Nous mettons en relation la taille et le poids des 6 plus petits
individus du chier (Figure 4.4). Les donnes sont tries selon la taille, nous allons calculer les quantits
ij , i et S (Figure 4.10).
Nous trions les individus selon leur taille (X ). De fait, puisque nous ne grons pas les ex aequo
sont concordants (resp.discordants) pour leur attribuer la valeur 1j = +1 (resp. 1,j ) 1. C'est la
o
colonne qui vient juste aprs "poids (kg)" avec l'en-tte "n 1". On observe :
l'individu
o
n 2 est discordant, en eet y2 = 58.068 < y1 12 = 1
l'individu
o
n 3 est discordant, ici aussi y3 = 55.000 < y1 13 = 1
l'individu
o
n 4 est concordant, en eet y4 = 71.668 > y1 14 = +1
etc.
2 (1)
= = 0.0667
6 (6 1)
n(n 1)
U= = 3 (4.16)
2(2n+5) 2(2n + 5)
9n(n1)
U suit une loi normale centre et rduite sous H0 . La rgion critique du test pour un risque s'crit
|U | > u1 2
Un exemple. L'approximation est bien videmment mauvaise (n = 6) pour notre exemple ci-dessus
(Figure 4.10). Nous allons quand mme l'utiliser pour illustrer simplement la dmarche. Rappelons que
6(6 1)
U = 3 (0.0667) = 0.1879
2(2 6 + 5)
En comparant |U | avec le seuil critique du test u0.975 = 1.96, nous concluons que les donnes sont
sur les mmes hypothses et exploitent les mmes informations, il est logique qu'ils aient une puissance
similaire (la capacit dtecter juste titre l'hypothse H1 ). La dirence se joue surtout sur l'inter-
2
prtation des valeurs proposes par les statistiques : s'interprte comme une proportion de variance
Il y a cependant une relation entre les valeurs estimes, on montre que (voir [11], page 251) que
1 3 2 +1
14. http://www.unesco.org/webworld/idams/advguide/Chapt4_2.htm
Lorsque n est assez grand, et les coecients pas trop proches de 1 (en valeur absolue), on constate
3
2
Enn, lorsque le (X, Y ) suit une loi normale bivarie, nous avons la relation (voir [9], page 138)
2
= arcsin
Calcul de ij . Pour le calcul des cart entre paires concordantes et discordantes S, nous devons
Pour un chantillon de taille n, nous recensons les valeurs distinctes de X, elle est gale Gx . Si
Gx
Ex = tg (tg 1) (4.17)
g=1
Remarque 13 (Facteur de correction). Attention, le facteur de correction Ex est dirent de celui utilis
pour le de Spearman (Tx ). Ici aussi, nous remarquons que Ex = 0 si les donnes ne comportent pas
d'ex-aequo.
Coecient de Kendall corrig. Il faut maintenant introduire les facteurs de corrections pour les
donnes comportant des ex-aequo
2S
= (4.18)
n(n 1) Ex n(n 1) Ey
savoir si les notes attribues sont indpendantes, auquel cas il y aurait matire s'inquiter concernant
n=8 observations.
o
n 2 est ex-aequo, en eet y2 = y1 12 = 0
o
n 3 est discordant car y2 = 6.5 < y1 13 = 1
Etc.
o
n 4 est concordant car x4 = 12 > x2 et y4 = 11 > y2 24 = +1
Etc.
2 19
= = 0.76061
8(8 1) 8 8(8 1) 4
8(8 1)
U = 3 0.76061 = 2.63483
2(2 8 + 5
La p-value est 0.00842. Au risque 5%, on peut conclure l'existence d'un lien positif entre un cor-
recteur expriment et un correcteur novice. Mieux mme, puisque nous pouvons interprter le de
Kendall comme une probabilit, nous dirions que 76.06% correspond au surcrot de chances que les deux
adapt, particulirement lorsque la relation est non monotone. Dans cette section, nous prsentons un
relation tudie. En particulier, il permet de rendre compte de la liaison mme si elle est non monotone.
un rsum de Y lorsque X prend la valeur x. Dans la rgression linaire simple par exemple, nous faisons
l'hypothse que cette esprance est une fonction linaire de X c.--d. E[Y /X = x] = a X + b.
Dans le cas du rapport de corrlation, nous estimons directement cette quantit partir des observa-
tions. Cela suppose, et c'est la principale limite de cette mesure, que l'on dispose de plusieurs observations
Lorsqu'il est gal 0, cela veut dire que la connaissance de X ne donne aucune information sur Y.
La moyenne de Y est la mme quelle que soit la valeur de X.
A contrario, lorsqu'il est gal 1, la connaissance de X permet de dterminer avec certitude la
Liaison entre une variable qualitative et une variable quantitative. Le rapport de corr-
lation a une porte plus large que la simple alternative pour mesurer une liaison non linaire entre 2
variables quantitatives. Nous constatons dans la dnition ci-dessus (formule 4.19) qu' aucun moment
nous faisons rfrence au caractre ordonn de X . De fait, le rapport de corrlation peut tre utilis pour
caractriser l'association entre une variable qualitative X et une variable quantitative Y ([9], page 143).
15. en anglais, coecient of nonlinear relationship, ou eta coecient, ou encore eta correlation ratio
16. Voir http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/multivariable/quanti/rapport.htm
17. Voir http://nte-serveur.univ-lyon1.fr/nte/immediato/math2002/Mass11/cours/chapitr3d.htm
K
k=1 nk (yk y)
2
2
y/x = n (4.20)
i=1 (yi y)
2
Nous pouvons aussi crire le rapport de corrlation en faisant intervenir la variance de Y non explique
K nk
nk i=1
k=1 (yi yk )2
2
y/x =1 n (4.21)
(y
i=1 i y)2
La formule n'utilise jamais de manire explicite les valeurs xk . De mme, elle ne tient pas compte du
caractre ordonn de X c.--d. xk+1 > xk . On fait donc l'impasse sur une information qui est pourtant
importante. C'est le prix payer pour ne pas avoir faire d'hypothses sur la forme de la relation.
On voit bien la limite de l'indicateur dans cette nouvelle formulation. Si nous ne disposons que d'une
1. Dans les sciences exprimentales o les donnes sont le fruit d'une exprimentation raisonne, la
rptition des observations pour une valeur de X est tout fait naturelle. Par exemple, pour valuer
cobayes en groupes, dans un groupe on donne une dose identique. Nous disposons de plusieurs valeurs
2. Nous avons la possibilit de dcouper les valeurs de X en classes de manire obtenir un certain
nombre d'observations dans chaque groupe. Dans ce cas, le choix des bornes des intervalles est dter-
minant. Si elles sont mal dnies, des informations primordiales peuvent tre masques. A l'extrme,
si on ne prend qu'un seul intervalle qui va du minimum au maximum, on ne pourra rien en tirer.
sont censs mesurer le lien entre deux variables, la dirence que le premier fait l'hypothse de la
2 2
linarit de la relation. On peut noter alors quelques relations importantes entre rxy et y/x :
De manire gnrale,
2
y/x rxy
2
. On le comprend aisment, r introduit une contrainte supplmen-
taire, l'hypothse de linarit, pour mesurer la liaison. On peut d'ailleurs utiliser l'cart (y/x rxy )
2 2
= 0 r = 0,
2 2
absence totale de liaison implique absence de liaison linaire.
1 facteur
18 . En eet, le test d'hypothses 19
2
H0 : y/x =0
2
H1 : y/x >0
Est quivalent
20
H0 : 1 = = K
H1 : une au moins diere des autres
Sous l'hypothse nulle, et sous condition que les distributions conditionnelles soient gaussiennes et de
2
K1 nK 2
F = = (4.22)
1 2 K 1 1 2
nK
R.C. : F > F1 (K 1, n K)
libert.
4.6.3 Un exemple
Nous essayons de vrier, au risque de 10%, l'inuence de la consommation de cigarettes (en nombre
de paquets par jour) sur le risque d'apparition de la leucmie chez 43 gros fumeurs. L'analyse est bien
asymtrique, dans l'autre sens, a priori, elle n'aurait pas trop d'intrt 22 .
A partir de ces n = 43 observations, nous menons dans un premier temps une analyse de corrlation
classique en calculant le coecient de Pearson (Figure 4.12, colonnes A et B de la feuille de calcul). Nous
obtenons :
en paix.
S'arrter ce stade serait une grave erreur, un petit graphique mettant en relation les deux variables
claire la relation sous un autre jour. Calculons maintenant le rapport de corrlation (Figure 4.12, colonnes
D F de la feuille de calcul) :
Dans le graphique, on se rend compte que pour chaque valeur de X , les nuages de points correspon-
dant sont assez dcals. Impression conrme par les moyennes conditionnelles en rouge que nous
avons relies. S'il y avait eu absence de relation, les moyennes seraient au mme niveau, nous aurions
obtenu un droite horizontale. Il semble que ce ne soit pas le cas ici, vrions cela numriquement.
Pour calculer le rapport de corrlation, nous devons tout d'abord former les moyennes condition-
nelles, nous avons ralis cela l'aide de l'outil "tableaux croiss dynamiques" d'EXCEL, nous
avons la fois les eectifs et les moyennes par valeur de X. Par exemple, pour X = 1, nous avons
n1 = 6 et y1 = 6.45
L'eectif global est bien n = 43 et la moyenne y = 6.87.
Nous calculons le numrateur de la formule 4.20, nous obtenons B = 2.63695
De la mme manire, nous formons le dnominateur, nous obtenons T = 13.70647
B
Le rapport de corrlation estim est gal 2 = T = 0.19239. A comparer avec r2 = 0.00035 obtenu
prcdemment. Si liaison il y a, elle n'est absolument pas linaire en tous les cas.
Voyons justement ce qu'il en est de la signicativit. Nous formons la statistique F (quation 4.22),
est assez complexe. On a des srieux problmes quand on en consomme 2 paquets par jour, au del,
ah bon ? ! ). Mais il ne faut pas se faire d'illusions, mon avis,
on dirait que la situation s'amliore (
c'est parce qu'on va mourir d'autre chose avant de contracter une leucmie.
laissant penser tort l'existence (ou l'absence) d'une liaison. On parle de facteur confondant (voir
section 2.6, Problmes et cas pathologiques ). La littrature statistique regorge d'exemples plus ou moins
loufoques de corrlations numriquement leves, mais qui ne rsistent pas une seconde l'interprtation :
Corrlation entre les ventes de lunettes noires et les ventes de glaces (c'est pour ne pas voir les
Corrlation entre le nombre d'admissions l'hpital et les ventes de glaces (a y est, les calories ont
encore frapp...). Encore une fois, la canicule y est pour quelque chose peut tre.
Corrlation entre la longueur des cheveux et la taille des personnes (et oui, on compense comme on
peut...). On a mlang les hommes et les femmes dans les donnes. En moyenne, les hommes sont
plus grands que les femmes avec, a contrario, des cheveux plus courts (Figure 2.6).
Corrlation entre le prix des voitures et leur consommation (tant qu' payer, autant le faire ad
vitam ...). Les voitures luxueuses, chres, sont aussi souvent de lourdes grosses cylindres. Toute la
Corrlation entre la hausse des prix et le budget alimentation des mnages (les soucis donnent faim,
c'est bien connu...). Il faudrait plutt exprimer la consommation alimentaire en volume, autrement
Etc.
L'ide de la corrlation partielle est de mesurer la corrlation entre X et Y en annulant (en contrlant)
l'eet d'une troisime variable Z . Lorsque cette dernire est qualitative, la stratgie est simple, il s'agit de
calculer r dans chaque groupe du point de vue numrique, et de distinguer explicitement les groupes dans
le graphique nuage de points (Figure 2.6 par exemple pour la corrlation taille et longueur de cheveux).
L'aaire se complique lorsque la variable de contrle Z est elle aussi numrique 1 . Il faudrait alors
retrancher de X et Y la variance explique par Z, puis calculer la corrlation en utilisant l'information
Le rle de Z est complexe. Parfois elle exacerbe la corrlation entre X et Y, parfois elle la masque.
On parle de corrlation brute lorsque l'on souhaite mesurer la relation directe rxy . On parle de corrla-
tion partielle lorsque l'on souhaite faire intervenir une ou plusieurs variables de contrle : plus prcisment,
1. Dans les sciences exprimentales o nous contrlons la production des donnes, nous pourrions, pour chaque
valeur de Z , rpter l'exprimentation de manire recueillir plusieurs observations (xi , yi ). On retrouve ainsi le
schma de la variable de contrle discrte. Mais dans les sciences sociales, souvent le triplet (xi , yi, zi ) est unique
dans le chier, la seule solution est de passer par la corrlation partielle.
Corrlation (mme partielle) n'est toujours pas causalit. Prcisons encore et tou-
jours qu'il s'agit toujours l de procdures numriques destines mesurer l'existence et
l'intensit d'une liaison. La corrlation partielle ne droge pas cette rgle. La mise en
vidence d'une ventuelle causalit ne peut et ne doit reposer que sur les connaissances du
domaine. En revanche, et c'est pour cela qu'elle peut tre trs bnque dans une analyse,
la corrlation partielle peut permettre de clarier la relation qui existe (ou qui n'existe pas)
entre 2 variables.
Remarque 14 (Quelques lments sur les notations). Dans cette partie du support, nous noterons en
priorit r le coecient partiel, sauf s'il y a ambigut, auquel cas nous indiquerons les indices adquats.
Concernant la transformation de Fisher, pour viter la confusion avec la (ou les) variable(s) de contrle,
nous la noterons f.
que la distribution de (X, Y ) conditionnellement Z suit une loi normale bivarie (voir [9], page 133).
Fort heureusement, les proprits asymptotiques sont conserves. Il n'en reste pas moins que le coecient
L'ide est assez limpide, on retranche de la relation directe (X, Y ) les relations respectives de X et Y
avec Z. Puis un terme de normalisation (symtrique, X vs. Z et Y vs. Z) est introduit de manire ce
que 1 rxy.z +1
Remarquons plusieurs rsultats intressants. Pour xer les ides, sans que cela ne rduise la porte
Lorsque Z est indpendant de X et Y (rxz = ryz = 0), rxy.z = rxy c.--d. Z ne pse en aucune
il n'y a rien dans la relation (X, Y ) qui ne soit pas dj explique par Z
Lorsque les liaisons entre Z d'une part, X et Y d'autre part, sont de signe opposs (ex. rxz > 0 et
ryz < 0), le produit rxz .ryz < 0, on constate que rxy.z > rxy
L'estimation de la corrlation partielle passe simplement par l'introduction des estimations des
a tendance tre puissante, mais elle a tendance aussi consommer plus que de raison : au nal, que
reste-t-il de la liaison (Y, X ) une fois que l'on a retranch l'explication (en termes de variance) fournie
par Z?
Nous calculons les corrlations brutes rxy = 0.88781, rxz = 0.94755 et ryz = 0.89187. D'ores et
dj, nous constatons que la variable de contrle est fortement lie avec X et Y.
Appliquons la formule 5.2 sur ces corrlations, nous obtenons
La corrlation partielle est singulirement rduite si l'on se rfre la corrlation brute. Appa-
remment, "cylindre" joue beaucoup dans la liaison entre "puissance" et "consommation". Nous
essaierons de voir dans la section suivante si, nanmoins, la relation rsiduelle reste signicative.
avec les proprits asymptotiques, le test permet quand mme d'prouver la nullit du coecient.
H0 : rxy.z = 0
r
t= (5.3)
1r 2
n3
Intervalle de conance. La distribution du test est uniquement valide dans le voisinage rxy.z = 0.
Pour laborer l'intervalle de conance au niveau (1 ), nous devons passer, comme pour la corrlation
1 1 + rxy.z
f= ln
2 1 rxy.z
1 1
f2 = = (5.4)
n13 n4
Dans notre exemple (Figure 5.2), nous souhaitons construire l'intervalle de conance 95% :
1 1+0.29553
Nous calculons la transformation de Fisher f= ln = 0.30461
2 10.29553
1
L'cart type associ est gale f = 283 = 0.20412
Le quantile d'ordre 975% est u0.975 = 1.95996
La borne basse (resp. haute) pour f est bbf = 0.30461 1.95996 0.20412 = 0.09546 (resp.
signicativit de r.
troduire plusieurs variables de contrle. Dans notre exemple des voitures (Figure 2.2), nous savons per-
tinemment que le "poids" est un aspect important que la consommation. Nous souhaitons galement
Calcul rcursif
On montre qu'il est possible de calculer les corrlations partielles d'ordre p+1 partir des corrlations
partielles d'ordre p. On utilise pour cela la formule de passage suivante, qui n'est pas sans rappeler
Pour la corrlation partielle d'ordre 2 que nous mettrons en oeuvre sur un exemple ci-dessous, la
Si l'criture est simple, le calcul est assez complexe. En eet, pour obtenir la corrlation partielle
d'ordre p, nous devons dans un premier temps calculer les corrlations brutes de toutes les variables 2
(p+1)
2 partir des donnes c.--d.
2 corrlations. Puis mettre jour de proche en proche cette matrice de
corrlation en introduisant la premire variable de contrle z1 , puis la seconde z2 , etc. jusqu' ce qu'on
Tout d'abord nous calculons les corrlations brutes croises : rxy = 0.8878, rxz1 = 0.8819, rxz2 =
0.9263, etc. C'est l'objectif de la matrice "Corrlations brutes croises" dans la partie basse de la
feuille EXCEL.
Ensuite, nous devons calculer toutes les corrlations croises d'ordre 1 o Z1 (cylindre) joue le rle
de variable de contrle. Nous obtenons rxy.z1 = 0.2955, rxz2 .z1 = 0.6878 et ryz2 .z1 = 0.1663 (cf. la
Enn, dernire tape, partir de la matrice prcdente nous appliquons l'quation 5.6 pour intro-
Tant que le nombre de variables reste faible, ce processus est intressant, surtout pdagogiquement.
Lorsqu'il devient lev, nous utilisons une autre approche, plus ecace, plus directe, pour obtenir la
corrlation partielle consiste mesurer le lien entre l'information rsiduelle de X et Y qui ne soit pas dj
explique par les variables de contrle. En prenant au pied de la lettre cette description, on s'attache
partielle d'ordre p revient tout simplement calculer la corrlation brute entre les rsidus
Tout d'abord, nous devons produire les quations de rgression, nous obtenons X = 0.00443Z2 +
0.00130Z1 + 1.14755. Nous en dduisons la nouvelle colonne de rsidus ex = X X (colonne G dans
la feuille de calcul)
Il ne nous reste plus qu' calculer la corrlation entre les rsidus pour obtenir la corrlation partielle
Avec les logiciels d'conomtrie usuels, nulle doute que cette seconde approche est quand mme trs
Fig. 5.4. Corrlation partielle d'ordre 2 - Approche rsidus de rgressions - Fichier "voitures"
transformation de Fisher, il nous faut gnraliser p variables de contrle les indicateurs dvelopps dans
la section prcdente. La principale modication va porter sur l'valuation des degrs de libert .
3
r
t= (5.8)
1r 2
np2
1
f2 = (5.9)
np3
3. Voir http://www.stat.psu.edu/online/development/stat505/07_partcor/06_partcor_partial.html
5.3.3 Exemple
Finissons notre exemple de corrlation partielle d'ordre 2 sur le chier voitures (Figure 5.3). Nous
sont compatibles avec l'absence de lien entre "puissance" et "consommation", une fois retranche
C'est ce qui avait motiv la prsentation du coecient de Spearman ci-dessus, qui est un coecient de
Pearson calcul sur les rangs. Son avantage est d'tre non paramtrique, il permet aussi de mieux rendre
compte de la liaison tant qu'elle est monotone. Est-ce que cette approche reste d'actualit concernant la
corrlation partielle ?
La rponse est oui. Nous pouvons nous appuyer sur les 2 dispositifs dcrits pour le coecient de
corrlation de Pearson.
1. Transformer toutes les variables en rangs. Adopter les rangs moyens en cas d'ex-aequo.
2. Calculer le rsidu x (resp. y ) de la rgression des rangs de X (resp. rangs de Y) avec les rangs des
variables de contrle.
3. Le partiel est tout simplement le coecient de corrlation de Pearson appliqu sur ces 2 rsidus
c.--d.
xy.z1 ...zp = rx y
4. Le dispositif infrentiel reste inchang, on doit tenir compte de p dans le calcul des degrs de libert.
(quations 5.1, 5.6 et 5.5) pour calculer les de Spearman partiels de proche en proche. Cette technique
est plus simple tant que p est faible (de l'ordre de 1 ou 2 maximum).
existe une part non explique par la consommation de cigarettes dans la relation entre l'occurrence du
cancer du poumon et celui du cancer de la vessie. Les individus sont des tats des USA, CIG (Z ) est
le nombre de cigarettes par tte fumes, BLAD (X ) est le nombre de personnes mortes du cancer de
la vessie par 100.000 habitants, et LUNG est le nombre de personnes mortes du cancer de la vessie par
5
100.000 habitants . La corrlation brute entre BLAD et LUNG est de rxy = 0.6251, assez forte. Essayons
de relativiser cela en contrlant le rle de la cigarette.
Les variables sont transformes en rangs, nous crons les variables R, S et T partir de X, Y et
Avec la loi de Student (n 1 2 = 39) degrs de libert, nous obtenons une p-value de 0.0395
Au risque 5%, on rejette l'hypothse nulle. Il semble qu'il y ait autre chose non explique par la
cigarette dans la liaison entre les 2 types de cancer (ceci tant 1% la liaison n'est pas signicative,
la liaison partielle est assez tenue).
A titre de comparaison, voici les commandes et sorties SAS (Figure 5.6). Les rsultats concordent.
C'est prfrable tant donn qu'on a suivi la lettre le descriptif de la documentation en ligne.
Remarque 15 (Corrlation partielle base sur le de Kendall). Il est possible de calculer le partiel de
Kendall partir des bruts en utilisant la formule de passage analogue celle du coecient de Pearson
(quation 5.1) (voir [11], page 254 262 ; ou son rsum en franais sur le site http://www.cons-dev.
org/elearning/stat/stat7/st7.html). On peut trs bien la mettre en oeuvre lorsque les donnes sont
intrinsquement des classements (des rangs aects). Malheureusement, les avis divergent quant au calcul
de la distribution de la statistique, le test de signicativit est dicile, ce qui est un frein considrable
son utilisation.
elle se rapproche de la rgression multiple. On essaie de quantier le pouvoir explicatif additionnel d'une
variable.
Positionnons nous dans un premier temps dans le cadre 3 variables Y , X, et Z : Y est la variable
dpendante que l'on cherche expliquer, X est la variable explicative que l'on cherche valuer, Z est
2
la variable de contrle. Le carr de la corrlation semi-partielle, note ry(x.z) , quantie la proportion de
variance de Y explique par X, sachant que l'on a retranch de cette dernire l'information apporte par
Z. En d'autres termes, quelle est la part de Y qu'explique l'information additionnelle de X par rapport
Z.
Notons bien la dirence avec la corrlation partielle. Avec ce dernier, nous retranchons l'information
apporte par Z sur la fois Y et X , et nous mesurons la liaison sur les rsidus. Dans le cas de la corrlation
semi-partielle, nous cherchons quantier la liaison de Y avec la partie rsiduelle de X par rapport Z.
On discerne bien le caractre asymtrique de l'approche.
Dans notre exemple des vhicules (Figure 2.2), nous posons la question suivante : si on enlve de la
puissance (X ) l'information porte par la cylindre (Z ), est-ce qu'il reste quelque chose pour expliquer
Notons d'ores et dj que ry(x.z) = ryx si X et Z sont orthogonaux rxz = 0. Tout l'information de X
peut tre utilise pour expliquer Y. Si X et Z sont parfaitement corrls c.--d. rxz = 1, l'quation 6.1
est indnie, mais on comprend aisment qu'il ne reste plus rien dans le rsidu de X pour expliquer Y.
En faisant le parallle avec la formule de la corrlation partielle (quation 5.1), on constate de manire
gnrale que
ryx.z ry(x.z)
remplacer les corrlation thoriques de la formule 6.1 par les corrlations empiriques.
unilatral ou bilatral), nous utilisons le t de Student qui est a la mme expression que celle de la
corrlation partielle, avec la mme distribution et les mmes degrs de libert (n 3), savoir
r
t= (6.2)
1r 2
n3
Nous avons n = 28
La corrlation brute entre Y et X est ryx = 0.88781, la liaison semble forte.
0.13367
t= = 0.67439
10.133672
283
Au risque 5%, le seuil critique est t0.975 (25) = 2.38461. Nous acceptons l'hypothse de nullit du
coecient. Manifestement, une fois retranche de "puissance" l'information porte par "cylindre",
de calculer la liaison entre Y et X, une fois retranche de cette dernire l'inuence de Z1 . . . Zp variables.
Pour raliser le calcul pratique du coecient, nous utilisons la rgression, a nous permet de comprendre
Concernant l'infrence statistique, le test de signicativit est trs similaire la corrlation partielle,
notamment en ce qui concerne le calcul des degrs de libert. Pour tester la signicativit, nous utiliserons
la statistique t qui, sous l'hypothse de nullit du coecient, suit une loi de Student (n p 2) degrs
de libert
r
t= (6.3)
1r 2
np2
X = a0 + a1 Z1 + . . . ap Zp +
que porte X) qui n'est pas dj explique par les variables de contrle.
ei = xi xi
La corrlation semi partielle estime est obtenue l'aide de la corrlation empirique entre Y et le
rsidu e
ry(x.z1 zp ) = rye (6.4)
sions expliquant Y. En eet, on cherche quantier le pouvoir explicatif additionnel de X par rapport
aux variables de contrle. Le carr du coecient s'interprte lui-mme comme une proportion de variance
explique supplmentaire. A partir de ce point de vue, on peut proposer une autre manire d'estimer le
On eectue une premire rgression de Y sur les variables de contrle Z1 , . . . , Zp , nous obtenons
2
le coecient de dtermination Ry.z z , il correspond la proportion de variance explique par la
1 p
rgression.
On raliser une seconde rgression intgrant la variable supplmentaire X parmi les explicatives,
2
un nouveau coecient de dtermination Ru.xz1 zp
est dgag.
2
ry(x.z1 zp
2
) = Ry.xz 1 zp
Ry.z
2
1 zp
(6.5)
notre exemple de la section consacre la corrlation semi-partielle d'ordre 1 (section 6.2). L'intrt est
de pouvoir comparer les coecients obtenus selon les dirents approches. Les calculs sont regroups
exactement la mme valeur qu'avec la mthode directe dcrite dans la section 6.2.
Nous ralisons la rgression de X sur la variable de contrle Z. Nous utilisons les coecients pour
calculer la colonne des rsidus qui correspond la fraction de X non explique par Z
ei = xi (0.04901 zi 10.94646)
corrlation semi-partielle ry(x.z) = rye = 0.13367. De nouveau la valeur obtenue est cohrente avec
Ce document volue au l du temps. Voici les principales versions et leur date de mise en ligne. Des
corrections trs mineures sont parfois eectues. Il faut se rfrer la date de compilation situe au bas
Version 1.0 en Mai 2008. Premire version du document. De nombreuses sources ont t utilises.
Les tests de comparaisons des corrlations et les variations autour des corrlations se sont beaucoup
Version 1.1 en Mars 2015. Le document s'est enrichi de la lecture de l'ouvrage de Revelle ([7],
notamment le chapitre 4 "Correlation and Covariance"). Les sections consacres aux tests portant
sur les matrices de corrlations ont t introduites : test de nullit des corrlations croises et test
de comparaison de 2 matrices des corrlations. Les calculs sur les exemples ont t confronts avec
les sorties des procdures - lorsqu'elles existent - disponibles dans le package 'psych' ([8]) pour R,
un des trs rares outils proposer les dirents tests de comparaison des corrlations.
Tout au long de ce support, nous illustrons notre propos l'aide d'exemples numriques. Les donnes
et les calculs associs sont disponibles dans un classeur EXCEL accessible en ligne. L'URL du chier est
http://eric.univ-lyon2.fr/~ricco/cours/cours/dataset_analyse_correlation.xls.
A chaque feuille du classeur correspond un thme du support. Pour faire la correspondance, le plus
Les techniques prsentes dans ce support sont implments dans le logiciel gratuit et open source
Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/.
Leur mise en oeuvre et la lecture des rsultats sont dcrites dans plusieurs didacticiels, en voici
quelques uns :
1. Corrlation semi-partielle
http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-semi-partielle.html
2. Corrlation partielle
http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-partielle.html
3. Corrlations croises
http://tutoriels-data-mining.blogspot.com/2008/04/coefficient-de-corrlation-linaire.
html
4. De manire gnrale, on pourra accder aux didacticiels qui abordent le coecient de corrlation
linaire et ses variantes en eectuant une recherche par mots cls sur le site de tutoriels
http://tutoriels-data-mining.blogspot.com/
Le package psych prsente plusieurs procdures ddies l'analyse de corrlation. Dans cette section,
nous en numrons quelques unes en les associant aux thmes abords dans cet ouvrage. Le premier
avantage pour nous est d'identier la commande adquate pour chaque traitement. Pour ma part, j'y ai
vu aussi l'opportunit de valider les calculs eectus sur tableurs publis dans la prcdente version de
ce document (ouf ! touts les rsultats concordent). Enn, les procdures relatives aux tests sur matrices
des corrlations m'ont permis de dvelopper deux nouvelles sections dans la version 1.1.
> #######################
> #chargement des donnes
> #######################
> autos <- read.table(file="autos conso.txt", sep="\t",dec=".",header=T,row.names=1)
> print(summary(autos))
Cylindree Puissance Poids Conso
Min. : 658 Min. : 29.00 Min. : 650.0 Min. : 5.700
1st Qu.:1375 1st Qu.: 54.75 1st Qu.: 996.2 1st Qu.: 7.025
Median :1984 Median : 79.50 Median :1140.0 Median : 9.100
Mean :1809 Mean : 77.71 Mean :1197.0 Mean : 9.075
3rd Qu.:2232 3rd Qu.: 98.00 3rd Qu.:1425.0 3rd Qu.:10.925
Max. :2972 Max. :150.00 Max. :1800.0 Max. :12.800
> #########################################
> #corrlation entre cylindre et puissance
> #########################################
> cor(autos$Cylindree,autos$Puissance)
[1] 0.9475491
> #########################################################
> #test de significativit et intervalle de confiance 95%
> #########################################################
> cor.test(autos$Cylindree,autos$Puissance,conf.level=0.95)
> ##############################
> #chargement du package 'psych'
> ##############################
> library(psych)
> ####################################################
> #comparaison (conso,puissance) vs. (conso,cylindre)
> #mme chantillon
> ####################################################
> r.yx <- cor(autos$Conso,autos$Cylindree)
> r.yz <- cor(autos$Conso,autos$Puissance)
> r.xz <- cor(autos$Cylindree,autos$Puissance)
> paired.r(r.yx,r.yz,r.xz,n=nrow(autos))
Call: paired.r(xy = r.yx, xz = r.yz, yz = r.xz, n = nrow(autos))
[1] "test of difference between two correlated correlations"
t = 0.14 With probability = 0.89>
> #####################################################
> #Bartlett - Test de nullit des corrlations croises
> #####################################################
> print(cortest.bartlett(autos))
R was not square, finding R from data
$chisq
[1] 147.9813
$p.value
[1] 2.066975e-29
$df
[1] 6
> ####################################################
> #Steiger - Test de nullit des corrlations croises
> ####################################################
> print(cortest.normal(autos))
R1 was not square, finding R from data
Tests of correlation matrices
Call:cortest.normal(R1 = autos)
Chi Square value 329.42 with df = 6 with probability < 4e-68
> ######################################################
> #index pour scinder en deux blocs distincts les donnes
> ######################################################
> asia <- c(1,2,6,7,16,19,21,22,25,27)
> ###################################################
> #Steiger - Comparaison de 2 matrices de corrlation
> ####################################################
> print(cortest.normal(R1=cor(autos[asia,]),R2=cor(autos[-asia,]),n1=10,n2=18,fisher=T))
Tests of correlation matrices
Call:cortest.normal(R1 = cor(autos[asia, ]), R2 = cor(autos[-asia,
]), n1 = 10, n2 = 18, fisher = T)
Chi Square value 1.52 with df = 6 with probability < 0.96
> ####################################################
> #Jennrich - Comparaison de 2 matrices de corrlation
> ####################################################
> print(cortest.jennrich(cor(autos[asia,]),cor(autos[-asia,]),n1=10,n2=18))
$chi2
[1] 4.520237
$prob
[1] 0.6066412
Ouvrages