Vous êtes sur la page 1sur 6

R esum e du cours 2.

02 - Comparaison de distributions et corr elation


Comparer deux variables
Nous avons trait e un certain nombre dindicateurs statistiques, qui sappliquaient tous aux r ealisations dune variable al eatoire unique. Il est cependant courant de chercher ` a comparer deux s eries de r ealisations. Il y a deux motivations principales ` a cette d emarche : - mettre en evidence une relation entre deux variables exp erimentales ; - identier la famille de distributions ` a lorigine de nos donn ees. Dans le premier cas, on compare deux variables empiriques entre elles : par exemple lorsquon souhaite savoir si celles-ci sont issues de la m eme distribution, ou si les ph enom` enes biologiques quelles repr esentent sont li es. Dans le deuxi` eme cas, on compare une distribution empirique ` a une famille de distributions th eoriques : cest le cas lorsquon souhaite montrer que nos donn ees sont normalement distribu ees, par exemple. Dans les deux cas, le calcul dindicateur ou lexploration graphique ne peut etre quun premier pas : ils ne nous permettent souvent que de formuler un simple soup con, quil faudra par la suite conrmer ` a laide dun test ou quantier ` a laide dune mod elisation.

M ethodes graphiques
Comparaison de densit e Une premi` ere m ethode est dutiliser les densit es estim ees. Mettons que lon veuille comparer notre distribution empirique ` a celle g en er ee par une variable dont on conna t la distribution : il sut de tracer les deux densit es estim ees correspondantes. Si les deux densit es ont un trac e tr` es proche, notre variable suit peut- etre la loi en question, et il faut conrmer ce r esultat par un test.

Figure 1 Comparaison de la densit e pr ec edente avec la densit e de la loi normale de m eme moyenne et ecart-type. Nos donn ees ne sont clairement pas normalement distribu ees.

Q-Q plot Une mani` ere plus el egante de faire est dordonner les vecteurs de donn ees et de repr esenter leurs histogrammes lun contre lautre. La gure qui en r esulte est appel ee un diagramme quantile-quantile, ou Q-Q plot de son nom anglais. Elle sobtient ` a laide de la commande qqplot de R. Si deux s eries de donn ees sont issues de deux distributions strictement identiques, on sattend ` a obtenir des points plus ou moins dispos es autour de la droite d equation y = x 1 . Cela signie que pour chaque intervalle de , on sattend ` a trouver un nombre similaire dobservations pour les deux variables, autrement dit les histogrammes des deux distributions sont identiques. Remarque 1. Tout comme pour le trac e simultan e de deux estimations de densit e, rien nindique que les deux distributions dun Q-Q plot doivent etre empiriques. Il est donc tout ` a fait possible dutiliser cette repr esentation dans un but inf erentiel, pour comparer comme nous lavons fait une distribution issue des donn ees et une distribution issue de la simulation dune variable th eorique. Si lon obtient un trac e droit pour le Q-Q plot, nos donn ees suivent vraisemblablement une loi de la m eme famille que celle que nous avons simul ee. Remarque 2. On a vu que les membres dune m eme famille de distributions partageaient la m eme expression fonctionnelle f de leur densit e, mais se distinguaient par un jeu de param` etres . Imaginons que nous comparons des donn ees issues de deux distributions dune m eme famille, de densit es respectives f1 (x) et f2 (x). A priori, il existe un nombre r eel k tel que 2 = k.1 . Cela ne veut pas pour autant dire que les fonctions quantiles Q2 (x) = k.Q1 (x) 2 . Cela signie que dans un Q-Q plot, la variable issue de f2 (x) (m eme famille que f1 (x), mais de param` etres di erents) pourra appara tre tout aussi di erente de f1 (x) quune variable issue dune autre famille. Un Q-Q plot ne permet donc pas en g en eral 3 de v erier lappartenance ` a une famille, mais seulement de v erier que deux distributions sont identiques 4 .

M ethodes num eriques : la corr elation


La corr elation est une mesure de la d ependance existant entre deux s eries de r ealisations. Il sagit dun indicateur statistique calcul e sur deux variables. Pour bien comprendre le probl` eme de la corr elation, il est n ecessaire de pr eciser
1. Cette droite tr` es particuli` ere est appel ee la premi` ere diagonale du plan en math ematiques. 2. il faut pour cela que Q poss` ede la propri et e de lin earit e, ce qui nest presque jamais le cas. En eet, Q = F 1 , cest a ` dire que cest la fonction inverse de la c.d.f. qui donne les quantiles. Ces fonctions sont g en eralement complexes et tr` es fortement non-lin eaires. 3. ` a lexception notable de la loi normale, pour laquelle 1 = Q est lin eaire. Cette fonction a une importance capitale en statistiques, il sagit de la fonction probit. 4. Il est n eanmoins possible de contourner ce probl` eme sil existe une transformation T2 qui ram` ene toute fonction f ` a une fonction f0 connue. Par exemple, si une variable X suit une loi normale, il sut de poser xi = (xi )/ pour que X suive une loi normale centr ee r eduite N (0, 1). Il deviendrait donc possible de tester lappartenance de nimporte quel jeu de donn ees ` a la loi normale en r ealisant un Q-Q plot de X contre N (0, 1), m eme si 1 n etait pas lin eaire.

Figure 2 Diagramme quantile-quantile des donn ees pr ec edentes avec des quantiles issus de la loi normale. On retrouve le r esultat pr ec edent : nos donn ees d evient fortement de la normalit e. On a cependant une information suppl ementaire : la courbe semble constitu ee de plusieurs segments de droite de pente di erente, ce qui permet de soup conner une mixture de plusieurs lois normales de param` etres di erents. ce quon entend par d ependance. Deux variables al eatoires sont d ependantes si la r ealisation de lune inue sur la r ealisation de lautre : autrement dit, la distribution associ ee ` a la deuxi` eme valeur sera di erente pour chaque valeur r ealis ee de la premi` ere. Malheureusement, cette d enition ne nous dit rien sur la fa con dont nos deux s eries sont li ees. Par exemple, la consommation electrique dun foyer est clairement d ependante de lheure : une famille consomme plus d electricit e le matin et le soir que pendant la journ ee ou la nuit ; la relation est cyclique et suit une courbe sinuso dale. Par contre, si la force exerc ee par une pince est bien d ependante de la force exerc ee par lop erateur sur le manche, la relation est tr` es di erente : la physique nous dit quelle est lin eaire. Toute la dicult e dune etude statistique de corr elation consiste donc ` a d eterminer le type de corr elation que lon souhaite mettre en evidence, et partant, ` a choisir lindicateur appropri e. Covariance La covariance est une mesure de la similarit e d evolution entre deux variables. Elle est d enie par : XY = cov (X, Y ) = E[(X E[X ])(Y E[Y ])] Cette formule rappelle beaucoup celle de la variance, il est dailleurs tr` es simple de montrer que (XX ) = V ar(X ). De m eme que la variance, la covariance poss` ede un estimateur biais e et un estimateur non-biais e sxy . Remarque 3. si [X ] est lunit e de X et [Y ] est lunit e de Y , alors [cov (X, Y )] = [Y ].[X ]. Cette unit e nest pas du tout evidente ` a utiliser, en particulier il est impossible de comparer deux covariances arbitraires entre elles. La covariance est donc tr` es peu utilis ee, ` a limage de la variance. Il est donc pr ef erable de ne pas la calculer et de la consid erer comme un r esultat interm ediaire.

Figure 3 Di erents types de d ependances. Tous les couples de variables repr esent es sont d ependants ` a des degr es divers, mais lexpression de leur d ependance varie fortement. Les nombres au-dessus des graphiques indiquent pour chaque couple la corr elation de Pearson (voir ci-apr` es). D ependance lin eaire : le coecient de corr elation lin eaire de Pearson Pour rem edier au probl` eme dunit e de la covariance, on d enit la corr elation de Pearson (de son nom ociel Pearson product-moment correlation coecient ) : rxy = sxy sx sy

Cest simplement le quotient de la covariance non-biais ee par les variances nonbiais ees des deux variables. Comme son nom lindique, la corr elation de Pearson quantie la lin earit e de deux variables : elle nest valable que si lon soup conne (ou souhaite mettre en evidence) une relation du type Y = a.X + b entre X et Y . Si lon trace le nuage de points (X, Y ), la valeur absolue de rxy sera li ee ` a l etalement des valeurs de X et Y autour de la droite qui approxime le mieux le nuage, le signe de rxy sera celui du coecient directeur a dans la mod elisation Y = a.X + b. Le signe et la valeur du coecient de Pearson constituent donc deux informations bien distinctes. Remarque 4. La corr elation de Pearson est sans unit e, elle est toujours comprise entre 1 et 1. Une corr elation de 1 indique une corr elation n egative parfaite : plus la valeur de X est grande, plus celle de Y est petite. Sym etriquement pour rxy = 1, on a une corr elation positive parfaite. Une corr elation de 0 signie quil nexiste pas de relation lin eaire entre les deux variables, mais cela ne signie pas que celles-ci sont ind ependantes pour autant. Cependant, si deux variables sont ind ependantes, leur corr elation de Pearson sera bien nulle. Remarque 5. Il est possible (dans certaines limites) de tester des d ependances non-lin eaires avec le coecient de corr elation de Pearson, et ce ` a travers un changement de variable. Par exemple si lon soup conne une relation logarithmique entre X et Y telle que Y = ln(aX ) + b, on pourra v erier la corr elation de eY avec X . En eet, la relation pr ec edente est equivalente ` a eY = (aeb ).X , qui est une relation lin eaire entre eY et X .

Remarque 6. Lorsque nous parlons de la droite qui approxime au mieux le nuage de points (X, Y ), nous r ealisons en r ealit e une r egression lin eaire, qui sera d etaill ee au cours du chapitre sur les mod` eles. En particulier, on verra que le carr e de rxy , est egal ` a une grandeur tr` es utilis ee dans tous les types de r egression, ` a savoir R2 , commun ement appel e fraction expliqu ee de la variance. Remarque 7. Comme pour toute variable al eatoire, on peut calculer des intervalles de conance pour les r de Pearson ; et plus g en eralement, la distribution de r est connue pour un echantillonnage donn e. Cela permet en particulier de r ealiser des tests de signicativit e, ou de d eterminer ` a partir de quelle valeur r est consid er e comme elev e` a un niveau de conance .

Figure 4 Quartet dAnscombe. Les quatre associations de variables repr esent ees ici poss` edent la m eme corr elation (0.816). Pourtant, on ne peut utiliser cette valeur sans risque que dans un cas : en haut ` a gauche. En haut ` a droite, les deux variables sont d ependantes ` a 100%, mais via une relation fonctionnelle non-lin eaire. Dans les deux cas du bas, une seule valeur parvient ` a donner lillusion dune corr elation plus forte (droite, corr elation nulle en r ealit e) ou plus faible (gauche, corr elation 1 en r ealit e) quelle ne lest r eellement.

D ependance non-lin eaire Il existe plusieurs indicateurs capables de mesurer une d ependance non-lin eaire entre deux variables. Leur inconv enient majeur, comme pour tout indicateur exotique, est d etre moins utilis es, donc moins document es. Les plus connus sont : la corr elation rho () de Spearman , qui est une corr elation de Pearson calcul ee non pas sur les valeurs des variables mais sur les rangs de ces variables 5

au sein de l echantillon. Son interpr etation est similaire ` a celle de rxy , sauf quon n evalue pas la lin earit e de la relation mais sa monotonie (Y sexprime comme une fonction tr` es r eguli` ere de X ). Cet indicateur est tr` es robuste aux valeurs extr emes mais se comporte mal en pr esence dex-aequo (couples de mesures identiques). la corr elation tau ( ) de Kendall , qui est un indicateur de rang beaucoup plus robuste aux ex-aequo. Contrairement au de Spearman, qui comme r peut se rapporter ` a une proportion de variance expliqu ee, repr esente une probabilit e dassociation. Il est r eput e poss eder des intervalles de conance plus robustes que le de Spearman. De plus, certains statisticiens consid` erent que les tests de rang tels que et sont plus robustes ` a la non-normalit e des donn ees que le coecient de Pearson. Enn, contrairement ` a r et , il nest pas bas ee sur une r egression, elle ne fait donc pas intervenir les moindres carr es, qui dans certains cas peuvent introduire un biais dicile ` a quantier. le crit` ere dinformation mutuel (Mutual information criterion, MIC) , qui permet de d etecter ` a peu pr` es nimporte quelle d ependance continue entre deux variables. Tel quel, il peut etre utilis e pour des tests dind ependance : si le MIC vaut 0, les donn ees sont ind ependantes. Il peut egalement etre associ e` a des proc edures exploratoires complexes comme la m ethode MINE 5 . Remarque 8. Les mesures de d ependances non-lin eaires sont des outils puissants, mais parfois ambigus. Que faire en pr esence dun elev e ? La seule chose quon sait, cest que nos deux variables sont li ees par une relation monotone : est-elle polyn omiale, exponentielle, logarithmique ? Chacune de ces hypoth` eses n ecessite une inf erence complexe, ou bien un changement de variable qui permette de se ramener au r de Pearson. Cet exemple illustre parfaitement le fait que r est d ej` a` a moiti e un mod` ele, alors que et servent surtout ` a rejeter un mod` ele, celui de lind ependance. Autres corr elations Comme pour presque toute quantit e dint er et en statistiques, il existe un grand nombre dindicateurs sp eciques mesurant la corr elation entre deux variables dans des cas plus particuliers. Citons le D de Somers, le de Goodman et Kruskal, la corr elation polychorique, le sym etrique ou asym etrique, les coecients dincertitude... Bien que ces chires puissent dans certains cas donner une mesure plus pertinente de la relation entre deux variables, il est souvent n ecessaire de simmerger dans leur d enition math ematique pour les interpr eter correctement : comme ils sont moins utilis es, il ny a souvent pas de consensus au sujet de leur interpr etation.

5. Voir http ://www.exploredata.net/ .

Vous aimerez peut-être aussi