Regression Correlation

FIIFO 3
PROBABILITES - STATISTIQUES
AJUSTEMENT ANALYTIQUE RGRESSION - CORRLATION
1.
INTRODUCTION
Il est frquent de s'interroger sur la relation qui peut exister entre deux grandeurs en particulier dans les problmes de prvision et destimation. Trois types de problmes peuvent apparatre: 1. On dispose d'un certain nombre de points exprimentaux ( xi ,yi ) 1 ! i ! n ,o xi et y i sont les valeurs prises par les grandeurs x et y et on essaye de dterminer une relation fonctionnelle entre ces deux grandeurs x et y. Cette relation, pour des raisons thoriques ou pratiques s'crira y = f( x, a,b,c...) et le problme sera d'ajuster au mieux les paramtres a,b,c.... pour que la courbe reprsentative de f passe au plus prs des points ( xi ,yi ). Il s'agit d'un problme d'ajustement analytique. Exemple : Le nombre de particules mises par un lment radioactif varie en fonction du temps. On sait que la loi est de la forme n = n0 e ! "t . Les mesures exprimentales permettront d'estimer au mieux n0 et ! . 2. On essaye de dterminer la relation statistique qui existe entre les deux grandeurs X et Y. Ce type danalyse sappelle analyse de rgression . On considre que la variation de lune des deux variables (par exemple X) explique celle de lautre (par exemple Y). Chaque domaine dapplication a baptis de noms diffrents ces deux variables : On trouve ainsi : X Y Variable explicative Variable explique Variable contrle Rponse Variable indpendante Variable dpendante Rgresseur .... Dans ce type danalyse, on fixe a priori les valeurs de X. X n'est donc pas une variable alatoire. Mais la deuxime grandeur Y, elle, est une variable alatoire et sa distribution est influence par la valeur de X. On a alors du point de vue statistique une relation de cause effet. Le problme sera d'identifier cette relation. Exemple : On veut dterminer si un produit est toxique. Pour cela on le fait absorber en quantits variables par des souris et on mesure leur temps de survie. On partage la population des souris en quatre lots qui absorberont respectivement 0, 1, 2, 3 doses de produit. X = nombre de doses de produit est une variable contrle prenant les valeurs (0, 1, 2, 3). Y = temps de survie dune souris est une variable alatoire (rponse la variable contrle X).
Page 117
J-P LENOIR
CHAPITRE 7
FIIFO 3
Si Y est fonction de X, le produit est toxique. Connatre la relation entre X et Y nous permettra dvaluer ses effets toxiques. 3. Les deux grandeurs X et Y sont alatoires et on cherche savoir si leurs variations sont lies. Il n'y a pas ici de variable explicative ni de variable explique. Les variables peuvent avoir des causes communes de variation, parmi d'autres, qui expliquent leur relation d'un point de vue statistique : on est en prsence d'un problme de corrlation. On cherche alors mesurer le degr dassociation entre les variables. Exemple : poids et taille d'un individu, rsultats obtenus deux examens par des tudiants...
2.
AJUSTEMENT ANALYTIQUE
2.1. PRINCIPE DE L'AJUSTEMENT
On dispose d'un certain nombre de points ( xi ,yi ) 1 ! i ! n , formant un nuage statistique, et on cherche traduire la dpendance entre x et y par une relation de la forme y = f(x) ou x =g(y) selon ce qui a un sens, ou selon ce qui nous intresse. Si une relation thorique s'impose nous comme dans l'exemple des particules radioactives, on ajuste au mieux les paramtres de la loi thorique. Sil nous faut dterminer empiriquement f ou g, on privilgiera les modles linaires .Prcisons que la linarit du modle ne doit pas prter confusion : le terme linaire ne se rfre qu'aux paramtres du modle: y = a + bx ou y = a + bx+ cx2 sont des modles linaires alors que dans le deuxime exemple la relation entre x et y est quadratique. En revanche y = ! 0 ! 1 x nest pas un modle linaire. Pour dterminer cette relation empirique la forme du nuage statistique peut guider notre choix. Mais quelle mthode utiliser pour dterminer au mieux les paramtres du modle ? 2.2. MTHODE DES MOINDRES CARRES
Soit y = f(x,a,b,c, ...) lquation de la courbe que lon cherche ajuster au nuage statistique. Nous voudrions que les erreurs entre la valeur observe yi et la valeur ajuste f(xi) soit minimale. Appelons ei la diffrence : ei = yi ! f ( xi ) . ei est le rsidu de la ime observation et sa valeur absolue reprsente la distance entre les points Mi ( xi ,yi ) et Pi ( xi ,f(xi)).
J-P LENOIR
Page 118
CHAPITRE 7
FIIFO 3
Les rsidus tant positifs ou ngatifs, leur somme peut tre de faible valeur pour une courbe mal ajuste. On vite cette difficult en considrant la somme des carrs des rsidus (la somme de valeurs absolues n'tant pas pratique pour des dveloppements mathmatiques). Cette somme S (a , b, c,....) = ! ei 2 dpend des paramtres a,b,c,... ajuster . On choisira
i =1 n
ces paramtres de manire qu'elle soit minimale.
!e
i =1
est appel variation rsiduelle et
nous donne une mesure de l'ampleur de l'parpillement des observations y i autour de la courbe d'ajustement. 2.3. CAS DU MODLE LINAIRE D'ORDRE UN
Dans ce cas la courbe d'ajustement sera une droite d'quation y = a + bx. Il nous faut dterminer les deux paramtres a et b. " La variation rsiduelle s'crit : S (a , b) = " ei = " ( yi ! a ! bxi ) 2
2 i =1 i =1 n n
" S(a,b) sera minimum lorsque :
!S !S = =0 !a !b
n # !S = "2 ' ( yi " a " bxi ) = 0 % % !a i =1 " On obtient : $ n % !S = "2 ( y " a " bx ) x = 0 ' i i i % & !b i =1 En distribuant loprateur ! , il vient : n #n y " na " b xi = 0 ! ! % % i =1 i i =1 $n n n % x y "a x "b x 2 = 0 ! !i !i % & i =1 i i i =1 i =1
ce qui conduit ainsi deux quations dites "normales": n n ! na + b x = % i % yi # # i =1 i =1 " n n n #a x + b x 2 = x y % % % i i i # $ i =1 i i =1 i =1 Nota: Ce systme se gnralise facilement aux modles linaires dordre n (courbes d'ajustement polynomiales n paramtres). On obtient un systme linaire de n quations n inconnues. Lutilisation des techniques matricielles facilite considrablement sa rsolution.
J-P LENOIR
Page 119
CHAPITRE 7
FIIFO 3 En rsolvant ce systme, on obtient : la pente de la droite b =
n( " xi yi ) ! ( " xi )( " yi )

i =1
n " xi 2 ! ( " xi ) 2
i =1 i =1
i =1 n
i =1
lordonne lorigine a =
( " xi )( " yi ) ! ( " xi )( " xi yi )

2 i =1
n " xi 2 ! ( " xi ) 2
i =1 i =1
i =1 n
i =1 n
i =1
" Autres expressions pour a et b : On a : x =

1 n !x n i =1 i
n
et
y=
1 n !y n i =1 i
n
Si on utilise le fait que : et que :
"(x
i =1
n
! x )( yi ! y ) = " xi yi !
i =1
n
( " xi )( " yi )
i =1 i =1
"(x
i =1
1 ! x ) 2 = " xi 2 ! ( " xi ) 2 , lcriture de b simplifie : n i =1 i =1
b=
"(x
i =1 n
! x )( yi ! y ) =
i
"(x
i =1 n i =1
! x ) yi
(1)
i
"(x
i =1
! x)
"(x
! x)
et la premire quation normale permet de dterminer a :

a = y ! bx
(2)
Remarques :
!S !S = = 0 ne sont que des conditions ncessaires de minimalit pour s. L'tude des !a !b drives secondes montre effectivement que les valeurs trouves minimisent S(a,b)
1. 2. L'quation (2) signifie que la droite d'ajustement passe par le point ( x , y ) appel point moyen du nuage. 3. Cette droite des moindres carrs est appele droite de rgression de y en x. Elle est unique. 4. Si on avait cherch exprimer la relation entre x et y par x = a ! + b !y , on aurait obtenu la droite de rgression de x en y qui minimise la somme des carrs des distances entre les points Mi ( xi ,yi ) et Qi ( a ! + b !yi , yi ) .
J-P LENOIR Page 120 CHAPITRE 7
FIIFO 3
Historiquement, c'est sir Francis GALTON ( 1822-1911), cousin de Charles DARWIN , qui a introduit la notion de rgression : Il a compar la taille des enfants adultes la taille moyenne de leurs parents ( en multipliant celle des femmes par 1.08). En regroupant les donnes en classes et en reprsentant chaque classe par son centre, il a obtenu une relation presque linaire dont la pente est une estimation de l'hritabilit et est d'environ 2/3. Ceci signifie que des parents trs grands ont des enfants plus petits qu'eux, et que des parents trs petits ont des enfants plus grands qu'eux. D'o une rgression vers la moyenne. 2.4. TRANSFORMATIONS SIMPLES PERMETTANT DTENDRE L'USAGE DE L'AJUSTEMENT LINAIRE
2.4.1. Schma exponentiel y et x sont lis par une relation du type : y = y 0! x (1). On en dduit : ln y = ln y 0 + x ln ! En posant Y = lny, a = lny0, b = ln#, on est ramen la recherche des paramtres de la droite Y = a + bx qui reprsente (1) sur un graphique semi-logarithmique. 2.4.2. Schma lasticit constante : Q et P sont lis par une relation du type Q = AP E (2) avec : Q = quantit offerte d'un produit P = prix demand E = lasticit A = constante de normalisation Ce schma est courant en conomie : On tire de (2) la relation : ln Q = ln A + E ln P En posant Y = lnQ, X = lnP, a = lnA, on est ramen la recherche des paramtres de la droite Y = a + EX qui reprsente la relation (2) sur un graphique doubles coordonnes logarithmiques. 2.4.3. Schma gaussien Nous avons vu qu'il existe entre la valeur x d'une variable statistique distribue x!m y = "( ) normalement et sa frquence cumule y la relation : (3) # o $ est la fonction de rpartition de la loi normale centre rduite. x"m Cette relation peut scrire : ! "1 ( y ) = et si lon pose t = " !1 ( y ) , elle devient # x!m t= . " La relation (3) est donc reprsente par une droite, la droite de Henry ( cf chapitre I), sur un papier gausso-arithmtique. m et % , caractristiques de la distribution normale peuvent alors tre estims par la mthodes des moindres carrs. Conclusion : Cette mthode d'ajustement analytique est une mthode d'analyse numrique. Nous allons prsent la traiter sous l'angle statistique, en considrant d'abord, pour tout i entre 1 et n, y i comme la ralisation dune variable alatoire Yi, les xi ntant pas
J-P LENOIR
Page 121
CHAPITRE 7
FIIFO 3
alatoires (analyse de rgression), puis en considrant, pour tout i entre 1 et n, xi et y i comme les ralisations de deux variables alatoires Xi et Yi (problme de corrlation) .
3.
LE MODLE DE RGRESSION LINAIRE SIMPLE

3.1. INTRODUCTION
Considrons un exemple. Le directeur du personnel dune compagnie de jouets, a dcouvert quil existe une relation logique et troite entre le rendement fourni par les employs et le rsultat obtenu un test daptitudes quil a labor. Sur huit employs, il a obtenu les rsultats suivants Employs Production (Y) (en douzaine dunits) Rsultats au test daptitude (X) A 30 6 B 49 9 C 18 3 D 42 8 E 39 7 F 25 5 G 41 8 H 52 10
Supposons de plus que ce directeur ait calcul, par la technique du paragraphe prcdent, une quation destimation (lquation de la droite de rgression) pour prdire le rendement futur du candidat (la variable dpendante) en se fondant sur les rsultats du test (la variable indpendante). Y = 10277 . + 51389 . X On reprsente sur la figure ci-dessous le nuage de points et la droite de rgression ainsi obtenus.
J-P LENOIR
Page 122
CHAPITRE 7
FIIFO 3
Lanalyse de rgression peut nous permettre de dterminer le degr de fiabilit des prdictions obtenues laide de cette quation.
J-P LENOIR
Page 123
CHAPITRE 7
FIIFO 3 Au vu des rsultats observs, il semble quil y ait une relation assez troite entre les rsultats au test et la productivit des employs. Mais les apparences sont parfois trompeuses. Quen serait-il si la population totale de lensemble des employs tait rpartie comme lindique la figure (a) ci-contre ? Serait-il possible que, malgr lchantillon obtenu, un tel diagramme reprsente lensemble des employs de la compagnie ? Si tel tait le cas, il nous faudrait conclure quil nexiste pas de relation entre X et Y car dans une telle situation, la pente de la droite de rgression pour la population (paramtre que nous reprsenterons par le symbole &) serait gale 0. En somme, il est possible que le directeur ait eu un coup de malchance et que lchantillon quil a prlev lait fortement induit en erreur. Un tel cas nest pas impossible. En effet, on pourrait reprsenter lchantillon, perdu dans la population, sur la figure (b) ci-contre. La pente positive de la droite de rgression chantillonnale nous indique une relation. On constate qualors le rsultat obtenu grce lchantillon est en contradiction avec la ralit de la population.
Comment conclure ? Il nous faut effectuer un calcul statistique pour constater quun tel cas nest certes pas impossible mais fortement improbable. On pourra juger correctement grce au calcul dun intervalle de confiance, ou en effectuant un test dhypothses. On constatera que la vraie droite de rgression (calcule partir de la population toute entire) peut tre, selon les donnes et la taille de lchantillon, assez diffrente de la droite de rgression obtenue partir de lchantillon mais que, statistiquement, elle se situe dans une rgion voisine, comme le montre la figure suivante.
J-P LENOIR
Page 124
CHAPITRE 7
FIIFO 3
Or pour pouvoir utiliser les techniques de lanalyse de rgression linaire simple en infrence statistique (intervalles de confiance, tests), il faut que certaines hypothses soient vrifies. Nous allons les prciser dans les deux paragraphes suivants. 3.2. DFINITION DU MODLE
tant donn n couples dobservations (x1 ,y1), (x2 ,y2),....., (xn ,yn) , si lon suppose que la relation plausible entre les deux grandeurs X et Y est linaire et dordre un, alors le modle de rgression linaire simple scrit :
Yi = ! + "xi + # i i = 1,2 .....,n
Yi est la variable dpendante (ou explique) ayant un caractre alatoire et dont les valeurs sont conditionnes par la valeur xi de la variable explicative (ou contrle) X et par celles de la composante alatoire 'i. yi reprsente la ralisation de la ime variable alatoire Yi. xi est la valeur de la variable explicative (ou rgresseur) X mesure sans erreur ou dont les valeurs sont fixes avant exprience des valeurs arbitraires. Elle nest pas susceptible de variations alatoires et on la considre comme une grandeur certaine. 'i dnote la fluctuation alatoire non observable, attribuable un ensemble de facteurs ou de variables non pris en considration dans le modle. Cette fluctuation alatoire nest pas explique par le modle et se reflte sur la variable dpendante Yi
Conclusion : Pour chaque valeur particulire xi prise par le rgresseur X, la variable dpendante Yi est une variable alatoire caractrise par : ( Une certaine distribution de probabilit. ( Des paramtres descriptifs : sa moyenne et sa variance. 3.3. CONDITIONS DAPPLICATION DU MODLE
Pour pouvoir tudier le modle de rgression linaire simple, il faut prciser certaines hypothses fondamentales qui assurent le fondement thorique des mthodes danalyse que nous allons employer. Hypothses fondamentales du modle linaire simple : Yi = ! + "xi + # i La courbe joignant les moyennes des distributions des Yi pour les diffrentes valeurs xi est une droite. Dans ce cas lquation de rgression est de la forme : E (Yi ) = ! + "xi . Comme nous savons que : E (Yi ) = ! + "xi + E (# i ) ,on en tire que E(! i ) = 0. Les erreurs alatoires sont de moyenne nulle.
J-P LENOIR
Page 125
CHAPITRE 7
FIIFO 3
La variance ! 2 de chaque distribution des Yi est la mme quelle que soit la valeur xi prise par la variable explicative X. Pour tout i entre 0 et n, Var(Yi ) = ! 2 .Ceci est quivalent dire que la variance des ! i (cest--dire des erreurs alatoires) demeure constante et gale ! 2 pour toutes les valeurs de X. Var(Yi ) = Var (! + "x i ) + Var (# i ) = 0 + $2 . On suppose donc que lampleur de la dispersion de chaque distribution des Yi est identique, quelle que soient les valeurs prises par la variable explicative X. Les Yi sont des variables alatoires indpendantes, cest--dire que les observations de la variable explique ne dpendent pas des observations prcdentes et ninfluent pas sur les suivantes. La distribution des Yi est une distribution normale . Ceci revient galement dire que les erreurs ! i sont distribues normalement. Ces hypothses fondamentales peuvent se rsumer ainsi :
Yi )> N( ! + "x i , # ),
!i
)> N(0,%),
les variables Yi tant indpendantes.
On peut schmatiser ces hypothses par la figure ci-dessous :
J-P LENOIR
Page 126
CHAPITRE 7
FIIFO 3 3.4.
INFRENCE SUR LES PARAMTRES DU MODLE : ESTIMATIONS ET TESTS DHYPOTHSE
Les paramtres # et & sont appels paramtres de rgression. Ce sont des constantes, ordonne lorigine et pente de la droite de rgression, que lon pourrait calculer si le nuage de points englobait la population toute entire. Les valeurs a et b dtermines par l'ajustement analytique au paragraphe 2 permettent den donner une estimation. a et b sont mme les meilleurs estimateurs possibles de # et & (en anglais, on utilise le terme BLUE (pour Best Linear Unbiaised Estimators). On considre que a et b sont les valeurs observes dans notre n-chantillon des variables alatoires dchantillon ,notes A et B, et dfinies par:
B=
"(x
i =1 n
! x )(Yi ! Y )
o
i
Y =
"(x
i =1
! x)2
1 n !Y et n i =1 i
x=
1 n !x n i =1 i
A = Y ! Bx
Pour pouvoir effectuer des calculs statistiques, tablir un intervalle de confiance ou excuter un test statistique sur lun ou lautre des paramtres de rgression # et & ,il nous faut connatre la distribution dchantillonnage des deux variables A et B. Il faut donc en connatre la forme, la moyenne et la variance. Cest lobjet des deux paragraphes suivants. 3.4.1. Distribution dchantillonnage de la variable B B est une combinaison linaire de variables normales indpendantes. Elle est donc distribue suivant une loi normale.
E ( B) =
"(x
i =1
! x )[ E (Yi ) ! E (Y )]
"(x
=
i =1
! x )[# + $xi ! # ! $x ]
!# ( x i " x) 2 =
"(x
i =1
! x)
"(x
i =1
! x)
#(x
i =1
i =1 n
=!
i
" x)
E ( B) = ! .
Donc B est un estimateur sans biais de &.

! x ) 2 Var (Yi )
=
2 2
Var( B) =
"(x
i =1 n
# 2 " ( xi ! x ) 2
[ " ( xi ! x ) ]
i =1 n i =1
=
2 2
#2
[ " ( x i ! x) ]
i =1
"(x ! x)
i =1 i
Var ( B) =
2
#2
"(x ! x)
i =1 i
J-P LENOIR
Page 127
CHAPITRE 7
FIIFO 3
( Cas des grands chantillons (n ! 30)

T=
n
B! # $
suit la loi normale N(0,1).
"(x
i =1
! x) 2
Si % 2 nest pas connu, on lestime par s 2 =
"( y
i =1
! a ! bxi ) 2 n!2
qui est la valeur prise dans
lchantillon de S 2 =
" (Y ! A ! Bx )
i =1 i i
n!2
estimateur non biais de %2 .
( Cas des petits chantillons (n<30)

T=
n
B! # S
suit une loi de Student (n-2) degrs de libert.

2
"( x ! x )
i =1 i
Remarque : On na que (n-2) degrs de libert car dans S on a estim les deux paramtres # et & par a et b. On peut trouver le mme rsultat en considrant quil y a deux relations entre A, B et Yi . 3.4.2. Distribution dchantillonnage de la variable A Il est moins frquent deffectuer de linfrence statistique concernant le paramtre # . Plusieurs situations ne comportent aucune valeur dans le voisinage de X = 0. De plus, dans certains cas, linterprtation du paramtre # est dnue de sens, dans dautres, elle prsente un certain intrt. Donnons rapidement les rsultats concernant la distribution dchantillonnage de la variable A. De mme que B, A a une distribution normale. On montre que E(A) = # , ce qui prouve que A est un estimateur sans biais de #. x2 2 1 ]. On montre galement que Var ( A) = # [ + n n 2 " ( xi ! x )
i =1
Ici aussi, si % est inconnu on lestime par s. Comme dans le cas prcdent, lorsque nous aurons affaire de petits chantillons et que % sera inconnu on utilisera une loi de Student (n-2) degrs de libert.
J-P LENOIR
Page 128
CHAPITRE 7
FIIFO 3 3.4.3. Utilisation de ces lois Grce la connaissance de ces lois, on pourra selon les cas :
" obtenir des intervalles de confiance pour # et & ce qui nous permet de prciser la marge derreur de leurs estimations a et b. " effectuer un test d'hypothse sur &, pente de la droite de rgression. Si par exemple, on veut dterminer si la dpendance linaire entre X et Y est significative (en admettant que le modle linaire dordre 1 est plausible), il nous faudra savoir si la pente de la droite de rgression est significativement diffrente de 0. Dans ce cas on dira que la composante linaire permet dexpliquer dune faon significative les fluctuations dans les observations de Yi . On testera alors lhypothse H0 : & = 0 contre H1 : & ! 0 3 . 5 . QUELQUES CONSIDRATIONS PRATIQUES LAPPLICATION DES MTHODES DE RGRESSION 3.5.1. Extrapolation avec une quation de rgression Il faut tre trs prudent dans lutilisation dune quation de rgression en dehors des limites du domaine tudi de la variable explicative. La droite de rgression empirique est base sur un ensemble particulier dobservations. Lorsque nous effectuons une prvision au del des valeurs de X utilises dans lanalyse de rgression, nous effectuons une extrapolation. Du point de vue purement statistique, toute extrapolation avec une quation de rgression nest pas justifie puisquil nest absolument pas vident que le phnomne tudi se comporte de la mme faon en dehors du domaine observ. En effet la vraie fonction de rgression peut tre linaire pour un certain intervalle de la variable explicative et prsenter un tout autre comportement (du type curviligne par exemple) en dehors du champ observ. Mme si des considrations thoriques ou pratiques permettent de penser que lquation de rgression peut sappliquer dans tout domaine, un autre inconvnient apparat : la prcision de nos estimations et de nos prvisions diminue mesure que lon sloigne de la valeur moyenne de la variable explicative , cest--dire que la marge derreur augmente comme le montre la figure ci-aprs. DANS
J-P LENOIR
Page 129
CHAPITRE 7
FIIFO 3
3.5.2. Relation de cause effet Le fait quune liaison statistique existe entre deux variables nimplique pas ncessairement une relation de cause effet. Il faut sinterroger sur la pertinence de la variable explicative utilise comme lment prdicteur de la variable dpendante et examiner sil nexiste pas certains facteurs ou variables non incluses dans lanalyse et dont les variations provoquent sur les variables initiales de ltude un comportement de rgression illusoire. 3.5.3. tude de la pertinence du modle Une manire simple de dtecter les dfaillances du modle consiste calculer les rsidus ei donns par la formule : ei = yi - (a + bxi ) et surtout les rsidus rduits eri = o s est s lestimateur non biais de lcart-type % de la distribution des erreurs. Ces rsidus rduits !i estiment les erreurs rduites qui sont distribues normalement suivant une loi gaussienne " centre rduite. Une tude systmatique des rsidus est un lment essentiel de toute analyse de rgression. Un graphique de ces rsidus rvle les gros carts au modle. On doit reprsenter le graphique des rsidus en fonction de toute caractristique qui peut avoir une action sur eux. Voici trois graphiques possibles qui paraissent naturels et qui permettent dviter bien des erreurs. $ i = a + bx i . ( Graphique des rsidus eri en fonction des valeurs ajustes y ( Graphique des rsidus eri en fonction des valeurs xi du rgresseur. ( Graphique des rsidus eri dans leur ordre dacquisition ; en effet le temps peut tre la caractristique essentielle dans de nombreuses tudes. Si le modle est correct, les rsidus eri doivent se trouver approximativement entre -2 et +2, tant entendu que leur moyenne est nulle. Ils ne doivent prsenter aucune structure
J-P LENOIR
Page 130
CHAPITRE 7
FIIFO 3
particulire. Si jamais ils en prsentent une, cest que le modle nest pas compltement pertinent. 3.6. MESURE DE LAJUSTEMENT : LANALYSE DE VARIANCE
Un autre objectif dune tude de rgression est de dterminer dans quelle mesure la droite de rgression est utile expliquer la variation existante dans les observations des Yi . On veut donc valuer la qualit de lajustement du modle linaire simple. 3.6.1. Analyse de la variance $ i la valeur estime de yi laide de la droite de rgression: On rappelle que lon note y $ i = a + bxi .Pour chaque valeur yi , lcart total (yi - y ) peut tre dcompos en somme de y deux carts : (yi - y ) cart total = =
$i ! y ) $i ) (y + (yi - y cart expliqu par la droite de + cart inexpliqu par la droite de rgression lorsque X = xi rgression lorsque X = xi : rsidu
Cette dcomposition peut tre visualise sur la figure ci-aprs.
On peut donc exprimer la variation totale dans les observations de Yi comme la somme dune variation explique (attribuable la droite de rgression) et dune variation inexplique (attribuable aux rsidus). On dmontre le rsultat suivant :
"( y ! y)
i =1 i
$ ! y) "( y
i =1 i
+ +
$) "( y ! y
i =1 i i
Variation totale
= Variation explique par la rgression
Variation rsiduelle
3.6.2. Le coefficient de dtermination Pour mieux apprcier la contribution de la variable explicative pour expliquer les fluctuations dans la variable dpendante on dfinit le coefficient de dtermination, appel
J-P LENOIR
Page 131
CHAPITRE 7
FIIFO 3
aussi coefficient dexplication. Ce nombre, not r2 , est la proportion de la variation totale qui est explique par la droite de rgression.
J-P LENOIR
Page 132
CHAPITRE 7
FIIFO 3
n
r2 =
variation explique = variation totale
$ " (y
i =1 n i =1
! y) 2 ! y) 2
" (y
" Cest un indice de la qualit de lajustement de la droite aux points exprimentaux. " Ce coefficient varie toujours entre 0 et 1. Cette proprit dcoule immdiatement de la dfinition. " 100r2 a une interprtation concrte : cest le pourcentage de la variation de Y qui est explique par la variation de X. " On peut dduire de r2 le coefficient de corrlation linaire simple par : r = r 2 , le signe de r tant le mme que celui de b, pente de la droite de rgression.
On dmontre qualgbriquement : r =
"(y
i =1
$ i ! y) ! y)( y $ "(y
i =1 n i
"(y
i =1
! y) 2
! y) 2
Nous dfinirons un coefficient analogue dans le paragraphe suivant qui concerne justement la corrlation pour mesurer lintensit de la liaison linaire entre deux variables .
4.
CORRLATION LINAIRE
4.1. INTRODUCTION ET VOCABULAIRE
Nous prlevons d'une population un chantillon alatoire de taille n et nous observons, sur chaque unit de l'chantillon les valeurs de deux variables statistiques que nous notons conventionnellement X et Y. On dispose donc de n couples d'observations ( xi ,yi ). On veut dterminer par la suite si les variations des deux variables sont lies entre elles, c'est dire s'il y a corrlation entre ces deux variables. L'existence de cette corrlation peut tre dtermine graphiquement en traant le nuage des points Mi ( xi ,yi )(1 ! i ! n) appel diagramme de dispersion. La forme de ce nuage nous permettra de dceler le cas chant, la nature de la liaison entre X et Y. Il nous renseignera sur la forme de la liaison statistique entre les deux variables observes ainsi que sur l'intensit de cette liaison.
J-P LENOIR
Page 133
CHAPITRE 7
FIIFO 3
Dans ce cours, nous ne traiterons que de la forme linaire. les points auront alors tendance s'aligner selon une droite. On dit qu'il y a corrlation linaire. Si Y crot en mme temps que X, la corrlation est dite directe ou positive. Si Y dcrot lorsque X crot, la corrlation est dite inverse ou ngative. Essayons d'associer aux diffrents nuages de points les conclusions qui s'y rattachent.
Conclusions : (a) Forte corrlation ngative (b) Absence de corrlation linaire mais prsence dune liaison de forme parabolique. (c) Faible corrlation linaire mais prsence dune liaison de forme parabolique. (d) Absence de corrlation et aucune liaison apparente. Indpendance entre ces deux variables. (e) Corrlation positive marque.
J-P LENOIR
Page 134
CHAPITRE 7
FIIFO 3 4.2.
DFINITION DU COEFFICIENT DE CORRLATION LINAIRE
Dfinition : Le coefficient de corrlation linaire , not r est un nombre sans dimension qui mesure l'intensit de la liaison linaire entre deux variables observes dans un chantillon de taille n.
n
On pose :
r=
" (x
i =1 n
! x )( y i ! y)
n 2
" (x
i =1
! x)
" (y
i =1
! y) 2
De mme que le coefficient de dtermination, r2 reprsente le pourcentage de la variation de y explique par la variation de x. Remarque : En raison de sa symtrie, r mesure aussi bien l'intensit de la liaison linaire entre x et y qu'entre y et x. 4.3. PROPRITS DU COEFFICIENT DE CORRLATION LINAIRE
Proprit 1 : On a toujours : -1 ! r ! 1 " La corrlation parfaite , correspondant au cas r = 1, se rencontre trs peu en pratique, mais sert de point de comparaison. Plus r est proche de 1, plus les variables x et y seront troitement lies. " Si x et y sont indpendantes, on a bien sr r = 0. Mais la rciproque n'est pas ncessairement vraie. Si r = 0, on peut affirmer qu'il n'existe pas de liaison linaire entre x et y. Mais il peut exister une liaison d'un autre type. Exemple :
J-P LENOIR
Page 135
CHAPITRE 7
FIIFO 3
Proprit 2 :
La droite d'ajustement linaire de y en fonction de x dans notre chantillon a pour quation y = a + bx avec b =
"(x
i =1 n
! x )( y i ! y)
donc
i
b=r
"(x
i =1
! x) 2
sY sX
, sX 2
et
sY 2
reprsentant respectivement les variances de X et de Y dans lchantillon des n points. Proprit 3 : Le signe du coefficient de corrlation permet de savoir si la corrlation est positive ou ngative puisque r et b sont de mme signe. Si la droite d'ajustement linaire de y en fonction de x a pour quation y = a + bx et celle de x en y a pour quation x = a + by , sY s bb ' = r 2 on a b = r et aussi par symtrie b ' = r X . Do : sX sY
1 b
Proprit 4 :
On retrouve ainsi que si la liaison entre x et y est forte, les pentes b et b' sont telles que b' ! et les droites sont presque confondues. 4.4. COMMENT TESTER LINDPENDANCE LINAIRE DE X ET Y
La question est de savoir si la valeur trouve pour r est significativement diffrente de 0 ou pas. Le coefficient de corrlation r calcul partir d'un chantillon de taille n donne une estimation ponctuelle du coefficient de corrlation de la population not *. * est dfini par :
! = E[(
X # E ( X ) Y # E (Y ) E ( XY ) # E ( X ) E (Y ) Cov ( X , Y ) )( )] = = "( X ) " (Y ) " ( X )" (Y ) " ( X )" (Y )
Appelons R la variable alatoire : coefficient de corrlation de tous les chantillons de mme X ! E ( X ) Y ! E (Y ) )( ). taille n prlevs dans une mme population : R = ( "( X ) " (Y ) Bien sr on a E(R) = *. On suppose que X et Y sont distribues suivant une loi normale conjointe ( loi binormale) Il savre que la distribution de R, coefficient de corrlation dchantillon, ne dpend que de n et de *. On reprsente la fonction la fonction de densit de R sur la figure suivante pour n= 9, * = 0 et * = 0.8. On constate que la densit de R est symtrique pour * = 0 et c'est le seul cas o cette proprit est vrifie.
J-P LENOIR
Page 136
CHAPITRE 7
FIIFO 3
On pourra tester l'indpendance de X et Y en excutant le test statistique suivant : " On teste lhypothse H0 contre lhypothse H1 : Ho : X et Y ne sont pas corrls linairement cest--dire * = 0. H1 : X et Y sont corrls linairement cest--dire * ! 0. " On se place sous lhypothse H0 , cest--dire que lon suppose que * = 0. R ! E ( R) R ! " R = = La fonction discriminante du test est : T = " ( R) # ( R) ! ( R) R n!2 On montre quelle peut scrire : T = . 1! R2 T est distribue suivant une loi de Student (n-2) degrs de libert. " On calcule la valeur rduite t 0 = , r tant la valeur du coefficient de 1! r 2 corrlation de notre chantillon. Puis on cherche dans la table de Student Pt = P( T ! t 0 ) .
0
r n!2
si Pt <# : on rejette Ho : X et Y sont linairement dpendants. 0 si Pt ># : on accepte Ho : X et Y sont linairement indpendants.
0
o # est le seuil de signification du test.
J-P LENOIR
Page 137
CHAPITRE 7
FIIFO 3
Remarques : 1) Bien sr, on constate que plus la taille de l'chantillon est petite, plus le coefficient de corrlation de l'chantillon doit tre lev pour tre significativement diffrent de 0.
Ordre de grandeur au seuil de 5% :
On accepte Ho pour r < 0.378 pour n =20 On accepte Ho pour r < 0.549 pour n =10
2) Si on veut tester d'autres valeurs de * , il faut employer une autre mthode et passer par ce qu'on appelle la transformation de FISCHER.
4.5.
MISE EN GARDE A PROPOS DE LA CORRLATION
Il existe plusieurs explications du fait que deux sries varient en mme temps, et dans certaines situations, lanalyste est en droit dinterprter les mesures de corrlation dans le sens dune relation de cause effet. Cependant le seul fait que deux variables soient relies entre elles, au sens statistique du terme, nest pas suffisant pour conclure lexistence dune relation de cause effet. En dautres termes, la seule existence dune relation statistique nest pas une preuve de causalit. Il existe une relation de cause effet si la variation dune variable est attribuable la variation de lautre variable. Par exemple la variation de temprature dans une raction chimique peut causer une variation du rsultat de cette raction. Par ailleurs, deux variables peuvent tre conjointement influences par un facteur de cause commune. Il est probable quil existe une relation troite entre les ventes de bijoux et les ventes dappareils strophoniques; toutefois, il serait farfelu dimputer lune de ces variables les variations observes de lautre variable. Ici, les variations des deux variables sont probablement le rsultat dune variation des revenus des consommateurs. Certaines relations sont accidentelles. Mme sil existe une relation entre le nombre de voitures vendues au Canada et le nombre dlphants en Afrique, il serait absurde danalyser le march de lautomobile au Canada en se basant sur cette relation. Les relations de ce genre sont appeles fausses corrlations.
J-P LENOIR
Page 138
CHAPITRE 7

Regression Correlation

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regression Correlation

Transféré par

Droits d'auteur :

Formats disponibles

FIIFO 3

AJUSTEMENT ANALYTIQUE RGRESSION - CORRLATION

ces paramtres de manire qu'elle soit minimale.

est appel variation rsiduelle et

" S(a,b) sera minimum lorsque :

FIIFO 3 En rsolvant ce systme, on obtient : la pente de la droite b =

n( " xi yi ) ! ( " xi )( " yi )

( " xi )( " yi ) ! ( " xi )( " xi yi )

" Autres expressions pour a et b : On a : x =

Si on utilise le fait que : et que :

1 ! x ) 2 = " xi 2 ! ( " xi ) 2 , lcriture de b simplifie : n i =1 i =1

et la premire quation normale permet de dterminer a :

LE MODLE DE RGRESSION LINAIRE SIMPLE

les variables Yi tant indpendantes.

On peut schmatiser ces hypothses par la figure ci-dessous :

INFRENCE SUR LES PARAMTRES DU MODLE : ESTIMATIONS ET TESTS DHYPOTHSE

Donc B est un estimateur sans biais de &.

( Cas des grands chantillons (n ! 30)

suit la loi normale N(0,1).

Si % 2 nest pas connu, on lestime par s 2 =

qui est la valeur prise dans

estimateur non biais de %2 .

( Cas des petits chantillons (n<30)

suit une loi de Student (n-2) degrs de libert.

Cette dcomposition peut tre visualise sur la figure ci-aprs.

= Variation explique par la rgression

variation explique = variation totale

DFINITION DU COEFFICIENT DE CORRLATION LINAIRE

X # E ( X ) Y # E (Y ) E ( XY ) # E ( X ) E (Y ) Cov ( X , Y ) )( )] = = "( X ) " (Y ) " ( X )" (Y ) " ( X )" (Y )

o # est le seuil de signification du test.

Ordre de grandeur au seuil de 5% :

MISE EN GARDE A PROPOS DE LA CORRLATION

Vous aimerez peut-être aussi