Vous êtes sur la page 1sur 31

Statistique applique la gestion et au marketing

http://foucart.thierry.free.fr/StatPC

Chapitre 7

MODLE LINAIRE
La notion de rgression est fondamentale dans toutes les sciences appliques puisquelle consiste analyser une relation entre deux variables quantitatives et lexploiter pour estimer la valeur inconnue de lune laide de la valeur connue de lautre. Elle est couramment utilise dans les techniques de gestion et de commercialisation, pour expliquer un chiffre daffaires en fonction des dpenses publicitaires, effectuer des prvisions de bnfices, de ventes, etc. Nous formalisons ici la dmarche utilise dans le chapitre 3 pour calculer lquation de la droite de rgression.

1. MODLE DE RGRESSION SIMPLE.

1.1 Variable explicative et variable explique.


On tudie en rgression deux variables quantitatives, dont lune, appele variable explique, est considre comme dpendante de lautre, appele variable explicative ou indpendante. On note habituellement la variable explique Y, et la variable explicative X.

Chapitre 7

page 2

modle linaire

Lorsque cette dpendance est exacte, la liaison entre les deux variables est fonctionnelle : chaque valeur de X correspond une et une seule valeur possible de Y : cette situation ne prsente gure dintrt pratique, la relation exacte tant toujours connue. Lorsque la dpendance nest pas exacte, la relation que lon suppose a priori entre les deux variables est approximative : cest dans ce contexte que la rgression apporte des rsultats intressants. La variable explicative X peut tre fixe a priori : on suppose par exemple que le taux dinflation pour lan 2003 sera de 1.5% dans les pays de lUnion Europenne, et on en cherche les consquences sur diffrents paramtres conomiques (taux de chmage, activit, exportations, ) ou sur lactivit conomique dune entreprise : il sagit en quelque sorte dun scnario qui na aucune raison dtre ralis puisque les agents conomiques vont intervenir en tenant compte des rsultats obtenus par la rgression. Elle peut tre aussi contrle : on mesure la consommation dune voiture des vitesses choisies pour tablir la relation entre la consommation (variable explique) et la vitesse (variable explicative). La variable explicative peut enfin tre observe par tirage au hasard dans une population, comme dans le cas des 50 clients dEUROMARKET : une valeur de la variable X (par exemple lge, 40 ans), il peut tre associ plusieurs valeurs de la variable explique Y (par exemple, le revenu, qui nest pas toujours le mme chez les personnes de 40 ans).

1.2 Modle de rgression.


Le modle de rgression est simplement une quation cense reprsenter cette relation entre les deux variables. Il scrit : Y = f(X) + La variable Y est donc suppose approximativement gale une fonction f de X, le terme caractrisant la marge derreur ou dimprcision du modle.

Dfinitions : La variable Y est appele variable explique. La variable X est appele variable explicative.

Chapitre 7

page 3

modle linaire

La variable est une variable alatoire appele variable rsiduelle. La variance note 2 de la variable est appele variance rsiduelle.

On suppose en outre que le modle vrifie deux proprits : la variable rsiduelle ne dpend pas de X ; la moyenne de la variable rsiduelle est nulle.

On effectue souvent lhypothse supplmentaire que la v.a. suit la loi normale. Cette hypothse, qui demande tre vrifie, permet en effet deffectuer des tests statistiques et des estimations par intervalle de confiance.

Notre objectif est de prciser la nature de la rgression (la fonction f), de mesurer le degr dimprcision (la variance rsiduelle), de dtecter les observations qui ne suivent pas le modle et deffectuer des prvisions de Y pour diffrentes valeurs de X (ventuellement par un intervalle de confiance). Pour effectuer la rgression, on dispose de donnes qui se prsentent sous la forme soit dune suite de n couples [x(i), y(i)], numrots de i = 1 i = n (donnes individuelles), soit dun tableau de corrlation, ou soit encore de donnes groupes ou classes. Nous expliquons la mthode dans le cas de donnes individuelles ; les formules finales sont les mmes dans tous les cas, condition de pondrer les observations par les effectifs dans le calcul des paramtres statistiques. Le modle de rgression est vrifi par chacune de ces observations : Pour tout i de 1 n y(i) = f[x(i)] + (i)

Dans l'expression prcdente, (i) est la variable rsiduelle associe aux observations x(i) et y(i). Nous noterons mx, sx, my, sy les moyennes et les variances observes des x(i) et des y(i). Les proprits supposes de la variable rsiduelle ont comme consquence que la variance rsiduelle 2 est indpendante des x(i). Cette proprit est souvent appele homoscdasticit surtout dans le cas de donnes conomiques.

Chapitre 7

page 4

modle linaire

Exemple : Lhypermarch EUROMARKET envisage de commercialiser un crdit par lintermdiaire de sa carte de paiement et cherche un moyen de contrler les revenus que ses clients dclarent en sollicitant ce crdit. Les donnes de lchantillon tant considres comme fiables, la mthode choisie consiste tablir une relation entre le revenu et lge des clients, sur lequel il est plus difficile de tricher : le revenu est ici considr comme une fonction approximative de lge. Le problme pos est de vrifier lexistence de la liaison, den prciser la nature, le degr dimprcision et dtablir une quation permettant destimer le revenu dun client en fonction de son ge. En appliquant la formule un client quelconque, on pourra calculer une valeur approximative de son revenu en fonction de son ge et valider ou non sa dclaration.

2. NATURE DE LA LIAISON. GRAPHIQUES.

2.1 Nature de la liaison


Le premier point de la rgression est de dterminer la nature de la liaison entre les deux variables. On privilgie toujours en statistique la liaison la plus simple1, cest--dire la liaison linaire entre les variables, de la forme : f(x) = x + Nous utilisons ici les notations habituelles en statistique : et reprsentent des paramtres thoriques de la rgression, et leurs valeurs sont inconnues.

Le choix dune liaison de nature diffrente doit tre argument, par une analyse de chacune des variables ou par une reprsentation graphique montrant clairement que la liaison ne peut tre linaire. Dans certains cas en effet, on sait a priori que la liaison nest pas linaire. Par exemple, un capital de 100 plac un intrt de 10% par an capitalis naugmente pas de faon linaire, mais exponentielle : la premire anne, il augmente de 10, la deuxime de 11 (10% de 110), la troisime de 12.1 (10% de 121), ....

Cest une dmarche gnrale des sciences appliques appele principe de parcimonie ou rasoir dOckham .

Chapitre 7

page 5

modle linaire

Il est clair que dans le cas o le taux dintrt nest pas constant, le mme phnomne d aux intrts composs se produit et que la liaison entre le temps et le montant du capital actualis nest pas en gnral linaire.

2.2 Reprsentation graphique et courbe de rgression.


Lorsque lon ne dispose pas dinformation particulire sur les donnes, la dmarche initiale pour tudier la liaison entre deux variables quantitatives est de reprsenter graphiquement les couples de valeurs observes. On peut alors envisager deux cas. Si le nombre dobservations est faible, on se limite lanalyse de la reprsentation graphique des couples dont nous avons expliqu la construction dans le chapitre 3. Sauf contre-indication, on considre la relation ventuellement mise en vidence comme linaire, en prenant soin de rechercher les points aberrants.

Exemple : nous effectuons la rgression du revenu des 50 clients par leur ge. Pour un nombre dobservations gal 50, on peut se limiter la reprsentation graphique des couples : nous avons dj constat la particularit des clients de rang 25, 31 et 43 sur la figure 2 du chapitre 3. En dehors de ces trois clients, on peut considrer que la liaison est linaire puisquaucune autre relation napparat clairement.

Si le nombre dobservations le permet, on tudie la courbe de rgression. Cette courbe reprsente la fonction de rgression f de la mme faon que lhistogramme reprsente la densit thorique dune v.a.. On procde de la faon suivante pour la construire : 1) On rpartit les observations de la variable explicative dans k intervalles, en reprant le rang des units statistiques de chaque intervalle. Chaque intervalle est caractris par son centre cxl ou sa moyenne mxl considre comme valeur approximative des observations de lintervalle. 2) On calcule la moyenne des observations de la variable explique pour les units statistiques de chaque intervalle prcdent. On obtient k moyennes myl, l = 1, , k . 3) On reprsente graphiquement les k couples [mxl, myl] ou [cxl, myl], ventuellement par un disque daire proportionnelle leffectif nl: on obtient ainsi la courbe de rgression .

Chapitre 7

page 6

modle linaire

4) On analyse ensuite le graphique comme prcdemment : on suppose que la courbe de rgression est linaire sauf contre-indication. La fonction f(x) est de la forme x + .

Dfinition : on appelle courbe de rgression de Y par X la reprsentation graphique des couples (mxl, myl) o mxl et myl sont les moyennes des variables X et Y dans les groupes l dfinis par des intervalles sur la variable X, ou encore les centres de ces intervalles.

Exemple : Pour construire la courbe de rgression du revenu par lge, nous avons dfini 4 intervalles dge de mme amplitude : ge intervall effectif centre k moyen e nk cxk mxk 1 [24, 35 [ 14 29.5 30.4 revenu moyen myk 88 400.86

rangs observations x(i) 37, 32, 11, 9, 6, 18, 46, 7, 15, 30, 49, 29, 50, 48 4, 35, 13, 16, 40, 42, 22, 5, 2, 45, 41, 3, 17, 24, 34, 21, 36, 38, 20, 23, 39, 19, 47, 44, 27, 26, 12 33, 28, 14, 1, 8 10, 25, 43, 31

2 [35, 46 [ 3 [46, 57 [ 4 [57, 68 ]

27 5 4

40.5 51.5 62.5

39.9 49.6 63.5

111 350.99 141 014.6 108 204

Figure 1.7 : reprsentation graphique de la courbe de rgression du revenu par lge. (origine des axes : valeurs moyennes)

Chapitre 7

page 7

modle linaire

On a pour lintervalle 4 : my4 = [y10 + y25 + y43 + y31 ] / 4 = 108 204. Linterprtation de la courbe de rgression aboutit videmment la mme conclusion que prcdemment : lintervalle 4 rend impossible une liaison linaire.

Il existe un paramtre statistique classique pour mesurer la proximit de la courbe de rgression aux valeurs observes : cest le rapport de corrlation de Y par X, quil ne faut pas confondre avec le coefficient de corrlation linaire. Il est fond sur la dcomposition de la variance de la variable explique lorsque les n observations sont rparties en k groupes.

Dfinitions : lorsque les n observations y(i) i = 1, , n sont rparties en k groupes deffectifs nl : on appelle variance totale sT2 la variance des observations (y(i)) i = 1, ..., n : sT2 1 n = [ y(i) - my ]2 n i=1

on appelle variance explique (ou inter) sm2 la variance des moyennes myl des groupes pondres par les effectifs nl des groupes : sm
2

1 =

nl (myl - my)2

n l=1 on appelle variance rsiduelle (ou intra) sr2 la moyenne des variances syl 2 calcules dans chacun des groupes pondres par les effectifs nl des groupes. sr2 1 k = n l=1 nl syl 2

proprit fondamentale : la variance totale sT2 est gale la somme de la variance explique sm2 et de la variance rsiduelle sr2 : sT2 = sm2 + sr2

Chapitre 7

page 8

modle linaire

La proprit fondamentale que nous admettons ici est dmontre dans lexercice 7 du chapitre 2. La notion de variance rsiduelle est analogue celle qui a t introduite dans le modle de rgression, la fonction f tant dfinie par la courbe de rgression. Dfinition : on appelle rapport de corrlation de Y par rapport X le rapport 2 de la variance explique la variance totale : sm2 2 = sT2

Proprits du rapport de corrlation : le rapport de corrlation est compris entre 0 et 1 ; une valeur proche de 1 montre que la valeur y de la variable explique Y ne varie pas beaucoup lintrieur de chaque classe (sr2 0, sm2; 1), et est assez bien dtermine par la classe laquelle la valeur x appartient ; une valeur proche de 0 montre que les moyennes myla sont trs proches les unes des autres (sm2 0) et que la valeur x de la variable explicative X ne donne gure dindication sur la valeur y de la variable explique Y. Le rapport de corrlation mesure la liaison entre les variables indpendamment de la nature de cette liaison, contrairement au coefficient de corrlation qui la suppose linaire. Pour en apprcier approximativement la taille, on peut en calculer la racine carre et la comparer celle dun coefficient de corrlation. Mais, si lon suppose que la variable Y suit la loi normale de moyenne et de variance 2 dans chaque classe, il existe un test.

Thorme : Si le rapport de corrlation thorique est nul, la statistique F : (n k) 2 F = (k 1) (1 - 2) suit la loi de Fisher de degr de libert k - 1, n - k.

Test de nullit du rapport de corrlation : Hypothse nulle :2 = 0 (ou Y de mme moyenne thorique dans chaque classe).

Chapitre 7

page 9

modle linaire

Hypothse alternative :2 0 (ou au moins une moyenne diffrente des autres). Statistique du test :variable F dfinie prcdemment. Rgion critique :] f, + [, f tant obtenu par lecture de la table de la loi de Fisher pour un risque de premire espce .

Exemple : Le rapport de corrlation du revenu par lge est gal 0.2537. Le calcul donne f = 5.21, pour une rgion critique ]2.81, + [avec un risque de 5%. On rejette lhypothse de nullit. Mais il faudrait vrifier les hypothses sur la variable explique Y. On peut aussi considrer que sa racine carre, de lordre de 0.5, est relativement proche de 1 par analogie avec un coefficient de corrlation linaire de 0.5 pour n = 50. Gr. 1 2 3 4 Effectif 14 27 5 4 Moyenne mxl 30.357 39.852 49.600 63.500 Moyenne myl 88400.857 111350.852 141014.600 108204.000 Variance syl 2 51 643 044.8367 589 543 173.5336 1 120 468 325.8400 2 621 834 260.5000

On en dduit : Variance totale de la variable explique sT2 Variance explique de la variable explique sm2 Variance rsiduelle de la variable explique sr2 Rapport de corrlation de Y par X 2 877 095 300.2096 222 488 353.3638 654 606 946.8458 0.2537

3. MODLE LINAIRE.
Nous allons supposer maintenant quil est raisonnable de supposer que la liaison entre les deux variables tudies soit linaire. Le modle de rgression sexprime donc de la faon suivante : y=x++ Dfinition : on appelle droite de rgression thorique la droite dquation y = x + , et coefficients de rgression thoriques les coefficients et .

Chapitre 7

page 10

modle linaire

3.1 Critre des moindres carrs


Le problme consiste calculer les coefficients de rgression. Nous ne pouvons videmment calculer les valeurs exactes, mais seulement des estimations, que nous noterons b pour et a pour . Nous avons reprsent sur la figure 2 deux points i et i caractrisant les couples [x(i), y(i)] et [x(i), y(i)] parmi les n couples. Lobjectif est de dterminer les coefficients de la droite y = b x + a la plus proche possible des n points.

Figure 2.7 : critre des moindres carrs dans le modle linaire Plus prcisment, il sagit de reconstruire le mieux possible la variable Y en fonction de la variable X, et donc de dterminer la droite de faon ce que les termes derreur de la forme e(i) = y(i) [b x(i) + a ] soient les plus petits possible, les plus proches de 0. Nous avons dfini dans le chapitre 2 deux critres pour mesurer la proximit de la valeur 0 ces erreurs : la somme des valeurs absolues et la somme des carrs de ces termes. Pour des raisons diverses, de calcul en particulier, ce sont les carrs que lon considre gnralement (mais lautre mthode existe) et lon cherche donc les coefficients b et a tels que la somme des carrs soit minimale ; do lexpression droite des moindres carrs , frquemment employe pour dsigner la droite de rgression.

Chapitre 7

page 11

modle linaire

3.2 Estimation des coefficients de rgression.


Thorme : les estimations b et a des coefficients de rgression thoriques et sont telles que la somme des carrs des erreurs soit la plus petite possible. Elles sont donnes par les formules ci-dessous : cov(x,y) sy b = = r(x,y) sx2 sx a = my - b mx

Ces formules dpendent des moyennes mx et my, de la covariance cov(x,y), des cartstypes sx et sy, et du coefficient de corrlation r(x,y) que lon calculera avec les formules adaptes au cas des donnes individuelles, des donnes groupes, ou des tableaux de corrlation. Les dmonstrations des formules sont donnes dans les complments pdagogiques. Les estimations b et a sont appeles coefficients de rgression estims. Ce sont les valeurs observes des estimateurs empiriques B et A. La droite y = b x + a est la droite de rgression estime (on omet souvent le terme estim ).

Remarque : la droite de rgression passe par le point moyen : pour x = mx, on obtient y = my.

Exemple : nous avons vu dans le chapitre prcdent que la liaison entre lge et le revenu des clients de lhypermarch peut tre considre comme linaire lorsquon se limite aux personnes en activit, cest--dire lorsquon limine les clients 25, 31 et 43. On a effectu ici la rgression du revenu par lge tout dabord sur toutes les observations, puis aprs avoir effectu cette limination. Les droites de rgression ont pour quations : Estimation du Revenu = 946.174 x ge + 69735.75 Estimation du Revenu = 2875.963 x ge - 1028.645 (toutes les observations) (aprs limination)

Chapitre 7

page 12

modle linaire

Nous avons reprsent lensemble des 50 couples, la droite de rgression obtenue en effectuant les calculs sur la totalit des observations et la droite de rgression obtenue aprs limination des clients 25, 31 et 43 (figure 3).

Figure 3.7 : rgression linaire du revenu par lge avec et sans les clients n 25, 31 et 43 Les deux droites de rgression sont trs diffrentes lune de lautre : la premire passe par lorigine des axes (point moyen des 50 observations), et la seconde passe par le point moyen calcul sur les 47 observations, diffrent donc du prcdent. Les trois clients 25, 31 et 43 perturbent nettement les calculs.

4. TUDE DES RSIDUS.


Une rgression complte ne se limite pas au calcul des estimations : il est indispensable de valider le modle estim, cest--dire de vrifier son adquation aux donnes analyses. Pour cela, on utilise les rsidus.

4.1 Rsidus.
La droite de rgression thorique a pour quation : y=x+ Les coefficients de rgression thoriques et sont videmment inconnus, et on ne dispose que des estimations b et a de ces coefficients.

Chapitre 7

page 13

modle linaire

chaque valeur x(i) on peut associer lestimation b x(i) + a de Y donne par la droite de rgression, et la comparer la valeur observe y(i) : on obtient ainsi le rsidu e(i), qui est lcart entre la valeur observe y(i) et la valeur b x(i) + a estime par la rgression.

Dfinition : on appelle rsidus les erreurs observes e(i) dfinies par : e(i) = y(i) [ b x(i) + a ] Les rsidus sont des approximations des erreurs inconnues (i) : (i) = y(i) [ x(i) + ]. On montre quils sont centrs (de moyenne nulle) et que leur covariance, donc leur coefficient de corrlation, avec la variable explicative est nulle : me 1 n = e(i) n i=1 n i=1 e(i) [x(i) mx] = 0

1 cov (e,x) = n

= 0

Leur variance est gale la moyenne de leurs carrs puisque leur moyenne est nulle : se2 1 n 1 n 2 = (e(i) me ) = e(i)2 n i=1 n i=1

La variance tant un ordre de grandeur des carrs des rsidus, lcart type se donne donc un ordre de grandeur des rsidus. La variance se2, que nous noterons simplement s2 conformment lusage, sexprime en fonction du coefficient de corrlation par la formule suivante : s2 = (1 r2 ) sy2 Exemple : Calculons quelques rsidus dans la rgression du revenu par lge : x1 = 51 ans, y1 = 195 888 F, b x1 + a = 145 645.4 F : e1 = 50242.6 F x26 = 45 ans, y26 = 107808 F, b x26 + a = 128389.7 F : e26 = -20 581.7 F Le coefficient de corrlation est gal 0.6728 et son carr 0.4527. On en dduit la variance des rsidus :

Chapitre 7

page 14

modle linaire

s2 = (1 0.4527) = 0.5473 x 874 467 804.91 = 478 596 229.62 Lcart type des rsidus (s = 21 876F) est nettement plus petit que celui des revenus (sy = 29 571.4F). Lge apporte donc une information importante sur la dispersion des revenus observs.

4.2 Proprits des rsidus.


Le modle thorique nest satisfaisant que si les rsidus possdent un certain nombre de proprits : Les rsidus et la variable explicative doivent tre indpendants. Ce second point

peut aussi tre contrl graphiquement : on reprsente graphiquement les couples [x(i), e(i)] ou, ce qui revient au mme, les couples [b x(i) + a, e(i)] pour dtecter une liaison ventuelle entre les deux variables [x(i)] et [e(i)]. Rappelons que cette liaison ne peut tre linaire puisque le coefficient de corrlation entre les rsidus et la variable explicative est nul : on pourra trouver par exemple un nuage de points en forme de parabole, dont nous donnons un exemple dans le chapitre 3. La vrification de cette hypothse est indispensable dans le cas dobservations chelonnes dans le temps (cf. chapitre 8). On connat la proprit suivante fondamentale : s2 = (1 r2 ) sy2 Pour apprcier la qualit de lajustement linaire, on peut donc utiliser le coefficient de corrlation entre les sries [x(i)] et [y(i)] : un coefficient de corrlation dont le carr est proche de 1 indique des rsidus relativement petits par rapport la variable explique. Rappelons que cela ne suffit pas justifier le modle linaire. On peut contrler que la variable rsiduelle suit la loi normale en effectuant un test dajustement du 2 sur les rsidus, bien quici ce test ne soit pas trs bien adapt (les procdures correctes sont assez compliques). La rpartition des rsidus suivant la rgle de classification explique dans le chapitre 2 doit donner approximativement les pourcentages correspondant la loi normale. Cette proprit est surtout utile pour estimer les coefficients de rgression et effectuer des prvisions laide dintervalles de confiance.

Chapitre 7

page 15

modle linaire

Exemple : dans la rgression du revenu par lge (aprs limination des clients de rang 25, 31 et 43), lhistogramme des rsidus donn ci-dessous en figure 4 montre une certaine asymtrie de leur rpartition. La courbe superpose reprsente la densit de la loi normale de mme moyenne et de mme variance ; la proximit ne semble pas trs bonne, mais il y a peu de rsidus dont la valeur absolue soit particulirement grande.

Histogramme des rsidus (rgression du revenu par lge) cinq classes de mme amplitude Pour effectuer le test dajustement du 2 nous avons regroup les deux derniers intervalles de faon assurer la convergence de la loi de la statistique X2 vers la loi du 2. Le degr de libert est donc gal = k l 1 = 2, puisque seule la variance est estime partir des donnes ( k = 4, l = 1). On trouve : x2 = 3.911 ddl: = 2 P(X2>3.911) = 0.13899 On peut donc considrer que la rpartition des rsidus est gaussienne (notons que si lon choisit un degr de libert gal k 1 au lieu de k l 1 comme nous lavons propos dans le chapitre 7, la probabilit critique est gale 0.27 : la dcision est la mme). La reprsentation des couples [e(i), x(i)] (figure 5), ne montre pas de liaison particulire entre les rsidus et la variable explicative (les u.s. ont t renumrotes de 1 47) :

Chapitre 7

page 16

modle linaire

Figure 5.7 : reprsentation graphique des couples (ges, rsidus) (47 couples) En conclusion, le modle de rgression linaire donne des rsultats relativement satisfaisants.

5. PRVISIONS.
La question que lon se pose maintenant est de savoir si le modle ajust a un sens sur lensemble des clients, et dans quelle mesure il permet deffectuer des prvisions correctes.

5.1 Estimation et intervalle de confiance de la variance rsiduelle.


La variance rsiduelle 2 est par dfinition la variance de la variable rsiduelle . On en obtient une valeur approche laide de la variance s2 des rsidus. En fait, on utilise plutt le terme s2 = n s2 / (n-2). Ce terme possde la proprit dtre sans biais : chaque chantillon dobservations [x(i), y(i)] i=1, ..., n correspond une valeur s2, et la proprit sans biais signifie que lorsque lon tire une infinit dchantillons de taille n, la moyenne des s2 est gale la variance rsiduelle 2 (cf. chapitre 5).

Chapitre 7

page 17

modle linaire

Dfinition : lestimation sans biais de la variance rsiduelle est gale n s = s2 n2


2

s2 tant la variance des rsidus et n le nombre d'observations. Une autre proprit des rsidus est que la variable X2 = n S2 / 2 suit la loi de probabilit du 2 de degr de libert gal n-2, lorsque la variable rsiduelle suit la loi normale. On peut donc en dduire lintervalle de confiance de la variance rsiduelle pour un niveau de confiance fix comme nous lavons expliqu dans le chapitre 5, la seule diffrence tant le degr de libert et la forme de lintervalle de confiance.

Exemple : le carr du coefficient de corrlation linaire dans la rgression du revenu par lge est gal r2 = 0.4527. On en dduit la variance des rsidus et lestimation sans biais de la variance rsiduelle : s2 = 480 034 257.8 et s2 = 501 369 113.7 Cherchons lintervalle de confiance de la forme ]0, 20.05 [, qui donnera la valeur maximale possible de la variance rsiduelle pour un niveau de confiance choisi. P(n S2 / 2 > 20.05 ) =0.95 do P(2 < n S2 / 20.05 ) =0.95 On trouve dans la table du 2 pour un degr de libert gal 45 et un niveau de confiance de 95% 20.05= 30.612. Do : Intervalle de confiance de la variance : Intervalle de confiance de lcart type : [0, 737 018 493.3] [0, 27 148.08]

On notera que cet intervalle ne contient pas lcart type de la variable explique (sy = 29 571.4). On a en fait test et rejet lhypothse nulle = 0.

5.2 Test sur les coefficients de rgression.


En rgle gnrale on se borne ltude du coefficient de rgression dans lquation y=x+ On peut se poser deux questions : La liaison existe-t-elle rellement ?

Chapitre 7

page 18

modle linaire

Est-il possible destimer laide dun intervalle de confiance ? Pour rpondre la premire question, il faut procder un test statistique sur : si la

valeur = 0 est vraisemblable compte tenu des donnes, on ne peut affirmer que la liaison existe. Ce test est en fait plus ou moins quivalent au test sur le coefficient de corrlation des couples [x(i),y(i)] i = 1, , n que nous avons prsent dans le chapitre prcdent2.

Exemple : La rpartition des rsidus tant peu prs normale, nous pouvons effectuer un test sur le coefficient de corrlation. La procdure est celle que nous avons suivie dans le chapitre 6, en testant la liaison entre lge et le logarithme des revenus (ici, nous considrons les revenus et non leur logarithme). Les tables donnent comme seuils 2 et f pour 45 degrs de libert :

2 = 0.08237 = 0.287 f = 4.05


Ce coefficient est gal r = 0.6728. On en dduit f = 37.22. On rejette donc lhypothse = 0 : la liaison existe indpendamment du hasard. Dfinition : on appelle intervalle de confiance du coefficient de rgression au niveau de confiance (100-)%, lintervalle : [ b t s s , b + t ] (n sx) (n sx)

dans lequel t est choisi dans la table de Student en fonction du niveau de confiance 1 et du degr de libert = n 2, s2 est lestimateur sans biais de la variance rsiduelle et sx lcart type observ de la variable explicative. Cet intervalle donne lensemble des valeurs acceptables de . Sil contient la valeur 0, cela signifie que les donnes ne permettent pas daffirmer que le coefficient de rgression est diffrent de 0 ni que la liaison existe.

On raisonne ici conditionnellement aux observations, supposes donc fixes. La binormalit des [x(i),y(i)] nest pas une condition dapplication : il suffit de la normalit de la variable rsiduelle. Le degr de libert est diminu de 1 par rapport au test sur le coefficient de corrlation prsent dans le chapitre 6.

Chapitre 7

page 19

modle linaire

Exemple : Le coefficient de rgression b est gal 2875.963 ; nous ne dvelopperons pas les calculs qui aboutissent lintervalle de confiance pour un niveau de confiance de 95% : Intervalle de confiance de : [ 1952.02, 3799.89 ] Cet intervalle de confiance ne contient pas la valeur 0 : le coefficient de rgression ne peut tre nul compte tenu des observations effectues. En gnral, on prendra garde ne pas interprter trop vite lestimation b du coefficient de rgression . Sa valeur numrique nest pas suffisante pour pouvoir affirmer que est non nul : pour pouvoir effectuer cette comparaison, il est indispensable de calculer lintervalle de confiance de comme ci-dessus , ou deffectuer le test de Student pour tenir compte de son cart-type (ce test est effectu dans la plupart des logiciels).

5.3 Prvision ponctuelle et par intervalle de confiance.


Un des objectifs de la rgression est de permettre deffectuer des estimations de la variable explique en fonction de la variable explicative. On utilise souvent le terme prvision au lieu destimation mme si les donnes ne sont pas temporelles. Le calcul est simple, mais il faut savoir prcisment ce que lon estime. En effet, le modle linaire est le suivant : y=x++ On remplace bien sr et par leurs estimations b et a pour effectuer le calcul ; mais la prsence de la variable rsiduelle, dont la moyenne est nulle, montre que lestimation que lon effectue est celle de la moyenne des y pour la valeur x choisie.

Exemple : la rgression du revenu par lge a donn lquation ci-dessous (47 observations) : Estimation du revenu = 2875.963 x ge - 1028.645

Chapitre 7

page 20

modle linaire

Lorsque lge est gal 40 ans, lestimation du revenu est de 114 009.86 F. La signification prcise est la suivante : la moyenne des revenus des clients de 40 ans est estime 114 009.86 F3.

Pour obtenir un intervalle de confiance de cette moyenne, il ne suffit pas de tenir compte de lcart type de la variance rsiduelle : les estimations b et a dpendent elles-mme du hasard, et il est indispensable den tenir compte dans les calculs. La variance de la prvision de la moyenne pour x fix est gale : (x mx)2 vy = s'2 [ + ] n n sx2 intervalle de confiance de la moyenne pour x fix : [ b x + a - t [vy ]1/2, b x + a + t [vy ]1/2 ] o t est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - et du degr de libert = n 2 et vy est donn par la formule prcdente. 1

Exemple : lintervalle de confiance de la moyenne des revenus des clients de 40 ans pour un niveau de confiance de 95% est gal : [ 107 267.97, 120 751.74 ]

Lestimation de la moyenne des y pour x fix nest pas toujours suffisante : on peut se demander entre quelles limites varient les valeurs de la variable y elle-mme.

intervalle de confiance dune valeur individuelle: [ b x + a - t [vy]1/2, b x + a + t [vy]1/2 ] o t est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - et du degr de libert = n 2 et vy est gal :
3

De lgres diffrences dans les rsultats numriques qui suivent peuvent apparatre suivant la prcision

Chapitre 7

page 21

modle linaire

(x mx)2 vy = s'2 [ + ] + s2 n n sx2

Exemple : lintervalle de confiance des revenus des clients de 40 ans pour un niveau de confiance de 95% est gal : [ 68 440.74, 159 578.97]

Remarque : les variances prcdentes montrent que les prvisions sont dautant plus prcises que la valeur fixe x est proche de la moyenne mx. Inversement, plus cette valeur scarte de mx, plus les prvisions sont imprcises. On notera aussi que la prvision na de sens que si la liaison est linaire, ce qui limite le champ de la prvision. Effectuer une prvision en dehors du champ lintrieur duquel le modle est valide peut aboutir des erreurs importantes.

Exemple : on ne peut pas prvoir le revenu des personnes de plus de 60 ans laide de la formule prcdente puisquelles ont t limines des donnes de faon que la liaison soit linaire. Mais le calcul numrique est tout fait possible. On obtient, pour la moyenne dge des 3 clients limins (63 ans et demi), un revenu moyen estim gal 181594.98 et un intervalle de confiance [ 156 878.55, 206 311.40 ]. La moyenne des revenus de ces 3 clients, my3 = 78 777.34, est visiblement loin dappartenir cet intervalle de confiance : cette erreur est due lapplication du modle en dehors de son champ de validit.

6. INTRODUCTION A LA RGRESSION LINAIRE MULTIPLE

6.1 Modle linaire multiple.

des calculs et des programmes informatiques.

Chapitre 7

page 22

modle linaire

La rgression linaire simple que nous avons prsente dans les paragraphes prcdents peut tre gnralise en considrant plusieurs variables explicatives X1, X2, , Xp de la variable explique Y. Le modle est alors le suivant : Y = 0 + 1 X1 + 2 X2 + + p Xp + La terminologie et les notations sont identiques celles que nous avons employes en rgression linaire simple. Les coefficients 1, 2, , p sont les coefficients de rgression thoriques, la v.a. est la variable rsiduelle. La seule diffrence dans la notation est celle du coefficient constant not ici 0. Remarque : on peut considrer comme variables explicatives les puissances successives dune variable X. Le modle obtenu est appel modle polynomial. Il est de la forme : Y = 0 + 1 X + 2 X2 + + p Xp + Il est frquent, pour simplifier les notations, dintroduire une variable explicative supplmentaire X0, qui est constante et gale 1. On peut alors crire : Y = p j=0 j Xj +

Soit, pour chaque unit statistique : y(i) = p j xj(i) j=0 + (i)

Le critre utilis pour calculer les estimations bj est le mme que prcdemment : on cherche les valeurs b0, b1, ..., bj, ..., bp telles que lajustement soit le meilleur possible au sens des moindres carrs. On minimise donc la somme S : n S = p j=0 bj xj(i)

[ y(i)
i=1

]2

La rgression linaire simple apparat comme un cas particulier de la rgression linaire multiple, avec p = 1. On peut considrer aussi que la rgression simple par Xj est une rgression multiple avec une contrainte sur les coefficients, dont tous sont nuls sauf les coefficients b0 et bj.

Chapitre 7

page 23

modle linaire

La valeur minimale obtenue sans contrainte est toujours infrieure celle que lon obtient sous contrainte. La somme des carrs des rsidus est donc toujours infrieure ou gale celle que lon obtient en effectuant une rgression par une seule variable, ou mme plusieurs, extraites de la liste des variables Xj. Mais cela ne signifie pas que le modle soit meilleur au plan statistique. Les calculs sont toujours effectus par ordinateur4. Nous ne donnerons que les dfinitions et formules5 utiles pour le choix et linterprtation du modle. le coefficient de corrlation linaire est appel coefficient de corrlation multiple

et est not R. Cest le coefficient de corrlation entre la variable explique Y et son estimation par le modle. Il est toujours positif et son carr R2 est appel coefficient de dtermination. la variance des rsidus est note S2. Comme nous lavons expliqu, lorsque toutes

les variables sont prises en compte, elle est minimale, cest--dire infrieure la variance des rsidus calcule partir de variables explicatives slectionnes parmi les prcdente. On a comme prcdemment : S2 = (1 R2) sy2 lestimation sans biais de la variance rsiduelle S2 est gale :
2

n S2 (n p 1)

On constate donc que le nombre p de variables explicatives intervient de deux faons diffrentes dans lestimation sans biais de la variance rsiduelle. Augmenter la valeur de p fait diminuer la valeur de S2, mais accrot celle du facteur n/(n p 1). Quen est-il du produit ? On ne peut donner de rponse gnrale, et dans certains cas, augmenter le nombre de variables explicatives se rvle nfaste au plan de la qualit de lajustement dans la population entire.

Exemple : nous avons effectu la rgression linaire multiple du revenu des clients dEuromarket en considrant comme variables explicatives lge, le montant des achats et le nombre denfants. Les rsultats sont les suivants :
4

Dans certains cas, les calculs peuvent tre trs imprcis. Des procdures particulires existent dans le cas du modle polynomial. 5 Nous avons respect la notation classique. Les termes R, R2 S2, S2 ne caractrisent pas ici des v.a. .

Chapitre 7

page 24

modle linaire

Rgression Coefficient R variance des rsidus variance rsiduelle sans biais multiple 0.4926 44. 37 x 107 48.50 x 107 simple 0.4527 47.86 x 107 49.99 x 107 Revenu 2727.39 ge + 5.0547 achats + 5478.49 enfants 8331.07 La rgression linaire multiple est meilleure que la rgression linaire simple puisque la variance rsiduelle sans biais est infrieure.

6.2 Applications aux modles conomtriques


Dans les modles conomtriques, les variables considres ne sont pas ncessairement des variables statistiques, cest--dire des mesures sur un chantillon dune mme grandeur. Le temps intervient souvent, de diffrentes faons lorsque la variable explique est chelonne dans le temps. 6.2.1 Variables explicatives de la forme Xj = tj. On peut considrer comme variables explicatives les variables de la forme t, t2, t3, , tp, o t reprsente linstant de lobservation de la variable explique yt. . Le modle est alors le suivant : p Yt = 0 + j=1 j tj +

Un certain nombre de prcautions sont ici indispensables : des problmes de calcul numriques se prsentent systmatiquement si la variable

t prend de grandes valeurs. On a tout intrt commencer systmatiquement la valeur t = 1, et non t = 1997 par exemple. Cette prcaution est dautant plus importante que la puissance de t considre est leve. Pour t = 10, on a ainsi t4 = 10 000. Il existe une procdure de calcul spcifique, fonde sur les polynmes orthogonaux. Mais dans tous les cas, les rsultats numriques sont sujets caution lorsque les calculs ne sont pas effectus en double prcision. on cherche toujours la plus petite valeur possible de lexposant p. On montre en

effet que, par n+1 points, il existe toujours un polynme de degr n passant exactement par ces n points (par deux points , il passe une droite). Lajustement de n+1 points par un polynme de degr n ne prsente donc aucun intrt, pas plus que de dire que deux points sont aligns.

Chapitre 7

page 25

modle linaire

Exemple : on considre la consommation de viande Yt aux tats-Unis de 1919 1941. nous disposons donc de 23 points et le temps t varie donc de t = 1 t = 23. On peut ajuster cette srie par un polynme de degr 3 : Y t = 0 + 1 t + 2 t 2 + 3 t 3 + t Les rsultats numriques sont les suivants (Bensaber et Bleuse-Trillon, 1989) !: Yt = 160.8636 + 5.6679 t - 0.7235 t2 + 0.0221 t3 + et avec : coefficient de corrlation multiple R = 0.819 estimation sans biais de la variance rsiduelle s2 = 23.75

On trouvera une reprsentation graphique de la srie observe et de la srie ajuste danas louvrage de Bensaber et Bleuse-Trillon (p. 150). 6.2.2 Variables explicatives de la forme Xj = Yt-j. Le temps intervient par le dcalage considr par rapport lobservation de Yt. On cherche expliquer Yt par les valeurs observes prcdentes, jusqu un certain rang, et le modle est le suivant : Yt = 0 + p j=1 j Yt-j + t

On parle ici dautorgression. Les problmes fondamentaux de ce modle concernent le choix des variables explicatives, et en particulier la valeur maximale du dcalage p considr. On peut considrer simultanment des variables explicatives de la forme tj et Yt-j.

Exemple : les mmes donnes ont t analyses en introduisant comme variables explicatives Yt-1 et Yt-2. Yt = 0 + 1 Yt-1 + 2 Yt-2 + t La premire observation considre est donc Yt-2, donc la premire valeur connue est Y1 : pour calculer les paramtres de ce modle, il faut donc considrer t = 3, 23. Les rsultats sont les suivants : Yt = 59.7425 + 0.7817 Yt-1 -0.1397 Yt-2 + et avec : coefficient de corrlation multiple R = 0.6601

Chapitre 7

page 26

modle linaire

estimation sans biais de la variance rsiduelle s2 = 42.01

6.2.3 analyse des rsidus. Lintroduction du temps dans les variables observes a une consquence importante sur les rsidus. La qualit du modle dpend des rsidus, et en particulier le modle linaire suppose que les rsidus ne sont pas corrls deux deux. Il faut donc vrifier cette proprit graphiquement et par des tests statistiques. Le graphique est en gnral simple : on reporte simplement le temps en abscisse et les rsidus en ordonnes, de la mme faon que lon reprsente toute srie chronologique. Les tests que lon effectue sont classiquement un test sur le coefficient dautocorrlation dordre 1, entre les sries et et et-1. Un test plus ou moins quivalent est celui de Durbin et Watson, dont une table est donne dans un complment, et on dispose aussi dun test portmanteau , dont on trouvera le dtail dans des ouvrages plus difficiles daccs comme celui de Box et Jenkins.

6.3 Les conditions dune bonne rgression linaire multiple.


Lorsque lon dispose de plusieurs variables explicatives, il nest pas toujours ncessaire de toutes les introduire dans le modle linaire. Il vaut mieux chercher parmi elles celles qui se compltent le mieux et viter les redondances dinformation qui peuvent crer ce que lon appelle des colinarits. Pour mesurer cette notion dinformation complmentaire, on dispose dun coefficient appel coefficient de corrlation partielle, dont linterprtation est analogue celle dun coefficient de corrlation linaire : le coefficient de corrlation partielle de Y et X2 sachant X1 mesure linformation apporte par X2 Y aprs la rgression de Y par X1. La corrlation partielle peut tre utilise de diffrentes faons pour dterminer un ensemble de variables explicatives. 6.3.1 le meilleur ensemble possible Certains logiciels donnent directement le meilleur ensemble de variables explicatives possible, ou un des meilleurs. Linconvnient de ce genre de mthodes est quelles ne donnent pas lutilisateur la possibilit dintervenir dans le choix des variables. Imaginons par exemple que les coefficients de corrlation de deux variables X1 et X2 avec la variable

Chapitre 7

page 27

modle linaire

explique Y soient gaux 0.61001 et 0.61000. Un algorithme fond sur les valeurs numriques slectionnera systmatiquement la premire, ce qui, au plan statistique, nest gure justifi, la diffrence entre les coefficients de corrlation ntant pas significative : il est souvent prfrable dans ce cas-l de raisonner en fonction des connaissances sur les donnes que lon a par ailleurs. En outre, le modle obtenu nest le meilleur que sur les donnes observes : rien ne prouve que sur un autre chantillon, on aurait obtenu les mmes variables explicatives. La stabilit du modle nest pas assure. 6.3.2 algorithme ascendant. on choisit comme premire variable explicative celle qui minimise la somme des

carrs des rsidus, ou leur variance. Compte tenu de la formule de cette variance, cest la variable dont le carr du coefficient de corrlation linaire avec la variable explique est le plus proche de 1. Si deux variables ont un coefficient de corrlation avec la variable explicative trs proche lun de lautre, on pourra examiner les reprsentations graphiques des couples ou tenir compte de la nature des donnes. on dfinit ensuite comme deuxime variable explicative celle qui apporte

linformation complmentaire la plus importante. Cette information est value par le coefficient de corrlation partielle, et le raisonnement tenu sur les valeurs numriques est le mme que prcdemment. on continue cette dmarche jusqu ce que linformation complmentaire apporte

soit non significative, par un test du F sur le coefficient de corrlation partielle. 6.3.3 algorithme descendant. La procdure est linverse de la prcdente. on effectue la rgression par la totalit des variables explicatives disponibles. On

obtient ainsi le coefficient de corrlation multiple le plus lev possible, mais le nombre de variables explicatives est lev et lestimation sans biais de la variance rsiduelle nest ncessairement minimale. on considre les variables explicatives dont le coefficient de corrlation partielle

avec la variable explique conditionnellement aux autres nest pas significatif. Parmi elles, on limine celle dont le coefficient de corrlation partielle est le plus petit en valeur absolue.

Chapitre 7

page 28

modle linaire

on effectue la rgression avec les variables explicatives sauf celle qui t limine,

et on recommence la procdure dexclusion. on continue cette dmarche jusqu ce que le coefficient de corrlation partielle de

toutes les variables explicatives restantes avec la variable explique soit significatif. 6.3.4 algorithme stepwise. La procdure consiste introduire et exclur des variables explicatives. lintroduction dune variable explicative est effectue suivant lalgorithme ascendant. aprs chaque introduction, on effectue lalgorithme descendant pour exclure une variable dont le coefficient de corrlation partielle serait devenu non significatif. Cet algorithme, comme les deux prcdents, ne donne pas ncessairement le meilleur systme possible de variables explicatives. Sa convergence (la fin des calculs) na dailleurs jamais t montre dans le cas gnral. Il est toutefois lun des plus utiliss.

Exemple : les coefficients de corrlation entre les quatre variables considrs sont donns dans la matrice ci-dessous : ge ge 1.000 achat -0.055 enfants 0.181 revenu 0.673 achat enfants revenu 1.000 0.645 0.115

1.000 0.317

1.000

Le risque de premire espce est fix 10%. On introduit tout dabord la variable ge, dont le carr du coefficient de corrlation (0.6732) est le plus grand, et significatif. On mesure ensuite linformation complmentaire apporte par les autres variables, en calculant par ordinateur les coefficients de corrlation partielle : achat enfants 0.205 0.267

Revenu

On constate que cest la variable enfants qui complte le mieux lge. On effectue un test sur ce coefficient de corrlation partielle : sa probabilit critique est gale 0.069, ce qui signifie quavec un risque de premire espce = 0.1, il caractrise une information

Chapitre 7

page 29

modle linaire

significative du nombre denfants sur le revenu en complment de lge. On introduit donc le nombre denfants parmi les variables explicatives. On continue lanalyse en calculant le coefficient de corrlation partielle entre le revenu et le montant des achats connaissant lge et le nombre denfants. On obtient 0.038. La probabilit critique est gale 0.8014 : le montant des achats nest pas utile dans le modle de rgression. Comparons maintenant le modle partiel (variables explicatives : ge, nombre denfants) au modle complet (variables explicatives : ge, nombre denfants, achats) : Modle partiel Modle complet Coefficient R2 0.4919 0.4926 cart-type rsiduel sans biais 47.47 x 107 48.50 x 107

Le modle partiel est meilleur que le modle complet : la diminution du coefficient de dtermination est compense par le plus petit nombre de variables explicatives qui intervient dans le calcul de lcart type rsiduel sans biais. La rpartition des rsidus est plus proche de la loi normale que les prcdents (nous laissons au lecteur le soin de le vrifier). Le modle final est donc : Revenu 2719.9838 ge + 6234.7837 enfants 7106.6835

CONCLUSION.
La rgression linaire est une des mthodes statistiques les plus utilises, et la facilit avec laquelle les logiciels ou les calculatrices donnent lensemble des rsultats fait souvent ngliger la vrification des hypothses indispensables la validit du modle. Prvoir par exemple le chiffre daffaires dune entreprise en ajustant une droite aux chiffres raliss les quatre ou cinq annes prcdentes na aucune valeur statistique. Prcisons aussi que les notions de cause et deffet rsultent dune analyse qui na rien de statistique : cest un choix que lutilisateur doit effectuer par une approche de nature diffrente, par une analyse conomique ou psychologique par exemple, et la rgression consiste dcrire cette relation mais ne peut ni linverser ni la justifier. Dautres mthodes de rgression existent, dont nous navons pas parl, en particulier la rgression non linaire, quil ne faut pas confondre avec la rgression polynomiale. Ces

Chapitre 7

page 30

modle linaire

mthodes sont beaucoup trop difficiles pour figurer dans cet ouvrage. On trouvera dans les applications pdagogiques de ce chapitre une introduction la rgression borne (ou ridge regression) et la rgression sur composantes principales.

Chapitre 7

page 31

modle linaire

TABLE DES MATIERES 1. MODLE DE RGRESSION SIMPLE..................................................................... 1 1.1 Variable explicative et variable explique............................................................ 1 1.2 Modle de rgression............................................................................................ 2 2. NATURE DE LA LIAISON. GRAPHIQUES. .......................................................... 4 2.1 Nature de la liaison ............................................................................................... 4 2.2 Reprsentation graphique et courbe de rgression. .............................................. 5 3. MODLE LINAIRE. ............................................................................................... 9 3.1 Critre des moindres carrs ................................................................................ 10 3.2 Estimation des coefficients de rgression........................................................... 11 4. TUDE DES RSIDUS........................................................................................... 12 4.1 Rsidus. .............................................................................................................. 12 4.2 Proprits des rsidus. ........................................................................................ 14 5. PRVISIONS. .......................................................................................................... 16 5.1 Estimation et intervalle de confiance de la variance rsiduelle.......................... 16 5.2 Test sur les coefficients de rgression. ............................................................... 17 5.3 Prvision ponctuelle et par intervalle de confiance. ........................................... 19 6. INTRODUCTION A LA RGRESSION LINAIRE MULTIPLE......................... 21 6.1 Modle linaire multiple..................................................................................... 21 6.2 Applications aux modles conomtriques ........................................................ 24 6.2.1 Variables explicatives de la forme Xj = tj.................................................... 24 6.2.2 Variables explicatives de la forme Xj = Yt-j. ............................................... 25 6.2.3 analyse des rsidus....................................................................................... 26 6.3 Les conditions dune bonne rgression linaire multiple. .................................. 26 6.3.1 le meilleur ensemble possible...................................................................... 26 6.3.2 algorithme ascendant. .................................................................................. 27 6.3.3 algorithme descendant. ................................................................................ 27 6.3.4 algorithme stepwise. .................................................................................... 28 CONCLUSION. ........................................................................................................... 29