Vous êtes sur la page 1sur 6

Chapitre 5

M ethode des moindres carr es


Une situation courante en sciences biologiques est davoir ` a sa disposition deux ensembles de donn ees de taille n, {y1 , y2 , . . . , yn } et {x1 , x2 , . . . , xn }, obtenus exp erimentalement ou mesur es sur une population. Le probl` eme de la r egression consiste ` a rechercher une relation pouvant eventuellement exister entre les x et les y , par exemple de la forme y = f (x). Lorsque la relation recherch ee est ane, cest-` a-dire de la forme y = ax + b, on parle de r egression lin eaire. Mais m eme si une telle relation est eectivement pr esente, les donn ees mesur ees ne v erient pas en g en eral cette relation exactement. Pour tenir compte dans le mod` ele math ematique des erreurs observ ees, on consid` ere les donn ees {y1 , y2 , . . . , yn } comme autant de r ealisations dune variable al eatoire Y et parfois aussi les donn ees {x1 , x2 , . . . , xn } comme autant de r ealisations dune variable al eatoire X . On dit que la variable Y est la variable d ependante ou variable expliqu ee et que la variable X est la variable explicative .

5.1

La droite des moindres carr es

Les donn ees {(xi , yi ), i = 1, . . . , n} peuvent etre repr esent ees par un nuage de n points dans le plan (x, y ), le diagramme de dispersion. Le centre de gravit e de ce nuage peut se calculer 1 n 1 n facilement : il sagit du point de coordonn ees (x, y ) = ( n i=1 xi , n i=1 yi ). Rechercher une relation ane entre les variables X et Y revient ` a rechercher une droite qui sajuste le mieux possible ` a ce nuage de points. Parmi toutes les droites possibles, on retient celle qui jouit dune propri et e remarquable : cest celle qui rend minimale la somme des carr es des ecarts des valeurs observ ees yi ` a la droite y i = axi + b. Si i repr esente cet ecart, appel e aussi r esidu, le principe des moindres carr es ordinaire (MCO) consiste ` a choisir les valeurs de a et de b qui minimisent
n n

E=
i=0

2 i

=
i=0

(yi (axi + b))2 .

Un calcul montre que ces valeurs, not ees a et b, sont egales ` aa =

y a x. On exprime souvent a au moyen de la variance de X , s2 x , et de la covariance des variables 33

n (x x)(yi y ) i=1 i n (x x)2 i=1 i

et b=

34

CHAPITRE 5. METHODE DES MOINDRES CARRES

Fig. 5.1 Illustration de la formule DT=DA+DR. La droite horizontale passe par le centre de gravit e du nuage ; la premi` ere gure repr esente la dispersion totale DT, la seconde la dispersion due ` a la regression DR (nulle si la pente de la droite des moindres carr es est nulle et importante si cette pente est forte) et la troisi` eme la dispersion autour de la droite, ou dispersion r esiduelle. al eatoires X et Y , covxy :
2 a = covxy /s2 x , avec sx =

1 n 1 n (xi x)2 et covxy = (xi x)(yi y ). n i=1 n i=1

5.2

Evaluation de la qualit e de la r egression

Pour mesurer la qualit e de lapproximation dun nuage (xi , yi )i=1..n par sa droite des moindres carr es (apr` es tout on peut toujours faire passer une droite par nimporte quel nuage !), on calcule son coecient de corr elation lin eaire d eni par rxy = covxy . sx sy

Cest un nombre compris entre 1 et +1, qui vaut +1 (resp. 1) si les points du nuage sont exactement align es sur une droite de pente a positive (resp. n egative). Ce coecient est une mesure de la dispersion du nuage. On consid` ere que lapproximation dun nuage par sa droite des moindres carr es est de bonne qualit e lorsque |rxy | est proche de 1 (donc rxy proche de +1 ou de 1) et de m ediocre qualit e lorsque |rxy | est proche de 0. En pratique on estime souvent 3 la r egression acceptable lorsque |rxy | 2 = 0, 75 = 0.866 . . . . Parfois on pr ef` ere calculer non plus rxy mais son carr e not e R2 = rxy rxy car on a la relation suivante (voir gure 5.2) : (yi y)2 = (yi y i )2 + ( yi y )2

qui exprime que la dispersion totale de Y (DT) est egale ` a la dispersion autour de la r egression (DA) plus la dispersion due ` a la r egression (DR). Or on peut v erier que lon a R2 = DR DT , 2 cest-` a-dire que le R repr esente la part de la dispersion totale de Y que lon peut expliquer par la r egression. Ainsi si lon obtient une valeur de R2 = 0, 85 (et donc r = 0, 92 . . .), cela signie que la mod elisation par la droite des moindres carr es explique 85% de la variation totale, ce qui est un tr` es bon r esultat. Cependant, m eme avec un R2 excellent (proche de 1), notre mod` ele lin eaire peut encore etre rejet e. En eet, pour etre assur e que les formules donn ees a et b fournissent de bonnes estimations de la pente et de lordonn ee ` a lorigine de la droite de r egression, il est n ecessaire que les r esidus i soient ind ependant et distribu es al eatoirement autour de 0. Ces hypoth` eses ne sont pas forc ement faciles ` a v erier. Un trac e des r esidus et un examen de leur histogramme permet de d etecter une anomalie grossi` ere mais il faut faire appel ` a des techniques statistiques plus elabor ees pour tester r eellement ces hypoth` eses (ce que nous ne ferons pas ici).

5.3. PREVISIONS

35

5.3

Pr evisions

b est la droite des moindres carr es dun nuage de points (xi , yi )i=1..n , on appelle Si y = a x + valeurs pr edites de y par le mod` ele les valeurs y i := a xi + b. Notons cependant que sil peut sembler naturel dutiliser une valeur pr edite pour compl eter les donn ees initiales dans lintervalle des valeurs de X , on se gardera de pr edire sans de multiples pr ecautions suppl ementaires des valeurs de X en dehors de cet intervalle. En eet il se peut que la relation entre X et Y ne soit pas du tout lin eaire mais quelle nous soit apparue comme telle a tort parce que les xi sont proches les uns des autres. `

5.4

Remarques

Pour nir voici quelques remarques : 1. Certains ne manqueront pas d etre surpris du fait qu` a cot e des d enitions de la variance et de la covariance que nous avons donn ees on trouve dans certains ouvrages (ou dans 1 les calculettes) une autre d enition dans laquelle le facteur n a et e remplac e par le fac1 teur n1 . Disons que notre d enition est la d enition de la variance (ou la covariance) 1 th eorique alors que celle qui comporte un facteur n enition de la variance (ou la 1 est la d covariance) empirique. La premi` ere est celle que lon utilise lorsque n est leectif total de la population alors que la seconde est celle que lon utilise lorsque lon estime la variance (ou la covariance) sur un echantillon de taille n beaucoup plus petite que la taille totale. De toute fa con, dans le cadre de la r egression lin eaire, on notera que tant pour le calcul de a que dans celui de rxy , le r esultat sera le m eme que lon utilise lune ou lautre de ces formules. 2. Dans le calcul de la droite des moindres carr es, les variables X et Y ne jouent pas des r oles interchangeables. La variable d ependante Y prend, comme son nom lindique, des valeurs qui d ependent de celles de X . Dailleurs si lon echange les r oles de X et de Y , on calcule une approximation lin eaire de la forme x = a y + b , le crit` ere des MCO est 2 , et ce nest plus le m alors E = n ( x ( a y + b )) e me et la droite que lon obtient en i i=1 i g en eral. Cette droite, tout comme la pr ec edente, passe par le centre de gravit e du nuage de point, mais cest g en eralement leur seul point commun. Cest le probl` eme consid er e qui indique sil faut consid erer Y ou plut ot X comme variable d ependante (et lautre comme variable explicative). Mais si lon sint eresse aux interactions entre deux variables X et Y dont ni lune ni lautre nest clairement d ependante de lautre, alors on pourra choisir de r egresser Y en fonction de X ou bien le contraire. Mais on ne doit pas sattendre ` a obtenir les m emes r esultats. (Exercice : montrer que les deux droites de r egression sont egales si et seulement si aa = 1.) 3. On appelle donn ee eloign ee (outlier) un point du nuage situ e` a l ecart. Sil est eloign e dans la direction de y , il lui correspondra un important r esidu. Sil est eloign e dans la direction des x, il peut pr esenter un tr` es petit r esidu et en m eme temps avoir une grande inuence sur les valeurs de a et b trouv ees. On appelle donn ee inuente un point du nuage dont loubli conduirait ` a une droite des moindres carr es bien di erente. Cest souvent le cas des donn ees eloign ees dans la direction des x. 4. Attention ` a ne pas d eduire trop hativement de la pr esence dune liaison entre deux variables une relation de cause ` a eet ! Si quelquun devait suivre le degr e de murissement des p eches et des abricots (par dosage de l ethyl` ene ou du fructose), il trouverait certainement une relation lin eaire entre les deux. Mais le murissement des abricots ninue pas sur celui des p eches ; ni linverse dailleurs. Par contre, les oscillations du niveau du lac Tchad (Afrique centrale) ont bel et bien leur source dans le cycle de 11 ans de lactivit e solaire avec lequel elles sont parfaitement corr el ees. Prudence donc.

36

CHAPITRE 5. METHODE DES MOINDRES CARRES

5.5

Exercices

Exercice 1 : On poss` ede 6 sp ecimens fossiles dun animal disparu et ces sp ecimens sont de tailles di erentes. On estime que si ces animaux appartiennent ` a la m eme esp` ece il doit exister une relation lin eaire entre la longueur de deux de leurs os, le f emur et lhum erus. Voici les donn ees de ces longueurs en cm pour les 5 sp ecimens poss edant ces deux os intacts : f emur hum erus 38 41 56 63 59 70 64 72 74 84

1. Tracer le nuage de point correspondant ` a ces donn ees. Pensez-vous que les 5 sp ecimens peuvent appartenir ` a la m eme esp` ece et ne di erer en taille que parce que certains sont plus jeunes que dautres ? 2. Calculer ` a laide de votre calculette mx , my , sx , sy et covxy . En d eduire l equation de la droite des moindres carr es. Contr oler vos calculs en superposant son graphe au nuage de points. 3. Calculer le coecient de corr elation lin eaire r . Quen concluez-vous ? 4. Reprenez les 2 questions pr ec edentes en eectuant directement la regression lin eaire au moyen de votre calculette. V erier que vos r esultats sont identiques. Exercice 2 : 1. Simuler au moyen de la fonction Random de votre calculette une suite de n = 15 nombres al eatoires (i )i=1,..n compris entre 0 et 1. Puis calculer les nombres i := 2i 1. 2. Calculer la moyenne m des i et les remplacer par i m si n ecessaire pour avoir une suite centr ee, puis calculer l ecart type de cette suite. Pouviez-vous deviner sa valeur approximative ? 3. On choisit pour (xi ) la suite 0 ; 0, 25 ; 0, 5 ; 0, 75 ; 1 ; 1, 25 ; 1, 5 ; 1, 75 ; 2 ; 2, 25 ; 2, 5 ; 2, 75 ; 3 ; 3, 25 ; 3, 5 et pour (yi ) la suite yi = 2xi + 3 + i . Calculer la droite de regression du nuage (xi , yi ). Commentez. 4. Repr esenter les r esidus et calculer la moyenne des carr es des r esidus. 5. Repr esenter lhistogramme des r esidus. Exercice 3 : Pour etudier les probl` emes de malnutrition dans un pays pauvre, on a calcul e le poids moyen par age dun echantillon de 2400 enfants r epartis uniform ement en 12 classes dage. On a obtenu les donn ees suivantes : age poids 1 4,3 2 5,1 3 5,7 4 6,3 5 6,8 6 7,1 7 7,2 8 7,2 9 7,2 10 7,2 11 7,5 12 7,8

1. Un statisticien press e a fait calculer par sa machine la droite des moindres carr es pour ces donn ees et a trouv e la relation poids = 4, 88 + 0, 267age. Sest-il tromp e? 2. A votre avis, quelle est la pertinence de son mod` ele ? 3. Calculer puis tracer les r esidus. Vous constaterez que deux r esidus successifs sont beaucoup plus souvent du m eme signe que du signe oppos e. Ceci nest pas compatible avec le fait quils soient suppos es ind ependants. On dit que les r esidus sont autocorr el es. Cest une raison de rejeter le mod` ele. Exercice 4 : Lune des rares lois que lon a pu mettre en evidence en Ecologie est la relation existant entre le nombre N desp` eces pr esentes dans un habitat donn e (bien d elimit e) et la surface S de cet habitat. On consid` ere g en eralement que cette relation est de la forme N = AS B (5.1)

5.5. EXERCICES

37

o` u A et B sont deux constantes. An de v erier cette relation pour les plantes pr esentes dans une prairie (pissenlit, paquerettes, orties, boutons dor, ...), on a eectu e les mesures indiqu ees dans le premier tableau ci-dessous. On a repr esent e sur la premi` ere gure cidessous les valeurs de N en fonction de celles de S et sur la deuxi` eme les valeurs de sur = ln(S ). On voit que la regression lin = ln(N ) en fonction de celles de S eaire de N N S a donn e: = 0, 2199S + 1, 7432 avec R2 = 0, 9684 N (5.2)

1. Pourquoi na-t-on pas eectu e directement une r egression lin eaire de N sur S ? Expliquez lint eret de cette transformation des donn ees. 2. Que repr esente R2 et que peut-on d eduire de sa valeur ? 3. A partir de la r egression lin eaire (5.2), calculer les constantes A et B de la relation (5.1). ce mod` = ln(128) ? En comparant avec 4. Quelle valeur N ele lin eaire pr edit-il pour S la valeur de S observ ee, calculer le r esidu en ce point. ce mod` = ln(100) ? En d 5. Quelle valeur N ele lin eaire pr edit-il pour S eduire le nombre desp` eces pouvant coexister dans un habitat de surface S = 100, selon ce mod` ele. Exercice 5 : On a mesur e sur un peuplement de bouleau blanc (Betula alba) dans le Massif Central les circonf erences des troncs de 21 individus ` a la hauteur de 1.3 mtres du sol (indice DBH). Dans le m eme temps, un carottage des arbres a permis destimer leurs ages respectifs. De cet ensemble de donn ees on a extrait les donn ees des arbres dages 1 ` a 120 par pas de 20 ans. Par ailleurs on a constat e sur le terrain que les arbres se r epartissent en trois cat egories : les arbres les plus hauts (dominants), les arbres moyens (codominants) et les arbres plus petits, sous le couvert des autres : les domin es. 1. Tracez sur un m eme graphique les trois courbes repr esentant la circonf erence des troncs en fonction de lage. Que constate-t-on et comment interpr etez-vous les di erences constat ees ? Que pensez-vous de lallure des courbes ? Quel type de fonction peut-on envisager dajuster ? 2. On souhaite v erier que la croissance en circonf erence des troncs peut etre mod elis e par une exponentielle satur ee de la forme y (t) = ymax (1 exp(rt)) o` u y (t) est la circonf erence linstant t, ymax la valeur maximale que la circonf erence peut prendre, r un taux de croissance en circonf erence et t le temps. Les valeurs de ymax ont et e estim ees empiriquement ` a 86.4 cm, 65.43 cm et 36.00 cm pour chacune des trois cat egories darbres. En remarquant que, dapr` es lexpression de y (t), la quantit e ln(y (t) ymax ) d epend de fa con lin eaire de t, estimez au moyen dune regression lin eaire le param` etre r pour chacun des trois mod` eles. V eriez sur lun des trois r esultats la bonne qualit e de lajustement des donn ees.

38 Ages Dominants Domin es Codominants

CHAPITRE 5. METHODE DES MOINDRES CARRES 1 1, 26 1, 27 1, 29 20 22, 29 16, 02 22, 14 40 40, 09 29, 42 35, 69 60 56, 15 31, 61 49, 23 80 63, 49 35, 61 56, 88 100 71, 69 35, 69 60, 43 120 81, 08 35, 93 63, 74

5.6

A propos de lexercice 4 du chapitre 3

Voici le traitement par exel des donn ees de cet exercice. Excel a ajust e une droite aux taux de croissance mesur es. La droite obtenue a pour equation y = 0, 0026x + 0, 6588 (o` u exel note Y t x pour les biomasse Yt et y pour les taux Yt+1 ). On en d e duit le calibrage r = 0, 6588 et Yt 0,6588 K = 0,0026 = 253, 4 . . . .

5.7

... et quatre exemples de regressions peu convaincantes

Voici pour nir quatre jeux de donn ees et leur r egression lin eaire. Ces jeux de donn ees ont et e choisit de mani` ere a d enir la m eme droite de regressions, et avec le m eme coecient de corr elation R2 . De gauche ` a droite et de haut en bas, le premier jeu de donn ee est, au mieux, tr` es bruit e mais on peu douter que les donn ee soient li ees par une relation ane. Le second jeux correspond assez clairement ` a une relation quadratique : cest une courbe y = ax2 + bx + c quil conviendrait dajuster. Dans le troisi` eme jeux tous les points sauf un semblent align es. Il y a visiblement un point ab errant dont il faudrait v erier la provenance (ou la saisie dans le logiciel !) ; la situation est semblable pour le dernier echantillon. Moralit e : la regression lin eaire donne (presque) toujours une droite, mais il convient de regarder le r esultat pour d ebusquer les situations par trop absurdes.