Vous êtes sur la page 1sur 117

NATHALIE VANDAL

La rgression non paramtrique multidimensionnelle e e


Thorie et application ` une tude portant sur la densit e a e e mammaire

Mmoire prsent e e e ` la Facult des tudes suprieures de lUniversit Laval a e e e e dans le cadre du programme de ma trise en statistique pour lobtention du grade de Ma `s sciences (M.Sc.) tre e

FACULTE DES SCIENCES ET DE GENIE LAVAL UNIVERSITE QUEBEC

dcembre 2005 e

c Nathalie Vandal, 2005

Rsum e e
La rgression non paramtrique est un outil statistique permettant de dcrire la e e e relation entre une variable dpendante et une ou plusieurs variables explicatives, sans e spcier de forme stricte pour cette relation. Dans ce mmoire, on prsente dabord e e e la thorie entourant la rgression non paramtrique univarie ainsi que direntes e e e e e mthodes destimation, en mettant laccent sur les fonctions de lissage loess et les splines e de rgression. On traite ensuite de lajustement de relations multidimensionnelles, en e sintressant plus particuli`rement aux mthodes GAM, polyMARS et MARS. On ape e e plique nalement ces derni`res ` une tude portant sur la relation entre la densit e a e e mammaire et deux facteurs de croissance analogues ` linsuline, IGF-I et IGFBP-3, ce a qui permet de mettre en vidence les avantages de la rgression non paramtrique, mais e e e aussi les dicults rencontres lors de son application. e e

Avant-propos
Mes premiers remerciements sadressent ` mon directeur de recherche, Monsieur a Louis-Paul Rivest, professeur au dpartement de mathmatiques et de statistique de e e lUniversit Laval, pour son indispensable soutien tout au long de la ralisation de mon e e mmoire. Jai beaucoup apprci travailler sous sa direction, dautant plus que ceci ma e e e permis dapprofondir mes connaissances grce ` ses judicieux conseils. Je dsire aussi a a e remercier mon co-directeur, Monsieur Belkacem Abdous, professeur au dpartement de e mdecine sociale et prventive de lUniversit Laval, qui a propos ce projet et qui sest e e e e lui aussi montr tr`s ` lcoute. Je tiens aussi ` remercier Monsieur Jacques Brisson, e e a e a chercheur ` lUnit de recherche en sant des populations de lHpital du St-Sacrement, a e e o qui ma permis danalyser les donnes dune tude quil a mene, portant sur la densit e e e e mammaire et qui sest montr tr`s intress par mes travaux. e e e e Par ailleurs, je tiens ` adresser un merci tout particulier ` Caroline Diorio, tudiante a a e au doctorat en pidmiologie ` lUniversit Laval, qui mest venue en aide ` plusieurs e e a e a reprises pour la comprhension et le traitement des donnes analyses dans ce mmoire. e e e e De plus, elle a toujours fait preuve dune grande disponibilit et dun intrt marqu e ee e pour mon travail et ma conseill pour lcriture de certaines parties de mon mmoire. e e e De mme, je voudrais souligner la gnrosit de Nicole Vzina, qui ma oert de corriger e e e e e lorthographe de mon mmoire. e Sur un plan plus personnel, je voudrais souligner le soutien inconditionnel de toute ma famille qui ma accompagne tout au long de mes tudes. Je souhaite donc remercier e e mes parents, ma soeur et mes fr`res qui mont toujours encourage dans mes tudes et e e e mont appuye tant dans les bons que dans les moins bons moments. Dun autre ct, e oe je tiens particuli`rement ` remercier mon amoureux Martin, sans qui la ralisation de e a e cet ouvrage aurait sans doute t beaucoup plus ardue. Il a fait preuve dun extrme ee e support en tout temps, autant du point de vue moral que technique. Ainsi, il ma permis de passer plus facilement au travers des parties plus diciles et ma t dun ee grand secours lorsque jai prouv des probl`mes dordre informatique. e e e

iv Finalement, jaimerais remercier le Fonds de recherche sur la nature et les technologies du Qubec qui ma octroy une bourse dtude de deuxi`me cycle, ce qui ma permis e e e e de me consacrer pleinement ` mes tudes pendant toute la dure de ma ma a e e trise.

Table des mati`res e


Rsum e e Avant-Propos Table des mati`res e Liste des tableaux Table des gures 1 Introduction 2 La rgression non paramtrique univarie e e e 2.1 Prsentation gnrale des fonctions de lissage . . . . . . . . . . . . . e e e 2.1.1 La dualit biais-variance . . . . . . . . . . . . . . . . . . . . e 2.1.2 Matrice de lissage et degrs de libert . . . . . . . . . . . . . e e 2.1.3 Les crit`res de slection automatique du param`tre de lissage e e e 2.1.4 Traitement des galits dans la variable prdictive . . . . . . e e e 2.1.5 Tests approximatifs pour comparer des fonctions de lissage . 2.1.6 Mthodes diagnostiques . . . . . . . . . . . . . . . . . . . . e 2.2 La mthode loess . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 2.2.1 Forme de lestimateur loess . . . . . . . . . . . . . . . . . . 2.2.2 Ajustement dun estimateur loess avec R . . . . . . . . . . . 2.3 Les splines de rgression . . . . . . . . . . . . . . . . . . . . . . . . e 2.3.1 Forme de lestimateur des splines de rgression . . . . . . . . e 2.3.2 Estimation des param`tres . . . . . . . . . . . . . . . . . . . e 2.3.3 B-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Autres mthodes de rgression non paramtrique univarie . . . . . e e e e 2.4.1 Les splines de lissage . . . . . . . . . . . . . . . . . . . . . . 2.4.2 La mthode du noyau . . . . . . . . . . . . . . . . . . . . . e 2.4.3 La rgression par partitionnement . . . . . . . . . . . . . . . e 3 La rgression non paramtrique multidimensionnelle e e ii iii vi viii ix 1 5 6 7 8 10 12 12 13 14 14 19 20 20 22 25 26 26 28 29 31

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

vi 3.1 Les mod`les additifs gnraliss . . . . . . . . . . . . . . . . . e e e e 3.1.1 Estimation des mod`les GAM . . . . . . . . . . . . . . e 3.1.2 Forme des estimateurs j . . . . . . . . . . . . . . . . . 3.1.3 Degrs de libert pour les mod`les GAM . . . . . . . . e e e 3.1.4 Ajustement dun estimateur loess avec R . . . . . . . . 3.1.5 Notes supplmentaires . . . . . . . . . . . . . . . . . . e Les splines de rgression multivaries . . . . . . . . . . . . . . e e La mthode polyMARS . . . . . . . . . . . . . . . . . . . . . . e 3.3.1 Thorie des ELM . . . . . . . . . . . . . . . . . . . . . e 3.3.2 Description de la mthode polyMARS . . . . . . . . . e 3.3.3 Restrictions dans la mthode polyMARS . . . . . . . . e 3.3.4 Application de polyMARS . . . . . . . . . . . . . . . . La mthode MARS . . . . . . . . . . . . . . . . . . . . . . . . e 3.4.1 La rgression par partitionnement rcursif . . . . . . . e e 3.4.2 Description de la mthode MARS . . . . . . . . . . . . e 3.4.3 Application de MARS . . . . . . . . . . . . . . . . . . Autres mthodes multidimensionnelles . . . . . . . . . . . . . e 3.5.1 La mthode Triogram . . . . . . . . . . . . . . . . . . e 3.5.2 Fonctions de lissage loess et noyaux multidimensionnels 3.5.3 Les splines de lissage ` plaques minces . . . . . . . a 3.5.4 Autres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 33 35 36 36 37 38 39 39 40 43 45 46 46 47 50 51 51 54 55 56

3.2 3.3

3.4

3.5

4 Application des mthodes de rgression non paramtrique ` une tude e e e a e 57 portant sur la densit mammaire e 4.1 Mod`les univaris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e 60 4.1.1 Analyse des facteurs de croissance . . . . . . . . . . . . . . . . . 62 4.2 Etude de la relation entre la densit mammaire et les facteurs de croise sance IFG-I et IGFBP-3 . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2.1 Mod`les paramtriques . . . . . . . . . . . . . . . . . . . . . . . e e 65 4.2.2 Mod`les non paramtriques . . . . . . . . . . . . . . . . . . . . e e 68 4.2.3 Conclusions de ltude . . . . . . . . . . . . . . . . . . . . . . . e 86 4.3 Comparaison de polyMARS et MARS . . . . . . . . . . . . . . . . . . . 88 4.4 Rsum des rsultats obtenus dans ce chapitre . . . . . . . . . . . . . . 101 e e e 5 Conclusion Bibliographie 103 108

Liste des tableaux


1.1 Description des variables utilises dans cet ouvrage provenant de ltude e e portant sur la densit mammaire, ralise aupr`s de 783 femmes prme e e e e e nopauses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Dnition de dirents noyaux . . . . . . . . . . . . . . . . . . . . . . . e e Statistiques descriptives. . . . . . . . . . . . . . . . . . . . . . . . . . . Description des mod`les ajusts ` la section 4.2. . . . . . . . . . . . . . e e a Dnition des variables catgoriques utilises dans les mod`les 1 et 2. . e e e e Rsultats de lajustement du Mod`le 1 . . . . . . . . . . . . . . . . . . e e Seuils observs des comparaisons multiples des composantes de lintere action QIGF -I QIGF BP -3 du Mod`le 1. . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 3. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 4. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5 (en se restreignant aux interactions de e second degr). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5 (sans restriction sur les interactions). . . e Description des mod`les ajusts ` la section 4.3. . . . . . . . . . . . . . e e a Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 6. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste un mod`le 6. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 8. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste un mod`le 8. . . . . . . . . . . . . . . . . . . . . . . e Rsum des caractristiques des estimateurs ajusts dans le Chapitre 4. e e e e

4 29 60 64 65 66 66 74 77 78

2.1 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9

83 84 88 89 94 97 99 102

4.10 4.11 4.12 4.13 4.14 4.15 4.16

Table des gures


2.1 2.2 2.3 2.4 Graphique de dispersion pour les variables DENSITE et POIDS de la base de donnes sur les densits mammaires . . . . . . . . . . . . . . . e e Illustration de la dualit biais-variance. . . . . . . . . . . . . . . . . . . e Illustration de la mthode loess. . . . . . . . . . . . . . . . . . . . . . . e Illustration des dirences engendres par lutilisation de polynmes de e e o degr 1 ou 2 dans la mthode loess pour deux valeurs de param`tre de e e e lissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Illustration de splines de rgression de dirents degrs appliques aux e e e e de la base de donnes sur les densits mamvariables IMC et DENSITE e e maires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Illustration des fonctions splines de lissage obtenues en xant direntes e valeurs de degrs de libert, tels que dnis en (2.3), pour lestimation e e e de la relation entre la densit mammaire et lindice de masse corporelle. e Illustration de leet de lalgorithme backtting sur lestimation de la relation entre la densit mammaire et les facteurs de croissances, IGF-I e et IGFBP-3, ` laide de fonctions de lissage loess utilisant un span = 0.5 a Exemple de triangulation possible pour lajout dun sommet. . . . . . . Reprsentation gomtrique des coordonnes barycentriques. . . . . . . e e e e Exemple de mammographie. . . . . . . . . . . . . . . . . . . . . . . . . Graphique de dispersion pour les variables IGF-I et IGFBP-3. . . . . . Graphiques de dispersion pour chacune des variables indpendantes de e la base de donnes sur les densits mammaires par rapport ` la variable e e a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . rponse DENSITE. e Mod`les univaris pour les variables IGF-I et IGFBP-3. . . . . . . . . . e e Moyennes ajustes avec le mod`le 1 pour chaque combinaison de tertiles e e des variables IFG-I et IFGBP-3. . . . . . . . . . . . . . . . . . . . . . . Graphiques de dispersion de la densit mammaire en fonction de chaque e covariable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec la mthode GAM e e lorsque lon ajuste le mod`le 3. . . . . . . . . . . . . . . . . . . . . . . e 6 8 16

18

2.5

22

2.6

27

3.1

3.2 3.3 4.1 4.2 4.3

34 52 54 58 59

4.4 4.5 4.6 4.7

61 63 67 69 72

ix 4.8 4.9 4.10 4.11 4.12 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 3. . . . . . e e Reprsentations graphiques de lestimateur obtenu avec la mthode GAM e e lorsque lon ajuste le mod`le 4. . . . . . . . . . . . . . . . . . . . . . . e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 4. . . . . . e e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5. . . . . . e e Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (en se restreie e gnant aux interactions de second degr). . . . . . . . . . . . . . . . . . e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (sous e e formes bivaries pour la comparaison avec lestimateur MARS du mod`le e e 5 prsent ` la gure 4.12). . . . . . . . . . . . . . . . . . . . . . . . . . e ea Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (sans restrice e tion sur les interactions). . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste un mod`le additif e e (mod`le 6). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste un mod`le additif (mod`le e e e 6). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec GAM lorsque e lon ajuste un mod`le additif (mod`le 6) en utilisant des fonctions de e e lissage loess avec un span de 0.4 . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec GAM lorsque e lon ajuste un mod`le additif (mod`le 6) en utilisant des fonctions de e e lissage loess avec un span de 0.8 . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques des estimateurs obtenus pour un mod`le bie e vari (mod`le 7). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 8. . . . . . e e Reprsentations graphiques des interactions impliquant IGFBP-3 avec e les variables IMC et POIDS, estimes par MARS pour le mod`le 8 avec e e un param`tre de lissage de 1.2. . . . . . . . . . . . . . . . . . . . . . . e

73 75 76 79

81

4.13

82

4.14

85

4.15

90

4.16

91

4.17

92

4.18

93 95 98

4.19 4.20 4.21

100

Chapitre 1 Introduction
En recherche, toutes disciplines confondues, on sintresse souvent ` dcrire et ` come a e a prendre les relations qui caractrisent certaines variables. Dans ce cas, la ralisation de e e ltude fait gnralement appel ` des mthodes statistiques, puisquelles permettent e e e a e dobtenir des mod`les qui tiennent compte dune certaine partie de hasard dans les obe servations obtenues. Bien entendu, les qualits descriptives du mod`le retenu dpendent e e e de plusieurs facteurs, par exemple, la qualit du plan dexprience, la taille de lchantile e e lon et la qualit de la prise des mesures, avec lesquels le statisticien doit composer e une fois les donnes recueillies. Par ailleurs, les mthodes statistiques reposent hae e bituellement sur des postulats qui doivent tre respects pour que le mod`le obtenu e e e soit valide. La plupart des mthodes dveloppes au dbut de lapparition de la stae e e e tistique et encore utilises de nos jours font appel ` des postulats contraignants qui e a restreignent considrablement ltendue des applications que lon peut en faire. Heue e reusement, laugmentation constante de la puissance de calculs des ordinateurs permet dassouplir certains de ces postulats et ainsi dobtenir des mod`les exibles suscepe tibles de bien reprsenter la ralit. Les mthodes de rgression non paramtrique sont e e e e e e un bon exemple de lapport des outils informatiques dans lavancement des mthodes e statistiques et certaines dentre elles seront prsentes dans ce mmoire. e e e Lorsque lon veut tudier la relation entre une variable dpendante Y et une variable e e explicative X, la mthode de prdilection en statistique est la rgression linaire. Cette e e e e derni`re, lorsquelle est approprie, est tr`s pratique puisquelle suppose un mod`le e e e e simple, de la forme yi = 0 + 1 xi + i . (1.1) Elle poss`de donc lavantage dtre facile ` interprter et ` calculer. De plus, lorsque les e e a e a postulats sur les rsidus i sont vris, elle permet de faire des tests sur les param`tres. e e e e Par contre, la rgression linaire implique un postulat tr`s restrictif, soit la linarit de e e e e e

Chapitre 1. Introduction

la relation. Il arrive frquemment que ce postulat ne soit pas respect, souvent de faon e e c plus vidente lorsque lon poss`de un nombre important de donnes. Dans ce cas, le e e e chercheur dsire habituellement obtenir un mod`le plus complexe, qui re`te mieux la e e e relation entre Y et X. Une premi`re faon dy arriver est de spcier une autre forme e c e paramtrique pour cette relation, par exemple faire de la rgression polynomiale ou e e eectuer une transformation des observations. Il y a alors une multitude de transformations envisageables et puisque le mod`le transform garde toujours une forme prcise, le e e e travail ncessaire pour trouver la bonne relation devient rapidement laborieux. Heureue sement, lavancement de la technologie a permis limplantation de nouvelles mthodes e de rgression plus souples, qui laissent les donnes choisir la forme de la relation entre e e les variables. Ces mthodes sont regroupes sous le nom de rgression non paramtrique. e e e e Le principal avantage de la rgression non paramtrique est quelle ne suppose aue e cune forme spcique pour lestimateur, ce qui lui donne beaucoup plus de exibilit. e e Elle peut donc tre utilise pour dcrire la relation entre deux variables lorsque le mod`le e e e e linaire ne sapplique pas, ou pour suggrer la forme que devrait prendre un mod`le de e e e rgression paramtrique. Il existe plusieurs mthodes de rgression non paramtrique. e e e e e Les plus connues sont srement les fonctions de lissage loess, la mthode du noyau, ainsi u e que les fonctions splines qui, ` elles seules, caractrisent plus dun type destimateur a e e (voir Wegman et Wright (1983)) dont les splines de rgression et les splines de lissage. Ces mthodes permettent toutes de contrler la exibilit de lestimateur. Toutefois, e o e cette exibilit a un prix et toutes les mthodes non paramtriques doivent composer e e e avec la dualit biais-variance. En eet, le fait de suivre plus d`lement les donnes e e e augmente la variance de lestimateur, alors que lutilisation dun estimateur plus lisse augmente le biais. Puisquen recherche, on dsire habituellement obtenir le maximum dinformation sur e le phnom`ne tudi, il nest pas rare de vouloir analyser linuence que poss`dent simule e e e e tanment plusieurs variables explicatives sur la variable dpendante qui nous intresse. e e e La solution naturelle pour la majorit des chercheurs et statisticiens est dutiliser la e rgression linaire multiple. Cette gnralisation de la rgression linaire simple poss`de e e e e e e e non seulement ses avantages, mais galement son principal dfaut, ` savoir la linarit e e a e e de la relation. Cette limitation est dautant plus importante dans le cas multivari, e puisque cette hypoth`se implique alors que la forme de la relation est un hyperplan e dans un espace de dimension gale au nombre de variables impliques dans la relation. e e On se retrouve donc avec un mod`le de moins en moins exible ` mesure que le nombre e a de variables explicatives augmente. La solution idale ` ce probl`me est probablement e a e une version multivarie de la rgression non paramtrique qui permettrait dobtenir e e e un estimateur pouvant prendre nimporte quelle forme. Toutefois, la gnralisation des e e mod`les de rgression non paramtrique ` une version multivarie nest pas toujours e e e a e

Chapitre 1. Introduction

vidente. En eet, le passage dune ` plusieurs variables explicatives entra bien soue a ne vent des probl`mes de conceptualisation. Par exemple, certaines mthodes ncessitent e e e que lon dnisse le concept de distance entre deux points en dimension p. De faon e c gnrale, lorsque lon se limite ` p = 2, la gnralisation peut se faire sans trop de e e a e e dicults. e Le probl`me de la dimensionnalit entra aussi le probl`me dinteraction entre e e ne e les variables explicatives. Les mthodes telles que les fonctions de lissage loess et la e rgression par noyau permettent dtudier linteraction entre deux variables sans avoir e e ` modier la forme de lestimateur, mais en prenant pour acquis que les distances entre a les points ont t mesures adquatement. Les splines de lissage peuvent aussi modliser ee e e e les interactions entre les variables explicatives, mais encore une fois, le rsultat obtenu e dpend dune certaine faon de la dnition du crit`re utilis pour calculer lestimateur. e c e e e Finalement dans certains autres cas, on doit ajouter des termes au mod`le, comme dans e la rgression linaire multiple, si on veut tenir compte de linteraction entre les variables e e explicatives. La motivation pour la ralisation de ce mmoire vient dune tude ralise ` lUnit e e e e e a e de recherche en sant des populations (situe ` lHpital du Saint-Sacrement ` Qubec). e e a o a e Cette derni`re a pour but de comprendre la relation qui lie la densit mammaire, le e e facteur de risque associ au cancer du sein le plus important connu ` ce jour, ` deux e a a facteurs de croissance prsents dans lorganisme, IGF-I et IGFBP-3. Ltude a permis e e de rassembler un chantillon de 783 femmes prmnopauses sur lesquelles on a prlev e e e e e e les mesures suivantes : le pourcentage de densit mammaire dtermin ` laide dune e e ea mammographie, le dosage dans le sang de chacun des facteurs de croissance, lge, a le poids, la taille et lindice de masse corporelle dni par le rapport du poids (en e e kilogrammes) sur le carr de la taille (en m`tres). Le tableau 1.1 prsente la description e e de ces variables, qui composent la base de donnes utilise dans cet ouvrage. Il sav`re e e e que les mod`les de rgression linaire multiple ne permettent pas de dcrire de faon e e e e c assez prcise la relation ` ltude et que les mod`les de rgression non paramtrique e a e e e e seraient plus appropris, ce qui est de plus en plus le cas dans les tudes biologiques. e e e e e Le chapitre 2 traite de la thorie et des principales mthodes de rgression non paramtrique univarie en mettant laccent sur les fonctions de lissage de type loess e e ainsi que les splines de rgression. Le chapitre 3 aborde la thorie concernant lestie e mation de relations multidimensionnelles en sattardant sur les mod`les GAM (Hastie e et Tibshirani, 1990) et sur deux mthodes ajustant des splines de rgression multie e varies, soient polyMARS (Stone et al., 1997) et MARS (Friedman, 1991). Puisquil e existe un nombre indtermin de mthodes de rgression non paramtrique multidie e e e e mensionnelles, on a d se restreindre ` en choisir seulement quelques-unes. Celles qui u a

Chapitre 1. Introduction

Tab. 1.1 Description des variables utilises dans cet ouvrage provenant dune tude e e portant sur la densit mammaire, ralise aupr`s de 783 femmes prmnopauses. e e e e e e e Nom Description DENSITE Pourcentage de densit mammaire (consule e ter le chapitre 4 pour obtenir la dnition compl`te). e Dosage en ng/ml du facteur de croissance analogue ` linsuline I. a Dosage en ng/ml du facteur de croissance analogue ` linsuline binding protein-3 . a en annes lors de la mammographie. Age e Indice de masse corporelle en kg/m2 . Poids en kilogrammes. Taille en m`tres. e

IGF-I IGFBP-3 AGE IMC POIDS TAILLE

sont prsentes dans ce mmoire ont t choisies pour leur renomme, mais aussi pour e e e ee e leur simplicit et leur accessibilit. Finalement, le chapitre 4 prsente une application e e e des mthodes de rgression non paramtrique ` des donnes relles. Le cheminement e e e a e e pour la dtermination dun estimateur dcrivant la relation entre la densit mammaire e e e et les facteurs de croissance, IGF-I et IGFBP-3, ` laide de mthodes de rgression non a e e paramtrique est alors prsent, ainsi que la comparaison des rsultats obtenus avec e e e e e e a e ces derni`res. En particulier, la section 4.3 est rserve ` la comparaison des mthodes e polyMARS et MARS.

Chapitre 2 La rgression non paramtrique e e univarie e


Ce chapitre est consacr ` la prsentation des principales mthodes de rgression e a e e e non paramtrique univarie. Ces mthodes sont tr`s utiles lorsque lon veut dcrire la e e e e e relation entre une variable dpendante Y et une variable explicative X, sans supposer e une forme particuli`re. Elles constituent aussi la base pour la dnition des mod`les de e e e rgression non paramtrique multidimensionnelle. e e e e e La section 2.1 dnit les principes de base des mthodes de rgression non paramtrique, prsents dans le cadre univari, mais qui sappliquent gnralement ` la e e e e e e a rgression multivarie. Il existe plusieurs faons destimer une fonction de rgression unie e c e varie de faon non paramtrique. Ce chapitre en prsente donc quelques-unes parmi e c e e e e les plus connues. La section 2.2 dcrit la mthode loess, une des plus simples et aussi des plus utilises. La section 2.3 traite des splines de rgression qui sont tr`s utilises e e e e pour modliser des relations multidimensionnelles. Finalement, la section 2.4 donne un e aperu des autres mthodes frquemment utilises en rgression non paramtrique unic e e e e e varie, cest-`-dire les splines de lissage, les noyaux et la rgression par partitionnement. e a e Pour certaines mthodes, une discussion sur les direntes faons de faire lajustee e c ment avec le logiciel R est prsente. Bien que plusieurs logiciels, comme SAS et Se e plus, permettent aussi dutiliser ces mthodes, on a choisi R pour garder une certaine e constance, car ce dernier permet dajuster tous les types destimateurs utiliss dans le e chapitre 4. De plus, le logiciel R a lavantage dtre disponible gratuitement sur le site e Internet http://cran.r-project.org/ et son langage est assez simple (pratiquement identique ` S-plus). a

Chapitre 2. La rgression non paramtrique univarie e e e

2.1

Prsentation gnrale des fonctions de lissage e e e

Soit un chantillon alatoire compos des couples (xi , yi ), i = 1, . . . , n, o` les xi e e e u reprsentent les valeurs observes de la variable explicative X et les yi reprsentent e e e celles de la variable dpendante Y . Alors, le mod`le de rgression non paramtrique e e e e univarie est donn par e e yi = (xi ) + i , i = 1, . . . , n, (2.1)

o` les i sont les erreurs alatoires, non corrles entre elles, de moyenne 0 et de variance u e ee 2 et o` (x) est la fonction de rgression que lon cherche ` estimer. Il est aussi possible u e a de supposer une distribution normale pour les erreurs i , plus spciquement pour le e cas o` on dsire eectuer des tests sur lestimateur, tels que ceux qui seront prsents u e e e ` la section 2.1.5. a

DENSIT

0 40

20

40

60

80

60

80 POIDS

100

120

Fig. 2.1 Graphique de dispersion pour les variables POIDS et DENSITE de la base de donnes sur les densits mammaires (voir tableau 1.1). e e

Avant de se lancer dans lestimation de (x) par quelque mthode que ce soit, e on devrait toujours visualiser les donnes que lon dsire analyser ` laide dun grae e a 1 phique de dispersion . Ces graphiques sont simplement la reprsentation de tous les e
1

Scatterplot en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

couples de points (xi , yi ) de lchantillon. La gure 2.1 montre un exemple de grae phique de dispersion reprsentant les variables DENSITE et POIDS de la base de e donnes analyses au chapitre 4 (voir tableau 1.1). Lestimation de la fonction de e e rgression, pour un chantillon donn, consiste ` trouver la fonction qui reprsente e e e a e le mieux la tendance dcrite par les points dans le graphique de dispersion. Si cette e derni`re semble tre une droite, la rgression linaire simple est tout ` fait approprie. e e e e a e Aussi, si une autre forme se dgage clairement du graphique de dispersion, on peut e utiliser la rgression paramtrique en spciant adquatement les termes du mod`le. e e e e e Par contre, il arrive souvent que la tendance dcrite par lchantillon ne soit pas tout e e ` fait vidente. On souhaite alors utiliser une mthode destimation plus exible, cesta e e `-dire une mthode non paramtrique. Les estimateurs de (x) obtenus de faon non a e e c paramtrique sont gnralement appels fonctions de lissage. Ces derni`res lissent les e e e e e donnes de lchantillon pour obtenir des estimateurs qui se situent entre la rgression e e e paramtrique et la pure interpolation entre chaque point. La exibilit accorde ` une e e e a fonction de lissage se contrle habituellement par la valeur du param`tre de lissage qui o e lui est associ. Les valeurs que peut prendre le param`tre de lissage dpendent du type e e e de fonction de lissage. Elles sont gnralement dnies par un intervalle de nombres e e e rels positifs, ce qui permet dobtenir une varit destimateurs de (x), plus ou moins e ee exibles, allant de linterpolation simple entre les points ` la rgression paramtrique. a e e

2.1.1

La dualit biais-variance e

Le compromis entre le lissage et la exibilit de lestimateur est identi comme la e e dualit biais-variance. Ainsi, en augmentant la exibilit, il est possible de suivre plus e e d`lement les donnes, ce qui fait diminuer le biais. La courbe obtenue a donc plus e e tendance ` osciller, ce qui implique que la variance augmente. Par contre, on prf`re a ee souvent avoir une courbe qui soit assez lisse, avec moins de variance. Pour ce faire, il faut diminuer la exibilit de lestimateur, ce qui implique de suivre moins d`lement e e les donnes, donc daugmenter le biais. Par consquent, tout utilisateur dune mthode e e e de rgression non paramtrique doit composer avec cette dualit, lorsque vient le temps e e e ea de choisir la valeur du param`tre de lissage. La gure 2.2 illustre cette dualit ` laide e des variables DENSITE et IMC (voir tableau 1.1). On remarque que la courbe (a), qui reprsente une fonction de lissage loess pour laquelle le param`tre de lissage vaut e e 0.10, est beaucoup plus variable que les deux autres pour lesquelles ce dernier est x e ` 0.50 et 0.80. Ainsi, lutilisation dun param`tre de lissage plus petit permet dobtenir a e un estimateur qui suit une tendance plus locale dans les donnes, donc avec moins de e biais, mais plus de variance. Dun autre ct, ` mesure que lon augmente la valeur du oe a param`tre de lissage, on obtient un estimateur plus lisse, avec moins de variance, mais e qui risque dtre plus biais. Lutilisateur de fonctions de lissage doit donc toujours faire e e

Chapitre 2. La rgression non paramtrique univarie e e e

un choix entre le degr de lissage dsir et la dlit ` reprsenter la tendance locale de e e e e ea e la relation (la exibilit). e
(a)
100 100

(b)
100

(c)

80

80

DENSIT 40 60

DENSIT 40 60

20

20

20

25

30

35 IMC

40

45

50

20

25

30

35 IMC

40

45

50

20

DENSIT 40 60

80

20

25

30

35 IMC

40

45

50

Fig. 2.2 Illustration de la dualit biais-variance. Le graphique (a) reprsente une e e une courbe de lissage loess avec un param`tre de lissage de 0.10, utilise pour dcrire e e e la relation entre la densit mammaire et lindice de masse corporelle, tandis que les e graphiques (b) et (c) reprsentent le mme type destimateur, mais avec un param`tre e e e de lissage de 0.50 et de 0.80 respectivement.

2.1.2

Matrice de lissage et degrs de libert e e

Dans plusieurs cas, les fonctions de lissage sont obtenues par une combinaison linaire des observations. On peut alors crire e e (x) = S y (2.2)

o` S est la matrice de lissage et est alors un vecteur de dimension n. La dtermination u e de S dpend du type de lissage que lon veut eectuer, du param`tre de lissage, ainsi que e e de la faon dont les xi sont distribus. La matrice S est tr`s utile pour la dtermination c e e e des degrs de libert (d.l.) dune fonction de lissage. En rgression paramtrique, le e e e e nombre de degrs de libert associs ` un mod`le est gal au nombre de param`tres e e e a e e e estims par ce dernier. Ainsi, plus le nombre de degrs de libert est lev, meilleur e e e e e est lajustement. Puisque les mod`les non paramtriques ne sont habituellement pas e e exprims en terme de param`tres, mis ` part le param`tre de lissage, on ne peut procder e e a e e directement de cette faon. On dsire toutefois possder une mesure permettant de c e e comparer la exibilit de dirents estimateurs de (x), puisque la valeur du param`tre e e e

Chapitre 2. La rgression non paramtrique univarie e e e

de lissage nest pas ncessairement comparable dune fonction de lissage ` lautre. On e a utilise donc le mme concept de degrs de libert pour comparer le lissage eectu e e e e par direntes fonctions de lissage, mais dni de faon ` sappliquer ` la rgression e e c a a e non paramtrique. Il existe plus dune dnition du nombre de degrs de libert dune e e e e fonction de lissage qui sont gnralement inspires de la rgression linaire et utilises e e e e e e ` des ns direntes. Il importe donc dtre vigilant lors de la comparaison des degrs a e e e de libert destimateurs ajusts avec direntes procdures informatiques. e e e e Puisquen rgression linaire les degrs de libert dun mod`le (nombre de pae e e e e ram`tres) peuvent tre obtenus en calculant la trace de la matrice chapeau2 (Myers, e e 1990, p.135), on peut faire le parall`le avec la matrice de lissage pour obtenir la dnition e e d.l.(mod`le) = trace(S ) e (2.3)

pour la comparaison des degrs de libert de dirents mod`les non paramtriques. Toue e e e e tefois, certains auteurs prf`rent utiliser dautres dnitions pour les degrs de libert ee e e e du mod`le, qui varient quelque peu de 2.3, par exemple la trace(S S ), mais elles ne e seront pas utilises dans cet ouvrage. Dans tous les cas, on interpr`te habituellement le e e nombre de degrs de libert dune fonction de lissage comme un quivalent en nombre e e e de param`tres virtuels estims par cette derni`re. Par ailleurs, pour certaines rares e e e fonctions de lissage, comme les splines de rgression, il est possible de calculer directee ment le nombre de param`tres du mod`le. Ainsi, de faon gnrale, plus le nombre de e e c e e degrs de libert du mod`le associ ` une fonction de lissage est grand, plus on accorde e e e ea une grande exibilit ` cette derni`re. Certaines mthodes permettent de xer le nombre ea e e de degrs de libert dsir au lieu du param`tre de lissage. Il peut alors tre intressant e e e e e e e de comparer direntes fonctions de lissage, ajustes pour un mme chantillon, qui e e e e possdent le mme nombre de degrs de libert. Lorsque les mthodes ne permettent e e e e e pas de xer le nombre de degr de libert, on peut tout de mme les utiliser pour guider e e e la comparabilit de dirents mod`les ou bien modier la valeur du param`tre de lissage e e e e pour obtenir un nombre de degrs de libert qui sapproche de la valeur dsire. Il est e e e e ` noter que pour certaines mthodes, comme les fonctions de lissage loess, le nombre a e de degrs de libert peut varier dune faon pratiquement continue, mais ce nest pas e e c toujours le cas, les splines de rgression en sont un bon exemple. e Dun autre ct, si on cherche ` eectuer des tests pour comparer dirents mod`les, oe a e e on a plutt besoin dune mesure de degrs de libert pour lerreur. Dans ce cas, il o e e peut tre prfrable dutiliser une autre dnition, telle que celle utilise par Hastie et e ee e e Tibshirani (1990, p.54)
T d.l.(erreur) = n trace(2S S S ).
2

(2.4)

Hat matrix en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

10

Pour plus dinformation sur les degrs de libert des fonctions de lissage univaries, e e e le lecteur peut consulter Hastie et Tibshirani (1990, section 3.5).

2.1.3

Les crit`res de slection automatique du param`tre de e e e lissage

La plupart des utilisateurs de fonctions de lissage cherchent ` obtenir lajustement a optimal pour la relation quils veulent estimer, cest-`-dire quils dsirent dterminer le a e e param`tre de lissage qui constitue le meilleur compromis entre le lissage et la exibilit. e e Ils cherchent donc ` obtenir lestimateur (x) qui se rapproche le plus possible de a la vraie fonction (x) de lquation (2.1). La meilleure faon de mesurer la prcision e c e dun estimateur serait dutiliser un chantillon complmentaire form dune nouvelle e e e observation pour chaque valeur de xi et de minimiser les erreurs de prdiction. On e pourrait donc choisir lestimateur qui minimise la moyenne des esprances des erreurs e 3 de prdiction au carr (PSE ) donne par e e e 1 P SE() = n
n E {yi (xi )}2 i=1

(2.5)

o` yi est une nouvelle observation au point xi , ce qui implique que yi = (xi ) + u i o` est non corrle avec les autres erreurs i (Hastie et Tibshirani, 1990, p.42). On u i ee obtient alors une mthode de slection automatique4 du param`tre de lissage. Cette e e e quantit poss`de plus dun estimateur souvent utiliss dans les livres et les articles e e e scientiques. Hastie et Tibshirani (1990, section 3.4) en prsentent trois qui sont proe bablement les plus connus. Tout dabord, la faon la plus simple destimer (2.5) est c 5 dutiliser la moyenne des rsidus au carr (ASR ) donne par e e e

1 ASR() = n

{yi (xi )}2 ,


i=1

(2.6)

mais cette derni`re nest pas recommande, car elle est biaise et donne gnralement de e e e e e a e mauvais rsultats (Hastie et Tibshirani, 1990, p.44). Pour palier ` ce probl`me, certains e utilisent un crit`re de la forme du Cp de Mallows (1973) qui, pour une fonction de e lissage linaire, est donn par e e Cp () = ASR +
3 4

2tr(S ) 2 . n

(2.7)

Average Predictive Squared Error en anglais. Silverman (1985) explique quil est prfrable dutiliser le terme automatique plutt que obee o jective . 5 Average Squared Residual en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

11

Hastie et Tibshirani (1990, p.48) estiment 2 , la variance des rsidus i du mod`le (2.1), e e n 2 T par i=1 {yi (xi )} /{n tr(2S S S )} o` est tel que le lissage obtenu est u minimal, pour limiter le plus possible le biais contenu dans lestimateur, et la somme au numrateur est la somme des rsidus au carr pour lestimateur . Finalement, le e e e crit`re qui est probablement le plus souvent utilis pour estimer (2.5) est celui de la e e 6 validation croise (CV ) donn par e e CV () = 1 n
n yi i (xi ) i=1 2

(2.8)

o` i (xi ) est lestimation obtenue au point xi lorsque le point (xi , yi ) est exclue de u lchantillon pour le calcul de lestimateur. e Pour chacun de ces crit`res, la technique utilise pour dterminer le param`tre de e e e e lissage optimal est la mme : on calcule la valeur du crit`re pour une srie de valeurs e e e de param`tres de lissage, puis on slectionne celui qui minimise le crit`re en question. e e e Dans certains cas, les calculs ncessaires pour calculer le crit`re de la validation e e croise sont trop laborieux et demandent un temps trop important pour que cette e mthode soit rellement applicable. On peut alors utiliser le crit`re de validation croise e e e e 7 gnralise (GCV ), aussi parfois appel somme des rsidus au carr pnalise , qui e e e e e e e e est donn par e n 1 {yi (xi )}2 GCV () = n i=1 (2.9) 2 C() 1 n o` C() est une fonction qui dpend du param`tre de lissage et qui varie selon les auteurs u e e et le type rgression non paramtrique utilis. Dans le cas des fonctions de lissage e e e linaires Hastie et Tibshirani (1990, p.49) proposent de prendre C() = trace(S ) qui, e notons-le, est aussi la dnition utilise pour les degrs de libert du mod`le (2.3). e e e e e Bien que ces crit`res semblent tr`s attrayants, parce que simples et dusage courant, e e Hastie et Tibshirani (1990, p.52) rapportent que ces techniques ne permettent pas toujours dobtenir de bons rsultats et quil serait prfrable dans la plupart des cas e ee dutiliser des moyens visuels pour dterminer la valeur du param`tre de lissage. De e e plus, tel quexpos par Silverman (1985), il est avantageux de visualiser lestimateur e obtenu pour direntes valeurs de param`tre de lissage, puisque cela permet davoir une e e meilleure conscience des caractristiques de la relation, que lon retrouve peu importe e la valeur du param`tre de lissage, comparativement ` dautres qui pourraient ntre e a e observes quen fonction de cette derni`re. Cela permet donc davoir une meilleure e e
6 7

Cross-validation en anglais. Generalized cross-validation en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

12

connaissance de la relation que lon dsire tudier, mais aussi dviter danalyser un e e e estimateur sans avoir pleinement pris conscience des caractristiques des estimateurs e de rgression non paramtrique, telles que la dualit biais-variance. e e e

2.1.4

Traitement des galits dans la variable prdictive e e e

La plupart des mthodes non paramtriques ont dabord t dveloppes en suppoe e ee e e sant que lchantillon que lon dsire tudier ne contient pas dgalits pour les valeurs e e e e e de la variable explicative xi , puisque cette derni`re est continue. Ainsi, les sections qui e suivent utilisent gnralement ce postulat pour dcrire le fonctionnement des direntes e e e e mthodes de lissage. Toutefois, dans la ralit et principalement dans ltude portant e e e e sur la densit mammaire, il nest pas rare dobserver des galits, qui sont habituellee e e ment la consquence darrondissement. Il existe alors un moyen simple qui peut tre e e appliqu pour toutes les mthodes (Hastie et Tibshirani, 1990, p.74). Ce dernier consiste e e ` prendre la moyenne de la variable rponse pour tous les points ayant la mme valeur a e e xi et daccorder ` la nouvelle coordonne un poids wi , gal au nombre dgalits pour a e e e e xi . On obtient alors un nouvel chantillon compos des points e e
(xi , moyxi (yj ), wi ),

i = 1, . . . , n .

(2.10)

o` n reprsente le nombre de valeurs distinctes dans le vecteur x = (x1 , ..., xn ). On u e peut alors eectuer une rgression non paramtrique pondre en utilisant ce nouvel e e ee chantillon. e

2.1.5

Tests approximatifs pour comparer des fonctions de lissage

En statistique, il est dusage deectuer des tests pour vrier si les param`tres que e e e e lon a estims sont signicatifs. Dans ce sens, Hastie et Tibshirani (1990) ont dvelopp e des tests approximatifs qui permettent de guider la slection du mod`le. Il est important e e de noter la nature approximative de ces derniers. On ne peut donc pas sy er comme on peut le faire avec les tests utiliss en rgression paramtrique, car on ne conna pas e e e t leur seuil rel. e Les tests proposs par Hastie et Tibshirani (1990, section 3.9) sont tout simplement e construits par analogie avec la rgression linaire. Ainsi, pour deux estimateurs 1 et e e 2 o` 2 est lestimateur le plus exible, supposons que lon dsire tester les hypoth`ses u e e suivantes :

Chapitre 2. La rgression non paramtrique univarie e e e H0 : 1 et 2 sont quivalents. e contre H1 : 1 et 2 sont dirents. e On peut alors utiliser la statistique F = (RSS(1 ) RSS(2 ))/(1 2 ) F1 2 ,2 RSS(2 )/2

13

(2.11)

o` RSS est la somme des rsidus au carr et i est le nombre de degrs de libert de u e e e e lerreur de lestimateur i, dni par la formule 2.4, pour les estimateurs linaires. Ce e e type de test peut donc tre utile pour tester la non linarit dune relation ou, plus e e e gnralement, pour aider ` choisir une forme paramtrique. On peut aussi se servir e e a e de ces tests pour comparer dirents mod`les non paramtriques utilisant les mmes e e e e donnes, par exemple pour guider le choix du param`tre de lissage. e e Toutefois, on doit toujours garder en tte que ces tests ne sont quapproximatifs et e que, tant donn la complexit de la rgression non paramtrique, les estimateurs quelle e e e e e produit ne peuvent tre interprts de la mme faon que les estimateurs de la rgression e ee e c e paramtrique. Ainsi, dans un contexte dexploration des donnes, comme ce qui sera e e e e ralis au chapitre 4, ces tests sont peu intressants puisquils dpendent des choix de la e e mthode de lissage et des param`tres qui lui sont associs. En fait, plutt que de chercher e e e o ` faire des tests, il peut parfois tre plus pertinent de vrier si les caractristiques des a e e e donnes mises ` jour par lestimation du mod`le sont stables lorsque les param`tres de e a e e lissage changent. De cette faon, on gardera nalement lestimateur qui semble donner c le meilleur compromis entre le lissage et la exibilit et on interprtera seulement les e e caractristiques qui ont paru tre stables. e e

2.1.6

Mthodes diagnostiques e

En rgression paramtrique, il est dusage dutiliser des mthodes diagnostiques pour e e e vrier si les postulats du mod`le ont bien t respects. La rgression non paramtrique e e ee e e e ny fait pas exception, surtout lorsque vient le temps de choisir un estimateur nal qui sera interprt ou si on dsire eectuer des tests tels que ceux prsents ` la section 2.1.5. ee e e e a On peut alors utiliser le mme type de techniques quen rgression paramtrique, soit e e e par exemple, tracer un graphique des rsidus en fonction des observations pour vrier si e e le mod`le a t spci correctement et que le lissage est adquat ou tracer une droite de e ee e e e Henri pour vrier si les rsidus suivent une loi Normale. Pour ce faire, on peut utiliser e e les rsidus bruts, mais certains auteurs sugg`rent des transformations des rsidus qui e e e suivent le mme principe que celles que lon utilise en rgression paramtrique (rsidus e e e e standardiss et rsidus studentiss) (Silverman, 1985; Cleveland et al., 1992, p.366) . e e e

Chapitre 2. La rgression non paramtrique univarie e e e

14

Pour plus dinformation sur les mthodes diagnostiques, le lecteur peut consulter e Cleveland et al. (1992) ou Silverman (1985).

2.2

La mthode loess e

La mthode loess8 a t introduite par Cleveland (1979), mais la description qui e ee suit est principalement tire de Hastie et Tibshirani (1990). Cette mthode est probae e blement la plus utilise pour faire de la rgression non paramtrique. Ceci sexplique e e e principalement par le fait quelle est tr`s simple, ce qui lui donne lavantage dtre e e habituellement plus rapide dexcution que ses comptitrices. Cest aussi un tr`s bon e e e outil lorsque lon dsire conna lallure gnrale de la courbe dans le but de faire une e tre e e rgression paramtrique, par exemple. De plus, elle peut facilement tre utilise pour e e e e ajuster des mod`les multidimensionnels (voir chapitre 3). Par contre, puisque cest une e mthode plutt heuristique, elle ne permet pas ` son utilisateur dobtenir une exprese o a sion simple pour la forme de la relation ni deectuer des tests exacts comme ceux qui sont faits en rgression paramtrique. e e

2.2.1

Forme de lestimateur loess

La mthode loess utilise les moindres carrs pondrs pour obtenir un estimateur de e e ee la fonction (x) du mod`le (2.1). Par contre, contrairement ` lhabitude, lestimateur e a loess nest pas reprsent par une quation unique, mais plutt par un ensemble de e e e o points. Soit un chantillon (xi , yi ), i = 1, . . . , n, o` on suppose dabord que les valeurs e u xi de la variable explicative sont toutes distinctes, alors la procdure pour obtenir e lestimateur loess, telle que dcrite par Hastie et Tibshirani (1990, p.30) est la suivante : e Dnition 1 (Mthode loess). e e 1. Pour tous les points x0 du domaine de X, on choisit les k plus proches voisins, que lon appelle voisinage, et on value la dise tance entre ces derniers et le point x0 . On dnote lensemble de points constituant e le voisinage de x0 par N (x0 ). 2. On donne ` chaque point du voisinage de x0 un poids inversement proportionnel a ` sa distance par rapport ` x0 ` laide de la fonction tricube a a a w(u) =
8

(1 u3 )3 pour 0 u < 1 0 sinon.

Locally weighted running-line en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

15

Pour que le poids soit bien inversement proportionnel ` la distance, on prend a |x0 xi | u = maxN (x ) |x0 xi | pour chaque point xi du voisinage N (x0 ).
0

3. On calcule lestimateur de (x) au point x0 en utilisant le polynme, de degr o e dtermin par lutilisateur, estim en appliquant la mthode des moindres carrs e e e e e pondrs (voir Myers (1990, section 7.1)) ` lensemble des points du voisinage e e a N (x0 ).

Par souci dconomie de temps et puisque lestimateur loess est plutt un outil visuel, e o on neectue pas rellement cette dmarche pour tous les points x0 du domaine de X. e e On choisit plutt une srie de points rpartis sur le domaine pour lesquels on calcule o e e la valeur de lestimateur, puis on utilise une mthode dinterpolation pour obtenir le e rsultat nal. e La gure 2.3 illustre le fonctionnement de lestimation de (x) ` laide de la mthode a e loess utilisant un voisinage de 45 points (span = 0.20) et des polynmes de degr 1. o e Pour simplier la description, on utilise un chantillon de la forme de (2.10) pour les e variables DENSITE et POIDS (voir tableau 1.1) o` on donne la valeur 1 ` tous les wi . u a Tel quexpos prcdemment, la mthode loess calcule la valeur de lestimateur pour e e e e c e une srie de valeurs de la variable explicative. La gure 2.3 montre la faon de procder e pour 2 valeurs cibles, POIDS=60 et POIDS=115, identies par les traits pointills, e e alors que lestimateur nal est reprsent par un trait noir continu. Les points plus gras e e en rouge ` gauche reprsentent le voisinage utilis pour le calcul de lestimateur au a e e point POIDS=60, alors que les points gras en vert ` droite reprsentent celui du point a e POIDS=115. Pour chacune des valeurs cibles, on ajuste lestimateur des moindres carrs e pondrs en utilisant tous les points constituant leur voisinage respectif. La pondration ee e utilise pour chacune des estimations est prsente au-dessus de chaque voisinage. On e e e remarque que lutilisation dun voisinage form des plus proches voisins entra le fait e ne que lestimateur calcul pour la cible se trouvant pr`s de la borne de droite provient e e presque uniquement de points situs ` la gauche de ce dernier. Par contre, ceci est pris e a en compte dans la pondration comme on peut le voir sur le graphique. e Avec la mthode loess, la exibilit de lestimateur est contrle par le choix du e e oe voisinage. En eet, plus le nombre k de points constituant le voisinage est grand, plus la courbe est lisse. Il est dusage dexprimer la grandeur du voisinage par le span=, cest-`-dire la proportion de points constituant le voisinage par rapport au nombre a total de points dans lchantillon. La gure 2.2 prsente le rsultat dune estimation de e e e type loess pour trois valeurs direntes de span, applique aux variables DENSITE et e e IMC, tandis que la gure 2.3 illustre la mthode loess ainsi que le principe de voisinage e et POIDS (voir tableau 1.1). La mthode du plus e ` laide des variables DENSITE a

Chapitre 2. La rgression non paramtrique univarie e e e

16

0 40

20

DENSIT 40 60

80

poids des donnes 100 0 0.5 1

60

80 POIDS en kg

100

120

Fig. 2.3 Illustration de la mthode loess. e

Chapitre 2. La rgression non paramtrique univarie e e e

17

proche voisin, telle que dcrite dans la Dnition 1, est prfrable ` celle du voisinage e e ee a symtrique, o` on prend un nombre gal de points de chaque ct de x0 , puisquelle e u e oe permet normalement de rduire le biais de lestimateur en choisissant des points qui e sont plus pr`s du point x0 (` moins que les xi ne soient galement espacs) (Hastie et e a e e Tibshirani, 1990). De plus, en utilisant la pondration avec la fonction tri-cube, on vite e e de donner trop de poids ` des points situs tr`s loin par rapport ` x0 , particuli`rement a e e a e dans les cas o` ce dernier se situe ` une extrmit. u a e e Lalgorithme de la mthode loess ne spcie pas le degr du polynme utilis pour e e e o e obtenir lestimateur des moindres carrs. Les polynmes de degr un ou deux sont ordie o e nairement favoriss, car ils permettent dobtenir des rsultats satisfaisants en un temps e e minimal. En thorie, il est possible dutiliser un polynme de nimporte quel degr, mais e o e les logiciels de statistique tels que SAS, R et S-Plus se limitent gnralement aux degrs e e e un et deux. Une mini tude de comparaison applique aux donnes de ltude portant e e e e e e sur la densit mammaire (voir tableau 1.1) a permis de dceler les dirences majeures e observes entre les estimateurs utilisant des polynmes de degr 1 et les estimateurs e o e utilisant des polynmes de degr 2 pour direntes valeurs de param`tre de lissage. La o e e e et IMC. Ainsi, on gure 2.4 en prsente un exemple appliqu aux variables DENSITE e e a remarqu, de faon plus vidente pour les valeurs de param`tre de lissage lves, e c e e ee e que les estimateurs utilisant des polynmes de degr 1 ressemblent plus ` des fonctions o e a continues linaires par parties, alors que les estimateurs utilisant des polynmes de e o degr 2 sapparentent ` des fonctions continues quadratiques par parties, ce qui nest e a videmment pas tr`s surprenant ! Par ailleurs, lorsque le lissage est moins important, e e les estimateurs utilisant des polynmes de degr 2 ont montr des oscillations plus o e e importantes ou plus nombreuses. Finalement, mentionnons que les fonctions de lissage loess sont des estimateurs ee linaires. On peut donc les exprimer sous la forme (2.2) en calculant chaque lment de e la matrice S = S de la faon suivante c Sij = (xi xi )(xj xi )wj w w i + , i i i 2 jN (xi ) wj jN (xi ) wj (xj xw )
i wj

i, j = 1, . . . , n,

e e w o` wj reprsente le poids donn au point xj faisant partie du voisinage de xi et xi est u i la moyenne pondre de tous les points xj compris dans N (xi ) (voir Dnition 1). On ee e peut donc utiliser cette formule pour calculer les degrs de libert dune fonction de e e lissage loess tels que dnis en (2.3). e

Chapitre 2. La rgression non paramtrique univarie e e e

18

= 0.25
(a)
100 100

(b)

80

DENSIT 40 60

20

20

25

30

35 IMC

40

45

50

0 20

20

DENSIT 40 60

80

25

30

35 IMC

40

45

50

= 0.75
(c)
100 100

(d)

80

DENSIT 40 60

20

20

25

30

35 IMC

40

45

50

0 20

20

DENSIT 40 60

80

25

30

35 IMC

40

45

50

Fig. 2.4 Illustration des dirences engendres par lutilisation de polynmes de degr e e o e 1 ou 2 dans la mthode loess pour deux valeurs de param`tre de lissage. Les fonctions e e de lissage reprsentes en (a) et en (c) utilisent des polynmes de degr 1, alors que e e o e celles en (b) et (d) utilisent des polynmes de degr 2. o e

Chapitre 2. La rgression non paramtrique univarie e e e

19

2.2.2

Ajustement dun estimateur loess avec R

Il existe au moins trois faons dajuster une fonction de lissage de type loess avec le c logiciel R, soit avec les fonctions scatter.smooth(), loess() et gam() utilise avec la e fonction lo(). Lutilisateur doit toutefois tre vigilent, car bien quelles soient toutes e semblables, leurs options et leurs param`tres par dfaut peuvent varier et mener ` e e a des rsultats dirents. Lorsque lon utilise les mmes valeurs pour les param`tres, e e e e lestimateur obtenu est pratiquement identique pour scatter.smooth() et loess(), alors que celui obtenu avec gam() est tr`s lg`rement dirent de ces derniers. Toutefois e e e e toutes ces dirences sont mineures et naectent pas rellement lallure de la courbe. e e Puisque les dtails des calculs eectus avec chacune des fonctions sont pratiquement e e introuvables, il est dicile didentier prcisment la cause de ces dirences, mais e e e celles-ci sont probablement dues ` des techniques doptimisation direntes. a e Pour chacune de ces fonctions, lutilisateur doit spcier la valeur du span, qui e reprsente le pourcentage de points faisant partie du voisinage. Par contre, comme on e la expos ` la section 2.1.3, plusieurs utilisateurs dsirent estimer le span optimal en ea e utilisant des crit`res tels que le Cp ou le CV . Aucune des fonctions du logiciel R ne pere met dutiliser directement ces mthodes pour ajuster des fonctions de lissage loess, ce e qui implique que lutilisateur doit les programmer lui-mme. La fonction loess() pere met toutefois de xer lquivalent en nombre de param`tres (enp), dni par la tr(S S) e e e e (Cleveland et al., 1992, p.371), au lieu du span. Elle dtermine alors la valeur approprie pour ce dernier permettant dobtenir lestimateur dont lquivalent en nombre de e e param`tres (une quantit comparable aux degrs de libert dnis par (2.3)) est le plus e e e e e pr`s possible de la quantit demande. e e e Le traitement des galits dans la variable explicative se fait de la mme faon que la e e e c procdure prsente ` la section 2.1.4. Nanmoins, tel quexpos par Hastie et Tibshirani e e e a e e (1990, p.74), ceci pose un probl`me dans la dnition du voisinage tel que prsent ` e e e ea la Dnition 1, qui devrait alors tre exprim en terme de poids total plutt que par e e e o un nombre de points. En eet, puisque lon a plusieurs points pour certaines valeurs de xi , on se trouve en quelque sorte ` faire entrer des groupes de points dans le voisinage a N (x0 ), ce qui peut rendre impossible le fait darriver exactement ` la bonne valeur de a span pour certaines valeurs de x0 . On pourrait donc accorder un poids supplmentaire e au groupe de points qui est le plus loign de la valeur cible, ce qui permettrait de e e considrer que lon ne prend quune fraction de ce groupe. Ceci nest toutefois pas e discut dans la documentation des fonctions dcrites ci haut. e e

Chapitre 2. La rgression non paramtrique univarie e e e

20

2.3

Les splines de rgression e

Les splines de rgression9 , plus particuli`rement les B-splines, sont bien connues en e e analyse numrique et sont tr`s utilises en modlisation graphique. En statistique, on e e e e les prf`re aux autres mthodes non paramtriques pour leurs qualits mathmatiques ee e e e e qui combinent la simplicit des calculs ` une expression explicite et ` la possibilit e a a e deectuer des tests statistiques comme dans la rgression linaire usuelle. En fait, e e certains auteurs, tels que Hastie et Tibshirani (1990), consid`rent cette mthode comme e e de la rgression semi-paramtrique. Le lecteur intress ` tudier plus en dtails les e e e e a e e splines de rgression univaries peut consulter Eubank (1999, chapitre 6) do` a t e e u ee tire la plupart de linformation contenue dans cette section. e

2.3.1

Forme de lestimateur des splines de rgression e

La forme de lestimateur des splines de rgression univaries est motive par le e e e e e e mod`le (2.1). En dveloppant (x) selon le thor`me de Taylor (voir Eubank, 1999, e p.121), on trouve que le mod`le (2.1) peut scrire de la faon suivante e e c
m

yi =
j=1

j xj1 + [(m 1)!]1 i

(m) (xi )(xi )m1 d + +

i,

(2.12)

o` u u+ = u si u 0 0 si u < 0

e et (m) (x) est la mi`me drive de (x). On remarque alors que la premi`re sommation e e e de cette quation est simplement un polynme de degr m 1. Ainsi, dans le cas o` e o e u lintgrale dans (2.12) peut tre nglige, il serait appropri deectuer une rgression e e e e e e polynomiale pour dcrire la relation entre Y et X. Par contre, puisquil peut souvent e tre dicile de dterminer le degr m 1 du polynme pour que cette intgrale soit e e e o e ngligeable, on peut obtenir un estimateur plus exible en estimant cette derni`re par e e k

j (xi j )m1 . +
j=1

(2.13)

Ainsi, pour certains coecients 1 , ..., m , 1 , ..., k et un certain ensemble de points


Les termes regression splines (Hastie et Tibshirani, 1990) et least-square splines (Eubank, 1999) sont utiliss en anglais. e
9

Chapitre 2. La rgression non paramtrique univarie e e e

21

= {1 , ..., k }, lestimateur s (x) des splines de rgression a la forme e


m k

s (x) =
j=1

j x

j1

+
j=1

j (x j )m1 . +

(2.14)

Toute fonction ayant la forme de (2.14) fait partie de la famille des fonctions splines. Ces derni`res sont des fonctions continues, dnies par intervalles et dont les morceaux sont e e des polynmes de degr m1. Lensemble de points {1 , ..., k }, que lon identie comme o e lensemble des noeuds , dnit les points de coupures de ces intervalles. La forme de e lestimateur assure aussi que les m 2 premi`res drives sont continues, ce qui permet e e e dobtenir une courbe assez lisse, selon la valeur de m. Les splines les plus frquemment e utiliss sont les splines cubiques, qui sont composes de polynmes de degr 3 et dont e e o e les deux premi`res drives sont continues, ainsi que les splines linaires, composes e e e e e de polynmes de degr un. En fait, on peut choisir le nombre de drives continues o e e e e e ee en modiant lexposant dans la deuxi`me sommation de (2.14). En gnral, on prf`re e toutefois travailler avec un lissage maximal, cest-`-dire en imposant un maximum de a drives continues, soit une de moins que le degr des polynmes ajusts. Ceci donne par e e e o e exemple, dans le cas dune spline linaire, une fonction continue, linaire par partie, dont e e la pente change ` chaque noeud et, dans le cas dune spline cubique, une courbe dont a la troisi`me drive fait des sauts ` chaque noeud. La gure 2.5 montre des exemples e e e a de splines de rgression de dirents degrs appliques aux variables DENSITE et IMC e e e e (voir tableau 1.1). Le graphique 2.5 (a) montre bien la caractristique particuli`re des fonctions splines e e qui sont continues et dnies par parties. Par contre, ce nest pas ncessairement le cas, e e ` premi`re vue, lorsque lon observe la forme de lestimateur prsent en (2.14). Par a e e e e exemple, sous cette forme, lestimateur du graphique 2.5 (a) est donn par s (x) = 165.482 5.113x + 2.674(x 24.7)+ + 1.727(x 34.7)+ . Toutefois, il est facilement possible de rcrire cette quation pour mettre plus en ee e vidence la dite caractristique. On obtient alors e e 165.492 5.113x, si x < 24.7 s (x) = 99.444 2.439x, si 24.7 x < 34.7 39.517 0.712x, si 34.7 x. De cette faon, on observe rapidement le fait que les splines de rgression sont des c e fonctions dnies par parties et on peut facilement vrier la continuit en calculant la e e e valeur de s (x) aux points 24.7 et 24.7, par exemple.

Chapitre 2. La rgression non paramtrique univarie e e e

22

(a) Spline Linaire


100 100

(b) Spline Quadratique


100

(c) Spline Cubique

80

80

DENSIT 40 60

DENSIT 40 60

20

20

20

25

30

35 IMC

40

45

50

20

25

30

35 IMC

40

45

50

20

DENSIT 40 60

80

20

25

30

35 IMC

40

45

50

Fig. 2.5 Illustration de splines de rgression de dirents degrs appliques aux vae e e e et IMC (voir tableau 1.1). Pour chaque estimateur, on a plac 2 e riables DENSITE noeuds, identis par les traits pointills, aux points 24.7 et 34.7 de la variable IMC. e e Ces derniers ont t dtermins ` laide de la mthode polyMARS prsente ` la section ee e e a e e e a 3.3.

2.3.2

Estimation des param`tres e

Lestimation des param`tres dune fonction spline nest habituellement pas ce quil e y a de plus simple. En eet, lestimateur des splines de rgression contient dirents e e types de param`tres qui ne peuvent pas tre tous estims simultanment. De faon ` e e e e c a simplier la notation, on dnit dabord la base de fonctions de puissance tronques e e Bj (x) = xj1 , j = 1, ..., m Bm+j (x) = (x j )m1 , j + = 1, ..., k (2.15) (2.16)

et aussi le vecteur de coecients = (1 , ..., m , 1 , ..., k ). Alors, (2.14) peut sexprimer comme
m+k

s (x) =
j=1

j Bj (x).

(2.17)

On remarque que s (t) poss`de plusieurs quantits inconnues a priori, soit m, et . e e Quoique certains algorithmes nous permettent destimer et en mme temps, toutes e les mthodes destimation des splines de rgression consid`rent un m x au dpart. e e e e e Les splines cubiques (m = 4) sont habituellement favoriss, car ils permettent dobtenir e des courbes assez lisses tout en conservant un nombre raisonnable de param`tres et un e mod`le assez simple. Toutefois, lorsque la mthode destimation est plus adaptative et e e

Chapitre 2. La rgression non paramtrique univarie e e e

23

que le choix des noeuds est dirig par les donnes, on doit gnralement se restreindre e e e e ` des polynmes de degr 1 ou 2 de faon ` limiter le temps de calculs. Il existe plua o e c a sieurs mthodes pour estimer les param`tres des splines de rgression. Les paragraphes e e e suivants en prsentent quelques-unes. e On consid`re dabord le cas le plus simple o` est connu. Dans ce cas, s (x) est e u un estimateur linaire et on peut facilement obtenir lestimateur de ` laide de la e a mthode des moindres carrs. Tel que dcrit dans Eubank (1999), on cherche alors ` e e e a minimiser la somme des rsidus au carr e e
n m+k

RSS(, ) =
i=1

(yi
j=1

j Bj (xi ))2

(2.18)

par rapport ` . Si on dnit la matrice a e X = {Bj (xi )}i=1,n,j=1,m+k , alors b = (b1 , . . . , b(m+k) ), lestimateur de , est obtenu en solutionnant les quations e normales (Myers, 1990, p.88), comme dans la rgression linaire, et est donn par e e e b = (X X )1 X y. (2.19)

Malheureusement, en pratique, on ne conna pas et cette mthode ne peut tre t e e applique directement. Plusieurs solutions sont envisageables, chacune ayant ses forces e et ses faiblesses. La solution la plus simple mais la moins pratique est probablement e celle dessais et erreurs dcrite par Eubank (1999, p.294). Selon cette mthode, il est e possible de dterminer lemplacement des noeuds simplement en observant les donnes. e e En eet, si on consid`re le fait que la fonction spline doit avoir des noeuds aux endroits e i`me e o` la (m 1) u drive de (x) change, il est alors possible de dterminer certaines e e e r`gles qui guideront le choix de lemplacement des noeuds. Par exemple, e 1. dans le cas des splines linaires, on doit placer un noeud ` tous les endroits o` il e a u semble y avoir un changement dans la pente ; 2. dans le cas des splines cubiques, on doit placer des noeuds aux endroits o` la u troisi`me drive de (x) change, cest-`-dire pr`s dun point dinexion, mais e e e a e en sassurant quil ny ait pas plus dun point extrme (minimum ou maximum) e entre deux noeuds. Toutefois, il est plutt rare que la relation dessine par le nuage de points soit assez o e vidente pour permettre dappliquer correctement ces r`gles. Dans de tels cas, lapplie e cation en premier lieu de la mthode loess pourrait permettre de mieux identier les e endroits o` on devrait retrouver des noeuds en suivant les r`gles de Eubank (1999). u e Par exemple, ` la gure 2.4 (c), on peut observer quil semble y avoir un changement a

Chapitre 2. La rgression non paramtrique univarie e e e

24

dans la pente autour des points IMC=25 et IMC=37, ce qui est tout ` fait cohrent a e avec lestimateur prsent dans le graphique 2.5 (a). Cette mthode na toutefois rien e e e de rigoureux et sera rarement privilgie, sauf ` des ns exploratoires. e e a Une autre solution pour obtenir un estimateur de (x) form dune fonction spline e de rgression est de xer le nombre k de noeuds, puis de placer ces derniers de faon unie c forme sur le domaine, ou sur les statistiques dordre, de la variable prdictive. Quoique e la deuxi`me option semble plus attirante puisquelle tient compte de la dispersion des e donnes, cette mthode soure toujours dun grand manque dadaptabilit. Hastie et e e e Tibshirani (1990, section 9.3.5) souligne que le choix de lemplacement des noeuds est important puisque le fait de placer les noeuds au mauvais endroit peut biaiser lestimateur dune faon plus importante quun autre type destimateur avec un lissage c quivalent, et ainsi mener ` des rsultats errons. Or, le succ`s de cette mthode rel`ve e a e e e e e quelque peu du hasard puisque rien nindique quil existe un lien entre les statistiques dordre et le changement de la fonction (x). Ainsi, le seul moyen de sassurer dobtenir une fonction avec un minimum de biais serait de prendre un nombre important de noeuds, ce que lon cherche habituellement ` viter. ae Il existe heureusement des techniques plus automatiques qui estiment lensemble des noeuds et le vecteur de param`tres simultanment. Pour un certain nombre k e e de noeuds et un degr m 1 xs, la mthode la plus attirante est probablement de e e e a a e e minimiser (2.18) par rapport ` c et ` simultanment. Puisque (2.18) nest pas linaire par rapport ` , on doit alors utiliser une mthode doptimisation numrique, telle a e e que lalgorithme de Gauss-Newton modi (Gallant et Fuller, 1973), pour obtenir les e estimateurs. Malheureusement, Jupp (1978, 1972) a montr que la fonction de vraiseme blance na pas toujours un maximum et quil existe parfois plusieurs solutions possibles pour un tel estimateur. Un autre probl`me avec cette mthode est que lon doit xer e e le nombre de noeuds, ce qui nest gnralement pas vident. Elle nest donc pas tr`s e e e e souvent utilise et il nexiste aucune procdure informatique bien connue qui permet de e e lappliquer. Certaines mthodes donnent des estimateurs de type splines de rgression sans xer e e le nombre et lemplacement des noeuds. On dit alors que ces mthodes sont adaptatives e puisquelles se basent sur les donnes de lchantillon pour estimer tous les param`tres e e e (excluant le degr m 1 des polynmes). Ces mthodes utilisent gnralement une e o e e e procdure pas ` pas qui ajuste une srie de mod`les, puis choisit celui qui minimise e a e e un certain crit`re dajustement. Les mthodes MARS et polyMARS sont deux bons e e exemples de procdures adaptatives et seront prsentes dans le prochain chapitre puise e e quelles permettent aussi dobtenir des estimateurs multidimensionnels.

Chapitre 2. La rgression non paramtrique univarie e e e

25

2.3.3

B-Splines

Lutilisation des bases de fonctions de puissance tronques (2.15)-(2.16) peut ene tra ner certains probl`mes de stabilit numrique lors de la rsolution des quations e e e e e normales ` laide de la formule (2.19). Pour viter ce probl`me, on peut utiliser les a e e bases B-splines qui sont plus stables. Pour ce faire, on doit ajouter des noeuds ` lena semble existant = {1 , . . . , k } tels que, pour une fonction splines de degr m 1, on e ajoute 2m noeuds dnis de la faon suivante e c (m1) = = 0 = minimum du domaine de X k+1 = = k+m = maximum du domaine de X.

Alors on peut calculer les bases rcursivement en utilisant lquation suivante e e Ni,m (x) = x i i+m x Ni,m1 (x) + Ni+1,m1 (x), i+m1 i i+m i+1 x [i , i+m ),

pour i = (m 1), . . . , k, en utilisant Ni,1 (x) = 1, t [i , i+1 ), 0, sinon

pour initialiser le calcul (Eubank, 1999, p.300). On peut ensuite construire la matrice N = {Nj,m (xi )}i=1,n,j=(m1),k pour nalement obtenir lestimateur en rsolvant les e quations normales donnes par e e N N b = N y par rapport au vecteur de coecient b. Pour plus dinformation sur les B-Splines et la faon de les implmenter, le lecteur c e peut consulter le livre de De Boor (1978) ou Eubank (1999, section 6.4).

Chapitre 2. La rgression non paramtrique univarie e e e

26

2.4

Autres mthodes de rgression non paramtrie e e que univarie e

2.4.1

Les splines de lissage

Les splines de lissage10 sont une autre faon dutiliser les fonctions splines (2.14) c pour estimer la fonction de rgression du mod`le (2.1). Contrairement aux splines de e e rgression qui utilisent souvent des mthodes plutt intuitives ou dessais et erreurs pour e e o dterminer lensemble des noeuds et par consquent lestimateur s , les splines de e e lissage dterminent la valeur de ce dernier en minimisant un crit`re bien prcis. Celui-ci e e e combine la mesure classique de la qualit de lajustement, la somme des rsidus au e e carr, et une mesure de la quantit de lissage, ce qui donne e e 1 n
n

(yi (xi ))2 +


i=1

(m) (t)2 dt,

(2.20)

o` est le param`tre de lissage prenant ses valeurs dans [0, ) et o` m est x et sert u e u e ` dnir le degr des polynmes ajusts (gnralement on utilise m=2, ce qui permet a e e o e e e dobtenir des splines cubiques). La valeur du param`tre permet de dterminer la e e exibilit de lestimateur. Plus la valeur de est pr`s de 0, plus lestimateur est exible, e e car on diminue lapport de la quantit de lissage dans le crit`re (2.20). Par contre, e e lorsque lon augmente la valeur de , on donne plus dimportance ` la deuxi`me partie a e du crit`re (2.20), ce qui oblige lintgrale ` tre plus petite et donc lestimateur ` tre e e ae ae plus lisse. Contrairement ` la mthode loess, le param`tre de lissage des splines de a e e lissage na pas dinterprtation thorique permettant ` lutilisateur de dterminer la e e a e valeur dsire. Il est donc dusage de plutt xer le nombre de degrs de libert, dont la e e o e e dnition peut changer selon la procdure informatique utilise, mais est gnralement e e e e e donne par (2.3). La gure 2.6 prsente trois splines de lissage possdant direntes e e e e e valeurs de degr de libert, dnies par (2.3), utilises pour estimer la relation entre les e e e et IMC (voir tableau 1.1). variables DENSITE Eubank (1999, section 5.2) fait la preuve que lunique fonction, parmi lensemble de e fonctions dont les drives (0) , . . . , (m1) sont absolument continues et dont la mi`me e e drive est carr intgrable (voir Eubank (1999, p.73-74)), qui minimise le crit`re (2.20) e e e e e est une fonction spline de degr 2m 1 avec des noeuds ` chacune des valeurs distinctes e a de la variable X dans lchantillon et ` laquelle on ajoute la contrainte dtre forme de e a e e polynmes de degr d en dehors de lintervalle de couverture de la variable explicative, o e
10

Smoothing splines en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

27

(a) d.l.=12
100 100

(b) d.l.=8
100

(c) d.l.=4

80

80

DENSIT 40 60

DENSIT 40 60

20

20

20

25

30

35 IMC

40

45

50

20

25

30

35 IMC

40

45

50

20

DENSIT 40 60

80

20

25

30

35 IMC

40

45

50

Fig. 2.6 Illustration des fonctions splines de lissage obtenues en xant direntes e valeurs de degrs de libert, tels que dnis en (2.3), pour lestimation de la relation e e e entre la densit mammaire et lindice de masse corporelle (voir tableau 1.1). e

(x(1) , x(n) ). Les splines possdant une telle contrainte sont nommes splines naturelles e e (Eubank, 1999, section 5.8). Il est ` noter que, mme si la formule (2.14) porte ` croire a e a que le nombre de param`tres estims des splines de lissage est gale ` n + m + 1 (n est e e e a le nombre de valeurs distinctes de xi , tel que dcrit en (2.10)), les contraintes imposes e e aux extrmits de lestimateur font descendre le nombre de param`tres ` n . On vite e e e a e donc la surparamtrisation. e En supposant quil ny a pas dgalit dans la variable explicative, lestimateur des e e splines de lissage peut tre dni par e e = X(X X + n)1 X y o` X = (Bj (xi ))i,j=1,n est la matrice des bases des splines naturelles, qui prend souvent u la forme des B-splines, et o` = u Bi
(m) (m)

(t)Bj (t)dt

Dans le cas o` il y aurait des galits dans la variable explicative, on utilise simplement u e e la technique dnie ` la section 2.1.4 (Hastie et Tibshirani, 1990, p.74). Notons quil e a est aussi possible de calculer la matrice de lissage S pour cette classe destimateur et que cette derni`re est utilise pour calculer la valeur des degrs de libert pour chaque e e e e estimateur. Les splines de lissage ont lavantage de se baser sur un crit`re prcis pour la dtermie e e nation de leur estimateurs, ainsi que dtre assez facile ` calculer. Ils poss`dent aussi e a e la caractristique de pouvoir tre interprts comme des estimateurs bayesiens (voir e e ee

i,j=1,n

(Eubank, 1999, p.231).

Chapitre 2. La rgression non paramtrique univarie e e e

28

Eubank, 1999, section 5.2). Le principal dsavantage des splines de lissage comparatie vement au splines de rgression est quils sont diciles ` gnraliser au cas multivari. e a e e e En eet, le crit`re pnalisant pour un manque de lissage est dicile ` conceptualiser e e a en dimension p et, mme si on en xe un, les calculs ncessaires pour valuer lestimae e e teur sont habituellement tr`s longs ` eectuer (Hastie, 1992, p.255). Il existe toutefois e a plusieurs solutions qui ont t dveloppes, telles que les splines de lissage ` plaques ee e e a minces (Wahba, 1990) et aussi les mod`les GAM (Hastie et Tibshirani, 1990) qui e seront prsents au chapitre 3. e e Pour plus dinformation sur les splines de lissage, le lecteur peut consulter Eubank (1999, chapitre5), Silverman (1985) ou Wahba (1990).

2.4.2

La mthode du noyau e

La mthode du noyau11 estime la fonction de rgression en calculant une moyenne e e pondre des observations yi pour toutes les valeurs x0 du domaine, sous le mme ee e principe que la mthode loess. La pondration accorde ` un point i de lchantillon e e e a e dpend du type de noyau utilis ainsi que de la distance entre xi et x0 . Un noyau d(t) e e est une fonction continue sur R et dcroissante en |t|. Pour obtenir lestimateur de la e a e fonction de rgression (x) du mod`le (2.1), ` laide de la mthode du noyau, on calcule e e la moyenne pondre des observations yi ` chaque point x0 du domaine de X de la faon ee a c suivante n x0 xi yi i=1 d , (x0 ) = n x0 xi i=1 d o` est le param`tre de lissage prenant des valeurs positives (Hastie et Tibshirani, u e 1990, p.19). Ce dernier permet de contrler la grandeur de la fentre, centre ` x0 , ` o e e a a lintrieur de laquelle les poids accords aux xi sont non nuls. Le tableau (2.1) prsente e e e quelques noyaux parmi les plus utiliss. e Le noyau Epanechnicov minimise lerreur quadratique moyenne (asymptotique) tandis que le noyau Variance Minimale permet dobtenir lestimateur ayant la plus petite variance asymptotique. Toutefois, les recherches eectues dans ce domaine semblent e montrer que le choix du noyau est peu important comparativement au choix de la valeur du param`tre de lissage (Hastie et Tibshirani, 1990, p.19). e Comme avec la mthode loess, on diminue la lourdeur de la mthode en calculant e e lestimateur pour une grille donne plutt que pour lensemble du domaine et on utilise e o
11

Kernel smoother en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

29

Tab. 2.1 Dnition de dirents noyaux e e Noyau Dnition e


w(t) 0.0 0.6 0.6 3

Illustration
1.2

Normale(0,1)

d(t) =

1 2

exp( 1 t2 ) 2

0 t

Epanechnicov

d(t) =

0.6 3

w(t) 0.0 0.6

3 (1 4

t2 ), pour|t| 1 sinon.

1.2

0 t

Variance Minimale

d(t) =

0.6 3

w(t) 0.0 0.6

3 (3 8

5t2 ), pour|t| 1 sinon.

1.2

0 t

ensuite une mthode dinterpolation pour former un estimateur continu. On peut aussi e dnir lestimateur ` laide de la matrice de lissage (2.2) et on traite les galits dans e a e e la variable rponse en suivant la procdure dcrite ` la section 2.1.4. e e e a Le lecteur est invit ` consulter Wand et Jones (1995) pour obtenir plus dinformaea tion sur les fonctions de lissage de type noyau.

2.4.3

La rgression par partitionnement e

Le dernier estimateur non paramtrique prsent dans ce chapitre est probablement e e e le moins intressant du point de vue univari et nest pas tr`s souvent utilis dans cette e e e e situation. Par contre, le fait quil se gnralise facilement ` une version multidimensione e a nelle et quil soit facilement interprtable le rend plus attrayant dans de tels cas. La e rgression par partitionnement consiste ` dterminer un ensemble de points de coupure e a e

Chapitre 2. La rgression non paramtrique univarie e e e

30

= {1 , ..., k } dnissant les intervalles e Rj = {j xi < j+1 }, j = 1, . . . , k,

puis destimer un polynme pour chacun de ces intervalles. Typiquement, on utilise o des constantes pour dnir la relation entre les variables sur chaque intervalle. Des e algorithmes ont t dvelopps pour appliquer la rgression par partitionnement de ee e e e faon rcursive (Breiman et al., 1984), ce qui permet de dterminer les points de coupure c e e de faon adaptative. Il est alors possible dutiliser cette technique lorsque lon poss`de c e plusieurs variables et en utilisant une constante plutt quun polynme pour estimer o o la relation, on retrouve alors les arbres de rgression (voir section 3.4.1) qui sont bien e connus. Notons que la dirence principale entre la rgression par partitionnement et e e les splines de rgression est la continuit de la fonction. e e

Chapitre 3 La rgression non paramtrique e e multidimensionnelle


La rgression multivarie est tr`s utilise en statistique puisque les chercheurs dsie e e e e rent souvent conna leet dun groupe de variables explicatives X1 , ..., Xp sur une tre certaine variable dpendante Y . En prsence de lchantillon (yi , x1i , x2i , . . . , xpi ) pour e e e i = 1, . . . , n, il est dusage de supposer un mod`le de la forme e yi = 0 + 1 x1i + 2 x2i + ... + p xpi + i , (3.1)

qui est une simple gnralisation du mod`le de rgression linaire simple (1.1). Quoique e e e e e le mod`le (3.1) soit tr`s intressant de par sa simplicit de calcul et dinterprtation, il e e e e e comporte tout de mme des lacunes importantes qui peuvent parfois limiter son utilit. e e Tout dabord, il est strictement linaire, ce qui rduit considrablement son champ e e e dapplications. De plus, il ne tient pas compte des interactions qui peuvent exister entre certaines variables explicatives et ainsi modier lallure de la relation. Ces probl`mes e peuvent toutefois tre contourns en modiant quelque peu la forme du mod`le. Comme e e e en rgression univari, on peut ajuster une forme non linaire en ajoutant des termes e e e polynomiaux au mod`le ou en faisant dautres types de transformations sur les variables. e On peut aussi ajouter des termes du genre xi xj pour tenir compte dune interaction entre deux variables. Par contre, comme pour la rgression linaire simple, ces techniques e e ncessitent que lon ait une bonne ide de la forme que devrait prendre le mod`le si on e e e ne veut pas tre pris avec la lourde tche de trouver les bons termes ` entrer dans le e a a mod`le. e Pour remdier ` ce probl`me, on peut se tourner vers la rgression non paramtrique e a e e e multidimensionnelle. Cette derni`re se base sur le mod`le e e yi = (x1i , x2i , ..., xpi ) + i , i = 1, ..., n, (3.2)

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

32

qui ne suppose aucune forme prcise pour la relation entre la variable rponse et les e e variables explicatives. Lobjectif de la rgression non paramtrique est alors dobtenir e e une estimation de la fonction (x) du mod`le (3.2), ce qui est loin dtre une vidence. e e e Plusieurs mthodes destimation non paramtriques ont t proposes au cours des e e ee e annes passes et elles poss`dent toutes leurs avantages et leurs inconvnients. Les e e e e sections suivantes en prsentent quelques-unes. Ainsi, la section 3.1 traite des mod`les e e GAM, alors que la section 3.2 prsente les splines de rgression multivaries qui peuvent e e e tre obtenues par les mthodes polyMARS et MARS prsentes aux sections 3.3 et 3.4 e e e e respectivement. Finalement la section 3.5 donne un survol de certaines autres mthodes e de rgression non paramtrique multidimensionnelle dont la mthode Triogram (section e e e 3.5.1), la mthode loess multidimensionnelle (section 3.5.2) et les splines de lissage ` e a plaques minces (section 3.5.3).

3.1

Les mod`les additifs gnraliss e e e e

Les mod`les additifs gnraliss (GAM1 ), dvelopps par Hastie et Tibshirani (1990), e e e e e e sont une version non paramtrique des mod`les linaires gnraliss (GLM) qui utilise e e e e e e les mthodes non paramtriques prsentes au chapitre 2 pour estimer une fonction de e e e e rgression multivarie. La volont des chercheurs dutiliser des mthodes destimation e e e e plus exibles qui dcrivent mieux les donnes, combine ` la simplicit de la mthode e e e a e e GAM font de cette derni`re une technique de plus en plus utilise en statistique. Ainsi, e e pour obtenir une estimation de la fonction de rgression (x), on suppose dabord que e e le mod`le (3.2) peut scrire sous la forme e
p

yi = +
j=1

j (xji ) + i ,

i = 1, ..., n,

(3.3)

o` les erreurs i sont non corrles entre elles, de moyenne zro et de variance 2 et les j u ee e sont des fonctions arbitraires, pour lesquelles on impose E(j (Xj )) = 0 o` lesprance u e est prise par rapport ` la distribution marginale de Xj . On doit donc supposer que a la relation entre la variable dpendante Y et les variables explicatives est strictement e additive, quoiquil existe certaines alternatives pour inclure des interactions au mod`le e selon le mme principe que dans la rgression linaire multiple. Ladditivit du mod`le e e e e e constitue un avantage important du point de vue de linterprtation et de la visualisation e de la fonction de rgression, puisque lon peut alors analyser chaque variable explicative e sparment. Par contre, dans le cas o` la relation entre les variables comporte des e e u
1

Generalized Additive Models en anglais.

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

33

interactions importantes, le mod`le additif peut conduire ` des rsultats errons, ` e a e e a moins que lon ait dj` une bonne ide de ces derni`res et que lon modie le mod`le ea e e e en consquence. e

3.1.1

Estimation des mod`les GAM e

Le but des mod`les GAM est destimer simultanment les j de lquation (3.3) de e e e faon non paramtrique. Ces derni`res peuvent prendre nimporte quelle forme non pac e e ramtrique univarie telles que celles dcrites au chapitre 2, mais aussi certaines formes e e e bivaries si on veut tenir compte dune interaction entre deux variables explicatives. Le e type destimateur pour chaque j peut varier ` lintrieur dun mme mod`le pourvu a e e e que celui-ci soit dni au dpart. Lajustement des mod`les GAM se fait par lentremise e e e de lalgorithme backtting , initialement propos par Friedman et Stuetzle (1981). e Dans le cas des mod`les GAM, Hastie et Tibshirani (1990, p.91) le dcrivent de la faon e e c suivante : Dnition 2 (Algorithme backtting ). e 1. On fait dabord une premi`re tape e e dinitialisation o` on estime simultanment la constante par y et les fonctions u e 0 0 j par j . La faon de calculer les j dpend de la connaissance que lon a des c e j . Puisque dhabitude, on poss`de tr`s peu dinformation sur ces derni`res, il est e e e 0 dusage de xer j = 0 ou deectuer une rgression linaire multiple de Y sur e e les variables explicatives pour valuer ces estimateurs. e 2. Une fois tous les estimateurs initialiss, on passe ` la phase itrative. Tout au e a e long de cette phase, on estime ` tour de rle chacune des fonctions k en utilisant a o le mod`le suivant : e (Y
j=k

j (Xj )) = k (Xk ) + .

o` Y u

j=k

j (Xj ) sont les rsidus partiels pour la variable explicative Xk . e

3. On continue cette phase en mettant graduellement les fonctions ` jour jusqu` a a ce quelles ne changent plus. On obtient alors lestimateur GAM pour le mod`le e (3.3). La gure 3.1 montre un exemple de leet de lalgorithme backtting sur lestimation de la relation entre la densit mammaire et les facteurs de croissances IGF-I et e IGFBP-3 (voir tableau 1.1).

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

34

100

80

DENSIT 40 60

20

100

200

300 IGFI

400

500

0 3000

20

DENSIT 40 60

80

100

5000 IGFBP3

7000

Fig. 3.1 Illustration de leet de lalgorithme backtting sur lestimation de la relation entre la densit mammaire et les facteurs de croissances, IGF-I et IGFBP-3, ` e a laide de fonctions de lissage loess utilisant un span de 0.50. Sur chaque graphique, le trait continu reprsente lestimateur loess univari, tandis que le trait pointill e e e reprsente la composante respective ` chaque variable pour lestimateur obtenu e a avec GAM pour le mod`le additif (3.3). e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

35

3.1.2

Forme des estimateurs j

La beaut de la mthode GAM vient du fait quelle permet dajuster une multitude e e de mod`les dirents spciques ` chaque situation. Ainsi, pour chaque variable que e e e a lon dsire inclure dans le mod`le, on peut choisir un ajustement paramtrique ou non e e e paramtrique. Les termes paramtriques peuvent prendre nimporte laquelle des formes e e utilises dans les mod`les linaires standards, ce qui implique que lon peut ajuster des e e e droites pour les covariables ou inclure des variables catgoriques. e Le principal avantage de la mthode GAM par rapport aux autres mthodes de e e rgression multivarie est quelle permet dajuster des mod`les non paramtriques sime e e e ples et faciles ` interprter. Tel que prsent ` la sections 3.1.1, pour chaque variable a e e ea explicative, on peut choisir le type destimation univari que lon dsire, lequel fait e e habituellement partie des mthodes prsentes au chapitre 2. Puisque lon utilise lale e e gorithme backtting (voir Dnition 2) pour estimer chaque k , il ny a pas de e restriction sur le type de fonction de lissage et celui-ci peut changer dune variable ` a lautre (mais gnralement, on prf`re utiliser le mme type pour toutes les compoe e ee e santes non paramtriques du mod`le). Toutefois, les logiciels permettant dajuster des e e mod`les GAM se limitent habituellement ` un petit nombre de fonctions de lissage dise a ponibles. Les fonctions loess et les splines de lissage sont celles qui sont le plus souvent privilgies. e e Typiquement, la mthode GAM est utilise pour ajuster des mod`les additifs. Toue e e tefois, il est possible de modier quelque peu le mod`le de dpart pour permettre de e e tenir compte de certaines interactions entre deux variables explicatives. Pour ce faire, on peut par exemple introduire un terme de la forme k (Xi , Xj ) dans le mod`le 3.3 et e utiliser une fonction de lissage bivarie (Hastie et Tibshirani, 1990, p.264). Du point de e vue thorique, il existe plusieurs fonctions de lissage bivaries qui peuvent tre utilises e e e e pour estimer la relation avec la variable rponse en tenant compte dune interaction e possible entre les variables explicatives. Toutefois, certaines mthodes peuvent tre plus e e ecaces que dautres et, encore une fois, elles ne sont pas toutes disponibles dans les logiciels. Par exemple, dans les logiciels R et S-plus, la seule fonction de lissage bivarie e 2 disponible pour lajustement de mod`les GAM est la mthode loess . e e
2

La mthode loess multidimensionnelle sera prsente bri`vement ` la section 3.5.2. e e e e a

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

36

3.1.3

Degrs de libert pour les mod`les GAM e e e

` e e e e A la section 2.1.2, on a prsent certaines mesures de degrs de libert pour les fonctions de lissage permettant de comparer la exibilit de dirents estimateurs ou e e deectuer des tests. Dans les mod`les GAM, on doit rednir ces derni`res pour prendre e e e en considration laspect additif de ces mod`les. En eet, tant donn que les mod`les e e e e e GAM sont forms de laddition de plusieurs composantes, on peut vouloir considrer la e e exibilit totale de lestimateur, mais aussi la exibilit de chacune de ses composantes. e e Encore une fois, il nexiste pas une unique faon de dnir les degrs de libert. Dans c e e e le premier cas, les degrs de libert du mod`le peuvent tre obtenus en considrant la e e e e e formule (2.3), o` S = S est la matrice de lissage telle que = Sy (Hastie et Tibshirani, u 1990, p.128). Dans le cas de la exibilit de chaque composante du mod`le GAM, on e e utilise plutt la dnition o e d.l.(composantej ) = tr(Sj ) 1 (3.4)

o` Sj est la matrice de lissage associe ` la j e composante, obtenue ` laide de lalgou e a a rithme backtting (voir Dnition 2). On soustrait 1 dans lquation (3.4) puisquil e e y a une constante redondante dans p 1 composantes dun mod`le avec p composantes e (Hastie et Tibshirani, 1990, p.129). De cette faon, on peut aussi calculer les degrs de c e liberts totaux dun estimateur en additionnant les degrs de libert de chaque compoe e e sante plus 1, pour tenir compte de la constante. Pour plus dinformation sur les approches possibles pour calculer les degrs de lie bert dun mod`le GAM, le lecteur peut consulter Hastie et Tibshirani (1990, section e e 5.4.5).

3.1.4

Ajustement dun estimateur loess avec R

On peut utiliser le logiciel R pour ajuster des mod`les GAM en tlchargeant la e ee 3 librairie gam sur le site Internet http://cran.r-project.org/ . La fonction gam() permet dajuster des estimateurs non paramtriques en utilisant e des fonctions de lissage de type loess, splines de lissage, B-splines ou splines naturelles. Pour ce faire, on doit utiliser les fonctions lo(), s(), bs() et ns() respectivement dans la spcication du mod`le. Cette derni`re prend la forme Variable rponse e e e e
3

Cette derni`re est la mme que celle utilise dans S-plus. e e e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

37

Variables explicatives, de la mme faon quavec la fonction glm(). Ainsi pour e c ajuster le mod`le GAM de la gure 3.1, on a utilis la commande suivante : e e gam(DENSITE lo(IGF.I) + lo(IGFBP.3)). Chaque fonction de lissage poss`de des arguments permettant de modier la quantit e e de lissage eectue. La fonction lo() est la seule qui permet dinclure une ou deux e variables explicatives rendant ainsi possible lajustement de composantes prenant en compte les interactions entre deux variables continues. Le chapitre 7 de Hastie (1992) ore une excellente revue de genre de mod`le pouvant e tre ajust avec la fonction gam() tout en montrant comment tracer dirents types de e e e graphiques et faire des tests approximatifs tels que ceux prsents ` la section 2.1.5. e e a

3.1.5

Notes supplmentaires e

La description des mod`les GAM prsente dans ce chapitre concerne uniquement e e e les mod`les de rgression pour une variable rponse continue, puisque ce sont eux qui e e e font lobjet de ce mmoire. Toutefois, la mthode GAM est beaucoup plus versatile e e et permet aussi dajuster plusieurs autres types de rgression pour lesquels la variable e rponse suit une distribution dirente, tels que la rgression logistique et la rgression e e e e de Poisson (ce qui lui vaut le qualicatif gnralise ). En fait, les mod`les GAM e e e e permettent dajuster tout mod`le de la forme e
p

{E(Y |X1 , . . . , Xp )} = +
j=1

j (Xj ),

(3.5)

o` est une fonction de lien judicieusement choisie (Hastie et Tibshirani, 1990, p.140). u On utilise alors lalgorithme de local scoring (Hastie et Tibshirani, 1990, p.141) qui permet destimer de faon non paramtrique les fonctions j (x), selon le mme c e e principe que la procdure IRLS utilise dans les mod`les linaires gnraliss. Il serait e e e e e e e aussi possible dutiliser lalgorithme ACE (pour alternating conditionnal expectation) de Breiman et Friedman (1985) pour estimer ` la fois les fonctions j (x) et la fonction a , mais celui-ci nest pas implment dans les logiciels R, S-plus et SAS. e e Soulignons aussi que la mthode GAM permet deectuer des tests approximatifs e tels que ceux prsents ` la section 2.1.5, o` on adapte la dnition des degrs de e e a u e e libert selon le type de mod`le ajust (mod`le (3.3) ou (3.5)). Ces tests peuvent facilee e e e ment tre raliss dans les logiciels R, S-plus et SAS qui permettent aussi de mesurer e e e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

38

limportance de chaque composante non paramtrique du mod`le ` laide de tests de e e a dviance approximatifs construits par analogie avec les mod`les linaires gnraliss. On e e e e e e ne prsente toutefois pas la thorie de ces tests, puisquils ne seront pas utiliss dans cet e e e ouvrage. Pour plus dinformation, le lecteur peut consulter Hastie et Tibshirani (1990, section 6.8).

3.2

Les splines de rgression multivaries e e

Les splines de rgression sont un bon choix pour lestimation dune fonction de e rgression multivarie de faon non paramtrique, car elles peuvent facilement tre e e c e e gnralises de une ` plusieurs variables explicatives, tout en fournissant une expression e e e a simple pour lestimateur, mme dans le cas multivari. Ainsi, de la mme faon quavec e e e c le mod`le univari (2.14), lestimateur de type spline de rgression multivarie de degr e e e e e m 1 impliquant les variables explicatives X1 , . . . , Xp et un certain ensemble de noeuds peut scrire sous la forme e
J

s (x) =
j=1

j Bj (x),

(3.6)

o` la variable x est vectorielle et les Bj peuvent tre des bases de fonctions tronques u e e d d univaries de la forme xj ou (xj )+ , pour j = 1, . . . , p, d = 1, . . . , m 1 et un certain e noeud , ou certains produits de tenseurs de la forme Bj (x) Bk (x), o` on suppose u habituellement que les bases Bj et Bk impliquent des variables explicatives direntes. e Lorsque les bases Bj (x) sont dnies, en dautres mots lorsque lensemble des noeuds e est connu, les estimateurs des param`tres j peuvent aisment tre calculs ` laide e e e e a de la mthode des moindres carrs, de la mme faon qu` la section 2.3.2. Toutefois, e e e c a puisque ce nest gnralement pas le cas, on cherche une faon de trouver les bases e e c qui permettent de dcrire le mieux possible la relation. Les mthodes destimation e e adaptatives tentent daccomplir cette tche. a e e Les sections 3.3 et 3.4 prsentent respectivement les mthodes polyMARS et MARS qui permettent toutes les deux dobtenir des estimateurs forms de splines de rgression e e de faon adaptative, lorsque lon dsire expliquer la relation entre une variable dpenc e e dante et plusieurs variables explicatives. Dans les deux cas, lappellation MARS signie Multiple Adaptative Regression Spline . Bien que fortement similaires, ces deux algorithmes comportent des dirences signicatives, importantes ` souligner. Une come a paraison de ces mthodes sera prsente ` la section 4.3. e e e a

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

39

3.3

La mthode polyMARS e

La mthode polyMARS a t dveloppe par Kooperberg et al. (1997) et par Stone e ee e e et al. (1997) (qui la dcrivent de faon plus dtaille). Ses auteurs se sont bass sur e c e e e la thorie des Extended Linear Models (ELM) (Hansen, 1994; Stone et al., 1997) e pour tablir une procdure permettant dobtenir des estimateurs forms de splines de e e e rgression multivaries. Les ELM constituent une classe gnrale de mod`les qui sape e e e e pliquent entre autres aux mod`les linaires standards, ` lestimation des densits et e e a e des fonctions de risques, ainsi que la plupart des types de rgression dont la rgression e e multivarie, la rgression avec donnes censures et la rgression polychotomique. Ils e e e e e ont t dnis de faon ` mieux comprendre les proprits des procdures bases sur les ee e c a ee e e fonctions splines, dans divers probl`mes destimation (Hansen et Kooperberg, 2002). e

3.3.1

Thorie des ELM e

La classe de mod`les ELM, telle que dcrite dans Hansen et Kooperberg (2002) et e e Stone et al. (1997), regroupe tout arrangement de la forme suivante. Soit W W, un vecteur de variables alatoires, D = D1 ... Dp , un produit cartsien dintervalles e e compacts de dimension positive et K, un entier positif. On consid`re un mod`le de e e probabilit p(W |h) qui dpend dun vecteur de fonction h = (h1 , ..., hK ) dni sur D. e e e K Posons maintenant H, un espace linaire de fonctions ` valeurs relles et H un espace e a e de fonctions de la forme h = (h1 , ..., hK ) , o` chaque composante est comprise dans H. u On consid`re maintenant la log-vraisemblance pour un mod`le ELM que lon dnit e e e par l(W |h) = log p(W |h) et on suppose quil existe un unique vecteur de fonction = (1 , ..., K ) qui maximise E[l(W |h)] dans lespace H K . Dans ce cas, reprsente e la vrit et est la valeur cible des mod`les ELM (Hansen et Kooperberg, 2002). e e e Lespace H K , tel que dcrit prcdemment, reprsente un espace thorique choisi e e e e e pour saisir les caractristiques particuli`res que lon attribue au vecteur (par exemple, e e on peut supposer que est un vecteur de fonctions continues). Dans le contexte totalement non paramtrique, puisque ce type de postulat est tr`s peu contraignant, on se e e K retrouve avec un espace H inni. Pour permettre lestimation de , on souhaite donc rduire la dimension de H K . Pour ce faire, on consid`re un sous espace exible de H K , e e K G , (o` G est un sous espace de H) de dimension nie qui nous permet de sapprocher u le plus possible de lespace dni par H K . Stone et al. (1997) et Hansen et Kooperberg e K (2002) posent G gal ` lespace des splines de rgression linaires multivaries, puisque e a e e e ce dernier est tr`s exible tout en gardant une dimension relativement petite. e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

40

Ainsi, pour un chantillon W1 , . . . , Wn de taille n provenant de la distribution de e W , on estime le vecteur de fonctions dans GK par , lunique vecteur de fonctions qui maximise la fonction de log vraisemblance donne par e
n

l(g) =
i=1

l(Wi |g),

(3.7)

o` g = (g1 , . . . , gK ) GK (Hansen et Kooperberg, 2002). u

3.3.2

Description de la mthode polyMARS e

Kooperberg et al. (1997) et Stone et al. (1997) se basent sur la thorie des mod`les e e ELM pour dnir une procdure, quils nomment polyMARS, permettant dobtenir e e un estimateur dune fonction de rgression (x) du mod`le (3.2), form de splines de e e e rgression. Dans le cas de la rgression multivarie, la variable W regroupe toutes les e e e variables dintrt, cest-`-dire que W = (X , Y ), o` X = (X1 , . . . , Xp ) est le vecteur ee a u des variables explicatives qui prend ses valeurs dans D et Y reprsente la variable e dpendante. La fonction de rgression (x) du mod`le (3.2), que lon cherche ` estimer, e e e a est reprsente par et puisque Y est un scalaire, alors K = 1. Pour G, lespace des e e splines de rgression multivaries, on obtient un estimateur de en maximisant linverse e e de la somme des carrs des erreurs, puisque cette derni`re est proportionnelle ` la e e a e fonction de log vraisemblance (3.7) (lorsque lensemble des noeuds est x). On a donc l(g) = RSS(, ) o` est le vecteur des coecients du mod`le et est lensemble u e des noeuds pour X . On note , lunique fonction qui maximise cette log vraisemblance dans lespace G. Etant donn quil est tr`s dicile de minimiser la somme des rsidus e e e au carr par rapport ` et simultanment, on cherche ` dnir une autre mthode e a e a e e qui permette de dterminer lensemble des noeuds optimal pour estimer la fonction . e On utilise alors le fait que lon peut estimer le vecteur simplement en minimisant RSS(, ) par rapport ` lorsque est x. a e En partant de la forme gnrale des splines de rgression multivaries (3.6), on e e e e remarque que le choix de lensemble des noeuds permettant de dcrire le mieux possible e la relation entre Y et les variables explicatives X1 , . . . , Xp , passe ncessairement par e la dnition des bases. Or ces derni`res dpendent aussi dun autre param`tre, m, qui e e e e dnit le degr des polynmes ajusts. La mthode polyMARS xe dabord m = 2, pour e e o e e ne considrer que les splines linaires, qui forment lespace G considr pour lestimation e e ee des mod`les ELM. Elle utilise ensuite une procdure pas ` pas pour dterminer de faon e e a e c adaptative les bases qui devraient entrer dans le mod`le. Celle-ci commence par une e phase daddition o` des bases sont ajoutes progressivement au mod`le jusqu` ce que ce u e e a dernier contienne un nombre maximal de bases Jmax . Elle proc`de ensuite ` une phase e a

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

41

dlimination, o` la dimension du mod`le est rduite de un ` chaque pas. Lorsquelle e u e e a obtient un mod`le de dimension minimale, la procdure sarrte. La mthode polyMARS e e e e choisit alors, parmi toute la liste des mod`les ajusts durant les 2 phases de la procdure e e e pas ` pas, le mod`le qui ajuste le mieux les donnes comme estimateur nal. Les lignes a e e suivantes dcrivent plus en dtails lalgorithme utilis dans polyMARS. e e e

Phase daddition La toute premi`re tape de la procdure polyMARS consiste ` ajuster le mod`le e e e a e le plus simple possible, cest-`-dire le mod`le y = constante. On augmente ensuite la a e taille du mod`le, pas ` pas, en ajoutant une base au mod`le ` chaque tape. Les bases e a e a e univaries pouvant entrer dans le mod`le ont la forme e e xi , (xi i )+

tandis que leurs produits de tenseurs peuvent prendre la forme xi xj , xi (xj j )+ , (xi i )+ (xj j )+

o` xi et xj sont deux variables explicatives direntes et i et j sont des noeuds associs u e e respectivement ` chacune de ces variables. La phase daddition consiste alors ` ajouter a a tape par tape une base au mod`le, en sassurant que le mod`le ajust ` ltape J fait e e e e ea e partie de lespace permis GJ G dni par les r`gles suivantes : e e Dnition 3 (R`gles dnissant lespace permis GJ ). e e e 1. B1 (x) = 1 est la premi`re e base ` entrer dans le mod`le et doit toujours y rester. a e 2. Pour chaque variable explicative Xj , les bases de la forme (xj j )+ peuvent faire partie du mod`le seulement si la base purement linaire xj est dans le mod`le. e e e 3. Lensemble des noeuds potentiels est form des xi(j) , i = 1, ..., p, j = 1, ..., n , e cest-`-dire de lensemble de toutes les statistiques dordre pour chaque variable a explicative. 4. Les produits de tenseurs pouvant faire partie du mod`le sont uniquement ceux qui e sont forms de bases aussi prsentes dans le mod`le. De plus, ces derni`res doivent e e e e tre constitues de variables direntes. e e e 5. De la mme faon quen 2., un produit de tenseur de la forme xi (xj j )+ peut e c faire partie du mod`le seulement si xi xj est dans le mod`le. Aussi, un produit de e e tenseur de la forme (xi i )+ (xj j )+ peut faire partie du mod`le seulement si e les bases xi xj , xi (xj j )+ et xj (xi )+ sont dans le mod`le. e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

42

Notons que puisque lon travaille avec des splines linaires, lajout dun noeud dans e le mod`le se fait simplement par lajout dune base de fonction tronque telle que e e Bk (x) = (xj j )+ . ` A un pas daddition donn, on veut ajouter une base au mod`le, cest-`-dire que e e a lon veut augmenter la dimension du mod`le de J 1 ` J. Pour ce faire, on ajuste tous e a les mod`les possibles de dimension J qui comprennent toutes les bases du mod`le de e e dimension J 1 et qui sont compris dans lespace permis GJ , de dimension J. Pour chacun de ces mod`les, on calcule lestimateur de de la formule (3.6) en utilisant e la mthode des moindres carrs, dcrite ` la section 2.3.2 dans le cadre univari. On e e e a e dtermine ensuite quelle base devrait entrer dans le mod`le en choisissant celle qui e e minimise la dirence entre la somme des rsidus au carr pour le mod`le de dimension e e e e J 1 et celle du mod`le de dimension J. On ajoute des bases au mod`le en suivant e e cette procdure jusqu` ce que lon obtienne un nombre Jmax de bases, puis on passe e a ` la phase dlimination. La valeur de Jmax peut tre dnie par lutilisateur, mais par a e e e 1 n dfaut on utilise Jmax = min(6n 3 , 4 , 100), o` n est la taille dchantillon. e u e

Phase dlimination e ` La phase dlimination est en quelque sorte le miroir de la phase daddition. A e chaque pas, on enl`ve une base au mod`le en prenant soin de toujours conserver un e e mod`le faisant partie de GJ (pour un mod`le de dimension J) (voir Denition 3). e e Pour dterminer quel mod`le choisir ` chaque pas, on ajuste tous les mod`les possibles e e a e selon lespace permis et on choisit celui qui minimise laugmentation de la somme des rsidus au carr. Cette phase sarrte lorsque le mod`le choisi ne contient que la base e e e e B1 (x) = 1.

Choix du mod`le nal e Apr`s avoir eectu les phases daddition et dlimination, on poss`de une liste de e e e e mod`les qui estiment la fonction de rgression du mod`le (3.2). Le choix du mod`le nal e e e e se fait en retenant le mod`le, parmi ces derniers, qui minimise un crit`re de validation e e croise gnralise de la forme (2.9) avec C() = (J 1), o` est le param`tre de e e e e u e lissage qui pnalise pour la complexit du mod`le et J est le nombre total de base dans e e e ce dernier. On a donc GCV (J (x), ) =
1 n n i=1 (yi

J (x))2
2

(J1) n

(3.8)

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

43

o` n n (yi J (xi ))2 est la somme des rsidus au carr pour lestimateur J (x) ` J u 1 i=1 e e a bases. Quoiquil paraisse vident que ne devrait pas prendre de valeurs infrieures ` e e a 0, il nexiste pas dintervalle bien dni pour les valeurs possibles que lon peut donner e ` ce param`tre. Kooperberg et OConnor (1997) arment que prend habituellement a e des valeurs entre 3 et 5 et xent la valeur par dfaut dans polymars() ` 4. Toutefois, e a Stone et al. (1997) xent la valeur de ` 2,5 dans leur exemple. Le chapitre 4 discute a en partie de cette problmatique. e La fonction polymars() de R permet aussi dutiliser un ensemble de donnes test , e dirent de celui utilis pour calculer lestimateur, pour dterminer le meilleur mod`le e e e e parmi la liste de mod`les ajusts au cours de la procdure pas ` pas. Elle choisit alors e e e a le mod`le qui minimise la somme des rsidus au carr de lensemble test, plutt que e e e o celui qui minimise le crit`re GCV (3.8). e

3.3.3

Restrictions dans la mthode polyMARS e

La slection des noeuds constitue le point crucial de la mthode polyMARS et aussi e e la tche la plus exigeante du point de vue de la quantit de calculs ` eectuer. Les a e a auteurs de cette mthode ont donc utilis une srie dastuces qui permettent dassurer e e e son bon rendement. Par exemple, pour sassurer de la convergence des estimateurs, on doit imposer quelques restrictions ` lespace permis. En particulier, la fusion des noeuds, a cest-`-dire le fait davoir des noeuds qui se superposent ou qui sont tr`s rapprochs, peut a e e causer dimportants probl`mes de convergence. On impose donc un nombre minimal de e points entre chaque noeud dune mme variable explicative. Par dfaut, polyMARS e e impose un espacement dau moins trois points entre les noeuds, mais ce param`tre peut e tre dni autrement par lutilisateur. e e Le nombre de noeuds potentiels inuence aussi grandement la lourdeur de la tche a eectue par polyMARS. Ainsi, pour obtenir un temps dexcution intressant, lene e e semble des noeuds potentiels est limit ` un sous-ensemble des statistiques dordre dont ea la taille par dfaut est donn par min(20, n/4) pour chaque variable explicative. Bien e e que la valeur de 20 noeuds potentiels semble tr`s petite comparativement ` certaines e a tailles dchantillon, ceci semble donner de bons rsultats, car en plus de limiter le temps e e de calcul, cela permet de limiter la multiplication des noeuds pour une variable et de ce fait, lestimation trop locale de la relation. On peut donc dgager un peu plus facilement e la structure gnrale de la relation. Il est vident que la valeur de ce param`tre joue un e e e e rle dans les rsultats obtenus. Toutefois, le rsultat global ne devrait pas changer de o e e faon radicale, quoique lon devrait en tre conscient dans linterprtation des rsultats. c e e e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

44

Par ailleurs, dans le but dobtenir des mod`les qui sont le plus simple possible et e qui sont faciles ` interprter, polyMARS se limite aux interactions entre deux variables a e explicatives. On obtient donc des mod`les de la forme e
p

(x1 , ..., xp ) = 0 +
i=1

i (xi ) +
i<j

ij (xi , xj )

(3.9)

ce qui correspond au mod`le de dcomposition ANOVA souvent utilis dans les mthoe e e e des destimation utilisant des splines de rgression multivaries (Stone et al., 1997; Friede e man, 1991). Cette faon dexprimer lestimateur est tr`s utile pour linterprtation du c e e mod`le. Ainsi, comme en analyse de la variance, on met en vidence les eets principaux e e spciques ` chaque variable du mod`le ainsi que les interactions importantes entre des e a e couples de variables explicatives. Il est ` noter que lalgorithme polyMARS conserve a seulement les bases de fonctions qui permettent damliorer de faon considrable (see c e lon le crit`re GCV (3.8)) lajustement du mod`le. Ainsi, les interactions qui se ree e trouvent dans lestimateur nal sont seulement celles que lon pourrait qualier dimportantes 4 . Toutefois, on doit garder en tte que plus le param`tre de lissage est faible, e e plus on permet ` lestimateur dtre complexe, donc plus on est susceptible dobtenir a e des termes dinteraction importants. Bien quil semble assez simple de construire des tests pour vrier la vritable signication des bases du mod`le, la fonction polymars() e e e nen eectue aucun et les articles crits par ses auteurs (Stone et al., 1997; Kooperberg e et al., 1997; Hansen et Kooperberg, 2002) nen proposent pas non plus. Il faut dire que tout le processus de slection des noeuds fait en sorte quil est dicile denvisager de e faire exactement le mme genre de tests que ceux utiliss dans les mthodes classiques e e e utilisant les moindres carrs comme mthode destimation. Encore une fois, on est dee e vant la problmatique induite par la rgression non paramtrique : lestimateur obtenu e e e dpend du choix dun nombre important de dirents param`tres, ce qui entra que e e e ne lon doit toujours interprter celui-ci avec vigilance. Il serait toutefois possible de faire e e des tests approximatifs comme ceux prsents ` la section 2.1.5, mais on ne poss`de pas e e a dinformation sur la performance de ce type de test pour de tels estimateurs. Finalement, rappelons que la mthode polyMARS ne consid`re que les fonctions e e splines de degr 1, puisquelle se base sur la thorie des mod`les ELM (section 3.3.1). Par e e e contre, cette derni`re pourrait assez facilement tre modie pour permettre dajuster e e e des splines de degr 2 ou 3. Ainsi, supposons que lon voudrait ajuster des fonctions e splines quadratiques pour dcrire la relation entre une variable dpendante Y et les e e variables explicatives X1 , . . . , Xp . On naurait alors qu` considrer les bases univaries a e e de la forme et (xi j )2 , xi , x2 + i
4

On prf`re le terme importantes ` signicatives . ee a

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

45

pour chaque variable explicative Xi , et tous les produits de tenseurs entre deux de ces bases impliquant des variables explicatives direntes. Il faudrait aussi sassurer de e respecter les conditions hirachiques, lors de la construction dun nouveau type despace e permis, selon le mme principe que celui dcrit ` la Dnition 3 pour les splines e e a e linaires. On devrait toutefois sattendre ` ce que le temps dexcution de lalgorithme e a e augmente considrablement avec le degr des splines ajustes. e e e Le lecteur intress ` conna les autres astuces utilises pour augmenter lecacit e ea tre e e des calculs est invit ` consulter Kooperberg et al. (1997) et Stone et al. (1997). ea

3.3.4

Application de polyMARS

La faon la plus simple dappliquer polyMARS est probablement dutiliser la foncc tion polymars() disponible dans la librairie R polspline . Cette fonction poss`de e plusieurs param`tres qui peuvent tre spcis par lutilisateur. Il est entre autre pose e e e sible de modier le param`tre de lissage utilis (avec gcv) et la taille maximale de e e lestimateur (avec maxsize) ou de raliser une rgression pondre (avec weight). Cere e ee tains param`tres peuvent prendre des formes varies (scalaire, vecteur ou matrice) et e e permettent de spcier une multitude de mod`les dirents. On peut donc spcier e e e e un mod`le de dpart ou des bases que lon veut absolument avoir dans le mod`le e e e (avec startmodel), ainsi que des eets additifs pour lensemble ou pour certaines variables explicatives (avec additive et no.interact). On peut aussi modier la faon c de construire lensemble des noeuds potentiels de diverses faons (avec knots). c Par ailleurs, il est ` noter que dans la version actuelle de la fonction polymars(), a largument verbose, qui normalement devrait donner des informations sur la liste de mod`les ajusts au cours de la procdure pas ` pas, ne founit pas toujours les bonnes e e e a informations. Ceci na toutefois pas dincidence sur les estimateurs ajusts, car lerreur e se situe seulement dans limpression des rsultats. e Pour de plus amples informations sur la fonction polymars(), le lecteur peut consulter le chier daide disponible avec la librairie polspline ou le document de Kooperberg et OConnor (1997).

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

46

3.4

La mthode MARS e

La mthode MARS propose par Friedman (1991), est une mthode qui permet dobe e e tenir un estimateur form de splines de rgression multivaries de faon adaptative. Il e e e c utilise donc les donnes, comme polyMARS, pour dterminer le nombre et lemplacee e ment des noeuds ainsi que la valeur des coecients du mod`le. Les lignes suivantes e prsentent cette mthode. e e

3.4.1

La rgression par partitionnement rcursif e e

Lide de base de la mthode MARS vient de la rgression par partitionnement e e e rcursif prsente bri`vement ` la section 2.4.3. Supposons que lon a X = (X1 , ..., Xp ) e e e e a reprsentant les variables explicatives qui nous intressent et ayant un domaine D. Alors e e la rgression par partitionnement rcursif permet dobtenir un estimateur de (x) du e e e e o e mod`le (3.2) qui est form par lestimation de dirents polynmes sur des sous-rgions e disjointes de D. On a alors un estimateur de la forme (x) = gm (x|{aj }p ), 1 si x Rm (3.10)

o` les Rm sont des sous-rgions disjointes du domaine D avec D = m Rm et les aj , j = u e 1, . . . , p, sont des coecients ` estimer. Les mod`les de rgression par partitionnement a e e rcursif les plus connus sont les arbres de rgression, o` on pose gm (x|{aj }p ) = am , ceste e u 1 `-dire que lestimateur de (x) est une constante sur chaque sous-rgion Rm dnie a e e de faon rcursive. Plus gnralement, les fonctions gm peuvent prendre toute forme c e e e paramtrique simple prdtermine et lorsque les sous-rgions sont xes, le mod`le e e e e e e e e e a e (3.10) constitue une gnralisation ` plusieurs variables explicatives de la rgression par partitionnement prsent ` la section 2.4.3. e ea La rgression par partitionnement rcursif, comme son nom lindique, utilise donc e e une mthode itrative qui, ` chaque tape, trouve lendroit idal o` couper le domaine e e a e e u pour dcrire de la meilleure faon possible la relation entre la variable dpendante et e c e les variables explicatives ` laide dun ensemble de fonctions dnies sur des rgions disa e e jointes. Ainsi, en ajoutant une contrainte qui impose la continuit de lestimateur et de e ses drives, on peut utiliser cette technique pour obtenir un estimateur de type spline de e e rgression. Friedman (1991) sest donc bas sur ce principe pour dvelopper la mthode e e e e MARS en choisissant de travailler avec des bases fonctions linaires tronques. Il est ` e e a noter que les estimateurs obtenus avec MARS ne sont pas des fonctions splines proprement dites puisquelles ne peuvent pas scrire sous la forme multivarie de lquation e e e (2.14). En eet, ces derniers ne comprennent pas de composantes purement linaires du e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

47

type xi comme dans le cas de polyMARS. Il est tout de mme dusage de qualier les e estimateurs MARS de splines de rgression multivaries, puisque ce sont des fonctions e e continues dnies par parties. On conservera donc cette appellation pour le reste de cet e ouvrage.

3.4.2

Description de la mthode MARS e

Comme polyMARS, la mthode MARS utilise une phase daddition suivie dune e phase dlimination pour dterminer lestimateur nal. Par contre, cette derni`re, ne e e e rf`re pas ` un espace permis rgissant des r`gles hirarchiques pour dnir les ee a e e e e mod`les pouvant tre ajusts ` toute tape de sa procdure pas ` pas. Elle utilise e e e a e e a toutefois les r`gles suivantes pour dterminer quelles bases peuvent entrer dans le mod`le e e e et comment ceci est ralis. e e Dnition 4 (R`gles de base de la mthode MARS). e e e 1. La base B1 (x) = 1 est la premi`re ` entrer dans lestimateur et doit toujours y rester. e a 2. Les bases formant lestimateur sont du type fonction linaire tronque de la forme e e (xj j )+ ou [(xj j )]+ ainsi que leurs produits de tenseurs. 3. Lensemble des noeuds potentiels est form des xi(j) , i = 1, ..., p, j = 1, ..., n , e cest-`-dire de lensemble de toutes les statistiques dordre pour chaque variable a explicative. 4. Les produits de tenseurs doivent toujours tre forms de variables direntes. e e e

Phase daddition La premi`re tape de lalgorithme MARS consiste dabord ` ajuster le mod`le avec e e a e pour seule base B1 (x) = 1. On a alors lestimateur (x) = 1 B1 (x). Ensuite, on fait un premier pas daddition, cest-`-dire que lon cherche le meilleur point de coupure a qui divisera le domaine D en deux et qui amliorera lestimation de (x) en utilisant e deux fonctions linaires formant un estimateur continu. Autrement dit, on cherche ` e a introduire un noeud ` un estimateur de type spline linaire. Comme avec polyMARS, a e on impose un nombre minimal de points entre les noeuds pour sassurer dobtenir un estimateur convergent. Pour choisir lequel parmi tous ces points constitue la meilleure coupure possible, on proc`de de la faon suivante. e c 1. Pour chaque variable explicative Xj , j = 1, . . . , p, et chaque noeud potentiel ji

Chapitre 3. La rgression non paramtrique multidimensionnelle e e de cette variable, on ajuste le mod`le e g(x) = a0 B1 (x) + a2 B1 (x)[+(xj ji )]+ + a3 B1 (x)[(xj ji )]+ = a0 + a2 [+(xj ji )]+ + a3 [(xj ji )]+ o` a1 , a2 et a3 sont les coecients ` estimer. u a

48

2. Pour chacun de ces mod`les, on calcule la somme des rsidus au carr et on e e e choisit le mod`le qui minimise cette mesure. On a alors trouv le meilleur point e e de coupure. 3. On note j lindice de la variable qui entre dans le mod`le et le point de coupure e (noeud) associ ` cette variable et on construit deux nouvelles bases pour le mod`le ea e de la faon suivante. c B2 (x) = B1 (x)[+(xi )]+ = [+(xi )]+ B3 (x) = B1 (x)[(xi )]+ = [(xi )]+ On continue de faon similaire pour les autres tapes de la phase itrative daddition. c e e Supposons que le mod`le de dimension 2J 1 de ltape J 1 a t slectionn et e e ee e e comprend les bases B1 (x), . . . , B2J1 (x). Alors, le but de ltape J est de trouver le e meilleur point de coupure, parmi tous ceux possibles pour chacune des bases dj` dans ea le mod`le. Pour ce faire, on ajuste tous les mod`les respectant la r`gle 4 de la Dnition e e e e 4, de la forme
2J1

g=
i=1

ai Bi (x) + a2J Bj (x)[+(x )]+ + a2J+1 Bj (x)[(x )]+

o` j varie de 1 ` 2J 1, varie de 1 ` p et prend ses valeurs dans lensemble des u a a noeuds potentiels de la variable x . (On sassure aussi de ne pas introduire une base qui fait dj` partie de lestimateur.) On choisit ensuite le mod`le ` 2J + 1 bases qui ea e a minimise la somme des rsidus au carr et on note les deux nouvelles bases du mod`le e e e B2J (x) = Bj (x)[+(x )]+ B2J+1 (x) = Bj (x)[(x )]+ . On continue cette procdure, en augmentant J de 1 ` chaque pas, jusqu` ce que lon e a a obtienne un mod`le de taille maximale qui par dfaut est donn par max(21, 2p + 1). e e e

Exemple de la phase daddition de MARS Supposons que lon a les variables explicatives X1 , X2 et X3 et que lon dsire efe fectuer un nouveau pas daddition tandis que les bases B1 (x) = 1, B2 (x) = (x2 1 )+ ,

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

49

B3 (x) = [(x2 1 )]+ , B4 (x) = (x1 2 )+ (x2 1 )+ , B5 (x) = [(x1 2 )]+ (x2 1 )+ sont dj` dans le mod`le. Alors les couples de bases candidates pour lajout au mod`le ea e e sont les suivants : B1 (x)(xi 3 )+ et B1 (x)[(x2 3 )]+ pour i = 1 ` 3 a Bj (x)(xi 3 )+ et Bj (x)[(xi 3 )]+ pour i = 1, 3 et j = 2, 3 Bj (x)(x3 3 )+ et Bj (x)[(x3 3 )]+ pour i = 1, 3 et j = 4, 5 o` 3 est un nouveau noeud faisant partie de lensemble des noeuds potentiels. Si par u exemple, pour chacun des 10 couples de bases prsents ci-haut, il y avait 5 valeurs e e possibles pour 3 , on devrait alors ajuster 50 estimateurs. Parmi ceux-ci, on ne conserverait que celui qui minimise la somme des rsidus au carr pour ensuite passer au pas e e suivant de la phase daddition et continuer ainsi jusqu` ce que lon obtienne un mod`le a e de taille maximale.

Phase dlimination e Une fois le mod`le de dimension maximale obtenu, on passe ` la phase dlimination. e a e Cette phase ressemble beaucoup ` celle de polyMARS, mais elle en di`re sur un point a e important : dans le cas de lalgorithme MARS, la phase dlimination ne se fait pas e ` chaque pas de cette phase, toutes les bases du mod`le sur un plan hirarchique. A e e sont candidates pour llimination sauf B1 (x) qui doit toujours tre dans le mod`le. e e e Pour dterminer quelle base doit tre retire de lestimateur, on utilise le crit`re de e e e e e e e e validation croise gnralise (2.9), lg`rement dirent de celui utilis dans polyMARS, e e e e avec C() = J + (J 1) o` J est le nombre de bases et est le param`tre de lissage u e qui pnalise la complexit du mod`le. On a alors e e e GCV (J (x), ) =
1 n n i=1 (yi

J (x))2
2

J+(J1) n

(3.11)

Friedman (1991) sugg`re, apr`s avoir fait quelques simulations, que le param`tre e e e devrait prendre des valeurs entre 2 et 4 et arme que le mod`le nal obtenu avec e MARS montre une dpendance modre sur la valeur de . Le chapitre 4 traite en partie e ee de la problmatique entourant la spcication du param`tre de lissage de lalgorithme e e e MARS. ` A un pas donn de la phase dlimination, la base qui est retire du mod`le est e e e e toujours celle qui permet dobtenir la plus petite valeur de GCV (3.11) lorsquelle est extraite de lestimateur. On continue ` enlever des bases jusqu` ce que lon obtienne a a le mod`le de dpart. Le mod`le nal est celui possdant la plus petite mesure de GCV e e e e (3.11) parmi tous ceux retenus pendant la phase dlimination. Ainsi, on obtient un e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e estimateur qui peut scrire sous la forme de dcomposition ANOVA, cest-`-dire e e a
p

50

(x1 , ..., xp ) = 0 +
i=1

i (xi ) +
i<j

ij (xi , xj ) +
i<j<k

ijk (xi , xj , xk ) + . . .

(3.12)

o` la premi`re sommation regroupe toutes les bases impliquant une seule variable expliu e cative, la deuxi`me regroupe celles impliquant deux variables explicatives, etc. Bien que e la mthode telle que prsente ci-haut implique que le degr des interactions puissent e e e e se rendre ` p, ceci nest gnralement pas apprci puisque les mod`les contenant de a e e e e e hauts degrs dinteraction sont souvent diciles ` interprter. Heureusement, il est e a e facile de modier lalgorithme, en imposant simplement une contrainte sur les bases disponibles pour former un nouveau produit de tenseur, de faon ` pouvoir spcier le c a e degr dinteraction dsir. e e e Friedman a aussi dvelopp une technique permettant dajuster des pseudo splines e e cubiques. Celle-ci consiste ` dnir lensemble des noeuds ` laide des bases de fonctions a e a linaires tronques, tel que dcrit ci haut, puis darrondir le bout tronqu de chaque e e e e base de faon ` obtenir un estimateur qui est plus lisse. Cette technique nest toutefois c a pas implante dans la fonction mars() de R. Pour plus dinformation, le lecteur peut e consulter Friedman (1991).

3.4.3

Application de MARS

De la mme faon que pour polyMARS, la faon la plus simple dappliquer la e c c mthode MARS est probablement dutiliser la fonction mars() disponible dans la lie brairie R mda . Cette derni`re ajuste des bases de fonctions linaires tronques et e e e permet de spcier certains param`tres tels que la valeur du param`tre de lissage (avec e e e penalty), le nombre maximal de bases dans lestimateur (avec nk) et le degr maximal e des interactions dsir (avec degree). e e Pour de plus amples informations sur la fonctions mars(), le lecteur peut consulter le chier daide disponible avec la librairie mda .

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

51

3.5
3.5.1

Autres mthodes multidimensionnelles e


La mthode Triogram e

La mthode Triogram, dveloppe par Hansen et ses collaborateurs (Stone et al., e e e 1997; Hansen et al., 1998; Hansen et Kooperberg, 2002), est une autre faon dutiliser c les splines de rgression pour obtenir un estimateur non paramtrique dune fonction e e bivarie. Cette mthode utilise le fondement des ELM, prsents ` la section 3.3.1, e e e e a pour dvelopper son algorithme destimation. Le principal avantage de Triogram est e quil ne dcoupe pas le domaine en rectangle, mais plutt en triangles ce qui permet e o dobtenir une plus grande exibilit. Etant donn quaucune version informatique de e e Triogram nest encore disponible au moment dcrire ce mmoire 5 , on ne donnera quune e e br`ve description de cette mthode. Soulignons toutefois que cette derni`re semble tr`s e e e e intressante, surtout dans les cas o` le domaine de la fonction nest pas un espace e u rectangulaire, et quelle reprsente une approche dirente de celle de polyMARS et e e MARS, la triangulation, qui est souvent utilise dans dautres mthodes destimation, e e surtout dans le domaine de lanalyse numrique. e Supposons que lon veut estimer la relation entre Y et deux variables X1 et X2 , note e par (x). On dsigne alors le domaine de cette fonction par D. Si D est une rgion come e pacte, alors on peut la diviser en une collection de triangles ayant tous des intrieurs e disjoints. On a donc la relation suivante D = et on appelle une triangulation. Lobjectif de Triogram est de trouver la meilleure triangulation possible pour estimer la fonction (x) ` laide de splines linaires. La mthode Triogram utilise le mme principe a e e e que polyMARS et MARS pour obtenir un estimateur de faon adaptative, cest-`-dire c a quelle commence par eectuer une phase daddition, o` elle augmente graduellement u la complexit du mod`le, puis elle proc`de ` une phase dlimination qui reproduit nae e e a e ` chaque pas, on estime la fonction (x) ` laide de splines lement le mod`le de dpart. A e e a de rgression linaires, dont les dirents polynmes sont dnis sur des rgions triane e e o e e gulaires plutt que rectangulaires comme dans les mthodes dcrites prcdemment. On o e e e e cherche donc ` ajuster des polynmes linaires dirents pour chaque triangle dans a o e e de faon ` ce que ces derniers forment ensemble une surface continue sur . c a
Au moment dcrire ce mmoire, Hansen et ses collaborateurs prparaient un livre qui devrait e e e traiter de cette mthode et inclure un programme pour son application. e
5

Chapitre 3. La rgression non paramtrique multidimensionnelle e e La procdure pas ` pas e a

52

La phase daddition commence par lajustement du mod`le initial dni selon la trie e angulation donne par lutilisateur. Cette derni`re peut prendre la forme dun triangle e e ` unique ou dun rectangle coup simplement pour tre form de triangles. A chaque e e e tape de la procdure, la triangulation est dnie par lensemble des sommets des trie e e angles {v1 , ..., vJ } ainsi que par les cts qui les relient. Lajout de triangles se fait oe alors en introduisant un nouveau sommet. Contrairement aux procdures polyMARS et e MARS, lensemble des sommets potentiels nest pas constitu des donnes. On consid`re e e e plutt un ensemble de points distribus galement sur chaque . La proximit des points o e e e dpend dun param`tre dni par lutilisateur. La mthode Triogram requiert que la e e e e triangulation soit conforme, cest-`-dire que lintersection non vide entre deux triangles a de doit tre uniquement forme dun sommet ou dun ct entier quils partagent. e e oe Ainsi, lorsquun sommet est ajout pour former une nouvelle triangulation, on peut e seulement utiliser une des trois congurations prsentes ` la gure 3.2 pour former les e e a cts des nouveaux triangles. oe
Triangulation originale (a)

(b)

(c)

v v

Fig. 3.2 Exemple de triangulation possible pour lajout dun sommet. La triangulation en haut ` gauche reprsente la triangulation originale, alors que les trois autres a e triangulations reprsentent les congurations possibles pour lajout dun sommet. Pour e chacune des triangulations, le nouveau sommet est indiqu par v. e ` A chaque pas de ltape daddition, on ajuste tous les mod`les possibles comportant e e lajout dun sommet et on choisit le mod`le qui minimise la somme des rsidus au e e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

53

carr. Pour une triangulation donne, lajustement dun mod`le se fait en utilisant e e e les coordonnes barycentriques de chaque triangle (voir gure 3.3). Pour un triangle e donn ayant les sommets v1 , v2 et v3 , les coordonnes barycentriques dun point e e x = (x1 , x2 ) D sont les points (1 (x), 2 (x), 3 (x)) tels que x = 1 (x)v1 + 2 (x)v2 + 3 (x)v3 et 1 (x) + 2 (x) + 3 (x) = 1. (3.14) Ainsi, si contient les sommets v1 , ..., vJ , en prenant Bj (x) = j (x) pour j = 1, ..., J, on obtient une base de fonctions qui est linaire pour tous les triangles de , avec e Bi (vi ) = 1 et Bi (vj ) = 0 si i = j. De plus, si le point x fait partie du triangle ayant les sommets vi , vj et vk , alors on a Bl (x) = 0 pour tout l = i, j, k. On peut donc calculer facilement la valeur des Bi (x) pour toute triangulation en rcrivant les quations ee e (3.13) et (3.14) sous la forme dun syst`me dquations (Hansen et al., 1998) et ensuite e e considrer le mod`le (3.6). Lestimation du vecteur se fait alors ` laide de la mthode e e a e des moindres carrs et on utilise la somme des rsidus au carr (2.18) pour dterminer e e e e quel mod`le devrait tre conserv ` chaque pas. La phase daddition se poursuit jusqu` e e ea a lobtention dun mod`le avec une taille maximale, pouvant tre dnie par lutilisateur, e e e ou jusqu` ce quaucun nouveau sommet ne puisse tre introduit dans le mod`le. a e e On proc`de ensuite ` la phase dlimination qui consiste ` rduire la taille du mod`le e a e a e e en simpliant la triangulation. Pour ce faire, on peut procder de deux faons, soit e c liminer le ct commun de deux triangles ou liminer un sommet, ce qui est quivalent e oe e e dune faon ou dune autre ` forcer la continuit de la premi`re drive sur toute la c a e e e e nouvelle rgion forme par cette limination. e e e (3.13)

Comparaison avec les mthodes polyMARS et MARS e Les algorithmes polyMARS et MARS consid`rent un domaine D form du produit e e cartsien des intervalles de couverture de chaque variable explicative. Ceci peut causer e des probl`mes lors de lestimation si les donnes ne sont pas rparties sur tout le domaine e e e D. Dans ce cas, certaines parties de lestimateur peuvent tre uniquement constitues e e dune extrapolation eectue ` partir de lestimation de (x) aux abords des rgions e a e o` il ny a pas de donnes. Une telle opration peut parfois mener ` un estimateur u e e a fortement biais. On pourrait par exemple observer une interaction importante entre e deux variables ` un endroit o` on ne poss`de pratiquement pas de donnes. Dans ce cas, a u e e la mthode Triogram est tr`s intressante, car elle permet de restreindre le domaine ` la e e e a rgion o` se concentre les donnes. De plus, la mthode Triogram dcoupe le domaine en e u e e e

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

54

v1

v2

v3

` Fig. 3.3 Reprsentation gomtrique des coordonnes barycentriques. A chaque some e e e met dune triangulation, on peut associer une coordonne barycentrique. La gure ci e haut reprsente la coordonne barycentrique 3 (x), qui est donne par laire de la rgion e e e e ombrage divise par laire totale du triangle qui entoure x (` un signe pr`s). La rgion e e a e e ombrage pour une coordonne en particulier est toujours dnie par le triangle form e e e e en reliant le point x et les deux autres sommets du triangle entourant x (Hansen et al., 1998; Weisstein, 1999). triangles plutt quen rectangles comme le font polyMARS et MARS, ce qui peut parfois o permettre destimer plus facilement les interactions. Par contre, la mthode Triogram e est seulement applicable ` des donnes bivaries ce qui restreint considrablement son a e e e utilisation.

3.5.2

Fonctions de lissage loess et noyaux multidimensionnels

Aux sections 2.2 et 2.4.2, on a prsent la mthode loess et les noyaux tels que e e e dnis pour estimer la relation entre une variable rponse Y et une unique variable e e explicative X. Ces techniques de lissage peuvent assez facilement tre gnralises pour e e e e permettre lajustement dun estimateur multidimensionnel en modiant la faon de c calculer la distance entre les points du domaine. En eet, il sut de considrer une e mesure de distance dans lespace ` p dimensions pour pouvoir appliquer la notion de a voisinage telle que dcrite dans la Dnition 1 pour la mthode loess ou pour calculer e e e un estimateur ` laide dun noyau comme ` la section 2.4.2. Le choix de la norme a a utilise pour calculer la distance est alors important puisque cela peut dans certains e cas entra ner des rsultats dirents, surtout dans le cas o` p est grand. Notamment, e e u

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

55

la distance Euclidienne qui est gnralement utilise6 produit un voisinage en forme e e e de sph`re. Par contre, il est possible dutiliser une autre faon de calculer la distance e c entre les points, plus gnrale et peut-tre plus adapte aux donnes que lon dsire e e e e e e analyser. Par exemple, certains pourraient prfrer utiliser une mesure de distance qui ee serait base sur la matrice de covariance des variables explicatives (Hastie et Tibshirani, e 1990, p.32). Une autre problmatique associe ` lutilisation de ce type de fonction de lissage e e a pour des cas multidimensionnels est le probl`me connu sous le nom anglais de Curse of e Dimensionnality . Ce dernier, dcrit par Hastie et Tibshirani (1990, p.83-84) rf`re au e ee fait que lorsque lon xe le nombre de points dun voisinage, ce dernier devient de moins en moins local ` mesure que p devient grand. Pour cette raison, mais aussi pour des a raisons dinterprtabilit, il est prfrable de limiter le nombre de variables explicatives e e ee considres lorsque lon utilise ces techniques de lissage. ee Le lecteur peut consulter Cleveland et al. (1988, 1992) pour avoir plus dinformation sur la mthode loess multidimensionnelle et Wand et Jones (1995) dans le cas de la e mthode du noyau. e

3.5.3

Les splines de lissage ` plaques minces a

e e Les splines de lissage ` plaques minces 7 sont une gnralisation des splines de a lissage prsentes ` la section 2.4.1 qui permet de considrer plusieurs variables explicae e a e tives telles que dans le mod`le (3.2). On les obtient en minimisant un crit`re qui combine e e une mesure de pnalit pour lajustement (la somme des rsidus au carr) et une pour e e e e le lissage. La dnition de ce crit`re lorsque lon poss`de p variables explicatives, plus e e e prcisment de la partie pnalisant pour le lissage, est toutefois plus complexe que e e e c dans le cas univari (Hastie et Tibshirani, 1990, p.33). Il existe donc plusieurs faons e de dnir la pnalit pour le lissage (Eubank, 1999, p.276). Une faon dy arriver est e e e c dutiliser le Laplacien dni par e
k1 ,...,kp k1 ++kp =m

m! k1 ! kp !

m (x) xk1 xpp 1


k

dx1 dxp

o` est le param`tre de lissage et m correspond au nombre de drives continues u e e e dsires. On peut ajuster ce type de spline dans SAS ` laide de la procdure TPSPLINE. e e a e
6 7

Comme cest le cas dans R. De langlais thin-plate smoothing splines .

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

56

Pour plus dinformation sur ce type de fonction de lissage, le lecteur peut consulter Duchon (1976, 1977), Wahba (1990), Wahba et Wendelberger (1980) et Meinguet (1979).

3.5.4

Autres

Il existe de nombreuses autres mthodes de rgression non paramtrique multidie e e mensionnelle qui nont pas t traites dans ce chapitre. Parmi celles-ci, mentionnons ee e certaines mthodes qui ont prcd MARS et polyMARS, dont la mthode TURBO, e e e e e dveloppe par Friedman et Silverman (1989) un peu avant MARS, qui permet dajuster e e un mod`le additif multivari utilisant des bases de fonctions tronques selon le mme e e e e principle que MARS, ainsi que BRUTO (Hastie et Tibshirani, 1990, section 9.4.3), qui combine lalgorithme backtting ` la slection des param`tres de lissage ` laide a e e a dun crit`re GCV de la forme (2.9) pour ajuster un mod`le additif utilisant des splines e e de lissage. Une autre mthode qui a t tr`s bri`vement expose ` la section 3.4 est e ee e e e a celle des arbres de rgression qui peuvent tre ajusts ` laide de lalgorithme CART e e e a e e (Breiman et al., 1984). Par ailleurs, on doit souligner que les mthodes de rgression non paramtrique multidimensionnelle continuent ` se dvelopper et certaines dentre elles e a e semblent prometteuses. Par exemple, Hansen et Kooperberg (2002) proposent une nouvelle approche pour dterminer lemplacement des noeuds dune fonction spline de faon e c adaptative, qui utilise les cha nes de Markov de Monte Carlo plutt quune procdure o e pas ` pas comme celles prsentes dans ce chapitre. Ils montrent aussi comment applia e e quer cette technique dans le cas du Triogram.

Chapitre 4 Application des mthodes de e rgression non paramtrique ` une e e a tude portant sur la densit e e mammaire
Ce chapitre est consacr ` lapplication des mthodes de rgression non paramtriea e e e que dcrites dans les pages prcdentes. Les donnes proviennent dune tude portant e e e e e sur la densit mammaire eectue ` lUnit de recherche en sant des populations e e a e e (URESP), situe ` lHpital du Saint-Sacrement du CHA (Qubec). Ces donnes ont e a o e e t recueillies aupr`s de 783 femmes prmnopauses ayant pass une mammographie1 . ee e e e e e Pour chacune dentre elles, on a mesur plusieurs variables dont lge (AGE), le poids e a en kilogramme (POIDS), la taille en centim`tre (TAILLE), ainsi que deux variables e explicatives dintrt principal, soit le dosage, en nanogramme par mililitre, de deux ee e facteurs de croissance analogues ` linsuline IGF-I2 et IGFBP-33 . On a ensuite calcul a lindice de masse corporelle (IMC), qui est donn par le poids en kilogramme divis par e e le carr de la taille en m`tre. La variable dpendante est donne par le pourcentage de e e e e qui est reconnu comme lun des plus importants facdensit mammaire (DENSITE) e teurs de risque du cancer du sein. Plusieurs tudes ont montr que les femmes avec e e un pourcentage lev de densit mammaire prsentent un risque accru de dvelopper e e e e e un cancer du sein. La densit mammaire reprsente le rapport entre la rgion du sein e e e occupe par des cellules pithliales et/ou conjonctives dceles sur la mammographie e e e e e
Pour plus dinformation concernant lchantillon de cette tude, consulter larticle de Diorio et al. e e (2005). 2 Pour Insulin-like growth factor-I . 3 Pour Insulin-like growth factor-binding protein-3
1

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

58

et la surface totale du sein (Diorio, 2005). La gure 4.1 montre un exemple de mammographie utilise pour calculer la densit mammaire. Les deux images reprsentent la e e e ` gauche les zones plus ples reprsentent les tissus formant la mme mammographie. A e a e densit mammaire, alors que les parties plus sombres reprsentent les tissus adipeux e e ` qui sont moins denses. A droite, la mme image a t transforme pour permettre de e ee e calculer la densit mammaire. Les tissus denses reprsentant la densit mammaire sont e e e donc mis en vidence en vert. La densit mammaire est alors donne par le rapport du e e e nombre de pixels en vert sur la somme des pixels en vert et en rouge (Diorio, 2005).

Fig. 4.1 Exemple de mammographie. Lobjectif principal de ltude ralise par les chercheurs de lUnit de recherche e e e e en sant des populations est dtudier la relation entre la densit mammaire et les e e e facteurs de croissance IGF-I et IGFBP-3. Selon Diorio et al. (2005), les tudes traitant e des facteurs de croissance tendent ` montrer que IGF-I favorise le dveloppement de a e certains cancers chez lhumain. En contrepartie, le facteur IGFBP-3 semblerait tre e un agent anticancreux, qui bloque la prolifration de certaines cellules. On sintresse e e e donc ` tudier comment ces deux facteurs de croissance agissent sur le dveloppement ae e des tissus formant la densit mammaire, dans le but de mieux comprendre les causes e du cancer du sein. Une des problmatiques lies ` ltude de la relation entre la densit mammaire et les e e a e e facteurs de croissance est lassociation entre ces derniers, qui peut tre observe ` laide e e a du graphique de dispersion de la gure 4.2. Cette association sexplique principalement

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

59

par le fait que, dans lorganisme, environ 95% des molcules de IGF-I sont lies ` e e a celles de IGFBP-3 pour tre transportes dans le sang. Ceci se traduit donc par une e e corrlation importante entre les valeurs observes de chaque variable, dont le coecient e e de corrlation de pearson est 0.561 avec un seuil observ < 0.001. La problmatique e e e induite par cette corrlation concerne la couverture de certaines rgions du domaine e e dni par IGF-I et IGFBP-3. En eet, dans le cas o` on dsire exprimer la variation de e u e la densit mammaire en fonction des facteurs de croissance, le graphique de la gure 4.2 e reprsente la rpartition des valeurs observes des variables explicatives sur le domaine e e e de la fonction ` estimer, dni par le produit cartsien des intervalles de couverture a e e de chacune de ces variables. Etant donn lassociation importante entre les variables et e le fait que les donnes ne proviennent pas dune exprience contrle, on se retrouve e e oe avec des observations qui sont plutt concentres pr`s de la diagonale et ne couvrent o e e pas la totalit du domaine. Il existe donc des trous importants dans ce dernier, e qui sont susceptibles de causer certains probl`mes lors de lestimation des mod`les de e e rgression. Ce probl`me est aussi rencontr avec les autres variables explicatives de la e e e base de donnes tudie dans ce chapitre et fera lobjet dune discussion dans les lignes e e e suivantes.
8000 3000 100 4000 IGFBP3 5000 6000 7000

200

300 IGFI

400

500

Fig. 4.2 Graphique de dispersion pour les variables IGF-I et IGFBP-3. Les mod`les non paramtriques prsents dans ce chapitre ont t ajusts ` laide e e e e ee e a du logiciel R disponible gratuitement sur le site Internet http://cran.r-project. org/, dont le langage est presque identique ` celui de S-plus. Les fonctions gam(), a polymars() et mars() ont t tlcharges sur ce mme site, de par les librairies gam , e e ee e e polspline et mda respectivement. Il aurait aussi t possible dutiliser S-plus ee pour ajuster des mod`les GAM, puisque la librairie gam est disponible ` mme ce e a e logiciel. Toutefois, les fonctions mars() et polymars() sont plus faciles ` obtenir avec a le logiciel R et leur version S-plus ne semble pas tout ` fait ` jour. Par ailleurs, il est a a

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

60

aussi possible de faire les mod`les GAM et loess dans SAS4 , mais le temps dexcution e e est beaucoup plus long.

4.1

Mod`les univaris e e

La premi`re tape de lanalyse consiste en une description sommaire des donnes. e e e Le tableau 4.1 prsente quelques statistiques descriptives pour chacune des variables du e jeu de donnes, tandis que la gure 4.3 prsente les graphiques de dispersion de chaque e e variable indpendante par rapport ` la densit mammaire, auxquels on a ajout une e a e e 5 fonction de lissage loess utilisant des polynmes de degr 1 et un span de 0.5, pour o e dgager simplement la tendance. e Tab. 4.1 Statistiques descriptives. Minimum Mdiane Moyenne Maximum e 0.10 65.6 2643 31.00 16.50 42.60 144.0 41.20 218.0 4696 47.00 24.40 63.00 160.0 41.96 224.1 4810 46.77 25.23 64.97 160.5 92.90 501.1 8451 58.00 50.80 120.40 180.0

Variable

DENSITE IGF-I IGFBP-3 AGE IMC POIDS TAILLE

Ce quil y a de plus marquant lorsque lon observe les graphiques de la gure 4.3, cest la grande variabilit rsiduelle qui caractrise les donnes. Particuli`rement, si on e e e e e se concentre uniquement sur la dispersion des donnes, il ne semble pas, ` premi`re e a e vue, que les variables IGF-I, AGE et TAILLE soient vraiment lies ` la densit mame a e maire. Par contre, les estimateurs loess qui leur sont associs dgagent tous une certaine e e tendance non linaire ou, du moins, dirente dune constante. Dans un contexte mule e tidimensionnel, on doit aussi garder en tte quil est toujours possible que la vritable e e relation soit en quelque sorte dissimule lorsque lon observe seulement les marges pour e chaque variable. Par ailleurs, on remarque que les variables IMC et POIDS dcrivent e ce qui sexplique bien de par la principalement la mme relation avec DENSITE, e dnition de lindice de masse corporelle. Ces variables seront donc utilises, ` la section e e a 4.3 pour tudier comment les mthodes polyMARS et MARS se comportent en prsence e e e
4 5

La procdure GAM de SAS, est une procdure exprimentale dans la version 9.1.3 de ce logiciel. e e e Toutes les fonctions de lissage loess ajustes dans ce chapitre utilisent des polynmes de degr 1. e o e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

61

100

DENSIT 20 60

100 100

200

300 IGFI

400

500 100

0 3000

20

DENSIT 60

100

5000 7000 IGFBP3

DENSIT 20 60

30 100

35

40

45 GE

50

55 100

0 20

20

DENSIT 60

25

30

35 IMC

40

45

50

DENSIT 20 60

40

60

80 POIDS

100

120

0 145

20

DENSIT 60

155

165 TAILLE

175

Fig. 4.3 Graphiques de dispersion pour chacune des variables indpendantes de la base e de donnes sur les densits mammaires par rapport ` la variable rponse DENSITE. e e a e Dans chaque graphique de dispersion, la courbe reprsente un estimateur loess avec un e span de 0.5.

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

62

de probl`mes de concurvit6 , qui sont lquivalent des probl`mes de collinarit en e e e e e e rgression linaire. Les probl`mes de concurvit surviennent lorsque certaines variables e e e e explicatives dcrivent essentiellement la mme relation avec la variable rponse, ce qui e e e qui complique considrablement lestimation de leur eet sur cette derni`re et rend les e e estimateurs marginaux diciles, voir impossibles, ` analyser. Enn, soulignons que cera taines transformations de variables ont t essayes dans le but damliorer la dispersion ee e e des donnes, mais cela na pas fourni de rsultats intressants. e e e

4.1.1

Analyse des facteurs de croissance

Au chapitre 1, on a prsent les principales mthodes de rgression non paramtrique e e e e e univarie. On utilise maintenant certaines de ces mthodes pour tudier les relations e e e marginales entre la densit mammaire et les variables IGF-I et IGFBP-3. La gure 4.4 e prsente lajustement dun mod`le de rgression linaire, dune fonction de lissage loess e e e e ajuste avec gam() et dune spline linaire ajuste avec polymars(), pour chacune de e e e ces deux variables. On remarque que, pour chaque facteur de croissance, lestimateur loess et lestimateur spline sont tr`s semblables et dgagent la mme structure. De plus, e e e lutilisation destimateurs non paramtriques donne des rsultats intressants, car ces e e e derniers montrent tous une tendance non linaire. Particuli`rement, dans le cas de la e e variable IGF-I, la rgression linaire estime la relation par une droite de pente 0.014 dont e e le seuil observ est 0.292, alors que les mthodes non paramtriques semblent dtecter e e e e une relation qui sapparente ` un lien quadratique. En eet, en ajustant un mod`le a e polynomial de degr deux, on trouve que la relation est signicative (seuil observ de e e 0.0376). Ceci dmontre donc que les mthodes non paramtriques peuvent parfois tre e e e e utiles dans la dtermination dun mod`le paramtrique. e e e Il serait probablement intressant de comparer un peu plus en profondeur les courbes e obtenues avec une fonction de lissage loess et celles formes dune fonction spline linaire. e e e e Dans leurs articles, Kooperberg et OConnor (1997) sugg`rent que le param`tre de lissage utilis dans le crit`re GCV de lalgorithme polyMARS (3.8) devrait prendre des e e valeurs entre 3 et 5. Toutefois, Stone et al. (1997) xent ce param`tre ` 2.5 pour leurs e a exemples, sans fournir de plus amples explications. Pour tracer les courbes splines dans la gure 4.4, on a x ce param`tre ` 1.5 pour permettre une grande exibilit, car e e a e lutilisation dun param`tre de lissage entre 3 et 5 donne des mod`les avec 1 comme e e unique base. Lorsque lon compare les courbes obtenues avec polyMARS, (c) et (f), ` celles de type loess, (b) et (e), on remarque une forte ressemblance. Pourtant, pour a tracer les estimateurs loess, on a utilis un span de 0.5, ce qui est plutt conservateur e o
6

Par analogie avec le terme anglais concurvity utilis par Hastie et Tibshirani (1990). e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

63

(a)
100 100

(b)
100

(c)

80

80

DENSIT 40 60

DENSIT 40 60

20

20

100

200

300 IGFI

400

500

100

200

300 IGFI

400

500

0 100

20

DENSIT 40 60

80

200

300 IGFI

400

500

(d)
100 100

(e)
100

(f)

80

80

DENSIT 40 60

DENSIT 40 60

20

20

3000 4000 5000 6000 7000 8000 IGFBP3

3000 4000 5000 6000 7000 8000 IGFBP3

0 3000 4000 5000 6000 7000 8000 IGFBP3

Fig. 4.4 Mod`les univaris pour les variables IGF-I et IGFBP-3. Les graphiques (a) e e et (d) reprsentent les droites estimes par la rgression linaire, les graphiques (b) et e e e e (e) reprsentent des fonctions de lissage loess avec un span de 0.5 et les graphiques e (c) et (f) reprsentent des fonctions splines linaires obtenues avec polyMARS avec un e e param`tre de lissage x ` 1.5. e ea

20

DENSIT 40 60

80

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

64

comparativement ` une valeur de 1.5 pour le param`tre de lissage du crit`re GCV, qui ne a e e se situe pas dans lintervalle suggr par les auteurs. Il semble donc que le lissage eectu ee e par polyMARS soit moins exible quun lissage loess, lorsque les donnes poss`dent une e e grande variabilit rsiduelle. e e

4.2

Etude de la relation entre la densit mammaire e et les facteurs de croissance IFG-I et IGFBP-3

Cette section prsente une varit de mod`les de rgression tentant dexpliquer la e ee e e en fonction des facteurs de croissance IGF-I et IGFBP-3. Lobjectif variable DENSITE poursuivi tout au cours de cette section est celui des chercheurs de lUnit de recherche e en sant des populations, cest-`-dire dexaminer lassociation entre ces deux facteurs e a de croissance et la densit mammaire, an de mieux comprendre ltiologie du cancer e e du sein. Lhypoth`se mise par les chercheurs du centre de recherche en sant des e e e populations est que la combinaison dune grande quantit de IGF-I avec une faible e quantit de IGFBP-3 dans le sang serait associe ` un plus grand pourcentage de e e a densit mammaire. Pour investiguer cette hypoth`se, on utilise une srie de mod`les, en e e e e partant dun simple mod`le linaire prsent par Diorio et al. (2005) que lon complexie e e e e graduellement pour nalement obtenir le mod`le le plus exible possible. Cette faon e c de procder permettra dtudier lutilit des mod`les non paramtriques dans le cas e e e e e qui nous intresse, tout en mesurant la validit des estimateurs obtenus. De plus, cela e e donnera un aperu du genre de mod`les pouvant tre ajusts avec les mthodes GAM, c e e e e e e e e polyMARS et MARS. Le tableau 4.2 rsume les dirents mod`les ajusts au cours de cette section. Tab. 4.2 Description des mod`les ajusts ` la section 4.2. e e a Traitement des variables IGF-I et IGFBP-3 Covariables (AGE et IMC) classes formes par les tertiles e linaire (additive) e classes formes par les tertiles e quadratique (additive) non paramtrique (avec interactions) e linaire (additive) e non paramtrique (avec interactions) e non paramtrique (additive) e non paramtrique (avec interactions) non paramtrique (avec interactions) e e

# 1 2 3 4 5

Pour faciliter la comparaison de la qualit de lajustement ralis par les dirents e e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e estimateurs, on utilise le coecient dajustement qui est donn par e R2 = 1
n 2 i=1 (yi yi ) . n 2 i=1 (yi y )

65

(4.1)

Il est ` noter que, dans le cas de la rgression paramtrique, on utilise gnralement le a e e e e 2 R ajust (Draper et Smith, 1981, p.92) pour tenir compte du nombre de param`tres e e de chaque mod`le, lorsque lon compare direntes fonctions de rgression. Toutee e e fois, il nexiste pas dquivalence connue pour un tel ajustement en rgression non e e paramtrique. On se contente donc dutiliser le coecient dajustement (4.1), tout en e tant conscient quun mod`le plus exible, donc avec plus de degrs de liberts, devrait, e e e e la plupart du temps, permettre dobtenir un meilleur ajustement.

4.2.1

Mod`les paramtriques e e

Le premier mod`le utilis pour dcrire la variation des densits mammaires en fonce e e e tion des variables IGF-I et IGFBP-3 provient de Diorio et al. (2005). Les auteurs de cet article ont tudi de diverses faons les variables pouvant expliquer la densit mammaire, e e c e pour nalement obtenir un mod`le o` les variables IGF-I et IGFBP-3 sont divises en e u e trois classes dnies par leurs tertiles respectifs (voir tableau 4.3) pour permettre dajuse ter un mod`le linaire. Ce dernier mesure ainsi leet des dirents niveaux des deux e e e facteurs de croissance sur la densit mammaire en corrigeant pour lge et lindice de e a masse corporelle de faon linaire. Un rsum de la table dANOVA associe ` ce mod`le c e e e e a e (obtenu avec la procdure GLM de SAS) est prsent au tableau 4.4. Lajustement du e e e 2 mod`le donne un R = 0.343 ainsi quun coecient de -2.874 associ ` la variable IMC e ea et de -0.381 pour la variable AGE. Tab. 4.3 Dnition des variables catgoriques utilises dans les mod`les 1 et 2. e e e e Variables classes QIGF -I QIGF BP -3 1er tertile IGF-I 193.941 i`me e 2 tertile 193.941 < IGF-I 246.2 i`me e 3 tertile IGF-I > 246.2 IGFBP-3 4355.77 4355.77 < IGFBP-3 5037.4 IGFBP-3 > 5037.4

En consultant le tableau 4.4, on remarque que le seuil observ pour le test sur e linteraction entre IGF-I et IGFBP-3 est de 0.1853, ce qui indique, si on se rf`re au ee seuil classique de 0.05, quil ne semble pas y avoir un eet signicatif de linteraction. Toutefois, tant donn la grande variabilit qui caractrise habituellement les donnes e e e e e des tudes biologiques, il est tr`s rare dobserver une interaction dont le seuil observ est e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

66

Tab. 4.4 Rsultats de lajustement du Mod`le 1. e e Source d.l. seuil observ e QIGF -I 2 QIGF BP -3 2 QIGF -I QIGF BP -3 4 AGE 1 IMC 1 2 R =0.343 0.2566 0.0003 0.1853 0.0178 < .0001

infrieur ` 5%. Il est donc dusage, dans ce domaine, dutiliser un seuil de signication de e a 20%. De plus, le fait que les variables IGF-I et IGFBP-3 soient tr`s corrles entra que e ee ne certaines combinaisons des niveaux des facteurs sont tr`s peu reprsentes, ce qui aecte e e e la puissance du test sur linteraction. Par exemple, le groupe combinant le troisi`me e tertile de la variable IGF-I avec le premier tertile de IGFBP-3 (la combinaison qui nous intresse le plus) contient seulement 32 individus. On consid`re donc que le mod`le 1 e e e montre une certaine tendance pour une interaction entre les facteurs de croissance et on utilise la mthode des comparaisons multiples pour chercher o` cette interaction se e u manifeste le plus fortement. Les moyennes ajustes prdites par le mod`le pour chaque e e e a combinaison de tertiles, telles que prsentes dans Diorio et al. (2005), se retrouvent ` e e la gure 4.5, tandis que les rsultats des tests de comparaisons multiples raliss avec e e e loption LSMEANS de de la procdure GML de SAS sont prsents au tableau 4.5. e e e Tab. 4.5 Seuils observs des comparaisons multiples des composantes de linteraction e QIGF -I QIGF BP -3 du Mod`le 1.a e i/j 1 2 3 4 5 6 7 8 9 1 2 0.4458 3 0.6723 0.9403 4 0.1168 0.0449 0.1717 5 0.6997 0.7157 0.8599 0.0785 6 0.1341 0.5485 0.6203 0.0076 0.3124 7 0.0041 0.0017 0.0141 0.1093 0.0029 0.0002 8 0.6274 0.8006 0.9177 0.0688 0.9164 0.3820 0.0025 9 0.1679 0.6955 0.7333 0.0076 0.4018 0.7840 0.0002 0.4852
a

Lidentication des groupes est prsente dans la gure 4.5. e e

En observant les rsultats des tests de comparaisons multiples sur linteraction entre e IGF-I et IGFBP-3, on remarque que la majorit des comparaisons donnent des seuils e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

67

53.8 55 7

50 47.1 4 45 8 DENSIT 42.7 40 1 40.6 40.9 35 2 3 3 5 38.7 6 41.8 39.5 9 41.2

30 1 2 IGFBP-3 3 1

2 IGF-I

Fig. 4.5 Moyennes ajustes avec le mod`le 1 pour chaque combinaison de tertiles e e des variables IFG-I et IFGBP-3. Le numro sur chaque bande sert ` lidentication des e a groupes pour les comparaisons multiples prsentes au tableau 4.5. e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

68

observs fortement non signicatifs, alors que ceux comparant le groupe form des e e classes IGF-I lev et IGFBP-3 bas (numro 7 sur le graphique 4.5) aux autres groupes e e e sont presque tous fortement signicatifs. (En fait, ils sont tous infrieurs ` 0.015 sauf un e a qui est de 0.1093.) Ceci permet en quelque sorte de conrmer lhypoth`se selon laquelle e les femmes ayant une grande quantit du facteur de croissance IGF-I ainsi quune faible e quantit de IGFBP-3 ont un pourcentage de densit mammaire plus important. Plus e e particuli`rement, on pourrait aussi conclure que leet des direntes combinaisons des e e niveaux des facteurs de croissance se fait seulement sentir pour ce groupe, puisque lon ne dtecte pas de vritables dirences entre les autres combinaisons. e e e Si on observe les graphiques de dispersions des covariables, prsents ` la gure 4.6, e e a dans lesquelles on a superpos une fonction de lissage loess univarie avec un span = 0.5 e e ainsi que lestimateur obtenu par une rgression linaire simple, on remarque que lajuse e tement linaire ne semble pas tre le meilleur choix pour les covariables. En fait, lese e timateur loess montre quil serait probablement possible damliorer lajustement en e utilisant une fonction quadratique pour ajuster lge et lindice de masse corporelle a (mod`le 2). Lestimateur du mod`le 2 donne eectivement des composantes quadrae e tiques signicatives au seuil de 0.05 et lajustement est quelque peu amlior avec un e e 2 R = 0.372, mais le rsultat global reste principalement le mme. En eet, le test sur e e linteraction entre IGF-I et IGFBP-3 donne un seuil observ de 0.1956 et les comparaie sons multiples donnent pratiquement les mmes rsultats que pour le mod`le 1, quoique e e e les seuils observs sont lg`rement plus levs. e e e e e

4.2.2

Mod`les non paramtriques e e

Les mod`les linaires utiliss prcdemment ont permis de dceler un certain eet e e e e e e dinteraction entre les variables IGF-I et IGFBP-3 sur la variable rponse DENSITE. e Toutefois, puisque les facteurs de croissance IGF-I et IGFBP-3 sont en ralit des vae e riables continues, on perd une information importante en les dcoupant pour obtenir 3 e niveaux, comme ce qui a t fait dans les mod`les 1 et 2. Il serait donc plus intressant ee e e dtudier la variation de la densit mammaire en fonction des facteurs de croissance e e de faon continue. La rgression non paramtrique multivarie est idale dans cette c e e e e situation, puisque lon ne veut supposer aucune forme a priori pour la relation. Celle-ci devrait donc permettre de dgager une structure un peu plus complexe, qui exprime de e faon plus prcise la relation entre les variables que la rgression linaire multiple. De c e e e plus, on cherche une mthode qui puisse modliser linteraction entre les variables, sil y e e a lieu, de faon ` pouvoir investiguer lhypoth`se des chercheurs de lURESP ` propos c a e a de la relation entre la densit mammaire et les facteurs de croissance. Les fonctions e splines multivaries et les mod`les GAM utilisant une fonction de lissage loess bivarie e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

69

100

80

DENSIT 40 60

20

30

35

40

45 AGE

50

55

0 20

20

DENSIT 40 60

80

100

25

30

35 IMC

40

45

50

Fig. 4.6 Graphiques de dispersion de la densit mammaire en fonction de chaque e covariable. Les traits continus ont t obtenus ` laide dune fonction de lissage ee a loess univarie avec un span de 0.5, alors que les traits pointills e e reprsentent e la relation estime par la rgression linaire simple. e e e

semblent alors tre une solution intressante pour raliser cette tude. e e e e Tel que discut dans la thorie, les mthodes non paramtriques demandent toujours e e e e la spcication dun param`tre de lissage pour indiquer la exibilit que lon veut accore e e der ` lestimateur. Les mod`les prsents dans ce chapitre nen font pas exception. Dans a e e e le cas de la mthode GAM utilise avec des fonctions de lissage loess, on a gnralement e e e e x le span ` 0.5 pour chacune des composantes non paramtriques du mod`le. Pour e a e e ce qui est des mthodes utilisant des fonctions splines, on a discut ` la section 4.1.1 e ea des probl`mes potentiels de polyMARS ` estimer la relation de faon assez exible en e a c prsence de donnes comportant une importante variabilit rsiduelle. Ce probl`me se e e e e e fait aussi ressentir dans les mod`les multidimensionnels, cest pourquoi le param`tre de e e lissage pour les mthodes polyMARS et MARS a gnralement t x ` 1.2. Notons e e e ee ea que contrairement ` la plupart des mthodes de rgression non paramtrique, la variaa e e e tion du param`tre de lissage pour ces deux mthodes ne permet pas de faire varier la e e exibilit de faon continue. Ainsi, plusieurs valeurs de param`tre de lissage vont done c e ner le mme estimateur et ce dernier peut changer considrablement lorsque leet de e e la variation du param`tre de lissage se fait nalement sentir. On pourrait par exemple e passer dun estimateur ` 10 bases ` un estimateur avec seulement 6 bases. De plus, a a puisque polyMARS et MARS nutilisent pas tout ` fait la mme dnition du crit`re a e e e GCV, (3.8) et (3.11) respectivement, leet du param`tre de lissage, ` valeur gale, nest e a e pas le mme pour les deux mthodes. Toutefois, par souci de comparaison, on a essay e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e de toujours utiliser un param`tre de lissage de 1.2 pour ces mthodes. e e

70

Par ailleurs, il est important de faire quelques remarques sur la reprsentation grae phique des mod`les ajusts dans ce chapitre, principalement en ce qui concerne les e e mod`les ajusts ` laide des fonctions polymars() et mars(). Pour chaque estimateur, e e a on peut tracer un graphique en trois dimensions pour illustrer une interaction entre deux variables. Or, comme on la dj` expliqu prcdemment, pour estimer une foncea e e e tion bivarie, ces mthodes dcoupent le domaine D de celle-ci, dni par le produit e e e e cartsien des intervalles de couverture de chaque variable explicative, et estiment ene suite le polynme qui ajuste le mieux chaque partie du domaine. Dans le cas prsent, o e pour la plupart des interactions entre deux variables, le domaine comporte dimportants trous , cest-`-dire des rgions o` il ny a aucune observation. Malgr ce fait, a e u e lestimateur obtenu ` laide des fonctions polymars() et mars() couvre tout le domaine a D. Ainsi, il faut analyser avec prudence les graphiques bivaris prsents dans les pages e e e suivantes et ne pas tenir compte des rgions o` il ny a pas de donnes. Pour cette raison e u e et pour faciliter la visualisation, tous les graphiques tridimensionnels sont accompagns e dun graphique de courbes de niveaux, o` les espaces vides ont t ombrags pour aider u ee e ` linterprtation. Par ailleurs, la prsence de trous peut aussi faire en sorte, ` loca e e a casion, que lestimateur obtenu dpasse les limites naturelles de la variable DENSITE e (lintervalle [0, 100]). Par consquent, pour amliorer la qualit visuelle des graphiques e e e ainsi que pour faciliter la comparaison et linterprtation, les graphiques associs aux e e mthodes polyMARS et MARS poss`dent tous, sauf quelques rares exceptions, les lie e e e mites [0, 100] pour la variable DENSITE7 . Toutefois, ceci na pu tre appliqu dans le 8 cas des graphiques tridimensionnels des mod`les GAM . Finalement, dans tous les cas, e lorsquun estimateur comporte plusieurs variables, les eets additifs sont reprsents e e sur dirents graphiques en xant la valeur des autres variables ` leur moyenne (voir e a tableau 4.1). Le premier mod`le non paramtrique ajust consiste en une partie non paramtrique e e e e bivarie pour les variables IGF-I et IGFBP-3 ` laquelle on ajoute une correction linaire e a e pour les variables AGE et IMC (mod`le 3). On dbute avec ce mod`le, puisquil est la e e e plus simple gnralisation pour obtenir une version continue du mod`le 1 plus exible e e e que la rgression linaire multiple. Le mod`le 3 permettra donc dvaluer les gains e e e e apports par le traitement non paramtrique des variables IGF-I et IGFBP-3 et de e e comparer les estimateurs obtenus ` laide des direntes mthodes utilises. Ce mod`le a e e e e 9 peut facilement sajuster avec les fonctions gam() et polymars(), ce qui nest toutefois pas le cas pour mars(), qui ne permet pas de considrer seulement certaines variables e
A lexception de quelques estimateurs qui dbordaient trop de ces limites. e La qualit est meilleure lorsque lon conserve la forme des graphiques tracs avec la fonction e e plot.gam(). 9 Toutes les fonctions de lissage utilises avec la mthode GAM dans ce chapitre sont de type loess. e e
8 7`

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

71

du mod`le additives et qui najuste que des bases de fonctions tronques. Les rsultats e e e de lajustement du mod`le 3 avec la mthode GAM sont prsents ` la gure 4.7, tandis e e e e a que ceux obtenus avec polyMARS sont prsents dans le tableau 4.610 et la gure 4.8. e e Soulignons que pour ajuster le mod`le 3 avec polyMARS, on doit utiliser les options e no.interaction, qui permet de spcier les couples de variables pour lesquels on ne e veut pas avoir dinteraction, et knots, qui permet de xer le nombre de noeuds potentiels pour chaque variable. Dans tous les autres estimateurs polyMARS de ce chapitre, on a utilis la valeur par dfaut pour le param`tre knots qui est alors de 20 noeuds. Pour e e e le mod`le 3, ce param`tre a t x au vecteur (23, 23, 0, 0), ce qui implique que lon a e e ee e considr 23 noeuds potentiels pour les variables IGF-I et IGFBP-3 et aucun pour les ee covariables AGE et IMC. En modiant la valeur du param`tre knots dans les dirents e e mod`les, on a remarqu que lestimateur nal semble dpendre dune faon plus ou e e e c moins marque de cette derni`re. Tout de mme, de faon gnrale, il ne semble pas y e e e c e e avoir de changement trop important dans la structure globale de la relation. Toutefois, dans le cas du mod`le 3, en utilisant 20 noeuds potentiels pour les facteurs de croissance, e on obtient un mod`le tr`s simpli qui di`re de ce que lon obtient pour des valeurs e e e e de knots autour de 20 (qui elles donnent toutes des rsultats semblables). Finalement, e on a choisi la valeur 23 comme nombre de noeuds potentiels parce que cette valeur permettait dobtenir un estimateur parcimonieux, mais on aurait pu prendre dautres valeurs autour de 20 (au moins nimporte laquelle des valeurs dans lintervalle [16,25] autre que 20) et en arriver principalement aux mmes conclusions. e De faon gnrale, les estimateurs obtenus avec les mthodes GAM et polyMARS c e e e pour lajustement du mod`le 3 dgagent la mme structure. En eet, les graphiques e e e e e bivaris prsents dans les gures 4.7 et 4.8 sont tous les deux caractriss par lauge e e mentation rapide de la densit mammaire ` mesure que les valeurs de IGF-I augmentent e a et que celles de IGFBP-3 diminuent pour les valeurs de IGFBP-3 infrieures ` environ e a 5000 et celles de IGF-I suprieures ` 180 ; alors que le reste de la relation est plutt stable e a o partout ailleurs, mis ` part une lg`re baisse de la densit ` mesure que les valeurs des a e e ea facteurs de croissance augmentent. La similitude est encore plus vidente lorsque lon e observe les courbes de niveaux, surtout dans la rgion infrieure droite, qui montrent e e des relations ` peu pr`s quivalentes. De plus, en comparant ces rsultats avec ceux du a e e e mod`le 1, on remarque galement une ressemblance importante. Plus particuli`rement, e e e lajustement dune relation linaire pour les covariables donne des estimateurs come parables dans chaque mthode destimation, puisque les coecients estims par gam() e e
A titre indicatif, mentionnons que lordre dans lequel sont prsentes les bases pour les mod`les e e e polyMARS et MARS reprsente lordre dentre de ces derni`res dans le mod`le, cest-`-dire quune e e e e a base prsente ` une ligne donne est toujours entre avant celles qui sont places dans les lignes en e e a e e e dessous, mais quil est possible que dautres bases soient entres dans le mod`le pendant la procdure e e e pas ` pas et aient t retires par la suite. a ee e
10 `

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

72

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 ) + AGE XAGE + IM C XIM C e


8000
50 40

IGFBP3
500 400
F.I

35 8000 300
IG 6000 FB P.3

200 4000 100

3000 100

4000

IG

5000

6000

45

7000

DENS

ITE

200

300
IGF1

400

500

100

80

DENSITE

60

DENSITE

40

20

30

35

40

45
GE

50

55

20

20

40

60

80

100

20

25

30

35
IMC

40

45

50

Fig. 4.7 Reprsentations graphiques de lestimateur obtenu avec la mthode GAM e e lorsque lon ajuste le mod`le 3. La composante bivarie pour IGF-I et IGFBP-3 poss`de e e e 2 6.47 degrs de libert (3.4) et lajustement du mod`le donne un R = 0.348. e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

73

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 ) + AGE XAGE + IM C XIM C e


8000
IGFBP3
500 0 8000 400 50

100

IG 6000 FB P 3
4000 100

200

IG

F 1

300

3000 100

4000

5000

6000

7000
DENSIT E

200

300
IGF1

400

500

100

80

60

DENSIT

40

DENSIT

20

30

35

40

45
GE

50

55

20

40

60

80

100

20

25

30

35
IMC

40

45

50

Fig. 4.8 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 3. e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

74

Tab. 4.6 Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 3. e Bases Coecients 1 xIM C xAGE xIGF BP -3 (xIGF BP -3 4275.1)+ (xIGF BP -3 3465.1)+ (xIGF BP -3 5211.5)+ (xIGF BP -3 5083.0)+ xIGF -I (xIGF -I 180.6)+ xIGF -I xIGF BP -3 xIGF -I (xIGF BP -3 5211.5)+ R2 =0.356 132.693 -2.925 -0.346 0.002 -0.024 0.025 -0.086 0.081 0.227 0.244 -0.0001 0.0001

sont de -0.365 pour la variable AGE et de -2.839 pour IMC comparativement ` -0.349 et a -2.886 respectivement pour polymars(). Comme pour le mod`le 1, on pourrait amliorer e e lestimation de la relation entre la densit et les covariables en utilisant une composante e non paramtrique plutt que linaire, car les rsultats obtenus avec le mod`le 3 ajustent e o e e e tr`s mal les observations, principalement pour les valeurs dIMC suprieures ` 40. Par e e a 2 ailleurs, on note que le R pour les mod`les non paramtriques est approximativement e e de 0.35 ce qui nest pas tellement dirent de ce que lon avait obtenu avec le mod`le 1. e e On pourrait donc conclure que le traitement des facteurs de croissance de faon continue c na pas permis de faire de gain considrable en ce qui concerne lajustement du mod`le. e e Malgr tout, lutilisation de mthodes non paramtriques est tr`s intressante, surtout e e e e e du point de vue de la reprsentation graphique de linteraction entre ces variables. e Les observations faites au paragraphe prcdent portent ` modier lg`rement le e e a e e mod`le 3 dans le but de tirer prot de la rgression non paramtrique pour amliorer la e e e e qualit de lajustement. On utilise donc les fonctions gam() et polymars() pour ajuster e le mod`le 4, qui traite de faon non paramtrique les relations entre les covariables et la e c e densit mammaire tout en conservant leur additivit par rapport aux autres variables. e e Les rsultats de lajustement avec GAM sont prsents ` la gure 4.9, tandis que ceux e e e a obtenus avec polyMARS se trouvent dans le tableau 4.7 et la gure 4.10. On remarque que les rsultats obtenus avec chaque mthode sont tr`s semblables e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

75

Mod`le : DENSITE = 1 (XIGF -I , XIGF BP -3 ) + 2 (XAGE ) + 3 (XIM C ) e


8000
50 40

IGFBP3
500 400
F.I

35

300
IG 6000 FB P.3

200 4000 100

3000 100

4000

8000
IG

5000

6000

45

7000

100

80

60

DENSIT

40

DENSIT

20

30

35

40

45
GE

50

55

20

40

60

80

100

Fig. 4.9 Reprsentations graphiques de lestimateur obtenu avec la mthode GAM e e lorsque lon ajuste le mod`le 4. La composante bivarie pour IGF-I et IGFBP-3 poss`de e e e 6.47 degrs de libert (3.4), celle pour lAGE 2.32 et celle pour IMC 3.05. Lajustement e e du mod`le donne un R2 = 0.382. e

DENS

IT

200

300
IGF1

400

500

20

25

30

35
IMC

40

45

50

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

76

Mod`le : DENSITE = 1 (XIGF -I , XIGF BP -3 ) + 2 (XAGE ) + 3 (XIM C ) e


8000
100 50

IGFBP3
500 0 8000
IG 6000 FB P 3

400
F I

300 200 4000 100


IG

3000 100

4000

5000

6000

7000
IT DENS

200

300
IGFI

400

500

100

80

60

DENSIT

40

DENSIT

20

30

35

40

45
GE

50

55

20

40

60

80

100

20

25

30

35
IMC

40

45

50

Fig. 4.10 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 4. e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

77

Tab. 4.7 Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 4. e Bases Coecients 1 xIM C xIGF BP -3 xAGE (xAGE 46.0)+ (xIGF BP -3 5056.2)+ xIGF -I xIGF -I xIGF BP -3 (xIGF -I 143.9)+ (xIGF BP -3 5201.5)+ (xIGF BP -3 4976.3)+ xIGF -1 (xIGF BP -3 4976.3)+ (xIM C 24.7)+ R2 =0.387 92.391 -5.145 0.019 0.544 -1.653 0.247 0.262 -0.0001 0.291 -0.096 -0.171 0.0001 3.176

` ceux du mod`le 3, ce qui indique que le fait destimer la relation entre la variable a e rponse et les covariables de faon non paramtrique ne change pas lallure gnrale e c e e e de la relation entre cette derni`re et les facteurs de croissance. Toutefois, on observe e dans les deux cas un lger aplatissement de cette relation, ce qui est consistant avec e les rsultats que lon avait obtenus en utilisant une composante quadratique pour les e covariables dans le mod`le 2. De plus, de la mme faon que lorsque lon est pass du e e c e mod`le 1 au mod`le 2, lutilisation de composantes plus exibles pour les covariables a e e permis damliorer quelque peu le R2 , qui est pass ` 0.38 pour lestimateur obtenu avec e ea GAM et ` 0.39 pour celui obtenu avec polyMARS. Enn, lutilisation de composantes a non paramtriques semble tre un bon choix, puisque la relation suit beaucoup mieux e e les donnes que dans le mod`le 3, et ce, principalement dans le cas de lindice de masse e e corporelle. Les mod`les ajusts prcdemment avaient tous en commum de supposer ladditie e e e vit des covariables, comme il est gnralement dusage en biostatistique. Par contre, e e e dans un contexte dexploration des donnes, il est intressant de vrier si de telles e e e hypoth`ses sont ralistes et si on ninduit pas articiellement la relation dinteraction e e entre les facteurs de croissance de par la faon dont le mod`le est spci. Un des princic e e e paux avantages de la mthode polyMARS, par opposition ` GAM, est quelle permet de e a modliser les interactions importantes entre les variables explicatives sans que lutilisae teur ait ` les spcier directement dans le mod`le. La fonction polymars() serait donc a e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

78

un bon outil exploratoire qui permettrait de vrier si la relation est bien additive pour e les covariables. Pour ce faire, on doit ajuster le mod`le 5 o` toutes les interactions entre e u les quatre variables explicatives sont possibles. Puisque la fonction mars() permet aussi deectuer ce type danalyse et utilise un principe de slection des termes du mod`le e e semblable, on peut aussi lutiliser pour ajuster le mod`le 5 et comparer ses rsultats e e avec ceux de polymars(). Les rsultats obtenus avec polyMARS sont prsents dans le e e e tableau 4.8 et la gure 4.11, tandis que ceux de MARS sont prsents dans les tableaux e e 4.9 et 4.10 ainsi que dans les gures 4.12 et 4.14. Tab. 4.8 Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5. e Bases Coecients 1 xIM C (xIM C 25.6)+ xIGF BP -3 xAGE (xAGE 46.0)+ (xIGF BP -3 4024.8)+ (xIGF BP -3 5056.2)+ xIGF -I xIGF -I xIGF BP -3 (xIGF -I 143.9)+ (xIGF BP -3 3740.6)+ (xIGF BP -3 5201.5)+ (xIGF BP -3 4976.3)+ xIGF 1 (xIGF BP -3 4976.3)+ R2 =0.390 108.49 -4.752 2.923 0.011 0.525 -1.592 -0.026 0.219 0.251 -0.0001 0.271 0.028 -0.092 -0.140 0.0001

Lestimateur obtenu avec polyMARS pour lajustement du mod`le 5 est principalee ment le mme que celui ajust avec le mod`le 4, ce qui permet de penser que lhypoth`se e e e e dadditivit des covariables est raliste et que les estimateurs du mod`le 4 sont vraie e e semblables. Ainsi, lajustement du mod`le 5 avec polyMARS permet daugmenter la e conance que lon pouvait avoir pour les rsultats obtenus avec GAM, car ces derniers e dpendent en grande partie de la faon dont le mod`le a t spci. Dun autre ct, e c e ee e e oe le degr de conance que lon accorde ` lestimateur GAM du mod`le 4 permet aussi de e a e juger de lecacit de la mthode polyMARS ` trouver la bonne structure pour la relae e a tion, puisque cette derni`re repose grandement sur le bon choix des noeuds, qui peuvent e changer considrablement lallure de la fonction estime. Cette derni`re est donc plus e e e susceptible dtre biaise que les fonctions de lissage loess. Par consquent, le fait que e e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

79

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 , XAGE , XIM C ) e


8000
100 50 500 0 8000
IG 6000 FB P 3

400
IG F

300 200 4000 100

3000 100

4000

IGFBP3 5000 6000

7000
IT DENS

200

300 IGFI

400

500

100

80

60

DENSIT

40

DENSIT

20

30

35

40

45
GE

50

55

20

40

60

80

100

20

25

30

35
IMC

40

45

50

Fig. 4.11 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5. e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

80

lestimateur polyMARS du mod`le 5 et que lestimateur GAM du mod`le 4 donnent sene e siblement les mmes rsultats montre que ces mthodes sont utiles et consistantes pour e e e dcrire de faon non paramtrique la relation entre la densit mammaire et les facteurs e c e e de croissance IGF-I et IGFBP-3 en considrant lge et lindice de masse corporelle. On e a peut mme armer que, dans le cas prsent, elles sont complmentaires puisque chae e e cune apporte une information dirente, qui donne une plus grande conance pour les e rsultats obtenus. Ceci nous am`ne donc ` conclure quil semble bel et bien y avoir une e e a interaction entre IGF-I et IGFBP-3 en ce qui concerne leur eet sur la densit mame maire, lorsque lon corrige pour lAGE et lIMC. De plus, puisque les estimateurs polyMARS pour les mod`les 4 et 5 sont pratiquement quivalents, la principale dirence e e e tant lajout de trois noeuds pour la variable IGFBP-3 dans le mod`le 5, on conclut que e e le mod`le 4 est celui qui dcrit le mieux et avec le plus de parcimonie les relations entre e e les variables. Ainsi, on peut interprter linteraction entre les facteurs de croissance par e une augmentation de la densit mammaire ` mesure que la quantit de IGF-I augmente e a e et que celle de IGFBP-3 diminue pour les femmes ayant un dosage de IGF-I suprieur e ` 143.9 nm/ml et de IGFBP-3 infrieur ` 4976.3 nm/ml, tandis que leet des facteurs a e a de croissance semble insigniant pour les autres femmes puisque lestimateur est plutt o 11 stable partout ailleurs et se situe gnralement pr`s de la moyenne globale . Enn, si e e e on compare les estimateurs du mod`le nal pour les mthodes GAM et polyMARS au e e rsultat obtenu avec GLM pour le mod`le 2, on remarque une importante ressemblance e e du point de vue visuel, mais aussi pour ce qui est du nombre de degrs de libert total e e du mod`le (voir section 3.1.3) qui est de 12.84 pour GAM (obtenu en faisant la somme e des degrs de libert spciques ` chaque composante non paramtrique plus 1 pour la e e e a e e e constante (voir gure 4.9)) et de 13 pour les autres mthodes (quivalent au nombre total param`tres dans chaque mod`le). Finalement, notons que si on compare lintere e action estime par polyMARS aux mod`les linaires 1 et 2, on remarque que, selon la e e e dnition des classes, cette derni`re se situe parmi les individus des classes formes des e e e i`me e i`me e er i`me e 2 et 3 tertiles de IGF-I combines aux 1 et 2 e tertiles de IGFBP-3. Les rsultats obtenus avec MARS sont quelque peu discordants comparativement ` e a ceux de polyMARS. Tout dabord, rappelons que la fonction mars() permet de xer le degr dsir pour les interactions prsentes dans lestimateur. On compare donc, en e e e e a premier lieu, lestimateur MARS du mod`le 5 prsent au tableau 4.9 et ` la gure e e e
Les valeurs donnes comme points de coupure pour la zone dinteraction sont celles dtermine e e e par polyMARS dans la formation des bases. Toutefois, polyMARS ne consid`re pas tous les points de e coupures possibles, car son objectif est de permettre linfrence sur la structure gnrale de la relation e e e entre les variables, on ne devrait donc pas considrer ces valeurs comme de vritables estimateurs des e e points de coupure pour la zone dinteraction mais plutt comme une approximation de ces derniers. Il o existe toutefois une mthode appele segmented line regression (Kim et al., 2000), qui est semblable e e a ` celle des splines, mais qui permet de faire de linfrence sur les points o` le taux de variation change e u dans une relation univarie. e
11

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

81

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 , XAGE , XIM C ) e Interaction entre IGF-I et IMC
100

50 500 0 50 40 IM C 200 20 100 400 300 30

IG F

20 100

IMC 30 40

50
SIT DEN

200

300 IGFI

400

500

Interaction entre IGFBP-3 et IMC


100

50

6000 40 IM C

IG

FB

0 50

8000

30 20

4000

20 3000

IMC 30 40

50
SIT DEN

5000 IGFBP3

7000

Interaction entre IGF-I et AGE


55
50 0 50 G 500 400
I
E

100

200 40 100

30 100

35

300

IG F

GE 40 45 50

Fig. 4.12 Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (en se restreignant aux e e interactions de second degr). e

IT DENS

200

300 IGFI

400

500

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

82

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 , XAGE , XIM C ) e Interaction entre IGF-I et IMC
100

50 500 0 50 40 IM C 200 20 100 400 300 30

IG F

20 100

IMC 30 40

50
SIT DEN

200

300 IGFI

400

500

Interaction entre IGFBP-3 et IMC


100

50

6000 40 IM C 30 20
IG F

BP 3

0 50

8000

4000

20 3000

IMC 30 40

50

60 40 20 0 55 50 45 G E 40 35 500 400
I

200 100

30

35

300

IG F

GE 40 45 50

80

55

100

Fig. 4.13 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (sous formes bivaries e e e pour la comparaison avec lestimateur MARS du mod`le 5 prsent ` la gure 4.12). e e ea

IT DENS IT DENS

5000 IGFBP3

7000

Interaction entre IGF-I et AGE

100

200

300 IGFI

400

500

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

83

Tab. 4.9 Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 lorsque e lon ajuste le mod`le 5 (en se restreignant aux interactions de second degr). e e Bases Coecients 1 (xIM C 26.0)+ (26.0 xIM C )+ (xAGE 47.0)+ (xIGF BP -3 4032.8)+ (xIGF BP -3 5056.2)+ (xIM C 26.0)+ (290.6 xIGF -I )+ (26.0 xIM C )+ (xIGF -I 180.4)+ (47.0 xAGE )+ (384.1 xIGF -I )+ (xIM C 35.4)+ R2 =0.385 41.811 -2.570 5.635 -1.251 -0.005 0.001 -0.016 -0.006 0.007

4.12, o` on se limite ` des interactions de second degr, ` lestimateur obtenu avec u a e a polyMARS prsent au tableau 4.8 et aux gures 4.11 et 4.13. On remarque que les e e 2 mthodes ne retiennent pas les mmes interactions. Tandis que polyMARS dnote e e e seulement une interaction entre IGF-I et IGFBP-3, MARS trouve plutt des interactions o entre IGF-I et IMC, IGFBP-3 et IMC, ainsi que IGF-I et AGE. Ceci est probablement d au fait que la mthode MARS permet beaucoup plus facilement la modlisation u e e dinteraction, puisque les r`gles de construction du mod`le sont moins restrictives que e e celles de polyMARS (il ny a pas de conditions hirarchiques). Cette caractristique e e nest habituellement pas tr`s apprcie en biostatistique, car elle m`ne facilement ` des e e e e a mod`les complexes et diciles ` interprter. Lestimateur obtenu avec MARS contient e a e beaucoup moins de bases que celui obtenu avec polyMARS, mais donne une fonction plus complexe et dicilement interprtable biologiquement. On peut tout de mme e e a comparer les interactions obtenues avec MARS illustres ` la gure 4.12 ` lestimateur e a obtenu avec polyMARS prsente sous formes bivaries ` la gure 4.13. En comparant e e e a les deux gures, on remarque que de faon gnrale les dirences majeures se retrouvent c e e e principalement dans les rgions o` il y a peu ou aucune donne. La dirence la plus e u e e marquante se situe dans linteraction entre IGFBP-3 et IMC et concerne les individus ayant une valeur de IGFBP-3 suprieure ` 5056.2 nm/ml et un indice de masse corporelle e a 2 de plus de 26 kg/m . MARS estime que la densit mammaire augmente dans cette rgion e e ` mesure que ces deux variables augmentent, ce qui nest pas le cas avec polyMARS. Par a contre, on remarque que leet de cette interaction commence ` produire un rsultat a e rellement dirent lorsque lon atteint la rgion o` il y a tr`s peu de donnes. Par e e e u e e ailleurs, les autres interactions estimes semblent avoir peu deet rel sur lallure de la e e relation. De plus, tant donn que les valeurs de densit mammaires contiennent une e e e importante variabilit rsiduelle, il y a lieu de se questionner sur la pertinence de telles e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

84

estimations, dautant plus que les R2 de chaque mod`le, environ 0.39, ne portent pas ` e a conclure que MARS performe mieux. Tel que discut prcdemment, lalgorithme MARS permet aussi dobtenir un estie e e mateur qui ne pose aucune restriction sur le degr des interactions formant lestimateur. e Ceci peut constituer un avantage certain puisque lon peut prendre en compte les subtilits de la relation, mais aussi un dsavantage important puisque lestimateur obtenu e e peut rapidement devenir tr`s complexe et tre encore plus dicile ` interprter. Le tae e a e bleau 4.10 et la gure 4.14 prsentent les rsultats obtenus pour lestimation du mod`le 5 e e e avec MARS, lorsque lon nimpose aucune contrainte sur le degr des interactions. On e remarque tout dabord au tableau 4.10 que lestimateur obtenu poss`de une base de e moins que lorsque lon imposait une restriction sur les interactions et que seulement quatre dentre elles se trouvent dans les deux mod`les. De plus, lajustement du mod`le e e nest pas meilleur lorsque lon nimpose aucune restriction sur les interactions, et ce, mme si cet estimateur contient une interaction triple entre IGF-I, IGFBP-3 et IMC. La e gure 4.14 prsente une illustration de certaines composantes de lestimateur prsent e e e au tableau 4.10. La reprsentation graphique de linteraction triple est ralise en condie e e tionnant sur certaines variables. Etant donn la complexit du mod`le, on ne prsente e e e e que les interactions les plus pertinentes. Pour chaque graphique, les variables qui ne sont pas reprsentes sont xes ` leur valeur moyenne qui peut tre conditionnelle e e e a e dans certain cas. Tab. 4.10 Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 lorsque e lon ajuste le mod`le 5 (sans restriction sur les interactions). e Bases Coecients 1 (xIM C 26.0)+ (26.0 xIM C )+ (xIGF BP -3 5028.8)+ (xIM C 26.0)+ (290.6 xIGF -I )+ (26.0 xIM C )+ (xIGF -I 180.4)+ (5028.8 xIGF BP -3 )+ (xIM C 26.0)+ (xIGF BP -3 4032.8)+ (xAGE 47.0)+ (xIGF BP -3 4032.8)+ (47.0 xAGE )+ R2 =0.383 36.639 -2.027 5.752 0.001 -0.013 0.001 -0.0013 -0.0007

La dcomposition de linteraction triple montre que linteraction entre IGF-I et e IGFBP-3 que lon avait obtenue avec les estimateurs GAM et polyMARS, se retrouve aussi en quelque sorte dans le mod`le 5 ajust avec MARS, mais seulement pour les e e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

85

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 , XAGE , XIM C ) e Interaction entre IGF-I et IGFBP-3 conditionnellement ` IMC 26 a
2000 1500 1000 500

8000

6000 4000 100 300 200 FI IG

400

3000 100

IGFBP3 5000 7000


3

Interaction entre IGF-I et IMC conditionnellement ` IGFBP-3 < 5028, 8 a


50

1000

0 50 40 30 20 200 I IGF 300

100

20

IMC 30 40

80 60 40 20 0 55 50 45
E G

40 35 3000

30

8000 7000 6000 3 5000 BP F 4000 IG

35

40

GE 45 50

55

Fig. 4.14 Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (sans restriction sur les e e interactions).

DENSIT

2000

IG

P FB

200

300 IGFI

400

DENSIT

IM C
100

100 150 200 250 300 350 400 IGFI

Interaction entre IGFBP-3 et AGE

DENSIT

3000

5000 IGFBP3

7000

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

86

individus ayant un indice de masse corporelle suprieure 2612 . Par contre, si on observe e cette interaction, illustre dans la premi`re ligne de la gure 4.14, on remarque quelle e e ore une estimation plutt grossi`re de la relation entre la densit mammaire et les o e e facteurs IGF-I et IGFBP-3. En eet, la partie de la fonction concernant linteraction augmente de faon dmesure et dpasse rapidement la limite naturelle de 100 pour la c e e e densit. La consistance de linteraction triple peut aussi tre mise en doute puisquelle e e ne concerne que 12 individus (reprsents par des points plus gros en bleu dans le grae e phique des courbes de niveau). Par ailleurs, on remarque que la relation entre la densit e mammaire et les variables IGF-I et IMC est dirente de celle de lestimateur prcdent e e e seulement lorsque IGFBP-3 est infrieur ` 5028,8. Cette relation est prsente ` la see a e e a conde ligne de la gure 4.14. Comme dans le cas prcdent, laugmentation de la densit e e e se fait beaucoup trop rapidement ce qui m`ne ` des surestimations considrables. La e a e relation entre la densit mammaire et IGFBP-3 et IMC nest pas prsente puisquelle e e e rappelle uniquement ce que lon a dj` prsent prcdemment. Finalement, lestimaea e e e e teur ne comprend plus dinteraction entre les variables IGF-I et AGE, mais plutt entre o IGFBP-3 et AGE.

4.2.3

Conclusions de ltude e

En rsum, les mthodes de rgression non paramtrique ont permis de modliser e e e e e e de faon continue la relation entre la densit mammaire et les facteurs de croissance c e analogues ` linsuline, IGF-I et IGFBP-3, et de dterminer que le meilleur mod`le pour a e e dcrire cette relation, avec les donnes dont on disposait, est le mod`le 4. Ainsi, les e e e rsultats obtenus avec les mthodes GAM et polyMARS permettent de conclure quil e e existe bien une interaction entre ces facteurs en ce qui concerne leur eet sur la densit e mammaire et que celle-ci se traduit par un eet dirent de ces derniers sur la densit e e mammaire pour les femmes ayant un dosage de IGF-I suprieur ` 143.9 nm/ml et e a de IGFBP-3 infrieur ` 4976.3 nm/ml. On remarque alors une augmentation de la e a densit mammaire ` mesure que la quantit de IGF-I augmente et que celle de IGFBPe a e 3 diminue, tandis que leet des facteurs de croissance semble plutt constant pour o les autres femmes. On observe tout de mme chez ces derni`res une lg`re diminution e e e e de la densit mammaire ` mesure que les quantits de chaque facteur de croissance e a e augmentent, mais la valeur prdite de densit mammaire se situe gnralement pr`s e e e e e de la moyenne globale. De plus, pour les mthodes GAM et polyMARS, on a observ e e que la correction de faon non paramtrique pour lge et lindice de masse corporelle c e a semble tre justie puisque cela permet non seulement damliorer lajustement, mais e e e
Il est intressant de noter que lOrganisation Mondiale de la Sant a x a 25 kg/m2 le point de e e e coupure de lindice de masse corporelle pour dpartager les personnes ayant un poids normal ou faible e de celles possdant un surplus de poids. e
12

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

87

attnue aussi lampleur des variations dans la relation entre la densit mammaire et les e e facteurs de croissance. Notons par ailleurs que les splines multivaries ont un avantage e intressant comparativement aux mod`les GAM, puisquils permettent de situer un peu e e plus prcisment pour quelles valeurs des variables explicatives il y a un changement e e dans la relation. On a aussi montr que les mthodes GAM et polyMARS peuvent tre e e e complmentaires lors de lexploration des donnes dans le but de modliser la relation e e e entre une variable dpendante et plusieurs variables explicatives. e Par ailleurs, jusqu` prsent, on na pas abord lutilisation de mthodes diagnosa e e e tiques pour vrier la validit des estimateurs obtenus dans ce chapitre. Dans un e e contexte dexploration des donnes et dans le cas o` on nutilise pas de tests, ces e u derni`res ne sont pas ncessairement de premi`re importance, pourvu que lon soit e e e conscient des limitations des estimateurs non paramtriques. Toutefois, lorsque lon e choisit un mod`le nal que lon dsire interprter, il est toujours prfrable de vrier e e e ee e la validit du mod`le et il en va de mme pour les autres postulats tels que la normalit e e e e des rsidus lorsque lon veut eectuer des tests. Dans le cas qui nous intresse, on a e e dj` expliqu les raisons qui permettent davoir une certaine conance pour le mod`le ea e e nal. Toutefois, on peut aussi vrier si la spcication du mod`le est adquate ` laide e e e e a dune mthode plus traditionnelle utilisant les rsidus. Par exemple, on peut utiliser la e e fonction scatter.smooth() avec un span de 1 (tel que suggr dans Cleveland et al. ee (1992, p324)) pour tracer les rsidus en fonction des observations pour chaque variable e explicative et vrier sil existe une tendance particuli`re qui laisserait croire que le e e mod`le nest pas adquat. Dans le cas du mod`le 4, les graphiques nont montr aucune e e e e tendance particuli`re, ce qui vient appuyer la validit ce mod`le. e e e Dun autre ct, les rsultats obtenus avec MARS taient quelque peu discordants oe e e par rapport ` ce que lon a obtenu avec les autres mthodes. Plus prcisment, on aurait a e e e aim obtenir des estimateurs plus semblables ` ceux de polyMARS, puisque ces deux e a mthodes sont formes de splines linaires multivaries. On remarque que mme si les e e e e e deux mthodes utilisent des bases de fonctions linaires tronques et un algorithme e e e semblable pour construire un estimateur, les caractristiques particuli`res de chacune e e dentre elles peuvent mener ` des estimateurs dirents. En particulier, on a remarqu a e e que la mthode MARS permet tr`s facilement lentre de termes dinteraction dans son e e e estimateur et que ce dernier est souvent dicile ` interprter. Les estimateurs fournis a e par MARS sont moins intressants que ceux de polyMARS ` ce point de vue, car peu de e a chercheurs sont familiers avec des mod`les o` les tenseurs composant une interaction e u ne sont pas ncessairement prsents en eet simple dans le mod`le. Pour toutes ces e e e raisons et aussi parce que les rsultats de polyMARS et GAM taient pour leur part e e consistants, on a dcid de ne pas retenir les rsultas obtenus avec MARS lors du choix e e e du mod`le nal. Toutes ces remarques poussent toutefois ` approfondir la comparaison e a

Chapitre 4. Application des mthodes de rgression non paramtrique e e e entre les mthodes polyMARS et MARS ` la section suivante. e a

88

4.3

Comparaison de polyMARS et MARS

Cette section a pour but de comparer, sous dirents aspects, les mthodes polye e MARS et MARS. Ces derni`res se ressemblent sur plusieurs points, en particulier pour e lutilisation de bases de fonctions linaires tronques et de leurs produits de tenseurs e e pour modliser des interactions, mais aussi pour la mise en place dune procdure pas ` e e a pas et dun crit`re de validation croise gnralise pour choisir le meilleur estimateur. e e e e e Par contre, ils comportent aussi des dirences importantes qui, on la vu, peuvent e mener ` des estimateurs quelque peu contradictoires. Il est donc des plus intressants a e de comparer plus en profondeur les deux mthodes pour mieux situer leurs dirences. e e Le tableau 4.11 rsume les mod`les ajusts dans cette section. e e e Tab. 4.11 Description des mod`les ajusts ` la section 4.3. e e a # Variables Description 6 IGF-I, IGFBP-3, AGE, additif 7 8 IMC. IGF-I, IGFBP-3. interactions permises IGF-I, IGFBP-3, AGE, interactions de degr 2 e IMC, POIDS, TAILLE. permises

On compare dabord les estimateurs dun mod`le additif comprenant les variables e explicatives utilises ` la section prcdente (mod`le 6). Les estimateurs obtenus avec e a e e e chaque mthode sont illustrs aux gures 4.15 et 4.16. Comme dans les estimations e e prcdentes, le param`tre de lissage utilis est de 1.2 pour permettre une plus grande e e e e exibilit tant donn limportante variabilit rsiduelle contenue dans la variable DENee e e e SITE. En comparant les rsultats de polyMARS et de MARS, on remarque que les e composantes des variables AGE et IMC sont plutt semblables, ce qui nest pas aussi o vrai pour les variables IGF-I et IGFBP-3. Par ailleurs, on observe que lestimateur obtenu avec polyMARS lorsque lon utilise un param`tre de lissage de 1.2 donne un e ajustement lg`rement meilleur de 0.385 comparativement ` 0.370 pour MARS. Ceci e e a est probablement d au fait que polyMARS conserve un plus grand nombre de bases et u donc suit plus prcisment les donnes. Par contre, on remarque que MARS fait mieux e e e que polyMARS dans lestimation de la relation entre la variable DENSITE et IMC, car cette derni`re semble sous-estimer la densit mammaire pour les grandes valeurs dine e dice de masse corporelle. On peut toutefois supposer que ce fait est d aux dirences u e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e dans lensemble des noeuds potentiels considr par chaque mthode. ee e

89

Tab. 4.12 Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 6. e Bases Coecients 1 xIM C xIGF BP -3 xAGE (xAGE 46.0)+ (xIGF BP -3 5056.2)+ xIGF 1 (xIGF 1 143.9)+ (xIGF BP -3 5201.5)+ (xIM C 24.7)+ (xIGF BP -3 4263.4)+ (xIGF 1 221.9)+ (xIGF 1 213.8)+ (xIGF 1 239.7)+ R2 =0.385 140.042 -5.089 0.008 0.460 -1.442 0.057 -0.152 -0.044 0.256 3.107 -0.023 1.280 -0.929 -0.478

Pour aider ` la comparaison de polyMARS et de MARS, on peut aussi se sevir des a mod`les GAM utilisant des fonctions de lissage loess. Les gures 4.17 et 4.18 prsentent e e les estimateurs du mod`le 6 ajusts avec gam(), pour lesquels le param`tre de lissage e e e de chaque fonction loess a t x ` 0.4 et 0.8 respectivement. En comparant, les graee ea phiques des composantes respectives aux variables IGF-I et IGFBP-3, on remarque que lestimation de polyMARS ressemble plus ` un estimateur GAM utilisant des fonca tions de lissage loess avec un span de 0.4, tandis que celle de MARS sapparente plus ` une fonction de lissage loess avec un span de 0.8. De plus, on peut faire la mme a e remarque lorsque lon compare les degrs de libert de chacune de ces composantes. Il e e semble donc que pour une mme valeur de param`tre de lissage, dans le cas dun mod`le e e e additif avec une variable rponse caractrise par une grande variabilit rsiduelle, la e e e e e fonction mars() tend ` faire plus de lissage que la fonction polymars(). a On peut approfondir quelque peu la comparaison en faisant le mme genre de e dmarche, mais pour un mod`le bivari. On utilise donc les facteurs de croissance IGF-I e e e et IGFBP-3 pour dcrire la densit mammaire (mod`le 7) et on estime la relation entre e e e ces variables ` laide des fonctions gam(), polymars() et mars(). Les reprsentations a e graphiques de chaque estimateur sont prsentes ` la gure 4.19. On remarque alors e e a que, dans le cas bivari, MARS ressemble plus ` lestimateur loess que polyMARS, e a

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

90

Mod`le : e DENSITE = 1 (XIGF -I ) + 2 (XIGF BP -3 ) + 3 (XAGE ) + 4 (XIM C )


DENSIT 20 40 60 80 100 DENSIT 40 60 80 100 100 DENSIT 20 40 60 80 100 200 300 IGFI 400 500 DENSIT 40 60 80 100 0 3000 20

5000 IGFBP3

7000

30

35

40

45 GE

50

55

20

20

25

30

35 IMC

40

45

50

Fig. 4.15 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste un mod`le additif (mod`le 6). Le e e e nombre de dgrs de libert (nombre de param`tres, excluant la constante) associ ` e e e e ea chaque composante du mod`le est de 5 pour IGF-I, 4 pour IGFBP-3, 2 pour AGE et 2 e pour IMC.

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

91

Mod`le : e = 1 (XIGF -I ) + 2 (XIGF BP -3 ) + 3 (XAGE ) + 4 (XIM C ) DENSITE


DENSIT 20 40 60 80 100 DENSIT 40 60 80 100 100 DENSIT 20 40 60 80 100 200 300 IGFI 400 500 DENSIT 40 60 80 100 0 3000 20

5000 IGFBP3

7000

30

35

40

45 GE

50

55

20

20

25

30

35 IMC

40

45

50

Fig. 4.16 Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste un mod`le additif (mod`le 6). Le nombre e e e de dgrs de libert (nombre de param`tres, excluant la constante) associ ` chaque e e e e e a composante du mod`le est de 2 pour IGF-I, 1 pour IGFBP-3, 1 pour AGE et 2 pour e IMC.

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

92

Mod`le : e = 1 (XIGF -I ) + 2 (XIGF BP -3 ) + 3 (XAGE ) + 4 (XIM C ) DENSITE


DENSIT 20 40 60 80 100 DENSIT 40 60 80 100 100 DENSIT 20 40 60 80 100 200 300 IGFI 400 500 DENSIT 40 60 80 100 0 3000 20

5000 IGFBP3

7000

30

35

40

45 GE

50

55

20

20

25

30

35 IMC

40

45

50

Fig. 4.17 Reprsentations graphiques de lestimateur obtenu avec GAM lorsque lon e ajuste un mod`le additif (mod`le 6) en utilisant des fonctions de lissage loess avec un e e span de 0.4 . La composante pour IGF-I poss`de 4.46 degrs de libert (3.4), alors que e e e IGFBP-3 en poss`de 4.65, AGE 3.69 et IMC 4.10. e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

93

Mod`le : e = 1 (XIGF -I ) + 2 (XIGF BP -3 ) + 3 (XAGE ) + 4 (XIM C ) DENSITE


DENSIT 20 40 60 80 100 DENSIT 40 60 80 100 100 DENSIT 20 40 60 80 100 200 300 IGFI 400 500 DENSIT 40 60 80 100 0 3000 20

5000 IGFBP3

7000

30

35

40

45 GE

50

55

20

20

25

30

35 IMC

40

45

50

Fig. 4.18 Reprsentations graphiques de lestimateur obtenu avec GAM lorsque lon e ajuste un mod`le additif (mod`le 6) en utilisant des fonctions de lissage loess avec un e e span de 0.8 . La composante pour IGF-I poss`de 1.64 degrs de libert (3.4), alors que e e e IGFBP-3 en poss`de 1.77, AGE 0.81 et IMC 1.40. e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

94

Tab. 4.13 Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 lorsque e lon ajuste un mod`le 6. e Bases Coecients 1 (xIM C 26.0)+ (26.0 xIM C )+ (xAGE 47)+ (xIGF BP -3 4032.8)+ (xIGF 1 384.1)+ (xIGF 1 145.8)+ R2 =0.370 36.237 -1.625 4.572 -0.929 -0.004 -0.231 0.034

ce qui ntait pas la cas lorsque lon corrigeait pour les covariables AGE et IMC ` la e a section prcdente. Ceci pourrait encore une fois sexpliquer par le fait que MARS peut e e plus facilement inclure des interactions entre les variables explicatives que polyMARS. Dans un mod`le bivari, linclusion dinteraction augmente la prcision de lestimateur e e e et ne cause habituellement pas de probl`me majeur dinterprtation, ce qui implique e e que MARS pourrait tre environ aussi apprciable que polyMARS pour modliser des e e e donnes biologiques bivaries. Toutefois, mme si MARS semble donner un meilleur e e e ajustement des donnes parce que son estimateur ressemble plus ` celui de GAM, cela e a 2 ne se re`te pas dans le R qui est environ gal ` 0.055 pour les deux mthodes, compae e a e rativement ` 0.068 pour GAM. On note aussi que les coecients de dtermination pour a e le mod`le o` on utilise seulement les facteurs de croissance comme variables explicatives e u sont tr`s faibles et donc que la majeure partie de lajustement ralis dans les mod`les e e e e a de la sections 4.2 est attribuable aux covariables, principalement ` lindice de masse corporelle. Un des avantages des mthodes polyMARS et MARS, dmontr par des simulations e e e dans certains papiers (Kooperberg et OConnor, 1997) (Friedman, 1991), est quils permettent de choisir le meilleur mod`le qui explique les variations dune variable ` partir e a dun ensemble de plusieurs variables explicatives en liminant les variables qui nape portent aucune information. Dans ce sens, il serait intressant de vrier quel genre e e de mod`le on obtient lorsque lon inclut dans le mod`le de dpart des variables qui e e e dcrivent essentiellement la mme relation avec la variable rponse. Pour ce faire, on e e e ajuste maintenant le mod`le 8, qui ajoute les variables POIDS et TAILLE au lot de e variables explicatives utilises dans les mod`les de la section 4.2 et o` on peut avoir e e u des interactions de second degr pour toutes les combinaisons possibles de deux de ces e variables. On a vu ` la section 4.1 que les variables IMC et POIDS dcrivent princia e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

95

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 ) e Gam : span=0.5


60 50

40 30 20 8000
IG 6000 FB P.3

500 400
IG F.I

300 200 4000 100

3000 100

IGFBP3 5000 7000

100

50

500 0 8000
IG 6000 FB P 3

400
IG F

300 200 4000 100

3000

IGFBP3 5000 7000

100

500 0 8000
6000 GE

400
IG F I

300 200 4000 100

3000

GE 5000

50

7000

Fig. 4.19 Reprsentations graphiques des estimateurs obtenus pour un mod`le bivari e e e (mod`le 7). e

DENS DENS DENS

IT IT IT

200

300 IGF1

400

500

polyMARS : param`tre de lissage = 1.2 e

100

200

300 IGFI

400

500

MARS : param`tre de lissage = 1.2 e

100

200

300 IGFI

400

500

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

96

palement la mme relation avec la densit, ce qui nest pas surprenant tant donn la e e e e dnition de lindice de masse corporelle. Dautre part, la variable TAILLE est aussi e incluse dans le calcul de lindice de masse corporelle, ce qui implique que lon est plus ou moins favorable ` linsrer dans le mod`le. En rgression linaire, on utilise le terme a e e e e collinarit pour dsigner le fait que certaines variables explicatives ont un comportee e e ment qui sapproche de la dpendance linaire ce qui rend plus dicile, voire impossible, e e lidentication de leur eet sur la variable rponse (Myers, 1990, p.125). Tel quexpos ` e ea la section 4.1, en rgression non paramtrique, on utilise plutt le terme concurvit e e o e pour dsigner ce fait, puisque la dpendance linaire entre des variables explicatives e e e entra des probl`mes destimation si ces derni`res poss`dent essentiellement la mme ne e e e e relation (une courbe quelconque) avec la variable rponse (Hastie et Tibshirani, 1990, e p.115;120). Les rsultats de lestimation ralise avec polyMARS pour le mod`le 8 sont e e e e a e e prsents au tableau 4.14 et ` la gure 4.20, tandis que ceux de MARS sont prsents e e au tableau 4.15 et ` la gure 4.21. a Lorsque lon observe lestimateur ajust par polyMARS, on remarque immdiatee e ment que cette mthode ne g`re pas bien les probl`mes de concurvit. En eet, ` la e e e e a e e gure 4.20, on voit clairement que la composante estime pour modliser la relation entre la densit mammaire et lindice masse corporelle est inacceptable. De plus, on e remarque que linteraction estime entre IGF-I et AGE concerne encore une fois tr`s e e peu de donnes, ce qui met dautant plus en doute la validit de ce mod`le. Par contre, si e e e on utilise un param`tre de lissage plus conservateur, disons dau moins 2.5, on simplie e grandement lestimateur et le probl`me dispara En eet, on obtient alors une fonction e t. spline ` 6 bases, la constante, deux pour la variable IMC, une pour IGFBP-3 et deux a pour AGE. Ce mod`le est alors tr`s proche de celui que lon obtient si on utilise le e e mme param`tre de lissage pour ajuster le mod`le 5 de la section 4.2. Ceci incite donc e e e ` penser que dans le cas de polyMARS, on doit faire attention aux variables que lon a sugg`re ` cette derni`re pour faire partie du mod`le, surtout si on utilise un param`tre e a e e e de lissage faible pour avoir beaucoup de exibilit. Dans le cas de ltude portant sur e e la densit mammaire, lutilisation dun param`tre de lissage de 2.5 permet de souligner e e le fait que si on veut faire des corrections pour les variables importantes lorsque lon tudie la relation entre la densit mammaire et les facteurs de croissance, on devrait e e seulement considrer les covariables AGE et IMC. Ceci vient en quelque sorte justier e le choix de ces covariables ` la section 4.2, qui semblent tre prfrables ` lemploi des a e ee a variables POIDS et TAILLE. Pour ce qui est de la mthode MARS, leet dinclure des variables qui dcrivent e e principalement la mme relation avec la variable dpendante est un peu moins vident e e e ` cibler ` cause de la complexit du mod`le. Le tableau 4.15 prsente lestimateur a a e e e obtenu lorsque lon ajuste la densit mammaire en fonction des 6 variables explicatives e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

97

Tab. 4.14 Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 8. e Bases Coecients 1 xIM C (xIM C 25.6)+ xIGF BP -3 xAGE (xAGE 46.0)+ (xIGF BP -3 4024.8)+ (xIGF BP -3 5056.2)+ xT AILLE xP OIDS xIGF BP -3 xT AILLE (xT AILLE 171.0)+ (xIGF BP -3 5201.5)+ (xIGF BP -3 4976.3)+ xIGF 1 (xIGF 1 344.6)+ (xAGE 34.0)+ xIGF 1 xT AILLE xIGF 1 (xT AILLE 171)+ xIGF 1 xAGE xIGF 1 (xAGE 34)+ R2 =0.41 2136.625 -0.411 2.810 0.075 -70.796 -1.584 -0.014 0.248 2.439 -1.635 -0.0004 10.775 -0.103 -0.141 -9.323 -0.175 71.292 0.005 -0.036 0.252 -0.251

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

98

Mod`le : DENSITE = (XIGF -I , XIGF BP -3 , XAGE , XIM C , XP OIDS , XT AILLE ) e


DENSIT 40 60 80 100 DENSIT 40 60 80 100 20 25 30 35 IMC 40 45 50 0 40 20

20

60

80 POIDS

100

120

50

4000 150

145 3000

170 TA ILL 160 E

IG F

BP

6000

0 180

8000

TAILLE 155 165

175

100

50

0 180 170 TA ILL 160 E 150 200 100

500 400
IG F I

300

145

TAILLE 155 165

175

100

100

0 100

500 400 50 G
F I

40

200 100

30

35

300
IG

40

GE 45 50

55

Fig. 4.20 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 8. e e

DENS DENS

IT IT DENS IT

5000 IGFBP3

7000

100

200

300 IGFI

400

500

100

200

300 IGFI

400

500

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

99

Tab. 4.15 Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 lorsque e lon ajuste un mod`le 8. e Bases Coecients 1 (xIM C 26.0)+ (26.0 xIM C )+ (xAGE 47)+ (47 xAGE )+ (xIGF BP -3 4032.8)+ (xIGF BP -3 5028.8)+ (xIM C 26.0)+ (26.0 xIM C )+ (xT AILLE 160)+ (26.0 xIM C )+ (160 xT AILLE )+ (xIGF BP -3 4032.8)+ (58.6 xP OIDS )+ (xIGF BP -3 4032.8)+ (xP OIDS 69.8)+ (xIGF 1 384.1)+ (384.1 xIGF 1 )+ (384.1 xIGF 1 )+ (xAGE 47)+ (384.1 xIGF 1 )+ (47 xAGE )+ (384.1 xIGF 1 )+ (xIM C 35.4)+ R2 =0.41 58.109 -2.312 3.447 -3.341 -2.268 -0.007 0.003 0.166 -0.196 0.0009 -0.0004 -0.259 -0.086 0.013 0.013 0.008

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

100

200

150

50

BP

IG F

IM C

30 20

4000

S 80

4000 60

Fig. 4.21 Reprsentations graphiques des interactions impliquant la variable IGFBPe 3 avec les variables IMC et POIDS, estimes par MARS pour le mod`le 8 avec un e e param`tre de lissage de 1.2. e

IG F

40

100 PO ID

BP

6000

6000

DENS

IT

IT DENS

100

50 8000 50 50 120 8000

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

101

avec mars() en se restreignant ` des interactions de second degr. Tout dabord, on a e remarque que la moiti des bases du mod`les sont des produits de tenseurs reprsentant e e e au total cinq direntes interactions. Parmi celles-ci, on retrouve deux interactions e impliquant IGFBP-3, soient une avec IMC et une avec POIDS, prsentes ` la gure e e a 4.21. On remarque immdiatement que linteraction impliquant IGFBP-3 et POIDS e est en quelque sorte annule par la relation estime entre la densit mammaire et les e e e variables IGFBP-3 et IMC. Ceci indique donc que MARS prouve les mmes probl`mes e e e que polyMARS et que lon doit faire attention aux variables que lon propose dans mod`le de dpart pour cette mthode. Par contre, contrairement ` polyMARS, il faut e e e a utiliser un param`tre de lissage dau moins 4.6 pour obtenir un mod`le qui nimplique e e pas ` la fois les variables IMC et POIDS. Toutefois, le mod`le obtenu avec ce param`tre a e e ressemble ` celui obtenu avec polyMARS pour un param`tre de lissage de 2.5, puisquil a e poss`de 6 bases dont deux concernent seulement la variable IMC, une pour la variable e AGE, une pour la variable IGFBP-3 et un produit de tenseur pour linteraction entre IGFBP-3 et IMC. Ceci rsume bien ce que lon a expos prcdemment, cest ` dire e e e e a que le param`tre de lissage nagit pas de la mme faon pour MARS et polyMARS, e e c que la mthode MARS inclut plus facilement des interactions que polyMARS et que e pour dcrire la relation entre la densit et les facteurs de croissance IGF-I et IGFBP-3 e e mieux vaut corriger en utilisant seulement lge et lindice de masse corporelle. a

4.4

Rsum des rsultats obtenus dans ce chapitre e e e

Le tableau 4.16 prsente un rsum des rsultats obtenus pour lestimation des e e e e mod`les des sections 4.2 et 4.3. Ce dernier illustre bien les dicults que lon a pu e e rencontrer dans ltude de la relation entre la densit mammaire et les facteurs de croise e sance. En eet, bien que la thorie des mthodes de rgression non paramtrique soit e e e e assez bien toe et que les exemples dapplications et de simulations prsents dans e e e e la littrature (Hastie et Tibshirani, 1990; Kooperberg et OConnor, 1997; Friedman, e 1991) montrent que les techniques utilises dans ce chapitre semblent bien fonctionner, e ceci na pas t tout aussi vident dans cette tude, o` la variable dpendante tait ee e e u e e caractrise par une importante variabilit rsiduelle, comme cest le cas dans plusieurs e e e e tudes biologiques. On remarque au tableau 4.16 que le R2 varie tr`s peu en fonction e e des dirents mod`les impliquant les variables IGF-I, IGFBP-3, AGE et IMC. En pare e ticulier, si on compare le R2 des estimateurs polyMARS et MARS du mod`le 5, on e remarque quils sont tr`s semblables et ceci est dautant plus vrai si on compare les e estimateurs respectifs ` chaque mthode pour les mod`les 5 et 7. Il serait donc dicile a e e de prfrer un estimateur ` un autre en se basant seulement sur ce crit`re. Toutefois, le ee a e fait que lestimateur polyMARS du mod`le 5 contienne une interaction entre IGF-I et e

Chapitre 4. Application des mthodes de rgression non paramtrique e e e

102

IGFBP-3 et soit consistant avec lestimateur GAM du mod`le 4 incite ` retenir cette e a forme pour le mod`le nal (mod`le 4), plutt que celui qui est compl`tement additif ou e e o e celui de MARS qui est tr`s complexe. e Tab. 4.16 Rsum des caractristiques des estimateurs ajusts dans le Chapitre 4. e e e e Section Mod`le Mthode e e R2 d.l.a Figure 4.2 1 2 3 4b 5 GLM GLM GAM avec loess 0.5 polyMARS 1.2 GAM avec loess 0.5 polyMARS 1.2 polyMARS 1.2 MARS (interaction d=2) 1.2 MARS (interaction d=4) 1.2 polyMARS 1.2 MARS 1.2 GAM avec loess 0.4 GAM avec loess 0.8 GAM avec loess 0.4 polyMARS 1.2 MARS 1.2 polyMARS 1.2 polyMARS 2.5 MARS 1.2 MARS 4.6 0.343 11 0.372 13 0.348 9.47 0.356 12 0.382 12.84 0.387 13 0.390 15 0.385 9 0.383 8 0.385 14 0.370 7 0.384 17.90 0.370 6.62 0.068 7.47 0.055 9 0.055 6 0.408 21 0.380 6 0.409 16 0.371 6 4.5 4.7 4.8 4.9 4.10 4.11 4.12 4.14 4.15 4.16 4.17 4.18 4.19 4.19 4.19 4.20 4.21 -

4.3

b Mod`le e

Nombre total de degrs de libert du mod`le (incluant la constante). e e e nal slectionn pour ltude portant sur la densit mammaire. e e e e

Une solution envisageable pour permettre de dpartager, dune faon plus objective, e c quel mod`le dcrit le mieux les donnes est de faire des tests entre les dirents mod`les, e e e e e tels que ceux prsents ` la section 2.1.5. Malheureusement, ceci ne permet pas plus de e e a trouver exactement le meilleur estimateur possible, car pour cela on doit comparer un nombre imposant de mod`les qui di`rent seulement dans la spcication de certains e e e param`tres, comme le nombre de noeuds potentiels, et malgr tout on garde une liste e e de mod`les quivalents. La meilleure technique pour valider le mod`le nal retenu serait e e e srement de tester ce dernier sur une base de donnes direntes, provenant dune tude u e e e similaire ` celle ralise par les chercheurs de lURESP, en vriant si on obtient des a e e e rsultats similaires. e

Chapitre 5 Conclusion
Dans ce mmoire, on a prsent plusieurs mthodes permettant deectuer de la e e e e rgression non paramtrique. Les mthodes univaries les plus connues ont t exposes e e e e ee e de mme que certaines mthodes multidimensionnelles. Ce mmoire a dmontr que les e e e e e mthodes de rgression non paramtrique sont, somme toute, assez simples et peuvent e e e tre tr`s utiles dans plusieurs situations. Par exemple, elles peuvent tre dun grand e e e support dans un contexte dexploration des donnes, lorsque lon dsire comprendre et e e observer les relations qui existent entre les variables, comme on la vu au chapitre 4. Laccessibilit des mthodes de rgression non paramtriques joue un grand rle e e e e o dans la popularit de ces derni`res. Pour que la rgression non paramtrique soit plus e e e e utilise par les praticiens, il est primordial que les programmes informatiques permettant e dappliquer ces mthodes soient facilement accessibles et assez simples dutilisation. Ceci e devrait non seulement permettre aux praticiens de bncier dun outil dexploration des e e donnes tr`s puissant, mais favorise aussi les changes entre statisticiens et utilisateurs e e e concernant les aspects oprationnels de ces mthodes. e e Par ailleurs, certains auteurs ont entrepris de dvelopper de nouvelles approches, e principalement pour traiter le cas des relations multidimensionnelles. Parmi celles-ci, e e e mentionnons la mthode Triogram (Hansen et al., 1998) que lon a bri`vement prsente e ` la section 3.5.1 et qui semble tr`s attrayante, mais que lon na pu tester puisque a e aucun programme informatique dimplantation tait disponible lors de lcriture de ce e e mmoire. Il serait donc des plus intressants, dans un projet futur, de comparer les e e rsultats de cette mthode avec ceux des mthodes traites dans cet ouvrage. Dun e e e e autre ct, Hansen et Kooperberg (2002) ont prsent une nouvelle approche pour oe e e estimer lemplacement des noeuds dans les splines de rgression multivaries, qui semble e e aussi prometteuse. Cette derni`re consiste ` utiliser les cha e a nes de Markov de Monte

Chapitre 5. Conclusion

104

Carlo plutt quune procdure pas ` pas comme celles utilises dans polyMARS et o e a e MARS, ce qui permet de visiter un plus grand nombre de mod`les potentiels et de e choisir lestimateur nal en se basant sur les probabilits bayesiennes. Ils ont aussi e montr comment appliquer cette approche ` la mthode Triogram. On pourrait donc e a e approfondir le travail qui a t fait dans ce mmoire en tudiant plus en dtails cette ee e e e nouvelle approche et en la comparant aux mthodes plus traditionnelles prsentes e e e au chapitre 3. Un autre point intressant qui na pas t tellement abord dans ce mmoire est le e ee e e ` vaste champ dapplication de certaines mthodes de rgression non paramtrique. A la e e e section 3.1.5, on a bri`vement expos la versatilit des mod`les GAM, qui permettent de e e e e traiter de faon non paramtrique les mod`les linaires gnraliss tels de la rgression c e e e e e e e logistique et la rgression de Poisson. Les splines de rgression peuvent aussi tre utie e e lises pour faire ce type de modlisation. Stone et al. (1997) prsentent de nombreux e e e mod`les statistiques qui prennent la forme des mod`les ELM de la section 3.3.1 et qui e e peuvent donc tre ajusts ` laide de splines de rgression multivaries. Ils ont aussi e e a e e dvelopp plusieurs fonctions, disponibles en langages R et S-plus, permettant dapplie e quer ces mthodes. Il est donc possible dutiliser les splines de rgression pour estimer, e e entre autres, une densit (avec logspline()), ou une foncion de risque (avec hare()), e ou pour faire de la classication (avec polyCLASS). Mentionnons aussi que la fonction polymars() permet de faire de la rgression polychotomique en plus de la rgression e e sur une variable continue telle que prsent ` la section 3.3. e ea Finalement, ltude de la relation entre la densit mammaire et les facteurs de croise e sance, IFG-I et IGFBP-3, a permis de tester direntes procdures informatiques pere e mettant dajuster des estimateurs de rgression non paramtrique. On peut donc en e e tirer quelques conclusions. Tout dabord, pour les mthodes plus communes telles e que les fonctions de lissages loess, les splines de lissages et la mthode GAM, les fonce tions disponibles en langage S-plus et R semblent tre beaucoup mieux optimises e e en ce moment que les procdures du logiciel SAS. En particulier, les mod`les implie e quant des fonctions de lissage loess prennent beaucoup plus de temps ` sexcuter avec a e SAS que dans S-plus ou R, pour lesquels le temps dexcution est tr`s court. Dans e e le cas univari, le choix entre les fonctions de lissage est relativement peu important e comparativement au choix du param`tre de lissage. Pour ce qui est de lestimation de e relations multidimensionnelles, on a vu que le choix de la mthode tait un peu plus e e important. En particulier, on a not que, dans le cas de ltude portant sur les densits e e e mammaires, o` les donnes sont caractrises par une grande variabilit rsiduelle, la u e e e e e mthode MARS semble donner des rsultats quelque peu dcevants, comparativement e e e ` polyMARS qui donne des estimateurs semblables ` ceux obtenus avec GAM. Il para a a t donc que, pour lajustement de splines de rgression, la fonction polymars() de R et e

Chapitre 5. Conclusion

105

S-plus est un meilleur choix que mars(), dautant plus quelle permet dajuster un ventail plus large de mod`les en contrlant un plus grand nombre de param`tres. Par e e o e ailleurs, les mod`les GAM sont aussi un tr`s bon outil pour ajuster des mod`les non e e e paramtriques, ` condition de pouvoir supposer ladditivit des eets. Ainsi, utilises e a e e parall`lement, les mthodes GAM et polyMARS viennent en quelque sorte se valider e e lune par rapport ` lautre. a

Bibliographie
Breiman, L. et Friedman, J. H. (1985). Estimating Optimal Transformations for Multiple Regression and Correlations. Journal of the American Statistical Association, 80(391):580598. Breiman, L., Friedman, J. H., Olshen, R. et Stone, C. J. (1984). Classication and Regression Trees. Wadsworth, Belmont, CA. Cleveland, W. S. (1979). Robust locally-weighted regression and smoothing scatterplots. Journal of the American Statistical Association, 74(368):829836. Cleveland, W. S., Devlin, S. J. et Grosse, E. (1988). Regression by Local Fitting : Methods, Properties, and Computing. Journal of Econometrics, 37:87114. Cleveland, W. S., Grosse, E. et Shyu, W. M. (1992). Local Regression Model. Dans Chambers, J. M. et Hastie, T. J., diteurs : Statistical Models in S, pages 309376. e Wadsworth & Books/Cole Advanced Books & Software, Pacic Grove, Californie. De Boor, C. (1978). A Pratical Guide to Splines. Springer-Verlag, New York. Diorio, C. (2005). Les facteurs de croissance analogues ` linsuline, les apports en a ` para vitamine D et en calcium et la densit mammaire (A e tre). Th`se de doctorat, e Universit Laval, Qubec. e e Diorio, C., Pollak, M., Byrne, C., Masse, B., Hebert-Croteau, N., Yaffe, M., Cote, G., Berube, S., Morin, C. et Brisson, J. (2005). Insulin-like growth factor-I (IGF-I), IGF-binding protein-3 (IGFBP-3), and mammographic breast density. Cancer Epidemiology, Biomarkers & Prevention, 14(5):10651073. Draper, N. R. et Smith, H. (1981). Applied Regression Analysis. John Wiley and Sons, New York. Duchon, J. (1976). Interpolation des fonctions de deux variables suivant le principe de la exion des plaques minces. RAIRO Analyse Numrique, 10:512. e

BIBLIOGRAPHIE

107

Duchon, J. (1977). Splines Minimizing Rotation-Invariant Semi-Norms in Sobolev Spaces. Dans Schempp, W. et Zeller, K., diteurs : Constructive Theory of Funce tions of Several Variables, pages 85 100. Eubank, R. L. (1999). Nonparametric Regression and Spline Smoothing. Marcel Dekker, Inc, New York. Friedman, J. H. (1991). Multivariate Adaptative Regression Splines. The Annals of Statistics, 19(1):168. Friedman, J. H. et Silverman, B. W. (1989). Flexible Parsimonious Smoothing and Additive Modeling. Technometrics, 31(1):321. Friedman, J. H. et Stuetzle, W. (1981). Projection Pursuit Regression. Journal of the American Statistical Association, 76(376):817823. Gallant, R. et Fuller, W. (1973). Fitting Segmented Polynomial Regression Models whose Join Have to be Estimated. Journal of the American Statistical Association, 68:144147. Hansen, M. (1994). Extented Linear Models, Multivaiate Splines and ANOVA. Th`se e de doctorat, University of California, Berkeley. Hansen, M. H. et Kooperberg, C. (2002). Spline Adaptation in Extended Linear Models. Statistical Science, 17(1):220. Hansen, M. H., Kooperberg, C. et Sardy, S. (1998). Triograms Models. Journal of the American Statistical Association, 93(441):101119. Hastie, T. J. (1992). Generalized Additive Models. Dans Chambers, J. M. et Hastie, T. J., diteurs : Statistical Models in S, pages 249308. Wadsworth & Books/Cole e Advanced Books & Software, Pacic Grove, Californie. Hastie, T. J. et Tibshirani, R. J. (1990). Generalized Additive Models. Chapman and Hall, Londre. Jupp, D. L. B. (1972). Curve Fitting by Splines as an Application of Unconstrained Optimization. Dans Anderssen, R. S., Jennings, L. S. et Ryan, D. M., diteurs : e Optimization, pages 4959. University of Queensland Press, Brisbane, Australie. Jupp, D. L. B. (1978). Approximation to Data by Splines with Free Knots. SIAM Journal of Numerical Analysis, 15(2):328343. Kim, J.-H., Fay, M., Feuer, E. J. et Midthune, D. N. (2000). Permutation tests for joinpoint regression with applications to cancer rates. Statistics in Medicine, 19:335351.

BIBLIOGRAPHIE

108

Kooperberg, C., Bose, S. et Stone, C. J. (1997). Polychotomous Regression. Journal of the American Statistical Association, 92(437):117127. Kooperberg, C. et OConnor, M. (1997). POLYMARS. Documentation disponible avec la librairie polymars de S-plus. Disponible en ligne : http://lib.stat. e cmu.edu/DOS/S/SWin/ (Page consulte le 22 juillet 2005). Mallows, C. L. (1973). Some Comments on Cp . Technometrics, 31:661667. Meinguet, J. (1979). Multivariate Interpolation at Arbitrary Points Made Simple. Journal of Applied Mathematics and Physics, 30:292304. Myers, R. H. (1990). Classical and Modern Regression with Applications. Duxbury Press, Belmont. Silverman, B. W. (1985). Some Aspects of the Spline Smoothing Approach to NonParametric Regression Curve Fitting (with discussion). Journal of the Royal Statistical Society Series B, 47:152. Stone, C. J., Hansen, M. H., Kooperberg, C. et Truong, Y. K. (1997). Polynomial Splines and their Tensor Products in Extended Linear Modeling. The Annals of statistics, 25(4):13711470. Wahba, G. (1990). Spline Models for Observational Data. CBMS-NSF series. SIAM, Philadelphia. Wahba, G. et Wendelberger, J. (1980). Some New Mathematical Methods for Variational Objective Analysis Using Splines and Cross Validation. Monthly Weather Rev., 108:1122 1145. Wand, M. P. et Jones, M. C. (1995). Kernel Smoothing. Chapman & Hall / CR, New York. Wegman, E. J. et Wright, W. I. (1983). Splines in Statistics. Journal of the American Statistical Association, 78(382):351365. Weisstein, E. W. (1999). Mathworld A Wolfram Web Resource. [En ligne], http: //mathworld.wolfram.com/BarycentricCoordinates.html (Page consulte le 22 e juillet 2005).