Vous êtes sur la page 1sur 57

P OLYTECH L ILLE D PARTEMENT G.I.S.

Modlisation Statistique
Julien JACQUES http ://labomath.univ-lille1.fr/jacques/

Table des matires


1 Rgression linaire simple 1.1 Le modle thorique . . . . . . . . . . . . . . . . . . . . . 1.2 Le modle statistique . . . . . . . . . . . . . . . . . . . . . 1.3 Estimation des paramtres . . . . . . . . . . . . . . . . . . 1.4 Tests sur le modle de rgression linaire . . . . . . . . . . 1.4.1 Vrication des hypothses du modle linaire . . . 1.4.1.1 Normalit et homoscdasticit des rsidus 1.4.1.2 Test de non corrlation des rsidus . . . . 1.4.2 Tests de la nullit des paramtres du modle . . . . . 1.4.3 Analyse de variance de la rgression . . . . . . . . . 1.5 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Dtection dobservations atypiques . . . . . . . . . . . . . . 1.6.1 Effet levier . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Etude des rsidus . . . . . . . . . . . . . . . . . . . 1.6.3 Distance de Cook . . . . . . . . . . . . . . . . . . . 1.7 TP 1 : Rgression linaire simple . . . . . . . . . . . . . . . 1.7.1 Revenus immobiliers . . . . . . . . . . . . . . . . . Analyse prliminaire . . . . . . . . . . . . . Premire modlisation . . . . . . . . . . . . Seconde modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 9 10 11 11 11 11 11 12 12 13 13 13 13 14 14 14 14 15 17 17 17 17 18 19 19 19 19 20 20 20 20 21 21 21 21 21 21 21 22 22 22

Rgression linaire multiple 2.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Estimation des paramtres du modle . . . . . . . . . . . . . . . . 2.2.1 Estimation par moindres carrs . . . . . . . . . . . . . . . . 2.2.2 Estimation par maximum de vraisemblance . . . . . . . . . 2.3 Tests sur le modle linaire . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Tests sur les paramtres . . . . . . . . . . . . . . . . . . . 2.3.2 Analyse de variance de la rgression . . . . . . . . . . . . . 2.4 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Slection de variables et choix de modle . . . . . . . . . . . . . . 2.5.1 Critres de comparaison de modle . . . . . . . . . . . . . 2.5.1.1 Limitation du coefcient de dtermination R2 . . 2 . . . . . . 2.5.1.2 Coefcient de dtermination ajust R 2.5.1.3 Critre de validation croise : PRESS (ou CVSS) 2.5.1.4 Cp de Mallows . . . . . . . . . . . . . . . . . . . 2.5.1.5 Critre AIC . . . . . . . . . . . . . . . . . . . . 2.5.1.6 Critre baysien BIC . . . . . . . . . . . . . . . 2.5.2 Algorithme de slection de variables . . . . . . . . . . . . . 2.5.2.1 Recherche exhaustive . . . . . . . . . . . . . . . 2.5.2.2 Recherche descendante pas pas . . . . . . . . . 2.5.2.3 Recherche ascendante pas pas . . . . . . . . . . 2.5.2.4 Recherche stepwise . . . . . . . . . . . . . . . . 2.5.2.5 Algorithme de Furnival et Wilson . . . . . . . . . 3

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

4 2.6 Multicolinarit des variables . . . . . . . . . . . . . Matrice de corrlation . . . . . . . . Facteur dination de la variance VIF Conditionnement . . . . . . . . . . . TP 2 : Rgression linaire multiple . . . . . . . . . . 2.7.1 Simulation . . . . . . . . . . . . . . . . . . 2.7.2 Donnes relles . . . . . . . . . . . . . . . . Modle complet . . . . . . . . . . . Recherche dun modle parcimonieux Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

TABLE DES MATIRES


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 22 22 23 23 23 24 24 24 25 25 25 25 26 27 28 28 29 29 29 29 29 30 30 30 30 31 31 31 31 33 33 33 33 34 37 37 37 38 38 39 39 39 40 40 40 40 40 41 41 41 41 42

2.7

Analyse de variance et de covariance 3.1 Analyse de variance un facteur . . . . . . . . . . . . . 3.2 Graphiques prliminaires . . . . . . . . . . . . . . . . . 3.2.1 Le modle . . . . . . . . . . . . . . . . . . . . . 3.2.2 Estimation des effets . . . . . . . . . . . . . . . 3.2.3 Tests . . . . . . . . . . . . . . . . . . . . . . . Comparaison des moyennes deux deux 3.2.4 Contrle des hypothses . . . . . . . . . . . . . 3.3 Analyse de variance deux facteurs . . . . . . . . . . . 3.3.1 Le modle . . . . . . . . . . . . . . . . . . . . . Effet dinteraction . . . . . . . . . . . . 3.3.2 Estimation des effets . . . . . . . . . . . . . . . 3.3.3 Tests . . . . . . . . . . . . . . . . . . . . . . . 3.4 Problmes spciques . . . . . . . . . . . . . . . . . . . 3.4.1 ANOVA pour mesures rptes . . . . . . . . . 3.4.2 Plan sans rptition . . . . . . . . . . . . . . . . 3.4.3 Plans dsquilibrs ou incomplets . . . . . . . . 3.5 Analyse de covariance . . . . . . . . . . . . . . . . . . 3.5.1 Graphiques prliminaires . . . . . . . . . . . . . 3.5.2 Le modle . . . . . . . . . . . . . . . . . . . . . 3.5.3 Tests . . . . . . . . . . . . . . . . . . . . . . . 3.6 TP 3 : Analyse de variance et de covariance . . . . . . . 3.6.1 Analyse de variance deux facteurs . . . . . . . 3.6.2 Analyse de covariance . . . . . . . . . . . . . . 3.6.3 Analyse de variance mesures rptes . . . . . 3.7 Un exemple dapplication de lANOVA et lANCOVA .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

Rgression logistique 4.1 Le modle logistique dichotomique (K=2) . . . . . . . . . . . . . 4.1.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Odds et odds-ratio . . . . . . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimation des paramtres et prdiction . . . . . . . . . . . . . . 4.2.1 Estimation des j . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Estimation des odds-ratio . . . . . . . . . . . . . . . . . . 4.2.3 Redressement dans le cas dune modalit rare . . . . . . . 4.2.4 Prvisions . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4.1 Classement dune nouvelle observation . . . . . 4.2.4.2 Notions de score . . . . . . . . . . . . . . . . . 4.2.4.3 Tableau de classement ou matrice de confusion . Sensibilit et spcicit . . . . . . . . . . . . . . 4.3 Tests, intervalles de conance et choix de modle . . . . . . . . . 4.3.1 Tests sur j . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Intervalles de conance . . . . . . . . . . . . . . . . . . . 4.3.3 Choix de modle . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

4.4 4.5 4.6

4.3.3.1 Algorithme de slection de variables 4.3.3.2 Critres de choix de modles . . . . Un outil dinterprtation : la courbe ROC . . . . . . . Le modle logistique polytomique (K>2) et ordinal . . TP 4 : Rgression logistique . . . . . . . . . . . . . . 4.6.1 Simulation . . . . . . . . . . . . . . . . . . . 4.6.2 Cancer du sein . . . . . . . . . . . . . . . . . 4.6.3 Cancer de la prostate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42 42 42 43 44 44 44 45 47 47 47 47 47 47 47 48 48 49 49 49 50 50 51 51 51 52 52 52 52 52 53 53 53 54 54 54 55 55 55 55 56

Analyse discriminante probabiliste 5.1 Formalisme de la discrimination probabiliste . . . . . 5.1.1 Dnitions . . . . . . . . . . . . . . . . . . Proportion dune classe . . . . . . . . Densit conditionnelle une classe . Densit marginale de X . . . . . . . Probabilit conditionnelle . . . . . . 5.1.2 Rgle daffectation et probabilit derreur . . 5.1.3 Rgle de classement optimale de Bayes . . . Cas de lgalit des cots . . . . . . . Cas de deux classes . . . . . . . . . . 5.2 Discrimination paramtrique gaussienne . . . . . . . 5.2.1 Rgle de classement thorique . . . . . . . . 5.2.2 Taux derreur thorique . . . . . . . . . . . . 5.2.3 Estimation de la rgle de classement . . . . . 5.2.4 Estimation du taux derreur . . . . . . . . . Taux derreur apparent e a . . . . . . Mthode de la partition e p . . . . . . Mthode de la validation croise e cv . 5.2.5 Slection de variables . . . . . . . . . . . . 5.2.6 Choix de modle . . . . . . . . . . . . . . . 5.3 Analyse discriminante pour variables qualitatives . . 5.4 Mise en oeuvre informatique . . . . . . . . . . . . . 5.4.1 SAS : PROC DISCRIM . . . . . . . . . . . 5.4.2 R : fonctions lda et qda du package MASS 5.5 TP 5 : Analyse discriminante probabiliste . . . . . . 5.5.1 Simulation . . . . . . . . . . . . . . . . . . 5.5.2 Iris . . . . . . . . . . . . . . . . . . . . . . Annexes 6.1 Drives de matrice et de vecteurs 6.2 Lois de probabilits . . . . . . . . 6.2.1 Loi multinomiale . . . . . 6.2.2 Loi gaussienne multivarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

TABLE DES MATIRES

Introduction
Pr-requis : la matrise des cours de Probabilits et de Statistique Infrentielle (disponible en ligne sur mon site) de troisime anne GIS est indispensable la bonne comprhension de ce cours.

Les modles
Dans ce cours nous chercherons modliser une variable Y (variable expliquer, rponse) en fonction dune ou plusieurs variables explicatives X1 , . . . , Xp (covariables). Lorsque Y sera quantitative (montant dpargne investit, dure de rmission dune maladie...), nous parlerons de rgression ou encore danalyse de variance (ou covariance) selon la nature des variables explicatives, qui peuvent tre rassembles sous lappellation modle linaire. Lorsque Y est une variable alatoire qualitative (dfaut de remboursement, achat dun produit...), nous parlerons gnralement de classication, supervise lorsque lon dispose dobservation de Y , et non supervise dans le cas contraire. Nous verrons dans ce cours deux mthodes de classication supervise : la rgression logistique, qui est une extension du modle linaire la famille des modles linaires gnraliss, ainsi que lanalyse discriminante probabiliste. Ces notions sont reprises dans la Table 1. Variable expliquer 1 quantitative 1 quantitative 1 quantitative 1 quantitative 1 qualitative 1 qualitative Variables explicatives 1 quantitative plusieurs quantitatives plusieurs qualitatives plusieurs qualitatives et quantitatives plusieurs quantitatives et qualitatives plusieurs quantitatives (voir quali.) Nom de lanalyse rgression simple (Section 1) rgression multiple (Section 2) analyse de variance (Section 3) analyse de covariance (Section 3.5) rgression logistique (Section 4) analyse discriminante probabiliste (Section 5)

TAB . 1 Les diffrentes techniques de modlisation tudies dans ce cours Remarque. Concernant la classication supervise, il existe bien dautres mthodes que les deux mthodes abordes dans ce cours : lanalyse factorielle discriminante qui est une mthode gomtrique cherchant construire de nouvelle variables discriminant au mieux les classes (cours Statistique Exploratoire GIS4) la mthode des k plus proches voisins, les arbres de dcisions (cours Modlisation Avance GIS4), ou encore des mthodes qui estiment directement la frontire de classication (SVM, rseaux de neurones).

Objectifs
Les objectifs dune modlisation statistique peuvent tre de diffrentes natures, que lon peut tenter de rpartir en deux classes, les objectifs prdictifs et les objectifs explicatifs : prdictifs : prvoir partir des renseignements dont on dispose sur un client (ge, catgorie CSP, salaire, situation familiale, statut dans son habitation actuelle...) sil va ou non souscrire un crdit la consommation qui lui est propos. Ces prvisions peuvent galement permettre de cibler les bons clients qui proposer ce crdit. descriptifs slection des variables pertinentes : parmi lge dun patient, son poids, son taux de cholestrol, le nombre de cigarettes fumes par jour (...), quelles sont les variables qui inuent signicativement sur la survenue dun cancer des poumons ? 7

TABLE DES MATIRES


forme du modle : comment le montant de lpargne dun client volue-t-il en fonction de son salaire ?

Les tapes
Les diffrentes tapes dune modlisation statistique sont les suivantes (i) identier le problme pour choisir le modle statistique utiliser (en fonction de la nature de Y , de X , des rsultats attendus...), (ii) choisir les variables pertinentes (par des tudes pralables de corrlation par exemple, mais pas seulement), (iii) estimer les paramtres du modle (gnralement par maximum de vraisemblance), (iv) valuer la qualit de la modlisation obtenue (tests statistiques), lapport des diffrentes variables, et ventuellement revenir au point (ii) pour remettre en cause le choix des variables, voir en (i) si cest le modle qui doit tre remis en cause, (v) utiliser enn le modle pour rpondre aux objectifs voulus.

Chapitre 1

Rgression linaire simple


Logiciel R : fonction lm. Logiciel SAS : proc reg.

1.1 Le modle thorique


Soit Y et X deux variables alatoires gaussiennes. Lobjectif de la rgression linaire est de modliser la variable alatoire Y par une certaine fonction de X , f (X ), qui soit la meilleure possible au sens de lerreur quadratique moyenne E [(Y f (X ))2 ]. Nous avons vu en cours de probabilit que la fonction minimisant cette erreur ntait rien dautre que lesprance de Y conditionnellement X : E [Y |X ]. Dans le cas de variables gaussiennes, le calcul de lesprance conditionnelle donne le rsultat suivant : E [Y |X = x] = 0 + 1 x o 0 = E [Y ] 1 E [X ] et 1 = Cov (X, Y ) V (X )

La meilleure fonction de X permettant de modliser Y est alors une fonction afne ou linaire de X , do le nom de rgression linaire. Ceci constitue le postulat de base de la rgression linaire. Nous chercherons dans ce chapitre modliser Y par une fonction linaire de X , qui est la meilleure modlisation possible lorsque les variables sont gaussiennes. Il conviendra donc en pratique de sassurer de la normalit des variables (avec un test de Shapiro-Wilk) avant deffectuer une rgression linaire. Si une variable nest pas gaussienne, nous chercherons la transformer de sorte quelle soit la plus gaussienne possible. Remarque 1.1.1. Si X et Y sont indpendantes, leur covariance est nulle et donc 1 galement. La meilleure modlisation de Y que lon peut avoir en fonction de X nest alors que E [Y ].

1.2 Le modle statistique


Soit un chantillon (Xi , Yi )i=1,n dobservations indpendantes et identiquement distribues. On suppose dans ce cours que les Xi sont dterministes, xs par lexprimentation, mais cela ne change rien au modle et aux estimations si les Xi sont alatoires. Le modle de la rgression linaire suppose : Yi = 0 + 1 Xi + i (1.1)

o 0 (appel intercept) et 1 sont des paramtres xs du modle (0 , 1 R), que nous chercherons estimer par la suite, et o les rsidus i vrient : E [i ] = 0, 9

10

CHAPITRE 1. RGRESSION LINAIRE SIMPLE

V (i ) = 2 ( 2 tant galement un paramtre du modle). On dit dans ce cas que les rsidus sont homoscdastiques (i.e. variance constante), Cov (i , j ) = 0 si i = j (ce qui implique la non corrlation des rsidus). Ces hypothses sont gnralement appeles hypothses faibles. Les hypothses fortes supposent en plus la normalit des rsidus (ce qui implique donc leur indpendance puisquils sont non corrls), qui nous permettra par la suite deffectuer des tests sur le modle de rgression linaire. Dun point de vue matriciel, le modle de rgression linaire scrit : 1 Y1 1 X1 . . . 0 . . (1.2) . . . = . . . 1 + . n Yn 1 Xn Y = X + (1.3)

1.3 Estimation des paramtres


Comme nous le verrons dans le cas de la rgression multiple, lestimation par maximum de vraisemblance sous les hypothses fortes est quivalente lestimation par moindres carrs (hypothses faibles). Dans le cadre de lestimation par moindres carrs, nous cherchons minimiser les carts entre les valeurs prdites Y = X (1.4)

et les valeurs observes Y. Nous choisissons traditionnellement le carr de la norme euclidienne comme mesure de lcart :
n n

D( )

= ||Y Y ||2 2 =

i=1

(Yi 0 Xi 1 )2 =

2 i.
i=1

(1.5)

La minimisation de D( ) suivant 0 et 1 conduit aux estimateurs suivant : 0 = Y 1 X, = o classiquement X


1 n n i=1

1 = SXY . 2 SX
1 n1 n i=1 (Xi

= Xi , Y

1 n

n i=1

2 Yi , SX = n i=1

)2 , S 2 = X Y

1 n1

n i=1 (Yi

)2 et Y

SXY =

1 n1

)(Yi Y ). (Xi X

On montre que ces estimateurs de 0 et 1 sont des estimateurs sans biais, et de variance minimale parmi les estimateurs fonctions linaires des Yi (resp. parmi tous les estimateurs dans le cas gaussien). i de Y : A chaque valeur Xi de X correspond donc une valeur prdite Y 1 Xi + 0 . i = Y i et Yi est appel rsidu : i Yi . Lcart entre cette prdiction Y i = Y 2 La variance rsiduelle est estime par : n 1 2 2 . S = n 2 i=1 i Remarque. Lutilisation du modle linaire dpasse le cadre simple dune relation linaire entre X et Y . En effet, de nombreux modles non linaires se ramnent facilement au modle linaire par des transformations simples : le modle Y = X trs utilis en conomtrie (lasticit constante de Y par rapport X ) devient un modle linaire en tudiant le logarithme des variables le modle croissance exponentielle Y = eX devient un modle linaire en travaillant avec ln(Y ) ... et bien dautre. Un simple nuage de points (Xi , Yi ) pourra aider identier une relation non linaire.

1.4. TESTS SUR LE MODLE DE RGRESSION LINAIRE

11

1.4 Tests sur le modle de rgression linaire


Une fois le modle de rgression linaire estim, il convient dans un premier temps de vrier si les hypothses faites lors de lestimation par moindres carrs sont respectes (normalit des variables ou des rsidus, non corrlation des rsidus, homoscdasticit des rsidus). Dans un second temps, nous testerons la validit du modle de rgression et valuerons sa qualit. Nous nous plaons cette fois dans le cas des hypothses fortes.

1.4.1 Vrication des hypothses du modle linaire


1.4.1.1 Normalit et homoscdasticit des rsidus Lhypothse de normalit des rsidus peut tre teste par un test classique de normalit comme le test de ShapiroWilk. Lhomoscdasticit peut quant elle tre vrie visuellement en reprsentant le nuage des rsidus (Xi , ti ), o ti sont une normalisation des rsidus (rsidus studentiss, dnis au paragraphe 1.6.2). Ce nuage de point devrait se rpartir uniformment de part et dautre de laxe des abscisses si les rsidus ont bien une variance constante.

F IG . 1.1 Homoscdasticit des rsidus.

1.4.1.2 Test de non corrlation des rsidus Les proprits de lestimation par moindres carrs reposent notamment sur lhypothse de non corrlation des rsidus. Le test de Durbin-Watson permet de vrier que les i ne sont pas corrls. La statistique utilise est d=
n 2 i=2 (i i1 ) n 2 i=1 i

qui doit tre proche de 2 si les rsidus sont non corrles. Cette statistique ne suit pas de loi particulire, mais ses valeurs critiques ont t tabules.

1.4.2 Tests de la nullit des paramtres du modle


0 et 1 des paramtres 0 et 1 suivent des lois Sous lhypothse de normalit des rsidus, les estimateurs normales 1 0 N N 1 , 0 , 2 2 (n 1)SX , ,

2 2 2 X + 2 n (n 1)SX

2 dont on estime la variance en remplaant 2 par son estimation S . On peut montrer que n2 2 S 2 n2 2 et que 0 0 1 1 tn2 et tn2 . 2 1 X 1 S (n1) S + 2 2 S n (n1)S
X X

12

CHAPITRE 1. RGRESSION LINAIRE SIMPLE

Ceci permet donc de construire des intervalles de conance et de tester la nullit de chacun des deux paramtres. A 1 est quivalent au test sur le coefcient de corrlation linaire entre X et Y . noter que le test portant sur

1.4.3 Analyse de variance de la rgression


Il est dusage de dcomposer la variance totale en la variance explique par la rgression et la variance rsiduelle. La somme des carrs totale (SST) se dcompose en la somme des carrs expliqus par la rgression (SSReg) et la somme des carrs rsiduelles (SSR) :
2 = (n 1) (n 1)SY SST 2 SXY 2 2 + (n 2)S SX SSR

SSReg

SST variance totale

SSReg variance explique

SSR variance rsiduelle

F IG . 1.2 Analyse de variance de la rgression. Le coefcient de dtermination R2 : R 2 = 2 XY =


2 SXY SSReg = 2 2 SX SY SST

exprime le rapport entre la variance explique par le modle de rgression et la variance totale (XY tant le coefcient de corrlation linaire entre X et Y ). Il est compris entre 0 et 1 et est un bon indicateur de la qualit de la rgression, quoi que trs subjectif. Sous lhypothse H0 de non rgression linaire (1 = 0), la statistique suivante F = (n 2) suit une loi de Fisher F1,n2 . R2 SSReg = (n 2) 1 R2 SSR

1.5 Prdiction
Pour une valeur donne x de X , la prdiction de Y est 1 x + 0 . y = On peut dnir deux intervalles de conance de prdiction partir de cette valeur ponctuelle : IC1 (E [Y |X = x ]) IC1 ( y) = y + tn2, 2 y + tn2, 2 )2 (x X 1 + tn2, 2 ; y 2 n (n 1)SX 1+ )2 (x X 1 + 2 n (n 1)SX 1+ )2 (x X 1 + 2 n (n 1)SX

)2 (x X 1 + tn2, 2 ; y 2 n (n 1)SX

1.6. DTECTION DOBSERVATIONS ATYPIQUES

13

1.6 Dtection dobservations atypiques


Les mthodes destimation utilises sont trs sensibles aux observations atypiques (outliers). Nous proposons dans cette section quelques outils permettant de dtecter de telles observations. Une fois ces observations dtectes, il ny a pas de remde universel : supprimer une valeur aberrante, sonder si elle est due une erreur de mesure, ne rien faire... Tout dpend du contexte et doit tre ngoci avec le commanditaire de ltude.

1.6.1 Effet levier


Une premire faon de dtecter un individu atypique est de mesurer limpact de lobservation Yi sur la dtermii . Pour cela, on montre quil est possible dcrire nation de Y
n

i = Y
j =1

hij Yj

hij =

)(Xj X ) 1 (Xi X + n 2 . n j =1 (Xj X )

Les hij forment la matrice H appele hat matrix. Les termes diagonaux hii mesurent limpact de Yi dans lesi . Cet impact est directement li lloignement de lobservation Xi la moyenne des observations timation Y X.

1.6.2 Etude des rsidus


Diffrents types de rsidus peuvent tre considrs. i Yi rsidus : i = Y rsidus standardiss (interne) : les rsidus bruts i nayant pas la mme variance, on calcule des versions standardises ri an de les rendre comparables : ri = i S 1 hii

rsidus studentiss (externe) : une autre standardisation (externe) des rsidus permet dobtenir des rsidus ti suivant une loi de Student : i ti = S(i) 1 hii o S(i) est une estimation de la variance rsiduelle ne prenant pas en compte la iime observation (contrairement S ci-dessus) : S(i) = 2 n2 1 i . S n3 n 3 1 hii

) si son En pratique, une observation sera considre comme atypique (vis--vis de son loignement X rsidu Studendis dpasse les bornes 2.

1.6.3 Distance de Cook


Les deux indicateurs prcdents sintressent lloignement dune observation la moyenne et limportance des rsidus. La distance de Cook est un indicateur synthtisant ces deux informations, construit en comparant les prdictions obtenues avec et sans la iime observation : Di =
n j =1 (Yj (i) 2 2 S

j )2 Y

hii r2 2(1 hii ) i

j (i) est lestimation de Yj obtenue sans utiliser la iime observation (Xi , Yi ). o Y Une stratgie de dtection classique consiste dans un premier temps reprer les points atypiques en comparant les distances de Cook la valeur 1, puis expliquer cette inuence en considrant, pour ces observations, leur rsidu ainsi que leur effet levier.

14

CHAPITRE 1. RGRESSION LINAIRE SIMPLE

1.7 TP 1 : Rgression linaire simple


Simulation
Cet exercice est raliser sous R. On considre dans cet exercice le modle de rgression simple suivant yi = 0 + 1 xi + i i = 1, . . . , n

avec i N (0, 2 ). On choisit 0 = 3 et 1 = 2. Les xi sont supposs tre rpartis uniformment sur lintervalle [0, 1]. (i) Simuler les couples (xi , yi )i=1,...,n pour une taille dchantillon n = 10 et une variance rsiduelle 2 = 1. Stocker vos rsultats dans deux vecteurs x et y. (ii) Dans lcriture matricielle du modle de rgression Y = X + avec = (0 , 1 ), comment est dnie la matrice X ? Construisez-la partir de votre vecteur x. = (X X)1 X Y. Calculer cet estimateur. (iii) Nous avons vu en cours que le meilleur estimateur de tait Que pensez-vous de vos rsultats ? Recommencez la simulation et lestimation plusieurs fois. Indication : la fonction solve(A) sous R permet de calculer linverse de la matrice A. (iv) Reprsentez graphiquement le nuage de point (fonction plot) ainsi que la droite de rgression (avec la fonction lines puis avec la fonction abline). (v) Estimer la variance rsiduelle 2 . (vi) Calculer un intervalle de conance sur 0 et 1 , de niveau 95%. (vii) Crer une fonction mylm(x,y,plot,alpha), qui pour un vecteur x et y effectue la rgression de y sur x. La fonction devra retourner les estimations des coefcients 0 et 1 , des intervalles de conance sur ces derniers de niveau alpha, lestimation de la variance rsiduelle, ainsi quune reprsentation graphique du nuage de point et de la rgression lorsque loption plot est TRUE. (viii) Recommencer avec une taille dchantillon de 100, 1000. (ix) Retrouvez vos rsultats avec la fonction lm de R : res=lm(yx) summary(res) Explorer toutes les informations que contient le rsultat dune procdure lm laide de la fonction str : str(res)

1.7.1 Revenus immobiliers

Cet exercice est raliser sous SAS. Le chier immeublesUSA.dat contient pour 47 immeubles dappartements locatifs dune grande ville amricaine, le revenu net en fonction du nombre dappartements (Jobson, 1991). Lobjectif est de modliser le revenu net des immeubles (premire colonne) en fonction du nombre dappartements (seconde colonne), par une rgression linaire. Analyse prliminaire (i) Reprsenter graphiquement les variables (histogramme, boxplot), et donner une estimation de la densit par la mthode du noyau. (ii) Les variables vous semblent-elles gaussiennes ? (iii) Refaire la mme chose en transformant les variables (log et racine). Quelles variables choisir pour notre rgression linaire ? Premire modlisation On considre le modle revenu = 0 + 1 nb_appart. (i) Estimer les paramtres du modle. (ii) Reprsenter le nuage de points ainsi que la droite de rgression. (iii) Effectuer des tests de signicativit des paramtres. (iv) Calculer les rsidus studentiss ainsi que la distance de Cook. Quel est votre diagnostic ?

1.7. TP 1 : RGRESSION LINAIRE SIMPLE


Seconde modlisation On considre le modle log (revenu) = 0 + 1 log (nb_appart). (i) Estimer les paramtres du modle. (ii) Reprsenter le nuage de points ainsi que la droite de rgression. (iii) Effectuer des tests de signicativit des paramtres. (iv) Calculer les rsidus studentiss ainsi que la distance de Cook. Quel est votre diagnostic ? (v) Comparer la qualit dajustement des deux modles, et conclure.

15

16

CHAPITRE 1. RGRESSION LINAIRE SIMPLE

Chapitre 2

Rgression linaire multiple


Logiciel R : fonction lm. Logiciel SAS : proc reg. Nous cherchons dsormais expliquer une variable alatoire quantitative Y en fonction de p variables explicatives X1 , . . . , Xp , toutes quantitatives. Nous supposons toujours que les variables explicatives sont dterministes, mais encore une fois cela ne change rien au modles et aux estimations.

2.1 Le modle
Soit un chantillon (Xi1 , . . . , Xip , Yi )i=1,n dobservations indpendantes et identiquement distribues. Le modle de la rgression linaire suppose :
p

Yi = 0 +
j =1

j Xij + i

(2.1)

o = (0 , 1 , . . . , p ) sont les paramtres rels du modle estimer, et o les rsidus i vrient comme pour la rgression simple les hypothses faibles : E [i ] = 0, V (i ) = 2 , Cov (i , j ) = 0 si i = j . Nous rappelons que les hypothses fortes supposent de plus la normalit des rsidus (ce qui implique donc leur indpendance puisquils sont non corrls). Lcriture matricielle du modle (2.1) est la suivante : 0 1 1 X11 . . . X1p Y1 1 . . . . . . . (2.2) . . + . . . . . . = . . . n 1 Xn1 . . . Xnp Yn p Y = X + (2.3) La matrice X, dterministe, est souvent appele matrice de design.

2.2 Estimation des paramtres du modle


2.2.1 Estimation par moindres carrs
On se place sous les hypothses faibles. Nous cherchons minimiser les carts entre les valeurs prdites Y = 17 X (2.4)

18

CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

et les valeurs observes Y. Nous choisissons traditionnellement le carr de la norme euclidienne comme mesure de lcart :
n

D( )

||Y Y ||2 =

2 i.
i=1

(2.5)

Lestimateur par moindres carrs du paramtre est donc : = argmin D( ).

(2.6)

En dveloppant D( ) et en prenant le gradient, on obtient = (X X)1 X Y. (2.7)

Exercice. Faire la dmonstration de lquation (2.7). Montrer galement que lon a bien un minimum de D( ). = Remarque 2.2.1. Notation : la hat matrix dnie dans le chapitre prcdent comme la matrice H telle que Y 1 H Y est donc H = X(X X) X . Remarque 2.2.2. Nous avons suppos que X X tait inversible, ce qui est le cas ds que X est de rang p + 1. Se reporter au paragraphe 2.6 pour le cas contraire. est un estimateur sans biais de . Proprit 2.2.1. Exercice. Faire la preuve. est lestimateur de variance minimale parmi les estimateurs de sans biais et linaires en Y . Proprit 2.2.2. ) = 2 (X X)1 Sa variance est V ( Lestimateur non biais de 2 sera quant lui : 2 = . On notera quil est fonction de ||2 ||Y Y 2 . np1 (2.8)

2.2.2 Estimation par maximum de vraisemblance


On se place sous les hypothses fortes, cest--dire que les erreurs i sont supposes gaussiennes. Nous avons donc Y N (X, 2 In ) do la vraisemblance du modle de rgression linaire : 1 1 L(, 2 ) = exp{ 2 ||Y X ||2 2} 2 ( 2 2 )n (2.10) (2.9)

On montre facilement, aprs passage la log-vraisemblance, que la maximisation de (2.10) en fonction de conduit lestimateur (2.7). Quant 2 , la maximisation conduit un estimateur biais auquel nous prfrerons sa version non biaise (2.8). Exercice. Faire la preuve. Proprit 2.2.3. Les estimateurs du maximum de vraisemblance de et 2 sont efcaces (de variance minimale). De plus, ils sont indpendants et leur lois sont : = (X X)1 X Y N (, 2 (X X)1 ) et (n p 1) 2 2 np1 2 (2.12) (2.11)

2.3. TESTS SUR LE MODLE LINAIRE

19

2.3 Tests sur le modle linaire


Comme pour le modle linaire simple, les hypothses de rgression linaire doivent tre vries (normalit des variables ou des rsidus, non corrlation des rsidus, homoscdasticit des rsidus). La dmarche est identique celle de la rgression simple (paragraphe 1.4.1). Nous nous plaons dans le cadre des hypothses fortes.

2.3.1 Tests sur les paramtres


Pour chaque paramtre j , on peut montrer que son estimateur suit une loi de Student : j j tnp1 j
j

(2.13)

2 o est lestimation de la variance de lestimateur, gale au (j + 1)ime terme de la diagonale de la matrice

2 (X X)1 . A partir de cette statistique, il est possible de tester un un la nullit des diffrents paramtres du modle de rgression linaire multiple (penser matriser les risques encourus par une correction de Bonferroni par exemple), ou de construire des intervalles de conance sur ces paramtres, trs utiles lors de la phase dinterprtation du modle. Remarque. Les estimateurs des diffrents paramtres ntant pas indpendants, il est possible de tester la nullit de chaque paramtre sparment mais il ne faut rien en conclure conjointement.

2.3.2 Analyse de variance de la rgression


Comme dans le cas de la rgression simple (paragraphe 1.4.3), il est possible de tester globalement le modle (H0 : 1 = . . . = p = 0) par une analyse de variance du modle de rgression. Cela consiste dcomposer la dispersion totale (SST ) en une part de dispersion explique par le modle de rgression (SSReg ) et une part de dispersion rsiduelle (SSR) 2 2 ||2 ||Y Y 2 = ||Y Y ||2 + ||Y Y ||2 .
SST SSReg SSR

(2.14)

Lanalyse de variance de la rgression est gnralement prsente dans un tableau danalyse de variance Source Rgression Erreur Total Somme des carrs SSReg SSR SST degrs de libert p np1 n1 carr moyen M SReg = SSReg/p M SR = SSR/(n p 1) F F =
MSReg MSR

La statistique F = cette hypothse.

MSReg MSR ,

qui sous H0 suit une loi de Fisher p et n p 1 degrs de libert, permet de tester
R2 np1 . 1R2 p

Remarque. La statistique F est lie au coefcient de dtermination par F =

2.4 Prdiction
Pour une valeur x = (1, x 1 , . . . , xp ) de X , la prvision de Y sera donne par

y = x .

(2.15)

Un intervalle de conance de niveau 1 pour la valeur y sera construit partir de cette prvision ponctuelle : tnp1,1/2 x 1 + x (X X)1 x . (2.16)

20

CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

2.5 Slection de variables et choix de modle


Parmi lensemble des p variables disponibles, toutes nont pas ncessairement un intrt dans la modlisation de Y , et il peut alors tre nfaste de les utiliser. De plus, il est possible dhsiter entre lutilisation dune variable 2 Xj ou une certaine transformation de cette variable (ln Xj ,Xj ...). Nous sommes alors en prsence de diffrents modles possibles parmi lesquels il faut faire un choix. Intuitivement, le fait de ne pas utiliser assez de variables ou bien de trop en utiliser, conduit une mauvaise esti (X ). Il est possible de dnir comme mesure de la mation de lesprance conditionnelle h(X ) = E [Y |X ], note h qualit de lestimation h(X ), la moyenne des erreurs quadratiques moyennes (M EQM ) : M EQM = 1 n 1 n
n i=1 n i=1

(Xi ) h(Xi ))2 ] E [(h


n

(2.17)

1 n

(Xi )] h(Xi ))2 V (h(Xi )) +(E [h variance biais


n

(2.18)

(Xi )) V (h

i=1

1 n

i=1

(Xi )] h(Xi ))2 (E [h

(2.19)

moyenne des variances

moyenne des biais

Un modle trop peu complexe (pas assez de variables) aura un biais fort (et une variance faible), trop complexe (trop de variables) aura une variance forte (et un biais faible), tout lintrt tant davoir un modle ayant un M EQM le plus faible possible, cest--dire ralisant le meilleur compromis biais/variance possible. Malheureusement ce critre thorique nest pas calculable en pratique (h(X ) inconnue) et des critres approximatifs doivent tre utiliss.

2.5.1 Critres de comparaison de modle


Remarque. La slection de variables par tests dhypothses (paragraphe 2.3.1) nest pas pertinente pour deux raisons : le grand nombre de tests effectuer rend peu puissante la stratgie globale, et cette stratgie nest applicable que pour comparer des modles emboits (lensemble des variables dun modle doit tre inclus dans celui de lautre). Remarque. Lorsque lchantillon dont on dispose est de trs grande taille, une faon simple dvaluer la qualit dun modle, et donc de choisir parmi plusieurs modles candidats, est de sparer lchantillon global en une partie apprentissage (2/3 de lchantillon global) et une partie test (le 1/3 restant) servant lvaluation (par calcul de la somme des carrs des erreurs par exemple). Malheureusement, les chantillons sont souvent de tailles rduites, et ce procd nest pas toujours applicable. Nous prsentons ci-aprs plusieurs critres valuant la qualit dun modle utilisant d variables parmi les p disponibles (d p) 2.5.1.1 Limitation du coefcient de dtermination R2 Le coefcient de dtermination est une fonction croissante de la complexit du modle. Il conduira donc toujours choisir le modle qui pouse le mieux les donnes, autrement dit le modle le plus complexe. Son utilisation nest donc pas recommande sauf dans le cas de modle nombres de variables identiques. 2 2.5.1.2 Coefcient de dtermination ajust R A partir du coefcient de dtermination R2 = 1
SSR SST

on dnit le coefcient de dtermination ajust : (2.20)

2 2 = (n 1)R d R nd1

2.5. SLECTION DE VARIABLES ET CHOIX DE MODLE


qui consiste pnaliser R2 par laugmentation du nombre d de variables utilises. Attention : il peut prendre parfois des valeurs ngatives. 2.5.1.3 Critre de validation croise : PRESS (ou CVSS)

21

La somme des carrs rsiduelles i=1 2 i souffre du mme problme que le coefcient de dtermination. En notant 2 le i ime rsidu obtenu en estimant les paramtres du modle de rgression sans utiliser la iime observation, (i) le critre PRESS :
n

PRESS =
i=1

2 (i) ,

(2.21)

permet de slectionner les modles ayant un bon pouvoir prdictif (on veut le PRESS le plus petit). Bien qutant un des critres privilgier, ce critre peut parfois tre lourd calculer pour des modles complexes, et on lui prfrera souvent dans ce cas les critres ci-dessous dont le calcul est immdiat. 2.5.1.4 Cp de Mallows Dans le cas dun modle d + 1 variables (intercept 0 y compris), un estimateur de Cp = o SSRd+1 est la somme des carrs rsiduelles pour le modle restreint d + 1 prdicteurs, 2 c est lestimateur de 2 obtenu par le modle le plus complexe. Selon ces critres, les sous-ensembles de d + 1 variables fournissant des Cp proches de d + 1 sont de bons sousensembles. Parmi ceux-ci, plus Cp est grand, moins bon est le sous-ensemble. 2.5.1.5 Critre AIC Lutilisation de la vraisemblance souffre galement du mme problme que le coefcient de dtermination. Le critre AIC pnalise la log-vraisemblance du modle par son nombre de variables : AIC = 2l + 2(d + 1) o l est le maximum de la log-vraisemblance. Ce critre est proche du Cp de Mallows. On retient le modle ayant le plus petit AIC. 2.5.1.6 Critre baysien BIC Dorigine thorique diffrente, le critre BIC pnalise de faon un peu plus forte la log-vraisemblance : BIC = 2l + (d + 1) ln(n). On retient galement le modle ayant le plus petit BIC. (2.24) (2.23) SSRd+1 + 2(d + 1) n 2 c
MEQM 2

est donn par (2.22)

2.5.2 Algorithme de slection de variables


On recherche le meilleur sous-ensemble de variables au sens dun des critres prcedents. 2.5.2.1 Recherche exhaustive La faon la plus simple de faire est de tester tous les sous-ensembles de variables possibles. Mais cela devient vite impossible lorsque p est grand. 2.5.2.2 Recherche descendante pas pas On part de toutes les variables et on limine celle qui provoque la plus faible diminution du R2 . On fait cela jusqu liminer toutes les variables, et le nombre de variables est ensuite choisi par un des critres prcdents.

22 2.5.2.3 Recherche ascendante pas pas

CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

On procde de faon inverse : on part du meilleur modle une variable et on introduit ensuite les variables une une. 2.5.2.4 Recherche stepwise Cest une recherche ascendante, qui de plus, effectue chaque pas un test de signicativit de toutes les variables utilises ltape courante pour ventuellement en liminer. Lalgorithme sarrte lorsquon ne peut plus ni ajouter ni supprimer de variables. 2.5.2.5 Algorithme de Furnival et Wilson Cet algorithme est peut tre le plus efcace pour slectionner le meilleur modle pour un nombre de variables d x. Tout lintrt de cet algorithme est de rechercher le meilleur modle (selon les critres prcdents) sans avoir explorer tous les modles possibles. Il est limit p 15 sous SAS.

2.6 Multicolinarit des variables


Lestimation des paramtres ncessite linversion de la matrice X X. Lorsque des variables sont colinaires, cette matrice nest pas de rang plein et nest donc pas inversible. Ceci nest rarement le cas en pratique. Par contre, il arrive frquemment que des variables soit trs corrles et donc quasi colinaires, ce qui rend le dterminent de X X proche de 0 : on dit que le systme est mal conditionn. Linversion de la matrice conduit alors des estimations ayant une variance trs importante, voir mme parfois des problmes numriques. Il est donc important de diagnostiquer de tels problmes. Nous nous contenterons ici de donner des outils de diagnostics. Les solutions (rgression ridge, rgression sur composante principale, seront abordes dans le cours de Modlisation avances (GIS4)). Matrice de corrlation Lexamen de la matrice de corrlation R permet de dtecter des fortes corrlations entre deux variables : 1 X S 1 R= S 1 X n1 est la matrice X sans la premire colonne de 1 et laquelle on a retranch chaque ligne le vecteur moyen o X X , et S la matrice diagonale contenant les carts-types empiriques des variables Xj . Facteur dination de la variance VIF On dnit le facteur dination de la variance (VIF) par Vj = 1 2 1 Rj

2 o Rj est le coefcient de dtermination de la rgression de la variable Xj sur les autres variables. Sa racine carr Rj est le coefcient de corrlation multiple entre Xj et les autres variables. Plus Xj est linairement proche des autres variables, plus Rj est proche de 1 et le VIF grand, et donc plus la variance de lestimateur de j est leve. Lavantage du VIF par rapport la matrice de corrlation est quil prend en compte des corrlations multiples.

Conditionnement Soit 1 , . . . , p les valeurs propres de R, classes dans lordre dcroissant. Son dterminent est gal au produit des valeurs propres, et est donc proche de 0 lorsque certaines valeurs propres sont trs petites. On dnit lindice de conditionnement comme le rapport : = 1 . p

Lorsque < 100 il ny a pas de problme, par contre lorsque > 1000 les problmes de mauvais conditionnement sont importants. On regardera donc dans un premier temps lindice de conditionnement, puis on se penchera sur les forts VIF en cas de problme pour dtecter la source de la colinarit.

2.7. TP 2 : RGRESSION LINAIRE MULTIPLE

23

2.7 TP 2 : Rgression linaire multiple


2.7.1 Simulation
Cet exercice est raliser sous R. On considre dans cet exercice le modle de rgression suivant yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 + i i = 1, . . . , n

avec i N (0, 2 ). On choisit 0 = 3, 1 = 2, 2 = 2 et 3 = 1. Les xij sont supposes tre rpartis uniformment sur lintervalle [0, 1] et indpendants entre eux. (i) Simuler les couples (xi , yi )i=1,...,n pour une taille dchantillon n = 1000 et une variance rsiduelle 2 = 1. Stocker vos rsultats dans une matrice n 3 x et un vecteur y. = (X X)1 X Y. Donner un intervalle de conance sur ces (ii) Estimer le paramtre = (0 , 1 , 2 , 3 ) par estimations. (iii) Nous allons maintenant introduire une corrlation entre les variables explicatives. Pour cela, nous allons corrler la seconde variable la premire en remplaant les xi2 par xi2 = xi1 + ui o ui N (0, 2 ) est un bruit de variance . Pour plusieurs valeurs de (10,1,0.1,0.01 et 0) estimer les paramtres (0 , 1 , 2 , 3 ) du modle et calculer leur variance. Quen concluez-vous ? (iv) Pour chaque valeur de prcdente, calculer les facteurs dination de la variance (VIF). Interprter les rsultats.

2.7.2 Donnes relles

Cet exercice est raliser sous SAS. Le chier ukcomp1.dat (Jobson, 1991) contient les rsultats comptables de 40 entreprises du Royaume-Uni. Dans ce chier, la premire colonne est la variable RETCAP (Return on capital employed), qui est la variable que nous chercherons prdire en fonction des 12 autres variables : WCFTDT : Ratio of working capital ow to total debt LOGSALE : Log to base 10 of total sales LOGASST : Log to base 10 of total assets CURRAT : Current ratio QUIKRAT : Quick ratio NFATAST : Ratio of net xed assets to total assets FATTOT : Gross sixed assets to total assets PAYOUT : Payout ratio WCFTCL : Ratio of working capital ow to total current liabilities GEARRAT : Gearing ratio (debt-equity ratio) CAPINT : Capital intensity (ratio of total sales to total assets) INVTAST : Ratio of total inventories to total assets Lobjectif de ce TP sera de trouver le meilleur modle de rgression en effectuant une slection parmi les 12 variables explicatives disponibles.

24 Modle complet

CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

(i) Vrier graphiquement que les variables ont une distribution approximativement gaussienne. Si besoin, nhsitez pas en transformer certaine. (ii) Estimer un modle de rgression complet utilisant toutes les variables. Semble-t-il y avoir des points atypiques (rsidus studentiss, distance de Cook) ? des problmes de colinarit entre variables (VIF) ? (iii) Calculer le R2 et sa version ajuste. Recherche dun modle parcimonieux On appelle parcimonieux un modle dont le nombre de paramtres (et donc ici le nombre de variables explicatives utilises) est rduit, tout en ayant un bon pouvoir prdictif. Recherche backward : (i) Itrer la main le processus suivant : choisir la variable dont le test de Student (H0 : j = 0) est le moins signicatif (p-value la plus grande), la supprimer et r-estimer le modle. Arrter la procdure lorsque tous les coefcients sont signicatifs (seuil 5%). Attention, on gardera toujours lintercept (0 ), qui ne doit pas tre considr comme les autres variables. (ii) Comparer avec la procdure automatique de SAS utilisant loption backward. (iii) Calculer les critres de choix de modles (Cp , AIC et BIC, R2 et R2 ajust) pour le meilleur modle obtenu. Recherche forward : (i) Itrer la main le processus suivant : commencer par introduire dans le modle la variable la plus corrle avec RETCAP. estimer le modle, choisir la variable la plus corrle avec les rsidus du modle prcdent. Arrter la procdure lorsque la variable ajoute nest plus signicative (seuil 5% voir un peu plus). (ii) Comparer avec la procdure automatique de SAS utilisant loption forward (iii) Calculer les critres de choix de modles (Cp , AIC et BIC, R2 et R2 ajust) pour le meilleur modle obtenu. Recherche automatique par Furnival et Wilson : (i) Estimer le meilleur modle laide de lalgorithme de Furnival et Wilson. (ii) Calculer les critres de choix de modles (Cp , AIC et BIC, R2 et R2 ajust) et comparer avec les modles prcdents (complets et ceux obtenus par slection forward et backward). Prediction Rcuprer le chier ukcomp2.dat. (i) Estimer la variable RETCAP sur ce chier laide du modle complet, du modle maximisant le R2 ajust, celui maximisant le Cp et celui maximisant BIC. (ii) Pour chaque modle, calculer la somme des carrs des erreurs de prdiction. Comparer alors les modles. Pour ce faire, nous vous proposons lastuce suivante (si vous avez dautres ides nhsitez pas) : Concatner les deux chiers ukcomp1.dat et ukcomp2.dat, en appelant diffremment la variable RETCAP dans ces deux chiers (RETCAP1 et RETCAP2 par exemple). Le chier concatn contriendra ainsi 80 lignes, dont les 40 premires (correspondant ukcomp1.dat) auront la variable RETCAP1 renseigne tandis que RETCAP2 ne le sera pas, et vice-versa pour les 40 suivantes. Estimer le modles de rgression de RETCAP1 en fonction des variables explicatives retenues, et demand SAS deffectuer des prdictions (option p indiquer la suite de la ligne model). Ainsi, seules les 40 premires ligne auront servies estimer le modle, car seules celles-ci ont une valeur pour RETCAP1, mais les prdictions seront faites pour les 80 lignes (pour lesquelles les variables explicatives sont renseignes). Il suft ensuite de crer une variable rsidus, comme la diffrence entre la prdiction obtenues et la variable RETCAP2. Seules les 40 dernires lignes auront un rsidus car seules ces lignes disposent de RETCAP2. Il suft nalement de calculer la moyenne des carrs des rsidus ( laide dune PROC MEANS par exemple). Remarquons quil est possible de comparer les modles sur cet chantillon puisquil na pas servi estimer le modle (on parle dchantillon test, alors que lchantillon ukcomp1.dat ayant servi lestimation est appel chantillon dapprentissage). Au contraire, valuer des modles sur lchantillon ayant servi estimer le modle conduirait choisir un modle trop complexe : on parle de sur-apprentissage.

Chapitre 3

Analyse de variance et de covariance


Pour lANOVA : Logiciel R : fonction aov. Logiciel SAS : proc anova dans le cas de plans quilibrs (dnition ci-aprs) ou proc glm dans le cas gnral. Pour lANCOVA : Logiciel SAS : proc glm. Lanalyse de variance (ANOVA) a pour objectif dexpliquer une variable alatoire quantitative Y partir de variables explicatives qualitatives, appeles facteurs et notes dans ce chapitre A, B ... Lobjectif est alors de comparer les moyennes empiriques de Y pour les diffrentes modalits (ou niveaux) prises par les facteurs. Lorsque nous ajoutons des variables explicatives quantitatives, lanalyse sappelle analyse de covariance (ANCOVA). Lide gnrale sera de comparer pour chaque croisement de niveaux des variables qualitatives, le modle de rgression de Y sur les variables quantitatives.

3.1 Analyse de variance un facteur 3.2 Graphiques prliminaires


Une reprsentation graphique laide de bote moustaches (boxplot) des distributions de Y correspondant chaque niveau dun facteur permet bien souvent de donner un premier avis sur la situation.

3.2.1 Le modle
Soit Y une variable quantitative dont on observe les valeurs pour diffrents niveaux dun facteur qualitatif A. On suppose disposer de J chantillons indpendants de Y de tailles n1 nJ correspondant chacun des J niveaux du facteur A : Y11 , Y21 , . . . , Yn1 1 correspondant au niveau A1 du facteur A, Y12 , Y22 , . . . , Yn2 2 correspondant au niveau A2 du facteur A, ... Y1J , Y2J , . . . , YnJ J correspondant au niveau AJ du facteur A. On note n = J j =1 nj la taille dchantillon totale. On suppose que pour chaque niveau de A, les chantillons sont i.i.d. desprance j et de variance homogne 2 = 2 . On suppose ainsi que le facteur A ninue que sur lesprance des chantillons et non sur leur variance. j Le modle peut alors scrire : Yij = j + ij
2

(3.1)

o les ij sont i.i.d., desprance nulle et de variance constante . On supposera de plus que les ij sont gaussiens pour raliser des tests sur le modle danalyse de variance. Les paramtres du modle danalyse de variance sont donc les esprances j ainsi que la variance 2 . 25

26

CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

20

30

40

50

60

70

Hommes separes

Femmes

Hommes celib.

Hommes maries

F IG . 3.1 Bote moustaches illustrant la distribution des ges des clients dune banque allemande suivant les diffrents statuts maritaux. On note respectivement .j = 1 Y nj
nj

Yij
i=1

et

.. = 1 Y n

nj

Yij ,
j =1 i=1

la moyenne empirique de lchantillon correspondant au j ime niveau du facteur A et la moyenne empirique globale. De mme, on dnit la variance empirique au sein du j ime niveau de A par :
2 Sj

1 = nj 1

nj

i=1

.j )2 . (Yij Y

3.2.2 Estimation des effets


Il est possible dcrire le modle danalyse de variance comme un cas particulier de la rgression multiple, en considrant une variable indicatrice pour chaque niveau du facteur. Le modle scrit alors : Y = 0 1 + 1 1 1 + . . . + J 1 J + o Y = (Y11 , . . . , Yn1 1 , Y12 , . . . , Yn2 1 , . . . , Y1J , . . . , YnJ J ) est le vecteur colonne des observations, 1 est une colonne de 1, 1j les variables indicatrices de niveau, et enn le vecteur colonne des ij . Ce modle scrit encore Y = X + o X = (1, 11 , . . . , 1J ) et = (0 , 1 , . . . , J ) . Or, la matrice X nest pas de plein rang (la premire colonne est gale la somme de toutes les autres). La matrice X X nest donc pas inversible et le modle admet une innit de solution : on dit que les paramtres j ne sont donc pas identiables.

3.2. GRAPHIQUES PRLIMINAIRES

27

Une solution est alors de considrer un sous-ensemble de variables indicatrices de sorte rendre X X inversible. La faon la plus simple de faire est de ne pas considrer de terme constant : Y = 1 11 + . . . + J 1J + . On a alors j = j (1 j J ), et cest le modle considr en (3.1). Le paramtre j est estim sans biais par la moyenne empirique du j ime niveau : j = .j , Y

tandis que 2 est estime sans biais (sous lhypothse dhomognit des variances) par une moyenne pondre des variances empiriques de chaque niveau : 2 = S2 = 1 nJ
J j =1 2 (nj 1)Sj .

Le problme de ce modle est que les tests dcoulant consisteront tudier la nullit des paramtres tandis que nous sommes intresss par tester leur galit. Une autre solution (base cell model, adopte par SAS) et de considrer le modle Y = J 1 + (1 J ) 11 + . . . + (J 1 J ) 1J 1 + .
0 1 J 1

Ainsi, les paramtres j estims seront des diffrences desprance, en adquation avec ce que lon cherche tester par la suite.

3.2.3 Tests
Le principal objectif de lanalyse de variance est de tester si le facteur A a une inuence sur la variable Y . Sous les hypothses prcdentes, le problme revient donc tester H0 : 1 = . . . = J = contre H1 : 1 i, l J t.q. i = l .
J J nj

On montre facilement la formule danalyse de variance :


J nj

j =1 i=1

.. )2 = (Yij Y
SST

j =1

.j Y .. )2 + nj (Y
SSA

j =1 i=1

.j )2 (Yij Y
SSR

qui reprsente la dcomposition de la dispersion totale SST en la dispersion SSA due au facteur A (dispersion inter-groupe) et la dispersion rsiduelle SSR (ou dispersion intra-groupe). Exercice. crire la preuve.
2 En remarquant que VR = SSR 2 J nj Vj2 2 SSR n 1 n J j =1

nj Vj2 o Vj2 =

1 nj

= j =1 suit une loi du 2 n J degrs de libert, car loi du 2 nj 1 degrs de libert. SST 2 De mme, sous H0 cette fois, SST 2 suit une loi du n 1 degrs de libert (car sous H0 n est la variance dun SSA SSA 2 2 n-chantillon de loi N (, )) et 2 suit une loi du J 1 degrs de libert (car n peut tre vue comme 1, . . . , X J )). la variance pondre du J -chantillon (X 2 2 Lquation de lanalyse de variance revient alors 2 n1 = J 1 + nJ , ce qui permet en outre de conclure via le thorme de Cochran (non abord dans ce cours) que SSA et SSR sont indpendantes. La statistique du test est donc F =
SSA J 1 SSR nJ

nj 2 i=1 (Yij Y.j ) , 2 nj V chaque 2j suit une

on montre que

n 2 2 VR

qui suit sous H0 une loi de Fisher-Snedecor FJ 1,nJ , et on rejette lhypothse H0 si la statistique F est suprieure au quantile de la loi FJ 1,nJ dordre 1 . Les rsultats de lanalyse de variance sont gnralement donns dans un tableau analogue celui-ci :

28 Source Modle (inter) Erreur (intra) Total Somme des carrs SSA SSR SST

CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE


degrs de libert J 1 nJ n1 carr moyen M SA = SSA/(J 1) M SR = SSR/(n J ) F F =
MSA MSR

Comparaison des moyennes deux deux Rejeter H0 permet de dire que toutes les moyennes ne sont pas gales. Il peut cependant tre intressant de tester lgalit des moyennes deux deux. Pour cela, on effectue un test de comparaison multiple des moyennes (pour 1 j, j J ) : H0 : j = j . tant donn le grand nombre de tests que lon va tre amen faire, la problmatique des tests multiples doit tre prise en compte (cf. cours Statistique Infrentielle GIS3). Une solution simple peut tre dappliquer une correction de Bonferroni en ralisant chaque test avec un risque de premire espce gal au risque de premire espce global divis par le nombre de tests effectus. Une mthode plus conservative due Scheff, utilise le fait que j X j (j j )| SR p |X (J 1)fK 1,nJ,1 1 1 + nj nj =1

o fJ 1,nJ,1 est le quantile de la loi de Fisher de paramtres J 1 et n J dordre 1 . On rejette donc lhypothse dgalit des moyennes j et j si j X j | > SR |X (J 1)fJ 1,nJ,1 1 1 + . nj nj

Remarque. Attention, lgalit des moyennes nest pas transitive.

3.2.4 Contrle des hypothses


Outre la normalit (que lon peut vrier classiquement), nous avons suppos lhomognit des variances, quil peut tre intressant de vrier. Pour cela, sous lhypothse de normalit, Bartlett propose un test permettant de tester
2 2 H0 : 1 = . . . = J = 2 2 2 contre H1 : 1 i, l J t.q. i = l .

Posons
J

M=
j =1

(nj 1) ln(S

2 /Sj )

et

1 c= 3(J 1)

J 1 j =1 nj 1 1 J j =1 nj 1

Sous H0 , la statistique M 2 J 1 c+1 permet de raliser le test. Dans le cas o lhypothse de normalit est viole, une alternative propose par Levene ralise une analyse de .j |, la statistique de Fisher dcoulant de lANOVA fournissant un bon test variance sur les variables Zij = |Yij Y de lhomognit des variances.

3.3. ANALYSE DE VARIANCE DEUX FACTEURS

29

3.3 Analyse de variance deux facteurs


On suppose dsormais que Y est observ en prsence de deux facteurs A et B , respectivement J et K niveaux. En prsence de plus dun facteur, certains problmes nouveaux apparaissent, parmi lesquels linteraction entre facteurs. Nous supposons dans cette partie plusieurs hypothses simpliant les calculs : les niveaux dun facteur ne sont pas conditionns par lautre facteur, pour chaque combinaison de facteur, on observe un mme nombre (strictement suprieur 1) de rptitions (njk = c > 1). Les autres points seront abords dans la section 3.4.

3.3.1 Le modle
On note : Yijk la i-me observation de Y pour les j -me et k -me valeurs respectives des facteurs A et B , njk = c le nombre dobservations Xijk , K J J K nj. = k=1 njk = Kc, n.k = j =1 njk = Jc et n = j =1 k=1 njk = JKc. Le modle dANOVA scrit alors Yijk = .. + j + k + jk + ijk , (3.2)

o ijk N (0, 2 ), .. est leffet gnral, j est leffet du niveau j du premier facteur, k celui du niveau k de B , et jk leffet de linteraction entre les niveaux j et k des deux facteurs. Effet dinteraction Leffet dinteraction existe lorsque le niveau dun facteur modie linuence de lautre facteur sur Y . Considrons lexemple suivant : on relve dans diffrentes villes franaises le taux de fumeur (Y ) en fonction de la classe dge (facteur A) et du sexe (facteur B ). En labsence deffet dinteraction, leffet de la classe dge sur le taux de fumeurs serait identique pour les hommes et les femmes. Dans la ralit, il semble (cela reste prouver par une ANOVA !) que les femmes fument en proportion beaucoup plus un certain moment de leur vie (de ladolescence au dbut de lge adulte), tandis que la rpartition de fumeurs chez les hommes est plus constante entre les diffrentes classes dge. Ceci semble mettre en vidence un effet dinteraction entre les facteurs ge et sexe : le fait dtre de tel ou tel sexe modie limpact qu lge sur le taux de fumeurs.

3.3.2 Estimation des effets


On considre les moyennes empiriques suivantes : .jk = 1 Y c
c

Yijk ,
i=1

..k = 1 Y J

.jk , Y
j =1

.j. = 1 Y K

.jk Y
k=1

... = 1 et Y n

Yijk .
j =1 k=1 i=1

Sous les hypothses de contraintes (assurant lunicit des solutions) k k = j j = k jk = j jk = 0, les paramtres .. , j , k et jk de la dcomposition (3.2) peuvent tre estims par les relations suivantes : ... , .. = Y .j. Y ... , j = Y k = Y ..k Y ... .jk Y .j. Y ..k + Y ... et jk = Y

3.3.3 Tests
Soient les sommes des carrs suivantes :
J K c J K

SST =
j =1 k=1 i=1

... )2 , (Yijk Y
J K

SSA = cK
j =1

.j. Y ... )2 , (Y et SSR =

SSB = cJ
k=1 J K c

..k Y ... )2 , (Y

SSAB = c
j =1 k=1

.jk Y .j. Y ..k + Y ... )2 , (Y

j =1 k=1 i=1

.jk )2 , (Yijk Y

30

CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

o SST est la somme des carrs totale, SSA est la somme des carrs relatifs au facteur A, SSB est la somme des carrs relatifs au facteur B , SSAB est la somme des carrs relatifs linteraction entre les facteurs A et B et SSR est la somme des carrs rsiduels.
J K c

En remarquant que que lon peut crire SST =


j =1 k=1 i=1

2 2 , on obtient lquation danalyse de la Yijk nY ...

variance deux facteurs : SST = SSA + SSB + SSAB + SSR. Exercice. crire la preuve. Comme en analyse de variance un facteur, sous lhypothse H0 : j = 0, les quantits SSA et SSR suivent 2 prs des lois du 2 indpendantes J 1 et n JK degrs de libert. La statistique suivante est donc de loi de Fisher de paramtres J 1 et K 1 : FA = SSA/(J 1) . SSR/(n JK ) SSAB/(K 1)(J 1) SSR/(n JK )

De mme, sous les hypothses respectives H0 : k = 0 et H0 : jk = 0, les statistiques FB = SSB/(K 1) SSR/(n JK ) et FAB =

suivent des lois de Fisher de paramtres K 1 et n JK pour FB , (K 1)(J 1) et n JK pour FAB . Ainsi, on peut donc tester lexistence des effets principaux des deux facteurs et de leur interaction en comparant ces statistiques aux quantiles de la loi de Fisher : si les valeurs observes de ces statistiques sont suprieures au quantile de la loi de Fisher dordre 1 on conclura un effet signicatif. On prsente usuellement lanalyse de variance sous la forme du tableau suivant : Facteur A B Interaction AB Rsidu Total Somme des carrs SSA SSB SSAB SSR SST degrs de libert K 1 J 1 carr moyen SSB/(K 1) SSA/(J 1) FA = F
SSA/(J 1) SSR/(nJK ) SSB/(K 1) FB = SSR/ (nJK ) (K 1)(J 1) FAB = SSAB/ SSR/(nJK )

(J 1)(K 1) n JK n1

SSAB/(K 1)(J 1) SSR/(n JK )

3.4 Problmes spciques


3.4.1 ANOVA pour mesures rptes
Dans de nombreuses applications mdicales, les mesures de Y sont ralises plusieurs fois sur un mme patient. Les rptitions ne sont plus indpendantes et la mthodologie classique nest plus valide. Lide consiste alors introduire un facteur supplmentaire : un facteur individu. Ainsi, cela permet, en incorporant un effet sujet alatoire, dincorporer la corrlation intra-unit et de mieux estimer la rsiduelle.

3.4.2 Plan sans rptition


Dans le cas o une seule observation est disponible pour chaque croisement de niveau, leffet dinteraction est alors confondu avec leffet rsiduel et ne peut donc pas tre valu.

3.4.3 Plans dsquilibrs ou incomplets


Le cas de plans dsquilibrs (njk non constant) ou incomplets (j, k : njk = 0) conduit des modles beaucoup plus compliqus, le cas njk = c simpliant grandement les calculs lors des dcompositions des variances.

3.5. ANALYSE DE COVARIANCE

31

La solution consiste alors crire le modle dANOVA comme un modle de rgression, de faon similaire ce qui a t fait dans le cas de lANOVA un facteur. Ceci ne sera pas abord dans ce cours, mais nous prcisons nanmoins que la procdure glm de SAS permet de traiter ce cas (se rfrer aux rsultats de type III).

3.5 Analyse de covariance


Nous cherchons expliquer une variable quantitative Y en fonction de plusieurs variables explicatives, certaines qualitatives et dautre quantitatives. Lide gnrale sera de comparer pour chaque croisement de niveaux des variables qualitatives, le modle de rgression de Y sur les variables quantitatives. Nous nous plaons dans le cas dun unique facteur qualitatif A, J niveaux, et dune unique variable quantitative X . La procdure glm de SAS permet de considrer des situations beaucoup plus complexes. Pour chaque niveau j de A on observe les couples (Xij , Yij )1inj . Soit n = servations.
J j =1

nj le nombre total dob-

3.5.1 Graphiques prliminaires


Comme pour lANOVA, une reprsentation graphique du nuage de points (Xij , Yij )1inj ,1j nJ en diffrenciant les couleurs pour chaque niveau du facteur permet de donner un premier avis permettant de guider lanalyse.

3.5.2 Le modle
On considre un modle de rgression par niveau du facteur A : Yij = 0j + 1j Xij + ij j = 1, . . . , J i = 1 , . . . , nj (3.3)

o ij sont i.i.d. centrs de variance 2 et supposs de loi normale pour raliser les tests. La rsolution simultane des J modles peut tre obtenue en crivant le systme de faon matricielle : + Y=X (3.4)

avec les notations suivantes : Y et sont les vecteurs colonnes des Yij et ij , = (01 , 11 , . . . , 0J , 1J ) , est la matrice n 2J constitue des J blocs [1j |X.1j ] o 1j est lindicatrice de niveau, X est le vecteur X colonnes des Xij , et X.1j correspond au produit terme terme des deux vecteurs. An dobtenir directement les bonnes hypothses pour les tests que nous chercherons effectuer, des logiciels comme SAS utilisent une reparamtrisation du modle (3.4) faisant intervenir des effets diffrentiels par rapport au dernier niveau. Le modle considr scrit alors Y = 0J 1 + 1J X + (01 0J )11 + . . . + (0J 1 0J )1J 1 + (11 1J )X.11 + . . . + (1J 1 1J )X.1J 1 (3.5) effet de X effet de A effet dinteraction

Nous pourrons alors tester directement : leffet de X sur Y, lgalit des intercepts des J modles de rgression en testant leffet de A, lgalit des pentes des J modles de rgression en testant leffet de linteracton entre A et X.

3.5.3 Tests
Des tests de Fisher peuvent tre mis en place en comparant le modle complet (3.5) des modles rduits nintgrant que leffet de X , que leffet de A ou que leffet dinteraction. Ces tests permettent de tester les trois hypothses suivantes :

32
(1)

CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

H0 : 11 = . . . = 1J : il ny a pas dinteraction, les pentes de la rgression de Y sur X sont toutes identiques celle 1J du dernier niveau du facteur A, (2) H0 : 1J = 0, (3) H0 : 01 = . . . = 0J : les ordonnes lorigine de la rgression de Y sur X sont toutes identiques celle 0J du dernier niveau du facteur A. La dmarche danalyse de ces tests est la suivante : (1) on commence par tester linteraction avec H0 . (2) si linteraction nest pas signicative, on teste H0 , qui, sil nest pas non plus signicatif, conduit conclure labsence deffet de X , (3) (1) toujours si H0 nest pas signicative, on teste H0 pour juger de leffet du facteur A.

3.6. TP 3 : ANALYSE DE VARIANCE ET DE COVARIANCE

33

3.6 TP 3 : Analyse de variance et de covariance


A faire sous R. Le chier milk.dat contient les rsultats dune tude visant valuer limpact sur la consommation de lait de quatre campagnes de publicit. Quatre villes, une par campagne, ont t choisies dans cinq rgions diffrentes. Les donnes mesurent les consommations de lait (en ) aprs deux mois de campagne. Le chier comporte 6 colonnes (rgion, consommation pour la premire campagne publicitaire, la deuxime, la troisime, la quatrime et taille de la famille). Analyser cette tude en commenant par effectuer des reprsentations graphiques adquates, puis en ralisant une ANOVA an dvaluer leffet des diffrents facteurs prsents dans cette tude.

3.6.1 Analyse de variance deux facteurs

3.6.2 Analyse de covariance

A faire sous SAS laide de la proc GLM. Nous considrons le mme jeu de donnes que prcdemment, mais en prenant en compte dsormais la taille de la famille. Lobjectif de ltude est alors de tester limpact des diffrentes campagnes publicitaires. (i) A partir du chier de donnes, construire un chier plat : data milk1 ; set milk ; array c{4} consommation1-consommation4 ; do pub=1 to 4 ; consom=c{pub} ; output ; end ; drop consommation1-consommation4 ; run ; (ii) Raliser une analyse de covariance tudiant limpact de la taille de la famille et de la campagne publicitaire sur la consommation : proc glm data=milk1 plot ; class pub ; model consom=pub taille pub*taille/ solution ; run ; Interprter les diffrents effets. (iii) Nous avons vu dans lANOVA deux facteurs, que le facteur rgion avait un effet. Refaites lanalyse prcdentes par rgion (on noublira pas de trier la table de donnes au pralable).

A faire sous SAS. Le chier health.dat contient des donnes dune tude sur limpact du rgime alimentaire sur les capacits physiques. Pour cela, on a mesur le rythme cardiaque de 18 sportifs aprs des exercices dchauffement, aprs un jogging lger et aprs une course pied intense (respectivement PULSE1, PULSE2 et PULSE 3). Pour chaque personne, on a not son rgime alimentaire (DIET : 1 pour carnivore et 2 pour vgtarien), ainsi que le type dexercice quelle pratique habituellement (EXERTYPE : 1 pour aerobic (step), 2 pour tennis ou squash et 3 pour tness). (i) Crer un chier plat, qui contiendra entre autre une variable ind identiant de lindividu et une variable time indiquant le numro de la mesure effectue (time=1,2 et 3 pour PULSE1, PULSE2 et PULSE 3). (ii) Donner des reprsentations graphiques signiantes (boxplot). Certains facteurs vous semblent-ils inuencer le rythme cardiaque ? (iii) Analyser limpact des diffrents facteurs intervenant dans ltude, laide dune proc mixed. proc mixed data=health_plat ; class time EXERTYPE DIET ind ; model PULSE=EXERTYPE DIET EXERTYPE*DIET ; repeated time /subject=ind ; run ; Le modle est-il signicatif ? Si oui, quels effets sont signicatifs ?

3.6.3 Analyse de variance mesures rptes

34

CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

3.7 Un exemple dapplication de lANOVA et lANCOVA


Le chier milk.dat contient les rsultats dune tude visant valuer limpact sur la consommation de lait de quatre campagnes de publicit. Quatre villes, une par campagne, ont t choisies dans cinq rgions diffrentes. Les donnes mesurent les consommations de lait (en ) aprs deux mois de campagne au sein de plusieurs familles de tailles diffrentes. An dorganiser le chier sous une forme habituelle individus / variables, nous commenons pas crer un chier plat : data milk1 ; set milk ; array c{4} consommation1-consommation4 ; do pub=1 to 4 ; consom=c{pub} ; output ; end ; drop consommation1-consommation4; run ; Nous ralisons ensuite une ANOVA deux facteurs, campagne publicitaire et rgion, laide de la commande suivante : proc glm data=milk1 plot ; class region pub ; model consom=pub region pub*region ; run ; Les rsultats obtenus sont les suivants : Source pub region region*pub DF 3 4 12 Type III SS 4585.680487 4867.511417 8937.917430 Mean Square 1528.560162 1216.877854 744.826453 F value 3.61 2.87 1.76 Pr>F 0.0160 0.0268 0.0658

Ils indiquent un effet rgion et un effet campagne publicitaire (au risque 5%), alors que leffet dinteraction est plus contrast. Intgrons dsormais la variable taille de la famille ltude, et concentrons nous sur leffet des campagnes publicitaires. La taille de la famille tant une variable quantitative, nous ralisons une ANCOVA : proc glm data=milk1 plot ; class region pub ; model consom=pub taille pub*taille/ solution ; run ; Loption solution permet dafcher les coefcients des modles estims (cf ci-aprs). Les rsultats sont les suivants (on se rfre bien toujours aux rsultats de type III) : Source pub taille taille*pub DF 3 1 3 Type III SS 227.18067 40926.01565 309.84511 Mean Square 75.72689 40926.01565 103.28170 F value 0.57 306.57 0.77 Pr>F 0.6377 <.0001 0.5111

La seconde ligne indique quil y a un effet signicatif de la taille. Lexamen des valeurs des coefcients (tableau ci-dessous), montre quen effet la consommation augmente globalement de faon assez forte ( 12) avec la taille de la famille. La premire ligne indique quil ny a pas de diffrence signicative entre les intercepts des 4 modles de rgression de la consommation en fonction de la taille, ce qui ce traduit par labsence deffet campagne de publicit. De mme, la dernire ligne indique labsence de diffrence signicative entre les pentes des 4 modles de rgression de la consommation en fonction de la taille, ce qui ce traduit par labsence dinteraction entre le type de campagne de publicit et la taille.

3.7. UN EXEMPLE DAPPLICATION DE LANOVA ET LANCOVA


Parameter Intercept pub 1 pub 2 pub 3 pub 4 taille taille*pub taille*pub taille*pub taille*pub Estimate 8.27253333 -6.65546667 -7.44426667 -7.51253333 0.00000000 12.21651429 -2.03891429 -1.12554286 -2.44765714 0.00000000 Standard Error 4.81033834 6.80284572 6.80284572 6.80284572 . 1.23518086 1.74680952 1.74680952 1.74680952 t Value 1.72 -0.98 -1.09 -1.10 . 9.89 -1.17 -0.64 -1.40 Pr > |t| 0.0882 0.3300 0.2762 0.2718 . <.0001 0.2456 0.5207 0.1639

35

1 2 3 4

La gure 3.2 reprsente les 4 modles de rgression correspondants aux 4 campagnes de publicits

F IG . 3.2 Rgression de la consommation en fonction de la taille pour les diffrentes campagnes publicitaires Nanmoins, tant donn leffet rgion dtect dans lanalyse de variance, nous avons envie daller plus en avant dans lanalyse en ralisant la mme ANCOVA mais rgion par rgion cette fois : proc glm data=milk1 plot ; by region ; class pub ; model consom=pub taille pub*taille ; run ; On obtient alors les rsultats suivants : Rgion 1 Source pub taille taille*pub pub taille taille*pub pub taille taille*pub pub taille taille*pub pub taille taille*pub DF 3 1 3 3 1 3 3 1 3 3 1 3 3 1 3 Type III SS 72.029738 7178.321423 217.370477 231.734221 8655.252009 50.150687 79.546880 6993.301603 173.193053 415.666636 9743.378300 361.395564 15.354936 8513.285160 52.751193 Mean Square 24.009913 7178.321423 72.456826 77.244740 8655.252009 16.716896 26.515627 6993.301603 57.731018 138.555545 9743.378300 120.465188 5.118312 8513.285160 17.583731 F value 4.62 1380.25 13.93 30.36 3402.34 6.57 6.01 1585.35 13.09 15.23 1071.32 13.25 0.79 1314.71 2.72 Pr>F 0.0164 <.0001 <.0001 <.0001 <.0001 0.0042 0.0061 <.0001 0.0001 <.0001 <.0001 0.0001 0.5168 <.0001 0.0793

On constate alors, en ralisant les analyses rgion par rgion, que les diffrences dintercept et de pentes sont toujours signicatives (sauf pour la rgion 5 concernant lintercept). Le type de campagne publicitaire inue donc

36

CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

sur le lien entre la consommation et la taille. La gure 3.3 illustre les diffrences entre les diffrentes droites de rgression.

F IG . 3.3 Rgression de la consommation en fonction de la taille pour les diffrentes campagnes publicitaires, rgion par rgion. Lanalyse globale faite prcdemment, prenant en compte toutes les rgions ensemble, avait eu pour effet de cacher les diffrences dinuence des campagnes publicitaires, qui ne sont dcelables quen concentrant ltude rgion par rgion.

Chapitre 4

Rgression logistique
Logiciel SAS : proc logistic. Logiciel R : fonction glm. La n de ce cours est dsormais consacr modliser une variable Y qualitative, K modalits, partir de p variables explicatives X = (X1 , . . . , Xp ) qualitatives ou quantitatives. On parle gnralement dans ce cadre de classication (chaque modalit de Y reprsentant une classe dindividus). Nous verrons deux mthodologies, la rgression logistique ainsi que lanalyse discriminante probabiliste (Chapitre 5). Comme dans le reste de ce chapitre, nous supposons disposer dun chantillon dobservations conjointes de Y et de X : on parle alors dapprentissage supervis, et plus particulirement ici de classication supervise. Nous supposons dans ce chapitre, pour simplicit de prsentation, que les variables explicatives sont quantitatives. Dans le cas de variables qualitatives, il sufra de considrer les variables indicatrices correspondantes. Attention : par soucis didentiabilit, nous ne considrerons que J 1 indicatrices pour une variable J modalits.

4.1 Le modle logistique dichotomique (K=2)


On se place dans le cas o Y prend deux modalits (0 ou 1, prsence ou absence dune maladie, panne ou non dun composant lectronique, bon ou mauvais client...). Nous reprsenterons ces deux modalits par 0 et 1 dans la suite. La modalit 1 est gnralement utilise pour le caractre que lon cherche tudier (achat dun produit, prsence dune maladie, panne...). Les modles de rgression vus prcdemment ne sappliquent plus puisque le rgresseur linaire habituel X ne prend pas des valeurs simplement binaire.

4.1.1 Le modle
Lide est alors de ne plus modliser Y , mais les probabilits davoir Y = 0 et Y = 1 conditionnellement la connaissance des variables explicatives X = x : (x) = P (Y = 1|X = x) et 1 (x) = P (Y = 0|X = x).

Mme si nest plus binaire, elle est toujours borne dans lintervalle [0, 1], ce qui ne convient toujours pas un rgresseur linaire X qui prendra a priori des valeurs sur tout R. La rgression logistique consiste donc modliser une certaine transformation de , appele transformation logit, par une fonction linaire des variables explicatives : (x) j xj . = 0 + logit( (x)) = ln 1 (x) j =1 Ce modle scrit galement (x) = exp (0 + 1 + exp (0 + 37
p j =1 j xj ) . p j =1 j xj ) p

(4.1)

38

CHAPITRE 4. RGRESSION LOGISTIQUE

Dans la suite, nous noterons parfois (x; ) pour signier que la probabilit (x) est paramtre par , et de mme P (Y = 1|X = x; ). Remarque. Justication du modle : dans le cas dune unique variable explicative X , on modlise la probabilit exp x (x) = P (Y = 1|X = x) par une fonction de la forme 1+exp x dont lallure correspond bien la reprsentation du nuage de point (xi , yi ) dans le cas dobservation yi binaire (cf Figure 4.1).

F IG . 4.1 Modlisation de Y par une fonction de la forme (pointill vert).

exp x 1+exp x

(rouge) et par une fonction linaire de x

4.1.2 Odds et odds-ratio


Le succs de la rgression logistique, trs utilise en entreprise (nance, assurance, mdecine, marketing...), est en partie d aux capacits dinterprtabilit du modle. On dnit par odds le rapport (x) odds(x) = 1 (x)

qui reprsente combien de fois on a plus de chance davoir Y = 1 au lieu davoir Y = 0 lorsque X = x. On dnit de mme les odds-ratio par le rapport odds-ratio(xi , xj ) = odds(xi ) odds(xj )

qui reprsente combien de fois on a plus de chance davoir Y = 1 au lieu davoir Y = 0 lorsque X = xi au lieu de X = xj . Remarque. Bien que lon ait dni les odds et odds-ratio pour une variable explicative X multidimensionnelle, on ne fait gnralement varier quune seule dimension entre les deux valeurs xi et xj , et on dnit donc autant dodds et odds-ratio quil y a de dimensions. Exemple On considre comme variable prdire Y la prsence ou labsence dun cancer des poumons, et comme variable explicative (qualitative) le fait dtre fumeur ou non fumeur. Les donnes sont ctives bien que pas si loignes que cela de la ralit : La probabilit davoir un cancer du poumon chez un fumeur est P (Y = 1|X = fumeur) = 0.01, do P (Y = 0|X = fumeur) = 0.99. On a alors odds(X = fumeur) = 1/99. On dit que lon a une chance sur 99 davoir un cancer des poumons lorsque lon est fumeur.

4.2. ESTIMATION DES PARAMTRES ET PRDICTION

39

Chez les non fumeurs, la prvalence du cancer du poumons nest que de P (Y = 1|X = non fumeur) = 104 . /99 On a donc odds-ratio(fumeur, non fumeur) = 11 /9999 = 101, do 101 fois plus de chance davoir un cancer des poumons pour un fumeur que pour un non fumeur.

4.2 Estimation des paramtres et prdiction


4.2.1 Estimation des j
Les paramtres estimer sont = (0 , 1 , . . . , p ) . Si on dispose dun chantillon (yi , xi )i=1,n , o xi = (xi1 , . . . , xip ), telle que les yi soient indpendants conditionnellement aux xi , on peut estimer par maximum de vraisemblance. Les probabilits de Y tant exprimes conditionnellement aux variables explicatives X, nous maximisons la vraisemblance conditionnelle :
n

L( ) =
i=1

P (Y = yi |X = xi ).

i = (1xi ) , on a : Or, en utilisant la notation habituelle x P (Y = yi |X = xi ) = do la log-vraisemblance


n n i exp x i 1+exp x i exp x 1+exp i x

si yi = 1 si yi = 0

i exp x i 1 + exp x

yi

i exp x i 1 + exp x

1yi

l( ) =
i=1

ln P (Y = yi |X = xi ) =

i=1

i ln(1 + exp x i ). yi x

Exercice. Refaire le calcul. La maximisation de cette vraisemblance se fait en drivant par rapport au vecteur . On obtient l( ) =
n i=1

i x i yi x

i exp x = i 1 + exp x

n i=1

i (yi (xi )) x

qui nest pas une quation linaire en . Sa rsolution peut tre ralise numriquement par un algorithme de type Newton-Raphson. Daprs les proprits du maximum de vraisemblance, la matrice de variance de lestimateur est donne par linverse de la matrice dinformation de Fisher. Ainsi :
2 ) = l( ) ( V 2 1

V X )1 = (X

(4.2)

est la matrice n (p + 1) dont les lignes sont composes des x est la matrice diagonale n n des i et V o X (xi )(1 (xi )).

4.2.2 Estimation des odds-ratio


Dans le cas dune seule variable explicative X , on a ln odds-ratio(xi , xj ) = = = = 1 (xi xj )) do odds-ratio(xi , xj ) = exp( odds(xi ) odds(xj ) logit( (xi )) logit( (xj )) ln 0 + 1 xi (0 + 1 xj ) 1 (xi xj ),

40

CHAPITRE 4. RGRESSION LOGISTIQUE

4.2.3 Redressement dans le cas dune modalit rare


Nous avons suppos que lchantillon utilis pour lestimation respectait les proportions relles des deux modalits (chantillonnage simple classique). Or il est trs frquent en pratique, lorsquune des deux modalits est rare (prsence dune maladie, client risque...), dutiliser un chantillonnage strati : on sur-reprsente articiellement dans lchantillon la modalit rare. Cette modication du schma dchantillonnage na un impact que sur lestimation de 0 , quil suft alors de rep0 dresser en ajoutant le terme ln p o p0 et p1 sont les taux de sondage des modalits Y = 0 et Y = 1 (p0 est donc 1 le rapport de la probabilit davoir Y = 0 aprs r-chantillonnage sur cette mme probabilit dans la population initiale).

4.2.4 Prvisions
4.2.4.1 Classement dune nouvelle observation Pour une nouvelle observation x , on cherche prdire y . Il existe plusieurs faons deffectuer la prdiction. La rgle du maximum a posteriori (MAP) consiste affecter lobservation la classe la plus probable : on prdit ) : donc la valeur de y par la modalit k maximisant la probabilit P (Y = k |X = xi ;
). y MAP = argmax P (Y = k |X = x ; k{0,1}

Puisquon est en prsence de deux classes, une observation sera classe dans la classe Y = 1 si sa probabilit dtre dans cette classe est suprieur 1/2. Or, ce choix est totalement arbitraire et peut tre remis en cause, notamment lorsque les risques encourus en cas de mauvais classement ne sont pas symtriques (cote-t-il aussi cher daccepter un mauvais client que de ne pas en accepter un bon ?). On dnira plus gnralement la prdiction, ou rgle de classement, au seuil s de la faon suivante :
y s =

1 0

) s si P (Y = 1|X = x ; sinon

4.2.4.2 Notions de score Dans de nombreux domaines, comme le credit-scoring ou la mdecine, ce nest pas tant la prdiction y qui nous intresse que la probabilit (x ) que Y prenne la modalit 1. Cette probabilit est appele score. Elle pourra reprsenter la probabilit quun client achte un produit, la probabilit pour un patient de contracter une maladie, etc. 4.2.4.3 Tableau de classement ou matrice de confusion Le rsultat dun procd de classication est souvent reprsent sous la forme dun tableau de classement (ou matrice de confusion) obtenu en appliquant la mthode de classication sur des observations pour lesquelles la variable Y (i.e. la classe dappartenance) est connue et en comparant aux classes prdites : prdit Y =0 Y =1 VN FP FN VP N P total N P n

rel total

Y =0 Y =1

TAB . 4.1 Matrice de confusion contenant les effectifs de vrais ngatifs (VN), vrais positifs (VP), faux ngatifs (FN) et faux positifs (FP)

Dans ce tableau gurent les effectifs des observations en fonction de leur classe relle et de la prdiction de celle-ci. On parle parfois dobservations classes comme positives lorsquelles ont la modalit 1 de Y (car bien souvent on associe la modalit Y = 1 le caractre que lon cherche dtecter : maladie, achat...), et ngatives dans le cas contraire. Avec ces appellations, le contenu des cases du tableau peut tre dcrit de la faon suivante :

4.3. TESTS, INTERVALLES DE CONFIANCE ET CHOIX DE MODLE


vrai ngatif (VN) : nombre dobservations pour lesquelles la modalit 0 de Y a correctement t prdite, vrai positif (VP) : nombre dobservations pour lesquelles la modalit 1 de Y a correctement t prdite, faux ngatif (FN) : nombre dobservations dtectes tort comme ngatives, faux positifs (FP) : nombre dobservations dtectes tort comme positives, et P respectivement les nombres de ngatif et positif rels et prdits. N,P,N En gnral, les frquences sous forme de pourcentage gurent galement dans ce type de tableau.

41

Sensibilit et spcicit On appelle sensibilit du modle le pourcentage de vrais positifs, et spcicit le pourcentage de vrais ngatifs.

4.3 Tests, intervalles de conance et choix de modle


Nous prsentons ici les tests permettant dvaluer lapport des diffrentes variables explicatives, ainsi que des intervalles de conance, notamment sur les odds-ratio, utiliss dans linterprtation du modle logistique.

4.3.1 Tests sur j


On cherche tester si une composante j du paramtre est nulle : H0 : j = 0 contre H1 : j = 0

Plusieurs tests sont disponibles : le test du rapport des vraisemblances maximales : sous H0 2 ln max LH0 ( ) 2 1 max LH1 ( )

o LH0 et LH1 sont respectivement les vraisemblances du modle sans et avec la variable Xj , le test de Wald : sous H0 2 j 2 2 1 j
2 o j est la variance de lestimateur de j , donne par (4.2), et enn le test du score,

H ) 2 H )U ( H ) V ( U ( 0 0 0 1 H ) est le vecteur des drives partielles H ) est linverse de la matrice dinformation de Fisher, et U ( ( o V 0 0 de la log-vraisemblance estime sous H0 . Pour tout ces tests, on rejettera lhypothse de nullit du coefcient j si la statistique du test est suprieure au quantile 2 1,1 . Remarque. Si on conclut la nullit dun coefcient, tous les autres coefcients doivent tre r-estims. Bien souvent, le test du rapport des vraisemblances est le plus puissant, mais ncessite lestimation de sous H0 , ce qui nest pas le cas pour le test de Wald.

4.3.2 Intervalles de conance


j est asymptotiquement distribu suivant une loi normale, centre en j , et de variance donne Sachant que par (4.2), il est facile den dduire des intervalles de conance asymptotiques sur les j . En pratique, ces intervalles de conance ne sont que peu souvent utiliss car les j ne sont que rarement interprts, au contraire des odds-ratio. Les intervalles de conance sur les odds-ratio sont construits partir de rsultats sur la normalit asymptotique du logarithme dun odds-ratio. Un intervalle de conance sur un odds-ratio qui contient la valeur 1 ne permettra pas de conclure un effet quelconque de la variable en question.

42

CHAPITRE 4. RGRESSION LOGISTIQUE

4.3.3 Choix de modle


Comme pour tout modle statistique, le principe gnral de ne pas valuer un modle sur les donnes qui ont servi estimer le modle doit tre respect. 4.3.3.1 Algorithme de slection de variables Comme en rgression multiple, il existe des algorithmes de slection (forward, backward, stepwise...) dont le principe est chaque tape de comparer un modle avec un sous-modle et dvaluer lapport de termes supplmentaires. Le critre utilis est gnralement la statistique issue des tests de Wald ou du rapport des vraisemblances maximales. 4.3.3.2 Critres de choix de modles Les algorithmes de slection de variables prcdents favorisent la qualit dajustement du modle. An de sintresser au pouvoir prdictif, dautres critres classiques comme les critres AIC, BIC, ou de validation croise peuvent tre utiliss. Ce dernier critre, dans le cas dune validation croise leave-one-out, scrit : CV = 1 n
n

1 Iy (i) =yi
i=1

o y (i) est lestimation de yi obtenue sans utiliser la iime observation (yi , xi ).

4.4 Un outil dinterprtation : la courbe ROC


Nous avons dni prcdemment les notions de sensibilit (pourcentage de vrais positifs) et spcicit (pourcentage de vrai ngatif). La courbe ROC (Receiver Operaor Characteristic curve) donne lvolution du taux de vrais positifs (sensibilit) en fonction du taux de faux positifs (1-spcicit) lorsquon fait bouger le seuil s utilis pour la prdiction.

Cette courbe permet de voir lvolution des sensibilit et spcicit en fonction du seuil s choisi. Le praticien pourra alors choisir le seuil : la main en fonction dune sensibilit ou spcicit souhaite, de faon minimiser lerreur totale de classement (sans diffrencier les FP et FN), cest--dire le seuil s minimisant : p0 (1 Se(s)) + p1 (1 Sp(s)) o Se(s) et Sp(s) sont les sensibilit et spcicit (en fonction du seuil s), et p0 et p1 sont les proportions de ngatifs et de positifs dans la population totale,

4.5. LE MODLE LOGISTIQUE POLYTOMIQUE (K>2) ET ORDINAL

43

en cherchant tre le plus prs possible du point idal de coordonnes (0, 1) (Se = Sp = 1), cest--dire en minimisant : (1 Se(s))2 + (1 Sp(s))2 . La courbe ROC permet galement dvaluer la qualit du modle. Pour cela, on calcule laire sous cette courbe, note AUC (Area Under Curve) :
1

AU C =
0

Se(s)d(1 Sp(s)).

Le meilleur modle sera celui qui se rapprochera le plus de lAUC maximale gale 1. Cette aire correspond la probabilit de dtecter un positif dun ngatif.

4.5 Le modle logistique polytomique (K>2) et ordinal


Le modle logistique prsent prcdemment se gnralise au cas dune variable Y K modalits (K>2). Lorsque ces dernires sont ordonnes on parle de rgression logistique ordinale. Notons k (x) = P (Y = k |X = x). Dans cette situation, on se xe une modalit de rfrence (Y = K par exemple), et on ralise K 1 rgressions logistiques de k (x) versus K (x) : ln k (x) = 0k + K (x)
p

jk xj
j =1

1 k K 1.

Cette procdure ne dpend pas du choix du groupe de rfrence (dans les logiciels le groupe de rfrence est gnralement soit le premier soit le K ime). Lorsque la variable est ordinale, on modlise gnralement des logits cumulatifs : ln k+1 (x) + . . . + K (x) jk xj = 0k + 1 (x) + . . . + k (x) j =1
p

1 k K 1.

Ce dernier modle comportant un grand nombre de paramtres, les jk sont souvent supposs constants par classe jk = j 1 k K 1.

44

CHAPITRE 4. RGRESSION LOGISTIQUE

4.6 TP 4 : Rgression logistique


4.6.1 Simulation
A faire sous R. Soit Y une variable binaire que lon va chercher prdire, X1 et X2 deux variables alatoires uniformes sur [4, 5]. (i) Simuler un lien de type logit entre Y et (X1 , X2 ) : n = 100 ; a = -2 ; b = 2 ; c = 3 x1 = runif(n, -4, 5) ; x2 = runif(n, -4, 5) y = exp(a*x1+b*x2+c + rnorm(n)) y = y/(1+y) y = rbinom(n,1,y)

(ii) Reprsenter graphiquement le nuage de point form par les variables explicatives, en reprsentant les points dune couleur diffrente selon la modalit de Y . Reprsenter galement Y en fonction de X1 , et en fonction de X2 . (iii) Estimer le modle de rgression logistique laide de la fonction glm : glm.res <- glm(y x1+x2, family=binomial) Afchez et commentez les rsultats laide de la commande summary(glm.res) et plot(glm.res). Analyser lapport de chaque variable explicative. (iv) Effectuer les prdictions de Y pour votre chantillon de simulation laide de la commande : predict(glm.res,data.frame(x1=x1,x2=x2),type=response) et reprsenter les rsultats laide dune matrice de confusion : table(ychap,y) Les prdictions seront ralises laide de la rgle du MAP (rgle du seuil avec s = 0.5) (v) Simuler un nouvel chantillon de donnes de taille 100. Evaluer la sensibilit et la spcicit pour s=seq(0.01,0.99,0.01). Tracer la courbe ROC. (vi) Faites la mme chose en utilisant une seule variable explicative dans le modle logistique. Superposez les deux courbes ROC et choisissez le meilleur modle.

4.6.2 Cancer du sein


A faire sous R. Ce jeu de donnes classique est disponible dans le chier BreastCancer.dat. Lobjectif est de prdire si la tumeur est maligne ou bnigne partir de plusieurs variable explicatives. (i) Dcouper alatoirement le chier en une partie apprentissage et une partie test, laide de la fonction sample. (ii) Estimer le modle complet. Analyser lapport de chaque variable explicative. Calculer le critre AIC laide de la commande summary. glm.res <- glm(Class ., family=binomial, data=data_app).

(iii) Estimer un premier modle simpli en intgrant que les variables signicative lors de la prcdente rgression ( = 5%). Calculer AIC.

(iv) Estimer un modle simpli laide de lalgorithme forward suivant : pr1.glm = glm(Class1,family=binomial,data=data_app) pr1.step <- step(pr1.glm, direction="forward", scope=list(lower=1, upper=Cl.thickness+Cell.size+Cell.shape+Marg.adhesion+Epith.c.size+Bare.nuclei+ Bl.cromatin+Normal.nucleoli+Mitoses), trace = TRUE) Examiner lordre dintroduction des variables. (v) Estimer un modle simpli laide de lalgorithme forward/backward suivant : pr2.glm = glm(Class1,family=binomial,data=data_app) pr2.step <- step(pr2.glm, direction="both", scope=list(lower=1, upper=Cl.thickness+Cell.size+Cell.shape+Marg.adhesion+Epith.c.size+Bare.nuclei+ Bl.cromatin+Normal.nucleoli+Mitoses), trace = TRUE) Examiner lordre dintroduction des variables.

4.6. TP 4 : RGRESSION LOGISTIQUE


(vi) Quel est le meilleur des modles, au sens de AIC ? (vii) Et selon lchantillon test ? (viii) Tracer la courbe ROC pour chaque modle. Quel est le meilleur ?

45

4.6.3 Cancer de la prostate


A faire sous SAS. Les donnes sont dans le chier prostate.dat. Il y a encore quelques annes, le traitement du cancer de la prostate dpendait de son extension au niveau des ganglions du systme lymphatique. An dviter une intervention chirurgicale, des mdecins ont cherch prdire cette extension partir de plusieurs variables explicatives : lge du patient, le niveau de serum acid phosphatase, le rsultat dune radiographie (0 : ngatif, 1 : positif), la taille de la tumeur (0 : petite, 1 : grande), le rsultat dune biopsie (0 : moins srieux, 1 : srieux). En plus de ces variables, le jeu de donnes contient une dernire variable exprimant la contamination (1) ou non (0) du systme lymphatique. Lobjectif de cet exercice est de trouver le meilleur modle possible permettant de prdire la contamination du systme lymphatique. (i) tudier graphiquement les liaisons entre les variables explicatives et la variable expliquer. (ii) Justier la transformation de la variable acid par une fonction log. (iii) Estimer le modle complet, avec variables qualitatives et quantitatives, en incluant les interactions dordre 2. proc logistic data=prostate ; class radio taille gravite lymph ; model lymph = age acid radio taille gravite age*acid ... / influence ; run ; (iv) Interprter les odds-ratio obtenus. Si SAS ne les donne pas automatiquement, calculez-les partir de lestimation des coefcients du modle de rgression logistique. (v) Rechercher un modle plus simple par la mthode stepwise. Pour cela, il suft dindiquer loption selection=stepwise la n de linstruction model. (vi) Comparer le modle complet au modle simpli en fonction du pourcentage de biens classs. (vii) Rechercher dventuels points particulirement inuents. La suppression du point le plus inuent a-t-elle un effet favorable sur le pourcentage de bonnes classications ?

46

CHAPITRE 4. RGRESSION LOGISTIQUE

Chapitre 5

Analyse discriminante probabiliste


Logiciel SAS : proc discrim. Logiciel R : fonction lda et qda du package MASS. Seconde mthode de classication supervise aborde dans ce cours, lanalyse discriminante probabiliste a pour objectif daffecter une observation x de X Rp (le cas de variable qualitative peut galement tre traiter, cf Section 5.3) une des K classes connues, que lon notera G1 , . . . , GK , et qui correspondent aux modalits 1, . . . , K de la variable Y . Lobjectif est donc identique celui de la rgression logistique, mais lapproche est diffrente. En rgression logistique on modlise directement la probabilit P (Y = k |X = x), autrement dit la probabilit que lobservation x soit dans la classe Gk , tandis que lanalyse discriminante probabiliste consiste modliser la distribution de X conditionnellement la classe.

5.1 Formalisme de la discrimination probabiliste


5.1.1 Dnitions
Proportion dune classe On note pk = P (Y = k ) la probabilit quun individu a de provenir de la classe Gk . K Cette probabilit est aussi appele proportion de la classe Gk , et vrie k=1 pk = 1. Densit conditionnelle une classe X a pour densit de probabilit fk (x) sil provient de la classe Gk : X|Y =k fk (x). Densit marginale de X Cest une densit mlange
K

pk fk (x) = fX (x).
k=1

Probabilit conditionnelle le thorme de Bayes :

La probabilit quune observation x Rp provienne de la classe Gk est donne par tk (x) = P (Y = k |X = x) = pk fk (x) . fX (x)

Remarque. Nous supposons dans cette section que toutes les caractristiques des lois sont connues : proportions, densits... Nous verrons dans la section suivante les mthodes destimations de ces quantits. 47

48

CHAPITRE 5. ANALYSE DISCRIMINANTE PROBABILISTE

5.1.2 Rgle daffectation et probabilit derreur


Une rgle daffectation (ou de classement, de dcision...) r associe une observation x une des K classes : r : x Rp r(x) {1, . . . , K }. La dnition de r revient partitionner Rp en K rgions k telle que x k r(x) = k. La probabilit de classer un individu de Gk dans Gl (l = k ) avec la rgle r est : ekl (r) = P (r(X) = l|Y = k ) = fk (x)dx.
l

La probabilit quun individu de Gk soit mal class avec la rgle r est : ek (r) = P (r(X) = k |Y = k ) = ekl (r) =
l= k

fk (x)dx.

Et nalement la probabilit de mauvais classement global (ou erreur global de classement) :


K

e(r) =
k=1

pk ek (r).

5.1.3 Rgle de classement optimale de Bayes


Lobjectif est de dnir la meilleure rgle de classement possible. On dnit le cot de mauvais classement de classer un individu de Gk dans Gl : C : (k, l) {1, . . . , K } {1, . . . , K } C (k, l) R+ , o par convention C (k, k ) = 0. Les fonctions de cot ne sont gnralement pas symtriques. Comme nous lavons dj dit, classer un individu sain comme malade na pas le mme cot que lerreur inverse. Ces cots seront dnir : avec le praticien en fonction de son exprience, en testant plusieurs systmes de cots possibles et en comparant les rsultats obtenus, en les xant tous 1 lorsque lon a aucune ide. On dnit le risque conditionnel associ x par le cot moyen de classement :
K

R(r(X)|X = x) = E [C (r(X), Y )|X = x] =

C (r(x), k )tk (x),


k=1

et le risque moyen comme le cot moyen de classement inconditionnel


K K

R(r) = EX [R(r(X)|X = x)] = Exercice. Faire le calcul.

pk
k=1 l=1

C (l, k )
l

fk (x)dx.

On cherche donc la rgle de classement optimale r qui minimise le risque moyen, ce qui revient minimiser le risque conditionnel pour chaque individu car : R(r ) = min EX [R(r(X)|X = x)] EX [min R(r(X)|X = x)].
r r

La rgle optimale affecte donc x Gk si R(r(X) = k |X = x) < R(r(X) = l|X = x) l = k.

5.2. DISCRIMINATION PARAMTRIQUE GAUSSIENNE


Comme
K K

49

R(r(X) = k |X = x) = E [C (k, Z )|X = x] = la rgle optimale de Bayes est :


K

C (k, l)tl (x) =


l=1 l= k

C (k, l)tl (x),

r (x) = k

si
l= k

C (k, l)tl (x) <


l= k

C (k , l)tl (x)

k = k.

Cas de lgalit des cots Si tous les cots sont gaux c, le risque conditionnel est alors
K

R(r(X) = k |X = x) = c et donc r (x) = k si c(1 tk (x)) < c(1 tk (x)) r (x) = k

l= k

tl (x) = c(1 tk (x)),

k = k ou encore k = k.

si tk (x) < tk (x)

Lobservation x est donc affecte la classe conditionnellement la plus probable (rgle du maximum a posteriori). Les cots tant gaux, en posant c = 1, le risque moyen de classement
K K K

R(r) =
k=1

pk
l= k l

fk (x)dx =
k=1

pk

fk (x)dx =
k=1

pk ek (r) = e(r)

est gal lerreur globale de classement. Cas de deux classes On a r (x) = 1 et soit en posant g (x) =
C (2,1)t1 (x) C (1,2)t2 (x)

si si

C (1, 2)t2 (x) < C (2, 1)t1 (x), C (2, 1)t1 (x) < C (1, 2)t2 (x),

r (x) = 2

r (x) = 1 et r (x) = 2

si si

g (x) > 1, g (x) < 1.

Lquation de la surface discriminante (ou frontire de classement) est g (x) = 1.

5.2 Discrimination paramtrique gaussienne


Lorsque les variables sont continues, une des lois les plus rpandues est la loi gaussienne. Nous allons donc dans ce chapitre supposer que les variables explicatives X suivent des lois normales p-varies, dont les paramtres sont conditionns par la classe k . Ainsi, la densit fk (x) du groupe Gk est : fk (x) = 1 (2 )p/2 |
k

|1/2

1 1 exp{ (x k ) k (x k )} 2

o k et k sont respectivement les esprance et variance de la classe k .

50

CHAPITRE 5. ANALYSE DISCRIMINANTE PROBABILISTE

5.2.1 Rgle de classement thorique


On se place ici dans le cas de 2 classes, la gnralisation ne posant aucun problme. Lquation de la surface discriminante est g (x) = 1, ou encore ln g (x) = 0. On a : ln g (x) = = C (2, 1)p1 f1 (x) C (1, 2)p2 f2 (x) C (2, 1)p1 f1 (x) + ln ln f2 (x) C (1, 2)p2 ln
s

1 2

|2 | 1 1 ln + (x 2 ) 2 (x 2 ) (x 1 ) 1 (x 1 ) + s. |1 |

Cette quation tant quadratique en x, on dit que la frontire de classement est quadratique. On parle alors danalyse discriminante quadratique (QDA). Lorsque les matrices de variances sont identiques 1 = 2 = (cas homoscdastique par opposition au cas htroscdastique 1 = 2 ), lquation de la surface discriminante est (1 2 ) 1 (x 1 + 2 ) + s = 0, 2

qui est une quation linaire en x. On dit que la frontire de classement est linaire ou plus correctement que la sparation entre les classes est un hyperplan. On parle danalyse discriminante linaire (LDA).

5.2.2 Taux derreur thorique


On se place ici dans le cas de 2 classes, avec hypothse dhomoscdasticit. On affecte une observation x la classe 1 (rgle r) si G(x) = ln g (x) > 0, ce qui est quivalent 1 + 2 )+s>0 2 1 (1 2 ) 1 x (1 2 ) 1 (1 + 2 ) + s > 0. 2 (1 2 ) 1 (x La probabilit quun individu de G2 soit mal class avec cette rgle est : e2 (r) = P (G(X) > 0|Y = 2) = P (G(X) > 0|X N (2 , )). Il nous faut donc connatre la loi de G(X ) pour calculer cette probabilit. Or G(X ) est une combinaison linaire de loi normale une dimension (produit (1 2 ) 1 x) donc suit galement une loi normale une dimension, dont il nous suft de calculer les moments. E [G(X)] = = 1 (1 2 ) 1 2 (1 2 ) 1 (1 + 2 ) + s 2 1 1 (1 2 ) (1 2 ) +s 2
D2

o D2 est la distance de Mahalanobis entre les deux classes. La variance est quant elle V (G(X)) = = = = On a donc G(X) N (D2 /2 + s, D2 ) do e2 (r) = 1 s D 2 D V ((1 2 ) 1 X) (1 2 ) 1 V (X)1 (1 2 )

(1 2 ) 1 (1 2 ) D2

5.2. DISCRIMINATION PARAMTRIQUE GAUSSIENNE


o est la fonction de rpartition de la N (0, 1). On obtient de mme e1 (r) = et on en dduit la probabilit globale derreur : e(r) = p1 D s 2 D + p2 1 D s 2 D . s D 2 D ,

51

Remarque. Lorsque les cots et les proportions sont gales, on obtient e(r) = D 2 , et donc plus les classes sont spares, plus leur distance de Mahalanobis est grande, et plus lerreur globale de classement est petite.

5.2.3 Estimation de la rgle de classement


On suppose quon dispose dun chantillon (xi , yi )1in de ralisations indpendantes et identiquement distribues. A partir de cet chantillon on veut estimer le paramtre = (p1 , . . . , pK , 1 , . . . , K , 1 , . . . , K ) et en dduire lestimation de la rgle de classement r (qui dpend de ). La mthode du maximum de vraisemblance peut tre utilise. De la vraisemblance :
K

L() =
k=1 xi Gk

pk fk (xi ),

on dduit la log-vraisemblance
K

l() =
k=1 xi Gk

ln pk

p 1 1 1 ln 2 ln |k | (xi k ) k (xi k ). 2 2 2

En drivant puis galant 0 on obtient les estimateurs du maximum de vraisemblance suivant : nk o nk est le nombre dobservations de Gk p k = n 1 k = xi , nk
xi G k

= 1 n k =

K k=1 xi Gk (xi k ) (xi k ) 1 xi Gk (xi k ) (xi k ) nk

dans le cas homoscdastique dans le cas htroscdastique

Les estimateurs de k tant biais, on en dduit les estimateurs sans biais suivants : = k = 1 nK 1 nk 1
K k=1 xi Gk

(xi k ) (xi k ),

xi G k

(xi k ) (xi k ).

5.2.4 Estimation du taux derreur


Quelle que soit la mthode de classication utilise, lestimation de lerreur de classement est intressante puisquelle permet dvaluer la qualit de la discrimination. Taux derreur apparent e a Cela consiste appliquer la rgle de classement sur les observations qui ont servies estimer le modle. On montre que cet estimateur est en gnral biais et optimiste ; EY [ ea |X ] EY [e(r )|X ] o Y = (Y1 , . . . , Yn ). Cet estimateur est donc proscrire.

52

CHAPITRE 5. ANALYSE DISCRIMINANTE PROBABILISTE

Mthode de la partition e p Cela consiste diviser lchantillon en un chantillon dapprentissage (environ 2/3 75% de lchantillon global) et un chantillon test. Lerreur de classement pourra alors tre estime sans biais sur lchantillon test. Remarque. Cette technique demande une taille dchantillon sufsamment grande. Mthode de la validation croise e cv On dnit lestimateur validation croise leave-one-out de lerreur par e cv = 1 n
n

e p (i)
i=1

o e p (i) est lvaluation de lerreur sur une partition test constitue duniquement la iime observation (x, y )i . On parle de validation croise v -fold lorsque lchantillon initial est partag en v sous-chantillons servant chacun tour tour dchantillon test tandis que le reste des chantillons est utilis pour lapprentissage. On montre que lon obtient un estimateur sans biais de lerreur, ayant une variance plus faible que e p avec une partition test rduite une seule observation. Remarque. Cette technique demande de r-estimer les paramtres pour chaque chantillon test considr. Dans le cas de la validation croise leave-one-out, les paramtres du modle sont donc estims n fois. Remarque. Cette technique est privilgier dans le cas de petits chantillons.

5.2.5 Slection de variables


Les taux derreurs prcdents (sauf lerreur apparente) peuvent tre utiliss an de choisir les variables intressante (rappelons nous le principe biais-variance vu prcdemment). An dviter de comparer toutes les combinaisons de variables, on peut utiliser des algorithmes de slection similaires ceux utiliss en rgression.

5.2.6 Choix de modle


Il sagt de choisir entre le modle homoscdastique et htroscdastique. On peut comme prcdemment utiliser les taux derreurs, ou encore des critres classiques comme le critre BIC que lon veut le plus petit possible : ) + ln n BIC = 2 ln L( o est le nombre de paramtres du modle : = K 1 + Kp + p(p + 1) 2 p(p + 1) = K 1 + Kp + K 2 dans le cas homoscdastique, dans le cas htroscdastique.

5.3 Analyse discriminante pour variables qualitatives


Lanalyse discriminante probabiliste peut facilement tre tendue au cas de p variables explicatives qualitatives X(X1 , . . . , Xp ), respectivement m1 , . . . , mp modalits. Pour cela, il suft de considrer comme loi de X un modle multinomiale complet, en dnissant une probabilit pour chaque croisement de modalit possible. Ainsi, en notant 1, . . . , mj les modalits de la j me variable, on a : P (X = x) = P (X1 = j1 , . . . , Xp = jp ) = j1 ,...,jp avec la contrainte
m1 j1 =1

...

mp jp =1

j1 ,...,jp = 1.

5.4. MISE EN OEUVRE INFORMATIQUE

53

5.4 Mise en oeuvre informatique


5.4.1 SAS : PROC DISCRIM
La procdure DISCRIM de SAS permet deffectuer une analyse discriminante linaire ou quadratique. La syntaxe est la suivante : PROC DISCRIM DATA=...CROSSVALIDATE OUTSTAT=Dis_Func POOL = TEST ; CLASS indiquer ici la variable dnissant les classes ; PRIORS PROPORTIONAL ; VAR indiquer ici les variables explicatives ; RUN ; Loption CROSSVALIDATE donne une estimation du taux derreur par validation croise. Loption OUTSTAT=Dis_Func permet de sauvegarder la fonction discriminante dans le but de classer de futures observations. Loption POOL = TEST permet de tester entre lgalit des matrices de variances, et donc de choisir entre une analyse discriminante quadratique ou linaire. Pour imposer lutilisation dune analyse discriminante linaire, indiquer POOL = YES (option par dfaut), et pour lanalyse discriminante quadratique il faut indiquer POOLED = NO. Linstance PRIORS PROPORTIONAL conduit estimer les proportions des classes. Il est possible de les imposer tre gale grce PRIORS EQUAL (option par dfaut). Pour ensuite classer de nouvelles observations, il faut procder de la faon suivante : PROC DISCRIM DATA=Dis_Func TESTDATA=NEWDATA TESTLIST ; CLASS indiquer ici la variable dnissant les classes dans Dis_Func ; RUN ; Loption DATA=Dis_Func utilise la fonction discriminante prcdemment estime pour classer les individus spci dans TESTDATA=NEWDATA. Loption TESTLIST afche chaque nouvelle observation ainsi que sa classe estime.

5.4.2 R : fonctions lda et qda du package MASS


Tout est dans le titre ! Laide de ces deux fonctions (lda pour linear discriminant analysis et qda pour quadratic discriminant analysis) est trs bien faite sous R.

54

CHAPITRE 5. ANALYSE DISCRIMINANTE PROBABILISTE

5.5 TP 5 : Analyse discriminante probabiliste


A faire sous R. Soit Y B (1/2) une variable binaire que lon va chercher prdire, X1 et X2 deux variables alatoires gaussiennes, dont les paramtres des lois dpendent de la modalit de Y , et que lon va utiliser pour prdire Y : X1 N (1, 1) et X2 N (3, 1) si Y = 0, X1 N (2, 1) et X2 N (2, 1) si Y = 1. (i) Simuler un chantillon de taille n = 100 de ralisations du triplet (Y, X1 , X2 ). (ii) Reprsenter graphiquement le nuage de point form par les variables explicatives, en reprsentant les points dune couleur diffrente selon la modalit de Y . Reprsenter galement les distributions marginales de X1 et X2 (histogramme et estimation non paramtrique de la densit). (iii) Estimer les paramtres du modle LDA (proportions, moyennes et matrices de variance de chaque classe). Vriez ensuite vos rsultats laide de la fonction lda : library(MASS) lda1=lda(yx) plot(lda1) (iv) Simuler un chantillon test de taille 100. Prdire la variable Y par la rgle du maximum a posteriori, et valuer le taux de bon classement. (v) Evaluer le taux de bon classement par validation croise leave-one-out : lda1_CV=lda(yx,CV=TRUE) table(y,lda1_CV$class) (vi) Faites de mme avec QDA. Comparer les deux modles (selon le taux derreur sur lchantillon test et la validation croise). Commentaires ? (vii) A laide de lchantillon test, comparer aux rsultats de la rgression logistique. Les prdictions laide des modles LDA/QDA se font galement laide de la fonction predict : pred=predict(lda1,data.frame(x),type=response)

5.5.1 Simulation

A faire sous R. Le chier de donnes iris est disponible sous R. Ce clbre jeu de donnes donne les mesures en centimtres des longueur et largeur des spales et des longueur et largeur des ptales pour 150 eurs rparties en trois espces diris. (i) En croisant les variables explicatives deux deux, reprsenter les nuages de point avec des couleurs diffrentes selon les espces. plot(iris[,1 :4],col=iris$Species) Certaines variables semblent-elles plus discriminantes que dautres ? (ii) Calculer les matrices de variance de chaque groupe. Sont-elles semblables ? (iii) Estimer les modles QDA et LDA utilisant les 4 variables. (iv) Calculer les taux derreurs de classement par validation croise leave-one-out. Quel est le meilleur modle ? (v) Estimer maintenant les deux modles QDA et LDA sous SAS laide de la proc discrim. Existe-t-il des procdures pr-dnies permettant de slectionner les variables ?

5.5.2 Iris

Chapitre 6

Annexes
6.1 Drives de matrice et de vecteurs
Nous donnons ici quelques formules de drive par rapport un vecteur ou une matrice, sachant que la drive dun rel x par rapport un vecteur a est un vecteur dont les composantes sont les drives de x x par rapport aux composantes de a : x a i = ai , a i inversement x = a x , i ai a et a ij = bi . Soient a et x deux vecteurs : ax= xa=a x x Soit A et B deux matrices : T r(AB ) A T r(A B ) A T r(A) A T r(ABA ) A ln |A| A o T r est la trace de la matrice. = B = B = I = A(B + B ) = (A1 )

6.2 Lois de probabilits


6.2.1 Loi multinomiale
On rpte n fois une exprience K rsultats possibles, de probabilits p1 , . . . , pK ( k=1 pk ). On appelle Y le vecteur de dimension K tel que sa k ime composante Yk soit gale au nombre de rsultats dexpriences ayant conduit au rsultat k . Alors Y suit une loi multinomiale dordre n de paramtres p1 , . . . , pK Y M(n, p1 , . . . , pK ). La probabilit davoir Y = (y1 , . . . , yK ) est P (Y = y1 , . . . , yK ) = n! K py 1 . . . py K . y1 ! . . . yK ! 1 55
K

56 Son esprance est E [Y ] = (np1 , . . . , npK ), et sa matrice de variance = (ij )1i,j p dnie par : ii ij = = npi (1 pi ),

CHAPITRE 6. ANNEXES

npi pj

si i = j.

6.2.2 Loi gaussienne multivarie


Une variable alatoire X Rp de loi normale p-varie, desprance Rp et de matrice de variance , a pour densit de probabilit f (x) = 1 1 exp{ (x ) 1 (x )} 2 (2 )p/2 ||1/2

o || est le dterminant de la matrice .

Bibliographie
[1] P. Besse. Pratique de la modlisation statistique, Publications du Laboratoire de Statistique et Probabilits, 2003. Disponible sur http ://www.math.univ-toulouse.fr/besse/pub/modlin.pdf

[2] P. Besse. Apprentissage Statistique & Data mining, Publications du Laboratoire de Statistique et Probabilits, 2009. Disponible sur http ://www.math.univ-toulouse.fr/besse/pub/Appren_stat.pdf [3] G.J. McLachlan. Discriminant analysis and Statistical Pattern Recognition. Wiley, New-York, 1992. [4] J-P. Nakache et J. Confais. Statistique explicative applique. Editions Technip, 2003. [5] G. Saporta. Probabilits, analyse de donnes et statistique. 2me dition, Editions Technip, 2006.

57