Vous êtes sur la page 1sur 85

ANALYSE DE LA REGRESSION

ENSEIGNANT : Mustapha BERROUYNE


INGENIEUR EN CHEF GP
STATISTICIEN DEMOGRAPHE
CHERCHEUR

ROYAUMESUPPORT
DU MAROC DE COURS
HAUT COMMISSARIAT AU PLAN
Aspects théorique et pratique
INSTITUT NATIONAL DE STATISTIQUE
ET D’ECONOMIE APPLIQUEE 2014201

I N S E A , A V E N U E A L L A L A L F A S S I B . P : 6 2 1 5 , R A B A T I N S T I T UPage
T S| 1
Page | 2
TABLE DES MATIERES

CHAPITRE 2. ANALYSE DE LA REGRESSION MULTIPLE ..................................................................................6


SECTION 1 : ASPECTS THEORIQUES.......................................................................................................................6
1. INTRODUCTION ....................................................................................................................................................6
2. NOTATION MATRICIELLE.................................................................................................................................7
3. HYPOTHESES.........................................................................................................................................................7
3.1. HYPOTHESES STOCHASTIQUES (de nature probabiliste) .......................................................................7
3.2. Les hypothèses structurelles ............................................................................................................................8
4. ESTIMATION DES PARAMETRES.....................................................................................................................8
4.1. Minimisation de la somme des carrés des erreurs ..........................................................................................8
4.2. Ecriture matricielle ..........................................................................................................................................8
4.3. Exemple : consommation des véhicules ..........................................................................................................9
4.4. Quelques remarques sur les matrices............................................................................................................10
5. INTERPRETATION DES COEFFICIENTS .....................................................................................................................11
5.1. Coefficient brut ..............................................................................................................................................11
5.2. Coefficients partiels........................................................................................................................................11
5.3. Coefficients standardisés ...............................................................................................................................12
6. PROPRIETES DES ESTIMATEURS ..............................................................................................................................14
6.1. Biais................................................................................................................................................................14
6.2. Variance-convergence ...................................................................................................................................15
7. ESTIMATION DES VARIANCES ..................................................................................................................................16
7.1. Estimation de la variance de l’erreur ............................................................................................................16
7.2. Estimation de la matrice de variance-covariance des coefficients ...............................................................16
7.3. Détails des calculs pour les données "Consommation des véhicules".........................................................16
8. TESTS DE SIGNIFICATIVITE .....................................................................................................................................18
8.1. Tableau d'analyse de variance et coefficient de détermination....................................................................18
8.1.1. R² corrigé ou ajusté....................................................................................................................................................18
8.1.2. Coefficient de corrélation linéaire multiple .............................................................................................................20
8.1.3. Application aux données "Consommation des véhicules"......................................................................................20
8.1.4. Test de signification globale de la régression ...........................................................................................................21
8.2. Test de signification d'un coefficient.............................................................................................................22
8.2.1. Définition du test ........................................................................................................................................................22
8.2.2. Application sur la consommation des véhicules ......................................................................................................22
9. INFERENCE SUR LES COEFFICIENTS ........................................................................................................................23
9.1. Intervalle de confiance...................................................................................................................................23
10. PREDICTION PONCTUELLE ET PAR INTERVALLE ....................................................................................................24
10.1. Prédiction ponctuelle .....................................................................................................................................24
10.2. Prédiction par intervalle ................................................................................................................................24
10.3. Application sur le modèle « consommation des véhicules » .........................................................................25
11. REGRESSIONS AVEC VARIABLES AUXILIAIRES BINAIRES ET FACTICES..................................................................26
12. POINTS ABERRANTS ET POINTS INFLUENTS ............................................................................................................26
12.1. Détection.........................................................................................................................................................26
12.1.1. Détection univariée ....................................................................................................................................................27
12.1.2. Détection multivariée sur les exogènes : Force du levier ........................................................................................28
12.1.3. Résidus standardisés ..................................................................................................................................................30
12.1.4. Résidus studentisés supprimés ..................................................................................................................................32
12.1.5. Autres indicateurs usuels...........................................................................................................................................34
12.2. Traitement ......................................................................................................................................................39
12.3. … en utilisant le logiciel R ............................................................................................................................40
13. COLINEARITE ET SELECTION DES VARIABLES ........................................................................................................41
13.1. Définition, conséquences et illustration de la colinéarité.............................................................................41
13.2. Techniques de détection.................................................................................................................................42
13.2.1. Test de Klein...............................................................................................................................................................42
13.2.2. Facteur d'inflation de la variance (VIF), tolérance et indice de condition ............................................................43
13.2.3. La tolérance ................................................................................................................................................................43
13.2.4. Indice de condition K.................................................................................................................................................43
13.2.5. Application sur la consommation des véhicules ......................................................................................................44
13.2.6. Test de Farrar & Glauber (multicolinéarité)...........................................................................................................45
13.2.7. Cohérence des signes..................................................................................................................................................45
13.3. Sélection des variables et choix de modèle....................................................................................................46
Page | 3
13.3.1. Sélection par optimisation .........................................................................................................................................46
13.3.2. Techniques basées sur le F partiel de Fisher............................................................................................................51
13.3.3. Régression « Stagewise » ...........................................................................................................................................58
13.4. Régression Ridge............................................................................................................................................60
13.4.1. Propriétés statistiques de l’estimateur ridge ‫܍܏܌ܑܚ܉‬...............................................................................................60
13.4.2. Application sur les données consommation des véhicules.......................................................................................61
1. EN UTILISANT LE LOGICIEL SPSS...........................................................................................................................63
2. EN UTILISANT LA FONCTION « DROITEREG » DU LOGICIEL EXCEL................................................................72
ANNEXES ........................................................................................................................................................................75
REFERENCES BIBLIOGRAPHIQUES ...................................................................................................................................85

Page | 4
Page | 5
CHAPITRE 2. ANALYSE DE LA REGRESSION MULTIPLE

SECTION 1 : ASPECTS THEORIQUES


1. INTRODUCTION
La régression linéaire multiple est la généralisation multivariée de la régression simple. Nous
cherchons à expliquer les valeurs prises par la variable endogène Y à l'aide de p variables exogènes Xj,
(j = 1, . . . , p).
L’hypothèse nulle est qu’il n’y a pas de relation linéaire entre la combinaison des variables
indépendantes (Xi : i=1, …p) et la variable dépendante (Y).
L’hypothèse de recherche est l’inverse, soit que la combinaison des variables indépendantes est
associée significativement à la variable dépendante.
L'équation de régression s'écrit :

y୧ = a଴ + aଵxଵ୧+ aଶxଶ୧ + aଷxଷ୧ + … + a୮x୮୧ + e୧ (1)

Nous devons estimer les valeurs des (p + 1) paramètres (a0, a1, . . . , ap) à partir d'un échantillon de n
observations. Nous remarquons dans le modèle (1) :
- i = 1, . . . , n correspond au numéro des observations ;
- yi est la i-ème observation de la variable Y ;
- xi,j est la i-ème observation de la j-ème variable ;
- εi est l'erreur du modèle, il résume les informations manquantes qui permettrait d'expliquer
linéairement les valeurs de Y à l'aide des p variables Xj (ex. problème de spécification, valeurs
exogènes manquantes, etc.).
Les étapes processus de modélisation sont les suivantes :
1. Estimer les valeurs des coefficients (a0, a1, . . . , ap) à partir d'un échantillon de données (estimateur
des moindres carrés ordinaires).
2. Évaluer la précision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d'analyse de variance,
coefficient de détermination).
4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la
régression).
5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de
significativité de chaque coefficient).
6. Tester l'apport d'un groupe de variables explicatives dans l'explication de Y (test de significativité
simultanée d'un groupe de coefficient).
7. Pour un nouvel individu i∗ pour lequel on fournit la description (xi∗;1, . . . , xi∗;p), calculer la
valeur prédite yො୧∗ et la fourchette de prédiction.
8. Interpréter les résultats en mettant en avant notamment l'impact des exogènes sur l'endogène
(interprétation des coefficients, analyse structurelle).
Partant du fait que la modélisation est un processus itératif, nous allons aussi étudier d’autres notions,
notamment :
Page | 6
- L'étude des résidus, graphiquement mais aussi numériquement avec les tests de normalité, les tests
du caractère aléatoire des erreurs.
- La détection des points aberrants et influents, ces points qui peuvent peser de manière indue sur les
résultats de la régression.
- Les problèmes de colinéarité et la sélection de variables.
2. NOTATION MATRICIELLE
Le modèle de régression linéaire multiple, observation par observation est écrit comme suit :
yଵ = a଴ + aଵxଵଵ + aଶxଵଶ + aଷxଵଷ + … + a୮xଵ୮ +eଵ

yଶ = a଴ + aଶxଶଵ + aଶxଶଶ + aଷxଶଷ + … + a୮xଶ୮ +eଶ

… … … … … … … … … … … … … … … … … … … … . . ….
y୧ = a଴ + a୧x୧ଵ + aଶx୧ଶ + aଷx୧ଷ + … + a୮x୧୮ +e୧

… … … … … … … … … … … … … … … … … … … … . . ….
y୬ = a଴ + a୬x୬ଵ + aଶx୬ଶ + aଷx୬ଷ + … + a୮x୬୮ +e୬

On peut écrire ce modèle sous une écriture matricielle :


Y = Xa + ε
Ou encore :
ଵ ୶భభ ୶భమ ୶ଵଷ ୶ଵସ … ୶ଵ୮
౯భ ଵ ୶మభ ୶మమ ୶మర … ୶మ౦ ౗బ eభ
౯మ ୶మయ ౗భ eమ
ቆ ቇ= ቌ⋮
౯య
… ⋮ ⋮ ⋮ ⋮ ⋮ ቍ ∗ቆ ቇ +ቆ ቇ
౗మ

eయ

౯౤ ౗౤ e౤
1 x୬ଵ x୬ଶ x୬ଷ x୬ସ ⋯ x୬୮
ଵ ୶భభ ୶భమ ୶ଵଷ ୶ଵସ … ୶ଵ୮
౯భ ଵ ୶మభ ୶మమ ୶మర … ୶మ౦ ౗బ eభ
౯మ ୶మయ ౗భ eమ
Où : Y = ቆ ቇ ; X = ቌ ⋮
౯య
… ⋮ ⋮ ⋮ ⋮ ⋮ ቍ ;a=ቆ ቇ;e=ቆ ቇ
౗మ

eయ

౯౤ ౗౦ e౤
1 x୬ଵ x୬ଶ x୬ଷ x୬ସ ⋯ x୬୮
Les dimensions des matrices sont respectivement :
- Y → (n, 1)
- X → (n, p + 1)
- a → (p + 1, 1)
- ε → (n, 1)
La matrice X de taille (n, p+1) contient l'ensemble des observations sur les exogènes, avec une
première colonne formée par la valeur 1 indiquant que l'on intègre la constante a0 dans l'équation.
3. HYPOTHESES
Comme pour la régression simple, les hypothèses permettront de déterminer les propriétés des
estimateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coefficient pris
individuellement, loi de Fisher dès que l'on traite un groupe de coefficients).
Nous distinguons les hypothèses stochastiques et les hypothèses structurelles.
3.1. HYPOTHESES STOCHASTIQUES (de nature probabiliste)
Les hypothèses stochastiques se présentent comme suit :
H1 : Les Xj sont non aléatoires c'est-à-dire les xij sont observés sans erreur.
Page | 7
H2 : E[εi] = 0, l'espérance de l'erreur est nulle. En moyenne, le modèle est bien spécifié.
H3 : E[εଶ୧ ] = σଶe , la variance de l'erreur est constante, c'est l'hypothèse de homoscédasticité.
H4 : COV (εi,εi′) = 0 pour i i′, les erreurs sont indépendantes, c'est l'hypothèse de non autocorrélation
des résidus.
H5 : COV (xij, εi) = 0, l'erreur est indépendante des variables exogènes.
H6 : εi ≡ N(0, σଶe ), les erreurs sont distribués selon une loi normale.
3.2. Les hypothèses structurelles
Les hypothèses structurelles se présentent comme suit :
H1 : La matrice (X′X) est régulière c’est à dire det(X′X)  0 et (X′X)−1 existe. Elle indique l'absence
de colinéarité entre les exogènes. Nous pouvons aussi voir cette hypothèse sous l'angle rang(X) = p + 1
et rang(X′X) = p + 1.
(ଡ଼ᇲଡ଼)
H2 : tend vers une matrice finie non singulière lorsque n → +∞.

H3 : n > p+1, le nombre d'observations est supérieur au nombre de paramètres à estimer.


Dans le cas où n = p + 1, nous avons une interpolation, la droite passe exactement par tous les points.
Lorsque n < p + 1, la matrice (X′X) n'est plus inversible.
4. ESTIMATION DES PARAMETRES
4.1. Minimisation de la somme des carrés des erreurs
Afin d’estimer les paramètres composés des coefficients a0, a1, a2, …, ap (vecteur a), nous appliquons
la méthode des moindres carrés ordinaires (MCO) qui consiste à minimiser la somme (S) des carrés
des erreurs. Soit S = ∑୬୧ୀଵ eଶ୧ où eଶ୧ = [y୧ − ൫a଴ + aଵxଵ୧+ aଶxଶ୧ + aଷxଷ୧+ … + a୮x୮୧൯]ଶ
On passe de nouveau par les dérivées partielles que l'on annule pour obtenir les (p + 1) équations
normales.

Nous avons (p + 1) équations à (p + 1) inconnues. Nous pouvons en extraire les estimations (a଴, aଵ,
a2,. . . , a୮). Puisque cette écriture est difficile à manipuler, nous utilisons les matrices.

4.2.Ecriture matricielle
Soit  le vecteur des erreurs, avec ε′ = (ε1, . . . , εn). La somme des carrés des erreurs devient :

S = ∑୬୧ୀଵ eଶ୧ = e e (1)
Développons l’expression (1)
S = eᇱe = (Y − Xa)ᇱ (Y − Xa)

Page | 8
= Y ᇱY − Y ᇱXa − aᇱX ᇱY + aᇱX ᇱXa
= Y ᇱY − 2aᇱX ᇱY + aᇱX ᇱXa
En notant que : (Xa)′ = a′X′ et (Y′Xa)′ = a′X′Y.
பୗ
= −2(X ′ Y ) + 2(X ′ X)aො = 0  aො = (X ′ X)ିଵX ′ Y
பୟ

La résolution de ce système n'est pas toujours possible. Cette résolution est liée à la possibilité
d'inversion de la matrice (X ᇱX).
4.3. Exemple : consommation des véhicules
Nous cherchons à expliquer la consommation de véhicules, exprimée en Litres/100 km à partir de trois
variables exogènes (p = 3) : la cylindrée (en cm3, la puissance (en kw) et le poids (en kg). Nous
disposons de n = 28 observations.
Pour ce faire, nous avons élaboré une feuille Excel qui donne tous les calculs intermédiaires permettant
d'obtenir les estimations des paramètres du modèle de la régression linéaire multiple (vecteur aො). dans
cette feuille :
- Nous distinguons les valeurs des exogènes (X1, X2, X3), et celles de l’endogène Y.
- Nous ajoutons au tableau des exogènes une colonne de constante, avec la valeur 1. Nous obtenons
ainsi la matrice X.
1 846 32 650
‫ = ܆‬൮ 1 993 39 790 ൲ ;
⋮ ⋮ ⋮ ⋮
1 2473 125 1570

- Nous obtenons la matrice X ᇱX :


28 50654 2176 33515

XX =൮ ⋮ ⋮ ⋮ ⋮ ൲
⋮ ⋮ ⋮ ⋮
33515 65113780 2831550 42694125

- Nous inversons cette matrice pour obtenir (X ᇱX)ିଵ ;


- Ensuite, nous calculons les produits des matrices X et Y, soit (X'Y) :
254,1
ᇱ 493218,1
XY=൮ ൲
21473,7
321404,5

- Enfin, nous obtenons les estimations des paramètres de la régression en calculant aො aො = (X ′ X)ିଵX ′ Y
aො଴ 1,7020
aොଵ 0,0005
aො = ൮ ൲ = ൮ ൲
aොଶ 0,0183
aොଷ 0,0042

- Le modèle s’écrit :
Consommation = ૚, ૠ૙૛૙ + ૙, ૙૙૙૞ x cylindrée + ૙, ૙૚ૡ૜ x puissance + ૙, ૙૝૛ x poids

A travers la lecture du modèle trouvé, nous constatons que toutes les variables jouent positivement sur
la consommation. Autrement dit, la cylindrée, la puissance ou le poids des véhicules augmentent, la
consommation (en litres/100km) a tendance à augmenter.

Page | 9
Un accroissement d’une unité sur la VI Xj se traduit par un accroissement de aො୨ unités sur la VD.
Le tableau suivant donne le détail des calculs intermédiaires relatifs à l’estimation des paramètres.
Calculs matriciels de l’exemple de la consommation des véhicules
X Y
Constante Cylindrée Puissance Poids Consommation X'X
1 846 32 650 5,7 28 50654 2176 33515
1 993 39 790 5,8 50654 102138444 4451219 65113780
1 899 29 730 6,1 2176 4451219 197200 2831550
1 1390 44 955 6,5 33515 65113780 2831550 42694125
1 1195 33 895 6,8
1 658 32 740 6,8 (X'X)-1
1 1331 55 1010 7,1 0,70598604 -0,00014708 0,00558634 -0,00070038
1 1597 74 1080 7,4 -0,00014708 0,00000107 -0,00001589 -0,00000047
1 1761 74 1100 9,0 0,00558634 -0,00001589 0,00035837 -0,00000392
1 2165 101 1500 11,7 -0,00070038 -0,00000047 -0,00000392 0,00000155
1 1983 85 1075 9,5
1 1984 85 1155 9,5 X'Y
1 1998 89 1140 8,8 254,1
1 1580 65 1080 9,3 493218,1
1 1390 54 1110 8,6 21473,7
1 1396 66 1140 7,7 321404,5
1 2435 106 1370 10,8
1 1242 55 940 6,6 a

1 2972 107 1400 11,7 Constante 1,7020


1 2958 150 1550 11,9 Cylindrée 0,0005
1 2497 122 1330 10,8 Puissance 0,0183
1 1998 66 1300 7,6 Poids 0,0042
1 2496 125 1670 11,3
1 1998 89 1560 10,8
1 1997 92 1240 9,2
1 1984 85 1635 11,6
1 2438 97 1800 12,8
1 2473 125 1570 12,7

4.4. Quelques remarques sur les matrices


Les matrices (X′X)−1 et (X′Y) qui entrent dans la composition de aො peuvent être interprétées d'une
manière qui nous éclaire sur l'influence des variables dans l'estimation.

a. Matrice (X′X)
Chaque case de la matrice (X′X), de dimension (p+1, p+1), est formée par la somme du produit croisé
entre les exogènes, en effet :

(X′X) est une matrice symétrique. Elle indique le degré de liaison entre les exogènes.

b. Matrice (X'Y)
Chaque case du vecteur (X′Y), de dimension (p+1,1), est composée du produit croisé entre les
exogènes et l'endogène.

(X′Y)

Page | 10
Le vecteur indique le degré de liaison entre chaque exogène et Y.
Ainsi le coefficient associé à une variable explicative sera d'autant plus élevée en valeur absolue,
relativement aux, qu'elle est fortement liée avec l'endogène et, dans le même temps, faiblement liée
avec les autres exogènes.
5. Interprétation des coefficients
Durant ce paragraphe, nous allons essayer de lire les coefficients fournis par la modélisation, tout
d'abord dans une régression simple, on parle de coefficients bruts, puis dans la régression multiple, on
parle de coefficients partiels.
5.1. Coefficient brut
On cherche à expliquer la consommation à partir du poids des véhicules. Nous obtenons le modèle
suivant (tableau suivant):
‫ = ܇‬0,00669 x poids + 1,06269
Nous pouvons lire le coefficient de la manière suivante : une augmentation du poids d'un véhicule de
1kg entraîne une consommation supplémentaire de 0,00669 litres au km. On mesure l'association
brute, en dehors de toute considération des autres variables qui pourraient influencer la consommation.
La pente de la régression est très significative à 5% avec un t de Student égal à :
tpoids = 0,00669/0,00053 = 12,53805 > > t0,975 (12,53805) = 2,18.
Lecture des coefficients de la régression(consommation des véhicules)
X Y
Cylindrée Poids Consommation DROITEREG
846 650 5,7 Poids Constante
993 790 5,8 0,00669 1,06269
899 730 6,1 0,00053 0,65925
1390 955 6,5 0,85808 0,85719
1195 895 6,8 SCE 157,20 26
658 740 6,8
1331 1010 7,1
1597 1080 7,4 DROITEREG
1761 1100 9,0 Poids Cylindrée Constante
2165 1500 11,7 0,0044 0,0013 1,4176
1983 1075 9,5 0,0009 0,0005 0,5993
1984 1155 9,5 4,7378 2,8134 -
1998 1140 8,8 t0,975 2,7764 4,3027 -
1580 1080 9,3
1390 1110 8,6
1396 1140 7,7
2435 1370 10,8
1242 940 6,6
2972 1400 11,7
2958 1550 11,9
2497 1330 10,8
1998 1300 7,6
2496 1670 11,3
1998 1560 10,8
1997 1240 9,2
1984 1635 11,6
2438 1800 12,8
2473 1570 12,7

5.2.Coefficients partiels
Réalisons maintenant la même régression en introduisant la variable cylindrée (tableau suivant). Le
coefficient de poids a été modifié : ‫ = ܇‬0,00443 x poids + 0,00130 x Cylindree + 1,41755
Les deux variables sont significatives à 5% (tableau ci-dessus).

Page | 11
La modification du coefficient de poids s'explique par le fait que la variable poids est liée à la variable
cylindrée. Le coefficient de corrélation rpoids,cylindree = 0,8616 le montre bien. Lorsque la cylindrée
augmente, le poids varie également, dans le même sens : aො୮୭୧ୢୱ en tient compte.
Le nouveau coefficient se lit de la manière suivante : à cylindrée égale, lorsque le poids augmente de
1kg, la consommation s'accroîtra de 0,00443 litres au km. C'est le fameux "toutes choses égales par
ailleurs". On parle alors de coefficient partiel. Nous avons neutralisé l'impact de la cylindrée sur le
poids dans la détermination de l'influence de ce dernier sur la consommation.
Pour expliquer ce phénomène, nous essayons une petite expérience. Nous allons retrancher la partie de
poids expliquée par la cylindrée en calculant le résidu de la régression (poids = a0 + a1 x cylindree).
Puis, nous introduisons ce résidu comme variable explicative dans la régression simple expliquant la
consommation : (Y = b0 + b1 x résidu). Si notre explication tient la route, la pente b1 devrait
correspondre au coefficient partiel 0,00443.
La régression de la variable poids sur cylindrée donne ce qui suit :
Poids = 0,4269 x cylindree + 424,75
Il est significatif avec un coefficient de détermination R² = 0,74. Nous calculons les résidus en
déduisant du poids observé le poids prédit par le modèle : résidus(poids/cylindree) = poids − (0,4269 x
cylindree + 424,75). Le résidu représente la fraction de poids qui n'est pas expliquée par la cylindrée.
Nous l'introduisons comme variable explicative dans la régression expliquant la consommation :
Y = 0,00443 x résidus + 9,075
b1 = 0,00443 représente l'impact du poids sur la consommation en dehors de (en contrôlant, en
neutralisant) l'influence de la cylindrée et, nous retrouvons le coefficient partiel de la régression
multiple.
X Y
Cylindrée Poids Consommation Poids^ résid(poids/cyl) Poids = a0 + a1 Cylindree
846 650 5,7 785,9 -135,9 a1 a0
993 790 5,8 848,6 -58,6 0,4269 424,75
899 730 6,1 808,5 -78,5
1390 955 6,5 1018,1 -63,1 Y = b0 + b1 Résidus
1195 895 6,8 934,8 -39,8 b1 b0
658 740 6,8 705,6 34,4 b^ 0,0044 9,08
1331 1010 7,1 992,9 17,1
1597 1080 7,4 1106,4 -26,4
1761 1100 9,0 1176,4 -76,4
2165 1500 11,7 1348,9 151,1
1983 1075 9,5 1271,2 -196,2
1984 1155 9,5 1271,6 -116,6
1998 1140 8,8 1277,6 -137,6
1580 1080 9,3 1099,2 -19,2
1390 1110 8,6 1018,1 91,9
1396 1140 7,7 1020,6 119,4
2435 1370 10,8 1464,1 -94,1
1242 940 6,6 954,9 -14,9
2972 1400 11,7 1693,4 -293,4
2958 1550 11,9 1687,4 -137,4
2497 1330 10,8 1490,6 -160,6
1998 1300 7,6 1277,6 22,4
2496 1670 11,3 1490,2 179,8
1998 1560 10,8 1277,6 282,4
1997 1240 9,2 1277,2 -37,2
1984 1635 11,6 1271,6 363,4
2438 1800 12,8 1465,4 334,6
2473 1570 12,7 1480,4 89,6

5.3.Coefficients standardisés
Les équations de régression décrivent la relation entre la VD et un groupe de VI, et leurs coefficients
de régression non standardisés mesurent les effets des variables indépendantes sur la variable
dépendante. Cependant, la taille du coefficient de régression dépend des unités de mesure des
variables. Dans ce cas, c’est difficile de savoir laquelle des variables est la plus importante. On ne peut
Page | 12
pas comparer directement les coefficients de régression des variables car ils dépendent de l’échelle de
mesure des variables prédictrices et de la variable à expliquer.
Il est clair qu’il nous faut une bonne mesure des effets des VI qui tienne compte des différences
d’unités de mesure tout en contrôlant les effets des autres variables indépendantes.
Cette statistique existe et s’appelle justement les coefficients de régression standardisés, ou de façon
plus simple, les coefficients Bêta.
Revenons à la régression multiple expliquant la consommation à partir du poids et de la cylindrée
(tableau ci-dessus). Nous avons ‫ = ܇‬૙, ૙૙૝ × ‫ ܛ܌ܑܗܘ‬+ ૙, ૙૙૚ × ‫ ܍܍ܚ܌ܖܑܔܡ܋‬+ ૚, ૝૚ૠ૞૞
Les coefficients indiquent l'impact des exogènes en contrôlant les autres variables. Il reste néanmoins
une question clé : quelle est la variable qui a le plus d'influence sur la consommation, le poids ou la
cylindrée ?
Les variations d'une unité de poids et d'une unité de cylindrée ne représentent pas la même chose, elles
ne sont pas opposables. Pour les rendre comparables, nous devons standardiser les coefficients et
raisonner en termes d'écarts-type. Nous obtiendrions une lecture du type : lorsque le poids (la
cylindrée) varie de 1 écart-type, la consommation varie de a1 (a2) écarts-type.
 Régression sur données centrées et réduites
Une technique simple permettant d'obtenir les coefficients standardisés (Bêtas) consiste à centrer et
réduire toutes les variables (exogènes et endogène) et à lancer la régression sur les données
transformées. Nous avons réalisé cette opération sur notre fichier. Les étapes de calcules de ces
coefficients se présentent comme suit :

- Etape 1 : Soient yത, xത୨ et s୷, s୶ౠ respectivement les moyennes et les écart-type de la variable

ଢ଼ି୷ തౠ
ଡ଼ౠି୶
dépendante et les variables indépendantes, on transforme ces dernières comme suit : ; ;
s౯ s౮

- Etape 2 : le modèle retient dans ce cas des variables centrées réduites. On estime les paramètres de
la régression linéaire multiple par la méthode des moindres carrés ordinaires. Les coefficients obtenus
s’appelles coefficients standardisés « bêta ».
Le tableau suivant illustre cette méthode de calcul de ces coefficients pour la consommation des
véhicules.
Ycr = 0,6128 x poidscr + 0,3639 x cylindréecr + 0,0000
Les variables étant centrées, la constante est nulle. Nous pouvons lire les résultats en termes d'écarts-
type et comparer les coefficients. Lorsque le poids (respectivement la cylindrée) augmente de 1 écart-
type, la consommation augmente de 0,6128 fois (respectivement 0,3639) son écart-type. Maintenant,
nous pouvons dire que le poids pèse, comparativement, plus sur la consommation que la cylindrée.
Ces coefficients standardisés sont souvent directement fournis par les logiciels de statistique pour
indiquer l'importance relative des variables (Coefficients standardisés –Bêta- pour SPSS).

Page | 13
Xj Y Rég. sur données originelles

Cylindrée Poids Consommation Cylindrée Poids Consommation DROITEREG


846 650 5,7 -1,544 -1,770 -1,512 Poids Cylindree Constante
993 790 5,8 -1,309 -1,317 -1,467 0,00443 0,00130 1,41755
899 730 6,1 -1,459 -1,511 -1,332
1390 955 6,5 -0,672 -0,783 -1,153 Rég. sur Centrées. Réduites
1195 895 6,8 -0,985 -0,977 -1,019 DROITEREG
658 740 6,8 -1,846 -1,479 -1,019 Poids Cylindree Constante
1331 1010 7,1 -0,767 -0,605 -0,885 0,6128 0,3639 0,000
1597 1080 7,4 -0,340 -0,379 -0,750
1761 1100 9,0 -0,077 -0,314 -0,034 Coef. Corrigés par les écarts-type
2165 1500 11,7 0,571 0,981 1,176 Coéfficients "Bêtas"
1983 1075 9,5 0,279 -0,395 0,190 Poids Cylindree Constante
1984 1155 9,5 0,280 -0,136 0,190 0,6128 0,3639
1998 1140 8,8 0,303 -0,184 -0,123
1580 1080 9,3 -0,367 -0,379 0,101
1390 1110 8,6 -0,672 -0,281 -0,213
1396 1140 7,7 -0,662 -0,184 -0,616
2435 1370 10,8 1,004 0,560 0,773
1242 940 6,6 -0,909 -0,832 -1,108
2972 1400 11,7 1,865 0,657 1,176
2958 1550 11,9 1,842 1,143 1,265
2497 1330 10,8 1,103 0,431 0,773
1998 1300 7,6 0,303 0,333 -0,661
2496 1670 11,3 1,101 1,531 0,996
1998 1560 10,8 0,303 1,175 0,773
1997 1240 9,2 0,301 0,139 0,056
1984 1635 11,6 0,280 1,418 1,131
2438 1800 12,8 1,008 1,952 1,668
2473 1570 12,7 1,065 1,207 1,623
E-T 623,661 308,993 2,233 Moy - 0 - 0 0
E-T 1 1 1

Les mêmes résultats sont obtenus en utilisant le logiciel SPSS (tableau suivant) :

 Correction des coefficients de la régression usuelle


Si nous avons la réponse à la question, la procédure est un peu lourde quand même. Elle devient
contraignante si nous avons à manipuler un fichier volumineux. Et, en réalité, elle n'est pas nécessaire.
Il est possible de corriger les coefficients de la régression sur les données originelles avec les écarts-
type des variables pour obtenir les coefficients standardisés. Pour la variable Xj, dont le coefficient
s౮ౠ
estimé est initialement aො୨, nous obtenons le coefficient standardisé b෠୨ avec : b෠୨ = aො୨x s౯

s୮୭୧ୢୱ 308,993
b෠୮୭୧ୢୱ = aො୨x = 0,00443 x = 0,6128
sୡ୭୬ୱ୭୫ ୫ ୟ୲୧୭୬ 2,233

C'est ainsi que pour la variable poids, nous retrouvons le coefficient obtenu sur les données centrées et
réduites. Il en de même pour la variable cylindrée.
sୡ୷୪୧୬ୢ୰±ୣ 623,661
b෠ୡ୷୪୧୬ୢ୰±ୣ = aො୨x = 0,00130 x = 0,3639
sୡ୭୬ୱ୭୫ ୫ ୟ୲୧୭୬ 2,233

6. Propriétés des estimateurs


Les propriétés d'un estimateur peuvent être étudiées en répondant aux deux questions suivantes : est-il
sans biais ? Est-il convergent ?
Nous allons directement à l'essentiel dans cette partie. Le détail de la démarche a déjà été exposé dans
le cadre de la régression simple (chapitre 1).
6.1. Biais
Page | 14
L'estimateur aො est sans biais si E(aො) = a. Dans quelles conditions cette propriété est respectée ?
Pour répondre à cette question, développons aො:

En passant à l'espérance mathématique :

Or, on sait que X est non aléatoire, nous avons E[(X′X)−1X′ε] = (X′X)−1X′E(ε) ; de plus E(ε) = 0 par
hypothèse. Nous avons bien :

L'estimateur des MCO est sans biais sous les deux hypothèses suivantes (§ 3.2) : (H1) X est non
aléatoire, les exogènes sont mesurées sans erreur ; (H2) la moyenne de l'erreur est nulle E(ε) = 0.
6.2.Variance-convergence
Soit Wୟො , de dimension (p+1, p+1) la matrice de variance covariance des coefficients c'est-à-dire

La matrice est symétrique, sur la diagonale principale nous observons les variances des coefficients
estimés. Comment obtenir cette matrice ?
Elle est définie de la manière suivante :

Or

Ainsi,

En passant à l'espérance mathématique, et sachant que les X sont non-stochastiques (H1),

La quantité E[εε′], de dimension (n, n), représente la matrice de variance covariance des erreurs, en
voici le détail :

Page | 15
Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothèse (§ 3.2), (H3) la variance de l'erreur est constante V (εi) = E(εଶ୧) = sଶe et, (H4)
leurs covariances nulles COV(εi, εi′) = 0. De fait,

Où I est la matrice unité de dimension (n, n).


La matrice de variance covariance des estimateurs s'en retrouve simplifiée. En effet,

Nous trouvons ainsi la matrice de variance covariance des coefficients estimés.

On montre qu'une condition nécessaire et suffisante pour que aො soit un estimateur convergent de a est
que les variables exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'infini, autrement
dit que l'hypothèse (H8) reste valable lorsque n tend vers l'infini.
7. Estimation des variances
7.1. Estimation de la variance de l’erreur
L'expression de la variance covariance des coefficients estimés, ci-dessus, est très jolie mais
inutilisable tant que l'on ne dispose pas d'une estimation de la variance de l'erreur sଶe .
Par analogie avec la régression simple, nous la comprenons comme le rapport entre la somme des
carrés des résidus (SCR) et le nombre de degrés de liberté de la régression, soit le nombre
d'observations moins le nombre de paramètres estimés : [n − (p + 1) = n − p − 1]. Ainsi, nous écrirons

Où εො୧ est le résidu de la régression pour l'observation n° i.


7.2. Estimation de la matrice de variance-covariance des coefficients
Disposant maintenant d'une estimation de la variance de l'erreur, nous pouvons produire une
estimation de la matrice de variance covariance des coefficients estimés.

Sur la diagonale principale de cette matrice, nous disposons de l'estimation de la variance des
coefficients et, en passant à la racine carrée, de leur écart-type. Leur rôle sera très important dans
l'inférence statistique.
7.3.Détails des calculs pour les données "Consommation des véhicules"
Page | 16
Nous reprenons notre exemple des véhicules. Nous avons reconstruit la feuille de calcul de manière à
obtenir les éléments nécessaires à l'estimation de la variance de l'erreur et de la matrice de variance
covariance des coefficients estimés (tableau suivant).
Nous reprenons des résultats précédents la matrice (X′X)−1 et les coefficients estimés aො .
Nous formons alors :
- La valeur prédite de l'endogène yො୧ pour chaque individu (ex. yොଵ = 1,07020 + 0,0005 × 846 + 0,0183
× 32 + 0,0042 × 650 = 5,4523).
- Le résidu eො୧= yi − yො୧ (ex. eොଵ = y1 − yොଵ = 5,7 – 5,4523 = 0,2477.

Estimation de la variance de l’erreur et des coefficients estimés


X Y
Constante Cylindrée Puissance Poids Consommation
1 846 32 650 5,7 5,4523 0,2477 0,0613 Constante 1,7020 0,6321
1 993 39 790 5,8 6,2447 -0,4447 0,1978 cylindree 0,0005 0,0008
1 899 29 730 6,1 5,7621 0,3379 0,1142 puissance 0,0183 0,0142
1 1390 44 955 6,5 7,2296 -0,7296 0,5324 poids 0,0042 0,0009
1 1195 33 895 6,8 6,6789 0,1211 0,0147 n 28
1 658 32 740 6,8 5,7402 1,0598 1,1233 p 3
1 1331 55 1010 7,1 7,6339 -0,5339 0,2850 ddl 24
1 1597 74 1080 7,4 8,4079 -1,0079 1,0159 SCR 13,5807
1 1761 74 1100 9 8,5734 0,4266 0,1820
1 2165 101 1500 11,7 10,9571 0,7429 0,5519 0,5659
1 1983 85 1075 9,5 8,7780 0,7220 0,5212 0,7522
1 1984 85 1155 9,5 9,1168 0,3832 0,1468 (X'X)-1
1 1998 89 1140 8,8 9,1333 -0,3333 0,1111 0,7059860 -0,0001471 0,0055863 -0,0007004
1 1580 65 1080 9,3 8,2353 1,0647 1,1336 -0,0001471 0,0000011 -0,0000159 -0,0000005
1 1390 54 1110 8,6 8,0676 0,5324 0,2834 0,0055863 -0,0000159 0,0003584 -0,0000039
1 1396 66 1140 7,7 8,4164 -0,7164 0,5133 -0,0007004 -0,0000005 -0,0000039 0,0000015
1 2435 106 1370 10,8 10,6319 0,1681 0,0283
1 1242 55 940 6,6 7,2939 -0,6939 0,4815 0,3994902 -0,0000832 0,0031611 -0,0003963
1 2972 107 1400 11,7 11,0420 0,6580 0,4329 -0,0000832 0,0000006 -0,0000090 -0,0000003
1 2958 150 1550 11,9 12,4542 -0,5542 0,3072 0,0031611 -0,0000090 0,0002028 -0,0000022
1 2497 122 1330 10,8 10,7853 0,0147 0,0002 -0,0003963 -0,0000003 -0,0000022 0,0000009
1 1998 66 1300 7,6 9,3902 -1,7902 3,2047
1 2496 125 1670 11,3 12,2774 -0,9774 0,9553
1 1998 89 1560 10,8 10,9094 -0,1094 0,0120
1 1997 92 1240 9,2 9,6105 -0,4105 0,1685
1 1984 85 1635 11,6 11,1467 0,4533 0,2055
1 2438 97 1800 12,8 12,2875 0,5125 0,2626
1 2473 125 1570 12,7 11,8432 0,8568 0,7342

- Que nous passons au carré eොଶ୧ (ex. eොଵଶ = (0,2477)2 = 0,0613).


- Nous sommons pour obtenir la SCR (dans notre exemple, SCR = 0,0613 + 0,1978 + · · · = 135807).
- L'estimation de la variance de l'erreur s'écrit :

- L'estimation de son écart-type est :

- par la suite, on obtient l'estimation de la matrice de variance covariance des coefficients :

Elle est symétrique parce que la covariance est un opérateur symétrique.


Enfin, nous disposons sur la diagonale de cette matrice l'estimation de la variance des coefficients.
Dans notre exemple :

Page | 17
0,3994902

0,0000006
0,0002028

0,0000009

En passant à la racine carrée, nous avons l'estimation de l'écart-type.

8. Tests de significativité
8.1. Tableau d'analyse de variance et coefficient de détermination
La décomposition de la variabilité de Y (SCT) en variabilité expliquée par le modèle (SCE) et
variabilité résiduelle (SCR) reste valable. Nous pouvons construire une nouvelle version du tableau
d'analyse de variance qui tient compte des nouvelles valeurs des degrés de liberté puisque nous
estimons (p+1) paramètres maintenant.
Tableau d’analyse de la variance pour la régression linéaire multiple

La part de la de variance de Y expliquée par le modèle est toujours traduit par le coefficient de
détermination.

Nous avons 0 ≤ R2 ≤ 1, plus ce coefficient tend vers 1 meilleur sera le modèle. Lorsqu'il est proche de
0, cela veut dire que les exogènes Xj n'expliquent en rien les valeurs prises par Y. Nous retiendrons
cette idée dans le test de significativité globale du modèle.
8.1.1. R² corrigé ou ajusté
2
Le R est un indicateur de qualité, mais il présente un défaut: plus nous augmentons le nombre de
variables explicatives, même non pertinentes, n'ayant aucun rapport avec le problème que l'on cherche
à résoudre, plus grande sera sa valeur, mécaniquement.
A l'extrême, si nous multiplions le nombre d'explicatives jusqu'à ce que (p+1) soit égal à n, nous
obtiendrions un R2 = 1.
Pour montrer l’inconvénient de l’utilisation de R² dans la comparaison des modèles, nous allons
analyser un exemple. Dans cet exemple, nous souhaitons expliquer la teneur en oxyde de carbone
(CO) des cigarettes à partir de leur composition en goudron (GOUDRON), en nicotine (NICOTINE) et
leur poids (POIDS). Nous disposons de n = 24 observations. Nous réalisons la régression à l'aide de

Page | 18
DROITEREG, nous obtenons un R2 = 0,93498 (tableau de calculs détaillés). Le degré de liberté est :
ddl = 24 − 3 − 1 = 20.
Tableau des calculs - Données cigarettes -
Comparaison de modèles imbriqués via R² et R²-ajusté-
X Y
ALEA
GOUDRON NICOTINE POIDS CO DROITEREG(GOUDRON, NICOTINE, POIDS) (1)
14,1 0,86 0,9853 0,86804 13,6 POIDS NICOTINE GOUDRON Constante
16 1,06 1,0938 0,53437 16,6 2,07934 0,51847 0,88758 -0,55170
8 0,67 0,9280 0,75873 10,2 3,17842 3,25233 0,19548 2,97128
4,1 0,4 0,9462 0,16260 5,4 R² 0,93498 1,15983 #N/A #N/A
15 1,04 0,8885 0,90932 15 F 95,85850 20,00000 #N/A #N/A
8,8 0,76 1,0267 0,37099 9 SCE 386,84565 26,90394 #N/A #N/A
12,4 0,95 0,9225 0,22998 12,3 SCT 413,74958 SCR
16,6 1,12 0,9372 0,09987 16,3 CMR 1,34519686
14,9 1,02 0,8858 0,16451 15,4 CMT 17,9891123
13,7 1,01 0,9643 0,54952 13 DROITEREG(GOUDRON, NICOTINE, POIDS, ALEA) (2)
15,1 0,9 0,9316 0,84421 14,4 POIDS NICOTINE GOUDRON Constante
7,8 0,57 0,9705 0,13217 10 0,06820 2,11438 0,55708 0,88429
11,4 0,78 1,1240 0,43316 10,2 0,91249 3,29404 3,37609 0,20530
9 0,74 0,8517 0,62589 9,5 R² 0,93499 1,18978 #N/A #N/A
1 0,13 0,7851 0,44693 1,5 F 68,32065 19,00000 #N/A #N/A
17 1,26 0,9186 0,68114 18,5 SCE 386,85355 26,89603 #N/A #N/A
12,8 1,08 1,0395 0,57355 12,6 SCT 413,74958 SCR
15,8 0,96 0,9573 0,77212 17,5 CMR 1,41558053
4,5 0,42 0,9106 0,84903 4,9 CMT 17,239566
14,5 1,01 1,0070 0,68158 15,9
7,3 0,61 0,9806 0,00994 8,5 R² Ajusté (1) 0,92522
8,6 0,69 0,9693 0,21606 10,6 R² Ajusté (2) 0,91788769
15,2 1,02 0,9496 0,11609 13,9
12 0,82 1,1184 0,42401 14,9

Ajoutons la colonne ALEA dans le tableau de données. Elle a été générée aléatoirement avec la
fonction ALEA() d'Excel [loi uniforme U(0,1)]. Nous effectuons de nouveau la régression en intégrant
ALEA parmi les explicatives. Le degré de liberté est diminué, il est passé à ddl = 19, témoin que la
variable supplémentaire a bien été prise en compte. Malgré que la variable n'ait aucun rapport avec le
problème que nous traitons, nous découvrons que le R² a été augmenté, passant à R² = 0,9356. ALEA
permettrait donc d'expliquer la teneur en carbone des cigarettes ?
Clairement le R² en tant que tel n'est pas un bon outil pour évaluer le rôle de variables supplémentaires
lors de la comparaison de modèles imbriqués. En augmentant le nombre d'explicatives, nous
augmentons de manière mécanique la valeur du R² mais, dans le même temps, nous diminuons le
degré de liberté. Il faudrait donc intégrer cette dernière notion pour contrecarrer l'évolution du R². C'est
exactement ce que fait le R²-ajusté (ou R²-corrigé).
Le R²-ajusté est défini de la manière suivante :

Il s'agit donc d'un R² corrigé par les degrés de liberté, il peut s'exprimer en fonction du R² d'ailleurs :

Attention, la lecture en termes de part de variance expliquée n'est plus possible dans ce cas. De même,
ഥ² peut prendre des valeurs négatives.
le R

Page | 19
Le R²-ajusté en tant que tel n'est pas d'une grande utilité. Son principal avantage est qu'il permet de
comparer des modèles imbriqués. Si nous prenons notre exemple des cigarettes (Figure 10.1), nous
constatons que le R²-ajusté du second modèle est plus faible avec R ഥଶ = 0,921918 < R ഥଵ = 0,92522
indiquant clairement que l'adjonction de ALEA parmi les exogènes n'amène pas d'information
pertinente supplémentaire dans l'explication de Y.
8.1.2. Coefficient de corrélation linéaire multiple
A l'instar de la régression linéaire simple, le coefficient de corrélation linéaire multiple est égal à la
racine carrée du coefficient de détermination.

R = ඥ R²
En revanche, à la différence de la régression simple, il ne correspond plus à la corrélation entre
l'endogène et l'exogène, tout simplement parce que nous avons plusieurs exogènes dans notre équation.
Dans le cas de la régression linéaire multiple, on montre que le coefficient de corrélation linéaire
multiple correspond à la corrélation entre les valeurs observées et les valeurs prédites de l'endogène,
c’est dire : r୷,୷ෝ = R

Cela suggère de construire le graphique nuage de points confrontant yi et yො୧ pour évaluer la qualité de
la régression. Si le modèle est parfait, les points seraient alignés sur la première bissectrice.
8.1.3. Application aux données "Consommation des véhicules"
Reprenons les données du tableau de l’analyse de variance, trouvées par la fonction DROITEREG, et
traçons le graphique Y observé et Y calculé.
X Y
Cylindrée Puissance Poids Consommation DROITEREG
846 32 650 5,7 5,45 constante 1,7020 0,6321 poids puissance cylindree constante
993 39 790 5,8 6,24 cylindree 0,0005 0,0008 0,0042 0,0183 0,0005 1,7020
899 29 730 6,1 5,76 puissance 0,0183 0,0142 0,00094 0,01424 0,00078 0,63205
1390 44 955 6,5 7,23 poids 0,0042 0,0009 R² 0,89911 0,75224 #N/A #N/A
1195 33 895 6,8 6,68 F 71,29651 24,00000 #N/A #N/A
658 32 740 6,8 5,74 SCE 121,03183 13,58067 #N/A #N/A
1331 55 1010 7,1 7,63 SCR
1597 74 1080 7,4 8,41 Tableau d'analyse de variance
1761 74 1100 9,0 8,57 Source SCR ddl CM
2165 101 1500 11,7 10,96 Expliquée 121,03183 3 40,3439
1983 85 1075 9,5 8,78 Résiduelle 13,58067 24 0,5659
1984 85 1155 9,5 9,12 Totale 134,61250 27 4,9856
1998 89 1140 8,8 9,13
1580 65 1080 9,3 8,24 R² 0,89911
1390 54 1110 8,6 8,07 R² ajusté 0,88650
1396 66 1140 7,7 8,42 R² ajusté 0,94822
2435 106 1370 10,8 10,63 r(y,y^) 0,948
1242 55 940 6,6 7,29
2972 107 1400 11,7 11,04
2958 150 1550 11,9 12,45
2497 122 1330 10,8 10,79
1998 66 1300 7,6 9,39
2496 125 1670 11,3 12,28
1998 89 1560 10,8 10,91
1997 92 1240 9,2 9,61
1984 85 1635 11,6 11,15
2438 97 1800 12,8 12,29
2473 125 1570 12,7 11,84

Nous calculons les ratios supplémentaires :


ഥ² = 1 − ୬ିଵ (1 − Rଶ) = 1 − ଶ଻ (1 − 0,89911) = 0,88650.
- Le R² -ajusté, R ୬ି୮ିଵ ଶସ

- Le coefficient de corrélation linéaire multiple, R = ඥ R² = √0,89911 = 0,94822


- Nous vérifions qu’il est égal au coefficient de corrélation linéaire entre l’endogène observée Y et
l’endogène prédite par le modèle ෡ Y, r୷,୷ෝ = 0,94822.

Page | 20
Un R² assez élevé (avoisine la valeur 1) laisse à penser que le modèle est plutôt bon. En construisant le
෡ , nous constatons effectivement que les points sont plutôt bien alignés sur la
graphique croisant Y et Y
première bissectrice.
Y observé et Y calculé par le modèle
(consommation des véhicules)

8.1.4. Test de signification globale de la régression


 Formulation
Le test de significativité globale consiste à vérifier si le modèle, pris dans sa globalité, est pertinent.
L'hypothèse nulle correspond à la situation où aucune des exogènes n'emmène de l'information utile
dans l'explication de Y c’est à dire le modèle ne sert à rien. Le test s'écrit :

Une autre manière d’exprimer d'exprimer le test consiste à poser la question : est-ce que le R2 est
significativement supérieur à 0 ?

 Statistique de test et région critique


La statistique de test est extraite du tableau d'analyse de variance, elle s'écrit :

Nous pouvons aussi l'exprimer à partir du coefficient de détermination :

Sous H0, F suit une loi de Fisher F(p, n−p−1). Au risque α, la région critique (rejet de H0) du test
correspond aux valeurs exceptionnellement grandes de F :

 Applications aux données sur la consommation des véhicules


La statistique de test est extraite du tableau d'analyse de variance, elle s'écrit :
A partir du R², nous obtenons :
Page | 21
En passant par le tableau de l’analyse de variance, nous aurions :

Par ailleurs, on constate que cette valeur est fournie directement par DROITEREG (tableau des calculs
ci-dessus).
Nous comparons la valeur de F avec le quantile d’ordre 0,95 pour un test à 5% (3,24, à savoir1 :
F଴,ଽହ(3, 24) = 3,00879.
Nous constatons que nous sommes dans la région critique. Au risque 5%, nous concluons que le
modèle est globalement significatif : la cylindre, la puissance et poids, pris dans leur globalité,
emmènent de l’information pertinente sur la consommation.
En passant par le calcul de la probabilité critique, nous aurions obtenu
'=LOI.F(71,2965;3 ;24)=0,000000000004, largement inférieure à  = 5%. La conclusion est
cohérente.
8.2. Test de signification d'un coefficient
8.2.1. Définition du test
Après avoir établi la significativité globale de la régression, nous devons évaluer la pertinence des
variables prises individuellement. La démarche est analogue à celle définie pour la régression simple.
Toujours parce que e୧ ≈ N(0, sଶe ), on montre que :
ොౠିୟౠ

≈ t(n − p − 1)
sమ

౗ౠ

A partir de là, nous pouvons définir les tests de significativité des coefficients et les intervalles de
confiance.
Le test consiste à opposer :

Le retrait de la variable Xj de la régression est possible si l'hypothèse nulle est vraie. Par rapport aux
autres variables, la contribution de Xj dans l'explication de Y n'est pas significative. Toutefois, des
problèmes de colinéarité peuvent parfois perturber les résultats. Nous en reparlerons lors du traitement
du fichier "Consommation de véhicules".
La statistique de test s'écrit :

Et la région critique pour un risque α, le test étant bilatéral :

8.2.2. Application sur la consommation des véhicules


La fonction DROITEREG nous donne à la fois aො୨ et s
ෝ୨ . Nous sommes armés pour définir les tests de
significativité (tableau suivant) :
1
INVERSE.LOI.F(0,05 ;3 ;24) dans EXCEL.
Page | 22
DROITEREG
poids puissance cylindree Constante
0,00423 0,01825 0,00049 1,7020
0,00094 0,01424 0,00078 0,63205
R² 0,89911 0,75224 #N/A #N/A
F 71,29651 24,00000 #N/A #N/A
SCE 121,03183 13,58067 #N/A #N/A
SCR

Test de significativité des coefficients


t-calculé 4,51838 1,28161 0,63304 2,6929
ddl 24 24 24 24

t-théorique 2,06390 2,06390 2,06390 2,0639

p-value 0,00014 0,21222 0,53269 0,0127

Dans le tableau ci-dessus, la statistique et les p-values de test ont été calculées pour chaque variable :

Pour un risque α = 5%, le seuil critique est égal à t1-5%/2(24) = LOI.STUDENT.INVERSE(5% ;24)= 2,06390.
Nous constatons que seul le coefficient a3 associé à (X3 - Poids) est significatif, puisque หt ୟොయ ห= 4,51838|
> t0,975 = 2,06390.
Nous constatons que ni « cylindrée », ni « puissance » en revanche ne semblent par expliquer
significativement la consommation des véhicules. Ce résultat parait étrange pour les spécialistes de ce
domaine. Cet aspect s’explique simplement par la forte corrélation entre les variables cylindrée et
puissance. En effet, le coefficient de corrélation entre ces deux variables est égal à 0,94755. Les deux
variables se neutralisent dans la régression. C’est le problème de colinéarité. Cet aspect sera développé
dans la suite de ce support.
9. Inférence sur les coefficients
9.1. Intervalle de confiance
La distribution de aො୨ trouvé ci-dessus est valable quel que soit le voisinage. Nous pouvons définir
facilement un intervalle de confiance des coefficients au niveau de confiance (1-) avec :

Le tableau suivant donne cet intervalle pour les variables explicatives en utilisant la fonction
DROITEREG du logiciel EXCEL et en procédant à des calculs intermédiaires.

Page | 23
Intervalle de confiance des coefficients
DROITEREG
poids puissance cylindree Constante
0,00423 0,01825 0,00049 1,7020
0,00094 0,01424 0,00078 0,63205
R² 0,89911 0,75224 #N/A #N/A
F 71,29651 24,00000 #N/A #N/A
SCE 121,03183 13,58067 #N/A #N/A
SCR
t_(1-alpha/2) 2,06390 2,06390 2,06390 2,06390

b.basse 0,00230 -0,01114 -0,00112 0,39756


b.haute 0,00616 0,04764 0,00210 3,00654

10. Prédiction ponctuelle et par intervalle


10.1. Prédiction ponctuelle
Comme pour la régression linéaire simple, il s'agit, pour un nouvel individu i∗, de fournir une
prédiction de la valeur de l'endogène yො୧∗ à partir de sa description c’est à dire les valeurs prises par les
exogènes (xi∗,1, . . . , xi∗,p).
La prédiction ponctuelle est obtenue en appliquant les coefficients estimés sur la description de
l'individu à traiter.

L'expression est plus facile à manipuler en utilisant la notation matricielle :

Où Xi* est un vecteur ligne de dimension (1, p+1) : Xi* = (1 ; x Xi*,1, · · · , Xi*,p). La première valeur 1
permet de prendre en compte la constante aො଴. Le résultat est bien un scalaire puisque aො est de
dimension (p + 1, 1).
On peut montre que la prédiction ponctuelle est sans biais. Pour ce faire, intéressons nous à l'erreur de
prédiction eො୧∗ .

Par conséquent, la prédiction ponctuelle est sans biais :

10.2. Prédiction par intervalle


Pour construire l'intervalle de prédiction (la fourchette), nous devons connaître la variance estimée de
l'erreur de prédiction et la distribution de cette dernière. L'esprit de l'approche a déjà été développée
lors de la présentation de la régression simple. Nous donnons directement les résultats.
Concernant la variance estimée de l'erreur de prédiction, nous avons :

Page | 24
L'analogie avec la régression simple est totale. Le ratio erreur/écart-type est distribué selon une loi de
Student à (n-p-1) degrés de liberté :

≈ t(n-p-1)

On en déduit l'intervalle de confiance au niveau de confiance (1 − α) :

10.3. Application sur le modèle « consommation des véhicules »


Nous souhaitons prédire la consommation d'un véhicule présentant les caractéristiques suivantes :
cylindrée = 1984 cm3, puissance = 85 ch et poids = 1155 kg.
Le tableau suivant résume l’ensemble des calculs. Nous obtenons la prédiction en appliquant les
coefficients estimés du modèle sur cette configuration.

const cylindrée puissance Poids


1 1984 85 1155

constante 1,70205 p.ponctuelle


cylindrée 0,00049 9,12
puissance 0,01825
poids 0,00423

(X'X)^-1 constante cylindrée puissance poids


constante 0,706 0,000 0,006 -0,001
cylindrée 0,000 0,000 0,000 0,000
puissance 0,006 0,000 0,000 0,000
poids -0,001 0,000 0,000 0,000

Levier 0,05910

0,56586

0,59931

t_0.95 (24) 2,06390

b.basse 7,52
b.haute 10,71

Page | 25
11. Régressions avec variables auxiliaires binaires et factices
Les corrélations et régressions multiples peuvent inclure des variables indépendantes dichotomiques,
par exemple sexe des individus. Ils sont interpréter de la même façon que nous le faisons pour toute
autre variable.
L’inclusion de variables indépendantes dichotomiques, même nominales, dans les analyses de
régression et corrélation est assez facile. La méthode est exactement la même que pour les autres
variables. Mais les variables nominales qui ont plus de deux valeurs sont plus compliquées à
manipuler. Elles doivent être transformées en variables factices avant d’être introduites dans le modèle
de régression. Une variable factice n’a que deux valeurs, 0 et 1 : 0 indiquant l’absence d’un attribut et
1 en indiquant la présence. Voici comment procéder par exemple pour la variable « état matrimonial ».
les modalités et leurs étiquettes sont :
1 Célibataire
2 Marié(e)
3 Veuf(ve)
4 Divorcé(e)
Nous créons quatre variables factices qui contiennent l’information concernant l’état matrimonial
du répondant :
Variables factices Code
1 si célibataires
Emat_célibataire
0 autrement
1 si mariés(e)
Emat_marié
0 autrement
1 si veufs(ves)
Emat_veuf
0 autrement
1 si divorcés(es)
Emat_divorcé
0 autrement

Les célibataires seront codés 1 pour la variable Emat_Célibataire et 0 pour les autres variables
factices. Les mariés(e) seront codés 1 seulement pour la variable Emat_marié et 0 pour les autres
variables. Les veufs(ves) seront codés 1 seulement pour la variable Emat_veuf et 0 pour les autres
variables. Les divorcés(ées) seront codés 1 seulement pour la variable Emat_divorcé et 0 pour les
autres variables.
12. Points aberrants et points influents
12.1. Détection
Le diagnostic au regard des observations vise à déterminer si certaines observations présentent des
valeurs extrêmes. Fondamentalement, on peut s’y intéresser selon trois aspects. Le premier est associé
aux valeurs extrêmes de la différence entre les valeurs réelles et prédites de la variable dépendante : il
s’agit alors d’indices de distance. Le second implique les variables indépendantes et a pour objectif de
vérifier si l’ensemble des variables indépendantes s’éloigne de manière importante de la moyenne de
chacune d’elle : il s’agit maintenant de la force de levier. Enfin, on peut combiner ces deux aspects :
on parlera alors d’un indice d’influence de chacune des observations.
En régression linéaire, il existe des méthodes qui permettent de détecter les valeurs aberrantes, c’est à
dire les données qui s’éloignent fortement de la droite de régression, et les valeurs influentes, c’est à
dire celles qui apportent une forte contribution dans le calcul de la droite de régression. Ces méthodes
sont souvent réunies sous le nom de « diagnostics ».
Page | 26
L'objectif de la détection des points aberrants et influents est de repérer des points qui jouent un rôle
anormal dans la régression, jusqu'à en fausser les résultats. Il faut s'entendre sur le terme anormal ce
qui suit :
- L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de détection
univariée car nous étudions les variables individuellement.
- Une combinaison de valeurs chez les exogènes est inhabituelle.
- L'observation est très mal reconstituée par la régression, n'obéissant pas de manière ostensible à la
relation modélisée entre les exogènes et l'endogène. Dans ce cas, le résidu observé est trop élevé.
- L'observation pèse de manière exagérée dans la régression, au point que les résultats obtenus
(prédiction, coefficient, ...) sont très différents selon que nous l'intégrons ou non dans la régression.
Pour illustrer cet aspect, nous utiliserons les données relatives à la consommation des véhicules mais
avec p= 4 variables explicatives : le prix, la cylindrée, la puissance et le poids. Nous disposons de
n=31 observations.
12.1.1. Détection univariée
L'outil le plus simple pour se faire une idée de la distribution d'une variable continue est la boîte à
moustaches, dite box-plot. Elle offre une vue synthétique sur plusieurs indicateurs importants : le
premier quartile (Q1), la médiane (Me) et le troisième quartile (Q3). On peut aussi comprendre
visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3 - Q1).
On pense à tort que les extrémités de la boîte correspondent aux valeurs minimales et maximales. En
réalité il s'agit des valeurs minimales et maximales non atypiques. Les seuils désignant les valeurs
aberrantes sont définies par les règles suivantes :
LIF = Qଵ − 1,5 x IQ 

UIF = Qଷ + 1,5 x IQ
où LIF signifie "lower inner fence" et UIF "upper inner fence".
Les points situés au delà de ces limites sont souvent jugées atypiques. Il convient de se pencher
attentivement sur les observations correspondantes.
 Application sur les données « consommation des véhicules »
Pour la variable endogène (Figure suivante), nous détectons immédiatement 2 observations suspectes
qui consomment largement plus que les autres véhicules : la Ferrari 456 GT et la Mercedes S 600.
Figure. Boxplot de la variable endogène "consommation (y)"
2 observations se démarquent

Page | 27
Le résultat de cet exercice sur toutes les variables est donné par le tableau suivant :
Détection univariée des points atypiques pour chaque variable
i Type de véhicule Prix Cylindrée Puissance Poids Y
1 Daihatsu Cuore 11 600 846 32 650 5,7
2 Suzuki Swift 1.0 GLS 12 490 993 39 790 5,8
3 Fiat Panda Mambo L 10 450 899 29 730 6,1
4 VW Polo 1.4 60 17 140 1 390 44 955 6,5
5 Opel Corsa 1.2i Eco 14 825 1 195 33 895 6,8
6 Subaru Vivio 4WD 13 730 658 32 740 6,8
7 Toyota Corolla 19 490 1 331 55 1 010 7,1
8 Ferrari 456 GT 285 000 5 474 325 1 690 21,3
9 Mercedes S 600 183 900 5 987 300 2 250 18,7
10 Maserati Ghibli GT 92 500 2 789 209 1 485 14,5
11 Opel Astra 1.6i 16V 25 000 1 597 74 1 080 7,4
12 Peugeot 306 XS 108 22 350 1 761 74 1 100 9
13 Renault Safrane 2.2. V 36 600 2 165 101 1 500 11,7
14 Seat Ibiza 2.0 GTI 22 500 1 983 85 1 075 9,5
15 VW Golt 2.0 GTI 31 580 1 984 85 1 155 9,5
16 Citroen ZX Volcane 28 750 1 998 89 1 140 8,8
17 Fiat Tempra 1.6 Liberty 22 600 1 580 65 1 080 9,3
18 Fort Escort 1.4i PT 20 300 1 390 54 1 110 8,6
19 Honda Civic Joker 1.4 19 900 1 396 66 1 140 7,7
20 Volvo 850 2.5 39 800 2 435 106 1 370 10,8
21 Ford Fiesta 1.2 Zetec 19 740 1 242 55 940 6,6
22 Hyundai Sonata 3000 38 990 2 972 107 1 400 11,7
23 Lancia K 3.0 LS 50 800 2 958 150 1 550 11,9
24 Mazda Hachtback V 36 200 2 497 122 1 330 10,8
25 Mitsubishi Galant 31 990 1 998 66 1 300 7,6
26 Opel Omega 2.5i V6 47 700 2 496 125 1 670 11,3
27 Peugeot 806 2.0 36 950 1 998 89 1 560 10,8
28 Nissan Primera 2.0 26 950 1 997 92 1 240 9,2
29 Seat Alhambra 2.0 36 400 1 984 85 1 635 11,6
30 Toyota Previa salon 50 900 2 438 97 1 800 12,8
31 Volvo 960 Kombi aut 49 300 2 473 125 1 570 12,7
Q1 19 820,0 1 390,0 55,0 1 042,5 7,3
Q3 39 395,0 2 455,5 106,5 1 525,0 11,7
IQ 19 575,0 1 065,5 51,5 482,5 4,4
LIF - 9 542,5 - 208,3 - 22,3 318,8 0,7
UIF 68 757,5 4 053,8 183,8 2 248,8 18,3

Points suspects fichier CONSO : détection univariée

12.1.2. Détection multivariée sur les exogènes : Force du levier


La détection univariée donne déjà des informations intéressantes. Mais elle présente le défaut de ne
pas tenir compte des interactions entre les variables. Dans cette section, nous étudions un outil capital
pour l'étude des points aberrants et influents : la force du levier.
Son interprétation est relativement simple. Il indique, pour l'observation i, la distance avec le centre de
gravité du nuage de points dans l'espace défini par les exogènes. La prise en compte de la
configuration des points dans l'espace de représentation permet de mieux juger de l'éloignement d'une
observation par rapport aux autres.

Page | 28
Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H, dite « Hat Matrix »
(matrice chapeau), définie de la manière suivante : H = X(X ᇱX)ିଵX ᇱ .
Elle provient en fait de la formule matricielle de base pour calculer les coefficients de régression.
yො = X aො = X(X ᇱX)ିଵX ᇱy = Hy
La matrice H joue un rôle très important dans la régression, elle permet de passer des valeurs
observées de Y vers les valeurs prédites ෡Y, elle permet aussi le passage de l'erreur théorique vers les
ᇱ ିଵ ᇱ
résidus observés eො: eො = [I − X(X X) X ]e = (I − H)e. En effet,
eො = Y − ෡
Y = (Xa + e) − Xaො (1)
Or aො = a + (X’X)ିଵX ᇱe  (1) devient eො = (Xa + e) − X (a + (X’X)ିଵX ᇱe)
Ou encore eො = [I − X(X’X)ିଵX ᇱ]e = (I − H)e ; avec H = X(X ᇱX)ିଵX ᇱ
Les éléments hij de la matrice H présentent un certain nombre de propriétés. Concernant les éléments
de la diagonale principale hii, on parle de levier car il détermine l'influence de l'observation i sur les
estimateurs obtenus par les moindres carrés. Même s'il n'utilise que les informations en provenance des
exogènes Xj, le champ d'action du levier dépasse la détection multivariée des points aberrants. Nous le
retrouverons dans la grande majorité des formules de détection des points aberrants et influents que
nous présenterons dans la suite de ce paragraphe.
Concernant le calcul des éléments de la matrice H(n,n), il est possible d'en calculer uniquement les
éléments diagonaux en utilisant la formule suivante :
h୧୧ = h୧ = X୧(X′X)ିଵ X୧ᇱ ; où xi représente la ième ligne de la matrice X.
Nous avons la propriété suivante : H = H².
 Région critique
On peut démontrer que : 0  hii  1.
En effet, puisque les matrices H et H2 sont égales, nous avons en particulier hii = (H2)ii. Cela s’écrit, en
utilisant la symétrie de H : h୧୧ = ∑୬୨ୀଵ h୧୨h୨୧ = hଶ୧୧+ ∑୧ஷ୨hଶ୧୨  h୧୧(1 − h୧୧) = ∑୧ஷ୨hଶ୧୨

Puisque la quantité ∑୨ஷ୧hଶ୧୨est positive, alors h୧୧(1 − h୧୧) ≥ 0  0  hii  1.

Nous avons aussi ∑୬୧ୀଵ h୧୧ = p + 1 ; où p + 1 est le nombre de coefficients à estimer dans une
régression avec constante.
Nous disposons d'un indicateur. Il nous faut maintenant déterminer à partir de quelle valeur de hi nous
devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique qui
permet d'indiquer qu'un point est "suspect" ?
Les statisticiens considèrent que le levier d'une observation est anormalement élevé quand :
(‫ܘ‬ା૚)
‫܀‬. ۱ ∶ ‫ > ܑܐ‬2 x ‫ ܖ‬.
 Application sur les données « Consommation des véhicules »
L’application des calculs ci-dessus sur les données de la consommation des véhicules est résumée par
(ସାଵ)
le tableau suivant. La valeur de coupure est de 2 ∗ ଷଵ
= 0,323. En utilisant ce critère, on remarque
que 3 points se démarquent immédiatement2, les mêmes que pour la détection univariée : la Ferrari (h8
= 0,869), la Mercedes (h9 = 0,484) et la Maserati (h10 = 0,642).

2
Les raisons semblent évidentes : il s'agit de grosses cylindrées luxueuses, des limousines (Mercedes) ou des véhicules
sportifs (Ferrari, Maserati).

Page | 29
(4 + 1)
‫ =ܔܑܝ܍܁‬2 ∗ = 0,323
31
i Type de véhicule Cste Prix Cylindrée Puissance Poids Y Résidus Levier
8 Ferrari 456 GT 1 285 000 5 474 325 1 690 21,3 0,610 0,869
10 Maserati Ghibli GT 1 92 500 2 789 209 1 485 14,5 0,149 0,642
9 Mercedes S 600 1 183 900 5 987 300 2 250 18,7 -1,374 0,484
30 Toyota Previa salon 1 50 900 2 438 97 1 800 12,8 0,611 0,315
22 Hyundai Sonata 3000 1 38 990 2 972 107 1 400 11,7 1,436 0,275
29 Seat Alhambra 2.0 1 36 400 1 984 85 1 635 11,6 0,466 0,226
27 Peugeot 806 2.0 1 36 950 1 998 89 1 560 10,8 -0,126 0,152
23 Lancia K 3.0 LS 1 50 800 2 958 150 1 550 11,9 -0,311 0,150
6 Subaru Vivio 4WD 1 13 730 658 32 740 6,8 0,514 0,143
1 Daihatsu Cuore 1 11 600 846 32 650 5,7 -0,074 0,140
26 Opel Omega 2.5i V6 1 47 700 2 496 125 1 670 11,3 -0,953 0,128
24 Mazda Hachtback V 1 36 200 2 497 122 1 330 10,8 0,272 0,123
25 Mitsubishi Galant 1 31 990 1 998 66 1 300 7,6 -1,568 0,114
3 Fiat Panda Mambo L 1 10 450 899 29 730 6,1 0,118 0,113
14 Seat Ibiza 2.0 GTI 1 22 500 1 983 85 1 075 9,5 0,980 0,105
5 Opel Corsa 1.2i Eco 1 14 825 1 195 33 895 6,8 0,091 0,101
2 Suzuki Swift 1.0 GLS 1 12 490 993 39 790 5,8 -0,676 0,092
31 Volvo 960 Kombi aut 1 49 300 2 473 125 1 570 12,7 0,819 0,087
4 VW Polo 1.4 60 1 17 140 1 390 44 955 6,5 -0,684 0,081
13 Renault Safrane 2.2. V 1 36 600 2 165 101 1 500 11,7 0,815 0,077
16 Citroen ZX Volcane 1 28 750 1 998 89 1 140 8,8 -0,211 0,062
21 Ford Fiesta 1.2 Zetec 1 19 740 1 242 55 940 6,6 -0,923 0,062
19 Honda Civic Joker 1.4 1 19 900 1 396 66 1 140 7,7 -0,857 0,060
18 Fort Escort 1.4i PT 1 20 300 1 390 54 1 110 8,6 0,457 0,058
20 Volvo 850 2.5 1 39 800 2 435 106 1 370 10,8 0,401 0,058
7 Toyota Corolla 1 19 490 1 331 55 1 010 7,1 -0,665 0,051
28 Nissan Primera 2.0 1 26 950 1 997 92 1 240 9,2 -0,266 0,051
12 Peugeot 306 XS 108 1 22 350 1 761 74 1 100 9 0,543 0,049
15 VW Golt 2.0 GTI 1 31 580 1 984 85 1 155 9,5 0,462 0,048
11 Opel Astra 1.6i 16V 1 25 000 1 597 74 1 080 7,4 -1,110 0,044
17 Fiat Tempra 1.6 Liberty 1 22 600 1 580 65 1 080 9,3 1,055 0,041

12.1.3. Résidus standardisés


Le résidu standardisé s'intéresse à l'importance du résidus observé : e୧ = y୧ − yො୧. S'il est anormalement
élevé, en valeur absolue, le point a été mal reconstitué par le modèle : il s'écarte évidemment de la
relation modélisée entre les exogènes et l'endogène.
Si par hypothèse, la variance de l’erreur sଶe౟ = sଶe est constante, alors sଶeො౟ = sଶe (1 − h୧). Nous
devons donc normaliser le résidu par son écart-type pour rendre les écarts comparables d’une
observation à l’autre.
Lorsque nous travaillons sur un échantillon, nous ne disposons pas de la vraie valeur de sଶe , nous
ෝଶeො౟ = s
estimons la variance des résidus avec : s ෝଶe (1 − h୧) ; où hi est lue dans la matrice H,
∑ eොమ
ෝଶe = ୬ି୮ିଵ
s ౟
est l’estimateur de la variance de l’erreur.

eො౟ eො౟
Le résidu standardisé est défini par le rapport : t ୧ = =
s
ෝeො s
ෝe ඥ(ଵି୦౟)
 Région critique
Pour décider du statut d'un point, il nous faut définir une valeur seuil au delà de laquelle le résidu
standardisé est anormalement élevé (en valeur absolue).

ෝଶeො౟ suit une loi du


Par hypothèse, nous avons e୧ ≈ N(0, se ), nous déduisons que eො୧ ≈ N(0, seො౟). Donc, s
² à (n-p-1) degrés de liberté.
Le résidu standardisé, défini par le rapport entre une loi normale et la racine carré d’une loi du ²
normalisée, suit une loi de student à (n-p-1) degrés de liberté : ti ≈ t (n-p-1).

Page | 30
Nous décidons qu'une observation est particulièrement mal reconstituée par le modèle (aberrante)
lorsque : ‫܀‬. ۱: |t ୧| > tଵି a (n − p − 1), où tଵି a (n − p − 1) est le fractile d’ordre 1-/2 de la loi de
మ మ
Student à (n-p-1) degrés de liberté. Il s’agit bien d’un test bilatéral. Le résidu est suspect s’il est
particulièrement élevé en valeur absolue.
En résumé, un point apparaît comme aberrant avec un résidu standardisé élevé si :
- il est mal prédit c.-à-d. eො୧ est élevé ;
- le point est éloigné des autres dans l'espace des exogènes ; en effet, plus hi est élevé (hi  1), plus (1
- hi)  0, et le rapport est élevé.
 Application sur les données « Consommation des véhicules »
Le tableau suivant donne les résultats de cet exercice pour les données sur la consommation des
véhicules. Il s’agit de comparer la valeur absolue de la colonne avec la valeur seuil t0,975(31-4-1=26) =
2,056 pour un risque à 5%.
Nous pouvons trier, par ordre décroissant, les données de ce tableau selon |ti|. Les véhicules suspects
sont très facilement mis en évidence.
Observations triées selon la valeur
absolue du résidu studentisé
Seuils
0,323 2,056
Résidus
i Type de véhicule Cste Prix Cylindrée Puissance Poids Y Résidus Levier
Studentisés
9 Mercedes S 600 1 183 900 5 987 300 2 250 18,7 -1,374 0,484 2,3416
22 Hyundai Sonata 3000 1 38 990 2 972 107 1 400 11,7 1,436 0,275 2,0632
8 Ferrari 456 GT 1 285 000 5 474 325 1 690 21,3 0,610 0,869 2,0574
25 Mitsubishi Galant 1 31 990 1 998 66 1 300 7,6 -1,568 0,114 2,0375
11 Opel Astra 1.6i 16V 1 25 000 1 597 74 1 080 7,4 -1,110 0,044 1,3896
17 Fiat Tempra 1.6 Liberty 1 22 600 1 580 65 1 080 9,3 1,055 0,041 1,3185
14 Seat Ibiza 2.0 GTI 1 22 500 1 983 85 1 075 9,5 0,980 0,105 1,2672
26 Opel Omega 2.5i V6 1 47 700 2 496 125 1 670 11,3 -0,953 0,128 1,2491
21 Ford Fiesta 1.2 Zetec 1 19 740 1 242 55 940 6,6 -0,923 0,062 1,1666
19 Honda Civic Joker 1.4 1 19 900 1 396 66 1 140 7,7 -0,857 0,060 1,0810
31 Volvo 960 Kombi aut 1 49 300 2 473 125 1 570 12,7 0,819 0,087 1,0479
13 Renault Safrane 2.2. V 1 36 600 2 165 101 1 500 11,7 0,815 0,077 1,0379
30 Toyota Previa salon 1 50 900 2 438 97 1 800 12,8 0,611 0,315 0,9040
4 VW Polo 1.4 60 1 17 140 1 390 44 955 6,5 -0,684 0,081 0,8725
2 Suzuki Swift 1.0 GLS 1 12 490 993 39 790 5,8 -0,676 0,092 0,8679
7 Toyota Corolla 1 19 490 1 331 55 1 010 7,1 -0,665 0,051 0,8354
12 Peugeot 306 XS 108 1 22 350 1 761 74 1 100 9 0,543 0,049 0,6807
6 Subaru Vivio 4WD 1 13 730 658 32 740 6,8 0,514 0,143 0,6794
29 Seat Alhambra 2.0 1 36 400 1 984 85 1 635 11,6 0,466 0,226 0,6487
15 VW Golt 2.0 GTI 1 31 580 1 984 85 1 155 9,5 0,462 0,048 0,5793
18 Fort Escort 1.4i PT 1 20 300 1 390 54 1 110 8,6 0,457 0,058 0,5762
20 Volvo 850 2.5 1 39 800 2 435 106 1 370 10,8 0,401 0,058 0,5049
23 Lancia K 3.0 LS 1 50 800 2 958 150 1 550 11,9 -0,311 0,150 0,4128
24 Mazda Hachtback V 1 36 200 2 497 122 1 330 10,8 0,272 0,123 0,3549
28 Nissan Primera 2.0 1 26 950 1 997 92 1 240 9,2 -0,266 0,051 0,3335
10 Maserati Ghibli GT 1 92 500 2 789 209 1 485 14,5 0,149 0,642 0,3039
16 Citroen ZX Volcane 1 28 750 1 998 89 1 140 8,8 -0,211 0,062 0,2663
27 Peugeot 806 2.0 1 36 950 1 998 89 1 560 10,8 -0,126 0,152 0,1670
3 Fiat Panda Mambo L 1 10 450 899 29 730 6,1 0,118 0,113 0,1537
5 Opel Corsa 1.2i Eco 1 14 825 1 195 33 895 6,8 0,091 0,101 0,1170
1 Daihatsu Cuore 1 11 600 846 32 650 5,7 -0,074 0,140 0,0975

Aussi, il est plus pratique de construire un graphique des résidus en mettant en abscisse l'endogène et
en ordonnée le résidu standardisé. Nous traçons alors une ligne matérialisant les valeurs seuils
-t0,975(26) et + t0,975(26).
Graphique. Répartition des résidus studentisés
selon l’endogène

Page | 31
Les calculs aboutissent à des résultats contrastés, correspondant à des situations très différentes.
- La Mercedes cumule un résidu fort (-1,374) et un levier élevé (0,484). Ce type de véhicule appartient
à une catégorie spécifique qui n'a rien en commun avec les voitures recensés dans ce fichier.
- La "Ferrari" est mal reconstituée parce qu'elle est avant tout très différente des autres (h = 0,869). Le
résidu brut eො = 0,610 n'est pas très élevé, on prédit correctement sa consommation au regard de ses
caractéristiques. Mais le résidu rapporté à l'écart-type montre qu'il s'agit quand même d'un véhicule
bien particulier.
- La Hyundai Sonata 3000 est devenue, selon cette approche, un véhicule particulier (point aberrant).
Malgré qu’elle a un levier au dessous du seuil (0,275), son résidu rapporté à l'écart-type dépasse un
petit peu le seuil fixé.
- Avec un résidu studentisé qui égalise la valeur 0,304, la Maserati Ghibli GT n’est plus considérée
comme véhicule particulier même si on augmente le risque  (10% par exemple).
12.1.4. Résidus studentisés supprimés
Le résidu standardisé est un indicateur certes intéressant mais il présente un inconvénient fort : nous
évaluons l'importance du résidu eො୧ d'une observation qui a participé à la construction de la droite de
régression. De fait, le point est juge et partie dans l'évaluation : on l'utilise pour construire le modèle,
puis on regarde s'il a bien été modélisé. Si l'observation est fortement influente, au sens qu'elle "tire"
exagérément les résultats de manière à présenter un résidu brut très faible eො୧@ 0 , nous conclurons à
tort qu'elle est bien reconstituée et donc ne fausse en rien les résultats de la modélisation.
Il faudrait mettre en place une procédure qui permet de confronter les résultats selon qu'une
observation participe ou non aux calculs. Parmi les pistes possibles, nous nous penchons sur l'erreur de
prédiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du
modèle utilisé pour prédire la valeur yො୧. Le résidu studentisé, on parle de résidu studentisé externe ou
résidu studentisé supprimé pour SPSS ou certains ouvrages, s'appuie sur ce principe. Le résidu
studentisé supprimé utilise la procédure suivante :
Pour chaque observation i :
- Nous la retirons de l'ensemble des données, et nous calculons les paramètres de la régression.
- Nous effectuons la prédiction sur l'observation i en donnée supplémentaire yො୧(−i).
Page | 32
- Nous obtenons aussi l'estimation de l'écart-type des erreurs s
ෝe (−i), le levier h୧(−i)) obtenu avec la

formule h୧(−i) = x୧(Xି୧ Xି୧)ିଵ ୶ᇱ୧ où Xି୧ correspond à la matrice des X sans la ligne numéro i.
- A l'instar du résidu standardisé, nous formons le résidu studentisé supprimé à partir du rapport :
‫ܡିܑܡ‬
ොܑ(ିܑ)
‫= ܑ∗ܜ‬
s
ෝe (ିܑ)ඥ(૚ି‫)ܑି(ܑܐ‬

 Une autre interprétation


Il existe une autre manière de calculer le résidu studentisé. Elle ne facilite pas spécialement les
calculs. En revanche, elle a le mérite de mettre en lumière la loi de distribution que nous pourrons
utiliser par la suite pour définir la région critique du test.
Le principe est le suivant, nous effectuons n régressions avec toutes les observations. Pour la
régression numéro i, nous introduisons une variable muette z définie de la manière suivante :
z = 1 pour l'observation numéro i
= 0 sinon
La régression numéro i s'écrit donc de la manière suivante :

Le résidu studentisé correspond au t de Student du test de significativité du coefficient b. Nous savons


que cette statistique suit une loi de Student t (n - p - 2) à (n - p - 2) degrés de liberté. En effet, il y a
bien (p + 2) coefficients à estimer dans l'équation ci-dessus.
 Calcul pratique
Si le concept sous-jacent semble relativement simple, il reste à produire les résultats. Quelle que soit
l'approche adoptée, il faudrait effectuer n régressions. Si n est élevé, le calcul est très lourd, il peut se
révéler rédhibitoire.
A ce stade intervient une propriété remarquable du résidu studentisé : il est possible de le calculer pour
chaque observation i sans avoir à procéder explicitement aux n régressions. Nous utilisons pour cela
d'une formule de transformation du résidu standardisé :
‫ିܘିܖ‬૛
‫ ∗ܑܜ = ܑ∗ܜ‬ට ‫ିܘିܖ‬૚ି‫ܜ‬૛ , ainsi le calcul supplémentaire demandé est négligeable.
ܑ

 Région critique
A partir de la formulation sous forme d'équation de régression, il est possible d'écrire rigoureusement
le test d'hypothèses permettant de déterminer si une observation est aberrante/influente ou non. On
oppose :
H : b = 0
൜ ଴
Hଵ: b ≠ 0
Sous H଴, la statistique t ∗୧ ≈ t(n − p − 2) à (n - p - 2) degrés de liberté, on en déduit la région critique
du test : ‫܀‬. ۱: |t ∗୧| > tଵି a (n − p − 2) ; Où tଵି a (n − p − 2) est le fractile d’ordre 1-/2 de la loi de
మ మ
Student à (n-p-2) degrés de liberté. Il s’agit bien d’un test bilatéral. Le résidu est suspect s’il est
particulièrement élevé en valeur absolue.
 Application sur les données « Consommation des véhicules »
Le tableau suivant donne les résultats de cet exercice pour les données sur la consommation des
véhicules. Il s’agit de comparer la valeur absolue de la colonne avec la valeur seuil t0,975(31-4-2=25) =
2,0595 pour un risque à 5%.
Page | 33
Nous pouvons trier, par ordre décroissant, les données de ce tableau selon |t ∗୧|. Les véhicules suspects
sont très facilement mis en évidence.
Observations triées selon la valeur
absolue des résidus studentisés supprimés
Seuils
0,323 2,056 2,060
Résidus
i Type de véhicule Résidus Levier R_Stud_Supp
Studentisés
9 Mercedes S 600 -1,374 0,484 2,3416 2,5848
22 Hyundai Sonata 3000 1,436 0,275 2,0632 2,2123
8 Ferrari 456 GT 0,610 0,869 2,0574 2,2049
25 Mitsubishi Galant -1,568 0,114 2,0375 2,1795
11 Opel Astra 1.6i 16V -1,110 0,044 1,3896 1,4162
17 Fiat Tempra 1.6 Liberty 1,055 0,041 1,3185 1,3384
14 Seat Ibiza 2.0 GTI 0,980 0,105 1,2672 1,2829
26 Opel Omega 2.5i V6 -0,953 0,128 1,2491 1,2634
21 Ford Fiesta 1.2 Zetec -0,923 0,062 1,1666 1,1751
19 Honda Civic Joker 1.4 -0,857 0,060 1,0810 1,0847
31 Volvo 960 Kombi aut 0,819 0,087 1,0479 1,0500
13 Renault Safrane 2.2. V 0,815 0,077 1,0379 1,0395
30 Toyota Previa salon 0,611 0,315 0,9040 0,9007
4 VW Polo 1.4 60 -0,684 0,081 0,8725 0,8684
2 Suzuki Swift 1.0 GLS -0,676 0,092 0,8679 0,8636
7 Toyota Corolla -0,665 0,051 0,8354 0,8304
12 Peugeot 306 XS 108 0,543 0,049 0,6807 0,6735
6 Subaru Vivio 4WD 0,514 0,143 0,6794 0,6722
29 Seat Alhambra 2.0 0,466 0,226 0,6487 0,6414
15 VW Golt 2.0 GTI 0,462 0,048 0,5793 0,5717
18 Fort Escort 1.4i PT 0,457 0,058 0,5762 0,5687
20 Volvo 850 2.5 0,401 0,058 0,5049 0,4975
23 Lancia K 3.0 LS -0,311 0,150 0,4128 0,4062
24 Mazda Hachtback V 0,272 0,123 0,3549 0,3488
28 Nissan Primera 2.0 -0,266 0,051 0,3335 0,3277
10 Maserati Ghibli GT 0,149 0,642 0,3039 0,2985
16 Citroen ZX Volcane -0,211 0,062 0,2663 0,2615
27 Peugeot 806 2.0 -0,126 0,152 0,1670 0,1638
3 Fiat Panda Mambo L 0,118 0,113 0,1537 0,1508
5 Opel Corsa 1.2i Eco 0,091 0,101 0,1170 0,1148
1 Daihatsu Cuore -0,074 0,140 0,0975 0,0956

Nous constatons que ce sont les mêmes points que précédemment qui se démarquent (Mercedes S600,
Hyundai Sonata 3000, Ferrari 456 GT), avec ajout d’un autre véhicule : il s’agit de la Mitsubishi
Galant.
12.1.5. Autres indicateurs usuels
D'autres indicateurs de points aberrants/influents sont couramment rencontrés dans les logiciels
statistiques. Dans la suite de ce paragraphe, nous allons les énumérer en mettant l'accent sur 3 aspects :
le principe, la formule et la règle de détection.
 DFFITS
Le DFFITS s'appuie sur le même principe que le résidu studentisé supprimé, mais il compare cette
fois-ci la prédiction en resubstitutiant ‫ܡ‬
ොܑ et la prédiction en donnée supplémentaire ‫ܡ‬
ොܑ(−ܑ). Dans le
premier cas, l'observation a participé à la construction du modèle de prédiction, dans le second, non.
Nous pouvons ainsi mesurer l'influence du point sur la régression.
‫ܡ‬
ොܑି‫ܡ‬
ොܑ(ିܑ)
Le DFFITS est normalisée de la manière suivante : DFFITS୧ =
s
ෝe (ି୧)ඥ୦౟

୮ାଵ
Nous considérons une observation est aberrante lorsque : R.C : |DFFITS| > 2ට .

Page | 34
Il n'est heureusement pas nécessaire d'effectuer les n régressions pour calculer les DFFITSi, on peut

l'obtenir à partir du résidu studentisé. DFFITS୧ = t ∗୧ට ଵି୦౟ .

Après avoir fait le calcule, et pour mettre en évidence les ponts suspects, il faut trier par ordre
décroissant les observations selon |DFFITS୧|.
Observations triées selon la valeur
absolue des DFFITS
Seuils
0,323 2,056 2,060 0,803
Résidus
i Type de véhicule Résidus Levier R_Stud_Supp DFFITS
Studentisés
8 Ferrari 456 GT 0,610 0,869 2,0574 2,2049 5,6685
9 Mercedes S 600 -1,374 0,484 2,3416 2,5848 2,5048
22 Hyundai Sonata 3000 1,436 0,275 2,0632 2,2123 1,3611
25 Mitsubishi Galant -1,568 0,114 2,0375 2,1795 0,7800
30 Toyota Previa salon 0,611 0,315 0,9040 0,9007 0,6114
26 Opel Omega 2.5i V6 -0,953 0,128 1,2491 1,2634 0,4837
14 Seat Ibiza 2.0 GTI 0,980 0,105 1,2672 1,2829 0,4393
10 Maserati Ghibli GT 0,149 0,642 0,3039 0,2985 0,3996
29 Seat Alhambra 2.0 0,466 0,226 0,6487 0,6414 0,3464
31 Volvo 960 Kombi aut 0,819 0,087 1,0479 1,0500 0,3232
11 Opel Astra 1.6i 16V -1,110 0,044 1,3896 1,4162 0,3037
21 Ford Fiesta 1.2 Zetec -0,923 0,062 1,1666 1,1751 0,3023
13 Renault Safrane 2.2. V 0,815 0,077 1,0379 1,0395 0,3010
17 Fiat Tempra 1.6 Liberty 1,055 0,041 1,3185 1,3384 0,2778
2 Suzuki Swift 1.0 GLS -0,676 0,092 0,8679 0,8636 0,2746
6 Subaru Vivio 4WD 0,514 0,143 0,6794 0,6722 0,2743
19 Honda Civic Joker 1.4 -0,857 0,060 1,0810 1,0847 0,2741
4 VW Polo 1.4 60 -0,684 0,081 0,8725 0,8684 0,2576
7 Toyota Corolla -0,665 0,051 0,8354 0,8304 0,1935
23 Lancia K 3.0 LS -0,311 0,150 0,4128 0,4062 0,1709
12 Peugeot 306 XS 108 0,543 0,049 0,6807 0,6735 0,1523
18 Fort Escort 1.4i PT 0,457 0,058 0,5762 0,5687 0,1412
24 Mazda Hachtback V 0,272 0,123 0,3549 0,3488 0,1308
15 VW Golt 2.0 GTI 0,462 0,048 0,5793 0,5717 0,1278
20 Volvo 850 2.5 0,401 0,058 0,5049 0,4975 0,1234
28 Nissan Primera 2.0 -0,266 0,051 0,3335 0,3277 0,0756
27 Peugeot 806 2.0 -0,126 0,152 0,1670 0,1638 0,0694
16 Citroen ZX Volcane -0,211 0,062 0,2663 0,2615 0,0674
3 Fiat Panda Mambo L 0,118 0,113 0,1537 0,1508 0,0538
1 Daihatsu Cuore -0,074 0,140 0,0975 0,0956 0,0385
5 Opel Corsa 1.2i Eco 0,091 0,101 0,1170 0,1148 0,0385

ସାଵ
Le seuil étant égal à 2ට =0,803, nous constatons que la Ferrari 456 GT(tout particulièrement), la
ଷଵ

Mercedes S 600 et la Hyundai Sonata 3000 se démarquent toujours.


 Distance de COOK
La distance de COOK généralise le DFFITS dans le sens où, au lieu de mesurer l'effet de la
suppression de l'observation i sur la prédiction de yi, il mesure son effet sur la prédiction des n valeurs
de l'endogène.
∑౟ [‫ܡ‬
ොܑି‫ܡ‬
ොܑ(ିܑ)]²
La formulation de la distance de Cook Di est la suivante : D୧ = .
ෝమ
se (୮ାଵ)

Il nous faut définir la valeur seuil à partir de laquelle nous pouvons dire que le point est aberrant.

La règle la suivante : R.C : D୧ > .
୬ି୮ିଵ

Page | 35
De nouveau, il n'est pas question d'effectuer les n régressions en supprimant tour à tour chaque
observation. Nous pouvons grandement simplifier les calculs en dérivant la distance de Cook à partir
୲మ ୦౟
des résidus standardisés : D୧ = ౟
(୮ାଵ) (ଵି୦౟)

Observations triées selon la valeur


des D de Cook
Seuils
0,323 2,056 2,060 0,803 0,154
Résidus R_Stud_Sup
i Type de véhicule Résidus Levier DFFITS D Cook
Studentisés p
8 Ferrari 456 GT 0,610 0,869 2,0574 2,2049 5,6685 5,5954
9 Mercedes S 600 -1,374 0,484 2,3416 2,5848 2,5048 1,0298
22 Hyundai Sonata 3000 1,436 0,275 2,0632 2,2123 1,3611 0,3223
25 Mitsubishi Galant -1,568 0,114 2,0375 2,1795 0,7800 0,1064
30 Toyota Previa salon 0,611 0,315 0,9040 0,9007 0,6114 0,0753
26 Opel Omega 2.5i V6 -0,953 0,128 1,2491 1,2634 0,4837 0,0457
14 Seat Ibiza 2.0 GTI 0,980 0,105 1,2672 1,2829 0,4393 0,0377
10 Maserati Ghibli GT 0,149 0,642 0,3039 0,2985 0,3996 0,0331
29 Seat Alhambra 2.0 0,466 0,226 0,6487 0,6414 0,3464 0,0245
31 Volvo 960 Kombi aut 0,819 0,087 1,0479 1,0500 0,3232 0,0208
11 Opel Astra 1.6i 16V -1,110 0,044 1,3896 1,4162 0,3037 0,0178
21 Ford Fiesta 1.2 Zetec -0,923 0,062 1,1666 1,1751 0,3023 0,0180
13 Renault Safrane 2.2. V 0,815 0,077 1,0379 1,0395 0,3010 0,0181
17 Fiat Tempra 1.6 Liberty 1,055 0,041 1,3185 1,3384 0,2778 0,0150
2 Suzuki Swift 1.0 GLS -0,676 0,092 0,8679 0,8636 0,2746 0,0152
6 Subaru Vivio 4WD 0,514 0,143 0,6794 0,6722 0,2743 0,0154
19 Honda Civic Joker 1.4 -0,857 0,060 1,0810 1,0847 0,2741 0,0149
4 VW Polo 1.4 60 -0,684 0,081 0,8725 0,8684 0,2576 0,0134
7 Toyota Corolla -0,665 0,051 0,8354 0,8304 0,1935 0,0076
23 Lancia K 3.0 LS -0,311 0,150 0,4128 0,4062 0,1709 0,0060
12 Peugeot 306 XS 108 0,543 0,049 0,6807 0,6735 0,1523 0,0047
18 Fort Escort 1.4i PT 0,457 0,058 0,5762 0,5687 0,1412 0,0041
24 Mazda Hachtback V 0,272 0,123 0,3549 0,3488 0,1308 0,0035
15 VW Golt 2.0 GTI 0,462 0,048 0,5793 0,5717 0,1278 0,0034
20 Volvo 850 2.5 0,401 0,058 0,5049 0,4975 0,1234 0,0031
28 Nissan Primera 2.0 -0,266 0,051 0,3335 0,3277 0,0756 0,0012
27 Peugeot 806 2.0 -0,126 0,152 0,1670 0,1638 0,0694 0,0010
16 Citroen ZX Volcane -0,211 0,062 0,2663 0,2615 0,0674 0,0009
3 Fiat Panda Mambo L 0,118 0,113 0,1537 0,1508 0,0538 0,0006
1 Daihatsu Cuore -0,074 0,140 0,0975 0,0956 0,0385 0,0003
5 Opel Corsa 1.2i Eco 0,091 0,101 0,1170 0,1148 0,0385 0,0003


Le seuil étant égal à = 0,154, nous constatons comme pour l’indicateur DFFITS, les trois
ଷଵିସିଵ
véhicules suivant se démarquent toujours : la Ferrari 456 GT (tout particulièrement), la Mercedes S600
et la Hyundai Sonata 3000.
 DFBETAS
Nous avons définis la distance de Cook comme un écart entre les prédictions. Si l'écart est important,
on peut approfondir l'analyse en essayant d'identifier la variable qui est à l'origine de l'écart : c'est le
rôle des DFBETAS.
Pour chaque observation i et pour chaque coefficient aj , j = 0; … ; p, nous calculons la quantité :
ො‫܉ିܒ‬
‫܉‬ ො‫)ܑି(ܒ‬
DFBETAS୨,୧ =
ෝe (ି୧)ට(ଡ଼ᇲଡ଼)షభ
s ౠ

Page | 36
ො‫ ܒ‬est l'estimation du coefficient de la variable Xj (aො଴ pour la constante) ; ‫܉‬
où ‫܉‬ ො‫( ܒ‬-i) l'estimation du
même coefficient lorsqu'on a omis l'observation i ; s ෝe (−i) l'estimation de l'écart-type de l'erreur de
ିଵ
régression sans l'observation i ; (X′X)୨ est lue sur la diagonale principale de la matrice (X′X)-1.

On considère que l'observation i pèse indûment sur la variable Xj lorsque :



R.C : |DFBETAS୨,୧| >
√୬

Encore une fois, il est hors de question d'effectuer n régressions, on s'en sort en utilisant la formule
షభ
ቂ൫ଡ଼ᇲଡ଼൯ ଡ଼ᇲቃ
∗ ౠ,౟
suivante : DFBETAS୨,୧ = t୧ ቎ ቏.
(ଡ଼ᇲ షభ (ଵି୦
ට ଡ଼)ౠ ౟)

Appliqué sur les données relatives à la consommation des véhicules, les DFBETAS nous permettent de

détecter les points aberrants. On compare les valeurs calculées avec le seuil = 0,359.
√ଷଵ

Nous constatons que la Ferrari 456 GT et la Mercedes S 600 pèsent sur quasiment toutes les variables
dès lors qu'on les retire ou qu'on les rajoute dans les effectifs pour la régression. La Hyundai Sonata
3000 a aussi une action sur l'ensemble des coefficients mis à part la constante. Enfin, la Maserati
Ghibli GT, la Mitsubishi Galant et la Toyota Previa salon agissent de manière négligeable sur
quelques coefficients (Tableau ci-dessous).
Observations selon la valeur des DFBETAS
Seuil = 0,3592
DFBETASi |DFBETASi|
i Type de véhicule Cste Prix Cylindrée Puissance Poids Cste Prix Cylindrée Puissance Poids
1 Daihatsu Cuore -0,0361 -0,0033 -0,0017 0,0000 0,0210 0,0361 0,0033 0,0017 0,0000 0,0210
2 Suzuki Swift 1.0 GLS -0,2353 -0,0343 0,0130 0,0014 0,1084 0,2353 0,0343 0,0130 0,0014 0,1084
3 Fiat Panda Mambo L 0,0455 0,0118 0,0047 -0,0102 -0,0222 0,0455 0,0118 0,0047 0,0102 0,0222
4 VW Polo 1.4 60 -0,1418 -0,0606 -0,1082 0,1393 0,0754 0,1418 0,0606 0,1082 0,1393 0,0754
5 Opel Corsa 1.2i Eco 0,0210 0,0151 0,0121 -0,0226 -0,0075 0,0210 0,0151 0,0121 0,0226 0,0075
6 Subaru Vivio 4WD 0,1934 0,0978 -0,1274 0,0328 -0,0162 0,1934 0,0978 0,1274 0,0328 0,0162
7 Toyota Corolla -0,1104 -0,0439 0,0311 0,0172 0,0086 0,1104 0,0439 0,0311 0,0172 0,0086
8 Ferrari 456 GT 1,0398 3,4167 -0,5185 -0,8377 -0,3261 1,0398 3,4167 0,5185 0,8377 0,3261
9 Mercedes S 600 0,8261 0,4977 -1,3736 0,3672 0,4475 0,8261 0,4977 1,3736 0,3672 0,4475
10 Maserati Ghibli GT 0,0431 -0,1451 -0,2710 0,3734 0,0049 0,0431 0,1451 0,2710 0,3734 0,0049
11 Opel Astra 1.6i 16V -0,1770 0,0542 0,0519 -0,0883 0,0682 0,1770 0,0542 0,0519 0,0883 0,0682
12 Peugeot 306 XS 108 0,0808 -0,0582 0,0515 0,0068 -0,0714 0,0808 0,0582 0,0515 0,0068 0,0714
13 Renault Safrane 2.2. V -0,1474 0,0098 -0,1119 0,0256 0,2056 0,1474 0,0098 0,1119 0,0256 0,2056
14 Seat Ibiza 2.0 GTI 0,2318 -0,2902 0,2307 0,0817 -0,3221 0,2318 0,2902 0,2307 0,0817 0,3221
15 VW Golt 2.0 GTI 0,0592 -0,0444 0,0578 -0,0064 -0,0616 0,0592 0,0444 0,0578 0,0064 0,0616
16 Citroen ZX Volcane -0,0334 0,0392 -0,0264 -0,0143 0,0403 0,0334 0,0392 0,0264 0,0143 0,0403
17 Fiat Tempra 1.6 Liberty 0,1436 0,0067 0,0275 -0,0373 -0,0485 0,1436 0,0067 0,0275 0,0373 0,0485
18 Fort Escort 1.4i PT 0,0295 0,0637 -0,0294 -0,0455 0,0471 0,0295 0,0637 0,0294 0,0455 0,0471
19 Honda Civic Joker 1.4 -0,0568 -0,0362 0,1620 -0,0719 -0,0954 0,0568 0,0362 0,1620 0,0719 0,0954
20 Volvo 850 2.5 -0,0050 -0,0552 0,0623 -0,0101 -0,0249 0,0050 0,0552 0,0623 0,0101 0,0249
21 Ford Fiesta 1.2 Zetec -0,2189 -0,0407 0,0701 -0,0304 0,0597 0,2189 0,0407 0,0701 0,0304 0,0597
22 Hyundai Sonata 3000 -0,0042 -0,5261 1,2382 -0,5678 -0,6045 0,0042 0,5261 1,2382 0,5678 0,6045
23 Lancia K 3.0 LS 0,0198 0,1351 -0,0227 -0,0938 0,0387 0,0198 0,1351 0,0227 0,0938 0,0387
24 Mazda Hachtback V 0,0222 -0,1092 0,0333 0,0674 -0,0615 0,0222 0,1092 0,0333 0,0674 0,0615
25 Mitsubishi Galant 0,1202 -0,3202 -0,3484 0,6384 -0,1940 0,1202 0,3202 0,3484 0,6384 0,1940
26 Opel Omega 2.5i V6 0,2891 0,0214 0,2247 -0,1193 -0,3439 0,2891 0,0214 0,2247 0,1193 0,3439
27 Peugeot 806 2.0 0,0387 -0,0284 0,0312 0,0124 -0,0613 0,0387 0,0284 0,0312 0,0124 0,0613
28 Nissan Primera 2.0 -0,0171 0,0451 -0,0072 -0,0284 0,0189 0,0171 0,0451 0,0072 0,0284 0,0189
29 Seat Alhambra 2.0 -0,2082 0,1634 -0,1469 -0,0892 0,3176 0,2082 0,1634 0,1469 0,0892 0,3176
30 Toyota Previa salon -0,4118 0,3243 -0,1109 -0,2977 0,5301 0,4118 0,3243 0,1109 0,2977 0,5301
31 Volvo 960 Kombi aut -0,1496 -0,0511 -0,1392 0,1143 0,1801 0,1496 0,0511 0,1392 0,1143 0,1801

 COVRATIO

Page | 37
A la différence de la distance de Cook, au lieu de mesurer la disparité entre les estimations des
coefficients, avec ou sans l'intervention de l'observation i, le COVRATIO mesure les disparités entre
les précisions des estimateurs c'est-à-dire la variance des estimateurs.
A cet effet, il nous faut proposer une mesure de la variance globale des estimateurs, dite variance
ෝଶe ∗ det(X ᇱX)ିଵ ; où det(X′X)-1 est le déterminant de la
ො) = s
généralisée, elle est égale à : var(‫܉‬
matrice (X′X)-1.
ො(ି୧))
୴ୟ୰(‫܉‬
Le COVRATIOi de l'observation i est construit de la manière suivante : COVRATIOܑ = ො)
୴ୟ୰(‫܉‬

A partir de quel moment doit-on s'inquiéter de l'influence d'une observation ? La règle de détection
ଷ(୮ାଵ)
la plus répandue est : R.C : |COVRATIO୧ − 1| > .

De manière pratique, les COVRATIOi peut être calculés à partir du résidu studentisé et du levier

comme suit : COVRATIO୧ = ∗ మ (౦శభ)
౤ష౦షమ (౪౟)
ቈ ା ቉ ∗(ଵି୦౟)
౤ష౦షభ ౤ష౦ష భ

Nous avons calculé pour chaque observation i le COVRATIO pour les données relatives à la
consommation des véhicules. Les résultats sont consignés dans le tableau suivant. Ce tableau est trié,
par ordre décroissant, selon |COVRATIO୧ − 1|. Nous retrouvons la Ferrari 456 GT, la Maserati Ghibli
GT et la Toyota Previa salon qui se distinguent par rapport aux autres véhicules.
Observations triées selon la valeur valeurs absolues des « COVRATIO-1 »
Seuil = 0,3592 Seuil < à ou > à
DFBETASi |DFBETASi| 0,5161 1,4839

i Type de véhicule Cste Prix Cylindrée Puissance Poids Cste Prix Cylindrée Puissance Poids COVRATIOi |COVRATIOi -1|
8 Ferrari 456 GT 1,0398 3,4167 -0,5185 -0,8377 -0,3261 1,0398 3,4167 0,5185 0,8377 0,3261 3,8078 2,8078
10 Maserati Ghibli GT 0,0431 -0,1451 -0,2710 0,3734 0,0049 0,0431 0,1451 0,2710 0,3734 0,0049 3,3365 2,3365
30 Toyota Previa salon -0,4118 0,3243 -0,1109 -0,2977 0,5301 0,4118 0,3243 0,1109 0,2977 0,5301 1,5150 0,5150
29 Seat Alhambra 2.0 -0,2082 0,1634 -0,1469 -0,0892 0,3176 0,2082 0,1634 0,1469 0,0892 0,3176 1,4484 0,4484
27 Peugeot 806 2.0 0,0387 -0,0284 0,0312 0,0124 -0,0613 0,0387 0,0284 0,0312 0,0124 0,0613 1,4271 0,4271
25 Mitsubishi Galant 0,1202 -0,3202 -0,3484 0,6384 -0,1940 0,1202 0,3202 0,3484 0,6384 0,1940 0,5751 0,4249
1 Daihatsu Cuore -0,0361 -0,0033 -0,0017 0,0000 0,0210 0,0361 0,0033 0,0017 0,0000 0,0210 1,4117 0,4117
23 Lancia K 3.0 LS 0,0198 0,1351 -0,0227 -0,0938 0,0387 0,0198 0,1351 0,0227 0,0938 0,0387 1,3858 0,3858
3 Fiat Panda Mambo L 0,0455 0,0118 0,0047 -0,0102 -0,0222 0,0455 0,0118 0,0047 0,0102 0,0222 1,3655 0,3655
24 Mazda Hachtback V 0,0222 -0,1092 0,0333 0,0674 -0,0615 0,0222 0,1092 0,0333 0,0674 0,0615 1,3545 0,3545
5 Opel Corsa 1.2i Eco 0,0210 0,0151 0,0121 -0,0226 -0,0075 0,0210 0,0151 0,0121 0,0226 0,0075 1,3502 0,3502
22 Hyundai Sonata 3000 -0,0042 -0,5261 1,2382 -0,5678 -0,6045 0,0042 0,5261 1,2382 0,5678 0,6045 0,6861 0,3139
6 Subaru Vivio 4WD 0,1934 0,0978 -0,1274 0,0328 -0,0162 0,1934 0,0978 0,1274 0,0328 0,0162 1,2977 0,2977
16 Citroen ZX Volcane -0,0334 0,0392 -0,0264 -0,0143 0,0403 0,0334 0,0392 0,0264 0,0143 0,0403 1,2799 0,2799
9 Mercedes S 600 0,8261 0,4977 -1,3736 0,3672 0,4475 0,8261 0,4977 1,3736 0,3672 0,4475 0,7219 0,2781
28 Nissan Primera 2.0 -0,0171 0,0451 -0,0072 -0,0284 0,0189 0,0171 0,0451 0,0072 0,0284 0,0189 1,2543 0,2543
20 Volvo 850 2.5 -0,0050 -0,0552 0,0623 -0,0101 -0,0249 0,0050 0,0552 0,0623 0,0101 0,0249 1,2294 0,2294
18 Fort Escort 1.4i PT 0,0295 0,0637 -0,0294 -0,0455 0,0471 0,0295 0,0637 0,0294 0,0455 0,0471 1,2112 0,2112
15 VW Golt 2.0 GTI 0,0592 -0,0444 0,0578 -0,0064 -0,0616 0,0592 0,0444 0,0578 0,0064 0,0616 1,1971 0,1971
12 Peugeot 306 XS 108 0,0808 -0,0582 0,0515 0,0068 -0,0714 0,0808 0,0582 0,0515 0,0068 0,0714 1,1689 0,1689
2 Suzuki Swift 1.0 GLS -0,2353 -0,0343 0,0130 0,0014 0,1084 0,2353 0,0343 0,0130 0,0014 0,1084 1,1565 0,1565
4 VW Polo 1.4 60 -0,1418 -0,0606 -0,1082 0,1393 0,0754 0,1418 0,0606 0,1082 0,1393 0,0754 1,1410 0,1410
11 Opel Astra 1.6i 16V -0,1770 0,0542 0,0519 -0,0883 0,0682 0,1770 0,0542 0,0519 0,0883 0,0682 0,8652 0,1348
7 Toyota Corolla -0,1104 -0,0439 0,0311 0,0172 0,0086 0,1104 0,0439 0,0311 0,0172 0,0086 1,1196 0,1196
17 Fiat Tempra 1.6 Liberty 0,1436 0,0067 0,0275 -0,0373 -0,0485 0,1436 0,0067 0,0275 0,0373 0,0485 0,8978 0,1022
31 Volvo 960 Kombi aut -0,1496 -0,0511 -0,1392 0,1143 0,1801 0,1496 0,0511 0,1392 0,1143 0,1801 1,0734 0,0734
13 Renault Safrane 2.2. V -0,1474 0,0098 -0,1119 0,0256 0,2056 0,1474 0,0098 0,1119 0,0256 0,2056 1,0672 0,0672
19 Honda Civic Joker 1.4 -0,0568 -0,0362 0,1620 -0,0719 -0,0954 0,0568 0,0362 0,1620 0,0719 0,0954 1,0285 0,0285
26 Opel Omega 2.5i V6 0,2891 0,0214 0,2247 -0,1193 -0,3439 0,2891 0,0214 0,2247 0,1193 0,3439 1,0237 0,0237
14 Seat Ibiza 2.0 GTI 0,2318 -0,2902 0,2307 0,0817 -0,3221 0,2318 0,2902 0,2307 0,0817 0,3221 0,9883 0,0117
21 Ford Fiesta 1.2 Zetec -0,2189 -0,0407 0,0701 -0,0304 0,0597 0,2189 0,0407 0,0701 0,0304 0,0597 0,9914 0,0086

Page | 38
Tableau récapitulatif pour la détection des observations aberrantes/atypiques
Région
Indicateur Objet Formule Calcul pratique Règle de décision
critique
Mesure l’influence de 2(p + 1)
2(p + 1) hi >
Levier l’observation i à cause des hi = Xi (X′X)−1 X ′i - n
valeurs des xi n
|t i | > 2 alors
Résidus Test de significativité du ොi résidu est
ti = - 2
Studentisés résidu i 
ෝ ඥ(1−h i ) significativement
0
A comparer avec résidu t i∗ = |t i∗ | > 2 alors
Résidus yi − yොi (−i) n−p−2
studentisé écart-type calculé en t ∗i = t i ∗ ට 2 l’observation est un
Stud. Supp n−p−1−t 2i
retirant l’observation i 
ෝ (−i)ඥ(1 − hi (−i) point aberrant

Mesure normalisée du |DFFITS| > 2 ∗


DFFITS = 2∗ (p+1)
DFFITS
changement dans la valeur yොi − yොi (−i) DFFITSi = t ∗i ට
hi
(p+1)
ට alors
n
prédite, avec et sans 1−h i ට
l’observation i 
ෝ (−i)ඥhi n l’observation est
aberrante
Mesure changement en 4
Di = Di > alors
retirant l’observation i, sur les t 2i hi 4 n−p−1
D Cook ∑i [ yොi − yොi (−i)]² Di = l’observation est
estimations de l’ensemble des (p+1) (1−h i ) (n−p−1)
coefficients ෝ2 (p + 1)
 aberrante
Mesure normalisée de l’effet DFBETASj,i = DFBETASj,i = 2
|DFBETAS| >
de l’observation i sur ො‫ܒ‬−‫܉‬
‫܉‬ ො‫(ܒ‬−ܑ) ቂ൫X ′ X൯
−1 ′
X ቃ
2 √n
DFBETAS j,i alors l’observation
l’estimation, pour chaque
ෝ (−i)ට (X ′ X)−1
 t ∗i ቎ ቏ √n
coefficient  j j ට (X ′ X)−1
j (1−h i )
est aberrante
COVRATIOi = |COVRATIO −
COVRATIOi = ૚ 3(p+1)
COV Mesure l’effet de var(aො(−i)) ∗ (‫ܘ‬+૚) 3(p+1) 1| > alors
‫ܖ‬−‫ܘ‬−૛ (‫)ܑܜ‬૛ n
RATIO l’observation i sur la précision ቈ + ቉ ∗(૚−‫)ܑܐ‬ n l’observation est
‫ܖ‬−‫ܘ‬−૚ ‫ܖ‬−‫ܘ‬−૚
var(aො)
aberrante

12.2. Traitement
Après avoir détecter les observations aberrantes moyennant les indicateurs formulés et appliqués ci-
haut, la question qui se pose est la suivante : que peut-on faire de ces observations qui, manifestement,
jouent un rôle particulier dans la régression ?
Tous les auteurs s'accordent à dire que la suppression automatique des observations atypiques n'est pas
la solution. Il faut comprendre pourquoi l'observation se démarque autant et proposer des solutions
appropriées :
- Premier réflexe : vérifier les données, y a-t-il des erreurs de saisie ? Dans ce cas, il suffit de corriger
les valeurs recensées.
- Il apparaît que les observations détectées ne correspondent pas à la population étudiée. Dans ce cas,
et dans ce cas seulement, la suppression est réellement justifiée.
Dans notre exemple CONSO, il apparaît clairement que la Ferrari 456 GT, voiture sportive
d'exception, et la Mercedes S 600, n'appartiennent pas au même monde que les autres véhicules de
l'analyse. Ils se situent de plus à des niveaux de prix qui les situent définitivement hors de portée. Il
paraît donc légitime de les supprimer de nos données.
Nous effectuons la régression sur les 29 observations restantes. En étudiant de nouveau les points
aberrants, nous constaterons que des autres véhicules se démarquent, à savoir : Mitsubishi Galant et
Maserati Ghibli GT (tableau ci-dessous).

Page | 39
Seuils 0,371 Seuil
0,345 2,064 2,069 0,830 0,167 |DFBETASi| - 0,517
|Résidus |Résidus
i Type de véhicule Résidus Levier |DFFITSi| |D Cooki| Cste Prix Cylindrée Puissance Poids COVRATIOi |COVRATIOi -1|
Studentisés| Stud. Supp|
1 Daihatsu Cuore 0,1475 0,1688 0,2145 0,2105 0,0949 0,0019 0,0891 0,0282 0,0040 0,0180 0,0482 1,4509 0,4509
2 Suzuki Swift 1.0 GLS -0,4515 0,1054 0,6331 0,6256 0,2148 0,0094 0,1647 0,0038 0,0453 0,0177 0,0415 1,2584 0,2584
3 Fiat Panda Mambo L 0,3251 0,1318 0,4627 0,4556 0,1775 0,0065 0,1510 0,0461 0,0057 0,0416 0,0663 1,3446 0,3446
4 VW Polo 1.4 60 -0,6830 0,0954 0,9524 0,9506 0,3088 0,0191 0,1888 0,1337 0,1458 0,1856 0,1368 1,1262 0,1262
5 Opel Corsa 1.2i Eco 0,1514 0,1334 0,2157 0,2117 0,0831 0,0014 0,0535 0,0457 0,0323 0,0554 0,0336 1,3914 0,3914
6 Subaru Vivio 4WD 0,9306 0,1921 1,3731 1,3980 0,6818 0,0897 0,4724 0,1109 0,3252 0,0394 0,0054 1,0336 0,0336
7 Toyota Corolla -0,5173 0,0588 0,7071 0,7002 0,1750 0,0062 0,0820 0,0203 0,0581 0,0230 0,0226 1,1730 0,1730
8 Maserati Ghibli GT 0,0893 0,9069 0,3882 0,3817 1,1911 0,2934 0,3652 0,5240 0,2015 0,0444 0,3870 12,6883 11,6883
9 Opel Astra 1.6i 16V -1,0350 0,0516 1,4094 1,4381 0,3354 0,0216 0,1203 0,1292 0,1198 0,1541 0,0281 0,8621 0,1379
10 Peugeot 306 XS 108 0,5072 0,0652 0,6957 0,6886 0,1818 0,0067 0,0303 0,1022 0,0047 0,0728 0,0046 1,1847 0,1847
11 Renault Safrane 2.2. V 0,7910 0,1094 1,1116 1,1168 0,3914 0,0304 0,2358 0,1994 0,1832 0,1797 0,2976 1,0709 0,0709
12 Seat Ibiza 2.0 GTI 0,8252 0,1450 1,1835 1,1931 0,4913 0,0475 0,0658 0,2939 0,1054 0,2127 0,1144 1,0788 0,0788
13 VW Golt 2.0 GTI 0,3044 0,0643 0,4174 0,4106 0,1076 0,0024 0,0480 0,0347 0,0674 0,0424 0,0673 1,2573 0,2573
14 Citroen ZX Volcane -0,3448 0,0702 0,4741 0,4670 0,1283 0,0034 0,0329 0,0421 0,0392 0,0300 0,0464 1,2529 0,2529
15 Fiat Tempra 1.6 Liberty 1,0920 0,0427 1,4800 1,5166 0,3203 0,0195 0,1268 0,0483 0,0132 0,0197 0,0057 0,8185 0,1815
16 Fort Escort 1.4i PT 0,6006 0,0661 0,8242 0,8190 0,2179 0,0096 0,0331 0,0204 0,0808 0,0056 0,0912 1,1412 0,1412
17 Honda Civic Joker 1.4 -0,6123 0,1556 0,8837 0,8798 0,3777 0,0288 0,0477 0,2597 0,2855 0,2704 0,2513 1,2372 0,2372
18 Volvo 850 2.5 0,0995 0,0902 0,1384 0,1358 0,0428 0,0004 0,0007 0,0096 0,0292 0,0157 0,0176 1,3324 0,3324
19 Ford Fiesta 1.2 Zetec -0,7428 0,0709 1,0219 1,0228 0,2825 0,0159 0,1859 0,0046 0,0960 0,0399 0,0147 1,0668 0,0668
20 Hyundai Sonata 3000 0,7189 0,4733 1,3136 1,3331 1,2638 0,3102 0,0389 0,3809 1,1874 0,7164 0,7441 1,6387 0,6387
21 Lancia K 3.0 LS -0,6830 0,2035 1,0149 1,0155 0,5133 0,0526 0,1567 0,2157 0,0801 0,2161 0,0361 1,2480 0,2480
22 Mazda Hachtback V 0,0310 0,2004 0,0460 0,0451 0,0226 0,0001 0,0043 0,0156 0,0006 0,0141 0,0002 1,5210 0,5210
23 Mitsubishi Galant -1,7947 0,2214 2,6972 3,1166 1,6621 0,4138 0,2174 1,1994 1,0934 1,5028 0,5136 0,3028 0,6972
24 Opel Omega 2.5i V6 -1,0398 0,1495 1,4952 1,5336 0,6429 0,0786 0,4279 0,2261 0,2820 0,2562 0,4504 0,9125 0,0875
25 Peugeot 806 2.0 -0,0659 0,1616 0,0955 0,0936 0,0411 0,0004 0,0228 0,0050 0,0195 0,0038 0,0335 1,4487 0,4487
26 Nissan Primera 2.0 -0,3114 0,1177 0,4397 0,4327 0,1580 0,0052 0,0338 0,1300 0,0421 0,1143 0,0496 1,3284 0,3284
27 Seat Alhambra 2.0 0,5540 0,2420 0,8439 0,8391 0,4742 0,0455 0,2798 0,0558 0,2203 0,0280 0,4014 1,3971 0,3971
28 Toyota Previa salon 0,4271 0,4154 0,7408 0,7342 0,6189 0,0780 0,2113 0,3605 0,1014 0,3994 0,1656 1,8706 0,8706
29 Volvo 960 Kombi aut 0,6865 0,0912 0,9550 0,9533 0,3021 0,0183 0,1358 0,0113 0,0660 0,0522 0,1140 1,1199 0,1199

Finalement, la base de données sur la consommation ne contient que 27 observations suite à


l’élimination de 4 observations aberrantes.
12.3. … en utilisant le logiciel R
En utilisant le logiciel R, nous pouvons détecter graphiquement les points aberrants/influents. La
syntaxe du logiciel R se présente comme suit :
> reg=lm(consommation~prix+puissance+cylindrée+poids)
> par(mfrow=c(2,2)); plot(reg)

Les résultats de l’exécution de ces commandes sont résumés par la figure suivante :

Page | 40
La lecture des résultats donnés par cette figure montre que les véhicules n° 1, 2, 30 et 31
respectivement Hyundai Sonata 3000, Ferrari 456 GT, Mitsubishi Galant et Mercedes S 600 sont des
points suspectes. On trouve les mêmes résultats.
13. Colinéarité et sélection des variables
13.1. Définition, conséquences et illustration de la colinéarité
 Définition
Un des problèmes qui peut se produire dans une analyse de régression linéaire multiple est la présence
de variables indépendantes redondantes qui provoquent de l’instabilité dans les calculs. Il peut arriver,
toutefois, que certaines variables soient très corrélées entre elles et mesurent toutes la même chose.
La multicolinéarité est le fait qu’une variable indépendante est prédictible par (ou partage sa variance
avec) une combinaison linéaire des autres variables indépendantes. Pour faire simple, disons qu'une
combinaison linéaire est une variable que l'on obtient en faisant la somme pondérée de plusieurs autres
variables. Ainsi, si l'on crée une variable X3 en faisant la somme pondérée de deux autres variables X1
et X2, par exemple X3 = 2X1 + 3X2, alors X1, X2 et X3 seront multicolinéaires.
On peut généraliser cette définition en définissant la colinéarité comme la corrélation entre une des
exogènes avec une combinaison linéaire des autres exogènes.

 Conséquences
La conséquence de la colinéarité entre deux variables indépendantes (VI) est que les effets respectifs
de chacun de ces deux prédicteurs ne se cumulent pas simplement. En effet si deux variables sont
colinéaires, cela implique qu’elles partagent une partie de leur variance. Plus précisément, on peut
distinguer une variance propre à la VI1, une variance propre à la VI2, et une variance commune aux
deux. Comme toujours, la part de variance partagée par deux variables est égale au carré de leur
corrélation linéaire.
Si l’on ajoutait simplement l’effet de la VI1 et celui de la VI2, sans autre forme de procès, on
compterait deux fois l’effet de la variance commune aux deux et une seule fois l’effet de la variance
propre à chaque VI.
En présence de la colinéarité, plusieurs problèmes peuvent surgir :
- les valeurs/signes des coefficients sont contradictoires, elles ne concordent pas avec les
connaissances du domaine ;
- les variances des estimateurs sont exagérées ;
- au point que les coefficients ne paraissent pas significatifs (au sens du t de Student du test de nullité
des coefficients), poussant le statisticien à les supprimer indûment ;
- les résultats sont très instables, l'adjonction ou la suppression de quelques observations modifie du
tout au tout les valeurs et signes des coefficients.
Il y a un vrai risque de passer à côté d'une variable exogène importante tout simplement parce qu'elle
est redondante avec une autre. La colinéarité entre variables exogènes rend illusoire la lecture des
résultats sur la base des valeurs et de la significativité des coefficients. C’est pourquoi il faut accorder
plus d’importance à ce phénomène -détection et traitement- avant toute interprétation approfondie.

 Illustration
Si la colinéarité est forte, det(X′X)  0, l'inverse (X′X)-1 contient des valeurs très élevées. Il en est de
même pour la matrice de variance covariance des coefficients estimés : W ෝଶe (X ᇱX)ିଵ. Dès lors, le t
෡ୟො = s

Page | 41


de Student t ୟොౠ = sෝ ౠ pour tester la significativité des coefficients présente mécaniquement de très
ෝౠ

faibles valeurs. La variable paraît non significative, elle est éliminée par le statisticien.
Pour effectuer cette vérification, on doit calculer et analyser des indicateurs illustrant ce phénomène.
Du point de vue du diagnostic, la multicolinéarité se détecte en faisant la régression de l'une variable
indépendante envisagée par les autres (on laisse provisoirement de côté la question de la variable
dépendante). Le carré du R multiple obtenu dans cette régression représente la part de la variance de la
variable indépendante expliquée par l'ensemble des autres variables explicatives. Cela représente donc
en fait le degré auquel on peut dire qu'il existe une combinaison linéaire qui relie les variables
explicatives. Idéalement, ce R² doit donc être minimal.
13.2. Techniques de détection
13.2.1. Test de Klein
Il ne s'agit pas d'un test à proprement parler mais plutôt d'un indicateur simple pour détecter
rapidement les situations au problème.
Le test de Klein est fondé sur la comparaison du coefficient de détermination Rଶ୷ calculé sur le modèle
à p variables (y = aො଴ + aොଵxଵ + aොଶxଶ + aොଷxଷ୧+ … + aො୮x୮ + eො୧) et les carrés des coefficients de
corrélation simple r୶ଶ౟,୶ౠ entre les variables explicatives pour i  j.

Si Rଶ୷ < r୶ଶ౟,୶ౠ, il y a présence de multicolinéarité. Dans la pratique, une simple proximité entre les
valeurs Rଶ୷ < r୶ଶ౟,୶ౠ doit nous alerter.

Nous appliquons ce test sur les données de la consommation des véhicules avec 27 observations.
La compilation de ces données par le logiciel SPSS donne les résultats suivants :

La matrice des corrélations au carré des exogènes deux à deux est résumée par le tableau suivant :
Matrice des corrélations au carré
Prix Cylindrée Puissance Poids
Prix 1 0,84 0,86 0,90
Cylindrée 0,84 1 0,91 0,74
Puissance 0,86 0,91 1 0,73
Poids 0,90 0,74 0,73 1
La lecture des coefficients du tableau ci-dessus permet de dégager deux situations qui peuvent poser
problème : la corrélation entre la puissance et la cylindrée (r2 = 0,91); celle entre le poids et le prix
(r2= 0,90).
Page | 42
Cela peut expliquer notamment pourquoi les variables puissance et cylindrée ne paraissent pas
pertinentes pour expliquer la consommation des véhicules.
13.2.2. Facteur d'inflation de la variance (VIF), tolérance et indice de condition
Le test de Klein ne détecte que la colinéarité bivariée. Pour évaluer la multicolinéarité, il faudrait
effectuer la régression de chaque exogène Xj avec les (p-1) autres exogènes, puis étudier le coefficient
de détermination Rଶ୨ associé.

On appelle facteur d'inflation de la variance (VIF pour Variance Inflation Factor) la quantité :
1
‫ݒ‬୨ =
1 − Rଶ୨

On parle de facteur d'inflation car nous avons la relation suivante :


sమ
e
V(aො୨) = ‫ݒ‬௝

L'écart-type de l'estimation est multiplié par un facteur ඥ ‫ݒ‬௝ .

Plus ‫ݒ‬௝ sera élevé, plus la variance V(aො୨) de l'estimation sera forte. L'estimation aො୨ sera donc très
instable, il aura moins de chances d'être significatif dans le test de nullité du coefficient dans la
régression.
La question qui se pose est la suivante : A partir de quelle valeur de ‫ݒ‬௝ doit-on s'inquiéter ? Si les
sమ
e
variables étaient 2 à 2 indépendantes, ‫ݒ‬௝ = 1 et V(aො୨) = . Nous pourrions obtenir les coefficients de

la régression multiple à partir de p régressions simples.
Le facteur d’inflation de la variance ne tient donc pas compte du tout de la variable dépendante Y du
modèle de régression linéaire. Si on observe une valeur ‫ݒ‬௝ ³ 10, on peut suspecter la présence de
colinéarité entre les variables indépendantes.
La moyenne du facteur d’inflation de la variance est aussi utilisée pour interpréter globalement
l’importance de la multicolinéarité. Dans cette équation, p est le nombre de variables indépendantes et,

തതതത = ∑౟స భ ௩ೕ. Lorsque ത
donc, ത
VIF തതതതest supérieure à 1, cela indique un sérieux problème de
VIF

multicolinéarité.
De façon pratique, effectuer p régressions peut être lourd (p élevé et beaucoup d’observations), on peut
lire le VIF sur la diagonale principale de la matrice inverse de la matrice des corrélations.
13.2.3. La tolérance
Il arrive aussi que l’inverse du facteur d’inflation de la variance soit utilisé comme indicateur de la
multicolinéarité. Il s’agit de la tolérance, qui est également fournie par les logiciels statistiques.
1
Tolérance୨ = = (1 − Rଶ୨)
‫ݒ‬௝
Puisque la valeur critique du facteur d’inflation de la variance est égale à 10, la valeur critique de la
tolérance est alors fixée à 1⁄10 = 0,1. Tolérance et facteur d’inflation de la variance correspondent ainsi
à deux mesures totalement reliées et une seule de ces mesures est généralement utilisée.
13.2.4. Indice de condition K

Page | 43
Une autre façon qui permet de détecter un problème de multicolinéarité est d’utiliser l’indice de
condition K (Indice de conditionnement). L’indice de condition est égal à la racine carrée du rapport
entre la plus grande valeur propre (eigenvalue) de la matrice de corrélations des variables
lభ
indépendantes lଵ et la plus petite valeur propre lଶ de cette même matrice. Soit, K = . Lorsque ce
lమ
rapport est supérieur à 10, la matrice des corrélations est dite mal conditionnée et un problème de
multicolinéarité est détecté. Belsey, Kuh et Welsh (1980) ont proposé une variante K ୨ qui permet de
calculer un indice de condition pour chacune des j valeurs propres de la matrice de corrélation des
lభ
variables indépendantes. Soit, K ୨ = . La valeur critique de 10 est encore utilisée pour détecter un
lౠ

problème de multicolinéarité sérieux.


13.2.5. Application sur la consommation des véhicules
- Calcul avec un tableur
Matrice des corrélations Inverse de la matrice des
corrélations
X1 X2 X3 X4
X1 1,00 0,92 0,93 0,95 X1 X2 X3 X4
X2 0,92 1,00 0,96 0,86 X1 19,79 -1,45 -7,51 -11,09
X2 -1,45 12,87 -9,80 -1,36
X3 0,93 0,96 1,00 0,85 -7,51 -9,80 14,89 2,86
X3
X4 0,95 0,86 0,85 1,00 X4 -11,09 -1,36 2,86 10,23
- Calcul des avec SPSS
Le calcul détaillé est donné par le tableau suivant :

Les résultats sont donnés dans le tableau suivant :

Les mêmes résultats sont confirmés par le listing de SPSS.


Page | 44
Si on décide qu'il y a un problème de colinéarité lorsque ‫ݒ‬௝ ³ 10 , alors les variables puissance,
cylindrée et prix posent problème. Il y a réellement une forte colinéarité des exogènes dans ce fichier.
13.2.6. Test de Farrar & Glauber (multicolinéarité)
Farrar & Glauber (1968) ont formalisé un test de multicolinéarité. Supposons pour simplifier que le
modèle contienne deux variables explicatives X1 et X2. La première étape de ce test consiste à calculer
le déterminant D des coefficients de corrélation.

1 r୶భ,୶మ 1 1
D=ቤ ቤ= ቚ ቚ= 0.
r୶మ,୶భ 1 1 1

L’idée de ce test est qu’une colinéarité parfaite entre X1 et X2 implique un coefficient de corrélation
1 1
r୶భ,୶మ= 1. Dans cette situation, le déterminant D = 0. D = ቚ ቚ= 0
1 1
1 0
Dans le cas d’une absence de colinéarité, r୶భ,୶మ = 0 et donc D = 1. D = ቚ ቚ= 1
0 1
Le test de colinéarité se basera donc sur D.
Dans le cas de plus de deux variables explicatives, D sera le déterminant d’une matrice p × p contenant
tous les coefficients de corrélation possibles entre les variables explicatives.

r୶భ,୶య
⎢ 1 r୶భ,୶మ ⋯r୶భ,୶౦ ⎥
⎢r୶మ,୶భ 1 r୶భ,୶య ⋯
r୶మ,୶౦ ⎥
D=⎢ ⎥
⋯ ⋯ ⋯ ⋯
⎢ ⋯ ⎥
r ⋯
⎣ ୶౦ ,୶భr୶౦ ,୶మ r୶౦ ,୶మ 1 ⎦
Lorsque la valeur du déterminant D tend vers zéro, le risque de multicolinéarité est important.
Le test s’écrit :
H : D = 1; les variables explicatives sont indépendantes. 
൜ ଴
Hଵ: D < 1; ݈݁‫݀ݐ݊݋ݏݏ݁ݒ݅ݐ݈ܽܿ݅݌ݔ݁ݏ݈ܾ݁ܽ݅ݎܽݒݏ‬é‫ݏ݁ݐ݊ܽ݀݊݁݌‬.
Une transformation du déterminant D permet de dériver une statistique de test dont la distribution est
connue sous H0. Il s’agit de la statistique de test de Farrar-Glauber : ∗ cଶ = − ቂn − 1 − ଵ଺ (2P + 5)ቃln D ,
qui suit une loi χ2P(P−1)/2 sous H0 : P = p + 1, ln() le logarithme népérien et n la taille de l’échantillon.
∗ ଶ
 Si c ³ cଶ de la table à 1/2 P(P-1) degrés de liberté et au seuil  choisi , alors l’hypothèse
H0 est rejetée, il y a donc présence de multicolinéarité.
∗ ଶ
 Si c < cଶ alors nous acceptons l’hypothèse d’indépendance.
 Application sur les données de la consommation des véhicules
Nous appliquons ce test sur les données de la consommation des véhicules avec 27 observations.
∗ ૛ ∗ ૛
D = 0,00000721 ; c = 160,41 ; cଶభ୔(୔ିଵ),ହ% = cଵ଴,ହ%

= 18,31. Nous avons ଶ
c > cଵ଴,ହ% ,

l’hypothèse H0 est rejetée, donc il y a présence de multicolinéarité.
13.2.7. Cohérence des signes
Il existe une autre approche très simple pour détecter la colinéarité. Elle consiste à comparer les signes
des coefficients de la régression avec le signe des corrélations simples entre les exogènes et
l'endogène. La procédure est la suivante :

Page | 45
1. Nous calculons la régression linéaire multiple : y = a0 + a1x1 + … + apxp, nous recueillons les
signes des coefficients estimés aො୨ .

2. Nous calculons les corrélations croisées entre chaque variable exogène Xj et l'endogène : r୷,୶ౠ .

3. Il y a présence de colinéarité s'il existe des situations où signe(aො୨ )  signe(ry,xj). En effet, cela
indique que les autres variables perturbent la relation entre Y et Xj.
Le tableau suivant résume les résultats des calculs intermédiaires. La comparaison des les coefficients
de la régression avec les coefficients de corrélation avec y, montre qu’il y a un conflit pour la variable
puissance que nous soupçonnons justement d'être écartée à tort.

Prix 0,00003 0,94260


Cylindrée 0,00121 0,90879
Puissance -0,00374 0,88830
Poids 0,00373 0,94474

13.3. Sélection des variables et choix de modèle


Lorsque le nombre de variables explicatives, noté p, à disposition n’est pas trop élevé, il est
‫ܙ‬ ‫!ܘ‬
envisageable de considérer tous les modèles possibles. Il y a ۱‫= ܘ‬ modèles différents
‫!)ܙିܘ(!ܙ‬
୮ ‫ܙ‬
faisant intervenir q variables explicatives. Cela fait au total pour ∑୧ୀ଴ ۱‫ = ܘ‬2୮ modèles possibles à
considérer. C’est une méthode fastidieuse et difficile à utiliser sans un ordinateur rapide.
 Pourquoi ?
Parce qu’il faut calculer toutes les régressions possibles impliquant un sous-ensemble des p variables
explicatives à disposition, soit un total de 2୮ régressions.
 Comment ?
- Ces équations sont réparties selon le nombre r de variables explicatives qu’elles contiennent.
- Chaque ensemble d’équations est ordonné selon le critère choisi, souvent le R².
- Les meilleures équations de régression issues de ce classement sont ensuite sélectionnées pour
un examen plus détaillé.
Ce paragraphe a pour objectif de trouver un sous-ensemble de q variables exogènes (q  p) qui soient,
autant que possible, pertinentes et non-redondantes pour expliquer l'endogène Y. Deux problèmes se
posent alors :
1. quelle est la bonne valeur de q ?
2. comment choisir ces q variables ?
La sélection de variables répond à la préférence à la simplicité. Comment ? A pouvoir explicatif
sensiblement équivalent, on choisit les modèles intéressants pour plusieurs raisons : le modèle est plus
lisible, il est plus facile à interpréter ; le nombre de variables à collecter est plus faible ; le modèle est
plus robuste.
13.3.1. Sélection par optimisation
Cette approche consiste à produire toutes les combinaisons possibles de variables exogènes, puis de
choisir la régression qui maximise un critère de qualité. Le premier obstacle est le nombre de cas à

Page | 46
évaluer, il est égal à 2p-1, ce qui peut se révéler excessif lorsque p est élevé. Il faut donc choisir une
stratégie de recherche non-exhaustive mais qui a de bonnes chances de trouver la solution optimale.
Il existe un grand nombre de techniques d'exploration dans la littérature. Elles se distinguent par leur
complexité et leur aptitude à trouver la solution maximisant le critère.
Mais quel critère justement ? C'est ce que nous allons étudier maintenant.

 Critère du R²
Le critère du R² se révèle le plus simple à définir. Il exprime la part de la variance expliquée par le
modèle. C'est le premier critère que l'on regarde dans une régression. On essaie de trouver la
combinaison de variables qui maximise le R2.Cependant, il présente des inconvénients majeurs qui
résident dans le fait qu’il augmente de façon monotone avec l’introduction de nouvelles variables
même si celles-ci sont peu corrélées avec la variable expliquée Y. la limite, on connaît d'office la
solution optimale : c'est le modèle comportant les p variables candidates.

 Critère du R²-ajusté
Il s’agit d’introduire un R² qui concerne la population et non plus l’échantillon défini par :
sଶe
Rଶ୮୭୮ = 1− ଶ
sଢ଼
On estime ce R² de la population par R²-ajusté.
౏ి౎
ୗୈ (୬ିଵ) (୬ିଵ)
‫܀‬૛ି‫ܜܛܝܒ܉‬é (౤ష౦షభ)
Soit =1− ౏ి౐ = 1 − ୗେ୘ = 1 − (1 − Rଶ) (୬ି୮ିଵ)
(୬ି୮ିଵ)
౤షభ
 Propriétés de R²-ajusté
- R²-ajusté  R² dès que p  2 ;
- R²-ajusté peut prendre des valeurs négatives.
 Intérêts de R²-ajusté
- R²-ajusté n’augmente pas forcément lors de l’introduction de variables supplémentaires dans le
modèle ;
- Possibilité de comparer deux modèles n’ayant pas le même nombre de variables à l’aide du
R²-ajusté et choisir le modèle pour lequel R²-ajusté est le plus grand.
 Critères AIC et BIC3
Ces critères s'appuient sur la même idée : mettre en balance la précision du modèle quantifié par le R2
(ou le SCR : c'est la même chose puisque SCT est constant quel que soit le modèle à évaluer) avec la
complexité du modèle quantifiée par le nombre de variables qu'il comporte.
Avec le critère Akaike (AIC), nous cherchons la régression qui minimise la quantité suivante :
SCR
AIC = n ∗ ln + 2(q + 1)
n
Avec le critère BIC de Schwartz
, nous cherchons à optimiser :
SCR
BIC = n ∗ ln
+ ln(n) (q + 1)
n
 Sélection de variables sur les données consommation-Critère AIC

3
Il convient de signaler que ces techniques de sélection ne tiennent pas compte explicitement de la redondance entre les
variables. Cela est fait de manière implicite avec la pénalisation de la complexité : deux explicatives corrélées n'améliorent
guère le SCR mais sont pénalisées parce que la complexité augmente, elles ne peuvent pas être simultanément présentes
dans le modèle.
Page | 47
Nous allons essayer de trouver le modèle optimal qui minimise le critère AIC. Nous adoptons une
démarche backward. Elle consiste, à partir du modèle complet comportant toutes les variables, à
éliminer unes à unes les variables qui permettent de diminuer l'AIC, et de continuer ainsi tant que la
suppression d'une variable améliore le critère.
Bref, la procédure se présente comme suit :
1. calculer l'AIC pour le modèle comportant l'ensemble de variables ;
2. évaluer l'AIC consécutive à la suppression de chaque variable du modèle, choisir la suppression
entraînant la plus forte diminution et vérifier qu'elle propose une amélioration du critère par rapport à
la situation précédente ;
3. si non, arrêt de l'algorithme ; si oui, retour en (1).
L’application de cette procédure sur les données consommation des véhicules (27 observations), en
utilisant le logiciel EXCEL, donne les résultats suivants :

୪୬ ଽ,ଷଶ଼
Etape 1 : avec toutes les variables du modèle, AIC = 27 ଶ଻ + 2(4 + 1) = −18,69. La
suppression de la variable puissance entraîne la plus grande diminution du critère, il passe alors à -
20,6188.
Etape 2 : La suppression de la variable prix entraîne la plus grande diminution du critère, il passe alors
à -21,99.
Etape 3 : Nous constatons qu'aucune suppression de variable n'améliore le modèle courant.
i Type de véhicule Cste Cylindrée Poids y
1 Daihatsu Cuore 1 846 650 5.7 5.43 0.27 0.07 q 2 Cylindrée Poids
2 Suzuki Swift 1.0 GLS 1 993 790 5.8 6.25 -0.45 0.21 AIC = -21.9986
3 Fiat Panda Mambo L 1 899 730 6.1 5.86 0.24 0.06
4 VW Polo 1.4 60 1 1390 955 6.5 7.52 -1.02 1.03
5 Opel Corsa 1.2i Eco 1 1195 895 6.8 6.99 -0.19 0.04
6 Subaru Vivio 4WD 1 658 740 6.8 5.59 1.21 1.47
7 Toyota Corolla 1 1331 1010 7.1 7.69 -0.59 0.34
8 Opel Astra 1.6i 16V 1 1597 1080 7.4 8.35 -0.95 0.90
9 Peugeot 306 XS 108 1 1761 1100 9 8.66 0.34 0.12
10 Renault Safrane 2.2. V 1 2165 1500 11.7 10.99 0.71 0.51
11 Seat Ibiza 2.0 GTI 1 1983 1075 9.5 8.83 0.67 0.44
12 VW Golt 2.0 GTI 1 1984 1155 9.5 9.20 0.30 0.09
13 Citroen ZX Volcane 1 1998 1140 8.8 9.15 -0.35 0.12
14 Fiat Tempra 1.6 Liberty 1 1580 1080 9.3 8.33 0.97 0.94
15 Fort Escort 1.4i PT 1 1390 1110 8.6 8.21 0.39 0.15
16 Honda Civic Joker 1.4 1 1396 1140 7.7 8.36 -0.66 0.43
17 Volvo 850 2.5 1 2435 1370 10.8 10.76 0.04 0.00
18 Ford Fiesta 1.2 Zetec 1 1242 940 6.6 7.26 -0.66 0.43
19 Hyundai Sonata 3000 1 2972 1400 11.7 11.60 0.10 0.01
20 Lancia K 3.0 LS 1 2958 1550 11.9 12.25 -0.35 0.12
21 Mazda Hachtback V 1 2497 1330 10.8 10.66 0.14 0.02
22 Opel Omega 2.5i V6 1 2496 1670 11.3 12.19 -0.89 0.79
23 Peugeot 806 2.0 1 1998 1560 10.8 11.04 -0.24 0.06
24 Nissan Primera 2.0 1 1997 1240 9.2 9.60 -0.40 0.16
25 Seat Alhambra 2.0 1 1984 1635 11.6 11.36 0.24 0.06
26 Toyota Previa salon 1 2438 1800 12.8 12.70 0.10 0.01
27 Volvo 960 Kombi aut 1 2473 1570 12.7 11.71 0.99 0.99
SCR 9.57
DROITEREG
Poids Cylindrée Cte
0.00450 0.00131 1.39228
0.00078 0.00038 0.49688
0.92768 0.63154 #N/A

X'X
27 48 656 32 215
48 656 98 146 440 62 516 380
32 215 62 516 380 41 004 125

INV(X'X)
0.61903339 0.00010060 -0.00063972
0.00010060 0.00000037 -0.00000064
-0.00063972 -0.00000064 0.00000151

Page | 48
Le modèle optimal au sens du critère AIC est : y = 1,39228 + 0,0131 x Cylindrée + 0,00450 x Poids
Ce résultat peut être obtenu facilement en utilisant le logiciel R (listing suivant).
> Reg=lm(cons~Prix+Puis+Cyli+Poid)
> step(reg)
Prix Cyli Puis Poid cons
1 11600 846 32 650 5.7
2 12490 993 39 790 5.8
3 10450 899 29 730 6.1
4 17140 1390 44 955 6.5
5 14825 1195 33 895 6.8
6 13730 658 32 740 6.8
7 19490 1331 55 1010 7.1
8 25000 1597 74 1080 7.4
9 22350 1761 74 1100 9.0
10 36600 2165 101 1500 11.7
11 22500 1983 85 1075 9.5
12 31580 1984 85 1155 9.5
13 28750 1998 89 1140 8.8
14 22600 1580 65 1080 9.3
15 20300 1390 54 1110 8.6
16 19900 1396 66 1140 7.7
17 39800 2435 106 1370 10.8
18 19740 1242 55 940 6.6
19 38990 2972 107 1400 11.7
20 50800 2958 150 1550 11.9
21 36200 2497 122 1330 10.8
22 47700 2496 125 1670 11.3
23 36950 1998 89 1560 10.8
24 26950 1997 92 1240 9.2
25 36400 1984 85 1635 11.6
26 50900 2438 97 1800 12.8
27 49300 2473 125 1570 12.7
Start: AIC=-18.69
cons ~ Prix + Puis + Cyli + Poid

Df Sum of Sq RSS AIC


- Puis 1 0.0263 9.3547 -20.619
- Prix 1 0.2403 9.5687 -20.008
<none> 9.3285 -18.695
- Cyli 1 1.1863 10.5148 -17.462
- Poid 1 3.4891 12.8176 -12.116

Step: AIC=-20.62
cons ~ Prix + Cyli + Poid

Df Sum of Sq RSS AIC


- Prix 1 0.2174 9.5721 -21.999
<none> 9.3547 -20.619
- Cyli 1 1.9026 11.2573 -17.620
- Poid 1 3.8373 13.1920 -13.338

Step: AIC=-22
cons ~ Cyli + Poid

Df Sum of Sq RSS AIC


<none> 9.5721 -21.9986
- Cyli 1 4.6517 14.2238 -13.3049
- Poid 1 13.4712 23.0433 -0.2785

Call:
lm(formula = cons ~ Cyli + Poid)

 Critère du PRESS
ୗୈ
Le critère du coefficient de détermination R2 n'est pas approprié. On a Rଶ = 1 − ୗେ୘ où SCT, la
somme des carrés totaux est constante quelle que soit la régression considérée ; SCR est définie de la
manière suivante : SCR = ∑୧ (y୧ − yො୧)ଶ
Quand on rajoute de nouvelles variables dans le modèle, même non pertinentes, SCR diminue
mécaniquement (au pire il reste constant), et par conséquent R2 augmente. Cela provient du fait que
l'on confronte la vraie valeur yi avec la prédiction yො୧ alors que l'observation i a participé à l'élaboration
du modèle. Si on continue à ajouter des nouvelles variables on aura un R2 = 1.
Donc, pour avoir une bonne estimation en prédiction, il ne faudrait pas que l'observation i participe à la
construction du modèle lorsqu'on veut prédire sa valeur de l'endogène. Elle intervient ainsi comme une
observation supplémentaire. On déduit alors un indicateur similaire au SCR que l'on appelle PRESS
(Predicted Residual Sum of Squares) : ‫܀۾‬۳‫∑ = ܁܁‬୧ (y୧ − yො୧(i))ଶ

Page | 49
Où yො୧(i) est la prédiction de la valeur de l'endogène pour l'observation i utilisée en donnée
supplémentaire dans la régression numéro i.
Partant du fait qu’il faut effectuer réellement n régressions, nous devons utiliser un calcul pratique du
PRESS, qui utilise la matrice H. En effet, il est possible de calculer le PRESS à partir de la seule
ෝ౟
୷౟ି୷
régression sur l'ensemble des observations en utilisant la relation suivante : y୧ − yො୧(i) = ଵି୦౟

A la différence du R2, nous disposons d'un critère puissant d'évaluation des performances en
prédiction. Il est possible dès lors de définir une stratégie de sélection de variables uniquement basé
sur ce critère de performances, sans tenir compte explicitement de la complexité du modèle. En effet,
dans la pratique, on se rend compte que si l'on rajoute des variables non-pertinentes, sans pouvoir
explicatif, le R2 peut s'améliorer, le PRESS lui en revanche se dégrade, indiquant par là l'inutilité de la
variable.
 Application : calcul du PRESS sur les données consommation
Le tableau suivant donne les détails de calcul du critère PRESS.

i Type de véhicule Cste Prix Cylindrée Puissance Poids y PRESSi

1 Daihatsu Cuore 1 11600 846 32 650 5,7 5,56 0,14 0,02 0,22 0,78 0,03
2 Suzuki Swift 1.0 GLS 1 12490 993 39 790 5,8 6,26 -0,46 0,21 0,11 0,89 0,27
3 Fiat Panda Mambo L 1 10450 899 29 730 6,1 5,89 0,21 0,04 0,14 0,86 0,06
4 VW Polo 1.4 60 1 17140 1390 44 955 6,5 7,49 -0,99 0,99 0,13 0,87 1,31
5 Opel Corsa 1.2i Eco 1 14825 1195 33 895 6,8 7,00 -0,20 0,04 0,17 0,83 0,06
6 Subaru Vivio 4WD 1 13730 658 32 740 6,8 5,74 1,06 1,13 0,29 0,71 2,21
7 Toyota Corolla 1 19490 1331 55 1010 7,1 7,67 -0,57 0,32 0,06 0,94 0,36
8 Opel Astra 1.6i 16V 1 25000 1597 74 1080 7,4 8,36 -0,96 0,93 0,06 0,94 1,05
9 Peugeot 306 XS 108 1 22350 1761 74 1100 9 8,55 0,45 0,20 0,09 0,91 0,25
10 Renault Safrane 2.2. V 1 36600 2165 101 1500 11,7 10,91 0,79 0,62 0,12 0,88 0,80
11 Seat Ibiza 2.0 GTI 1 22500 1983 85 1075 9,5 8,69 0,81 0,66 0,19 0,81 1,01
12 VW Golt 2.0 GTI 1 31580 1984 85 1155 9,5 9,29 0,21 0,04 0,10 0,90 0,05
13 Citroen ZX Volcane 1 28750 1998 89 1140 8,8 9,14 -0,34 0,12 0,07 0,93 0,14
14 Fiat Tempra 1.6 Liberty 1 22600 1580 65 1080 9,3 8,30 1,00 1,01 0,05 0,95 1,11
15 Fort Escort 1.4i PT 1 20300 1390 54 1110 8,6 8,14 0,46 0,21 0,09 0,91 0,26
16 Honda Civic Joker 1.4 1 19900 1396 66 1140 7,7 8,20 -0,50 0,25 0,20 0,80 0,40
17 Volvo 850 2.5 1 39800 2435 106 1370 10,8 10,84 -0,04 0,00 0,12 0,88 0,00
18 Ford Fiesta 1.2 Zetec 1 19740 1242 55 940 6,6 7,31 -0,71 0,50 0,09 0,91 0,60
19 Hyundai Sonata 3000 1 38990 2972 107 1400 11,7 11,57 0,13 0,02 0,58 0,42 0,09
20 Lancia K 3.0 LS 1 50800 2958 150 1550 11,9 12,35 -0,45 0,20 0,33 0,67 0,46
21 Mazda Hachtback V 1 36200 2497 122 1330 10,8 10,58 0,22 0,05 0,21 0,79 0,07
22 Opel Omega 2.5i V6 1 47700 2496 125 1670 11,3 12,23 -0,93 0,86 0,18 0,82 1,30
23 Peugeot 806 2.0 1 36950 1998 89 1560 10,8 10,99 -0,19 0,04 0,17 0,83 0,05
24 Nissan Primera 2.0 1 26950 1997 92 1240 9,2 9,44 -0,24 0,06 0,16 0,84 0,08
25 Seat Alhambra 2.0 1 36400 1984 85 1635 11,6 11,25 0,35 0,12 0,30 0,70 0,26
26 Toyota Previa salon 1 50900 2438 97 1800 12,8 12,86 -0,06 0,00 0,50 0,50 0,01
27 Volvo 960 Kombi aut 1 49300 2473 125 1570 12,7 11,88 0,82 0,67 0,27 0,73 1,25
PRESS 13,54
SCR 9,33

D’après les données du tableau ci-dessus, nous avons : SCR = 9,33 et PRESS = 13,54. Nous avons
systématiquement la relation SCR  PRESS. Plus l'écart entre ces deux indicateurs est élevé, plus le
modèle "colle" trop aux données, il intègre des spécificités du fichier et ne restitue plus la vraie
relation qui existe dans la population.

 Le Cp de Mallows
La statistique du Cp de Mallows est définie par :
SCR
C୮ = − (n − 2p)
ෝଶe
s
Cependant, avec ce critère nous avons C୔ = p et alors il ne serait plus intéressant . Pour surmonter ce
‫܁‬۱‫܀‬
problème, il ne faut pas estimer s૛e par ‫ିܘିܖ‬૚.
Page | 50
Que faisons-nous dans la pratique ? Dans la pratique, nous procédons comme suit :
1. Nous estimons sଶe par le sଶe du modèle qui fait intervenir toutes les p variables explicatives du
modèle à disposition. Pour ce modèle, qui a p + 1 paramètres, nous avons toujours : Cp+1 = p + 1. Et
pour les autres ? Cp prendra d’autres valeurs que p.
 Critère du Cp de Mallows
Nous choisissons parmi les modèles le modèle où le Cp de Mallows est le plus proche de p.
 F de Fisher
Ce critère, justifié dans le cas explicatif est aussi utilisé à titre indicatif pour comparer des séquences
de modèles emboîtés. La statistique partielle de Fisher est :
൫Rଶ − Rଶ୯൯
(SCE − SCE୯)/q ‫ݍ‬ ൫Rଶ − Rଶ୯൯ n − p − 1
F= = =
SCR/(n − p − 1) (1 − Rଶ) (1 − Rଶ) q
n−p−1
dans laquelle l’indice q désigne les expressions concernant le modèle réduit avec (p − q) variables
explicatives. On considère alors que si l’accroissement (Rଶ − Rଶ୯) est suffisamment grand :
൫ୖమ ିୖమ
౧ ൯ ୬ି୮ିଵ
F=
(ଵିୖమ) ୯
> Fa;q,(n−p−1) ; l’ajout des q variables au modèle est justifié.

13.3.2. Techniques basées sur le F partiel de Fisher


Les techniques présentées dans ce paragraphe s'appuient sur le F partiel de Fisher. En clair, on ajoute
une variable si le carré du t de Student (qui suit une loi de Fisher) indique que le coefficient associé est
significativement différent de 0 ; on supprime une variable si son coefficient n'est pas significatif

 Sélection par avant « Forward »


Il s'agit d'une technique incrémentale qui consiste à repérer à chaque étape la variable proposant un t
de Student au carré est le plus élevé, de l'ajouter dans le bloc courant si le coefficient est significatif, et
de continuer ainsi tant que les ajouts sont possibles.
On commence par p régressions simples. Si une variable a été ajoutée, on poursuit avec p-1 régressions
à 2 variables, etc. L'ajout d'une variable dépend de la significativité du coefficient de la variable
choisie, il dépend donc du risque  défini par l'utilisateur4. Si on souhaite obtenir peu de variables, on
fixe un risque faible.
Toutefois, cette méthode présente un inconvénient majeur : une variable choisie à une étape n'est plus
jamais remise en cause par la suite.
L’application de cette méthode sur les données de la consommation des véhicules se déroule comme
suit :
Etape 1 :

4
Il y a lieu de signaler que la variable à tester est celle qui maximise le F = t2. Nous sommes en situation de comparaisons
multiples. La loi sous l'hypothèse nulle est modifiée. On n'est pas sûr de prendre réellement un risque  d'accepter à tort
une variable. Pour éviter cet aspect trompeur, certains logiciels proposent de fixer directement une valeur seuil de F pour
accepter ou rejeter la meilleure variable à chaque étape. Cela peut paraître arbitraire, d'autant que les valeurs par défaut
correspondent peu ou prou à des niveaux de risques usuels. Mais au moins, le statisticien évitera de faire référence
explicitement à un niveau de risque erroné. Par exemple le logiciel SPSS offre deux possibilités à l'utilisateur : il peut fixer
un risque critique ou directement un seuil critique. L'essentiel étant de bien comprendre ce que l'on est en train de
manipuler.
Page | 51
La lecture des données ci-dessus montre que parmi les 4 régressions simples, c'est la variable poids qui
présente un t2 = 14,409² = F = 207,63 le plus élevé, elle est très significative, en tous les cas avec un p-
value largement en-deçà du niveau que l'on s'est fixé (5%).
La variable poids est donc intégrée.
Etape 2 :
Nous essayons de chercher la variable qu'on pourrait lui adjoindre. Nous effectuons 3 régressions à 2
variables (poids et une autre).

La variable cylindrée se révèle être la plus intéressante, avec un F=11,66, elle est significative à 5%.
Elle est intégrée.
Etape 3 :
Durant cette étape, nous avons 2 régressions à 3 variables (poids, cylindrée et une autre) à tester.

Page | 52
Nous constatons que la variable la plus intéressante, prix avec un F = 0,53, n'est plus significative (p-
value > 5%). On s'en tient donc au modèle à 2 variables : poids et cylindrée.
Soit le modèle final : ۱‫ = ܖܗܑܜ܉ ܕ ܕܗܛܖܗ‬૚, ૜ૢ૛ + ૙, ૙૙૞ ‫ܛ܌ܑܗ۾‬૙, ૙૙૚ ۱‫ܚ܌ܖܑܔܡ‬é‫܍‬
Le tableau suivant récapitule les résultats de cette procédure :
Résultats de la sélection Forward

Il est à noter que l'optimisation du AIC et la sélection « Forward » basé sur le F donnent les mêmes
résultats. Ce n'est pas toujours vrai dans la pratique.
L’application de cette procédure, moyennant le logiciel SPSS, sur les données de la consommation des
véhicules donne les résultats suivant (listing) :
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=FORWARD Prix Cylindrée Puissance Poids.

Page | 53
Elimination en arrière « Backward »
La procédure « Backward », qui fonctionne à l'inverse de « Forward », s’opère comme suit :
- elle commence avec la régression comportant toutes les exogènes,
- elle regarde quelle est la variable la moins pertinente au sens du carré du t de Student le plus faible,
- elle élimine la variable si elle n'est pas significative au risque 5.
- elle recommence avec les variables restantes. Le processus est interrompu lorsqu'il n'est plus possible
de supprimer une variable.
L’application de cette méthode sur les données de la consommation des véhicules se déroule comme
suit :
Etape 1 :

5
On fixe généralement un risque  plus élevé pour la suppression : la possibilité de retenir une variable est favorisée par
rapport à celle d'en ajouter. Notamment parce que la colinéarité peut masquer le rôle de certaines d'entre elles 10. Par
exemple pour le logiciel SPSS, la valeur  = 10% est proposée par défaut.
Page | 54
Le R2 du modèle complet à 4 variables est égal à 0,930. La variable la moins intéressante est
« puissance » avec un t2 = (-0,249)² = 0,0620, elle n'est pas significative à 10% (p-value = 0,806). Elle
est retirée du modèle complet.
Etape 2 :

Le modèle suivant, à 3 exogènes, possède un R2 = 0,929. La variable la moins pertinente est « prix »
qui n'est pas significative, elle est également éliminée.

Etape 3 :

Page | 55
La régression à 2 exogènes, cylindrée et poids, possède des variables qui sont toutes significatives à
10% : c'est notre modèle définitif6 avec un R2 = 0,928.
Soit le modèle final7 : ۱‫ = ܖܗܑܜ܉ ܕ ܕܗܛܖܗ‬૚, ૜ૢ૛ + ૙, ૙૙૞ ‫ܛ܌ܑܗ۾‬૙, ૙૙૚ ۱‫ܚ܌ܖܑܔܡ‬é‫܍‬
Le tableau suivant récapitule les résultats de cette procédure :
Résultats de la sélection Backward

L’application de cette procédure, moyennant le logiciel SPSS, sur les données de la consommation des
véhicules donne les résultats suivant (listing) :
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=BACKWARD Prix Cylindrée Puissance Poids.

6
Il est à remarquer que le R2 diminue à mesure que nous supprimons des variables. Mais la dégradation est minime au
regard du gain en simplicité obtenu en réduisant le nombre de variables du modèle.
7
Il est à noter que les procédures Forward et Backward, basées sur le F, ont données les mêmes résultats. Ce n'est pas
toujours vrai dans la pratique.

Page | 56
 Procédure stepwise
C’est une procédure mixte des deux méthodes « Forward et Backward ». A la première étape, on
commence par construire le meilleur modèle à 1 exogène. Par la suite, à chaque étape, on regarde si
l'ajout d'une variable ne provoque pas le retrait d'une autre. Cela est possible lorsqu'une variable
exogène expulse une autre variable qui lui est corrélée, et qui semblait pourtant plus significative dans
les étapes précédentes.
Généralement, on fixe un risque plus exigeant pour la sélection (5% par exemple, on ne fait entrer la
meilleure variable que si elle est significative à 5%) que pour la suppression (10% par exemple, on
supprime la variable la moins pertinente si elle est non significative à 10%).
L’application de cette procédure, par le logiciel SPSS, donne le modèle final suivant (voir listing
suivant) :
۱‫ = ܖܗܑܜ܉ ܕ ܕܗܛܖܗ‬૚, ૜ૢ૛ + ૙, ૙૙૞ ‫ܛ܌ܑܗ۾‬૙, ૙૙૚ ۱‫ܚ܌ܖܑܔܡ‬é‫܍‬
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=STEPWISE Prix Cylindrée Puissance Poids.

Page | 57
13.3.3. Régression « Stagewise »
La régression « Stagewise » est une procédure « Forward » qui consiste à ajouter, au fur et à mesure,
une variable qui explique au mieux la fraction de Y non-expliquée par les variables déjà sélectionnées.
L'approche de cette méthode se résume comme suit :
 On sélectionne la variable Xa qui est la plus corrélée, en valeur absolue, avec Y . On la sélectionne
si la corrélation est significativement différent de 0 au risque . Nous utilisons un test de Student à (n-

2) degrés de liberté. t ୟ =
ට భష౨²
౤షమ

 L’étape suivante consiste à choisir la variable Xb qui est la plus corrélée avec la fraction de Y non-
expliquée par Xa. Pour ce faire, on calcule le résidu de la régression : eଵ = y − (aො0 + aො1 Xa).
La variable Xb est celle qui est la plus corrélée avec e1. On l'intègre dans le modèle si la corrélation est
significativement différent de 0 au risque . Il est à signaler que les degrés de liberté sont modifiés (n-

3), il en est de même pour la statistique du test. On utilise t ୠ =
ට భష౨²
౤షయ

 Si la variable Xb est intégrée, nous cherchons la variable suivante Xc qui explique au mieux la
fraction de Y non-expliquée conjointement par Xa et Xb. Le plus simple toujours est de prendre le
résidu eଶ = y − (b෠଴ + b෠ଵXa + b෠ଶXb), de choisir la variable qui lui le plus corrélé, et de tester la
significativité du coefficient de corrélation avec un tc de Student à (n-4) degrés de liberté.

tୡ =
ට భష౨²
౤షర

 on continue ainsi jusqu'à ce qu'aucun ajout de variable ne soit possible.


 Enfin, re-estimer la droite de régression avec les variables sélectionnées.
L’application de cette méthode sur les données de la consommation des véhicules se fait comme suit :
1. Nous calculons les corrélations brutes entre Y et les exogènes ry,Xj (sorties des logiciels SPSS & R).
Page | 58
La variable la plus corrélée avec l'endogène est poids : r = 0,945.
2. Elle est significative (p-value=0,000), donc elle est acceptée.
3. Pour choisir la variable suivante, on doit :
- calculer les coefficients de la régression y = f(poids). Consommation = 1,035 + 0,007 Poids

- calculer les résidus eଵ = y − (1,035 + 0,007 Poids).


4. Nous calculons les corrélations e1 et Xj pour déterminer la variable la plus corrélée avec e1.

5. Premièrement, un résultat évident : la corrélation entre e1 et poids est nulle (=0), puisque e1 est la
fraction de la variable consommation qui n'est pas expliquée par poids.
La variable la plus intéressante est cylindrée (r=0,291), toutefois elle n’est pas significative au risque
5% (signification bilatérale =0,141).
6. Le processus de sélection de variables est arrêté.
7. le modèle retenu par cette méthode est : Consommation = 1,035 + 0,007 Poids

Page | 59
13.4. Régression Ridge
La matrice X'X est une matrice semi-définie positive, ses valeurs propres sont donc positives ou nulles.
Lorsque le déterminant de X'X est nul (ou proche de 0), nous avons une ou des valeurs propres de X'X
nulles (ou proches de 0).

En notant ൛l୨ൟ les valeurs propres de X'X et en les ordonnant λ1 ≥ λ2 ≥ · · · λp ≥ 0, nous avons qu’à
୨ୀଵ
partir d’un certain rang r, la valeur propre λr = 0 (ou λr ≈ 0). Si par contre les valeurs propres (chacune
associée à un certain vecteur propre) étaient plus grandes, alors le déterminant, qui est le produit des
valeurs propres, serait différent de 0.
Un résultat d’algèbre linéaire indique que X'X et (X'X + kIp) ont les mêmes vecteurs propres mais des
‫ܘ‬ ‫ܘ‬
valeurs propres différentes, à savoir ൛l‫ܒ‬ൟ et ൛l‫ܒ‬+ ‫ܓ‬ൟ respectivement. Ainsi, si l’on revient à la
‫ܒ‬ୀ૚ ‫ܒ‬ୀ૚
ො, remplacer (X'X)−1 par (X'X + kIp)−1 permettrait d’augmenter toutes les valeurs propres
définition de ‫܉‬
et donc celles qui sont (quasi) nulles et d’obtenir un vecteur de coefficient aො unique et stable.
Cette méthode, due à Hoerl et Kennard (1970), consiste donc à modifier (X'X) pour la rendre
ො‫܆( = )ܓ(܍܏܌ܑܚ‬′ ‫ ܆‬+ ‫ܓ‬۷‫ି)ܘ‬૚‫܆‬′ ‫ ܇‬où k est une constante
inversible et utiliser comme estimateur : ‫܉‬
positive à déterminer.
La solution des moindres carrés sera obtenue en inversant (X'X + kI) : les coefficients obtenus sont
appelés « coefficients ridge ». On trace ensuite la variation des coefficients ridge en fonction de k :
c’est la « Ridge Trace ». On détermine la valeur de k à partir de laquelle les coefficients se stabilisent :
ce sera la valeur choisie.
ො‫ → )ܓ(܍܏܌ܑܚ‬0 ;
Le choix de k constitue le point le plus délicat de cette méthode. Si k → ∞, alors : ‫܉‬
ො‫ )ܓ(܍܏܌ܑܚ‬est non nul. Si par contre k → 0, alors ‫܉‬
mais pour toute valeur finie de k : ‫܉‬ ො‫܉ → )ܓ(܍܏܌ܑܚ‬
ො.

ො‫܍܏܌ܑܚ‬
13.4.1. Propriétés statistiques de l’estimateur ridge ‫܉‬
Revenons aux définitions des estimateurs ridge et MCO :
ො‫܆( = )ܓ(܍܏܌ܑܚ‬′ ‫ ܆‬+ ‫ܓ‬۷‫ି)ܘ‬૚‫܆‬′ ‫܉ ; ܇‬
‫܉‬ ො = (‫܆‬′ ‫ି)܆‬૚‫܆‬′ ‫܇‬
ො, cela donne alors :
En pré-multipliant la seconde égalité à gauche par X'X, nous avons X'Y = X'X ‫܉‬
ො‫܆( = ܍܏܌ܑܚ‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܆‬′ ‫܉܆‬
‫܉‬ ො

Cette écriture permet de calculer facilement les propriétés de biais et de variance de l’estimateur ridge.
Le calcul de l’espérance de l’estimateur ridge donne :
ො‫܆( = )܍܏܌ܑܚ‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܆‬′ ‫܆‬۳(‫܉‬
۳(‫܉‬ ො)

= (‫܆‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܆‬′ ‫܉܆‬


= (‫܆‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚(‫܆‬′ ‫ ܆‬+ ‫ܓ‬۷− ‫ܓ‬۷)‫܉‬
= ‫ ܉‬− ‫܆(ܓ‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܉‬
ො‫ = )܍܏܌ܑܚ‬−‫܆(ܓ‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܉‬
Le biais de l’estimateur ridge vaut donc : ۰ܑ‫܉(ܛܑ܉‬

En général cette quantité est non nulle, l’estimateur ridge est biaisé. En moyenne sur toutes les
expériences possibles, l’estimateur ridge ne sera pas égal au coefficient a. Cependant, même si nous
perdons de la précision en moyenne, nous pouvons espérer que les variations autour du vrai paramètre

Page | 60
soient plus faibles dans le cas de l’estimateur ridge que dans le cas de l’estimateur des MCO.
Calculons la variance de l’estimateur ridge :
ො‫܆((܄ = )܍܏܌ܑܚ‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܆‬′ ‫)܇‬
‫܉(܄‬

= (‫܆‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܆‬′ ‫܆(܆)܇(܄‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚


= ો૛ઽ(‫܆‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚‫܆‬′ ‫܆(܆‬′ ‫ ܆‬+ ‫ܓ‬۷)ି૚
L’estimateur ridge est biaisé, ce qui constitue un handicap par rapport à l’estimateur des MCO. Par
contre sa variance fait intervenir (X'X + kI)−1 et non pas (X'X)−1. Or l’introduction de kI permet
d’augmenter les valeurs propres de (X'X + kI), donc la variance sera plus faible.
13.4.2. Application sur les données consommation des véhicules
Le tableau suivant donne le code des logiciels R et SAS concernant la régression Ridge.

CODE R CODE SAS


mod.ridge=lm.ridge(Consom~.,data=données,lambda=seq(0,1,0.01))
title 'Ridge-regression sur le modele consommation des véhicules' ;
par(mfrow=c(1,1))
proc reg data=data ridge = 0 to 1 by 0.05 outest =coeff_ridge ;
plot(mod.ridge)
LOG: model Consom=Cylindre Poids Puissance ;
legend("top",legend=rownames(mod.ridge$coef),col=1:1,lty=10:3)
plot / ridgeplot ;
# Evolution des coefficients
run; quit;
coefficients(mod.ridge)
proc print data = coeff_ridge ;
#Sélection de la valeur lamda où les coefficients se stabilisent
run ;
select(mod.ridge)

RESULTATS R RESULTATS SAS


Obs. _RIDGE_ Intercept Cylindre Poids Puissance
k Constante Cylindre Puissance poids
1 . 1.70205 .000493538 .004228848 0.018251
0.00 1.702048 0.0004935384 0.004228848 0.01825051
2 0.00 1.70205 .000493538 .004228848 0.018251
0.05 1.711923 0.0005068776 0.004206893 0.01815109
3 0.05 1.95928 .000707746 .003750150 0.017327
0.10 1.721779 0.0005194741 0.004185430 0.01806162
4 0.10 2.17197 .000792562 .003438535 0.017415
0.15 1.731607 0.0005313931 0.004164436 0.01798103
5 0.15 2.35281 .000836205 .003212876 0.017548
0.20 1.741401 0.0005426920 0.004143892 0.01790842
6 0.20 2.51198 .000860354 .003038653 0.017621
0.25 1.751155 0.0005534217 0.004123777 0.01784295
7 0.25 2.65564 .000873551 .002897983 0.017632
0.30 1.760863 0.0005636274 0.004104074 0.01778393
8 0.30 2.78759 .000879981 .002780573 0.017593
0.35 1.770522 0.0005733493 0.004084766 0.01773070
9 0.35 2.91030 .000881970 .002680051 0.017516
0.40 1.780128 0.0005826235 0.004065839 0.01768273
10 0.40 3.02546 .000880926 .002592252 0.017411
0.45 1.789678 0.0005914824 0.004047278 0.01763950
11 0.45 3.13427 .000877751 .002514328 0.017284
0.50 1.799171 0.0005999550 0.004029069 0.01760057
12 0.50 3.23763 .000873051 .002444266 0.017143
0.55 1.808603 0.0006080677 0.004011201 0.01756555
13 0.55 3.33620 .000867245 .002380597 0.016991
0.60 1.817975 0.0006158444 0.003993661 0.01753409
14 0.60 3.43050 .000860634 .002322220 0.016830
0.65 1.827284 0.0006233066 0.003976438 0.01750585
15 0.65 3.52098 .000853438 .002268296 0.016664
0.70 1.836530 0.0006304742 0.003959523 0.01748057
16 0.70 3.60796 .000845818 .002218169 0.016494
0.75 1.845712 0.0006373650 0.003942904 0.01745798
17 0.75 3.69173 .000837899 .002171319 0.016322
0.80 1.854830 0.0006439956 0.003926572 0.01743784
18 0.80 3.77255 .000829773 .002127329 0.016149
0.85 1.863884 0.0006503810 0.003910519 0.01741995
19 0.85 3.85062 .000821514 .002085857 0.015975
0.90 1.872873 0.0006565351 0.003894736 0.01740411
20 0.90 3.92613 .000813177 .002046621 0.015802
0.95 1.881798 0.0006624708 0.003879215 0.01739014
21 0.95 3.99923 .000804807 .002009386 0.015630
1.00 1.890659 0.0006681998 0.003863949 0.01737790
22 1.00 4.07007 .000796439 .001973953 0.015459

Page | 61
RESULTATS R RESULTATS SAS

Cylindre
Poids
1.2

Puissance
1.0
t(x$coef)

0.8
0.6
0.4

0.0 0.2 0.4 0.6 0.8 1.0

x$lambda

Page | 62
SECTION 2 : ASPECTS PRATIQUES
Durant cette section, nous allons exposer la procédure à suivre pour trouver les calculs détaillés de la
régression linéaire multiple aussi bien avec un logiciel statistique « SPSS » qu’avec un tableur.

1. En utilisant le logiciel SPSS


Pour réaliser une régression linéaire multiple avec SPSS :
1. Choisissez Analyse, puis Régression et Linéaire.

2. En cliquant sur , insérez la variable dépendante dans la boite Dépendant et la ou les


variables indépendantes dans leur boite. Puisque vous réalisez une régression simple, vous n'en
placez qu'une.
2. Vous laissez également la méthode d'analyse par défaut, c'est-à-dire le modèle Entrée qui utilise
toutes les variables choisies pour prédire la variable dépendante. Vous verrez les autres modèles
plus en détails si vous suivez un cours de statistiques avancées.

Pour le choix de la méthode de régression, autre que le modèle Entrée, voir le paragraphe de la
régression linéaire multiple.
4. Vous pouvez choisir une variable de filtrage pour limiter l'analyse à un sous-échantillon formé par
les participants ayant obtenu une ou des valeur(s) particulière(s) à cette même variable.
5. Vous pouvez aussi spécifier une variable qui permettra d'identifier les points sur le graphique
(Étiquettes d'observation).
6. Enfin, vous pouvez choisir une variable numérique pondérée (Poids WLS) pour effectuer
l'analyse des moindres carrés. Par cette analyse, les valeurs sont pondérées en fonction de leurs
variances réciproques, ce qui implique que les observations avec de larges variances ont un impact
moins important sur l'analyse que les observations associées à de petites variances.

Page | 63
7. Pour procéder à l'analyse, cliquez sur .

Le bouton
Dans la régression linéaire simple, vous pouvez conserver les statistiques par défaut fournies par SPSS.
D'abord, vous obtiendrez les estimations des coefficients de régression qui permettent de reconstituer
l'équation de la droite de régression.
Vous obtiendrez également un tableau basé sur la distribution F vous informant de la qualité de
l'ajustement du modèle.

Les autres options fournies par le bouton sont les suivantes :


Intervalles de confiance : cette option indique les intervalles de confiance pour les coefficients de
régression.
Matrice de covariance : cette option affiche une matrice de covariance, les coefficients de corrélation
et les variances entre les coefficients de régression et les variables du modèle.
Variation de R-deux : cette option indique les changements du R2 lorsque l'on ajoute un (ou un
ensemble de) prédicteurs. Cette mesure est très utile dans la régression multiple pour voir la
contribution des nouveaux prédicteurs à la variance expliquée.
Caractéristiques : cette option affiche non seulement un tableau qui inclut le nombre d'observations,
la moyenne et l'écart-type de chaque variable, mais aussi une matrice de corrélation entre les variables
inclues dans le modèle.
Mesure et corrélations partielles : cette mesure effectue une corrélation de Pearson entre la variable
dépendante et la variable indépendante. Elle effectue une deuxième corrélation en contrôlant l'effet des
autres variables indépendantes (dans la régression multiple). Finalement, toujours pour la régression
multiple, elle réalise une corrélation partielle entre la variable indépendante et la variable dépendante.
Cette corrélation est basée sur la variance qui n'est pas expliquée par les autres variables
indépendantes.
Tests de colinéarité : la régression multiple est basée sur la prémisse d'absence de multicolinéarité
entre les variables indépendantes (ces variables ne doivent pas être fortement corrélées entre elles).
Cette mesure vérifie donc cette prémisse.
Durbin-Watson : la régression multiple exige aussi l'indépendance des résiduels. Cette option permet
de vérifier cette prémisse. Toutefois, SPSS ne fournit pas le degré de signification du test. Le
chercheur doit donc décider si le résultat est suffisamment différent de deux pour dire qu'il ne respecte
pas la prémisse.

Page | 64
Diagnostic des observations : cette option liste les valeurs observées de la variable dépendante, les
valeurs prédites, la différence et la différence standardisée entre ces deux valeurs (les résiduels). Les
valeurs peuvent être présentées pour toutes les observations ou pour les points atypiques (par défaut,
les observations qui se situent à plus de trois écart-types standardisés de la moyenne. On recommande
de baisser ce seuil à deux, puisque généralement, les valeurs extrêmes se situent à deux écart-types et
plus). Finalement, un tableau synthèse indique les valeurs minimales, maximales, la moyenne et
l'écart-type des valeurs observées et des résiduels.

Cliquez sur pour revenir à la boite de dialogue principale.

Le bouton
Ce bouton vous permet de réaliser plusieurs graphiques qui peuvent vous aider à vérifier certaines
prémisses de la régression.

Les variables dans la boite de gauche se définissent comme suit :


DEPENDNT : variable dépendante
*ZPRED : valeur prédite standardisée de la variable dépendante basée sur le modèle.
*ZRESID : résiduel standardisé (différence standardisée entre les valeurs observées et les valeurs
prédites par le modèle).
*DRESID : résiduels supprimés (différence entre la valeur prédite ajustée et la valeur observée).
*ADJPRED : valeurs prédites ajustées (valeur prédite pour un cas lorsque ce cas est retiré du modèle).
*SRESID : résiduel studentisé (résiduel non standardisé divisé par un estimé de son écart-type qui
varie point par point).
*SDRESID : résiduel supprimé studentisé (résiduel supprimé divisé par son erreur standard).
Vous insérez donc les variables pour lesquelles vous voulez produire un graphique dans les boites X et

Y. Vous pouvez réaliser plus d'un graphique en appuyant sur le bouton . Vous devez à ce
moment introduire une variable dans les boites X et Y.
Si vous cochez l'option Générer tous les graphiques partiels, vous obtiendrez les graphiques pour les
résiduels ou les observations de la variable dépendante en fonction de chaque variable indépendante
(bien entendu, cette option est plus pertinente pour la régression multiple).
Vous pouvez également obtenir l'Histogramme des résiduels standardisés et le Diagramme de
répartition gaussien. Ces deux graphiques sont très utiles pour vérifier la prémisse de distribution
normale des résiduels de la régression multiple.

Cliquez sur pour revenir à la boite de dialogue principale.

Page | 65
Le bouton
Il est possible de sauvegarder les valeurs calculées par le modèle de régression et d'en faire de
nouvelles variables dans la base de données. Les options concernant les valeurs prédites et les résiduels
ont été définis dans la section précédente.

L'encadré des distances offre trois tests qui permettent d'identifier les observations qui influencent
fortement le modèle :
Distance de Mahalanobis : mesure la distance entre une observation et la moyenne des valeurs
prédites. Le point de coupure indiquant une distance problématique dépend du nombre de prédicteurs
et de la taille de l'échantillon. Il faut donc se référer à la table de Barnett et Lewis (1978).
Distance de Cook : statistique qui considère l'effet d'un cas sur l'ensemble du modèle. Les valeurs plus
élevées que 1 doivent retenir l'attention du chercheur.
Valeurs influentes : mesure de l'influence de la valeur observée de la variable dépendante sur les
valeurs prédites. Cette valeur se calcule par le nombre de prédicteurs (k) + 1 divisé par le nombre de
d'observations (N) et se situe entre 0 (aucune influence de l'observation sur la valeur prédite) et 1
(influence complète de l'observation sur la valeur prédite).
L'encadré des Intervalles de la prédiction permet de sauvegarder les valeurs minimales et maximales
prédites pour l'ensemble du modèle (Moyenne) et ces mêmes valeurs pour chaque observation
(Individuelle). L'intervalle de confiance est fixé à 95 %.
L'encadré des Statistiques d'influence permet d’obtenir :
DfBeta(s) : variation de la variable beta du coefficient de régression qui résulte de l'exclusion d'une
observation. Une valeur est calculée pour chaque terme du modèle, incluant la constante.
DfBeta(s) standardisés : variation de la variable beta standardisée.
Différence de prévision : différence du degré d'ajustement du modèle qui représente le changement de
la valeur prédite qui résulte du retrait d'une observation particulière.
Dfprévision standardisée : différence du degré d'ajustement du modèle standardisée.
Rapport de covariance : rapport entre le déterminant de la matrice de covariance lorsqu'une
observation est exclue du calcul du coefficient de régression et le déterminant de la matrice de
covariance lorsque toutes les observations sont inclues. Si le ratio est près de 1, l'observation
n'influence pas significativement la matrice de covariance.
Page | 66
L'encadré Satistiques à coefficients : vous pouvez Créer des statistiques à coefficient et les
enregistrer comme un nouvel ensemble de données. Cet ensemble sera disponible pour une utilisation
ultérieure durant la même session, mais pas pour la session suivante à moins que vous ne les
sauvegardiez par vous-mêmes. Vous pouvez également écrire un nouveau fichier de données.
L'encadré Exporter les informations du modèle dans un fichier XML : vous pouvez exporter les
paramètres estimés du modèle et leur matrice de covariance dans un fichier spécifique. Vous pourrez
utiliser les informations associées à ce modèle pour une autre base de données à partir des logiciels
SmartScore et SPSS Server.

Cliquez sur pour revenir à la boite de dialogue principale.

Le bouton
La dernière boite de dialogue vous offre quelques autres options.
Le premier encadré concerne la régression multiple pas à pas (Paramètres des méthodes
progressives). Vous pouvez Choisir la probabilité de F pour l'Entrée des variables dans le modèle.
Idéalement, vous conserver le choix par défaut (seuil de 0,05), mais vous pouvez également rendre
votre modèle plus sévère et fixer ce seuil à 0,01. Vous pouvez aussi modifier la valeur de
Suppression, comme vous pouvez Choisir la valeur de F pour l'Entrée et la Suppression. Dans ce
cas, il vous faudrait la modifier en fonction du nombre de variables introduites dans le modèle à partir
d'une distribution F. C'est donc plus simple de se baser sur la probabilité de F qui demeure la même
peu importe le nombre de variables.
Vous pouvez Inclure le terme constant dans l'équation (ordonnée à l'origine) ou non. Le retrait de la
constante n'est pas vraiment conseillé.
Enfin, vous choisissez ce que vous désirez faire avec les valeurs manquantes. Vous pouvez conserver
l'option par défaut et Exclure toute observation incomplète de la régression ou Exclure seulement
les composantes non valides. Dans ce cas, vous feriez l'analyse pour les observations qui ont des
données complètes pour les paires de variables corrélées (une variable indépendante et une variable
dépendante). Puisque seulement deux variables sont mises en relation dans la régression simple, ça ne
fait aucune différence. Enfin, vous pouvez également Remplacer par la moyenne les valeurs
manquantes. Ce n'est pas nécessairement le meilleur choix, puisque rien ne prouve que les valeurs
manquantes se situeraient en réalité près de la moyenne. Idéalement, vous conservez l'option par
défaut.

Cliquez sur pour revenir à la boite de dialogue principale.


1. Pour réaliser l’analyse, cliquez sur Analyse, Régression, puis Linéaire.

Page | 67
2. En cliquant sur , insérez la variable dépendante et la ou les variable(s) indépendante(s) dans
les boîtes appropriées.

3. Si vous désirez absolument que la première variable indépendante soit incluse, privilégiez la
méthode Entrée.
4. Pour créer des blocs (groupes) de variable(s) indépendante(s) dans le cadre d'une régression

hiérarchique, cliquez sur lorsque le premier bloc est construit, puis insérez les variables
indépendantes des autres blocs en répétant cette procédure. La méthode de régression (Entrée, Pas à
pas, etc.) peut être déterminée pour chaque bloc. Habituellement, la méthode Entrée est utilisée à
moins d'a priori théoriques particuliers.

5. Vous pouvez choisir une variable de filtrage pour limiter l'analyse à un sous-échantillon formé par
les participants ayant obtenu une ou des valeur(s) particulière(s) à cette même variable.

Page | 68
6. Vous pouvez aussi spécifier une variable qui permettra d'identifier les coordonnées sur le
graphique (Étiquettes d'observation).
7. Enfin, vous pouvez choisir une variable numérique pondérée (Poids WLS) pour effectuer
l'analyse des moindres carrés. Par cette analyse, les valeurs sont pondérées en fonction de leurs
variances réciproques, ce qui implique que les observations avec de larges variances ont un impact
moins important sur l'analyse que les observations associées à de petites variances.
8. Assurez-vous d'avoir sélectionné les options nécessaires (par exemple, sous le bouton
Statistiques).
9. Pour procéder à l'analyse, cliquez sur .
Une présentation détaillée de toutes les options est disponible dans le procédurier de la régression
simple.

Le bouton
Pour la régression multiple, nous suggérons de cochez les options suivantes :

L’encadré Coefficients
Estimations : valeurs b pour chaque VI et son test de signification
Intervalles de confiance : intervalle pour chaque coefficient dans la population
L’encadré Résidus
Durbin-Watson : évaluation de l’indépendance des erreurs
Diagnostic des observations : valeur de la VD observée, prédite, du résiduel et du résiduel standardisé
pour chaque observation. Indique quelles observations ont un résiduel standardisé de plus de 2 ou 3 é.-
t. (au choix de l'utilisateur)
Les autres statistiques
Qualité de l’ajustement : fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le R2
correspondant et le R2 ajusté
Variation de R-deux : changement du R2 après l’ajout d’un nouveau bloc de VI
Caractéristiques : moyenne, é.-t. et N pour toutes les variables du modèle
Mesure et corrélations partielles :
Corrélation entre chaque VI et la VD
Corrélation partielle entre chaque VI et VD en contrôlant pour les autres VI
Corrélation « partie » ou semi-partielle entre chaque VI et la variance non expliquée de la VD par les
autres VI
Test de colinéarité : évaluation de la multicolinéarité dans le modèle (VIF).

Cliquez sur pour revenir à la boite de dialogue principale.

Page | 69
Le bouton
Les graphiques offerts permettent de vérifier par un examen visuel les prémisses de la régression
linéaire multiple. Celui croisant les valeurs prédites (*ZPRED) et résiduelles (*ZRESID) standardisées
illustre le respect (ou le non respect) de la prémisse d’homogénéité (répartition aléatoire des points
autour de 0) et de linéarité (tendance des points à se concentrer autour d’une ligne).

Pour faire plus d'un graphique, utilisez le bouton .


L’encadré des diagrammes des résidus normalisés permet d’illustrer la distribution des résiduels
(histogramme et diagrammes de répartition gaussiens), ce qui vous permet de faire un examen visuel
du respect de la prémisse de normalité de la distribution des erreurs.

Cliquez sur pour revenir à la boîte de dialogue principale.

Le bouton
Toutes les options disponibles dans ce menu permettent de créer des nouvelles variables ayant les
valeurs calculées par le modèle. Il s’agit donc de choisir les variables diagnostiques permettant
d’évaluer la qualité du modèle et celles qui permettent de détecter les variables ayant une importante
influence sur le modèle. On choisira donc minimalement les résidus standardisés, mais on peut
également ajouter les valeurs prédites non standardisées et standardisées (valeur de la VD calculée
pour chaque observation) ainsi que la distance de Cook et les DfBêta(s) standardisés. Notez qu’en
cochant des options dans la boîte de dialogue Enregistrer, vous allez obtenir un tableau de résultats de
plus portant sur les statistiques des résidus et comprenant minimalement la moyenne, l’écart-type, les
valeurs minimales et maximales ainsi que le N.

Page | 70
Cliquez sur pour revenir à la boîte de dialogue principale.

Le bouton
La dernière fenêtre vous permet de déterminer les paramètres de sélection des méthodes d'entrée
progressives (Ascendante ou descendante - stepwise). Vous pouvez utiliser la valeur de la probabilité
associée à la valeur F (soit la valeur de p) ou encore la valeur de la statistique F pour introduire ou
retirer des variables. Idéalement, vous conservez les valeurs par défaut à moins que vous ne vouliez
que les critères d'entrée ou de retrait des variables de votre modèle soient plus sévères ou plus
inclusifs.

Évidemment, vous laissez aussi la constante dans l’équation. Vous pouvez finalement spécifier ce que
vous désirez faire avec les valeurs manquantes. Encore une fois, l’option par défaut est à privilégier
puisque le retrait de toute observation incomplète permet de conserver toujours le même nombre
d’observations, ce qui favorise la cohérence du modèle.

Cliquez sur pour revenir à la boite de dialogue principale.

Page | 71
2. En utilisant la fonction « DROITEREG » du logiciel EXCEL

Page | 72
Page | 73
Page | 74
ANNEXES

Page | 75
Page | 76
Page | 77
Page | 78
Page | 79
Page | 80
Page | 81
Page | 82
Page | 83
Page | 84
REFERENCES BIBLIOGRAPHIQUES

Arnaud Guyader 2011, « Régression linéaire », Université Rennes 2.

C.Chouquet 2009-2010, « Modèles linéaires », Laboratoire de Statistique et Probabilités - Université


Paul Sabatier – Toulouse.

Caroline BERNARD-MICHEL 2002, « Etude sur la régression linéaire », Etude n°70/00, Laboratoire
National d’Essaies (LNE).

Caroline VERHOEVEN, « Chapitre II : La régression multiple ». STAT-G204.

Catherine DEHON 2013-2014, « Introduction à l'économétrie », Université libre de Bruxelles.

Emmanuelle RENY-NOLIN, « L’article de Francis Galton » Journal of the Anthropological Institute,


vol. 15, 1886. Département de mathématiques et de statistique, Université LAVAL.

Francis GALTON 1886, « Regression towards mediocrity in hereditary stature ».


http://www.galton.org/essays/1880-1889/galton-1886-jaigi-regre ssion-stature.pdf.

Frédéric Bertrand & Myriam Maumy-Bertrand 2012, « Choix du modèle de la régression linéaire
multiple », IRMA, Université de Strasbourg, France.

Gilles RAICHE 2013, « Régression simple et régression multiple », leçon 08 in Collecte et traitement
de variables quantitatives en éducation, MAE 7020.

Huyên PHAM 2002-2003, « Cours d’économétrie », Maitrise MASS, Université Paris 7.

Jerôme HUILLET 2002, « INITIATION AL'ENVIRONNEMENT R », Université Paul SABATIER,


Toulouse III.

Josiane CONFAIS - Monique LE GUEN 2006, « PREMIERS PAS en REGRESSION LINEAIRE


avec SAS », Revue MODULAD, numéro 35.

Nocolas JUNG 2015, « Régression linéaire avec R avec l’utilisation de ggplot2 »

Pierre-André Cornillon & Eric Matzner-Løber 2011, « Régression avec R ».

Régis BOURBONNAIS 2015, « Cours et exercices corrigés », 9ème édition.

Ricco RAKOTOMALALA 2013, « La régression linéaire simple et multiple ». Pratique de la


Régression Linéaire Multiple ». Version 1.0. Université Lumière Lyon 2.

Ricco RAKOTOMALALA 2015, « Pratique de la Régression Linéaire Multiple ». Diagnostic et


sélection de variables. Université Lumière Lyon 2.

Yves TILLE 2011, « Résumé du cours de modèles de régression».

Page | 85

Vous aimerez peut-être aussi