Econometrie Regression

Ricco Rakotomalala
Economtrie
La rgression linaire simple et multiple

Version 1.0
Universit Lumire Lyon 2

Page: 1
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 2
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Avant-propos
Lorsqu'on m'a demand si je voulais assurer le cours d'conomtrie en Licence L3-IDS (http://dis.
univ-lyon2.fr/), j'ai ressenti une grande joie mais aussi une certaine inquitude.
D'une part une grande joie car c'est travers l'conomtrie que je suis venu au traitement statistique
des donnes. Lorsque j'ai vu un nuage de point avec une forme plus ou moins arme, et que j'ai
compris qu'on pouvait en dduire une liaison fonctionnelle reprsente par une courbe passant au milieu
de ces points, je me suis dit qu'il y avait l quelque chose de magique. Je trouvais formidable l'ide
que des donnes reclent une vrit que l'on est capable de reconstituer ou bien, inversement, que l'on
s'imagine une certaine forme de vrit que l'on peut conrmer ou inrmer travers des donnes observes,
totalement objectives. Par la suite, de l en aiguille, j'ai dcouvert une trs vaste littrature autour de
ces principes. Les appellations sont direntes selon les cultures : on parle d'analyse de donnes, de data
mining, etc. Mais qu'importe nalement, pour ma part je sais trs bien ce que je fais. Et ce qui tait
initialement une sorte de loisir (ah,
procdures
statistiques... 1 )
le temps pass sur mon Thomson M05 programmer des petites
est devenu mon mtier.
D'autre part, je ressentais quand mme un certaine inquitude car c'tait la premire fois que je passais de l'autre ct de la barrire dans ce domaine. A priori, je connais bien la rgression. Je l'ai beaucoup
tudie jusqu'en DEA (l'quivalent d'un Master 2 Recherche de nos jours). Trouver mes repres ne devait
pas poser de problmes particuliers. Mais comme la grande majorit des tudiants (j'imagine), j'avais
surtout tudi dans l'optique de restituer, pour prparer les examens quoi (un peu pour la programmer aussi, d'o le logiciel REGRESS qui a prs de 20 ans aujourd'hui, et qui est toujours en ligne
http://eric.univ-lyon2.fr/~ricco/regress.html mme si, honntement, il doit y avoir trs peu

d'utilisateurs je pense). Ici, l'aaire est autrement plus corse. Il s'agit d'expliquer d'autres personnes.
La dirence est norme. C'est donc non sans inquitude que j'ai sorti mes anciennes notes de cours
(entres autres les fameux polycopis de Patrick Sylvestre-Baron de la Facult de Sciences conomiques
de l'Universit Lyon 2) et que j'ai fait l'acquisition de plusieurs ouvrages qui allaient me servir de base
de prparation.
1. La courbe bleue trace une allure d'escargot au milieu des points verts (on n'avait droit qu' 16 couleurs
en mode graphique), c'tait jouissif !
Page: 3
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Avant-propos
Je me suis rendu compte que la rgression linaire est toujours aussi passionnante. Plus mme, les
annes post DEA passes tudier les techniques de Data Mining, en particulier l'apprentissage supervis,
m'ont apport un recul que je n'avais pas (quelques annes en plus, il faut bien que a serve quelque
chose aussi). Tout de suite, j'ai pu raccrocher ce que je lisais ce que je savais par ailleurs. Quand mme, ils
avaient vraiment dcouvert beaucoup de choses ces conomtres. Par exemple, pouvoir calculer une erreur
de prdiction en leave-one-out sans avoir construire explicitement le modle sur les (n 1) observations
grce au concept de
levier est tout bonnement fabuleux. En retour, j'ai mieux compris certains aspects
de l'apprentissage supervis en tudiant les techniques conomtriques. Bref c'est tout bonus. Ce travail
m'a d'ailleurs permis par la suite de monter mon cours de rgression logistique, et de rdiger le support
associ [14].
Reste une question. A quoi peut bien servir un polycopi supplmentaire sur la rgression linaire
simple et multiple. En eet, ils sont lgions sur internet (tapez "conomtrie" dans Google pour voir).
S'il s'agit de reproduire ce qui est dj (trs bien) crit par ailleurs, on ne voit pas vraiment o est
l'intrt.
La premire raison est mon cours de licence. Au l des annes, le nombre d'heures dont je dispose
pour le faire a t rduit comme une peau de chagrin. Ce qui ne manque pas de me chagriner d'ailleurs
(ok, ok, elle est facile celle-l). Comme je ne souhaite absolument pas diminuer le nombre des sances TD
sur machine, je suis oblig de rogner sur les CM. De fait, il ne m'est plus possible de dtailler certaines
dmonstrations au tableau comme je pouvais le faire nagure. De mme, en utilisant de plus en plus des
slides pour le cours, je fais des ellipses de nombreux endroits. Je me suis dit que la seule manire de
donner des repres identiques tous les tudiants est de leur pargner la prise de notes en fournissant le
cours rdig. En cela, mon cours d'conomtrie se rapproche de plus en plus de mon cours de Data Mining
o je parle de beaucoup de choses en trs peu de temps en me focalisation sur les aspects oprationnels
(en cours tout du moins), mais en donnant accs aux tudiants une abondante documentation gratuite.
La seconde raison est que cela me permet tout simplement de prsenter les choses ma manire,
en donnant la part belle aux exemples traits sur tableur 2 . Ce qui est une de mes principales marques
de fabrique. Parfois, je ferais le parallle avec les rsultats fournis par les logiciels de statistique, en
privilgiant toujours les outils libres (Tanagra, Regress et R principalement) 3 . Ainsi, le lecteur pourra
refaire tous les calculs dcrits dans ce document. A cet eet, les chiers de donnes qui ont servi sa
prparation sont galement accessibles en ligne. Ils sont numrs en annexes.
Bien videmment, selon l'expression consacre, ce support n'engage que son auteur. Toutes suggestions
ou commentaires qui peuvent en amliorer le contenu sont bienvenus.
2. Excel, mais sous Open Oce les traitements sont identiques.
3. Parfois je m'autoriserai des digressions sur des outils un peu moins gratuits, mais ayant pignon sur rue
(SAS, SPAD, SPSS et STATISTICA pour ne pas les nommer). Parce que certains d'entre vous les rencontreront
en entreprise. Je ne suis pas sectaire non plus.
Page: 4
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Table des matires
Partie I Rgression Linaire Simple

1
Modle de rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Modle et hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Principe de l'ajustement des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Estimateur des moindres carrs ordinaires (MCO) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Calculs pour les donnes "Rendements agricoles" . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Dcomposition de la variance et coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Dcomposition de la variance - quation d'analyse de variance . . . . . . . . . . . . . . . . .
1.3.2 Coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.3.3 Coecient de corrlation linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.3.4 L'exemple des rendements agricoles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.2 Variance - Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.2.1 Variance de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.2.2 Convergence de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.3 Variance et convergence de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.2.4 Quelques remarques sur la prcision des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3 Thorme de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
Infrence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1 valuation globale de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1.1 Tableau d'analyse de Variance - Test de signicativit globale . . . . . . . . . . . . . . . . . .
21
3.1.2 Exemple : les rendements agricoles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2 Distribution des coecients estims . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
Page: 5
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Table des matires
3.2.1 Distribution de a
et b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.2 Estimation de la variance de l'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.2.3 Distribution des coecients dans la pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.3 tude de la pente de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.3.1 Test de signicativit de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.3.2 Test de conformit un standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.3.3 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.4 Intervalle de conance de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.5 La rgression avec la fonction DROITEREG d'EXCEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.6 Quelques quivalences concernant la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.6.1 quivalence avec le test de signicativit globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.6.2 quivalence avec le test de signicativit de la corrlation . . . . . . . . . . . . . . . . . . . . .
34
Prdiction et intervalle de prdiction
.............................................
37
4.1 Prdiction ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
4.2 Prdiction par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.2.1 Variance de l'erreur de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.2.2 Loi de distribution de l'erreur de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
4.2.3 Intervalle de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
4.2.4 Application numrique - Rendements agricoles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
tude de cas - Consommation des vhicules vs. Poids . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Non linarit - Modles drivs et interprtation des coecients . . . . . . . . . . . . . . . . . .
47
6.1 Interprtation de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
6.2 Modles non-linaires mais linarisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
6.2.1 Modle log-linaire - Schma lasticit constante . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
6.2.2 Modle exponentiel (gomtrique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
6.2.3 Modle logarithmique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
6.2.4 Le modle logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
6.3 Un exemple de modle logistique : taux d'quipement en magntoscope des mnages . . . .
51
Rgression sans constante
........................................................
55
7.1 Cas des donnes centres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
7.2 Cas des donnes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
7.2.1 Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
7.2.2 Formules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
7.3 Un exemple d'application : comparaison de salaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
Page: 6
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Table des matires
Comparaison des rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
8.1 Comparaison des rgressions dans leur globalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
8.1.1 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
8.1.2 Un exemple numrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
8.2 Dtecter la nature de la dirence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
8.2.1 Dirences entre les pentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
8.2.2 Dirences entre les constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
8.3 Un rcapitulatif des direntes SCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
8.4 Le cas particulier de K = 2 groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
8.4.1 Tester l'galit des variances de l'erreur dans les 2 groupes . . . . . . . . . . . . . . . . . . . . .
69
8.4.2 Comparaison des coecients - Cas des variances identiques . . . . . . . . . . . . . . . . . . . .
69
8.4.3 Comparaison des coecients - Cas des variances direntes . . . . . . . . . . . . . . . . . . . .
70
8.4.4 Application numrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
8.5 Deux tudes de cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
8.5.1 Le salaire selon le niveau d'tudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
8.5.2 Taille des mduses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
Partie II Rgression Linaire Multiple

9
Rgression linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
9.1 Formulation - Hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
9.2 Notation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
9.3 Hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
9.4 Ajustement des moindres carrs ordinaires (MCO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
9.4.1 Minimisation de la somme des carrs des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
9.4.2 criture matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
9.4.3 Un exemple : consommation des vhicules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
9.4.4 Quelques remarques sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
9.5 Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
9.5.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
9.5.2 Variance - Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
9.5.3 L'estimateur des MCO est BLUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
9.6 Estimation de la variance de l'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
9.6.1 Estimation de la variance de l'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
9.6.2 Estimation de la matrice de variance covariance des coecients . . . . . . . . . . . . . . . .
95
9.6.3 Dtails des calculs pour les donnes "Consommation des vhicules" . . . . . . . . . . . . .
95
9.6.4 Rsultats fournis par la fonction DROITEREG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
Page: 7
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Table des matires
10 Tests de signicativit
............................................................
99
10.1 Tableau d'analyse de variance et coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . .
99
10.1.1 Tableau d'analyse de variance et coecient de dtermination . . . . . . . . . . . . . . . . . .
99
10.1.2 R2 corrig ou ajust . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
10.1.3 Coecient de corrlation linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

10.1.4 Application aux donnes "Consommation des vhicules" . . . . . . . . . . . . . . . . . . . . . . . 102
10.2 Test de signicativit globale de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.2.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.2.2 Statistique de test et rgion critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.3 Test de signicativit d'un coecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
10.3.1 Dnition du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
10.3.2 Tests pour la rgression "Consommation des vhicules" . . . . . . . . . . . . . . . . . . . . . . . 105
10.3.3 Tests pour la rgression "Cigarettes" incluant la variable ALEA . . . . . . . . . . . . . . . . 106
10.4 Test de signicativit d'un bloc de coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
10.4.1 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
10.4.2 Tester la nullit simultane des coecients de "cylindre" et "puissance" . . . . . . . . 107
10.4.3 Tester la nullit de 3 coecients dans la rgression "Cigarettes" . . . . . . . . . . . . . . . . 109
10.4.4 Exprimer la statistique de test avec les SCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
11 Gnralisation de l'tude des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
111
11.1 Infrence sur les coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

11.1.1 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
11.1.2 Test de conformit un standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
11.2 Test de conformit pour un bloc de coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.2.1 Principe du test pour un groupe de coecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.2.2 Reconsidrer le test de signicativit d'un bloc de coecients . . . . . . . . . . . . . . . . . . 114
11.2.3 Test de conformit pour plusieurs coecients - Donnes "Cigarettes" . . . . . . . . . . . 115
11.2.4 Cas particulier : lorsque q = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
11.3 Test de contraintes linaires sur les coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
11.3.1 Formulation du test de combinaison linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
11.3.2 criture de la matrice M pour les tests de conformit . . . . . . . . . . . . . . . . . . . . . . . . . 118
11.3.3 Aller plus loin avec les tests portant sur des contraintes linaires . . . . . . . . . . . . . . . 118
11.3.4 Rgression sous contraintes - Estimation des coecients . . . . . . . . . . . . . . . . . . . . . . . 120
11.3.5 Test de contraintes linaires via la confrontation des rgressions . . . . . . . . . . . . . . . . 123
12 Prdiction ponctuelle et par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
125
12.1 Prdiction ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

12.2 Intervalle de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
12.3 Prdiction pour le modle "Consommation de vhicules" . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Page: 8
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Table des matires
13 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
129
13.1 Coecient brut et partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

13.1.1 Coecient brut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
13.1.2 Coecients partiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
13.2 Comparer l'impact des variables prdictives - Les coecients standardiss . . . . . . . . . . . . . 132
13.3 Traitement des variables exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
13.3.1 Explicative binaire dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
13.3.2 Coecient partiel avec une explicative binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
14 tude de cas : Analyse du taux de chmage en France . . . . . . . . . . . . . . . . . . . . . . . . . . . .
139
14.1 Lecture des rsultats de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

14.2 Tester simultanment les coecients de (X2 , X3 , X5 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
14.3 Prdiction ponctuelle et par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
15 La rgression linaire avec les logiciels de statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
145
15.1 Tanagra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

15.1.1 Rgression linaire multiple avec Tanagra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
15.1.2 Autres outils lis la rgression dans Tanagra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.1.3 Tutoriels Tanagra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.2 REGRESS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
15.3 Le logiciel R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
15.3.2 L'objet summary de lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
15.3.1 La procdure
15.3.3 Slection de variables avec stepAIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

15.4 Rgression avec les tableurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
15.4.1 DROITEREG sous Open Oce Calc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
15.4.2 Add-on pour Open Oce Calc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
15.4.3 L'utilitaire d'analyse du tableur Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
15.5 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
15.6 SPAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
15.7 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
15.8 STATISTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
15.9 A propos des logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
167
B Fichiers de donnes et de calculs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
169
Littrature
Page: 9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 10
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Partie I
Rgression Linaire Simple
Page: 1
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 2
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1
Modle de rgression linaire simple
1.1 Modle et hypothses

1.1.1 Rgression linaire simple
Nous cherchons mettre en avant une relation de dpendance entre les variables Y et X . Y est celle
que l'on cherche expliquer ( prdire), on parle de variable
explicative (prdictive), on parle de variable
endogne (dpendante) ; X est la variable
exogne (indpendante).
Le modle de rgression linaire simple s'crit :
yi = a xi + b + i
(1.1)
a et b sont les paramtres (les coecients) du modle. Dans le cas spcique de la rgression simple,
a est la
pente, b est la constante.
Nous disposons d'un chantillon de n observations i.i.d (indpendantes et identiquement distribues)

pour estimer ces paramtres.
Le terme alatoire
, que l'on appelle l'erreur du modle, tient un rle trs important dans la
rgression. Il permet de rsumer toute l'information qui n'est pas prise en compte dans la relation linaire
que l'on cherche tablir entre Y et X c.--d. les problmes de spcications, l'approximation par la
linarit, rsumer le rle des variables explicatives absentes, etc. Comme nous le verrons plus bas, les
proprits des estimateurs reposent en grande partie sur les hypothses que nous formulerons propos
de . En pratique, aprs avoir estim les paramtres de la rgression, les premires vrications portent
sur l'erreur calcule sur les donnes (on parle de "rsidus") lors de la modlisation [13] (Chapitre 1).
Exemple - Rendement de mas et quantit d'engrais. Dans cet exemple tir de l'ouvrage de Bourbonnais
(page 12), nous disposons de n = 10 observations (Figure 1.1) 1 . On cherche expliquer Y le rendement
en mas (en quintal) de parcelles de terrain, partir de X la quantit d'engrais (en kg) que l'on y a
pandu. L'objectif est de modliser le lien travers une relation linaire. Bien videmment, si l'on ne
1. regression_simple_rendements_agricoles.xlsx - "data"
Page: 3
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1 Modle de rgression linaire simple
met pas d'engrais du tout, il sera quand mme possible d'obtenir du mas, c'est le sens de la constante
b de la rgression. Sa valeur devrait tre positive. Ensuite, plus on mettra de l'engrais, meilleur sera le
rendement. On suppute que cette relation est linaire, d'o l'expression a x, on imagine l'avance que
a devrait tre positif.
Fig. 1.1.
Tableau de donnes "Rendements Agricoles" - Bourbonnais, page 12
Le graphique nuage de points associant X et Y semble conrmer cette premire analyse (Figure 1.2) 2 .
Dans le cas contraire o les coecients estims contredisent les valeurs attendues (b ou/et a sont ngatifs),
cela voudrait dire que nous avons une perception fausse du problme, ou bien que les donnes utilises
ne sont pas reprsentatives du phnomne que l'on cherche mettre en exergue, ou bien... On entre alors
dans une dmarche itrative qui peut durer un moment avant d'obtenir le modle dnitif 3 . C'est le
processus de modlisation.
Fig. 1.2.
Graphique nuage de points "Rendements Agricoles" - Bourbonnais, page 12
2. regression_simple_rendements_agricoles.xlsx - "data"
3. Voir l'excellent site du NIST http://www.itl.nist.gov/div898/handbook/pmd/pmd.htm au sujet du
processus de modlisation : les terminologies utilises, les principales tapes, la lecture des rsultats. Avec des
tudes de cas compltes.
Page: 4
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1.2 Principe de l'ajustement des moindres carrs
1.1.2 Hypothses
Ces hypothses psent sur les proprits des estimateurs (biais, convergence) et l'infrence statistique
(distribution des coecients estims).
H1
Hypothses sur Y et X . X et Y sont des grandeurs numriques mesures sans erreur. X est une
donne exogne dans le modle. Elle est suppose non alatoire. Y est alatoire par l'intermdiaire
de c.--d. la seule erreur que l'on a sur Y provient des insusances de X expliquer ses valeurs
dans le modle.
H2 Hypothses sur le terme alatoire . Les i sont i.i.d (indpendants et identiquement distribus).
H2.a E(i ) = 0, en moyenne les erreurs s'annulent c.--d. le modle est bien spci.
H2.b V (i ) = 2 , la variance de l'erreur est constante et ne dpend pas de l'observation. C'est
l'hypothse d'homoscdasticit.
H2.c En particulier, l'erreur est indpendante de la variable exogne c.--d. COV (xi , i ) = 0
H2.d Indpendance des erreurs. Les erreurs relatives 2 observations sont indpendantes c.--d.
COV (i , j ) = 0. On parle de "non auto-corrlation des erreurs".
Remarque : Cette hypothse est toujours respecte pour les coupes transversales. En eet l'chantillon est cens construit de manire alatoire et les observations i.i.d. Nous pouvons donc intervertir alatoirement les lignes sans porter atteinte l'intgrit des donnes. En revanche, la question
se pose pour les donnes temporelles. Il y a une contrainte qui s'impose nous (contrainte temporelle - les donnes sont ordonnes) dans le recueil des donnes.
H2.e
i N (0, ). L'hypothse de normalit des erreurs est un lment cl pour l'infrence
statistique.

1.2.1 Estimateur des moindres carrs ordinaires (MCO)
Notre objectif est de dterminer les valeurs de a et b en utilisant les informations apportes par
l'chantillon. Nous voulons que l'estimation soit la meilleure possible c.--d. la droite de rgression doit
approcher
au mieux le nuage de points.
Si graphiquement, la solution semble intuitive. Il nous faut un critre numrique qui rponde cette
spcication pour raliser les calculs sur un chantillon de donnes.
Le critre des
moindres carrs
consiste minimiser la somme des carrs des carts (des erreurs)
entre les vraies valeurs de Y et les valeurs prdites avec le modle de prdiction (Figure 1.3). L'estimateur
des moindres carres ordinaires (MCO) des paramtres a et b doit donc rpondre la minimisation de
Page: 5
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 1.3.
Comptabilisation de l'erreur : cart entre Y observ et Y prdit par le modle linaire
S=
2i
i=1
n
=
[yi (axi + b)]2
i=1
n
=
[yi axi b]2
i=1
Pour dterminer les valeurs de a et b, les conditions suivantes sont ncessaires :
S = 0
a
S = 0
b
En appliquant ces drives partielles, nous obtenons les quations
normales (Giraud et Chaix, page
25 ; Bourbonnais, page 21 ; Johnston et DiNardo, page 22) :
x y a x2 b x = 0
i i
i i
i i i
y a
xb=0
(1.2)
Que l'on retrouve galement sous la forme suivante dans la littrature (Tenenhaus, page 70).
x = 0
i i i
i = 0
(1.3)
En appelant a
et b les solutions de ces quations normales, nous obtenons les
moindres carrs :
estimateurs des
n
(y y)(xi x
)
n i
a
= i=1
2
(x
)
i=1 i
b = y a
x
(1.4)
(1.5)
Dtail des calculs

Quelques pistes pour obtenir ces rsultats. Voyons tout d'abord la drive partielle
Page: 6
macro: svmono.cls
S
b
date/time: 11-Feb-2013/22:06
S
=0
b
2(1)(yi axi b) = 0
i
2[
yi a
xi n b] = 0
En multipliant le tout par n2 , nous avons :
b = y a
x
Occupons-nous maintenant de
S
a
S
=
2(xi )(yi axi b) = 0
a
i
En introduisant le rsultat relatif b ci-dessus, nous obtenons :
n
(y y)(xi x
)
n i
a = i=1
2
(x
)
i=1 i
1.2.2 Calculs pour les donnes "Rendements agricoles"

Revenons notre exemple des "Rendements agricoles" (Figure 1.1). Nous montons la feuille Excel
permettant de raliser les calculs (Figure 1.4) 4 .
Fig. 1.4.
Estimation des coecients "Rendements agricoles" - Feuille de calcul Excel
Voici les principales tapes :
= 30.4.
Nous calculons les moyennes des variables, y = 26.1 et x
Nous formons alors les valeurs de (yi y), (xi x
), (yi y) (xi x
) et (xi x
)2 .
Nous ralisons les sommes i (yi y) (xi x

) = 351.6 et i (xi x
)2 = 492.4.
4. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"
Page: 7
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Nous dduisons enn les estimations :

n
(y y)(xi x
)
351.6
n i
a
= i=1
= 0.7141
=
2
492.4
(x
)
i=1 i
b = y a
x
= 26.1 0.7141 30.4 = 4.3928
La droite de rgression peut tre reprsente dans le graphique nuage de points. Nous avons utilis
l'outil "Courbe de tendance" d'Excel (Figure 1.5) 5 .
Fig. 1.5.
Droite de rgression - "Rendements agricoles"
Nous constatons que la droite passe peu ou prou au milieu du nuage de points. Mais nous ne saurions
pas dire dans quelle mesure notre modlisation est susamment intressante. La simple valuation visuelle
ne sut pas. La seule manire d'obtenir une rponse rigoureuse est de produire un critre quantitatif que
l'on saura interprter. Nous nous pencherons sur cette question dans la section consacre l'valuation
du modle (section 1.3).
1.2.3 Quelques remarques

Autre criture de l'estimateur de la pente. Il y a une relation directe entre l'estimateur de la
pente et le coecient de corrlation linaire de Pearson ryx .
n
(y y)(xi x
)
n i
a
= i=1
2
(x
)
i=1 i
\(Y, X)
COV
2
Y
= ryx
De fait, nous le verrons dans la partie infrentielle, tester la signicativit de la pente revient tester
la signicativit de la corrlation entre Y et X .
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"
Page: 8
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1.3 Dcomposition de la variance et coecient de dtermination
Erreur et rsidu.
est l'erreur inconnue introduite dans la spcication du modle. Nous avons

alors estim les paramtres a
et b partir de l'chantillon et nous appuyant sur le principe des moindres
carrs. Nous pouvons obtenir la valeur prdite de l'endogne Y pour l'individu i avec
yi = y(xi )
=a
xi + b
On peut en dduire l'erreur observe, appele "rsidu" de la rgression
i = yi yi
(1.6)
La distinction "erreur vs. rsidu" est importante car, comme nous le verrons par la suite, les expressions
de leurs variances ne sont pas les mmes.
Toujours concernant le rsidu, notons une information importante :
(1.7)
i = 0
La somme (et donc la moyenne) des rsidus est nulle
i =
dans une rgression avec constante. En eet :
[yi (
axi + b)]
= n
y n
ax
nb
= n
y n
ax
n (
ya
x
)
=0
Centre de gravit du nuage de points. La droite de rgression avec constante
passe forcment
par le centre de gravit du nuage de points. Pour le vrier simplement, ralisons la projection pour le
point x
:
y(
x) = a
x
+ b
=a
x
+ (
ya
x
)
= y
Dans notre exemple des "Rendements agricoles", nous constatons eectivement que la droite passe le
point G(x, y) de coordonnes (
x = 30.4, y = 26.1) (Figure 1.6).

1.3.1 Dcomposition de la variance - quation d'analyse de variance
L'objectif est de construire des estimateurs qui minimisent la somme des carrs des rsidus
Page: 9
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10
Fig. 1.6.
La droite de rgression passe par le barycentre - "Rendements agricoles"
SCR =
2i
=
(yi yi )2
i
Lorsque la prdiction est parfaite, tout naturellement SCR = 0. Mais dans d'autre cas, qu'est-ce
qu'une bonne rgression ? A partir de quelle valeur de SCR peut-on dire que la rgression est mauvaise ?
Pour rpondre cette question, il faut pouvoir comparer la SCR avec une valeur de rfrence. Pour
cela, nous allons dcomposer la variance de Y .
On appelle
somme des carrs totaux (SCT) la quantit suivante :

SCT =
(yi y)2
i
(yi yi + yi + y)2
i
(
yi y)2 +
(yi yi )2 + 2
(
yi y)(yi yi )
=
i
Dans la rgression avec constante, et uniquement dans ce cas, on montre que
(
yi y)(yi yi ) = 0
i
En s'appuyant sur deux lments :
1
y
=
(
axi + b)
n i
1
= [
a
xi + n b]
n
i
=a
y + b
= y
et
Page: 10
S
=
2(xi )(yi axi b) = 0
a
i
macro: svmono.cls
date/time: 11-Feb-2013/22:06
11
On obtient ds lors l'quation d'analyse de variance :

(1.8)
SCT = SCE + SCR
(
yi y)2 +
(yi yi )2
(yi y)2 =
i
(1.9)
Comment interprter ces quantits ?

SCR est la somme des carrs totaux. Elle indique la variabilit totale de Y
c.--d. l'information
disponible dans les donnes.

SCE est la somme des carrs expliqus. Elle indique la variabilit explique par le modle c.--d.
la variation de Y explique par X .
SCR
est somme des carrs rsiduels. Elle indique la variabilit non-explique (rsiduelle) par le
modle c.--d. l'cart entre les valeurs observes de Y et celles prdites par le modle.
Deux situations extrmes peuvent survenir :
Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont compltement
expliques par celles de X . On a un modle parfait, la droite de rgression passe exactement par
tous les points du nuage(yi = yi ).
Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y . Ainsi, yi = y, la meilleure
prdiction de Y est sa propre moyenne.
A partir de ces informations, nous pouvons produire une premire version du
tableau d'analyse de
variance (Tableau 1.1). La version complte nous permettra de mener le test de signicativit globale
de la rgression comme nous le verrons plus loin (section 3.1).
Source de variation Somme des carrs
Explique
SCE = i (
yi y)2
Rsiduelle
SCR = i (yi yi )2
Totale
SCT = i (yi y)2
Tableau 1.1.
Tableau simpli d'analyse de variance
1.3.2 Coecient de dtermination

Il est possible de dduire un indicateur synthtique partir de l'quation d'analyse de variance. C'est
le
coecient de dtermination R2 .
R2 =
SCE
SCR
=1
SCT
SCT
(1.10)
Il indique la proportion de variance de Y explique par le modle.

Page: 11
macro: svmono.cls
date/time: 11-Feb-2013/22:06
12
Plus il sera proche de la valeur 1, meilleur sera le modle, la connaissance des valeurs de X permet
de deviner avec prcision celle de Y .
Lorsque R2 est proche de 0, cela veut dire que X n'apporte pas d'informations utiles (intressantes)
sur Y , la connaissance des valeurs de X ne nous dit rien sur celles de Y .
Remarque 1 (Une autre lecture du coecient de dtermination.). Il existe une lecture moins usuelle, mais
non moins intressante, du coecient de dtermination.
On dnit le modle par dfaut comme la rgression qui n'utilise pas X pour prdire les valeurs de Y
c.--d. le modle compos uniquement de la constante.
(1.11)
yi = b + i
On montre trs facilement dans ce cas que l'estimateur des MCO de la constante est
b = y
(1.12)
Ds lors, on peut considrer que R2 confronte la prdiction du modle s'appuyant sur X (yi = a
xi +b)
avec le pire modle possible, celui qui n'utilise pas l'information procure par X c.--d. base uniquement
sur Y (yi = y).
Par construction, dans la rgression avec constante, on sait que SCR SCT , le coecient de dtermination nous indique donc dans quelle mesure X permet d'amliorer nos connaissances sur Y .
Cette lecture nous permet de mieux comprendre les pseudo-R2 calculs dans des domaines connexes
telles que la rgression logistique [14] (Section 1.6) o l'on confronte la vraisemblance du modle complet
(ou le taux d'erreur), incluant toutes les exognes, avec celle du modle rduit la constante.
1.3.3 Coecient de corrlation linaire multiple

Le coecient de corrlation linaire multiple est la racine carre du coecient de dtermination.
R=
R2
(1.13)
Dans le cas de la rgression simple (et uniquement dans ce cas), on montre aisment qu'il est gal au
coecient de corrlation ryx entre Y et X. Son signe est dni par la pente a
de la rgression.
ryx = signe(
a) R
(1.14)
La dmonstration est relativement simple.
Page: 12
macro: svmono.cls
date/time: 11-Feb-2013/22:06
13
x2
y2
a
2
(xi x
)2
= i
)2
i (yi y
[(
axi + b) (
ax
+ b)]2
= i
2
)
i (yi y
2
(
yi y)
= i
(y
)2
i iy
SCE
=
SCT
= R2
2
ryx
=a
2
1.3.4 L'exemple des rendements agricoles

Nous nous appuyons sur les coecients estims prcdemment (section 1.2.2), savoir a
= 0.71405
et b = 4.39277 pour construire la colonne des valeurs prdites yi , en dduire le rsidu i et nalement
obtenir les sommes des carrs. Le tableau de calcul est organis comme suit (Figure 1.7) 6 :
Fig. 1.7.
Dcomposition de la variance - "Rendements agricoles"
Nous calculons yi . Par exemple, pour le 1er individu : y1 = a

x1 + b = 0.71405 20 + 4.39277 =
18.674.
Sur la colonne suivante, nous en dduisons le rsidu i (ex. 1 = y1 y1 = 16 18.674 = 2.674).
Pour obtenir la SCT, nous ralisons la somme des (yi yi ) passes au carr : SCT = (16 26.1)2 +
= 102.010 + = 314.900
yi y)2 c.-a-d. SCE = (18.674 26.1)2 + = 55.148 + = 251.061
Pour la SCE, nous sommons (
Nous pouvons obtenir la SCR par dirence, en faisant SCR = SCT SCE = 314.900 251.061 =
63.839.
6. regression_simple_rendements_agricoles.xlsx - "reg.simple.decomp.variance"
Page: 13
macro: svmono.cls
date/time: 11-Feb-2013/22:06
14
Nous pouvons aussi la former explicitement en sommant les (yi yi )2 , soit SCR = (16 18.674)2 +
= 7.149 + = 63.839. Les deux rsultats concident, il ne peut pas en tre autrement (dans la
rgression avec constante tout du moins).
Le coecient de dtermination est obtenu avec sa forme usuelle (quation 1.10) :
R2 =
SCE
251.061
=
= 0.797273
SCT
314.900
Puis, le coecient de corrlation linaire multiple
R=
0.797273 = 0.892901
a
= 0.71405 tant positif, on vriera aisment dans notre exemple que ce dernier est identique au
coecient de corrlation de Pearson entre Y et X :
R = ryx = 0.892901
Page: 14
macro: svmono.cls
date/time: 11-Feb-2013/22:06
2
Proprits des estimateurs
Ce chapitre est assez thorique. Sa lecture n'est pas ncessaire pour la comprhension de la mise en
pratique de la rgression linaire. J'invite donc les lecteurs surtout intresss par les aspects oprationnels
se reporter au chapitre suivant (chapitre 3).
Ce chapitre est essentiel en revanche pour la comprhension des proprits des estimateurs des MCO. Il
permet notamment de circonscrire les hypothses qui conditionnent leur ecacit. Sa lecture est conseille
pour ceux qui s'intressent ces aspects thoriques.
Pour les tudiants de la licence L3-IDS, vous devez lire ce chapitre !
Deux proprits importantes sont mises en avant dans l'valuation d'un estimateur. (1) Est-ce qu'il
est sans biais c.--d. est-ce qu'en moyenne nous obtenons la vraie valeur du paramtre ? (2) Est-ce qu'il
est convergent c.--d. mesure que la taille de l'chantillon augmente, l'estimation devient de plus en
plus prcise ?
2.1 Biais
= .
On dit que est un estimateur sans biais de si E[]
Comment procder cette vrication pour a
et b ?
Voyons ce qu'il en est pour a
. Il y a deux tapes principalement dans la dmonstration : dans un
premier temps, il faut exprimer a
en fonction de a ; dans un deuxime temps, en passant l'esprance
mathmatique, il faut souhaiter que tout ce qui ne dpend pas de a devienne nul, au besoin en s'appuyant
sur quelques hypothses pour le coup bien commodes nonces en prambule de notre prsentation
(section 1.1).
Nous reprenons ici la dmarche que l'on retrouve dans la plupart des rfrences cites en bibliographie
(Bourbonnais, page 24 pour la rgression simple ; Giraud et Chaix, page 25, qui a servi de base pour les
calculs ci-dessous ; Labrousse, page 24 pour la rgression multiple ; Dodge et Rousson, page 25).
Page: 15
macro: svmono.cls
date/time: 11-Feb-2013/22:06
16
2 Proprits des estimateurs
Soit yi = axi + b + i , nous pouvons calculer :
1
1
1
1
yi = a(
xi ) + (nb) +
i
n i
n i
n
n i
y = a
x + b
Formons la dirence
y = ax + b +
i
i
i
y = a
x + b +
yi y = a(xi x
) + (i )
Rappelons que
a
=
Ainsi
x
)(yi y)
)2
i (xi x
i (x
i
x
)[a(xi x
) + (i )]
)2
i (xi x
)(i )
)2 + i (xi x
a i (xi x
=
2
(x
)
i
i
)(i )
ix
i (x
= a+
)2
i (xi x
a
=
On montre facilement que
i (xi
i (xi
x
) = 0, nous obtenons ainsi
(xi x
)i
a
= a + i
)2
i (xi x
(2.1)
Il nous reste dmontrer que la partie aprs l'addition est nulle en passant l'esprance mathmatique.
Nous devrons introduire les hypothses adquates pour ce faire.
]
[
(xi x
)i
E(
a) = E(a) + E i
)2
i (xi x
[
]
(xi x
)
= a+E
i
)2
j (xj x
i
Pour simplier les critures, posons
(xi x
)
i =
)2
j (xj x
Nous avons :
[
E(
a) = a + E
]
i i
La variable exogne X n'est pas stochastique par hypothse. Donc
E(
a) = a +
i E(i )
Autre hypothse, E(i ) = 0. A la sortie nous obtenons

Page: 16
macro: svmono.cls
date/time: 11-Feb-2013/22:06
2.2 Variance - Convergence
17
E(
a) = a
Conclusion. L'estimateur des moindres carrs ordinaires (EMCO) est sans biais, si et seulement si
les deux hypothses suivantes sont respectes :
1. (H1) L'exogne X n'est pas stochastique (X est non alatoire) ;
2. (H2.a) E(i ) = 0, l'esprance de l'erreur est nulle.
Concernant la constante
De manire analogue, en partant de b = b + (
a a)
x, on montre sous les mmes hypothses que
E(b) = b

Un petit rappel : Un estimateur sans biais de est convergent si et seulement si
0
V ()
(2.2)
Nous devons donc d'abord produire une expression de la variance de l'estimateur, et montrer qu'il
tend vers 0 quand l'eectif n tend vers .
2.2.1 Variance de la pente

La variance est dnie de la manire suivante :
V (
a) = E[(
a a)2 ]
Or, dans la section prcdente, nous avons montr que l'estimateur pouvait s'crire
a
=a+
i i
Exploitons cela
(
)2
V (
a) = E
i i
=E
=
i2 2i
+2
]
i i i i
i<i
i2 E(2i ) + 2
i i E (i i )
i<i
Or, par hypothse :

Page: 17
macro: svmono.cls
date/time: 11-Feb-2013/22:06
18
1. (H2.b) E(2i ) = V (i ) = 2 , la variance de l'erreur est constante. C'est l'hypothse d'homoscdasticit.

2. (H2.d) COV (i i ) = E(i i ) = 0. Les erreurs sont deux deux indpendantes. C'est l'hypothse de
non-autocorrlation des erreurs.
A la sortie, nous pouvons simplier grandement l'expression de la variance :
V (
a) = 2
i2
Sachant que le terme i correspond
xi x
(x
x
)2
j
j
i =
la somme de ces termes au carr devient
i2
]2
xi x
=
)2
j (xj x
i
1
(xi x
)2
= (
)2
2
i
)
j (xj x
1
(x
)2
j x
j
A la sortie, nous avons la variance de l'estimation de la pente
2
)2
i (xi x
V (
a) =
(2.3)
2.2.2 Convergence de la pente

Qu'en est-il de la convergence alors ?
Nous observons que :
2 est une valeur qui ne dpend pas de n, c'est la variance de l'erreur dnie dans la population.
En revanche, lorsque n , on constate facilement que i (xi x

)2 . En eet, c'est une
somme de valeurs toutes positives ou nulles.
Nous pouvons donc armer que a
est un estimateur convergent de a, parce que
V (
a) 0
(2.4)
Conclusion. Rcapitulons tout a. Nous avons introduit plusieurs hypothses pour montrer la convergence de l'estimateur de la pente :
1. (H2.b) E(2i ) = V (i ) = 2 . C'est l'hypothse d'homoscdasticit.
2. (H2.d) COV (i i ) = E(i i ) = 0. C'est l'hypothse de non-autocorrlation des erreurs.
Page: 18
macro: svmono.cls
date/time: 11-Feb-2013/22:06
19
2.2.3 Variance et convergence de la constante

En suivant la mme dmarche, nous pouvons produire l'expression de la variance de l'estimateur de
la constante :
[
]
1
x
2
V (b) = 2
+
n
)2
i (xi x
(2.5)
b est convergent, aux mmes conditions (hypothses) que l'estimateur de la pente.
2.2.4 Quelques remarques sur la prcision des estimateurs

En scrutant un peu les formules de la variance produites dans les sections prcdentes, nous remarquons plusieurs lments. Les estimateurs seront d'autant plus prcis, les variances seront d'autant plus
petites, que :
La variance de l'erreur est faible c.--d. la rgression est de bonne qualit.
La dispersion des X est forte c.--d. les points recouvrent bien l'espace de reprsentation.
Le nombre d'observations n est lev.
Nous pouvons illustrer cela l'aide de quelques graphiques caractrisant les direntes situations
(Figure 2.1).
Fig. 2.1.
Page: 19
Quelques situations caractristiques - Inuence sur la variance de la pente
macro: svmono.cls
date/time: 11-Feb-2013/22:06
20
2.3 Thorme de Gauss-Markov

Les estimateurs des MCO de la rgression sont sans biais et convergents. On peut mme aller plus
loin et prouver que parmi les estimateurs linaires sans biais de la rgression, les estimateurs MCO sont
variance minimale c.--d. il n'existe pas d'autres estimateurs linaires sans biais prsentant une plus petite
variance.
Les estimateurs des MCO sont BLUE (best linear unbiased estimator). On dit qu'ils sont
ecaces (pour les dmonstrations montrant qu'il est impossible d'obtenir des variances plus faibles, voir
Johnston, page 27 et pages 40-41 ; Labrousse, page 26).
Page: 20
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3
Infrence statistique
3.1 valuation globale de la rgression

Nous avions mis en avant la dcomposition de la variance et le coecient de dtermination R2 pour
valuer la qualit de l'ajustement (section 1.3). Le R2 indiquait dans quelle proportion la variabilit de
Y pouvait tre explique par X . En revanche, il ne rpond pas la question : est-ce que la rgression est
globalement signicative ? En d'autres termes, est-ce que les X (il n'y en a qu'un seul pour l'instant dans
la rgression simple) emmnent signicativement de l'information sur Y , reprsentative d'une relation
linaire relle dans la population, et qui va au-del des simples uctuations d'chantillonnage ?
Un autre point de vue est de considrer le test d'valuation globale comme un test de signicativit du
R : dans quelle mesure s'carte-t-il rellement de la valeur 0 ? On a des rticences le prsenter ainsi dans
2
la littrature francophone car le R2 n'est pas un paramtre de la population estime sur l'chantillon ; on
Multiple Regression,
http://faculty.chass.ncsu.edu/garson/PA765/regress.htm#significance "...The F test is used
to test the signicance of R, which is the same as testing the signicance of R2, which is the same as
testing the signicance of the regression model as a whole... ; ou encore D. Mc Lane, HyperStat Online
Contents, http://davidmlane.com/hyperstat/B142546.html ...The following formula (le test F) is
used to test whether an R2 calculated in a sample is signicantly dierent from zero...) 1 .
a moins de scrupules dans la littrature anglo-saxonne (cf. par exemple D. Garson,
Quoiqu'il en soit, l'hypothse nulle correspond bien l'absence de liaison linaire entre l'endogne et
les exognes.
3.1.1 Tableau d'analyse de Variance - Test de signicativit globale

Pour rpondre cette question, nous allons tendre l'tude de la dcomposition de la variance en
compltant le tableau d'analyse de variance par les degrs de libert (Tableau 3.1).
1. Note : Tout le monde aura remarqu que je blinde mon discours avec des rfrences facilement vriables
pour viter que les puristes me tombent dessus coups de hache.
Page: 21
macro: svmono.cls
date/time: 11-Feb-2013/22:06
22
3 Infrence statistique
Degrs de libert Carrs moyens
Explique
SCE = i (
yi y)2
1
CM E = SCE
1
2
SCR
Rsiduelle
SCR = i (yi yi )
n2
CM R = n2
2
Totale
SCT = i (yi y)
n1
Tableau 3.1.
Un petit mot sur les
Tableau d'analyse de variance pour la rgression simple
degrs de libert,
on peut les voir de direntes manires. La dnition la
plus accessible est de les comprendre comme le nombre de termes impliqus dans les sommes (le nombre
d'observations) moins le nombre de paramtres estims dans cette somme (Dodge et Rousson, page 41).
Ainsi :
Nous avons besoin de l'estimation de la moyenne y pour calculer la somme SCT.
Nous avons besoin des coecients estims a
et b pour obtenir la projection yi et former la SCR.
Concernant la SCE, le plus simple est de l'obtenir par dduction c.--d. (n 1) (n 2) = 1.
Pour tester la signicativit globale de la rgression, nous nous basons sur
F =
CM E
=
CM R
la statistique F,
SCE
1
SCR
n2
(3.1)
Interprtation. Cette statistique indique si la variance explique est signicativement suprieure

la variance rsiduelle. Dans ce cas, on peut considrer que l'explication emmene par la rgression traduit
une relation qui existe rellement dans la population (Bourbonnais, page 34).
criture partir du coecient de dtermination.
D'aucuns considrent le test F comme un
test de signicativit du coecient de dtermination, on peut le comprendre dans la mesure o il peut

s'crire en fonction du R2
F =
Distribution sous H0. Sous H0, SCE
R2
1
(1R2 )
n2
(3.2)
est distribu selon un 2 (1) et SCR selon un 2 (n 2), de
fait pour F nous avons
2 (1)
1
2 (n2)
n2
F (1, n 2)
(3.3)
Sous H0, F est donc distribu selon une loi de Fisher (1, n 2) degrs de libert.
La rgion critique du test, correspondant au rejet de H0, au risque est dnie pour les valeurs
anormalement leves de F c.--d.
Page: 22
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3.1 valuation globale de la rgression
R.C. : F > F1 (1, n 2)
23
(3.4)
Dcision partir de la p-value. Dans la plupart des logiciels de statistique, on fournit directement la probabilit critique (p-value) , elle correspond la probabilit que la loi de Fisher dpasse la
statistique calcule F.
Ainsi, la rgle de dcision au risque devient :
R.C. : <
(3.5)
3.1.2 Exemple : les rendements agricoles

Revenons notre exemple des rendements agricoles. Nous compltons notre feuille de calcul prcdente
(Figure 1.7) de manire mettre en exergue le tableau d'analyse de variance complet et le test F de
signicativit globale (Figure 3.1) 2 .
Fig. 3.1.
Tableau d'analyse de variance et Test de signicativit globale - "Rendements agricoles"
Voici le dtail des calculs :

Nous avions expliqu prcdemment l'obtention des SCT, SCE et SCR (section 1.3.4).
Nous rorganisons les valeurs pour construire le tableau d'analyse de variance. Nous en dduisons
les carrs moyens expliqus CM E =
CM R =
SCR
n2
63.839
102
SCE
1
251.061
1
= 251.061 et les carrs moyens rsiduels
= 7.980
2. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.global"
Page: 23
macro: svmono.cls
date/time: 11-Feb-2013/22:06
24
Nous en dduisons la statistique de test F =
CM E
CM R
251.061
7.980
= 31.462
Que nous comparons au quantile d'ordre (1 ) de la loi F(1, n 2). Pour = 5%, elle est
gale 3 F0.95 (1, 8) = 5.318. Nous concluons que le modle est globalement signicatif au risque
5%. La relation linaire entre Y et X est reprsentatif d'un phnomne existant rellement dans la
population.
En passant par la probabilit critique, nous avons 4 0.00050, infrieure = 5%. La conclusion
est la mme. Il ne peut pas y avoir de contradictions entre ces deux visions de toute manire.
3.2 Distribution des coecients estims

Pour tudier les coecients estims, il importe d'en calculer les paramtres (l'esprance et la variance
essentiellement) et de dterminer la loi de distribution. Nous pourrons ds lors mettre en oeuvre les outils
usuels de la statistique infrentielle : la dnition des intervalles de variation un niveau de conance
donn ; la mise en place des tests d'hypothses, notamment les tests de signicativit.
3.2.1 Distribution de a et b
Dans un premier temps, concentrons-nous sur la pente de la rgresion. Rappelons que a
est gal
n
(y y)(xi x
)
n i
a
= i=1
2
)
i=1 (xi x
X est non stochastique, Y l'est par l'intermdiaire du terme d'erreur . Nous introduisons l'hypothse
selon laquelle :
i N (0, )
De fait, yi = axi + b + i suit aussi une loi normale, et a
tant une combinaison linaire des yi , il vient
a
a
N (0, 1)
a
(3.6)
Rappelons que la variance de a

s'crit (section 2.2) :
2
)2
i (xi x
a2 =
(3.7)
Ce rsultat est trs intressant mais n'est pas utilisable en l'tat, tout simplement parce que nous ne
disposons pas de l'estimation de la variance de l'erreur 2 . Pour obtenir une estimation calculable sur un
chantillon de donnes de l'cart-type
a du coecient a
, nous devons produire une estimation de l'cart
type de l'erreur
. La variance estime s'crirait alors
2
)2
i (xi x
a2 =
(3.8)
3. INVERSE.LOI.F(0.05 ;1 ;8) dans Excel

4. LOI.F(31.462 ;1 ;8) dans Excel.
Page: 24
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3.2 Distribution des coecients estims
25
La suite logique de notre expos consiste donc proposer une estimation sans biais de la variance de
l'erreur 2 .
Le cas de la constante. La situation est identique pour ce qui est de l'estimation de la constante b.
Nous avons :
b b
N (0, 1)
b
Avec pour variance de b (section 2.2) :
b2 = 2
x
2
1
+
)2
n
i (xi x
(3.9)
De nouveau, si nous souhaitons obtenir son estimation c.--d. mettre un chapeau sur le de b comme
j'ai coutume de le dire en cours, il faut mettre un chapeau sur le de . C'est ce que nous faisons dans
la section suivante.
3.2.2 Estimation de la variance de l'erreur

Estimateur sans biais de la variance de l'erreur
Le rsidus i est l'erreur observe, on peut la r-crire de la manire suivante :
i = yi yi
= axi + b + i (
axi + b)
= i (
a a)xi (b b)
Remarque 2 (Esprance des rsidus). On note au passage que l'esprance du rsidu est nulle (E[i ] = 0)
si les estimateurs sont sans biais.
On montre que (Giraud et Chaix, page 31) :
]
[
2
E
i = (n 2)2
(3.10)
On propose comme estimateur sans biais de la variance de l'erreur :

2
SCR
2 = i i =
n2
n2
(3.11)
Quelques commentaires :
Au numrateur, nous avons la somme des carrs des rsidus. Nous l'obtenons facilement comme
nous avons pu le constater dans notre exemple des "Rendements agricoles".
Au dnominateur, nous avons les degrs de libert de la rgression. La valeur
dans (n 2)
reprsente le nombre de paramtres estims. De fait, la gnralisation de cette formule au cadre

de la rgression linaire multiple avec p variables exognes ne pose aucun problme. Le nombre de
degrs de libert sera n (p + 1) = n p 1.
Page: 25
macro: svmono.cls
date/time: 11-Feb-2013/22:06
26
Distribution de l'estimation de la variance de l'erreur

Il nous faut connatre la distribution de l'estimation de la variance de l'erreur pour pouvoir dterminer
la distribution des coecients estims lorsque nous introduirons
2 dans les expressions de leur variance.
On sait par hypothse que
N (0, 1). Comme i est une ralisation de i , il vient

i
N (0, 1)
(3.12)
En passant au carr, nous avons un 2 (1). Il ne nous reste plus qu' former la somme des termes :
( i )2
i
2i
i
2
2 (n 2)
(3.13)
Ou, de manire quivalente, en se rfrant l'estimateur de la variance de l'erreur (quation 3.11) :
2
2 (n 2)
2
n2
(3.14)
Nous pouvons maintenant revenir sur la distribution des coecients calculs lorsque toutes ses composantes sont estimes partir des donnes.
3.2.3 Distribution des coecients dans la pratique

Voyons dans un premier temps la pente, la transposition la constante ne pose aucun problme.
Avec les quations 3.7 et 3.8, nous pouvons crire :
a2
2
= 2
2
a
En reprenant l'quation 3.14, nous dduisons :
a2
2
2 (n 2)
=
a2
2
n2
(3.15)
De fait, la distribution rellement exploitable pour l'infrence statistique est la loi de Student (n 2)
degrs de libert.
a
a
T (n 2)
(3.16)
Comment ?
N'oublions pas que la loi de Student est dnie par un rapport entre une loi normale et la racine
carre d'un loi du 2 normalise par ses degrs de libert. Ainsi,
Page: 26
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3.3 tude de la pente de la droite de rgression

a
a
a
27
N (0, 1)
2
(n2)
n2
a
a
T (n 2)
De manire compltement analogue, pour la constante estime b
b b
T (n 2)
(3.17)
Nous disposons maintenant de tous les lments pour analyser les paramtres estims de la rgression.

3.3.1 Test de signicativit de la pente
Le test de signicativit de la pente consiste vrier l'inuence relle de l'exogne X sur l'endogne
Y . Les hypothses confronter s'crivent :
H : a = 0
0
H1 : a = 0
Nous formons la statistique de test
ta =
(3.18)
Elle suit une loi de Student (n 2) degrs de libert. La rgion critique (de rejet de H0) au risque
s'crit :
R.C. : |ta | > t1 2
(3.19)
O t1 2 est le quantile d'ordre (1 2 ) de la loi de Student. Il s'agit d'un test bilatral.
Test de signicativit de la pente pour les "Rendements agricoles"

Testons la signicativit de la pente pour la rgression sur les "Rendements agricoles". Nous construisons la feuille Excel pour les calculs intermdiaires (Figure 3.2) 5 :
Nous calculons les projections pour chaque individu de l'chantillon. Pour le 1er individu, nous
avons y1 = a
x1 + b = 0.71405 20 + 4.39277 = 18.674.
Nous en dduisons le rsidu (ex. 1 = y1 y1 = 16 18.674 = 2.674), que nous passons au carr
(ex. 21 = (2.674)2 = 7.149).
Nous ralisons la somme des rsidus au carr, soit SCR =
2i
i
= 7.149 + = 63.839
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.pente"
Page: 27
macro: svmono.cls
date/time: 11-Feb-2013/22:06
28
Fig. 3.2.
Calculs intermdiaires pour les tests relatifs la pente - "Rendements agricoles"
A ce stade, nous obtenons l'estimation de la variance de l'erreur, soit
2 =
SCR
63.839
=
= 7.980
n2
8
L'cart-type estim de l'erreur correspond la racine carre, il est bien de le prciser car de nombreux
logiciels (la fonction DROITEREG d'Excel par exemple) l'achent plutt que la variance.
7.980 = 2.825
Pour obtenir l'estimation de l'cart-type de la pente, nous avons besoin de la somme des carts la
)2 = (20 30.4)2 + = 108.16 + = 492.4. Nous avons

moyenne au carr des X c.--d. i (xi x
alors :
2
)2
i (xi x
a =
7.980
492.4
= 0.01621
= 0.12730
ta =
0.71405
a
=
= 5.60909
a
12730
Au risque = 5%, le seuil critique pour la loi de Student (n 2) degrs de libert pour un test bilatral 6 est t1 2 = 2.30600. Puisque |5.60909| > 2.30600, nous concluons que la pente est signicativement
non nulle au risque 5%.
6. LOI.STUDENT.INVERSE(0.05 ;8) sous Excel. Attention, la fonction renvoie directement le quantile pour
un test bilatral !
Page: 28
macro: svmono.cls
date/time: 11-Feb-2013/22:06
29
Si nous tions passs par le calcul de la p-value, nous aurions obtenu 7 = 0.00050. Puisque < ,
nous rejetons de mme l'hypothse nulle.
3.3.2 Test de conformit un standard

Nous pouvons aller plus loin que le simple test de signicativit. En eet, la distribution de a
(section
3.2.3, quation 3.16) est valable sur tout le domaine de dnition de a et non pas seulement dans le voisinage (a = 0). Ainsi, nous pouvons dnir tout type de test de conformit un standard, o l'hypothse
nulle s'crirait H0 : a = c ; c tant une valeur de rfrence quelconque.
Exemple sur les "Rendements agricoles"

On souhaite mettre en oeuvre le test d'hypothses suivant pour les "Rendements agricoles"
H : a = 0.5
0
H1 : a > 0.5
Il s'agit d'un test de conformit un standard unilatral. La rgion critique au risque du test s'crit
R.C. :
a
0.5
> t1
Voyons ce qu'il en est sur nos donnes,
a
0.5
0.71405 0.5
=
= 1.68145
a
0.12730
A comparer avec t0.95 (8) = 1.85955 pour un test 5% 8 . Nous sommes dans la rgion d'acceptation
c.--d. nous ne pouvons pas rejeter l'hypothse nulle. La valeur du paramtre a n'est pas signicativement
suprieur la rfrence 0.5 au risque 5%.
3.3.3 Intervalle de conance

Toujours parce que la distribution de a
est dnie sur tout l'intervalle de dnition de a, nous pouvons
construire des intervalles de variation (ou intervalle de conance) au niveau de conance (1 ).
Elle est dnie par
a
t1 2
a
7. LOI.STUDENT(ABS(5.60909) ;8 ;2) sous Excel. Le paramtre
(3.20)
pour spcier que nous souhaitons obtenir
la p-value pour un test bilatral.

8. Attention, comme il s'agit d'un test unilatral, le seuil critique est modi par rapport l'exemple du test
de signicativit prcdent.
Page: 29
macro: svmono.cls
date/time: 11-Feb-2013/22:06
30
Exemple sur les "Rendements agricoles"

Reprenons la pente du chier "Rendements agricoles". Nous disposons de toutes les informations
ncessaires pour produire l'intervalle de conance au niveau 95% :
[
]
a
t1 2
a ; a
+ t1 2
a
[0.71405 2.30600 0.12730 ; 0.71405 + 2.30600 0.12730]
[0.42049 ; 1.00761]
Le rsultat est cohrent avec le test de signicativit de la pente, l'intervalle de conance ne contient
pas la valeur 0.
3.4 Intervalle de conance de la droite de rgression

Les coecients formant le modle sont entaches d'incertitude, il est normal que la droite de rgression
le soit galement. L'objectif dans cette section est de produire un intervalle de conance de la droite de
rgression (Bressoux, page 76).
Pour formaliser cela, n'oublions pas que notre objectif est de modliser au mieux les valeurs de Y en
fonction des valeurs prises par X c.--d. Y /X = E[Y /X]. Dans la rgression linaire, on fait l'hypothse
que la relation est linaire
Y /X = a X + b
(3.21)
C'est pour cette raison que dans la plupart des ouvrages, on prsente les rsultats dcrits dans cette
section comme le calcul de l'intervalle de conance de la prdiction de la moyenne de Y conditionnellement
X (Dodge et Rousson, page 34 ; Johnston et DiNardo, page 36 ; Tenenhaus, page 92). Mais il s'agit bien
de l'intervalle de conance de ce que l'on a modlis avec la droite, ne pas confondre avec l'intervalle
de conance d'une prdiction lorsque l'on fourni la valeur xi pour un nouvel individu i n'appartenant
pas l'chantillon.
J'avoue que pendant longtemps, cette distinction ne me paraissait pas trs claire. Je ne voyais pas
trs bien quelle tait la dirence entre l'intervalle de conance de la prdiction l'esprance de Y sachant
X et la prdiction ponctuelle de Y . Dans les deux cas, nous avions la mme valeur ponctuelle calcule
a
xi + b. Le passage de l'un l'autre dans Jonhston et DiNardo livre que j'avais beaucoup lu quand
j'tais tudiant pages 35 et 36, formules (1.67) et (1.68), est particulirement prilleux.
Bref, la terminologie "intervalle de conance de la droite de rgression" (Bressoux, page 76) me sied
mieux.
Pour un individu donn, nous obtenons l'estimation de sa moyenne conditionnelle :
Y /xi = a
xi + b
Page: 30
macro: svmono.cls
(3.22)
date/time: 11-Feb-2013/22:06
3.4 Intervalle de conance de la droite de rgression
Et l'estimation de la variance de cette moyenne conditionnelle estime s'crit :

(
)
2
1
(x
)
i
2Y /x =
2
+
i
n
)2
j (xj x
31
(3.23)
Enn, la moyenne conditionnelle estime suit une loi de Student (n 2) degrs de liberts.
Tous ces lments nous permettent de construire l'intervalle de conance au niveau (1) de la droite
de rgression (Bressoux, page 76 ; quation 2.17) :
a
xi + b t1 2
Levier. L'expression
hi =
(xi x
)2
1
+
n
)2
j (xj x
(3.24)
1
(xi x
)2
+
n
)2
j (xj x
(3.25)
est appele levier de l'observation i dans la littrature. Il tient une place trs importante dans la
rgression, notamment dans la dtection des points atypiques (voir [13], chapitre 2).
Intervalle de conance de la droite "Rendements agricoles"
Fig. 3.3.
Calculs pour l'intervalle de conance 95% de droite - "Rendements agricoles"
Reprenons notre exemple des "Rendements agricoles". Nous formons la feuille Excel permettant de
calculer les bornes basses et hautes de la droite de rgression au niveau de conance 95% (Figure 3.3) 9 :
Une grande partie des informations ont dj t calcules dans les prcdents exemples, nous savons
que n = 10, a
= 0.71405, b = 4.39277,
= 2.8249, x
= 30.4, la somme
(xj x
)2 = 492.4.
j
Pour un niveau de conance 95%, la loi de Student nous fournit le quantile t0.975 (8) = 2.30600
9. regression_simple_rendements_agricoles.xlsx - "reg.simple.intv.conance"
Page: 31
macro: svmono.cls
date/time: 11-Feb-2013/22:06
32
Nous sommes pars pour construire les intervalles de conance. Pour le 1-er individu, nous avons :
1
(20 30.4)2
b.b.(Y /X=x1 ) = 18.674 2.30600 2.8249
+
= 14.99
10
492.4
1
(20 30.4)2
b.h.(Y /X=x1 ) = 18.674 + 2.30600 2.8249
+
= 22.36
10
492.4
Dans la rgression simple, la reprsentation graphique est trs intuitive (Figure 3.4). Il y a 95% de
chances que la droite soit comprise entre les deux courbes bleues. Attention, la droite ne peut tre place
n'importe o dans la zone dlimite,
Fig. 3.4.
elle pivote forcment autour du barycentre.
Reprsentation de l'intervalle de conance 95% de la droite - "Rendements agricoles"
3.5 La rgression avec la fonction DROITEREG d'EXCEL

Tous les rsultats mis en avant dans ce support (du moins jusqu' ce stade) peuvent tre obtenus
facilement en partant des valeurs fournies par la fonction DROITEREG d'Excel. Nous avons donc labor
une feuille de calcul o, partir des sorties de DROITEREG, nous avons tabli les principaux indicateurs
d'valuation globale et individuelle des coecients (Figure 3.5) 10 . Nous avons volontairement ach les
en-ttes des lignes et colonnes de la feuille Excel pour rendre la lecture plus facile.
Nous disposons du tableau de donnes de 10 observations en
B2 :C11.
Nous insrons la fonction
DROITEREG sur la plage F3 :G7. Elle fournit les coecients estims sur la premire ligne, nous rservons
autant de colonnes qu'il y a de coecients (2 dans notre cas, la pente et la constante de la rgression) ; et,
si nous souhaitons consulter les statistiques intermdiaires relatifs la rgression, nous devons rserver
10. regression_simple_rendements_agricoles.xlsx - "droitereg"
Page: 32
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3.5 La rgression avec la fonction DROITEREG d'EXCEL
33
4 lignes supplmentaires (5 lignes en tout). Attention, il s'agit d'une fonction matricielle, elle complte
directement plusieurs cellules, nous devons donc valider en appuyant simultanment sur les touches CTRL
+ MAJ + ENTREE.
Fig. 3.5.
Sorties de la fonction DROITEREG d'Excel - "Rendements agricoles"
Dcrivons les valeurs fournies par la fonction DROITEREG en les numrant (de gauche droite, du
haut vers le bas) (Figure 3.5) :
Ligne 1
Les coecients de la rgression. A gauche a

= 0.71405 ; en dernire colonne (ce sera
toujours la place de la constante, y compris dans la rgression multiple), b = 4.39277.
Ligne 2
Nous avons les estimations des carts-type des coecients estims, soit
a = 0.12730 et
b = 3.97177.
Ligne 3
Nous avons sur la premire colonne le coecient de dtermination R2 = 0.79727, sur la
seconde l'estimation de l'cart-type de l'erreur,

= 2.82486.
Ligne 4
A gauche la statistique de test d'valuation globale de la rgression (test F) F = 31.46193 ;
droite, le degr de libert de la rgression n 2 = 8.
Ligne 5
Nous avons respectivement, la SCE = 251.06125 et la SCR = 63.83875.
A partir de ces informations, nous pouvons tablir tous les rsultats mis en avant dans ce support
(jusqu' ce stade, prcisons le bien). Nous avons ainsi construit (Figure 3.5, partie basse) : le tableau pour
l'valuation globale de la rgression, avec le calcul de la probabilit critique ; les tests de signicativit
Page: 33
macro: svmono.cls
date/time: 11-Feb-2013/22:06
34
individuelle des coecients ; et leurs intervalles de conance 95%. Toutes les valeurs sont identiques
celles que nous avions tablies dans les chapitres prcdents.
3.6 Quelques quivalences concernant la rgression simple

La rgression simple ne faisant intervenir qu'une seule variable explicative, on montre facilement que
le test de signicativit de la pente c.--d. tester la nullit du coecient associ l'exogne quivaut
d'une part, au test de signicativit globale de la rgression et, d'autre part, au test de signicativit de
la corrlation entre Y et X .
3.6.1 quivalence avec le test de signicativit globale

Revenons sur la statistique F du test de signicativit globale, elle s'crit (Tenenhaus, page 83) :
SCE/1
SCR/(n 2)
(
yi y)2
= i 2
(
axi + b y)2
= i
[
axi + (
ya
x
) y]2
= i
2
2
)2
a
a
2
i (xi x
=
=
2
2

x)2
i (xi
(
)
2
a
2
a
= 2 =
F =
= t2a
Ainsi, tester la signicativit de la pente dans la rgression simple avec constante revient tester la
signicativit globale. Les statistiques de test sont cohrentes. Il en est de mme en ce qui concerne les
distributions car il y a une quivalence entre la loi de Student et la loi de Fisher.
2
(T (n 2)) F(1, n 2)
(3.26)
Vrication sur les donnes "Rendements agricoles". Nous le constatons aprs coup sur notre
exemple. Nous avons ta = 5.60909 (section 3.3.1). En passant au carr, nous obtenons la valeur de
statistique de test F = 31.462 = (5.60909)2 (section 3.1).
3.6.2 quivalence avec le test de signicativit de la corrlation

De la mme manire, nous pouvons relier ta avec la statistique de test utilise pour tester la signicativit de la corrlation (Giraud, page 57 ; Tenenhaus, page 84).
Page: 34
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3.6 Quelques quivalences concernant la rgression simple
35
Dveloppons de nouveau l'expression de F :
F =
=
=
=
=
SCE/1
SCR/(n 2)
(n 2) SCE
SCR
(n 2) SCE
SCT SCE
(n 2) R2
1 R2
2
ta
Or, concernant la rgression linaire simple (avec constante), le carr du coecient de corrlation
2
entre Y et X est gal au coecient de dtermination de la rgression c.--d. ryx
= R2 (section 1.3.3).
Nous constatons ds lors que :
t2a =
2
ryx
2
1ryx
n2
Qui correspond au carr de la statistique t utilise pour tester la signicativit du coecient de corrlation linaire (cf. Rakotomalala, [12], section 2.4, page 16). Les distributions de t et ta sont identiques,
savoir un Student (n 2) degrs de libert.
Vrication sur les donnes "Rendements agricoles".
Nous avons calcul le coecient de
corrlation entre Y et X prcdemment (Figure 1.7), nous avions ryx = 0.892901. Formons la statistique
pour le test de signicativit du coecient de corrlation :
t=
r
1r 2
n2
0.892901
=
10.8929012
8
= 5.60909 = ta
Nous obtenons eectivement la valeur de ta utilise pour tester la signicativit de la pente.
Page: 35
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 36
macro: svmono.cls
date/time: 11-Feb-2013/22:06
4
Prdiction et intervalle de prdiction
Outre l'analyse structurelle et l'interprtation des coecients, la rgression est beaucoup utilise pour
la prdiction (ou prvision, on utilise plutt ce terme quand on manipule des donnes longitudinales).
Pour un nouvel individu donn, partir de la valeur de l'exogne X , nous voulons connatre la valeur
que prendrait l'endogne Y .
4.1 Prdiction ponctuelle

Pour un nouvel individu i, qui n'appartient pas l'chantillon de donnes ayant particip l'laboration du modle, connaissant la valeur de xi , on cherche obtenir la prdiction yi . On applique
directement l'quation de rgression :
yi = y(xi )
=a
xi + b
On vrie facilement que
la prdiction est sans biais c.--d. E[yi ] = yi . Pour ce faire, on forme
l'erreur de prdiction i = yi yi et on montre qu'elle est d'esprance nulle.

Voyons voir :
i = yi yi
=a
xi + b yi
=a
xi + b (a xi + b + i )
= (
a a)xi + (b b) i
Passons l'esprance mathmatique,
[
]
E [
i ] = E (
a a)xi + (b b) i
= xi E(
a a) + E(b b) E(i )
=0
Page: 37
macro: svmono.cls
date/time: 11-Feb-2013/22:06
38
4 Prdiction et intervalle de prdiction
Cette esprance est nulle si l'on se rfre aux hypothses et aux rsultats des moindres carrs ordinaires.
En eet, les estimateurs a
et b sont sans biais (E(
a) = a et E(b) = b), et l'esprance de l'erreur est nulle
E [i ] = 0. Par consquent, la prdiction est non biaise c.--d.

E[
yi ] = yi
4.2 Prdiction par intervalle

Une prdiction ponctuelle est intressante. Mais nous ne savons pas quel degr de conance nous
pouvons lui accorder. Il est donc plus intressant de s'intresser une intervalle de prdiction (fourchette
de prdiction) en lui associant une probabilit de recouvrir la vraie valeur yi .
Pour construire la fourchette, nous avons besoin de connatre d'une part la variance de l'erreur de
prdiction et, d'autre part, sa loi de distribution.
4.2.1 Variance de l'erreur de prdiction

Puisque l'erreur de prdiction est non biaise c.--d. E [i ] = 0, nous savons que V (i ) = E[2i ].
Pour calculer la variance, nous devons donc dvelopper 2i et calculer son esprance (la dmarche
est dtaille dans Giraud, page 44). Nous obtenons la sortie la variance de l'erreur de prdiction
(Bourbonnais, page 38 ; Dodge et Rousson, page 36 ; Johnston, page 35) :
[
2i
Estimation. On obtient une estimation
1
(xi x
)2
1+ +
)2
n
i (xi x
]
(4.1)
( 2 )
i de cette variance en introduisant l'estimation de la
variance de l'erreur dans la rgression

2 , savoir :
2i
1
(xi x
)2
1+ +
)2
n
i (xi x
]
(4.2)
Quelques remarques
La variance sera d'autant plus petite, et par consquent la fourchette d'autant plus troite, que :

est faible, c.--d. la rgression est de bonne qualit.
n est lev c.--d. la taille de l'chantillon ayant servi la construction du modle est lev.
(xi x
) est faible c.--d. l'observation est proche du centre de gravit du nuage de points (en
abcisse, sur l'axe des X ). De fait, l'intervalle de prdiction s'vase mesure que xi s'loigne de x
.
La somme i (xi x
)2 est leve c.--d. la dispersion des points ayant servi la construction du
modle est grande, ils couvrent bien l'espace de reprsentation. En ralit, c'est surtout le rapport
(xi
x)2
x)2
i (xi
Page: 38
qui joue.
macro: svmono.cls
date/time: 11-Feb-2013/22:06
39
4.2.2 Loi de distribution de l'erreur de prdiction

Pour dnir la loi de distribution de l'erreur de prdiction, nous devons nous rfrer l'hypothse de
gaussienne du terme d'erreur dans le modle de rgression i N (0, ). De fait,
i
yi yi
=
N (0, 1)
i
i
(4.3)
Lorsque l'on passe l'estimation de la variance de l'erreur

2 , l'instar de ce que nous avions tabli lors
de la dnition de la distribution des coecients estims (section 3.2.3), sachant que (n2) 2 2 (n2),
nous pouvons crire (remarquez bien l'adjonction du "chapeau" sur le ) :
i
yi yi
=
T (n 2)
(4.4)
4.2.3 Intervalle de prdiction

Nous disposons d'une prdiction non biaise, de la variance et de la loi de distribution, nous pouvons
ds lors dnir l'intervalle de prdiction au niveau de conance (1 ) :
(xi x
)2
1
yi t1 2
1 + + n
n
)2
i=1 (xi x
O t1 2 est le quantile d'ordre 1
(4.5)
de la loi de Student (n 2) degrs de libert.
4.2.4 Application numrique - Rendements agricoles

Nous dsirons construire l'intervalle de prdiction pour l'individu xi = 38 au niveau de conance
(1 ) = 95%. Nous partons des rsultats fournis par la fonction DROITEREG d'Excel (Figure 4.1) 1 .
Dans un premier temps, nous calculons la prdiction ponctuelle
yi = 0.71405 38 + 4.39277 = 31.5

Dans un deuxime temps, nous calculons l'cart-type estim de l'erreur de prdiction :
Nous disposons d'un chantillon d'apprentissage avec n = 10 observations.
L'cart-type de l'erreur estime durant la rgression est
= 2.82486
La somme des carrs des carts la moyenne de X sur cet chantillon est
i (xi
x
)2 = 492.4
L'cartement du point prdire par rapport la moyenne des X est (xi x

)2 = (3830.4)2 = 57.76
Nous dduisons alors l'estimation de l'cart-type de l'erreur
57.76
1
+
= 3.1167
i = 2.82486 1 +
10 492.4
Enn, pour un intervalle de conance 95% :
1. regression_simple_rendements_agricoles.xlsx - "prediction"
Page: 39
macro: svmono.cls
date/time: 11-Feb-2013/22:06
40
4 Prdiction et intervalle de prdiction
Fig. 4.1.
Calculs - Intervalle de prdiction pour (xi = 38) - "Rendements agricoles"
Nous utilisons le quantile d'ordre 1
de la loi de Student 8 degrs de libert, soit t0.975 = 2.31
Nous obtenons la borne basse de l'intervalle de prdiction
bb(yi ) = 31.5 2.31 3.1167 = 24.34

Et la borne haute
bh(yi ) = 31.5 + 2.31 3.1167 = 38.71

Nous reprsentons ces informations graphiquement (Figure 4.2). La prdiction ponctuelle est forcment
situe sur la droite de rgression. Ensuite, l'intervalle de prdiction est dnie par rapport l'axe des
ordonnes (des Y ). Il y a 95% de chances qu'elle couvre la vraie valeur de yi . On notera que la fourchette
est relativement large. Il faut y voir la conjonction de plusieurs lments dfavorables : le point est plutt
loigne de la moyenne (x
= 30.4, et la valeur max dans l'chantillon est gale 41) ; l'eectif ayant servi
la construction du modle est trs faible (n = 10, on peut dicilement faire quelque chose de bon avec
a) ; et la rgression elle-mme n'est pas de qualit mirique (avec un R2 = 0.792).
Page: 40
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 4.2.
Page: 41
41
Graphique - Intervalle de prdiction pour (xi = 38) - "Rendements agricoles"
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 42
macro: svmono.cls
date/time: 11-Feb-2013/22:06
5
tude de cas - Consommation des vhicules vs. Poids
Rcapitulons tous les lments tudis jusqu' prsent en ralisant une tude de cas. On souhaite
expliquer la consommation des vhicules (en l/100km) (Y ) partir de leur poids (en kg) (X ). Nous
disposons d'un chantillon de n = 28 observations.
Le modle s'crit classiquement
yi = axi + b + i
Le graphique nuage de points (Figure 5.1) laisse penser qu'il y a eectivement une relation entre les
deux variables. Elle est plutt positive c.--d. lorsque le poids augmente, la consommation a tendance
augmenter galement. Sans tre un grand expert en automobile, on imagine bien que la causalit est dans
ce sens : c'est le poids qui inue sur la consommation, et non l'inverse. On conoit mal qu'en faisant baisser
la consommation par un moyen quelconque, on arriverait par magie rduire le poids des vhicules.
Fig. 5.1.
Page: 43
Consommation des vhicules vs. Poids
macro: svmono.cls
date/time: 11-Feb-2013/22:06
44
5 tude de cas - Consommation des vhicules vs. Poids
Nous avons construit la feuille Excel pour la totalit des calculs (Figure 5.2) 1 . Nous numrons les
principaux rsultats.
Fig. 5.2.
Consommation des vhicules vs. Poids - DROITEREG et calculs subsquents
Coecients estims. La fonction DROITEREG nous fournit directement les coecients estims
a
= 0.006694
b = 1.062691
Tableau d'analyse de variance et coecient de dtermination.
DROITEREG nous fournit
la SCE = 115.508374 et la SCR = 19.104126. Nous pouvons en dduire la SCT = SCE + SCR =
134.612500 et donc recalculer le coecient de dtermination R2 =
SCE
SCT
= 0.858081 qui est en ralit
1. conso_poids_vehicules_reg_simple.xlsx
Page: 44
macro: svmono.cls
date/time: 11-Feb-2013/22:06
45
directement fourni par Excel. La rgression est plutt de bonne qualit. Ce qui est conrm par le trac
de la droite de rgression au sein du nuage de points (Figure 5.3).
Fig. 5.3.
Consommation des vhicules vs. Poids - Trac de la droite de rgression
Test de signicativit globale de la rgression. La statistique F
= 157.202573 est aussi fournie.
Avec les degrs de liberts adquates, 1 au numrateur, n 2 = 26 au dnominateur, nous obtenons une
probabilit critique trs faible (1.57589 1012 ). Le modle est globalement signicatif au risque = 5%.
Test de signicativit de la pente. Sans surprise, la pente est aussi signicative 5%. La statistique
de test est forme par le rapport de valeurs toutes deux propose par Excel, ta =
0.006694
0.000534
12.538045. La probabilit critique est identique celle du test global.
Prdiction ponctuelle et par intervalle. Nous souhaitons prdire la consommation pour un vhicule prsentant un poids de x = 1155 kg. Nous calculons la prdiction ponctuelle de la consommation :
y = a
x +b = 0.006694 1155 + 1.062691 = 8.79
Pour construire l'intervalle de prdiction, nous avons besoin de l'estimation l'cart-type de l'erreur de
prdiction
(x
x)2
(1195 1196.96429)2
1
1
=
0.857190
+
= 0.872650
1+ +
1
+
n
)2
28
2577866.96
i (xi x
Au niveau de conance 90%, nous prenons le quantile t0.95 (26) = 1.705618, nous avons ainsi les bornes
[8.79 1.705618 0.872650 ; 8.79 + 1.705618 0.872650]

[7.31 ; 10.28]
Page: 45
macro: svmono.cls
date/time: 11-Feb-2013/22:06
46
Un vhicule pesant 1155 kg a 90% de chances de consommer entre 7.31 et 10.28 litres au 100 km.
Nous visualisons la fourchette de prdiction dans le graphique nuage de points (Figure 5.4).
Fig. 5.4.
Consommation des vhicules vs. Poids - Intervalle de prdiction
L'amplitude de la fourchette semble visuellement moindre par rapport celle que nous avions calcule
pour les rendements agricoles (Figure 4.2). Ce n'est pas qu'une impression. Si on rapporte l'tendue
des intervalles l'cart-type de l'endogne, on se rend compte que le second [consommation = f(poids)]
est (presque) deux fois moins large que le premier [rendement = f(engrais)]. Il y a plusieurs raisons
cela : la rgression est de meilleure qualit (R2 ) ; l'individu prdire est plus proche du centre de gravit
du nuage de points ; la taille n de l'chantillon est plus leve ; et... nous avons spci un niveau de
conance moindre (ah le coquin, la comparaison est forcment avantageuse). Aprs coup, ce rsultat
n'est pas tonnant du tout.
Page: 46
macro: svmono.cls
date/time: 11-Feb-2013/22:06
6
Non linarit - Modles drivs et interprtation des coecients
6.1 Interprtation de la droite de rgression

On peut lire la rgression de 2 manires. La premire est une interprtation par niveaux c.--d. une
valeur de X , on associe une valeur de Y en appliquant l'quation de rgression. Par exemple, dans une
quation
ventes = 12 prix + 1000

Lorsque prix = 10 euros alors ventes = 980 units.
Mais on peut aussi produire une interprtation selon l'volution. On se concentre sur la pente de la
droite de rgression dans ce cas. En eet,
y
=a
x
Dans notre exemple, nous dirons : lorsque le prix augmente d'un euro, les ventes baissent de 12 units.
Le modle est linaire, la variation de Y est proportionnelle la variation de X . Son principal atout
est la simplicit. On l'utilise souvent dans un premier temps pour apprcier l'existence d'une relation
(dont on ne cerne pas trs bien la nature) entre Y et X . Les paramtres peuvent tre estims directement
l'aide de la mthode des moindres carrs comme nous avons pu le constater dans ce fascicule.
6.2 Modles non-linaires mais linarisables

Parfois nous savons que la liaison n'est pas linaire, soit parce que nous avons des connaissances
expertes sur le problme sur nous traitons, soit parce que nous le constatons visuellement en construisant
le nuage de points. Nous sommes alors confronts un double problme : dterminer la forme de la liaison,
la fonction reliant Y X ; en estimer les paramtres ventuels partir des donnes disponibles. L'aaire
est plus que complique.
Il existe cependant une classe de fonctions que nous pouvons linariser en appliquant les transformations adquates. Dans ce cas, l'estimation des paramtres devient possible. L'interprtation des rsultats
est modie cependant, notamment en ce qui concerne la pente.
Page: 47
macro: svmono.cls
date/time: 11-Feb-2013/22:06
48
6 Non linarit - Modles drivs et interprtation des coecients
Dans cette section, nous allons dcrire quelques modles trs utiliss en conomtrie.
6.2.1 Modle log-linaire - Schma lasticit constante

La liaison log-linaire (dite "transformation log-log" dans Johnston et DiNardo, page 46) est dnie
de la manire suivante (Figure 6.1)
Y = b Xa
Fig. 6.1.
(6.1)
Liaison log-linaire - Y = b X a , (a = 3, b = 5)
En termes d'interprtation, le coecient de la pente est lue de la manire suivante
a=
y
y
x
x
(6.2)
Nous avons un modle lasticit constante, c'est la favori des conomistes [ex. emploi = f(production),
demande = f(prix)].
Nous linarisons en passant par les logarithmes. Nous pouvons ainsi obtenir facilement une estimation
des paramtres a et b avec la mthode des MCO.
ln(Y ) = ln(b) + a ln(X)
(6.3)
6.2.2 Modle exponentiel (gomtrique)

Dans le modle exponentiel, la relation s'crit
Y = eaX+b
Le coecient de la pente se lit
a=
y
y
(6.4)
(6.5)
Le taux de variation de Y est proportionnelle la variation de X . Ce type de modle est surtout

utilis quand X correspond au temps, ainsi x = 1. Dans ce cas, la croissance (ou dcroissance) de Y
Page: 48
macro: svmono.cls
date/time: 11-Feb-2013/22:06
6.2 Modles non-linaires mais linarisables
49
est constante dans le temps. Ce type d'volution (exponentielle) ne dure pas longtemps (Figure 6.2). On
linarise la relation de la manire suivante
ln(Y ) = a X + ln(b)
Fig. 6.2.
(6.6)
Liaison exponentielle - Y = eaX+b , (a = 0.7, b = 5)
6.2.3 Modle logarithmique

Le modle logarithmique s'crit
Y = a ln(X) + b
(6.7)
Dans ce cas, la variation de Y est proportionnelle au taux de variation de X c.--d.
a=
(6.8)
x
x
C'est l'archtype de la croissance (ou dcroissance) qui s'puise (Figure 6.3)[ex. salaire = f(anciennet) ;
vente = f(publicit)].
Fig. 6.3.
Page: 49
Liaison exponentielle - Y = a ln(X) + b, (a = 2, b = 5)
macro: svmono.cls
date/time: 11-Feb-2013/22:06
50
6.2.4 Le modle logistique

Tous les liaisons que nous avons tudies jusqu'ici sont concavit constante. Dans certaines situations,
nous avons besoin d'une modlisation intgrant plusieurs phases (Figure 6.4). Pour la vente d'un produit
dans le temps par exemple, nous distinguons 3 phases : le dcollage, le produit est mal connu, les ventes
progressent doucement ; la croissance acclre, le produit connat une diusion importante, c'est la
priode des vaches grasses ; le freinage, les consommateurs se lassent, le march est satur, la concurrence
a ragi.
Le modle logistique permet de traduire cette ide, elle s'crit :
Y = ymin +
ymax ymin
1 + eaX+b
(6.9)
Les valeurs ymin et ymax peuvent tre estimes partir des donnes. Mais le plus souvent, elles sont
fournies par les connaissances du domaine.
Nous obtenons une forme linaire dont les paramtres peuvent tre estimes par les MCO via l'criture
suivante
(
ln
Fig. 6.4.
ymax Y
Y ymin
Liaison logistique - Y = ymin +
)
(6.10)
= aX + b
ymax ymin
,
1+eaX+b
(a = 2, b = 5, ymin = 1, ymax = 10)
Les modles ci-dessus sont intressants parce qu'ils correspondent des phnomnes conomiques
connus et reconnus. La lecture des rsultats, l'analyse des coecients principalement, est bien cadre.
L'utilisation qui en dcoule l'est galement. C'est leur principal intrt.
Dans certains cas, nous sommes plus intresss par les capacits prdictives que par l'interprtation.
Nous souhaitons produire le modle le plus performant possible en termes de proportion de variance
explique (R2 ). La meilleure piste consiste alors tenter diverses transformations tant sur l'endogne Y
que sur l'exogne X . Si l'ide est simple, trouver la solution adquate est loin d'tre vidente tant les
possibilits sont innombrables. Nous approfondirons cette piste dans un chapitre ddi de notre second
support consacr la "Pratique de la rgression linaire multiple" ([13], chapitre 6).
Page: 50
macro: svmono.cls
date/time: 11-Feb-2013/22:06
6.3 Un exemple de modle logistique : taux d'quipement en magntoscope des mnages
51
6.3 Un exemple de modle logistique : taux d'quipement en magntoscope

des mnages
Cet exemple est tir de l'ouvrage de Bourbonnais (pages 160 163). Il s'agit de modliser l'volution
du taux d'quipement en magntoscope des mnages (Y ) sur la priode 1979 - 1997. Le temps (X ) est
la variable explicative. La courbe des points laisse penser que le modle logistique semble appropri
(Figure 6.5). On notera galement que nous sommes dans la phase de freinage en 1997, l'inexion ayant
eu lieu vers ( vue d'oeil) 1989.
Fig. 6.5.
Taux d'quipement en magntoscope des mnages
L'expression gnrique du modle logistique est la suivante :

(
)
ymax y
ln
= ax + b
y ymin
Dans notre cas, ymin = 0, la magntoscope n'existait pas il fut un temps ; et ymax = 0.800 par
analogie avec les tats-Unis. Ces informations permettent de simplier le modle dont il faudra estimer
les paramtres a et b
(
ln
ymax
1
y
Dans notre feuille de calcul (Figure 6.6) 1 ,

nous construisons la colonne des valeurs z = ln
)
= ax + b
ymax
y
)
800
1 (ex. z1 = ln( 44.7
1) = 2.82714 ;
puis nous estimons les paramtres de zi = axi + b + i .

Nous obtenons via DROITEREG
a
= 0.22457
b = 446.98081
La rgression est d'excellente qualit avec un R2 = 0.99229. Elle est bien videmment globalement
signicative avec F = 2187.39514 et une p-value trs faible.
1. equipementmagnetoscope.xlsx - "rgression"
Page: 51
macro: svmono.cls
date/time: 11-Feb-2013/22:06
52
Fig. 6.6.
Taux d'quipement en magntoscope des mnages - DROITEREG
Les deux paramtres a et b sont signicatifs.

Reprsente dans le graphique, nous constatons que la courbe d'volution du taux d'quipement
est plutt bien reconstitue (Figure 6.7). Ce n'est gure tonnant avec un R2 aussi lev.
Fig. 6.7.
Taux d'quipement en magntoscope des mnages - Courbes observe et estime
Essayons de voir quel serait le taux d'quipement en 1998 ? Pour ce faire, nous appliquons directement
le modle pour obtenir z1998 ,
z1998 = 0.22457 1998 + 446.98081 = 1.7030

Puis nous appliquons la transformation inverse.
y1998 =
800
ymax
=
= 676.74
1 + ez1998
1 + e1.7030
L'autre solution aurait t d'utiliser directement le modle sous sa forme originelle :

Page: 52
macro: svmono.cls
date/time: 11-Feb-2013/22:06
6.3 Un exemple de modle logistique : taux d'quipement en magntoscope des mnages
y1998 = ymin +
53
800 0
ymax ymin
=0+
= 676.74
1 + eax+b
1 + e0.224571998+446.98081
Si on veut produire une fourchette de prdiction, la premire solution est prfrable. Nous calculons
tout d'abord l'intervalle de prdiction pour z1998 , puis nous appliquons la transformation inverse sur les
bornes pour obtenir la fourchette pour y1998 .
Estimation de
ymax . Dernier point avant de conclure cette section, nous avions considr ymax =
800 comme acquise dans notre dmarche. Elle tait le fruit d'une information exogne au processus
modlisation (en rfrence une autre population).
En ralit, nous pouvons galement intgrer son estimation dans les calculs. Bourbonnais (page 162)
dcrit une procdure de balayage : elle tente plusieurs valeurs probables comprises entre 680 et 990 (des
valeurs crdibles bien videmment, il ne s'agit pas de tester n'importe quoi), la valeur slectionne est
celle qui minimise la SCR du modle nal. Avec le logiciel Rats, il obtient sur notre exemple la valeur de
ymax = 710 2 .
Nous avons voulu ritrer la mme exprimentation en utilisation
entres d'Excel
la table de simulation deux
(nous n'utilisons qu'une seule entre en l'occurrence). ymax est devenu un paramtre
dans la feuille de calcul, utilis pour construire la variable intermdiaire z . Pour chaque valeur de ymax
allant de 680 990 avec un pas de 10, Excel a relanc Droitereg et nous avons collect la somme des
carrs des rsidus de la rgression. Au nal, la valeur qui minimise la SCR (SCR = 0.08892) est bien
ymax = 710 (Figure 6.8) 4 .
2. La forme qu'il utilise est un peu dirente de la notre, elle s'crit y =
ymax
.
1+bax
Mais cela ne modie pas la
nature du modle.
3. Voil pourquoi j'adore les tableurs. Avec un peu de rexion et trois clics, on peut mener des analyses assez
complexes. La feuille Excel est autrement plus simple que le code source rapport dans Bourbonnais (page 162),
pourtant particulirement limpide si on sait un tant soit peu coder (une boucle DO avec un condition l'intrieur).
Mais c'est le genre de choses faire fuir les tudiants pourtant friands de statistique mais rfractaires toute ide
de programmation.
4. equipementmagnetoscope.xlsx - "estimation y.max"
Page: 53
macro: svmono.cls
date/time: 11-Feb-2013/22:06
54
Fig. 6.8.
Page: 54
Taux d'quipement en magntoscope des mnages - Dtection de la valeur "optimale" de ymax
macro: svmono.cls
date/time: 11-Feb-2013/22:06
7
Rgression sans constante
Jusqu' prsent dans tous les exemples dcrits dans ce support, nous n'avions jamais tent de tester la
signicativit de la constate. La raison est que nous serions bien embts si elle s'avrait non signicative.
En eet, la supprimer de l'quation de rgression modie (un peu beaucoup) la nature de l'aaire. Le
modle s'crit
(7.1)
yi = axi + i
Nous devons faire face plusieurs phnomnes :
Nous introduisons une contrainte dans la rgression. La droite passe forcment par l'origine c.--d.
lorsque x = 0, y(0) = 0. Et, sauf cas particulier des donnes centres que nous aborderons plus bas
(section 7.1), elle ne passe pas forcment par le barycentre G(
x, y) du nuage de points.
La dcomposition de la variance telle que nous l'avons dcrite prcdemment (quation 1.9) n'est
plus valable. La tableau d'analyse de variance n'a plus de sens. Le coecient de dtermination R2
ne peut plus tre lue en termes de proportion de variance explique par la rgression. Il peut mme
prendre
des valeurs ngatives. C'est trs gnant pour un indicateur qui prsente un carr dans son
expression.
La pente de la rgression peut tre interprte d'une autre manire. Elle reprsente directement
le rapport entre les variables c.--d. a =
Y
X.
Nous exploiterons cette proprit dans l'exemple que
nous dtaillerons dans la section 7.2. La lecture en termes de rapport de variation reste valable
cependant.
7.1 Cas des donnes centres

Dans le cas des donnes centres, on montre que la constante de la rgression est par construction
gale zro. En eet, posons y i = yi y et x i = xi x
, l'estimation de la constante s'crit
b = y a
x
= 0. On constate facilement que b = 0.
Or, par dnition y = x
Page: 55
macro: svmono.cls
date/time: 11-Feb-2013/22:06
56
7 Rgression sans constante
C'tait logique dans la mesure o l'on sait que la droite de rgression passe toujours par le centre de
gravit des points. Lorsque les donnes sont centres, le barycentre est le point de coordonnes (0, 0), il
est normal donc qu'elle passe par l'origine sur Y et sur X.
Rgression sur "Rendements agricoles" - Donnes centres.
Nous reprenons notre feuille
de calcul des "Rendements agricoles". Nous avons centr les donnes l'aide des moyennes empiriques
y = 26.1 et x
= 30.4. Nous avons construit le nuage de points puis, l'aide de l'outil "Courbe de tendance"
d'Excel, nous avons trac la droite de rgression (Figure 7.1) 1 . Elle passe bien par l'origine du repre,
la constante estime b = 0. Par rapport aux rsultats obtenus dans la rgression avec constante (section
1.2.2), nous remarquons que la pente de la droite n'est pas modie, a
= 0.71405.
Fig. 7.1.
Rgression sur donnes centres - Rendements agricoles
7.2 Cas des donnes quelconques

7.2.1 Problmatique
Dans le cas des donnes quelconques, pas forcment centres, la contrainte faisant passer la droite
par l'origine modie l'estimation de la pente. Reprenons notre exemple des "Rendements agricoles" avec
les donnes originelles. Nous ralisons une rgression sans constate, la pente devient a
= 0.85124 (Figure
7.2 ; nuage de points, courbe de tendance et rsultats de la fonction DROITEREG), dirente de celle de
la rgression avec constante.
De manire gnrale, la rgression sans constante, du fait de l'introduction d'une contrainte supplmentaire dans la construction du modle, est moins performante en termes de SCR c.--d.SCR(ax)
SCR(ax+b) . Lorsqu'elle est totalement inadapte, sa SCR peut mme tre suprieure la SCT. Le modle
est moins bon que la simple prdiction l'aide de la moyenne de l'endogne. D'o la possibilit d'obtenir
des coecients de dtermination R2 ngatifs. C'est la raison pour laquelle nous avons hachur le R2 fourni
par Excel dans les sorties de DROITEREG (Figure 7.2).
1. regression_sans_constante.xlsx - "rendements agricoles"
Page: 56
macro: svmono.cls
date/time: 11-Feb-2013/22:06
7.2 Cas des donnes quelconques
Fig. 7.2.
57
Rgression sans constante - Rendements agricoles
Dans notre exemple des Rendements agricoles, nous avons SCR(ax) = 73.59996 (Figure 7.2) contre
SCR(ax+b) = 63.83875 (Figure 3.5).

Le second point important est le calcul des degrs de liberts. Nous n'estimons plus qu'un seul paramtre dans la rgression, il est donc gal (n 1) [nous avons (n 1 = 9)
ddl
pour l'exemple des
Rendements agricoles, gure 7.2]. Il faudra en tenir compte lors de la mise en oeuvre des tests d'hypothses.
7.2.2 Formules
Les frus de calculs pourront aisment reproduire la dmarche des moindres carrs ordinaires pour
obtenir a
. Nous donnons directement les principaux rsultats sans dmonstration dans cette section.
L'estimateur des MCO de la pente de la rgression sans constante s'crit
yi xi
a
= i 2
i xi
(7.2)
On remarque l'analogie avec l'estimateur de la pente pour la rgression avec constante, surtout en
tenant compte du fait que la droite passe forcment par l'origine.
L'estimateur de la variance de l'erreur doit tenir compte des degrs de libert, c.--d.
2 =
SCR
n1
(7.3)
Et l'estimation de la variance de la pente estime devient
Enn, la quantit
a2 = 2
i xi
(7.4)
a
1
T (n 1)
(7.5)
Suit une loi de Student (n 1) degrs de libert.

Dans la rgression sans constante galement, plus que jamais puisqu'il n'y a qu'un seul paramtre dans
le modle, tester la signicativit de la pente quivaut tester la signicativit globale de la rgression.
Page: 57
macro: svmono.cls
date/time: 11-Feb-2013/22:06
58
7 Rgression sans constante
7.3 Un exemple d'application : comparaison de salaires

Nous avons une rgression qui introduit une contrainte supplmentaire et qui s'avre tre moins
performante (en termes de SCR). Quel est l'intrt de ce type d'approche ? La rponse la plus convaincante
je pense est la possibilit d'largir le spectre des analyses que nous pouvons mener l'aide de la rgression.
Voyons un exemple pour donner un tour concret notre discours.
Nous tudions un chantillon de n = 50 mnages composs de couples hommes-femmes actifs. Nous
connaissons leurs salaires respectifs. Nous souhaitons montrer qu'en moyenne le salaire de l'lment
masculin du mnage est suprieur celui de l'lment fminin. Nous avions dj tudi ce chier dans
un de nos supports 2 , nous avions utilis alors une comparaison de moyennes pour chantillons apparis.
Il s'est avr que l'hypothse nulle d'galit des salaires a t rejete au risque 5%. Le mme problme
aurait pu tre trait avec une approche non paramtrique d'ailleurs. Le test des signes par exemple 3 , la
conclusion est identique.
Comment faire avec la rgression ? Nous utilisons la rgression sans constante pour raliser la comparaison. Si Y est le salaire de l'homme, X celui de la femme, le rapport
Y
X
= a devrait tre suprieur 1.
Nous modlisons la relation avec
yi = axi + i
Et nous mettons en oeuvre le test d'hypothses au risque = 5%
H : a = 1
0
H1 : a > 1
Nous utilisons la statistique :
t(a>1) =
a
1
La rgion critique du test est dnie pour les valeurs "anormalement" leves de a
par rapport 1 :
(7.6)
R.C. : t(a>1) > t1

Le test est unilatral, nous comparons la statistique avec la valeur critique t1 .
La fonction DROITEREG 4 nous fournit a

= 1.02083, avec un cart-type estim
a = 0.00547 (Figure
7.3) 5 . La statistique de test est donc gal
t(a>1) =
2. Rakotomalala,
1.02083 1
a
1
=
= 3.80528
a
0.00547
Comparaison de populations - Tests paramtriques, chapitre 4, http://eric.univ-lyon2.
fr/~ricco/cours/cours/Comp_Pop_Tests_Parametriques.pdf.
3. Rakotomalala, Comparaison de populations - Tests non paramtriques, chapitre 6, http://eric.
univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_Nonparametriques.pdf.
4. regression_sans_constante.xlsx - "salaire H.F dans les mnages"
5. Contrairement ce que laisse croire le graphique, la droite de rgression passe bien par l'origine (0, 0).
Page: 58
macro: svmono.cls
date/time: 11-Feb-2013/22:06
7.3 Un exemple d'application : comparaison de salaires
59
Que nous comparons au seuil critique fournie par la loi de Student (n 1 = 49) degrs de libert,
t0.95 (49) = 1.67655. Nous nous situons dans la rgion critique. Les donnes conrment l'ide selon laquelle
le salaire de l'homme a tendance tre suprieur celui de sa conjointe au sein des mnages.
Fig. 7.3.
Page: 59
Comparaison des salaires H/F via la rgression sans constante
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 60
macro: svmono.cls
date/time: 11-Feb-2013/22:06
8
Comparaison des rgressions
L'objectif de la comparaison des rgressions est de vrier que la liaison existant entre X et Y est de
la mme nature dans direntes sous-populations.
Prenons un exemple simple dont nous dtaillerons l'analyse plus loin (section 8.5.1). On pense que le
montant du salaire mensuel des employs est fonction de leur niveau d'tudes. Cela semble logique : plus
la personne est qualie, plus leve sera sa rmunration. Mais est-ce que la liaison est la mme chez les
hommes et chez les femmes ? Valorise-t-on de la mme manire la qualication ? Dans cette conguration,
la variable endogne Y est le salaire ; le nombre d'annes d'tudes est l'explicative X ; les sous-populations
sont dnies par la sexe Z , avec (K = 2) groupes.
Dans ce chapitre, mme si nos exemples porterons sur le cas particulier de (K = 2) groupes pour
faciliter les interprtations, l'expos et les formules seront valables pour un nombre quelconque de souspopulations (K 2).
Cette conguration n'est pas sans rappeler un autre type de problme que nous avons tudi dans
notre second polycopi [13] (chapitre 5). Nous y abordons la comparaison de modles sous l'angle de la
rupture de structure dans la rgression multiple. Nous cherchons savoir dans un premier temps si, dans
deux sous-priodes (ou deux sous-populations), la relation entre les exognes et l'endogne est la mme.
Dans un deuxime temps, nous essayons de dtecter la source de la dirence, si elle existe videmment.
L'ide est la mme dans ce chapitre. Sauf que nous nous plaons dans le cadre de la rgression simple
et que nous pouvons traiter un nombre quelconque de groupes.
Ainsi, dans les exemples que nous dtaillerons dans ce chapitre : rgression simple et comparaison
de K = 2 groupes, les deux approches sont applicables. C'est le genre de situations que j'apprcie tout
particulirement. Nous disposons de deux prismes dirents pour traiter le mme problme. A priori, les
approches devraient converger. C'est ce que nous ne manquerons pas de vrier bien videmment.
Ce chapitre doit beaucoup Avazian (pages 151 156, [1]), Dagnelie (pages 486 494, [5]) et Scherrer
(pages 713 717, [16]).
Page: 61
macro: svmono.cls
date/time: 11-Feb-2013/22:06
62
8 Comparaison des rgressions
8.1 Comparaison des rgressions dans leur globalit

8.1.1 Principe du test
La premire tape consiste vrier si les deux rgressions simples sont globalement identiques dans
les K groupes. Si l'hypothse d'galit est rejete, nous essayerons de dtecter la nature de la dirence
(la pente ou la constante) dans la section suivante.
Le test d'hypothses oppose : (H0 ) l'galit des coecients dans les sous-populations ; contre (H1 ), les
coecients sont dirents dans au moins un des groupes. Il repose sur une confrontation entre plusieurs
rgressions.
1. Dans un premier temps, nous ralisons la "rgression contrainte" sous H0 , elle considre que les
coecients sont les mmes quels que soient les groupes. Dans ce cas, on procde la modlisation
sur la totalit des n observations :
yi = axi + b + i , i = 1, . . . , n.
A partir de cette droite, nous calculons la somme des carrs des rsidus SCRT .
2. Dans un deuxime temps, nous ralisons les "rgressions non contraintes", hors H0 c.--d. pour les
K groupes, nous calculons les paramtres (ak , bk ) du modle sur des chantillons de taille nk :
yi,k = ak xi,k + bk + i,k , i = 1, . . . , nk , k = 1, . . . , K.
Pour chaque rgression nous avons la somme des carrs des rsidus SCRk . Nous formons la somme
SCRW =
SCRk
k=1
Qui correspond en quelque sorte la somme des carrs des rsidus intra-groupes.
Ayant retirer la contrainte d'galit des coecients dans les groupes pour les secondes rgressions,
nous sommes certains de la proprit suivante
SCRW SCRT
Toute la problmatique revient alors poser la question : est-ce que l'cart est susamment important
pour qu'il ne soit pas imputable aux simples uctuations d'chantillonnage ? Auquel cas, la contrainte
d'galit des coecients dans les groupes (H0 ) est trop forte, inapproprie.
On devine aisment que la statistique de test est base sur l'opposition entre les SCR, elle s'crit :
F =
(SCRT SCRW )/(2(K 1))

SCRW /(n 2K)
(8.1)
Un petit mot sur les degrs de libert. Au dnominateur nous avons :
Page: 62
macro: svmono.cls
date/time: 11-Feb-2013/22:06
8.1 Comparaison des rgressions dans leur globalit
63
(nk 2) =
nk 2K
k
= n 2K
Et au numrateur :
(n 2) (n 2K) = 2K 2
= 2(K 1)
La dmarche est totalement cohrente avec les tests sur les changements structurels dans la rgression
linaire multiple que nous exposons par ailleurs [13] (chapitre 5).
Sous H0 , F suit une loi de Fisher [2(K 1), n 2K] degrs de libert. La rgion critique au risque
est dnie pour les valeurs exceptionnellement grandes de F

R.C. : F > F1 [2(K 1), n 2K]
8.1.2 Un exemple numrique

Nous reprenons l'exemple dcrit dans Johnston et DiNardo (page 135) utilis pour illustrer le test de
Chow pour les changements structurels. Il correspond des donnes longitudinales, les sous-groupes sont
en ralit des priodes. Mais qu'importe, cela n'aecte pas l'applicabilit du test. Le principal intrt
pour nous est de vrier que les rsultats sont identiques mme si les prismes utiliss sont dirents.
Fig. 8.1.
Comparaison des rgressions dans des sous-populations
Nous avons K = 2 groupes, avec n1 = 5 et n2 = 10. Nous avons construit le modle sur la totalit
des donnes ("Rgression globale") et dans les sous-populations ("Rgression groupe k") (Figure 8.1) 1 :
1. comparaisondesregressions.xls - "comp.groupes"
Page: 63
macro: svmono.cls
date/time: 11-Feb-2013/22:06
64
Sur la totalit de l'chantillon, nous obtenons le modle :
yi = 0.524xi 0.070, SCRT = 6.5561

Sur le premier groupe, nous avons
yi = 0.438xi 0.063, SCR1 = 0.6875

Et sur le second
yi = 0.509xi + 0.400, SCR2 = 2.4727

Nous calculons la SCR intra-groupes
SCRW = SCR1 + SCR2 = 0.6875 + 2.4727 = 3.1602

Il ne nous reste plus qu' former la statistique de test
F =
(6.5561 3.1602)/(2(2 1))

= 5.9101
3.1602/(15 2 2)
Avec une loi F(2, 11), nous avons une probabilit critique de 0.0181
Au risque = 5%, nous pouvons rejeter l'hypothse d'galit des rgression dans les sous-groupes.
Ce rsultat n'est gure tonnant si l'on considre le nuage des points (X, Y ) mettant en exergue
l'appartenance aux groupes (Figure 8.2).
Fig. 8.2.
Comparaison des rgressions dans des sous-populations - Nuage de points
Reste dtecter maintenant la nature de la dirence. On le devine un peu (beaucoup) la lumire du

nuage de points. Mais c'est quand mme mieux lorsque l'intuition est conrme par les calculs statistiques.
Page: 64
macro: svmono.cls
date/time: 11-Feb-2013/22:06
8.2 Dtecter la nature de la dirence
65

8.2.1 Dirences entre les pentes
Les hypothses confronter s'crivent :
H : a = a = = a = 0
0
1
2
K
H1 : k, k tel que ak = ak
Pour rpondre la question, nous devons calculer l'estimation commune aux K groupes de la pente
de la droite de rgression :
K
a
c = k=1
K
(nk 1)syx,k
k=1 (nk
(8.2)
1)s2x,k
Nous nous servons d'une sries de statistiques dnies dans les sous-chantillons de taille nk relatifs
aux K groupes :
n k
1
k )(xi x
k ) est la covariance entre Y et X dans le groupe k .
i=1 (yi y
nk 1
n
k
yk = n1k i=1
yi (resp. x
k ) est la moyenne de Y (resp. X ) dans le groupe k .
nk
1
2
sx,k = nk 1 i=1 (xi x
k )2 (resp. s2y,k ) est la variance estime de X (resp. Y ) dans le
syx,k =

groupe k .
On dduit une somme des carrs des rsidus associs aux K droites parallles :
SCRC =
2c
(nk 1)s2y,k a
(nk 1)s2x,k
(8.3)
k=1
k=1
La contrainte de "paralllisme" des droites, exprime travers une estimation commune de la pente
a
c , font que SCRC SCRW (issu des estimations spares dans la groupes, sans contraintes). La
question est : est-ce que l'cart est susamment signicatif ? Auquel cas, l'hypothse d'galit des pentes
ne tiendrait pas la route.
A partir de cette ide, on propose la statistique de test suivante :
F =
(SCRC SCRW )/(K 1)

SCRW /(n 2K)
(8.4)
Sous H0 (galit des pentes), elle suit une loi de Fisher (K 1, n 2K) degrs de libert. La rgion
critique correspond aux fortes valeurs de F.
Application numrique
Revenons sur notre exemple (section 8.1.2). Nous avions conclu que les rgressions taient direntes
dans les K = 2 groupes. Mais nous n'avions pas dtermin le paramtre (pente ou constante) responsable
de cette dirence. Nous allons vrier maintenant le rle de la pente.
A partir des donnes et des rsultats des prcdentes rgressions (Figure 8.1), nous calculons les
nouveaux indicateurs ncessaires au test (Figure 8.3) 2 :
Page: 65
macro: svmono.cls
date/time: 11-Feb-2013/22:06
66
Nous calculons les covariances et variances conditionnelles

1
1
1
35 = 8.75
(yi y1 )(xi x
1 ) =
n1 1 i=1
51
syx,1 =
1
168 = 18.6667
9
n1
1
1
(xi x
1 )2 = 80 = 20.0
=
n1 1 i=1
4
syx,2 =
s2x,1
1
330 = 36.6667
9
= 4.0
s2x,2 =
s2y,1
s2y,2 = 9.7778
La pente commune aux rgressions conditionnelles est obtenue avec
K
(nk 1)syx,k
4 8.75 + 9 18.6667
ac = k=1
=
= 0.4951
K
2
4 20 + 9 36.6667
k=1 (nk 1)sx,k
Nous en tirons la SCRC , l'erreur rsiduelle associe aux K droites parallles
SCRC = (4 4.0 + 9 9.7778) 0.4951 (4 20.0 + 9 36.6667) = 3.4902

La statistique de test est base sur l'cart entre cette quantit et la somme des erreurs rsiduelles
des rgressions conditionnelles (SCRW )
F =
(SCRC SCRW )/(K 1)

(3.4902 3.1602)/(2 1)
=
= 1.1487
SCRW /(n 2K)
3.1602/(15 2 2)
Avec un F(1, 11), nous avons une probabilit critique de 0.3068.

Au risque 5%, la dirence entre les rgressions n'est pas imputable une ingalit des pentes.
Fig. 8.3.
Page: 66
Comparaison des pentes des rgressions conditionnelles
macro: svmono.cls
date/time: 11-Feb-2013/22:06
67
8.2.2 Dirences entre les constantes

Si l'galit entre les pentes est tablie, les divergences (si divergences il y a) seraient alors imputables
aux constantes des rgressions.
Pour les comparer, il sut de confronter la somme des carrs des rsidus de la rgression opre sur la
totalit des donnes (SCRT ) et celle obtenue partir de l'estimation commune des pentes (SCRC ). De
nouveau, si la dirence est trop forte, elle serait due ici un dcalage entre les constantes des rgressions
(Scherrer, page 715) :
F =
(SCRT SCRC )/(K 1)

SCRC /(n 2K)
(8.5)
Sous H0 , F F(K 1, n 2K). La rgion critique correspond aux valeurs leves de F.
Application numrique
Toujours sur notre exemple (section 8.1.2), l'galit entre les pentes a t tablie dans la section
prcdente. Voyons maintenant ce qu'il en est concernant les constantes. Tous les lments intermdiaires
sont dj prts (Figures 8.1 et 8.3), il ne nous reste plus qu' calculer la statistique de test (Figure 8.4) 3 :
F =
(SCRT SCRC )/(K 1) (6.5561 3.4902)/(2 1)

= 10.6716
SCRC /(n 2K)
3.4902/(15 2 2)
Fig. 8.4.
Comparaison des constantes des rgressions conditionnelles
Avec un F F(1, 11), la probabilit critique est = 0.007509, en de de notre risque = 5%.
Conclusion : l'cart entre les rgressions est due une disparit entre les constantes.
Remarque 3 (Dirence
avec le test de Chow). Dans notre polycopi sur la pratique de rgression,
sur les mmes donnes, en comparant les constantes dans les sous-groupes, nous obtenons certes la mme
conclusion mais avec des valeurs numriques lgrement direntes [13] (chapitre 5, section 5.2.1). Aprs
avoir tudi de prs la question, la divergence s'explique essentiellement par la comptabilisation des degrs
de libert. Dans le test de Chow (trait dans Johnston et DiNardo, pages 134 et 135), nous estimons
directement la pente sur la totalit des donnes, le degr de libert dans la rgression non contrainte est
Page: 67
macro: svmono.cls
date/time: 11-Feb-2013/22:06
68
gale n 3 = 12 (3 parce que 2 constantes et 1 pente commune). Dans la procdure que nous dcrivons
ici, nous tirons les rsultats partir des rgressions opres sur les sous groupes, les degrs de libert
deviennent n 4 = 11 (4 parce que 2 constantes et 2 pentes). Si les SCR sont identiques, le degr de
libert au dnominateur qui entre dans le calcul de F et de la probabilit critique n'est pas le mme.
8.3 Un rcapitulatif des direntes SCR

Rcapitulons les direntes sommes des carrs rsiduels pour bien situer leur positionnement :
SCRT , nous ralisons la rgression sur la totalit des donnes, nous posons la contrainte d'galit
des paramtres la fois sur la pente et sur la constante.
SCRC , la contrainte d'galit des pentes d'un groupe l'autre est pose, les constantes en revanche
sont laisses libres. De fait, l'cart (SCRT SCRC ) permet de vrier si l'hypothse d'galit des
constantes dans les groupes est licite ou non.
SCRW , les contraintes d'galit, tant sur la pente que sur la constante, sont relches. De fait, le
passage (SCRC SCRW ) permet d'prouver l'hypothse d'galit des pentes, sachant que nous
laissons libres les constantes.
Enn, la dirence (SCRT SCRW ) permet simplement de tester l'existence d'une dirence entre
les rgressions dans les sous-populations, quel qu'en soit la nature.
Une manire simple de comprendre le test d'galit des modles dans les sous-populations consiste
donc opposer les sommes des carrs rsiduels des rgressions sur lesquelles nous posons dirents types
de contraintes d'galit des coecients. Les carts permettent de mettre en vidence le paramtre (pente
ou constante ou les deux) l'origine des divergences, si elles existent bien videmment.
8.4 Le cas particulier de K = 2 groupes

Dans le cas de deux groupes, Avazian (pages 151 156) propose une procdure qui s'apparente au test
paramtrique de comparaison de moyennes. Rappelons-en le principe : nous vrions dans un premier
temps que les variances conditionnelles sont identiques. Si c'est le cas, nous calculons une estimation
commune de la variance, et nous procdons au trs connu test de Student de comparaison de moyennes.
Si les variances sont direntes, on utilise le test (moins connu) d'Aspin-Welch 4 .
Dans le cas de rgression, le schma est analogue sauf que (1) nous vrions l'galit des variances de
l'erreur de la rgression dans les groupes ; (2) et ce sont les coecients du modle, en particulier la pente,
que nous comparons par la suite.
4. Rakotomalala R.,
Comparaison de populations - Tests paramtriques, chapitres 1 et 2, http://eric.
univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_Parametriques.pdf
Page: 68
macro: svmono.cls
date/time: 11-Feb-2013/22:06
69
8.4.1 Tester l'galit des variances de l'erreur dans les 2 groupes

(
Aprs les rgressions dans les 2 groupes, nous obtenons une estimation des variances des erreurs
)
. Si les variances sont identiques, leur rapport doit tre gal 1 ; s'il s'en carte signicativement,
,k
la disparit va au-del des uctuations d'chantillonnage, elles sont direntes dans les sous-groupes.
Nous utilisons la statistique de test suivante :
2 =
,1
2
,2
(8.6)
Sous H0 , galit des rgressions dans les 2 sous-populations, 2 suit une loi de Fisher F(n1 2, n2 2).
La rgion critique au risque est situe sur les valeurs anormalement faibles ou anormalement leve par
rapport l'unit c.-d.
(8.7)
R.C. : ( 2 < F/2 ) ou ( 2 > F1/2 )
Cette procdure n'est pas sans rappeler le test de Fisher de comparaison de variances de deux souspopulations. Elle est sduisante par son principe, on peut faire le rapprochement avec des techniques
que l'on connat bien. Mais elle en partage galement les dfauts, savoir une trs faible robustesse par
rapport un cart l'hypothse de normalit des donnes (des rsidus en l'occurrence).
8.4.2 Comparaison des coecients - Cas des variances identiques

Si l'hypothse d'galit des variances rsiduelles conditionnelles est conrme, nous pouvons passer
une estimation de la variance commune, une sorte de variance intra-classes en quelque sorte.
s2 =
2
2
+ (n2 2)
,2
(n1 2)
,1
n1 + n2 4
(8.8)
Munis de cette estimation, nous pouvons procder aux comparaisons de coecients.
Comparaison des pentes

Nous opposons les deux pentes
H : a = a
0
1
2
H1 : a1 = a2
La statistique de test est forme par la dirence entre les coecients estims, soit
Da = a
1 a
2
Dont l'estimation de l'cart-type est obtenu avec
1
1
Da = s
+
(n1 1)s2x,1
(n2 1)s2x,2
Page: 69
macro: svmono.cls
(8.9)
(8.10)
date/time: 11-Feb-2013/22:06
70
Sous H0 , D suit une loi de Student (n1 + n2 4) degrs de libert. La rgion critique au risque ,
conduisant au rejet de l'hypothse de l'galit des pentes, est dnie par :
R.C :
|Da |
t1/2 (n1 +, n2 4)
Da
(8.11)
Comparaison des constantes

Si l'galit des pentes est tablie, nous passons la comparaison des constantes. Curieusement, nous
n'utilisons pas directement les coecients estims b1 et b2 . Pour raliser le test, nous opposons deux
estimations de la pente. La premire correspond l'estimation conjointe de la pente dans les deux souspopulations (c'est un cas particulier de la pente commune pour K groupes, quation 8.2) :
a
c =
(n1 1)s2x,1 a
1 + (n2 1)s2x,2 a
2
2
(n1 1)sx,1 + (n2 1)s2x,2
(8.12)
Et la seconde, l'estimation de la pente sous l'hypothse nulle d'galit des constantes :
a
0 =
y1 y2
x
1 x
2
(8.13)
Soit (Db = a
c a
0 ) l'cart entre ces deux valeurs, son cart-type est gal
1
1
1
n1 + n2
+
Db = s
(n1 1)s2x,1 + (n2 1)s2x,2
(
x1 x
2 )2
(8.14)
Et la rgion critique au risque devient
R.C. :
|Db |
t1/2 (n1 + n2 4)
Db
(8.15)
8.4.3 Comparaison des coecients - Cas des variances direntes

Lorsque les variances des erreurs sont dirents dans les groupes, l'aaire devient nettement plus
complique. Nous n'avons que des rsultats asymptotiques, de mauvaise qualit sur les petits eectifs,
mais qui deviendront de plus en plus prcis mesure que la taille des chantillons augmente.
Comparaison des pentes

2
2
Les variances des erreurs ,1
et ,2
sont direntes. Une nouvelle estimation de l'cart-type de la
dirence Da entre les pentes est produite :
2
2
,1
,2
+
(n1 1)s2x,1
(n1 1)s2x,2
sDa =
La rgion critique devient :
R.C. :
Page: 70
|Da |
t1/2 (l)
sDa
macro: svmono.cls
(8.16)
(8.17)
date/time: 11-Feb-2013/22:06
71
A l'instar du test d'Aspin-Welch pour la comparaison de moyennes, la dicult rside dans le calcul
des degrs de libert. La formule est particulirement tarabiscote (Avazian, page 153) 5 :
[
]1
C2
(1 C)2
l=
+
n1 2
n2 2
o
C=
,1
(n1 1)s2x,1
2
,1
(n1 1)s2x,1
,2
(n2 1)s2x,2
Comparaison des constantes

Comme pour le cas des variances rsiduelles gales, si l'galit des pentes est tablie, nous vrions
l'galit des constantes b1 et b2 . La procdure repose toujours sur une confrontation entre deux estimations
de la pente.
L'estimation de la pente sous H0 reste la mme, savoir
a
0 =
y1 y2
x
1 x
2
En revanche, l'estimation conjointe de la pente doit tenir du fait que les variances des erreurs sont
direntes dans les groupes :
a
1
a
c =
(n1 1)s2x,1
2
,1
+a
2
(n1 1)s2x,1
2
,1
(n2 1)s2x,2
2
,2
(8.18)
(n2 1)s2x,2
2
,2
Nous rejetons l'hypothse d'galit des constantes au risque si
2 +n
2
2
2
n2
,1
,1
,2
1 ,2
R.C. : |
ac a
0 | u1/2
+
2
2 + n s2
,2
n1 n2 (
x1 x
2 )2
n1 s2x,1
2 x,2 ,1
(8.19)
Il s'agit bien d'une procdure approximative, nous utilisons la loi normale : u1/2 correspond au
quantile de la loi normale centre et rduite.
8.4.4 Application numrique

Reprenons notre exemple de la section prcdente (section 8.1.2).
Nous dsirons dans un premier temps
vrier l'galit des variances des erreurs conditionnel-
lement aux groupes. Nous modions la feuille Excel de manire obtenir la statistique de test (Figure
8.5) 6 :
5. NDA : J'ai du vrier 20 fois les critures. J'espre seulement ne pas avoir introduit des erreurs en recopiant
les quations, particulirement alambiques il faut dire. Malheureusement, je n'ai pas trouv d'autres rfrences
bibliographiques pour croiser les formules, comme je le fais habituellement. Et la procdure n'est implmente
nulle part, je n'ai pas pu contrler non plus sur des jeux de donnes... Bon, on retiendra surtout et avant tout
l'ide qu'il est possible de procder des comparaisons des paramtres des modles dans le cas o les variances
des erreurs sont direntes. Les formulations sont un peu plus compliques simplement.
6. comparaisondesregressions.xls - "comp.2.groupes"
Page: 71
macro: svmono.cls
date/time: 11-Feb-2013/22:06
72
Fig. 8.5.
Comparaison des variances des erreurs des rgressions dans 2 sous-populations
Pour la premire rgression, DROITEREG fournit

,1 = 0.4787
Pour la seconde,
,2 = 0.5560
Nous formons le rapport de leurs carrs
2 =
,1
0.47872
0.2292
=
=
= 0.7414
2
2
,2
0.5560
0.3091
Les valeurs dlimitant la rgion critique au risque 5% sont
F0.025 (3, 8) = 0.0688

F0.975 (3, 8) = 5.4160
Nous ne sommes pas dans la rgion critique (quation 8.7), l'hypothse nulle d'galit des variances
de l'erreur dans les deux groupes ne peut tre rejete.
A partir de l, nous pouvons produire une estimation de la variance commune de l'erreur dans les
deux rgressions
s2 =
2
2
(n1 2)
,1
+ (n2 2)
,2
4 0.2292 + 9 0.3091
=
= 0.2873
n1 + n2 4
5 + 10 4
Comparaison des pentes. Pour comparer les pentes, nous calculons leur dirence (Figure 8.6) 7
Da = a
1 a
2 = 0.4375 0.5091 = 0.0716
Et son cart-type
Da = s
1
1
+
= 0.2873
2
2
(n1 1)sx,1
(n2 1)sx,2
1
1
+
= 0.0668
(5 1) 20 (10 1) 36.6667
Nous formons le rapport

Page: 72
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 8.6.
73
Comparaison des pentes des rgressions dans 2 sous-populations
t=
Da
0.0716
=
= 1.0718
Da
0.0668
Puisque |t| = 1.0718 < 2.2010 = t0.975 (11) au risque = 5%, nous ne pouvons pas rejeter l'hypothse
selon laquelle les pentes sont identiques. La probabilit critique est = 0.30677. Elle est exactement
la mme que celle produite par le test des pentes valable pour K 2 groupes dcrit dans la section
prcdente (Figure 8.3). D'ailleurs, concernant les statistiques de test, nous constatons galement que
t2 = (1.0718)2 = 1.1487 = F .
C'est plutt rassurant. Les deux approches, l'une valable pour un nombre quelconque de groupes
(K 2), l'autre spcique au traitement de (K = 2) sous-populations, fournissent des rsultats identiques

lorsque l'on traite la situation (K = 2).
Comparaison des constantes. L'galit des pentes tant tablie, on s'interroge maintenant sur les
dirences entre les constantes (Figure 8.7) 8 . Tout d'abord, nous calculons la pente commune aux droites
a
c =
2
1 + (n2 1)s2x,2 a
(n1 1)s2x,1 a
(5 1) 20 0.4375 + (10 1) 36.6667 0.5091
=
= 0.4951
2
(n1 1)sx,1 + (n2 1)s2x,2
(5 1) 20 + (10 1) 36.6667
Puis la pente dans le cas o l'hypothse nulle d'galit des constantes serait vraie
a
0 =
y1 y2
3.0 6.0
=
= 0.75
x
1 x
2
7.0 11.0
Nous calculons la statistique de test
Db = a
c a
0 = 0.4951 0.7500 = 0.2549
Et son cart-type
Page: 73
macro: svmono.cls
date/time: 11-Feb-2013/22:06
74
Fig. 8.7.
Comparaison des constantes des rgressions dans 2 sous-populations
+ n2
1
+ n1
2
2
(n1 1)sx,1 + (n2 1)sx,2
(
x1 x
2 )2
1
1
1
5 + 10
= 0.2873
+
(5 1)20 + (10 1)36.6667 (7.0 11.0)2
= 0.0780
Db = s
Nous comparons la valeur absolue du rapport
t=
Db
0.2549
=
= 3.2667
Db
0.0780
Avec le seuil critique au risque = 5%, t0.975 (11) = 2.2010. Comme |t| > t0.975 (11), nous rejetons
l'hypothse d'galit des constantes. La probabilit critique est gale = 0.007509. Ici aussi, le rsultat
est compltement cohrent [t2 = (3.2667)2 = 10.6716 = F ] avec l'approche gnrique pour un nombre
de groupes quelconques (Figure 8.4).
8.5 Deux tudes de cas

8.5.1 Le salaire selon le niveau d'tudes
Nous souhaitons expliquer le salaire (Y ) des individus partir de leur niveau d'tudes (X ). Une
qualication d'autant plus leve devrait induire une rmunration plus leve. Aprs cette premire
tape, nous souhaitons savoir si la relation est la mme chez les hommes et chez les femmes. Ou bien y
a-t-il une disparit ? Et si c'est le cas, de quelle nature serait-elle ?
Page: 74
macro: svmono.cls
date/time: 11-Feb-2013/22:06
75
Nous utiliserons ces mmes donnes dans un autre contexte (rgression sur des exognes qualitatives)
plus loin dans ce fascicule. Le chier provient du site http://www.cabannes.net/.
Tester la dirence globale.
Nous disposons de n = 40 observations, dont n1 = 20 hommes et
n2 = 20 femmes. Nous sommes en prsence de K = 2 groupes. Les eectifs tant relativement faibles,
nous raliserons nos tests = 10%.
Fig. 8.8.
Comparaison des rgressions - Salaire = f(annes d'tudes) / sexe
La rgression sur la totalit des donnes indique (Figure 8.8) 9 :
y = 267.024x 902.231, SCRT = 60775962.6

Chez les hommes, nous avons
y = 261.071x 413.655, SCR1 = 36995693.7

Et chez les femmes,
y = 178.472x 230.105, SCR2 = 16223705.4

La somme des erreurs rsiduelles intra-groupes est gale
SCRW = SCR1 + SCR2 = 36995693.7 + 16223705.4 = 53219399.1

F =
(60775962.6 53219399.1)/(2 (2 1))

=
= 2.5558
SCRW /(n 2K)
53219399.1/(40 2 2)
9. comparaisondesregressions.xls - "salaires-ed-sexe"
Page: 75
macro: svmono.cls
date/time: 11-Feb-2013/22:06
76
Avec la distribution F(2 (2 1) = 2, 40 2 2 = 36), nous avons une probabilit critique de
= 0.09164. Au risque = 10%, nous pouvons considrer que les rgressions sont direntes
c.--d. la liaison entre les annes d'tudes et le salaire n'est pas la mme selon le sexe de l'employ.
Visuellement, les nuages de points et les courbes de tendance associes conrment cette conclusion
(Figure 8.9).
Fig. 8.9.
Comparaison des rgressions - Nuages de points - Salaire = f(annes d'tudes) / sexe
Fig. 8.10.
Comparaison des pentes et des constantes - Salaire = f(annes d'tudes) / sexe
A quel paramtre alors serait imputable cette divergence ? Penchons-nous sur le rle de la pente.
Tester la dirence entre les pentes. Pour laborer le test, nous avons besoin des covariances et
des variances de Y et X , conditionnellement aux groupes (Figure 8.10) 10 :
10. comparaisondesregressions.xls - "salaires-ed-sexe"
Page: 76
macro: svmono.cls
date/time: 11-Feb-2013/22:06
77
1
(yi y1 )(xi x
1 ) = 1360.3158
n1 1 i=1
20
syx,1 =
syx,2 = 1063.3158
s2x,1 = 5.2105
s2x,2 = 5.9579
s2y,1 = 2302280.379
s2y,2 = 1043651.039
Nous pouvons en extraire la pente commune
K
a
c = k=1
K
(nk 1)syx,k
k=1 (nk
1)s2x,k
19 1360.3158 + 19 1063.3158
= 217.0075
19 5.2105 + 19 5.9579
Et la somme des erreurs rsiduelles des K = 2 droites parallles
SCRC =
2c
(nk 1)s2y,k a
(nk 1)s2x,k
k=1
k=1
= (19 2302280.379 + 19 1043651.039) (217.0075)2 (19 5.2105 + 19 5.9579)

= 53579716.74
Il ne reste plus qu' former la statistique de test
F =
(SCRC SCRW )/(K 1)

(53579716.74 53219399.1)/(2 1)
=
= 0.2437
SCRW /(n 2K)
53219399.1/(40 2 2)
Avec un F(1, 36), nous avons une p-value de = 0.6245. Les donnes ne contredisent pas l'hypothse
d'galit des pentes des deux rgressions.
Tester la dirence entre les constantes. Si les pentes sont censes tre identiques (hum, a ne
parat pas trs vident sur le graphique nuage de points, on y reviendra plus loin...), voyons ce qu'il en
est concernant les constantes (Figure 8.9).
Nous disposons de tous les lments ncessaires au calcul dj, il ne reste plus qu' former la statistique
de test
F =
(60775962.6 53579716.74)/(2 1)
(SCRT SCRC )/(K 1)
=
= 4.8351
SCRC /(n 2K)
53579716.74/(40 2 2)
Avec un F(1, 36), nous avons une p-value de = 0.0344. Au risque 10%, nous concluons une
dirence signicative des constantes. La divergence constate globalement est essentiellement due un
dcalage sur l'axe des ordonnes entre les droites de rgression
Conclusion : L'volution des salaires selon la qualication est la mme chez les hommes et chez les
femmes. En revanche, il y a une dirence intrinsque du niveau de rmunration selon le sexe, en faveur
des hommes.
Page: 77
macro: svmono.cls
date/time: 11-Feb-2013/22:06
78
Aller plus loin dans notre tude

Jusqu' ce stade, nous nous sommes scrupuleusement (de manire trs scolaire je dirais) conforms
la dmarche dcrite dans ce chapitre. Pourtant, au del des conclusions de numriques, on ne manquera
pas de remarquer plusieurs choses dans le graphique ci-dessus (Figure 8.9 -
un graphique vaut souvent
tous les calculs du monde...) : les droites ne sont pas si parallles que a contrairement ce que semble
armer le test d'galit des pentes ; et surtout, la dispersion des salaires est plus forte mesure que
niveau d'tudes augmente.
Nous avons essay d'introduire une transformation log-log pour stabiliser la variance c.--d. raliser
les rgressions sur les variables transformes endogne = ln(salaire) vs. exogne = ln(annes d'tudes).
Le rsultat est particulire diant (Figure 8.11) 11 . La nature de la divergence est conrme, elle est
manifestement du un dcalage entre les droites qui sont quasi-parfaitement parallles. Et ce dcalage
correspond en ralit un
le niveau d'tudes.
rapport constant entre les salaires hommes/femmes, quel que soit
Comme quoi, des transformations de variables judicieusement choisies peuvent transgurer les rsultats de la rgression. Il ne faut jamais l'oublier.
Une autre information importante dcoule de cette nouvelle analyse : la relation entre le salaire et les
annes d'tudes est lasticit constante, une augmentation relative des annes d'tudes entrane une
augmentation relative proportionnelle du salaire.
Fig. 8.11.
Comparaison des rgressions - ln(Salaire) = f[ln(annes d'tudes)] / sexe
11. comparaisondesregressions.xls - "salaires-ed-sexe-loglog

Page: 78
macro: svmono.cls
date/time: 11-Feb-2013/22:06
79
8.5.2 Taille des mduses

Dans cette seconde tude, nous voulons expliquer la largeur des mduses partir de leur longueur 12 .
Elles ont t pches sur deux sites direntes. On souhaite savoir si la relation entre la largeur et la
longueur est la mme sur ces deux groupes.
Fig. 8.12.
Comparaison des rgressions - Largeur vs. longueur des mduses
12. Ou l'inverse, qu'importe, cet exemple vaut surtout pour la singularit des rsultats que l'on obtient. Les donnes proviennent du site
Datasets for Statistical Analysis, http://www.sci.usq.edu.au/staff/dunn/Datasets/
Books/Hand/Hand-R/jelly-R.html
Page: 79
macro: svmono.cls
date/time: 11-Feb-2013/22:06
80
Nous disposons de n = 46 observations, avec n1 = 22 et n2 = 24. Nous ralisons la rgression globale

et les rgressions conditionnelles (Figure 8.12) 13 . Nous en dduisons les informations pour raliser la
comparaison globale :
A partir de la rgression sur les n = 46 observations, nous avons
SCRT = 72.9121
A partir des deux rgressions dans les groupes,
SCRW = SCR1 + SCR2 = 21.9011 + 48.0025 = 69.9036

F =

(72.9121 69.9036)/(2 (2 1))
=
= 0.9038
SCRW /(n 2K)
69.9036/(46 2 2)
Avec une distribution F(2, 42), nous obtenons une probabilit critique de = 0.4128.
Au risque = 5%, nous pouvons armer que la relation entre la longueur et la largeur est la mme
pour les mduses en provenance des deux sites. On
pourrait tre emmen penser que les mduses
proviennent de la mme population.

Peut-on s'en tenir cette conclusion ? Toujours un petit graphique, surtout dans le cadre de la
rgression simple, pour vrier qu'il n'y a pas une entourloupe quelque part. On ne sait jamais.
Fig. 8.13.
Comparaison des rgressions - Largeur vs. longueur des mduses - Nuages de points
Grand bien nous en a pris (Figure 8.13). Les rsultats obtenus travers la procdure statistique
masquaient en ralit un problme de taille (si je puis dire). Eectivement, la relation entre la largeur et
la longueur semblent identique dans les deux sous-populations. En revanche, les mduses ne sont pas de
mme taille. Les mduses du second groupe sont plus larges et plus longs que ceux du premier. Le test de
comparaison des rgressions, dont l'objectif est de dtecter les disparits sur les coecients a et b de la
13. comparaisondesregressions.xls - "comp.meduses"
Page: 80
macro: svmono.cls
date/time: 11-Feb-2013/22:06
81
droite, n'est absolument pas arm pour dceler ce type de phnomne. Alors qu'une simple comparaison
de moyennes, tant sur X que sur Y , l'aurait immdiatement mis en vidence.
Moralit, il ne faut jamais demander aux tests plus que ce qu'ils savent faire. Il nous appartient de
dlimiter prcisment leur champ d'action.
Page: 81
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 82
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Partie II
Rgression Linaire Multiple
Page: 83
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 84
macro: svmono.cls
date/time: 11-Feb-2013/22:06
9
Rgression linaire multiple
9.1 Formulation - Hypothses

La rgression linaire multiple est la gnralisation multivarie de la rgression simple. Nous cherchons
expliquer les valeurs prises par la variable endogne Y l'aide de p variables exognes Xj , (j = 1, . . . , p).
L'quation de rgression s'crit :
yi = a0 + a1 xi,1 + + ap xi,p + i
(9.1)
Nous devons estimer les valeurs des (p + 1) paramtres (a0 , a1 , . . . , ap ) partir d'un chantillon de n
observations. Nous remarquons dans le modle (quation 9.1) :
i = 1, . . . , n correspond au numro des observations ;
yi est la i-me observation de la variable Y ;
xi,j est la i-me observation de la j-me variable ;
i est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement les valeurs de Y l'aide des p variables Xj (ex. problme de spcication, valeurs exognes
manquantes, etc.).
Les tapes
processus de modlisation sont les suivantes (Tenenhaus, pages 104 et 105) :
1. Estimer les valeurs des coecients (a0 , a1 , . . . , ap ) partir d'un chantillon de donnes (estimateur
des moindres carrs ordinaires).
2. valuer la prcision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modle dans sa globalit (tableau d'analyse de variance, coecient
de dtermination).
4. Tester la ralit de la relation entre Y et les exognes Xj (test de signicativit globale de la rgression).
5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de signicativit
de chaque coecient).
Page: 85
macro: svmono.cls
date/time: 11-Feb-2013/22:06
86
9 Rgression linaire multiple
6. Tester l'apport d'un groupe de variables explicatives dans l'explication de Y (test de signicativit
simultane d'un groupe de coecient).
7. Pour un nouvel individu i pour lequel on fournit la description (xi,1 , . . . , xi,p ), calculer la valeur
prdite yi et la fourchette de prdiction.
8. Interprter les rsultats en mettant en avant notamment l'impact des exognes sur l'endogne (interprtation des coecients, analyse structurelle).
La modlisation est un processus itratif. Lorsqu'on essaie rellement d'approfondir, on se rend

compte que le processus de modlisation est trs complexe. Il ncessite parfois plusieurs aller-retour pour
vrier la validit des rsultats que l'on essaie d'tablir. Quelques outils de diagnostic de la rgression
sont dcrits dans un second support en ligne [13]. Y sont tudis notamment :
L'tude des rsidus, graphiquement mais aussi numriquement avec les tests de normalit, les tests
du caractre alatoire des erreurs.
La dtection des points aberrants et inuents, ces points qui peuvent peser de manire indue sur
les rsultats de la rgression.
Les problmes de colinarit et la slection de variables.
Les ruptures de structure c.--d. la vrication de l'existence de plusieurs sous-populations dans les
donnes, avec des relations de nature dirente entre les exognes et l'endogne (ex. le lien entre le
poids et la taille n'est pas le mme chez les hommes et chez les femmes).
Les problmes de non linarit que nous avons commenc aborder dans la partie consacre la
rgression simple.
Lecture des coecients. Chaque coecient se lit comme un propension marginale :
y
xj
= aj .
Mais, la dirence de la rgression linaire simple, on prend en compte le rle des autres variables lors
de son calcul. On dit alors que c'est un coecient partiel : il indique l'impact de la variable en contrlant
l'eet des autres variables, c'est la fameux "toutes choses gales par ailleurs". Nous approfondirons cette
notion dans un chapitre ddi l'interprtation des coecients (chapitre 13).
Enn, l'eet des variables est additif c.--d. toutes les autres tant constantes, si xj et xj sont tous
deux augments d'une unit, alors y est augment (aj + aj ).
Rgression sans constante.
Les remarques mises concernant le modle sans constante dans la
rgression simple (section 7.2) restent valables. Il faut faire attention aux degrs de libert puisque nous
n'estimons plus que p paramtres. Le coecient de dtermination R2 n'est plus interprtable en termes
de proportion de variance explique.
Page: 86
macro: svmono.cls
date/time: 11-Feb-2013/22:06
9.3 Hypothses
87
9.2 Notation matricielle

Pour simplier les notations, on retrouve souvent une criture matricielle du modle dans la littrature
(Equation 9.2).
(9.2)
Y = Xa +
Les dimensions des matrices sont respectivement :
Y (n, 1)
X (n, p + 1)
a (p + 1, 1)
(n, 1)
La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exognes, avec une
premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
1 x1,1 x1,p
1 x2,1 x2,p
X = .
..
1 xn,1 xn,p
9.3 Hypothses
Comme pour la rgression simple, les hypothses permettront de dterminer les proprits des estimateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coecient pris
individuellement, loi de Fisher ds que l'on traite un groupe de coecients).
Nous distinguons (Bourbonnais, page 51 ; Labrousse, page 19 ; Giraud et Chaix, pages 22 et 23) :

Les hypothses stochastiques

H1 Les Xj sont non alatoires c.--d. les xi,j sont observs sans erreur.
H2 E[i ] = 0, l'esprance de l'erreur est nulle. En moyenne, le modle est bien spci.
H3 E[2i ] = 2 , la variance de l'erreur est constante, c'est l'hypothse de homoscdasticit.
H4 COV (i , i ) = 0 pour i = i , les erreurs sont indpendantes, c'est l'hypothse de non
autocorrlation des rsidus.
H5 COV (xi,j , i ) = 0, l'erreur est indpendante des variables exognes.

H6 i N (0, ), les erreurs sont distribus selon une loi normale.
Les hypothses structurelles
H7 La matrice (X X) est rgulire c.--d. det(X X) = 0 et (X X)1 existe. Elle indique l'absence
de colinarit entre les exognes. Nous pouvons aussi voir cette hypothse sous l'angle rang(X) =
p + 1 et rang(X X) = p + 1.
H8
Page: 87
(X X)
n
tend vers une matrice nie non singulire lorsque n +.
macro: svmono.cls
date/time: 11-Feb-2013/22:06
88
H9
n > p + 1, le nombre d'observations est suprieur au nombre de paramtres estimer. Dans
le cas o n = p + 1, nous avons un interpolation, la droite passe exactement par tous les points.
Lorsque n < p + 1, la matrice (X X) n'est plus inversible.
9.4 Ajustement des moindres carrs ordinaires (MCO)

9.4.1 Minimisation de la somme des carrs des erreurs
Comme pour la rgression simple, on cherche les coecients qui permettent de minimiser la quantit
suivante
S=
(9.3)
2i
i=1
o 2i = [yi (a0 + a1 xi,1 + + ap xi,p ]2

On passe de nouveau par les drives partielles que l'on annule pour obtenir les (p + 1)
normales.
quations
=
0
2 i i = 0
a
0
..
.
..
.
S = 0
2 x = 0
i
i i,p
ap
a + a1 x
1 + + ap x
p = y
0
..
.
a x + a x x + + a x x = x y
0
1
p
i,p i
i i,p
i i,1 i,p
i i,p i,p
Nous avons (p + 1) quations (p + 1) inconnues. Nous pouvons en extraire les estimations
(
a0 , a
1 , . . . , a
p ). Mais cette criture est dicile manipuler. Passons aux matrices.
9.4.2 criture matricielle

Avec l'criture matricielle, nous pouvons produire une criture condense. Soit le vecteur des erreurs,
avec = (1 , . . . , n ). La somme des carrs des erreurs devient
S=
2i =
Dveloppons l'expression
= (Y Xa) (Y Xa)
= Y Y Y Xa a X Y + a X Xa
= Y Y 2a X Y + a X Xa
S = Y Y 2a X Y + a X Xa
Page: 88
macro: svmono.cls
date/time: 11-Feb-2013/22:06
89
Quelques lments sur les calculs matriciels pour comprendre les dveloppements ci-dessus :
(Xa) = a X
(Y Xa) = a X Y
La transpose d'un scalaire est gal lui mme. Or en se rfrant aux dimensions des vecteurs et
matrice, on constate que (a X Y ) est de dimension (1, 1), un scalaire.
Pour dterminer le minimum de S , nous ralisons la drivation matricielle que nous annulons (Labrousse, page 22) :
S
= 2(X Y ) + 2(X X)a = 0
a
(X X)a = X Y
L'estimateur des moindres carrs ordinaires (MCO) des coecients du modle s'crit :
a
= (X X)X Y
(9.4)
9.4.3 Un exemple : consommation des vhicules

Nous reprenons l'exemple que nous dcrivons dans un de nos supports [13]. Il s'agit d'expliquer la
consommation des vhicules (en L/100 km) partir de p = 3 variables exognes : la cylindre (taille du
moteur, en cm3 ), la puissance (en kw) et le poids (en kg). Par rapport au chier original, nous avons
limin les 3 points atypiques qui posaient problmes. Nous disposons donc de n = 28 observations.
Nous avons labor une feuille Excel qui reconstitue tous les calculs intermdiaires permettant d'obtenir le vecteur a
(Figure 9.1) 1 :
Nous distinguons les valeurs des exognes (X1 , X2 , X3 ), et celles de l'endogne Y .
Nous accolons au tableau des exognes une colonne de constante, avec la valeur 1. Nous obtenons
ainsi la matrice X .
1 846 32 650
1 993 39 790
X = .
..
1 2473 125 1570

Nous pouvons laborer la matrice (X X), avec
(X X) =
28
..
.
50654
2176
33515
33515 65113780 2831550 42694125

Nous devrions obtenir n =
28
i=1
1 1 = 28 dans la premire cellule de la matrice. C'est le cas.
Nous inversons cette matrice pour obtenir (X X)1 (attention,
certains chires de la matrice sont
en notation scientique dans la gure 9.1).

1. reg_multiple_consommation_automobiles.xlsx - "EMCO"
Page: 89
macro: svmono.cls
date/time: 11-Feb-2013/22:06
90
Fig. 9.1.
Calculs matriciels - Consommation des vhicules
Ensuite, nous calculons la matrice des produits croiss entre X et Y , soit (X Y ), nous avons
254.1
493218.1
(X Y ) =
21473.7
321404.5
= (X X)1 (X Y ). Nous obtenons les estimations des

Enn, il ne nous reste plus qu' calculer a
paramtres de la rgression
a
0
1.7020

1 0.0005
a
= =
2 0.0183
a
3
0.042
Les coecients sont dans l'ordre des colonnes de la matrice X .

Le modle s'crit
CON SO = 1.7020 + 0.0005 cylindree + 0.0183 puissance + 0.042 poids

Toutes les variables semblent jouer positivement sur la consommation c.--d. lorsque la cylindre,
la puissance ou le poids augmentent, la consommation a tendance augmenter.
Page: 90
macro: svmono.cls
date/time: 11-Feb-2013/22:06
91
9.4.4 Quelques remarques sur les matrices

Les matrices (X X)1 et (X Y ) qui entrent dans la composition de a
peuvent tre interprtes d'une
manire qui nous claire sur l'inuence des variables dans l'estimation.
Matrice (X X)
Chaque case de la matrice (X X), de dimension (p+, 1, p + 1), est forme par la somme du produit
crois entre les exognes, en eet :
xi,1
xi,p
i xi,1
i xi,1 xi,p
i xi,1
(X X) = .
..
2
i xi,p
i xi,1 xi,p
i xi,p
(X X) est une matrice symtrique. Elle indique le degr de liaison entre les exognes.
Matrice (X Y )
Chaque case du vecteur (X Y ), de dimension (p + 1, 1), est compose du produit crois entre les
exognes et l'endogne.
yi
i xi,1 yi
(X X) =
..
x
y
i i,p i
Le vecteur indique le degr de liaison entre chaque exogne et Y .

Ainsi le coecient associ une variable explicative sera d'autant plus leve en valeur absolue,
relativement aux autres (nonobstant les disparits dues aux units de mesures), qu'elle est fortement lie
avec l'endogne et, dans le mme temps, faiblement lie avec les autres exognes.
Cas des variables centres

Lorsque les variables sont centres, nous retrouvons des concepts que nous connaissons bien. Soient
x i,j = xi,j x
j
y i = yi y
les variables centres. Alors les matrices
Page: 91
macro: svmono.cls
date/time: 11-Feb-2013/22:06
92
1
(X X) = cov(Xj , Xj )
n
1
(X Y ) = cov(Xj , Y )
n
reprsentent respectivement la matrice des variances covariances des exognes, et le vecteur des covariances entre les exognes et l'endogne.
Cas des variables centres et rduites

De la mme manire, lorsque les variables sont centres et rduites c.-d.
xi,j x
j
xj
yi y
cr
yi =
y
cr
xi,j =
Les matrices
1 cr cr
(X X ) = r(Xj , Xj )
n
1 cr cr
(X Y ) = r(Xj , Y )
n
reprsentent respectivement les corrlations croises entre les Xj et les corrlations des Xj avec Y .
9.5 Proprits des estimateurs

De nouveau, cette section est surtout intressante pour les frus de thorie. Sa lecture n'est pas primordiale si vous tes avant tout intresss par la mise en oeuvre de la rgression sur des problmes rels.
A l'attention des tudiants de la Licence IDS : vous par contre, vous devez bien la lire, en dtail mme,
et comprendre si possible. Dsol.
Deux questions reviennent toujours lorsque l'on souhaite tudier les proprits d'un estimateur : est-il
sans biais ? est-il convergent ?
Nous allons directement l'essentiel dans cette partie. Le dtail de la dmarche a dj t expos
dans le cadre de la rgression simple (chapitre 2).
9.5.1 Biais
L'estimateur a
est sans biais si E(
a) = a. Voyons quelles conditions cette proprit est respecte.
Dveloppons a
:
Page: 92
macro: svmono.cls
date/time: 11-Feb-2013/22:06
9.5 Proprits des estimateurs
93
a
= (X X)1 X Y
= (X X)1 X (Xa + )
= (X X)1 X Xa + (X X)1 X
a
= a + X X)1 X
Ainsi, en passant l'esprance mathmatique :
E(
a) = a + E[(X X)1 X ]
On sait que X est non alatoire, nous avons E[(X X)1 X ] = (X X)1 X E() ; de plus E() = 0
par hypothse. Au nal, nous avons bien
E(
a) = a
L'estimateur des MCO est sans biais sous les deux hypothses suivantes (section 9.3) : (H1) X
est non alatoire, les exognes sont mesures sans erreur ; (H2) la moyenne de l'erreur est nulle E() = 0.
9.5.2 Variance - Convergence

Soit a , de dimension (p + 1, p + 1) la matrice de variance covariance des coecients c.--d.
V (
a0 ) COV (
a0 , a
1 ) COV (
a0 , a
p )

V (
a1 )
COV (
a1 , a
p )
a = .
..
V (
ap )
La matrice est symtrique, sur la diagonale principale nous observons les variances des coecients
estims.
Comment obtenir cette matrice ?
Elle est dnie de la manire suivante
a = E[(
a a)(
a a) ]
Or
a
a = (X X)1 X
(
a a) = X[(X X)1 ]
= X(X X)1 car (X X)1 est symetrique
Ainsi
(
a a)(
a a) = (X X)1 X X(X X)1
En passant l'esprance mathmatique, et sachant que les X sont non-stochastiques (H1),
Page: 93
macro: svmono.cls
date/time: 11-Feb-2013/22:06
94
E[(
a a)(
a a) ] = (X X)1 X E[ ]X(X X)1
La quantit E[ ], de dimension (n, n), reprsente la matrice de variance covariance des erreurs, en
voici le dtail
E(21 ) E(1 2 ) E(1 n )
E[ ] = ..
E(n )
Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothse (section 9.3), (H3) la variance de l'erreur est constante V (i ) = E(2i ) = 2 et,
(H4) leurs covariances nulles COV (i , i ) = 0. De fait,
E[ ] = 2 I
O I est la matrice unit de dimension (n, n).
La matrice de variance covariance des estimateurs s'en retrouve grandement simplie. En eet,
E[(
a a)(
a a) ] = (X X)1 X E[ ]X(X X)1
= 2 (X X)1 X IX(X X)1
= 2 (X X)1 X X(X X)1
= 2 (X X)1
Nous trouvons ainsi la matrice de variance covariance des coecients estims :
a = 2 (X X)1
(9.5)
On montre qu'une condition ncessaire et susante pour que a soit un estimateur convergent de a
est que les variables exognes ne tendent pas devenir colinaires lorsque n tend vers l'inni, autrement
dit que l'hypothse (H8) reste valable lorsque n tend vers l'inni. (Giraud et Chaix, page 65 ; que l'on
retrouve sous des formes plus ou moins analogues chez Bourbonnais, page 53, et Labrousse, page 26).
9.5.3 L'estimateur des MCO est BLUE

Thorme de Gauss-Markov.
Exactement comme pour la rgression simple, on montre pour la
rgression multiple qu'il n'existe pas d'estimateurs sans biais avec une variance plus faible que celle
des moindres carrs ordinaires (Labrousse, page 26). Les estimateurs des MCO sont BLUE (best
linear
unbiased estimator ).
Page: 94
macro: svmono.cls
date/time: 11-Feb-2013/22:06
9.6 Estimation de la variance de l'erreur
95

9.6.1 Estimation de la variance de l'erreur
L'expression de la variance covariance des coecients estims (quation 9.5) est trs jolie mais inutilisable tant que l'on ne dispose pas d'une estimation de la variance de l'erreur
2 .
Par analogie avec la rgression simple (section 3.2.2), nous la comprenons comme le rapport entre la
somme des carrs des rsidus (SCR) et le nombre de degrs de libert de la rgression, soit le nombre
d'observations moins le nombre de paramtres estims : [n (p + 1) = n p 1]. Ainsi, nous crirons
2
i
SCR
2
i
=
(9.6)
=
np1
np1
O i est le rsidu de la rgression pour l'observation no i.
Le lecteur dsireux d'approfondir la question, notamment le dtail de la dmarche, trouvera une
dmonstration plus rigoureuse dans les ouvrages lists en bibliographie (Labrousse, pages 28 33 ; Dodge
et Rousson, pages 65 67 ; Giraud et Chaix, pages 67 69 ; etc.).
9.6.2 Estimation de la matrice de variance covariance des coecients

Disposant maintenant d'une estimation de la variance de l'erreur, nous pouvons produire une estimation de la matrice de variance covariance des coecients estims.
a =
2 (X X)1
(9.7)
Sur la diagonale principale de cette matrice, nous disposons de l'estimation de la variance

des coecients et, en passant la racine carre, de leur cart-type. Leur rle sera trs important
dans l'infrence statistique.
9.6.3 Dtails des calculs pour les donnes "Consommation des vhicules"
Nous reprenons notre exemple des vhicules (section 9.4.3). Nous avons reconstruit la feuille de calcul
de manire obtenir les lments ncessaires l'estimation de la variance de l'erreur et de la matrice de
variance covariance des coecients estims (Figure 9.2) 2 .
Nous reprenons des rsultats prcdents (Figure 9.1) la matrice (X X)1 et les coecients estims a
.
Nous formons alors :
La valeur prdite de l'endogne yi pour chaque individu (ex. y1 = 1.070205 + 0.00049 846 +
0.01825 32 + 0.00423 650 = 5.4523).

Le rsidu i = yi yi (ex. 1 = y1 y1 = 5.7 5.4523 = 0.2477.
2. reg_multiple_consommation_automobiles.xlsx - "variance erreur"
Page: 95
macro: svmono.cls
date/time: 11-Feb-2013/22:06
96
Fig. 9.2.
Estimation de la variance de l'erreur et des coecients estims - Consommation des vhicules
Que nous passons au carr 2i (ex. 21 = (0.2477)2 = 0.0613).

2
2
Nous sommons pour obtenir la SCR =
i (dans notre exemple, SCR =
i = 0.0613 +
i
i
0.1978 + = 13.5807).
L'estimation de la variance de l'erreur s'crit
2 =
SCR
13.5807
=
= 0.56586
np1
28 3 1
L'estimation de son cart-type en est dduite, valeur souvent automatiquement retourne par les
logiciels de statistique
0.56586 = 0.75224
Reste la dernire multiplication pour obtenir l'estimation de la matrice de variance covariance des
coecients :
a =
2 (X X)1
Elle est forcment symtrique parce que la covariance est un oprateur symtrique.
Comme nous l'avons soulign prcdemment, nous disposons sur la diagonale de cette matrice de
l'estimation de la variance des coecients. Dans notre exemple,
a20 = 0.399490226
a21 = 6.0783 107
a22 = 0.00020279
a23 = 8.7595 107

Page: 96
macro: svmono.cls
date/time: 11-Feb-2013/22:06
97
En passant la racine carre, nous avons l'estimation de l'cart-type, valeurs directement fournies
par la majorit des logiciels de statistique. C'est pour cette raison que nous avons ach les
aj ct
des estimations a
j dans notre feuille Excel (Figure 9.2). Nous les retrouverons souvent sous cette forme
dans les sorties des logiciels que nous analyserons au chapitre 15.
a0 = 0.63205
= 0.00078
a
1
a2 = 0.01424
a3 = 0.00094
9.6.4 Rsultats fournis par la fonction DROITEREG

Il est temps de voir un peu ce que nous propose la fonction DROITEREG d'Excel en matire de
rgression linaire multiple. Elle sait grer un nombre d'exognes suprieur 1. Il faut simplement que
les colonnes des donnes soient contigus dans la feuille de calcul. Il ne faut pas intgrer la colonne de
constante parmi les exognes. Une option nous permet de spcier si nous souhaitons ou pas la constante
a0 dans la rgression. Dans la plage de rsultats, nous slectionnons donc (p + 1 = 4) colonnes pour
notre rgression, et 5 lignes pour qu'Excel puisse intgrer les informationnelles additionnelles permettant
d'analyser les rsultats.
Dans l'exemple que nous reproduisons ici (Figure 9.3) 3 , nous avons insr la commande
DROITE-
REG(F3 :F30 ;B3 :D30 ;1 ;1). Le premire paramtre correspond la colonne de valeurs de Y ; le second
au(x) colonne(s) de X ; le troisime paramtre indique que nous ralisons une rgression avec constante
(0 si nous souhaitons une rgression sans constante) ; et le dernier indique que l'on souhaite obtenir des
informations additionnelles en plus des coecients estims (0 dans le cas contraire).
Fig. 9.3.
Comparaison estimation manuelle et DROITEREG d'Excel - Consommation des vhicules
Mettons en parallle les rsultats de DROITEREG avec ceux calculs manuellement avec les fonctions
matricielles d'Excel (Figure 9.3) :
3. reg_multiple_consommation_automobiles.xlsx - "variance erreur (droitereg)"
Page: 97
macro: svmono.cls
date/time: 11-Feb-2013/22:06
98
Sur la premire ligne, nous observons les coecients estims a

. La constante est toujours en dernire position droite. En revanche, les coecients associs aux variables sont dans l'ordre inverse des colonnes des donnes. Bon, on ne voit pas trop o est la logique. Il faudra s'en souvenir tout simplement. Dans notre tableau de valeurs (Figure 9.2), nous avons de gauche droite
(cylindree, puissance, poids). Dans le tableau fourni par DROITEREG, nous avons de gauche
droite les coecients associs (poids, puissance, cylindree).
Mis part cette petite incongruit, nous constatons que les coecients sont les bons, (
a0 =
1.70205, a
cylindree = 0.00049, a
puissance = 0.01825, a
poids = 0.00423).
Sur la seconde ligne, nous avons les cart-types estims des coecients. En prenant en compte
le dcalage, nous constatons que les valeurs concident avec l'estimation l'aide des fonctions
matricielles d'Excel.
Dans la case (3, 2), nous avons l'estimation de l'cart-type de l'erreur
= 0.75224.
Dans la case (4, 2), nous observons les degrs de libert de la rgression, n p 1 = 28 3 1.
Enn, dans la case (5, 2), nous observons la SCR = 13.5807.
D'autres informations sont fournies, nous les dtaillerons par la suite.
Page: 98
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10
Tests de signicativit
10.1 Tableau d'analyse de variance et coecient de dtermination

10.1.1 Tableau d'analyse de variance et coecient de dtermination
La dcomposition de la variabilit de Y (SCT) en variabilit explique par le modle (SCE) et variabilit rsiduelle (SCR) reste valable. Nous pouvons construire une nouvelle version du tableau d'analyse
de variance qui tient compte des nouvelles valeurs des degrs de libert puisque nous estimons (p + 1)
paramtres maintenant.
Degrs de libert Carrs moyens
yi y)2
Explique
SCE = i (
p
CM E = SCE
p
2
SCR
Rsiduelle
SCR = i (yi yi )
np1
CM R = np1
Totale
SCT = i (yi y)2
n1
Tableau 10.1.
Tableau d'analyse de variance pour la rgression multiple
La part de variance de Y explique par le modle est toujours traduit par le coecient de dtermination
R2 =
SCE
SCR
=1
SCT
SCT
(10.1)
Bien videmment (0 R2 1), plus il tend vers 1 meilleur sera le modle. Lorsqu'il est proche de 0,
cela veut dire que les exognes Xj n'expliquent en rien les valeurs prises par Y . Nous retiendrons cette
ide dans le test de signicativit globale du modle.
10.1.2
R2
corrig ou ajust
Le R2 est un indicateur de qualit, mais il prsente un dfaut ennuyeux : plus nous augmentons le
nombre de variables explicatives, mme non pertinentes, n'ayant aucun rapport avec le problme que l'on
cherche rsoudre, plus grande sera sa valeur, mcaniquement.
Page: 99
macro: svmono.cls
date/time: 11-Feb-2013/22:06
100
A l'extrme, si nous multiplions le nombre d'explicatives jusqu' ce que (p + 1) soit gal n, nous
obtiendrions un R2 = 1.
Teneur en oxyde de carbone des cigarettes. Voyons un petit exemple pour montrer l'inconvnient
du R2 dans la comparaison des modles. Nous souhaitons expliquer la teneur en oxyde de carbone
(CO) des cigarettes partir de leur composition en goudron (TAR), en nicotine (NICOTINE) et leur
poids (WEIGHT). Nous disposons de n = 24 observations. Nous ralisons la rgression l'aide de
DROITEREG, nous obtenons le R2 dans la case (3, 1) du tableau de rsultats : R2 = 0.93498 (Figure
10.1) 1 . Le degr de libert est ddl = 24 3 1 = 20.
Fig. 10.1.
Comparaison de modles imbriqus via le R2 et R2 -ajust - Donnes cigarettes
Ajoutons la colonne ALEA dans le tableau de donnes. Elle a t gnre alatoirement avec la
fonction ALEA() d'Excel [loi uniforme U (0, 1)]. Nous eectuons de nouveau la rgression en intgrant
ALEA parmi les explicatives. Le degr de libert est diminu, il est pass ddl = 19, tmoin que la
variable supplmentaire a bien t prise en compte. Malgr que la variable n'ait aucun rapport avec le
problme que nous traitons, nous dcouvrons que le R2 a t augment, passant R2 = 0.9373. Diable,
ALEA permettrait donc d'expliquer la teneur en carbone des cigarettes ?
Clairement le R2 en tant que tel n'est pas un bon outil pour valuer le rle de variables supplmentaires
lors de la comparaison de modles imbriqus. En augmentant le nombre d'explicatives, nous augmentons
de manire mcanique la valeur du R2 mais, dans le mme temps, nous diminuons le degr de libert. Il
faudrait donc intgrer cette dernire notion pour contrecarrer l'volution du R2 . C'est exactement ce que
fait le R2 -ajust (ou R2 -corrig).
Le R2 -ajust est dni de la manire suivante :
1. cigarettes-regressionmultiple.xls - "R2 ajust"
Page: 100
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10.1 Tableau d'analyse de variance et coecient de dtermination
2 = 1 CM R = 1 SCR/(n p 1)
R
CM T
SCT /(n 1)
101
(10.2)
Il s'agit donc d'un R2 corrig par les degrs de libert, il peut s'exprimer en fonction du R2 d'ailleurs :
2 = 1
R
n1
(1 R2 )
np1
(10.3)
Attention, la lecture en termes de part de variance explique n'est plus possible dans ce cas. De mme,
2 peut prendre des valeurs ngatives. Il ne faut pas s'en ousquer.
le R
Le R2 -ajust en tant que tel n'est pas d'une grande utilit. Son principal avantage est qu'il permet
de comparer des modles imbriqus. Si nous prenons notre exemple des cigarettes (Figure 10.1), nous
2 = 0.92414 < R
2 = 0.92522,
constatons que le R2 -ajust du second modle est plus faible avec R
2
1
indiquant clairement que l'adjonction de ALEA parmi les exognes n'amne pas d'information pertinente
supplmentaire dans l'explication de Y .
Remarque 4 (Comparaison des R2 ). La comparaison directe des R2 (bruts) n'est pas une bonne ide
pour valuer la pertinence de variables supplmentaires dans la rgression disions-nous. C'est certain.
En revanche, nous pouvons tourner le problme d'une autre manire en posant la question : "est-ce
que l'introduction de nouvelles exognes induit une augmentation
signicative du R2 ? L'aaire devint
intressante dans ce cas, car nous nous situons dans un schma de test d'hypothses. Au rsultat est
associ un niveau de crdibilit traduit par le risque du test. Nous exploiterons cette ide plus loin dans
ce fascicule pour tester la signicativit d'un groupe de variables (section 10.4).
10.1.3 Coecient de corrlation linaire multiple

A l'instar de la rgression linaire simple, le coecient de corrlation linaire multiple est gal la
racine carre du coecient de dtermination :
R=
R2
En revanche, la dirence de la rgression simple, il ne correspond plus la corrlation entre

l'endogne et l'exogne, tout simplement parce que nous avons plusieurs exognes dans notre quation.
Dans le cas de la rgression linaire multiple, on montre que le coecient de corrlation linaire
multiple correspond la corrlation entre les valeurs observes et les valeurs prdites de l'endogne
(Tenenhaus, page 117) c.--d.
ry,y = R
(10.4)
Cela suggre d'ailleurs de construire le graphique nuage de points confrontant yi et yi pour valuer la
qualit de la rgression. Si le modle est parfait, les points seraient aligns sur la premire bissectrice.
Page: 101
macro: svmono.cls
date/time: 11-Feb-2013/22:06
102
10.1.4 Application aux donnes "Consommation des vhicules"

Reprenons notre chier "Consommation de vhicules". Nous exploitons les sorties de la fonction
DROITEREG (SCE = 121.0318, SCR = 13.5807) pour reconstituer le tableau d'analyse de variance.
SCR
13.5807
Nous en dduisons le R2 = 1 SCE+SCR
= 1 121.0318+13.5807
= 0.89911 dj fourni par Excel en ralit
(Figure 10.2) 2 .
Fig. 10.2.
Fig. 10.3.
2 et R - Consommation des vhicules

Tableau d'analyse de variance, R2 , R
Y observ et Y calcul - Coecient de corrlation linaire multiple - Consommation des vhicules
2. reg_multiple_consommation_automobiles.xlsx - "anova et R2"

Page: 102
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10.2 Test de signicativit globale de la rgression
103
Nous calculons les ratios supplmentaires :
2 = 1
Le R2 -ajust, R
0.89911) = 0.88650.
Le coecient de corrlation linaire multiple, R = R2 = 0.89911 = 0.94822

n1
np1 (1
R2 ) = 1
27
24 (1
Nous vrions aisment qu'il est gal au coecient de corrlation linaire entre l'endogne observe
Y et l'endogne prdite par le modle Y , ry,y = 0.94822.
Un R2 assez lev laisse penser que le modle est plutt bon. En construisant le graphique croisant
Y et Y , nous constatons eectivement que les points sont plutt bien aligns sur la premire bissectrice
(Figure 10.3).
10.2 Test de signicativit globale de la rgression

10.2.1 Formulation
Le test de signicativit globale consiste vrier si le modle, pris dans sa globalit, est pertinent.
L'hypothse nulle correspond la situation o aucune des exognes n'emmne de l'information utile dans
l'explication de Y c.--d. le modle ne sert rien. Le test s'crit :
H : a = a = = a = 0
0
1
2
p
H1 : j / aj = 0
Remarque 5 (Le cas de la constante). Attention, seuls les coecients associs aux variables Xj
sont inclus dans le test. En eet, c'est bien l'inuence des exognes sur l'endogne que l'on cherche
tablir. Si H0 est vrai, on sait que a0 est gal la moyenne des Y . Sauf cas particulier des variables
centres, la moyenne des Y est non nulle. Inclure a0 dans le test fausserait les rsultats.
Remarque 6 (Tester la signicativit du R2 ). Un autre manire d'exprimer le test consiste poser la

question : est-ce que le R2 est signicativement suprieur 0 ? Trs prise des anglo-saxons (cf. quelques
rfrences dans la section 3.1), on retrouve trs rarement cette formulation dans les ouvrages francophones.
Qu'importe. L'essentiel est de bien comprendre que l'on cherche tablir le pouvoir explicatif des Xj ,
pris dans leur globalit, sur Y .
10.2.2 Statistique de test et rgion critique

La statistique de test est extraite du tableau d'analyse de variance, elle s'crit
F =
SCE/p
CM E
=
CM R
SCR/(n p 1)
(10.5)
Nous pouvons aussi l'exprimer partir du coecient de dtermination
F =
Page: 103
(1
R2 /p
p 1)
R2 )/(n
macro: svmono.cls
(10.6)
date/time: 11-Feb-2013/22:06
104
Sous H0 , F suit une loi de Fisher F(p, n p 1). Au risque , la rgion critique (rejet de H0 ) du test
correspond aux valeurs exceptionnellement grandes de F :
R.C. : F > F1 (p, n p 1)
(10.7)
Application aux donnes "Consommation de vhicules. Revenons aux rsultats de notre rgression sur les vhicules (Figure 10.2). A partir du R2 , nous obtenons :
F =
(1
R2 /p
0.89911/3
=
= 71.2965
p 1)
(1 0.89911)/(24)
R2 )/(n
En passant par le tableau d'analyse de variance, nous aurions
F =
SCE/p
121.0318/3
40.3439
=
=
= 71.2965
SCR/(n p 1)
13.5807/(24)
0.5659
On constate par ailleurs que la valeur de F est directement fournie par DROITEREG (Figure 10.2).
Nous la comparons avec le quantile d'ordre 0.95 pour un test 5%, savoir 3 F0.95 (3, 24) = 3.00879.
Nous constatons que nous sommes dans la rgion critique. Au risque 5%, nous concluons que le modle
est globalement signicatif : la cylindre, la puissance et poids, pris dans leur globalit, emmnent de
l'information pertinente sur la consommation.
En passant par le calcul de la probabilit critique, nous aurions obtenu 4 = 4.26 1012 , largement
infrieure = 5%. La conclusion est cohrente.
10.3 Test de signicativit d'un coecient

10.3.1 Dnition du test
Aprs avoir tabli la signicativit globale de la rgression, nous devons valuer la pertinence des
variables prises individuellement. La dmarche est analogue celle dnie pour la rgression simple
(section 3.2.3). Toujours parce que i N (0, ), on montre que
a
j a
T (n p 1)
aj
(10.8)
A partir de l, nous pouvons dnir les tests de conformit un standard, les intervalles de conance
et, ce qui nous intresse dans cette section, les tests de signicativit.
Le test consiste opposer :
H : a = 0
0
j
H1 : aj = 0
3. INVERSE.LOI.F(0.05 ;3 ;24) dans Excel.

4. LOI.F(71.2965 ;3 ;24) dans Excel.
Page: 104
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10.3 Test de signicativit d'un coecient
105
Le retrait de la variable Xj de la rgression est possible si l'hypothse nulle est avre. Par rapport aux
autres variables, la contribution de Xj dans l'explication de Y n'est pas signicative. Mance nanmoins,
des problmes de colinarit peuvent parfois perturber les rsultats. Nous en reparlerons lors du traitement
du chier "Consommation de vhicules".
La statistique de test s'crit :
taj =
a
j
aj
(10.9)
Et la rgion critique pour un risque , le test tant bilatral :
R.C. : |taj | > t1 2 (n p 1)
(10.10)
10.3.2 Tests pour la rgression "Consommation des vhicules"

Voyons ce qu'il en est concernant notre rgression "Consommation des vhicules". DROITEREG nous
fournit la fois a
j et
aj . Nous sommes arms pour dnir les tests de signicativit (Figure 10.4) 5 .
Fig. 10.4.
Tests de signicativit des coecients - Consommation des vhicules
Nous n'avons pas intgr la constante dans la procdure. En eet, comme nous l'avons soulign dans
la rgression simple, remettre en cause a0 modie la nature de la rgression. Pour chaque variable, nous
avons calcul la statistique de test :
ta1 =
ta2 =
ta3 =
0.00049
0.00078
0.01825
0.01424
0.00423
0.00094
= 0.63304
= 1.28161
= 4.51838
Pour un risque = 5%, le seuil critique 6 est gal t0.975 (24) = 2.06390. Nous constatons que seul le
coecient a3 associ (X3
- Poids ) est signicatif, puisque |ta3 | = 4.51838 > t0.975 = 2.06390.
5. reg_multiple_consommation_automobiles.xlsx - "test.signif"
6. LOI.STUDENT.INVERSE(0.05 ;24) dans Excel.
Page: 105
macro: svmono.cls
date/time: 11-Feb-2013/22:06
106
Ni
cylindre, ni puissance en revanche ne semblent pertinentes. Pris individuellement, il ne semblent
pas contribuer signicativement dans l'explication de la consommation. C'est trange si l'on connat un
peu les automobiles. Nous reviendrons sur cet aspect dans la section suivante (section 10.4).
Une autre manire de parvenir aux mmes conclusions est de calculer la probabilit critique 7 , nous
les achons dans notre feuille Excel (Figure 10.4) :
a1 = 0.53269
a2 = 0.21222

a3 = 0.00014
10.3.3 Tests pour la rgression "Cigarettes" incluant la variable ALEA

Pour montrer l'intrt du R2 -ajust, nous avions dcrit l'exemple d'une rgression o l'on cherchait
expliquer la quantit d'oxyde de carbone ingre par les personnes fumant des cigarettes (Figure 10.1).
L'adjonction d'une variable ALEA gnre alatoirement parmi les exognes provoquait une baisse du
2 , indiquant sa non pertinence dans la rgression. Voyons si le test de signicativit permet d'tablir le
R
mme rsultat.
ALEA est la 4-me variable de la rgression (Figure 10.5) 8 , nous avons a
4 = 0.81653 et
a4 = 0.96657.
ta4 =
Fig. 10.5.
0.81653
= 0.84477
0.96657
Tests de signicativit du coecient de ALEA - Cigarettes
Nous en dduisons la probabilit critique a4 = 0.40875. Dnitivement, la variable ALEA n'est

absolument pas pertinente dans la rgression.
7. LOI.STUDENT(ABS(t-calcul) ;24 ;2) dans Excel. Le dernier paramtre correspond un test bilatral.
8. cigarettes-regressionmultiple.xls - "tests.coefs.avec.alea"
Page: 106
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10.4 Test de signicativit d'un bloc de coecients
107
On constate par ailleurs que ni le poids (weight) ni la nicotine ne semblent peser non plus dans
l'explication de CO.

10.4.1 Principe du test
Dans notre exemple des "Consommation des vhicules" (section 10.3.2), nous avions constat que la
cylindre et la puissance n'taient pas individuellement signicatifs 5%. Est-ce que cela veut dire que
nous pouvons retirer directement les deux variables de la rgression ?
Clairement non. Nous ne pouvons nous baser sur les tests individuels pour supprimer en bloc des
exognes du modle. En eet, les coecients correspondent des contributions partielles, tenant compte
de l'impact des autres variables. Si ces dernires sont corrles, elles se gnent mutuellement dans la
rgression, partageant leur inuence au point que, individuellement, elles ne semblent pas intressantes.
Pour valuer la contribution de q variables
prises simultanment, nous introduisons un nouveau type
de test. L'hypothse nulle du test s'crit (sans restreindre la gnralit du propos, nous ne testons pas
forcment les q premiers coecients) :
H0 : a1 = a2 = = aq = 0
Pour rsoudre ce problme, nous confrontons deux rgressions : celle sous hypothse nulle, avec (p q)
variables explicatives, nous obtenons un premier coecient de dtermination R02 ; et celle avec les p
variables, nous obtenons R12 . Les deux modles sont imbriqus et, forcment, R12 R02 . Nous posons alors
la question suivante : est-ce que l'adjonction des q exognes supplmentaires dans la rgression induit une
augmentation
signicative du R2 au risque .
Formons la statistique de test F (Jaccard et Turrisi, page 12 ; Hardy, page 24) :
F =
(R12 R02 )/q

(1 R12 )/(n p 1)
(10.11)
Sous H0 , elle suit une loi de Fisher (q, n p 1) degrs de libert.

Un autre manire de voir les choses est de considrer que l'on oppose le modle incluant la totalit
des variables avec la rgression sous la contrainte H0 .
10.4.2 Tester la nullit simultane des coecients de "cylindre" et "puissance"

Testons donc la nullit simultane des coecients de cylindre et puissance dans la rgression
"Consommation de vhicules" (Figure 10.6) 9 .
9. reg_multiple_consommation_automobiles.xlsx - "test.signif.cyl.puissance"
Page: 107
macro: svmono.cls
date/time: 11-Feb-2013/22:06
108
Fig. 10.6.
Signicativit simultane des coecients de cylindre et puissance - Consommation des vhicules
Dans un premier temps, nous ralisons la rgression avec la seule variable poids. Nous obtenons
R02
= 0.85808. Dans un deuxime temps, nous construisons le modle incluant toutes les variables c.--d.
au modle prcdent, nous adjoignons les (q = 2) variables cylindre et puissance que nous souhaitons
prouver. Nous obtenons R12 = 0.89911. Le coecient de dtermination est plus leve, il ne peut pas en
tre autrement. Mais est-ce qu'il est signicativement plus grand ?
F =
(R12 R02 )/q

(0.89911 0.85808)/2
=
= 4.88057
(1 R12 )/(n p 1)
(1 0.89911)/(28 3 1)
Avec la loi de Fisher (2, 24) degrs de libert, nous obtenons une p-value de 0.01665. Contrairement
au test individuel o ils n'taient pas signicatifs 5%, les coecients pris en bloc le deviennent pour le
mme niveau de risque. Cette apparente contradiction n'en est pas une, elle s'explique simplement par
la forte corrlation entre les deux variables, en eet rcylindree,puissance = 0.94755. Les deux variables se
neutralisent dans la rgression. Clairement, oprer une slection de variables serait approprie ici. Vient
alors une question cruciale : laquelle retenir ? Nous tudions en dtail cette question dans le fascicule
consacr la pratique de la rgression [13] (chapitre 3).
Page: 108
macro: svmono.cls
date/time: 11-Feb-2013/22:06
109
10.4.3 Tester la nullit de 3 coecients dans la rgression "Cigarettes"

Lors du traitement du chier "Cigarettes" (section 10.3.3), nous avons montr que le coecient associ
ALEA n'tait pas signicatif 5%. Dans le mme temps, nous avons constat qu'il en tait de mme
concernant les coecients de NICOTINE et WEIGHT. Dans cette section, nous allons tester la nullit
simultane des q = 3 coecients.
Nous opposons "H0 : aalea = anicotine = aweight = 0" "H1 : un de ces coecients est non nul".
Fig. 10.7.
Tests de signicativit simultane de q = 3 coecients - Cigarettes
Pour ce faire, nous ralisons les deux rgressions (Figure 10.7) 10 : la premire avec la totalit (p = 4)
des variables, nous obtenons R12 = 0.93733 avec un degr de libert de (n p 1 = 24 4 1 = 19) ; la
seconde avec TAR seulement, le coecient de dtermination diminue et passe R02 = 0.93346, avec un
degr de libert n (p q) 1 = 24 (4 3) 1 = 22. Formons la statistique de test :
F =
(R12 R02 )/q

(0.93733 0.93346)/3
=
= 0.39082
(1 R12 )/(n p 1)
(1 0.93733)/(19)
Avec une loi de Fisher (3, 19) degrs de libert, nous obtenons un p-value = 0.76096, largement
suprieure = 5%. Clairement, nous pouvons retirer le bloc de variables (alea, nicotine et weight) de
la rgression, elles n'emmnent rien
par rapport TAR pour expliquer CO.
10.4.4 Exprimer la statistique de test avec les SCR

Notons que la statistique de test peut s'crire sous la forme d'une confrontation entre les erreurs
rsiduelles. Si SCR0 est la somme des carrs des rsidus sous la contrainte H0 (q coecients sont nuls,
10. cigarettes-regressionmultiple.xls - "tests.bloc.coefs"

Page: 109
macro: svmono.cls
date/time: 11-Feb-2013/22:06
110
la rgression comporte p q variables) et SCR1 celle de la rgression incluant toutes les p variables,
forcment (SCR0 SCR1 ) 11 , alors :
F =
(SCR0 SCR1 )/q

SCR1 /(n p 1)
(10.12)
La valeur obtenue est identique celle base sur les coecients de dtermination (quation 10.11).
Voyons notre exemple de la nullit de cylindre et puissance dans la rgression "Consommation des
vhicules" (Figure 10.6). Nous y lisons les valeurs adquates :
SCR0 = 19.1041
SCR1 = 13.5807
Nous en dduisons
F =
(SCR0 SCR1 )/q

(19.1041 13.5807)/2
=
= 4.88057
SCR1 /(n p 1)
13.5807/(28 3 1)
Les valeurs de F sont exactement les mmes.
11. L'erreur rsiduelle de la rgression non contrainte est toujours plus faible que celle de la rgression contrainte.
Attention, si on se base sur le coecient de dtermination, la relation est inverse c.--d. nous avons forcment
(R12 R02 ). En eet, R2 = 1
SCR
SCT
; et SCT - bas uniquement sur les valeurs de Y - est toujours constant quelle
que soit le modle tudi.

Page: 110
macro: svmono.cls
date/time: 11-Feb-2013/22:06
11
Gnralisation de l'tude des coecients
Concernant l'infrence sur les coecients, nous pouvons aller plus loin que les simples tests de signicativit. Dans ce chapitre, nous dcrivons la panoplie des outils que l'on pourrait mettre en oeuvre pour
les tudier. Nous verrons ainsi que tous les tests exposs dans ce fascicule peuvent s'crire sous une forme
gnrique unique, le test de combinaisons linaires des coecients.
11.1 Infrence sur les coecients

11.1.1 Intervalle de conance
La distribution de a
j telle que nous l'avons dcrite prcdemment (quation 10.8) est valable quel
que soit le voisinage. Nous pouvons dnir facilement un intervalle de conance des coecients au niveau
de conance (1 ) avec
a
j t1 2
aj
Fig. 11.1.
(11.1)
Intervalle de conance des coecients - Consommation des vhicules
Nous reprenons notre chier des Consommations de vhicules. Nous souhaitons construire les intervalles de variation des coecients au niveau de conance 95% (Figure 11.1) 1 . Nous utilisons le quantile
1. reg_multiple_consommation_automobiles.xlsx - "intv.conf.coefs"
Page: 111
macro: svmono.cls
date/time: 11-Feb-2013/22:06
112
11 Gnralisation de l'tude des coecients
t0.975 (24) = 2.06390 de la loi de Student (n p 1 = 24) degrs de libert. Avec les a
j et
aj , nous
formons les bornes basses et bornes hautes. Pour la variables poids, nous obtenons :
bb(apoids ) = 0.00423 2.06390 0.00094 = 0.00230

bh(apoids ) = 0.00423 + 2.06390 0.00094 = 0.00616
Les rsultats sont cohrents avec le test de signicativit. A savoir, le coecient est signicatif au
risque si l'intervalle de conance au niveau (1 ) ne contient pas la valeur 0. C'est le cas du coecient
de poids, pas pour ceux de puissance et cylindre.
11.1.2 Test de conformit un standard

Nous pouvons galement mettre en place des tests de conformit un standard pour rpondre des
problmes trs concrets.
Concernant la consommation des vhicules, un expert du domaine peut nous poser la question suivante
par exemple : est-ce que l'on peut montrer que, toutes choses gales par ailleurs, l'augmentation du poids
de 400 kg des vhicules induit une augmentation de la consommation suprieure 1 litre/100 km ?
Pour rpondre cela, nous opposons :
H : a
0
poids =
H1 : apoids >
1
400
1
400
= 0.0025
ta(poids >0.0025) =
a
poids 0.0025
apoids
Au risque , la rgion critique s'crit, le test tant unilatral :
R.C. : t(apoids >0.0025) > t1 (n p 1)

Sur nos donnes (Figure 11.2) 2 , cela donne
ta(poids >0.0025) =
0.00423 0.0025
= 1.84722
0.00094
A comparer avec t0.95 (24) = 1.71088. Puisque nous sommes dans la rgion critique au risque 5%, nous
pouvons dire qu'une augmentation du poids des vhicules de 400 kg,
puissance et cylindre gale, induit
une augmentation de la consommation suprieure 1 L / 100 km.
2. reg_multiple_consommation_automobiles.xlsx - "test.poids.conformit"
Page: 112
macro: svmono.cls
date/time: 11-Feb-2013/22:06
11.2 Test de conformit pour un bloc de coecients
Fig. 11.2.
113
Test de conformit un standard du coecient de "poids" - Consommation des vhicules

11.2.1 Principe du test pour un groupe de coecient
Nous pouvons gnraliser le test de conformit un groupe de q coecients (Bourbonnais, page 60 ;
Giraud et Chaix, pages 102 105). Les hypothses s'crivent (en tout gnralit, on teste q coecients,
pas ncessairement les q premires, nous adoptons cette criture pour simplier les notations) :
H0

a1
c1

a2 c2

: . = . a(q) = c(q)
.. ..

aq
cq
(11.2)
H1 : j / aj = cj
Les cj reprsentent les standards auxquels nous comparons nos coecients.
Attention, nous ne pouvons absolument rduire ce test une succession de tests individuels. Il est tentant d'utiliser des rgles du type "si on accepte H0 pour tous les tests pris individuellement,
alors on accepte H0 pour l'galit simultane" ou bien "si on rejette H0 au moins une fois sur un des tests
individuels, alors on rejette H0 pour le test simultan". Ces formulations sont errones tout simplement
parce qu'elles ne tiennent pas compte de l'interaction entre les variables, traduite numriquement par les
covariances des coecients. Ces dernires interviennent dans la construction de la statistique de test. Elle
s'crit :
F =
] 1 [
]
1[
a
(q) c(q)
(q) c(q)
a
(q) a
q
(11.3)
a est la
a
(q) reprsente le sous-vecteur des coecients estims mis contribution dans le test ;
(q)
matrice de variance covariance rduite aux coecients tests.
Sous H0 , la quantit F suit une loi de Fisher F(q, n p 1).
Page: 113
macro: svmono.cls
date/time: 11-Feb-2013/22:06
114
11.2.2 Reconsidrer le test de signicativit d'un bloc de coecients

Le test de signicativit est un cas particulier du test de conformit. Pour illustrer cette technique,
nous allons reprendre notre exemple de nullit simultane des coecients de cylindre et puissance dans
la rgression "Consommation des vhicules" (section 10.4.2).
Nous avons q = 2 coecients dans la procdure. L'hypothse nulle s'crit :
apuissance
0
=
H0 :
acylindree
0
Fig. 11.3.
Test de conformit un standard d'un bloc de coecients - Consommation des vhicules
Nous avons labor une feuille de calcul Excel pour former la statistique de test (Figure 11.3) 3 . Nous
distinguons :
a ,
A partir de la matrice de variance covariance des coecients
Nous extrayons la sous-matrice correspondant aux coecients de cylindre et puissance
6.0783 107 8.9923 106

a =
(2)
8.9923 106 2.0279 104
Que nous inversons
a
(2)
4782997.0660 212097.2404
=
212097.2404 14336.5614
3. reg_multiple_consommation_automobiles.xlsx - "test.conformit.cyl.puissance"
Page: 114
macro: svmono.cls
date/time: 11-Feb-2013/22:06
115
Nous formons la statistique de test en confrontant les coecients estims avec les standards :
(
)
0.000494
0
1
1
= 4.88057
F =
0.000494 0 ; 0.018251 0
a
(q)
2
0.018251 0
Le seuil critique est F0.95 (2; 24) = 3.40283. Nous sommes dans la rgion critique. Au risque 5%,
nous rejetons l'hypothse nulle d'galit des coecients (la p-value est = 0.01665).
Les coecients, qui taient gaux 0 pris individuellement (acceptation de H0 ), deviennent non nuls
lorsque nous les traitons en bloc (rejet de H0 ). Tout simplement parce que nous avons pris en compte
leur covariance dans la procdure.
Notons un rsultat intressant, cette procdure est totalement quivalente au test de signicativit
bas sur la comparaison des coecients de dtermination R2 mis en oeuvre sur les mmes donnes (section
10.4). La valeur de la statistique de test est exactement la mme.
11.2.3 Test de conformit pour plusieurs coecients - Donnes "Cigarettes"

Bien videmment, la procdure peut aller au del du test de signicativit. Reprenons l'exemple
des donnes "Cigarettes". Les exognes sont dans l'ordre TAR (X1), NICOTINE (X2), WEIGHT (X3),
ALEA(X4), nous souhaitons mettre en place le test suivant :

a1
1

: a2 = 1
a4
0

a1
1
H1 : a2 = 1
a4
0
H0
(11.4)
Par rapport l'exemple prcdent, l'originalit est qu'il s'agit ici d'un test de conformit quelconque ;
la dicult rside dans le fait que les coecients analyss se rapportent des colonnes non adjacentes
du tableau de donnes. Il faudra faire trs attention lors de l'extraction des valeurs dans la matrice de
variance covariance des coecients.
Les calculs sont dtaills dans une feuille Excel (Figure 11.4) 4 :
Nous avons excut la fonction DROITEREG pour obtenir les coecients. Ils sont dans l'ordre
inverse des colonnes de donnes dans le tableau de rsultats. Pour viter les confusions, numronsles
4. cigarettes-regressionmultiple.xls - "tests.conformite.coefs"
Page: 115
macro: svmono.cls
date/time: 11-Feb-2013/22:06
116
Fig. 11.4.
Test de conformit un standard d'un bloc de coecients - Cigarettes
a
0 = 0.72260
a
1 = 0.85569
a
2 = 0.93450
a
3 = 1.87048
a
4 = 0.81653
= 1.16822 (en violet dans le
Nous observons galement l'estimation de l'cart-type de l'erreur,
tableau DROITEREG).
Nous calculons successivement (X X) et (X X )1 pour obtenir la matrice de variance covariance
a =
des coecients
2 (X X)1 .
Sur la diagonale de cette matrice, nous avons les variances. On remarque par exemple pour la
variable TAR que

a21 = 0.0402 = 0.20048, la valeur correspond l'cart type fourni par
DROITEREG (2-me ligne du tableau).
Les coecients mis contribution dans le test sont a1 , a2 et a4 . Nous devons piocher les valeurs
a (cellules en fond vert) pour former la matrice rduite
adquates des variances et covariances dans
(q)
(q)
0.0402 0.6355 0.0365
=
0.6355 10.9738 0.4760
0.0365 0.4760 0.9343
Que nous inversons
Page: 116
macro: svmono.cls
date/time: 11-Feb-2013/22:06
11.3 Test de contraintes linaires sur les coecients
117
a
(q)
302.1196 17.3665 2.9529
=
17.3665 1.0914 0.1223
2.9529 0.1223 1.1234
Reste former la statistique de test :
0.85569
1
)
1(
1 0.93450 1 = 2.22172
F =
0.85569 1; 0.93450 1; 0.81653 0
a
(q)
3
0.81653 0
Avec la loi de Fisher F(q = 3, np1 = 19), nous obtenons un probabilit critique de = 0.11880.
Au risque 5%, nous ne pouvons pas rejeter l'hypothse nulle. Les donnes ne la contredisent pas.
11.2.4 Cas particulier : lorsque q = 1

Lorsque q = 1, nous retrouvons le test de conformit d'un coecient (bilatral) tel que nous l'avons
dcrit ci dessus (section 11.1.2). En eet, dans ce cas, pour un coecient quelconque a
j , l'inverse (
a2j )1
devient
1
2
, et nous avons :
F =
a
j cj
aj
)2
C'est le carr de la statistique du test de conformit un standard d'un coecient de la rgression

multiple dcrite dans la section 11.1.2.

La formulation du test de combinaisons linaires des coecients permet de couvrir tous les tests exposs dans ce fascicule. C'est dj intressant en soi. Il est toujours plaisant intellectuellement de produire
une procdure susamment globale qui permette de rsoudre tous les problmes possibles (Bourbonnais,
page 69 ; Johnston et DiNardo, page 96). Mais au del de la curiosit scientique, nous constatons que
cette criture permet d'introduire de nouveaux tests : les tests de comparaisons de coecients.
11.3.1 Formulation du test de combinaison linaire

Le test d'hypothses s'crit
H : Ra = r
0
H1 : Ra = r
(11.5)
O a est le vecteur des coecients, de dimension (p + 1, 1) ; R est la matrice dcrivant les contraintes
linaires de dimension (q, p + 1), q dsignant le nombre de contraintes ; r est le vecteur des valeurs de
rfrence, de dimensions (q, 1).
Page: 117
macro: svmono.cls
date/time: 11-Feb-2013/22:06
118
Nous utilisons la statistique :
F =
1
a
q (R
r) [R(X X)1 R ]1 (R
a r)
(11.6)
SCR/(n p 1)
Sous H0 , elle suit une loi de Fisher (q, n p 1) degrs de libert.
11.3.2 criture de la matrice M pour les tests de conformit

Tout les autres tests peuvent s'crire avec cette formulation disions-nous. Voyons ce qu'il en est pour
les direntes situations que nous avons analyses dans ce document. Nous considrons que la constante
(a0 ) est en premire position dans la matrice (X X)1 , puis nous avons dans l'ordre : cylindre (a1 ),
puissance (a2 ), poids (a3 ).
Tester la signicativit du coecient a3 c.--d. H0 : a3 = 0

(
)
Ici, q = 1, R = 0 0 0 1 et r = (0).
Tester la signicativit globale de la rgression

L'hypothse nulle correspond la nullit simultane des coecients associes aux variables (H0 : a1 =
a2 = a3 = 0). Nous avons q = 3 contraintes, avec

0100
0

R=
0 0 1 0 , r = 0
0001
0
Tester la nullit des coecients de cylindre (a1 ) et puissance (a2 )

Dans ce cas, nous avons q = 2 contraintes, avec

0100
0
,r=
R=
0010
0
11.3.3 Aller plus loin avec les tests portant sur des contraintes linaires
Pourquoi faire simple quand on peut faire compliqu, n'est-ce pas ? En ralit, le principal intrt de
cette nouvelle formulation est qu'elle ouvre la porte toute une srie de tests qui vont au del du test
de conformit, notamment les tests de comparaison de coecients ou les test d'galit de combinaisons
linaires de coecients un standard.
Page: 118
macro: svmono.cls
date/time: 11-Feb-2013/22:06
119
Comparaison de coecients - Consommation des vhicules

Pour rendre la lecture plus simple, notre exemple ne porte que sur q = 1 contrainte linaire. Mais que
cela ne nous trompe pas, le passage q > 1 contraintes ne pose aucun problme.
Nous retrouvons notre chier "Consommation des vhicules" pour illustrer la technique 5 .
La puissance spcique est une notion largement utilise pour qualier les moteurs. Il s'agit du nombre
de chevaux dvelopps par unit de cylindre, le plus souvent en litres, soit 1000 cm3 . Les vhicules sportifs
dveloppent plus de 100ch/L. Mais plus trivialement, sur les voitures courantes, elle tourne autour de
40ch/L ( peu prs la moyenne constate sur notre chier).
Nous souhaitons savoir si, dans la rgression, les coecients conservent le mme rapport dans leur
impact sur la consommation c.--d. nous souhaitons tester :
H : 1000 a
0
cylindree = 40 apuissance
H1 : 1000 acylindree = 40 apuissance
Pour tre en adquation avec la formulation matricielle, nous la r-crivons :
H : 0 a + 1000 a + (40) a + 0 a = 0
0
0
1
2
3
H1 : 0 a0 + 1000 a1 + (40) a2 + 0 a3 = 0
On peut la r-crire sous la forme de contraintes linaires sur les coecients de la rgression. Nous
avons q = 1 dans notre exemple. Nous en dduisons les matrices :
(
)
( )
R = 0; 1000; 40; 0 , r = 0
Ralisons les calculs l'aide d'une feuille Excel (Figure 11.5) 6 :
Pour rappel, nous avons les coecients
1.70205
0.00049
a
=
0.01825
0.00423
La matrice (X X)1 a dj t obtenue par ailleurs ; il en est de mme pour la somme des carrs
des rsidus SCR = 13.58067 et le degr de libert n p 1 = 24.
Nous formons le vecteur (R
a r). Comme nous n'avons qu'une seule (q = 1) contrainte, le rsultat
est un scalaire
1.70205
) 0.00049 ( ) (
)
R
a r = 0; 1000; 40; 0
0 = 0.23648
0.01825
0.00423
(
5. Cet exemple est dcrit sur notre site de tutoriels, http://tutoriels-data-mining.blogspot.com/2011/
02/regression-lineaire-lecture-des.html
6. reg_multiple_consommation_automobiles.xlsx - "test.comb.lineaire"
Page: 119
macro: svmono.cls
date/time: 11-Feb-2013/22:06
120
Fig. 11.5.
Test de comparaison de coecients - Consommation de vhicules
La quantit [R(X X)1 R ] est galement un scalaire, il est gal 2.91886. Son inverse est gal
[R(X X)1 R ]1 =
1
2.91886
= 0.34260.
Nous formons la statistique F (Remarque
F =
: la transpose d'un scalaire est le scalaire lui-mme ) :
1 (0.23648) (1/2.91886)(0.23648)
13.58067/24
0.01916
= 0.03386
0.56586
Le seuil critique au risque = 5% est F0.95 (1, 24) = 4.25968.

Nous sommes dans la rgion d'acceptation de H0. Au regard des rsultats, l'hypothse nulle ne peut
pas tre rejete.
La probabilit critique (p-value ) du test est gale = 0.85555.
11.3.4 Rgression sous contraintes - Estimation des coecients

Dans la rgression sous-contraintes (rgression restreinte), nous introduisons des impratifs - sous
forme de combinaisons linaires de coecients - sur les paramtres estims lors du processus de minimisation de la somme des carrs des rsidus.
Page: 120
macro: svmono.cls
date/time: 11-Feb-2013/22:06
121
Cela peut survenir par exemple conscutivement aux tests de contraintes linaires tels que nous les
avons tudis dans les sections prcdentes. Aprs avoir accept l'hypothse nulle, nous souhaitons que
les coecients estims par les MCO retent les conditions mises.
Il s'agit donc d'un optimisation sous q contraintes linaires. A rsoudre directement, a parat trs
compliqu. Fort heureusement, il est possible de driver les nouveaux coecients des rsultats de la
rgression sans contraintes. Soit a
le vecteur des coecients estims obtenus avec la procdure habituelle.
Si nous souhaitons introduire q contraintes linaires sous la forme Ra = r dans la rgression [R est une
matrice (q, p+1) et r un vecteur (q, 1)], l'instar de l'hypothse nulle du test dcrit ci-dessus, l'estimateur
sous contrainte a
s'crit alors (Johnston et DiNardo, page 102) :
a
=a
+ (X X)1 R [R(X X)1 R ]1 (r R
a)
(11.7)
Clairement, l'expression n'est pas trs simple. Mais on constate nanmoins qu'elle s'appuie uniquement
sur les rsultats produits par la rgression sans contrainte c.--d. par la mthode des MCO classique
propose par n'importe quel logiciel de statistique 7 .
En ce qui concerne les performances, la somme des carrs des rsidus, forcment plus leve ici puisque
nous introduisons des contraintes dans l'optimisation, peut tre dduite de la SCR de la rgression usuelle
(Johnston et DiNardo, page 103) :
SCRa = SCRa + (
aa
) (X X)(
aa
)
(11.8)
SCRa est la SCR de la rgression sous contrainte, SCRa est la SCR de la rgression usuelle, et
SCRa SCRa .
Consommation des vhicules

Dans la rgression prcdente (Figure 11.5), nous avons constat que l'hypothse nulle (H0 :
1000 acylindree = 40 apuissance ) n'tait pas dmentie par les donnes. Nous souhaitons donc introduire
explicitement cette contrainte dans l'estimation des paramtres du modle. Il n'est pas ncessaire de relancer les oprations, nous pouvons nous appuyer sur les rsultats des calculs prcdents. Nous compltons
la feuille Excel (Figure 11.6) 8 :
Nous avons R = (0; 1000; 40; 0) et r = (0).
A partir des coecients estims a
, nous calculons r R
a = 0.23648.
Vu prcdemment, R(X X)1 R = 2.91886 est un scalaire, son inverse est donc [R(X X)1 R ]1 =
1/2.91886 = 0.34260.
Le produit matriciel
7. Les manipulations telles que nous les dcrirons sous Excel paraissent fastidieuses. Je le concde. Mais crire
les mmes formules sous R, pour peu que l'on connaisse un peu les oprations matricielles, est un jeu d'enfant.
8. reg_multiple_consommation_automobiles.xlsx - "reg.sous.contraintes"
Page: 121
macro: svmono.cls
date/time: 11-Feb-2013/22:06
122
Fig. 11.6.
Rgression sous contrainte 1000 acylindree = 40 apuissance - Consommation de vhicules
0.0000
R [R(X X)
R]
81.01861
(r R
a) =
3.24074
0.00000
fourni une matrice de taille (p + 1, q), comme q = 1 dans notre exemple, nous avons un vecteur
colonne.
Pr-multiplie par (X X)1 , nous avons toujours un vecteur
0.03002
0.00014
1 1
(X X) R [R(X X) R ] (r R
a) =
0.00245
0.00003
Il ne reste plus qu' corriger l'estimation des MCO hors contrainte
Page: 122
macro: svmono.cls
date/time: 11-Feb-2013/22:06
123
1.67203
0.03002

0.00049 0.00014 0.00063
1 1
a
=a
+ (X X) R [R(X X) R ] (r R
a) =
=
+
0.01825 0.00245 0.01580

0.00423
0.00003
0.00420
1.70205
Nous avons les nouveaux coecients avec, notamment, a

cylindree = 0.00063 et a
puissance = 0.01580.
Et nous vrions aisment que 1000 a
cylindree = 40 a
puissance . C'est assez patant je trouve ! Dans le
mme temps, les autres paramtres (coecient de poids, constante) ont t lgrement modis.
Concernant la somme des carrs des rsidus, nous rcuprons SCRa = 13.58067 auquel nous additionnons la quantit dnie dans l'quation 11.8 :
SCRa = SCRa + (
aa
) (X X)(
aa
) = 13.58067 + 0.01916 = 13.59983
Ici galement, il n'est nullement besoin d'accder au tableau de donnes. Nous exploitons pleinement
les rsultats de la rgression sans contraintes. On constate que (SCRa > SCRa ).
11.3.5 Test de contraintes linaires via la confrontation des rgressions

A la lumire de ces nouveau dveloppements concernant la rgression sous contraintes, nous pouvons
clairer sous un angle nouveau le test de contraintes linaires sur les coecients (section 11.3.1). Il s'agit
de confronter les rsultats de deux modles, l'une construite sous l'hypothse H0 , la rgression sous
contrainte, l'autre normalement, en dehors de toute contrainte c.--d. hors H0 .
Ds lors, l'hypothse nulle n'est justie que si la somme des carrs des rsidus n'augmente pas
de manire signicative, si l'introduction de la contrainte dnie par H0 n'entrane pas une trop forte
dgradation en termes de SCR tout simplement.
La seconde formulation de la statistique du test de q contraintes linaires sur les paramtres de la
rgression devient (Bourbonnais, page 70 ; Johnston et DiNardo, page 103) :
F =
(SCRa SCRa )/q

SCRa /(n p 1)
(11.9)
Elle suit une loi de Fisher F(q, n p 1) sous l'hypothse nulle. La rgion critique correspond aux
grandes valeurs de F .
En reprenant notre exemple "Consommation des vhicules" (Figure 11.6), nous avons
F =
(SCRa SCRa )/q

(13.599983 13.58067)/1
=
= 0.03386
SCRa /(n p 1)
13.58067/24
La valeur de la statistique est exactement la mme que celle obtenue avec la premire formulation du
test sur les contraintes linaires (Figure 11.5).
Page: 123
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 124
macro: svmono.cls
date/time: 11-Feb-2013/22:06
12
Prdiction ponctuelle et par intervalle
12.1 Prdiction ponctuelle

Comme pour la rgression linaire simple, il s'agit, pour un nouvel individu i, de fournir une prdiction de la valeur de l'endogne yi partir de sa description c.--d. les valeurs prises par les exognes
(xi,1 , . . . , xi,p ).
La prdiction ponctuelle est obtenue en appliquant les coecient estims sur la description de l'individu traiter
yi = y(xi )
=a
0 + a
1 xi,1 + + a
p xi,p
L'expression est plus facile manipuler en utilisant la notation matricielle :
yi = Xi a
(12.1)
O Xi est un vecteur ligne de dimension (1, p + 1) : Xi = (1 ; xi,1 ; ; xi,p ). La premire valeur 1

permet de prendre en compte la constante a
0 . Le rsultat est bien un scalaire puisque a
est de dimension
(p + 1, 1).
On montre aisment que
la prdiction ponctuelle est sans biais. Pour ce faire, intressons nous
l'erreur de prdiction i :
i = yi yi
= Xi a
(Xi a + i )
= Xi (
a a) + i
Et
E(i ) = Xi E(
a a) + E(i ) = 0
Page: 125
macro: svmono.cls
date/time: 11-Feb-2013/22:06
126
12 Prdiction ponctuelle et par intervalle
L'esprance de l'erreur de prvision est nulle parce que les estimateurs sont sans biais [E(
a) = a] et
l'esprance de l'erreur est nulle [E(i ) = 0] par hypothse.
Par consquent, la prdiction ponctuelle est sans biais :
E(
yi ) = yi
12.2 Intervalle de prdiction

Pour construire l'intervalle de prdiction (la fourchette), nous devons connatre la variance estime
de l'erreur de prdiction et la distribution de cette dernire. L'esprit de l'approche a dj t dveloppe
lors de la prsentation de la rgression simple. Nous donnons directement les rsultats ici (pour plus de
dtails, voir Bourbonnais, pages 77 et 78 ; Giraud et Chaix, pages 72 et 73 ; Johnston et DiNardo, pages
105 107).
Concernant la variance estime de l'erreur de prdiction, nous avons :
[
]
2i =
2 1 + Xi (X X)1 Xi
(12.2)
La variance sera d'autant plus grande que la rgression est de mauvaise qualit (
2 est lev) et que
le levier est lev). L'analogie

l'on est loin du barycentre du nuage de points (hi = Xi (X X)1 Xi
avec la rgression simple est totale.

Le ratio erreur/cart-type est distribu selon une loi de Student (n p 1) degrs de libert :
i
yi yi
=
T (n p 1)
(12.3)
On en dduit l'intervalle de conance au niveau de conance (1 ) :
yi t1 2
i
(12.4)
12.3 Prdiction pour le modle "Consommation de vhicules"

Nous souhaitons prdire la consommation d'un vhicule prsentant les caractristiques suivantes :
cylindre = 1984 cm3 , puissance = 85 ch et poids = 1155 kg (Figure 12.1) 1 .
Nous obtenons la prdiction en appliquant les coecients estims du modle sur cette description :
1.70205
(
) 0.00049
yi = Xi a
= 1; 1984; 85; 1155
= 9.12
0.01825
0.00423
1. reg_multiple_consommation_automobiles.xlsx - "prediction"
Page: 126
macro: svmono.cls
date/time: 11-Feb-2013/22:06
12.3 Prdiction pour le modle "Consommation de vhicules"
Fig. 12.1.
127
Prdiction ponctuelle et fourchette de prdiction - Consommation de vhicules
Calculons le levier de l'observation :
hi = Xi (X X)
Xi
= 1; 1984; 85; 1155 (X X)
1984
= 0.05910
85
1155
Avec l'estimation de variance de l'erreur (

2 = 0.56586) fournie par DROITEREG, nous produisons
l'estimation de la variance de l'erreur de prvision :
[
]
2i =
2 1 + Xi (X X)1 Xi
= 0.56586 [1 + 0.05910] = 0.59931
Pour un niveau de conance de 95%, le quantile de la loi de Student (24) degrs de libert est
t0.975 (24) = 2.06390, nous calculons nalement les bornes basses et hautes de la fourchette de prdiction :
0.59931 = 7.52
= 9.12 + 2.06390 0.59931 = 10.71
i = 9.12 2.06390
b.b. = yi t1 2
b.h. = yi + t1 2
i
Page: 127
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 128
macro: svmono.cls
date/time: 11-Feb-2013/22:06
13
Interprtation des coecients
13.1 Coecient brut et partiel

Le charme de la rgression tient en grande partie ses capacits oprationnelles. A partir des valeurs
des exognes, elle peut fournir une prdiction et une fourchette de prdiction de la valeur de l'exogne. Mais
il tient beaucoup galement aux possibilits d'interprtations qu'elle propose. On parle alors
structurelle. En eet, la rgression cherche tablir l'existence d'une relation entre Y
d'analyse
et les X mais, en
plus, elle quantie travers les coecients du modle l'importance des associations : dans quelle mesure
les exognes inuent sur les valeurs (ou les variations de valeurs) de l'endogne.
L'interprtation cherche mettre jour les causalits entre les variables. Elle ne peut tre base
uniquement sur des critres numriques. L'expertise du domaine joue un rle important. Revenons notre
exemple ftiche de "Consommation des vhicules". On peut comprendre que le poids ait une inuence sur
la consommation. En s'attachant diminuer la premire, on espre diminuer galement la gloutonnerie
des automobiles. En revanche, la relation inverse parat incongrue. Manipuler la consommation, par
exemple en prenant un gicleur de carburateur de plus grosse section (ouh l l, a devient technique
l, je me demande qui connat encore les carburateurs de nos jours http://fr.wikipedia.org/wiki/
Carburateur, un beau weber double ou quadruple corps avec les bruits d'aspiration qui vont bien, ahhh...)
ne va pas modier le poids de la voiture. C'est d'ailleurs la raison pour laquelle je m'attache prendre
des exemples simples dans ce support. Il ne s'agit surtout pas de se lancer dans des interprtations plus
ou moins heureuses (foireuses) dans des domaines que je matrise mal (ex. mdecine, cologie, etc.).
Dans cette section, nous nous attacherons lire les coecients fournis par la modlisation, tout
d'abord dans une rgression simple, on parle de coecients bruts, puis dans la rgression multiple, on
parle de coecients partiels.
13.1.1 Coecient brut

On cherche expliquer la consommation partir du poids (Figure 13.1 ; Rgression simple) 1 . Nous
obtenons le modle :
1. reg_multiple_consommation_automobiles.xlsx - "coef.interprtation"
Page: 129
macro: svmono.cls
date/time: 11-Feb-2013/22:06
130
13 Interprtation des coecients
consommation = 0.00669 poids + 1.06269

La pente de la rgression est (largement) signicative 5% avec un t de Student tpoids =
0.00669/0.00053 = 12.53805.
Fig. 13.1.
Lecture du coecient de "Poids" - Consommation de vhicules
Nous pouvons lire le coecient de la manire suivante : une augmentation du poids d'un vhicule de
1 kg entrane une consommation supplmentaire de 0.00669 litres au km. On mesure l'association brute,
en dehors de toute considration des autres variables qui pourraient inuencer la consommation.
13.1.2 Coecients partiels

Ralisons maintenant la mme rgression en introduisant la variable cylindre (Figure 13.1 ; Rgression
multiple) 2 . Le coecient de poids a t modi :
consommation = 0.00443 poids + 0.00130 cylindree + 1.41755
(13.1)
Les deux variables sont signicatives 5%.
Page: 130
macro: svmono.cls
date/time: 11-Feb-2013/22:06
13.1 Coecient brut et partiel
131
La modication du coecient de poids s'explique par le fait que la variable poids est lie cylindre.
Le coecient de corrlation rpoids,cylindree = 0.8616 le montre bien. Lorsque la cylindre augmente, le
poids varie galement, dans le mme sens : a
poids en tient compte.
Le nouveau coecient se lit de la manire suivante :
cylindre gale , lorsque le poids augmente
de 1 kg, la consommation s'accrotra de 0.00443 litres au km. C'est le fameux
"toutes choses gales par
ailleurs" dont on nous rabche les oreilles en conomtrie. On parle alors de coecient partiel. Nous avons
neutralis l'impact de la cylindre sur le poids dans la dtermination de l'inuence de ce dernier sur la
consommation. Ces notions sont rapprocher du concept de corrlation partielle et semi-partielle que nous
tudions en dtail dans notre fascicule consacr l'tude des dpendances entre variables quantitatives
[12] (Partie II - Chapitres 4 et 5).
Rgression sur rsidus

Tentons une petite exprience pour dcrypter ce phnomne. Nous allons retrancher la partie de poids
explique par la cylindre en calculant le rsidu de la rgression (poids = a1 cylindree + a0 ). Puis, nous
introduisons ce rsidu comme variable explicative dans la rgression simple expliquant la consommation
consommation = b1 residu + b0 ). Si notre explication tient la route, la pente b1 devrait correspondre

au coecient partiel 0.00443.
Nous avons mont une nouvelle feuille Excel (Figure 13.2) 3 . Dans un premier temps, nous rgressons
poids sur cylindre. Nous obtenons le modle :
poids = 0.42686 cylindree + 424.74778

Il est signicatif avec un coecient de dtermination R2 = 0.74228. Nous calculons les rsidus en
dduisant du poids observ le poids prdit par le modle
residus(poids/cylindree) = poids (0.42686 cylindree + 424.74778)
Le rsidu reprsente la fraction de poids qui n'est pas explique par la cylindre. Nous l'introduisons
comme variable explicative dans la rgression expliquant la consommation :
consommation = 0.00443 residus + 9.07500

b1 = 0.00443 reprsente l'impact du poids sur la consommation en dehors de (en
contrlant, en
neutralisant ) l'inuence de la cylindre et, oh miracle, nous retrouvons le coecient partiel de la rgression
multiple (quation 13.1).
Page: 131
macro: svmono.cls
date/time: 11-Feb-2013/22:06
132
Fig. 13.2.
Rgression sur le rsidu de poids / cylindre - Consommation de vhicules
13.2 Comparer l'impact des variables prdictives - Les coecients

standardiss
Revenons la rgression multiple expliquant la consommation partir du poids et de la cylindre
(Figure 13.1 ; Rgression multiple). Nous avons
consommation = 0.000443 poids + 0.00130 cylindree + 1.41755

Les coecients indiquent l'impact des exognes en contrlant les autres variables. Il reste nanmoins une
question cl : quelle est la variable qui a le plus d'inuence sur la consommation, le poids ou la cylindre ?
La tentation est grande de comparer les coecients puisqu'ils mesurent l'impact des variables. Ce n'est
pas une bonne ide tout simplement parce que les variables sont exprimes dans des units direntes.
Les variations d'une unit de poids et d'une unit de cylindre ne reprsentent pas la mme chose, elles
ne sont pas opposables.
Pour les rendre comparables, nous devons standardiser les coecients et raisonner en termes d'cartstype. Nous obtiendrions une lecture du type : lorsque le poids (la cylindre) varie de 1 cart-type, la
consommation varie de m carts-type.
Rgression sur donnes centres et rduites.
Une technique simple permettant d'obtenir ces
coecients consiste centrer et rduire toutes les variables (exognes et endogne) et lancer la rgression sur les donnes transformes. Nous avons ralis cette opration sur notre chier. Pour la variable
Page: 132
macro: svmono.cls
date/time: 11-Feb-2013/22:06
13.2 Comparer l'impact des variables prdictives - Les coecients standardiss
133
consommation (Y ) par exemple, nous avons utilis :
1
yi = 9.0750
n i
1
y =
(yi y)2 = 2.1926
n i
y =
cr
yi =
yi y
y
Nous obtenons de nouveaux coecients avec la rgression sur le tableau de donnes centres et rduites
(Figure 13.3 - Rgression sur donnes centres et rduites) 4 :
cr
cr
cr
consommation= 0.61281 poids +0.36390 cylindree +0.00000
Fig. 13.3.
Coecients standardiss - Consommation de vhicules
Les variables tant centres, la constante est nulle. Nous pouvons lire les rsultats en termes d'cartstype et comparer les coecients. Lorsque le poids (resp. la cylindre) augmente de 1 cart-type, la
consommation augmente de 0.61281 fois (resp. 0.36390) son cart-type. Maintenant, nous pouvons dire
que le poids pse comparativement plus sur la consommation que la cylindre.
Ces coecients standardiss sont souvent directement fournis par les logiciels de statistique pour
indiquer l'importance relative des variables (Standardized
coecients - Beta weight pour SPSS http:
//faculty.chass.ncsu.edu/garson/PA765/regress.htm#bcoeff).
4. reg_multiple_consommation_automobiles.xlsx - "coef.comparaison"
Page: 133
macro: svmono.cls
date/time: 11-Feb-2013/22:06
134
Correction des coecients de la rgression usuelle.
Si nous avons la rponse la question,
la procdure est un peu lourde quand mme. Elle devient contraignante si nous avons manipuler un
chier volumineux. Et, en ralit, elle n'est pas ncessaire. Il est possible de corriger les coecients
de la rgression sur les donnes originelles avec les carts-type des variables pour obtenir les coecients
standardiss. Pour la variable Xj , dont le coecient estim est initialement a
j , nous obtenons le coecient
standardis j avec
x
j = a
j j
(13.2)
y
C'est ainsi que pour la variables poids, nous retrouvons (Figure 13.3 - Coecients corrigs par les
carts-type) :
poids = a
poids
poids
303.4249
= 0.00443
= 0.61281
consommation
2.1926
le coecient obtenu sur les donnes centres et rduites. Il en de mme pour la variable cylindre.
13.3 Traitement des variables exognes qualitatives

Nous nous contentons de donner les principaux repres dans cette section, lorsqu'une des variables
explicative est binaire. Pour une tude dtaille des exognes qualitatives, nous renvoyons le lecteur
notre fascicule "Pratique de la rgression linaire multiple - Diagnostic et Slection de variables" ([13],
chapitre 4).
13.3.1 Explicative binaire dans la rgression simple

Comparaison de moyennes
Nous souhaitons mettre en lumire les dirences entre les salaires (Y , en euros) selon le genre (X ,
variable "sexe") 5 : les hommes sont cods 0 et les femmes 1.
Une approche trs simple consiste raliser un test de comparaison de moyennes 6 . Nous confrontons :
H :
0
y/1 = y/0
H1 : y/1 = y/0
O y/1 (resp. y/0 ) est la moyenne des salaires chez les femmes (resp. chez les hommes).
Nous disposons de n = 40 observations. A l'aide du tableau crois dynamique d'Excel (Figure 13.4) 7 ,
nous calculons les moyennes, les carts-type et les eectifs conditionnels.
5. Les donnes proviennent du site http://www.cabannes.net/
6. Rakotomalala R., Comparaison de populations - Tests paramtriques, Chapitre 1 : Comparaison de
2 moyennes - Cas des variances gales, http://eric.univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_
Parametriques.pdf
7. regression-salaire-sexe.xlsx - "comp.moyenne"
Page: 134
macro: svmono.cls
date/time: 11-Feb-2013/22:06
135
Sexe
Moyennes
Ecarts-type
Nombre
1
1
Homme (0) y0 = n0 i:xi =0 yi = 3110.800 s0 = n0 1 i:xi =0 (yi y0 )2 = 1517.327 n0 = 20
Femme (1) y1 = 1947.250
Fig. 13.4.
s1 = 1021.592
n1 = 20
Comparaisons des moyennes - Salaires
Nous calculons l'cart entre les salaires, la statistique de test sera base sur cet indicateur
D = y1 y0 = 1947.250 3110.800 = 1163.550

Pour obtenir la variance de D, nous devons passer dans un premier temps par l'estimation de la
variance commune aux deux groupes, la variance intra-classes. Nous faisons donc l'hypothse que les
variances sont identiques dans les groupes 8 .
8. Lorsque les eectifs sont quilibrs comme c'est le cas ici, cette approche est trs robuste. Mme si les
variances sont sensiblement direntes, la procdure tient parfaitement la route.
Page: 135
macro: svmono.cls
date/time: 11-Feb-2013/22:06
136
s2 =
(n0 1) s20 + (n1 1) s21

19 1517.327 + 19 1021.592
=
= 1672965.70921
n0 + n1 2
20 + 20 2
Enn
D = s
1
1
+
= 1293.43176
n0
n1
1
1
+
= 409.01903
20 20
(13.3)
La statistique de test s'crit :
tcalc =
D
1163.550
=
= 2.84473
D
409.01903
Sous H0 , elle suit une loi de Student (n0 + n1 2 = n 2 = 38) degrs de libert. La rgion critique
au risque correspond
R.C. : |tcalc | > t1 2 (n0 + n1 2)

Dans notre exemple, au risque 5%, t0.975 (38) = 2.02439. Nous sommes dans la rgion critique. Nous
rejetons l'hypothse nulle. Les salaires sont dirents selon le sexe de la personne.
Traitement avec la rgression - Explicative binaire dans la rgression multiple

Peut-on obtenir les mmes rsultats via la rgression ? La rponse est oui. Tout dpend du codage
adopt. Dans le cas d'une explicative binaire, il n'y a pas trop se poser de questions : une de modalit
est code 1 (les femmes), l'autre 0 (les hommes). Lorsqu'il s'agit d'une variable nominale plus de 2
modalits ou d'une variable ordinale, le codage pse sur la lecture des rsultats [13] (chapitre 4).
Dans notre exemple, nous ralisons la rgression
salaire = a sexe + b
Fig. 13.5.
Rgression simple - salaire = a sexe + b - Salaires
Nous obtenons les coecients (Figure 13.5) 9 :
b = 3110.800 = y0
a
= 1165.550 = y1 y0 = D
9. regression-salaire-sexe.xlsx - "comp.moyenne"
Page: 136
macro: svmono.cls
date/time: 11-Feb-2013/22:06
137
On constate que la constante correspond la moyenne conditionnelle du salaire pour la modalit de

rfrence de sexe (celle qui est code 0 c.--d. les hommes). Et la pente correspond au direntiel entre
les salaires.
De fait, tester la signicativit de la pente dans la rgression revient tester la signicativit de l'cart
entre les salaires. La statistique de test (ta = 2.84473) prend exactement la mme valeur, la conclusion
est la mme bien videmment. Notons cependant une information importante, dans la rgression on
fait implicitement l'hypothse que la variance de Y est la mme dans les sous-populations. Hypothse
d'homoscdasticit que nous mettions explicitement dans la comparaison des moyennes.
13.3.2 Coecient partiel avec une explicative binaire

Un expert vient vous dire que tout a est bien beau mais on sait par ailleurs que les hommes font plus
d'tudes que les femmes. Comparer les salaires en se basant sur le sexe uniquement fausse les rsultats
et laisse croire des choses qui n'existent pas. Il en veut pour preuve que dans notre chier, en intgrant
la variable ETUDES, les hommes ont eectu en moyenne 13.5 annes d'tudes, et les femmes 12.2
seulement.
En toute rigueur, il faudrait eectuer l'extraction d'un sous-chantillon chez les hommes, faire de
mme chez les femmes, et s'arranger que les deux sous-chantillons prsentent une moyenne d'annes
d'tude identique. Ou encore pondrer les individus de manire ce que les moyennes conditionnelles
d'ETUDES soient identiques. Enn, une autre piste serait d'eectuer un appariement c.--d. crer un
chier o chaque ligne confronte des personnes de sexe oppos mais ayant eectu un nombre d'annes
d'tudes identique.
Tout cela induit des manipulations de chier plus ou moins hasardeuses. Il y a une solution plus
simple. S'appuyer sur le fait que la rgression produit des coecients partiels. Nous ralisons donc la
rgression (Figure 13.6) 10
salaire = a2 etudes + a1 sexe + a0

L'cart de salaires selon le sexe est moindre a
2 = 881.44020 (contre 1165.550 pour le coecient
brut). Cela veut dire qu'
annes d'tudes gales, les femmes reoivent en moyenne un salaire infrieur
de 881 euros par rapport celui des hommes. Et l'cart reste signicatif 5% avec un t-calcul de
ta2 = 2.22922 et une p-value de = 0.03195.

Ainsi, mme si les hommes et les femmes ont un niveau d'tudes identique, ces dernires ont tendance
obtenir un salaire moins lev. A partir de la rgression, nous arrivons rpondre prcisment la
question pose. Monsieur l'expert peut rentrer chez lui.
10. regression-salaire-sexe.xlsx - "reg.multiple"

Page: 137
macro: svmono.cls
date/time: 11-Feb-2013/22:06
138
Fig. 13.6.
Rgression simple - salaire = a2 etudes + a1 sexe + a0 - Salaires
Les frus de statistique n'auront pas manqu de voir dans cet exemple une illustration simplie d'une
analyse de covariance
(ANCOVA) 11 ), technique o l'on cherche tudier l'impact d'une variable
catgorielle sur une variable dpendante quantitative, en contrlant l'eet d'une tierce variable sur cette
dernire.
11. http://pages.usherbrooke.ca/spss/pages/statistiques-inferentielles/analyse-de-covariance.
php ; http://faculty.chass.ncsu.edu/garson/PA765/anova.htm
Page: 138
macro: svmono.cls
date/time: 11-Feb-2013/22:06
14
tude de cas : Analyse du taux de chmage en France
Rcapitulons les dirents thmes abords dans ce document en ralisant une tude de cas. Nous
souhaitons comprendre les tenants et aboutissants du taux de chmage en France mtropolitaine
la n de l'anne 2008. Le sujet et les donnes proviennent du site de Mme Aurlie Bonein (http:
//aurelie.bonein.free.fr/), nous reprenons le second thme de son cours d'conomtrie (http:

//aurelie.bonein.free.fr/telechargement/Econometrie/2010-2011/TD2_sujet.pdf).
Pour expliquer le taux de chmage (Y ), nous disposons de p = 5 variables explicatives :
X1 le nombre de faillites d'entreprises par rgion au cours de l'anne 2008 ;
X2 le nombre d'tablissements de construction par rgion en 2008 ;
X3 le nombre de commerces par rgion en 2008 ;
X4 le nombre d'tablissement de services par rgion en 2008 ;
X5 le nombre d'industries agro-alimentaire par rgion en 2008.
Le chier comporte n = 22 observations (rgions). Nous reproduisons ici le contenu du chier (Figure 14.1). Attention, la prcision de l'achage a t limite 4 dcimales. En ralit, les donnes en
comportent beaucoup plus.
14.1 Lecture des rsultats de la rgression

Nous avons lanc la fonction DROITEREG sur ces donnes (Figure 14.2) 1 . Nous en avons dduit les
informations importantes pour la comprhension des rsultats :
Le tableau d'analyse de variance permet de porter un jugement sur la qualit globale de la rgression.
Les SCE et SCR sont directement fournis par Excel, nous avons calcul SCT = SCE + SCR =
28.5832 + 13.8800 = 40.7332 et les carrs moyens

CM E =
26.8532
SCR
13.8800
SCE
=
= 5.3706, CM R =
=
= 0.8675
p
5
np1
16
Nous pouvons en dduire le R2 et le R2 -ajust

1. analysetauxdechomage.xlsx - "analyse"
Page: 139
macro: svmono.cls
date/time: 11-Feb-2013/22:06
140
14 tude de cas : Analyse du taux de chmage en France
Fig. 14.1.
Fig. 14.2.
Analyse du taux de chmage - par rgion - en France (2008) - Donnes
Analyse du taux de chmage - par rgion - en France (2008) - Rgression
SCE
29.8532
=
= 0.6592
SCT
40.7332
2 = 1 n 1 (1 R2 ) = 1 22 1 (1 0.6592) = 0.5528
R
np1
22 5 1
R2 =
Pour tester globalement le modle, nous utilisons la statistique F
F =
5.3706
CM E
=
= 6.1909
CM R
0.8675
Distribue selon une loi de Fisher F(5, 16) sou H0 , nous obtenons la probabilit critique =
0.00224. Au risque 5%, le modle est globalement signicatif.

Voyons le rle de chacune des variables maintenant, nous construisons un tableau intermdiaire
Page: 140
macro: svmono.cls
date/time: 11-Feb-2013/22:06
14.2 Tester simultanment les coecients de (X2 , X3 , X5 )
Variable
X5
X4
X3
X2
X1
a
j
2.7246 -0.3975 0.1766 -0.8975 2.1239
aj
1.6054 0.1240 0.4847 0.3433 0.5792
taj =
a
j
a
j
p-value
141
1.6971 -3.2062 0.3644 -2.6145 3.6669

0.1090 0.0055 0.7204 0.0188 0.0021
Signif. 5%
non
oui
non
oui
oui
Les variables qui inuent sur le taux de chmage 5%, toutes choses gales par ailleurs (en contrlant
l'eet des autres variables) sont : X1 , le nombre d'entreprises en faillites dans la rgion ; X2 , le
nombre d'tablissements de construction ; X4 , le nombre d'tablissement de service.
14.2 Tester simultanment les coecients de (X2 , X3 , X5 )

En se basant sur ses connaissances en conomie, un expert vient expliquer que seules les variables X1
et X4 inuent rellement sur le taux de chmage. Il nous demande de vrier la nullit simultane des
coecients des variables (X2 , X3 , X5 ) 5%.
Nous sommes un peu tonn quant ces armations. Certes, X3 et X5 pris individuellement ne sont
pas pertinentes. En revanche, X2 l'est, l'enlever de la rgression semble intuitivement un peu hasardeux.
Laissons de ct l'intuition et ralisons les calculs. Nous construisons le modle avec uniquement les
variables X1 et X4 (Figure 14.3) 2 : le coecient de dtermination R2 est gal 0.5053. Il tait de 0.6592
avec la totalit des (p = 5) variables. Est-ce que cette dgradation est signicative ?
Fig. 14.3.
Taux de chmage en France (2008) - Test de signicativit des coecients de (X2 , X3 , X5 )
Nous calculons la statistique de test
F =
(R12 R02 )/q

(0.6592 0.5053)/3
= 2.4095
=
2
(1 R1 )/(n p 1)
(1 0.9592)/(22 5 1)
2. analysetauxdechomage.xlsx - "test - X5.X3.X2"

Page: 141
macro: svmono.cls
date/time: 11-Feb-2013/22:06
142
14 tude de cas : Analyse du taux de chmage en France
Avec la distribution F(3, 16), nous avons une p-value de = 0.1050. Eectivement, l'expert avait raison, l'hypothse selon laquelle les coecients de (X2 , X3 , X5 ) sont simultanment nuls n'est pas dmentie
par les donnes.
Dans le modle rduit 2 variables (X1 , X4 ), nous constatons que tous deux sont individuellement
signicatifs. Un nombre de faillites accru entrane une augmentation du chmage ; lorsque le nombre
d'entreprises de services est lev, le chmage est moindre. Oui, tout a tombe sous le sens. On se
demande parfois pourquoi on s'enquiquine avec des techniques compliques pour sortir des vidences
pareilles....
C'est tout le charme de la modlisation. Beaucoup d'appels (on tente, on tente, on triture les donnes
comme on peut), mais peu d'lus (trouver des modles rellement intressants, oprationnels, reste rare).
14.3 Prdiction ponctuelle et par intervalle

Les donnes qui ont servi la construction du modle proviennent de la France mtropolitaine. Nous
souhaitons l'appliquer aux DOM-TOM c.--d. partir de leur description x = (1, X1 = 3.45, X2 =
4.01, X3 = 11.2, X4 = 28, X5 = 2.54) (la premire valeur
reprsente la constante), proposer une
prdiction ponctuelle et par intervalle de son taux de chmage.

En toute rigueur, il serait plus appropri de recourir au modle simpli, avec les deux explicatives
(X1 , X4 ), puisque nous avons montr dans la section prcdente que (X2 , X3 , X5 ) n'taient pas pertinentes
dans l'explication de Y . Mais, pour tre raccord avec le corrig propos en ligne sur notre site de rfrence 3 ,
nous utiliserons le modle complet avec p = 5 exognes.
La prdiction est trs simple obtenir. Il sut d'appliquer les coecients estims du modle sur la
description de la nouvelle observation traiter
12.5732
2.1239
(
)
0.8975
= 14.07
y = x.
a = 1, 3.45, 4.01, 11.2, 28, 2.54 .
0.1766
0.3975
2.7246
Plus compliques chirer sont les bornes de l'intervalle de prdiction (Figure 14.4) 4 .
Il nous faut au pralable calculer la matrice (X X)1 . Ce que nous faisons dans la feuille Excel.
Puis calculer le levier pour les DOM-TOM
h = x(X X)1 x = 6.4385

3. http://aurelie.bonein.free.fr/telechargement/Econometrie/2010-2011/Exercice1_corrige.xlsx
4. analysetauxdechomage.xlsx - "prdiction"
Page: 142
macro: svmono.cls
date/time: 11-Feb-2013/22:06
14.3 Prdiction ponctuelle et par intervalle
143
Nous calculons alors l'cart type de l'erreur de prdiction, en nous servant de l'estimation de l'erreur
du modle fournie par Droitereg
= 0.9314,
=
1 + h = 0.93124 1 + 6.4385 = 2.5403
Avec le quantile d'ordre 1 /2 de la loi de Student T (n p 1 = 16), nous tablissons les bornes
basses et hautes de l'intervalle au niveau de conance (1 ) = 95%
b.b. = y t0.975
= 14.07 2.1199 2.5403 = 8.6849
b.h. = y + t0.975
= 14.07 + 2.1199 2.5403 = 19.4551
Fig. 14.4.
Page: 143
Taux de chmage en France (2008) - Prdiction et intervalle de prdiction pour les DOM-TOM
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 144
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15
La rgression linaire avec les logiciels de statistique
Dans ce chapitre, nous dcrirons la mise en oeuvre de la rgression linaire multiple l'aide de
quelques logiciels connus (ou non) des praticiens de l'conomtrie. Nous mettrons l'accent sur la lecture
des rsultats. Pour faciliter les comparaisons, nous utiliserons le seul et unique chier "conso-vehicules.xls"
correspondant au problme de "Consommation des vhicules" maintes fois analys dans ce fascicule.
Pour les outils que je connais bien (Tanagra, Regress et R principalement), nous creuserons un peu
plus en abordant des sujets qui sont par ailleurs dtaills dans notre second fascicule relatif la rgression
[13] (ex. slection de variables, dtection des points atypiques, etc.).
Un petit apart avant de commencer. "Bon sang ne saurait mentir" a-t-on l'habitude de dire.
A travers le choix des logiciels que j'ai choisi de mettre en avant dans ce fascicule, tout le monde aura
bien compris quelle est ma vritable culture. D'autres auraient plutt choisi de parler de EViews,
Gauss,
Rats (que j'ai beaucoup utilis nagure), Stata, TSP, etc. Ils auraient trs bien fait galement. Comme
j'ai l'habitude de le dire : qu'importe le logiciel, le plus important est que nous sachions quoi faire avec
l'outil, puis comment exploiter ecacement les rsultats. C'est justement pour dgager les tudiants du
logiciel que je m'vertue dtailler tous les calculs l'aide d'un tableur.
15.1 Tanagra
15.1.1 Rgression linaire multiple avec Tanagra
Tanagra est un logiciel gratuit de Data Mining (http://eric.univ-lyon2.fr/~ricco/tanagra/,
version 1.4.38). Il comporte un onglet ddi l'analyse de rgression. On y retrouve des outils pour la
rgression linaire telle qu'elle est dcrite dans ce document. Les outils associs sont galement proposs.
De nombreux tutoriels dcrivent l'importation d'un chier Excel dans Tanagra 1 , nous ne reviendrons
pas l-dessus. Une fois les donnes importes et le problme spci l'aide de l'outil DEFINE STATUS
(consommation en TARGET, les autres variables en INPUT), nous introduisons la rgression linaire
1. http://tutoriels-data-mining.blogspot.com/
Page: 145
macro: svmono.cls
date/time: 11-Feb-2013/22:06
146
15 La rgression linaire avec les logiciels de statistique
multiple l'aide du composant MULTIPLE LINEAR REGRESSION. Dtaillons les rsultats achs par
Tanagra (Figure 15.1) :
Fig. 15.1.
Rsultats de la rgression avec Tanagra - Consommation des vhicules
Un premier tableau "Global Results" dcrit les rsultats globaux (tiens
donc !) permettant d'exper-
tiser rapidement la qualit de l'ajustement. Nous y apprenons, entres autres, que le coecient de
dtermination R2 = 0.899113. Le modle explique prs de 90% de la variance de consommation.
Le second tableau "Analysis of variance" correspond au tableau d'analyse de variance. Tanagra y
adjoint le statistique F du test de signicativit globale de la rgression et la p-value associe. Dans
notre exemple, le modle est trs fortement signicatif.
Le troisime tableau correspond aux coecients associs aux variables explicatives du modle.
"Intercept" est la constante. Parmi les exognes, seul poids semble signicatif. Mais nous avons
vu par ailleurs que "cylindre" et "puissance" se gnent dans la rgression parce que fortement
corrles.
Page: 146
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.1 Tanagra
Fig. 15.2.
147
Description succincte des rsidus dans Tanagra - Consommation des vhicules
Un dernier tableau dans la partie basse de la fentre donne un aperu des caractristiques des rsidus,
si importants dans la rgression (Figure 15.2). Nous avons un histogramme de frquences et quelques
caractristiques numriques. On sait par exemple que si le rapport MAD/STDDEV (cart absolu moyen
/ cart type) s'carte rsolument de 0.8 ( 2 pour tre prcis 2 ), l'hypothse de normalit des rsidus est
mise mal. Dans notre cas, nous avons M AD/ST DEV = 0.8361. Nous dtaillons l'analyse des rsidus
dans le chapitre 1 du second fascicule de cours [13].
Fig. 15.3.
La matrice (X X)1 dans Tanagra - Consommation des vhicules
Dans le second onglet de la fentre d'achage (Figure 15.3), nous disposons de la matrice (X X)1 qui
ouvre la porte toute une batterie de tests statistiques (ex. tests de conformit simultane, combinaison
linaire de variables, levier pour les intervalles de prvision...). Il est facile d'en copier les valeurs dans
un tableur. Un tutoriel en dtaille l'usage (http://tutoriels-data-mining.blogspot.com/2011/02/
regression-lineaire-lecture-des.html).
2. Rakotomalala R., Tests de normalit - Techniques empiriques et tests statistiques, http://eric.univ-lyon2.
fr/~ricco/cours/cours/Test_Normalite.pdf
Page: 147
macro: svmono.cls
date/time: 11-Feb-2013/22:06
148
15.1.2 Autres outils lis la rgression dans Tanagra

Slection de variables
Tanagra intgre 2 composants de slection de variables (version 1.4.38) : l'un implmente la procdure
forward, l'autre la procdure backward [13] (chapitre 3). Dans la copie d'cran ci-jointe, nous avons mis
en oeuvre la slection backward sur nos donnes. La variable "cylindre" a t limine, puis le processus
a t stopp car toutes les variables restants taient signicatives au niveau de signication choisi par
l'utilisateur (Figure 15.4).
Dtection des points atypiques et inuents

Tanagra intgre toute une panoplie d'outils de dtection de points atypiques et inuents dans la
rgression. Les formules et les interprtations sont longuement dcrites dans le chapitre 2 de notre second
fascicule [13].
Dans notre exemple, nous l'appliquons sur la rgression portant sur les variables slectionnes (puissance et poids). Nous avons d'une part les valeurs des indicateurs et les valeurs de coupures, les observations suspectes sont mis en vidence (Figure 15.5), d'autre part un rcapitulatif permet d'tablir un
diagnostic rapidement (Figure 15.6).
Enn, le composant DFBETAS permet d'identier le coecient du modle sur lequel agit inconsidrment une observation par trop inuente (Figure 15.7).
Le diagramme de traitement
Comme la trs grande majorit des logiciels de Data Mining, Tanagra retrace les oprations menes
sur les donnes l'aide d'un diagramme. Nous pouvons le sauvegarder pour des traitements ultrieurs.
Soit parce que le chier a t mis jour, soit tout simplement parce que nous souhaitons complter notre
tude.
Concernant les analyses dcrites dans cette section, nous avons ralis (Figure 15.8) : une importation
des donnes (Dataset), spci l'endogne et les exognes (Dene Status), men une premire analyse de
rgression (Multiple linear regression), eectu une slection de variables
backward, opr une premire
dtection des points atypiques et inuents (Outlier Detection), puis une second analyse approfondie
permettant de dterminer sur quels coecients agissent ces points (Dfbetas).
15.1.3 Tutoriels Tanagra

Tanagra est un logiciel, mais c'est aussi et surtout plus de 150 tutoriels en franais ( peu prs 130
en anglais) ddis la pratique du Data Mining 3 . Plusieurs d'entre eux ont trait la rgression (http:
//tutoriels-data-mining.blogspot.com/search/label/Rgression). Nous citerons entres autres :

3. A ce jour, Mai 2011.
Page: 148
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.1 Tanagra
Fig. 15.4.
149
Utilisation du composant "Backward Elimination Reg" dans Tanagra - Consommation des vhicules
Rgression linaire - Lecture des rsultats
(http://tutoriels-data-mining.blogspot.
com/2011/02/regression-lineaire-lecture-des.html). Ce document retrace les principales

formules utiliss dans la rgression. Il met en parallle les sorties de Tanagra, mais aussi ceux
de R. On peut le voir comme une version trs abrge de ce support de cours. Un accent particulier
est mis sur l'utilisation de la matrice (X X)1 dans direntes oprations subsquentes (test de
conformit, test de combinaison linaires, intervalle de prdiction). L'analyse complte mene avec
le tandem Tanagra + Excel est entirement reproduite l'aide du logiciel R.
Page: 149
macro: svmono.cls
date/time: 11-Feb-2013/22:06
150
Fig. 15.5.
Dtection des points atypiques - Indicateurs, bornes basses et hautes - Consommation des vhicules
Fig. 15.6.
Page: 150
Dtection des points atypiques - Bilan - Consommation des vhicules
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.1 Tanagra
Fig. 15.7.
Dtection des points atypiques - DFBETAS - Consommation des vhicules
Fig. 15.8.
151
Diagramme de traitements Tanagra - Consommation des vhicules
Points aberrants et inuents dans la rgression (http://tutoriels-data-mining.blogspot.

com/2008/04/points-aberrants-et-influents-dans-la.html). Ce tutoriel dtaille la mise en
oeuvre des outils de dtection des points atypiques et inuents dans Tanagra. Tous les rsultats
sont compars avec ceux de R et SAS.
Colinarit et rgression
(http ://tutoriels-data-mining.blogspot.com/2008/04/ colinarit-et-
rgression.html). Dans un premier temps, il dcrit les outils utiliser pour dtecter rapidement
les problmes de colinarit (redondance des explicatives) dans la rgression. Dans un deuxime
temps, direntes solutions pour combattre la colinarit sont tudies. Tout d'abord une premire
solution base sur la slection de variables est propose. Puis, par la suite, d'autres pistes sont
Page: 151
macro: svmono.cls
date/time: 11-Feb-2013/22:06
152
explores : la rgression sur les axes d'une ACP (analyse en composante principale) et la rgression
PLS (partial least squares). Enn, nous comparons les coecients des dirents modles obtenus.

Diagnostic de la rgression avec R (http://tutoriels-data-mining.blogspot.com/2009/

05/diagnostic-de-la-regression-avec-r.html). Sous forme de "slides", il montre les principales commandes de R pour le diagnostic de la rgression : graphique des rsidus, reprage des
points atypiques, dtection et traitement de la colinarit.
D'autres tutoriels dcrivant les autres techniques de rgression peuvent nous intresser galement :
les arbres de rgression (http://tutoriels-data-mining.blogspot.com/2008/04/arbres-de-rgression.
html, les support vector regression (SVR - http://tutoriels-data-mining.blogspot.com/2009/

04/support-vector-regression.html), ...
15.2 REGRESS
Le logiciel REGRESS est un logiciel trs simpli de rgression linaire multiple que j'ai dvelopp il
y a fort longtemps. Je l'ai mis jour l'occasion de l'criture de ce document. Mon ide est de le mettre
en totale adquation avec les formules prsentes dans mes fascicules consacrs la rgression.
Fig. 15.9.
Page: 152
Envoi des donnes d'Excel vers REGRESS via la macro complmentaire SIPINA.XLA
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.2 REGRESS
153
REGRESS est distribu de deux manires. Il peut tre charg et install individuellement (http:
//eric.univ-lyon2.fr/~ricco/regress.html). Il peut tre install en mme temps que la distribution

SIPINA (http://eric.univ-lyon2.fr/~ricco/sipina.html). Cette seconde solution est prfrable.
En eet, il bncie dans ce cas d'une intgration privilgie dans Excel via la macro complmentaire
SIPINA.XLA. Tout comme TANAGRA ou SIPINA, il est ds lors possible de charger ses donnes dans
le tableur Excel, de procder toutes les oprations de prparation et de transformations possibles et
imaginables 4 , puis de les envoyer REGRESS pour la modlisation (Figure 15.9).
REGRESS est exclusivement pilot par menu. En cela, il se rapproche de OPEN STAT (http://
www.statpages.org/miller/openstat/), un excellent logiciel gratuit et source libre, trs complet, que

j'utilise souvent pour vrier mes calculs dans le domaine de la statistique 5 .
Fentre de rsultats de REGRESS
Fig. 15.10.
Aprs avoir spci l'endogne et les exognes dans la bote de dialogue de paramtrage, les principaux
rsultats apparaissent dans une fentre ddie (Figure 15.10 ). Nous observons successivement : le tableau
d'analyse de variance avec la statistique F du test de signicativit globale ; le R2 et le R2 -ajust ; la grille
des coecients, avec notamment leurs intervalles de conance 95% (paramtrable).
4. Excel
est
trs
largement
utilis
dans
ce
contexte
http://www.kdnuggets.com/polls/2010/
data-mining-analytics-tools.html
5. Et qui est trs complet concernant la rgression linaire multiple. Hlas, je ne peux pas prsenter tous les
outils existants dans ce fascicule. J'ai du faire des choix. Sur le site de OPEN STAT, vous trouverez plusieurs
tutoriels, rdigs et sous forme d'animation vido. C'est vraiment du travail de trs trs grande qualit.
Page: 153
macro: svmono.cls
date/time: 11-Feb-2013/22:06
154
La mise en oeuvre de REGRESS et l'accs aux rsultats sont dcrits dans un tutoriel accessible en ligne
(http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.
html).
15.3 Le logiciel R
R est un logiciel extraordinaire (http://www.r-project.org/). Je ne lui vois qu'un seul dfaut : il
faut faire l'apprentissage de son langage de commande (de programmation) pour en tirer prot. Pour
les personnes rfractaires l'informatique, la barrire (psychologique) peut paratre insurmontable. Mais
une fois cet cueil pass, on constate rapidement les immenses possibilits de l'outil.
Comme pour Tanagra, plusieurs tutoriels relatifs la pratique de la rgression avec R sont disponibles
sur notre site web http://tutoriels-data-mining.blogspot.com/. Mais, de toute manire, vous
trouverez de trs nombreux documents gratuits et de qualit sur internet via Google. Citons, entres
autres, le fameux (parce prcurseur) tutoriel de Julian J. Faraway,
Practical Regression and Anova using
R, 2002 ; http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf.
Et n'allez surtout pas acheter les livres qui prtendent prsenter la rgression
et sa mise en oeuvre
avec R dans un chapitre de quelques pages, noyes au milieu de tout un tas de techniques statistiques,
dcrites galement de manire expditive 6 . Ca ne vous servira pas grand chose. Mis part constater
que le label
R fait vendre. Curieuse destine pour un logiciel gratuit.
15.3.1 La procdure lm()

La procdure lm() lance la rgression dans R (version 2.12.0). Les sorties paraissent minemment
laconiques, voire lapidaires, dans un premier temps. Seuls les coecients sont achs (Figure 15.11).
Fig. 15.11.
La commande lm() de R - Consommation des vhicules
6. Et ils sont nombreux, surtout en anglais. J'en ai moi-mme achet. Honte moi. A part caler mon tagre,
je ne vois pas trs bien quoi ils peuvent servir.
Page: 154
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.3 Le logiciel R
155
Il ne faut pas s'arrter ce premier rsultat. Si on connat un peu R, on sait que des champs sont
associs la grande majorit des objets de R. Pour en obtenir la liste, nous utilisons la commande
attributes(.). On se rend compte alors qu'on peut avoir accs aux coecients sous forme de tableau
($coef f icients), a peut toujours tre intressant pour des manipulations ultrieures ; mais nous avons
galement accs d'autres informations comme les rsidus ($residuals) (Figure 15.12).
Fig. 15.12.
Accs aux champs de l'objet lm() de R - Consommation des vhicules
15.3.2 L'objet summary de lm()

Les rsultats dtaills viennent avec l'objet summary de lm. Nous obtenons le tableau de coecients
accompagne cette fois du test de signicativit individuelle. Un rapport sur le test de signicativit
globale est galement propos (Figure 15.13).
Comme toujours dans R, nous avons accs aux champs de l'objet. Dans notre copie d'cran, nous
achons l'estimation de l'cart-type de l'erreur et la fameuse matrice (X X)1 (Figure 15.14).
A partir de l, toutes les post-traitements possibles et imaginables sont ralisables pour peu que l'on
sache transcrire les bonnes commandes.
15.3.3 Slection de variables avec stepAIC

Concernant la slection de variables, la littrature met souvent en avant la commande stepAIC du
package MASS. La procdure consiste trouver la combinaison de variable qui minimise le critre AIC
Page: 155
macro: svmono.cls
date/time: 11-Feb-2013/22:06
156
Fig. 15.13.
Fig. 15.14.
Sorties de l'objet summary de lm() - Consommation des vhicules
Accs aux champs de summary de lm() - Consommation des vhicules
(Akaike) ou, c'est paramtrable, le critre BIC de Schwartz. Les stratgies usuelles de recherche (forward,
backward, stepwise - bidirectionnelle) sont proposs.

Pour notre part, nous avons ralis une slection bacwkard avec pour point de dpart la rgression sur
la totalit des variables, et en demandant ce que le dtail des oprations soit ach. A la sortie, nous
obtenons un modle avec les variables poids et puissance (Figure 15.15).
Page: 156
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.4 Rgression avec les tableurs
Fig. 15.15.
157
Slection de variables avec la commande stepAIC - Consommation des vhicules

15.4.1 DROITEREG sous Open Oce Calc
J'utilise beaucoup Excel tout simplement parce que c'est l'outil dont je dispose pour mes cours
l'Universit Lyon 2. En ralit, le terme "tableur" est plus appropri. Dans cette optique, j'aurais tout
aussi bien pu utiliser le tableur CALC de la suite bureautique
gratuite OPEN OFFICE (http://fr.
openoffice.org/) pour l'laboration de ce document.

Ainsi, outre les fonctions de calculs standards et les oprations matricielles, Calc propose galement la
fonction DROITEREG, avec exactement le mme mode opratoire. Cela n'est absolument pas tonnant.
Il sait importer sans pertes ( ma connaissance) les chiers au format XLSX de Excel 2007 et 2010. Les
donnes et les formules sont prserves.
Par curiosit, j'ai insr la fonction Droitereg de Calc sur les donnes "Consommation de vhicules"
(cf. l'expression dans la barre de formules), et j'ai copi (collage spcial valeurs) en dessous les valeurs
proposes par Excel. Tout doute, s'il y en avait un, est absolument lev quant aux capacits de calcul de
Calc en matire de rgression (Figure 15.16) 7 .
15.4.2 Add-on pour Open Oce Calc

Il est possible d'enrichir les fonctionnalit de Calc en intgrant des "greons" (add-on en anglais).
Le plus souvent, il s'agit de macro complmentaires qui installent de nouveaux menus dans Open Oce.
Ils permettent de faire le lien avec des logiciels externes. Ainsi, toute la gestion des donnes, oprations
7. reg_multiple_consommation_automobiles.ods - "droitereg - comparaison"
Page: 157
macro: svmono.cls
date/time: 11-Feb-2013/22:06
158
Fig. 15.16.
DROITEREG sous Open Oce Calc - Comparaison avec Excel
souvent fastidieuses, est dvolue au tableur. Les calculs scientiques sont en revanche raliss l'aide des
logiciels spcialiss. Chaque outil oeuvre dans l'espace qui lui est le plus favorable.
Parmi les innombrables add-ons disponibles, nous citerons volontiers, parce que faisant rfrence
des logiciels gratuits que tout le monde peut charger et installer, ceux de Tanagra 8 et de R 9 .
8. http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html
9. http://wiki.services.openoffice.org/wiki/R_and_Calc
Page: 158
macro: svmono.cls
date/time: 11-Feb-2013/22:06
159
15.4.3 L'utilitaire d'analyse du tableur Excel

Il est galement possible d'intgrer des "greons" dans Excel. Tanagra en propose (tanagra.xla pour
Excel 2003 et versions antrieures 10 ; pour Excel 2007 et plus rcentes 11 ). Je ne doute absolument pas
qu'il ne puisse y avoir de solutions analogues pour R (il
sut de chercher un peu ).
Dans cette section, j'ai choisi de mettre en avant "l'utilitaire d'analyse" parce qu'elle fait partie de
la distribution standard d'Excel. Aucune installation additionnelle n'est requise. Parmi les techniques
statistiques proposes se trouve la rgression linaire. Par rapport DROITEREG, ses sorties sont plus
riches, d'o l'intrt de les dcrire de manire dtaille.
Fig. 15.17.
Utilitaire d'analyse - Excel - Paramtrage
Dans Excel 2007, l'utilitaire d'analyse est accessible dans l'onglet "Donnes". Nous slectionnons la
rgression linaire. La bote de paramtrage apparat (Figure 15.17) :
10. http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html
11. http://tutoriels-data-mining.blogspot.com/2010/08/ladd-in-tanagra-pour-excel-2007-et-2010.
html
Page: 159
macro: svmono.cls
date/time: 11-Feb-2013/22:06
160
Nous spcions les plages de valeurs pour l'endogne et les exognes. Nous pouvons slectionner
les tiquettes de colonnes, il faut simplement prciser Excel que la premire ligne correspond aux
noms des variables dans ce cas.
Les rsultats sont insrs dans une nouvelle feuille de calcul.
Nous pouvons, si nous le souhaitons, obtenir des indications dtailles concernant les rsidus.
Les rsultats sont achs dans une nouvelle feuille, conformment notre paramtrage. Par rapport
DROITEREG, les sorties sont mieux organises, elles intgrent de surcrot les ratios intermdiaires
permettant de tester la signicativit globale de la rgression (tableau d'analyse de variance, test de
Fisher) et la signicativit de chaque coecient (t calcul, probabilit critique). Les intervalles de conance
des coecients sont galement fournies. Je ne sais pas du tout en revanche pourquoi les colonnes associes
sont dupliques (Figure 15.18) 12 .
Fig. 15.18.
Utilitaire d'analyse - Excel - Sorties
15.5 SAS
SAS est un logiciel connu des statisticiens, bien en place depuis de trs nombreuses annes dj. Il
doit faire face une concurrence de plus en plus accrue aujourd'hui. Beaucoup de praticiens se posent la
question du passage d'autres logiciels libres (ou non) de qualit (KDnuggets Poll,
Switching from SAS
to WPS, R..., http://www.kdnuggets.com/polls/2010/switching-from-sas-to-wps.html).

12. reg_multiple_consommation_automobiles.xlsx - "utilitaire d'analyse"
Page: 160
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.6 SPAD
161
Je me contenterai d'une description assez succincte dans ce fascicule (SAS version 9.2). Pour le lecteur
dsireux d'en apprendre plus sur la pratique de la rgression sous SAS, je conseille l'excellent tutoriel
de Confais et Leguen (2005) [4] paru dans la non moins excellente revue gratuite en ligne MODULAD
(http://www-roc.inria.fr/axis/modulad/).
La rgression sur les donnes "Consommation des vhicules" a t ralise l'aide des commandes
suivantes
proc reg data = ucidata.consovehicules;

model consommation = poids puissance cylindree;
run;
Nous obtenons les sorties standards de la rgression, savoir : le tableau d'analyse de variance et les
ratios associs (test F de signicativit globale et R2 ), le tableau des coecients et le tests de signicativit
individuels (Figure 15.19). Les rsultats sont bien videmment les mmes que ceux des autres logiciels.
Fig. 15.19.
Rgression avec la PROC REG de SAS - Consommation des vhicules
15.6 SPAD
SPAD (version 7.3) est un logiciel de traitement statistique qui a fait les beaux jours de l'analyse de
donnes " la franaise". Depuis quelques annes, il tend ses comptences en investissant, entres autres,
les domaines de la modlisation et du data mining.
Nous avons construit une lire pour ralis la rgression linaire multiple (Figure 15.20). Le composant ddi "Rgression Anova" encapsule plusieurs techniques connexes : la rgression, l'analyse de
Page: 161
macro: svmono.cls
date/time: 11-Feb-2013/22:06
162
Fig. 15.20.
Fig. 15.21.
La "lire" SPAD pour la Rgression - Consommation des vhicules
Rsultats de SPAD pour la Rgression - Consommation des vhicules
variance (anova) et l'analyse de covariance. Dans notre tude, la variable expliquer est quantitative, les
facteurs simples galement, nous oprons bien une analyse de rgression.
Les rsultats peuvent tre visualiss de direntes manires. Pour ma part, je prfre l'diteur de
rsultats car il permet d'obtenir directement une vision globale : tous les lments importants tiennent
sur une seule page (Figure 15.21). L'autre option est de transfrer les rsultats dans le tableur Excel, la
prsentation est certainement meilleure, mais le test de signicativit globale et la grille des coecients
sont sur deux feuilles direntes. Tout dpend des souhaits de l'utilisateur en dnitive.
Page: 162
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.8 STATISTICA
163
15.7 SPSS
Nous lanons la rgression linaire standard (Analyse / Rgression / Linaire...) dans SPSS version
12.0. Dans le fentre de rapport sont achs : le tableau indiquant la qualit globale du modle (R2 ,
) ;
le tableau d'analyse de variance et le test F d'valuation globale du modle ; la grille des paramtres de
la rgression avec les coecients standardiss et les tests individuels de signicativit (Figure 15.22).
Fig. 15.22.
Rapport relatif la Rgression Linaire sous SPSS - Consommation des vhicules
15.8 STATISTICA
Ma version de STATISTICA est plutt ancienne (version 5.5). Mais bon, la rgression telle que nous
l'abordons n'ayant pas connu de bouleversements thoriques forts ces dernires annes (enn j'imagine),
nous pouvons considrer que les sorties restent d'actualit.
Les donnes ont t importes, nous lanons la rgression en spciant la variable dpendante (endogne) et les variables indpendantes (exognes). Nous obtenons un bilan global de la rgression dans
une premire fentre (Figure 15.23). Nous y trouvons le coecient de dtermination R2 , la valeur de la
statistique F , l'cart type estim de l'erreur, etc.
Page: 163
macro: svmono.cls
date/time: 11-Feb-2013/22:06
164
Fig. 15.23.
Rgression linaire avec STATISTICA - Premiers rsultats - Consommation des vhicules
Fig. 15.24.
Grille des coecients estims sous STATISTICA - Consommation des vhicules
Cette fentre nous permet d'accder d'autres rsultats.Si nous cliquons sur le bouton "Synthse de
rgression" par exemple, nous obtenons la grille des coecients avec les tests de signicativit individuels.
Notons que STATISTICA propose directement les coecients standardiss (BETA) (Figure 15.24).
D'autres analyses sont possibles bien videmment. Si nous actionnons le bouton "Analyse des rsidus",
nous accdons un panneau de commande particulirement complet permettant de scruter en dtail les
caractristiques des rsidus de la rgression (Figure 15.25). Nous pouvons obtenir, entres autres, la "Droite
de Henry" (graphique Q-Q Plot ; [13], chapitre 1) permettant de vrier la compatibilit de la distribution
observe des rsidus avec l'hypothse gaussienne (Figure 15.26).
Page: 164
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.9 A propos des logiciels
Fig. 15.25.
165
Panneau de commande de l'analyse des rsidus sous STATISTICA - Consommation des vhicules
Fig. 15.26.
Droite de Henry (Q-Q Plot) sous STATISTICA - Consommation des vhicules
15.9 A propos des logiciels

Sur des calculs reposant sur des algorithmes dterministes et matriss (oprations matricielles), les
logiciels fournissent des rsultats identiques. Le contraire aurait t inquitant. Aprs, privilgier tel ou tel
outil dpend essentiellement d'autres considrations comme la possibilit d'initier des calculs supplmentaires simplement (tests statistiques additionnels...), les facilits en termes de manipulation de donnes
Page: 165
macro: svmono.cls
date/time: 11-Feb-2013/22:06
166
(data
management ), l'accs au logiciel, etc. Il dpend aussi, soyons honnte, de la culture ambiante dans
lequel volue le statisticien.

Je me garderai bien donc de conseiller un logiciel. Le choix appartient pleinement l'utilisateur. Et
c'est trs bien ainsi.
Page: 166
macro: svmono.cls
date/time: 11-Feb-2013/22:06
A
Gestion des versions
Ce document n'est pas g. Il est appel voluer dans le temps. Dans cette annexe, nous dtaillerons
au fur et mesure son volution. Le numro de version est indique sur la couverture. En bas de page,
nous avons la date et l'heure de la compilation. Toute modication un tant soit peu importante (rajout
de section, rorganisation) induit un nouveau numro de version. Un simple erratum en revanche n'est
pas explicitement indiqu (coquilles, fautes d'orthographes), il faut se rfrer la date de compilation
dans ce cas.
1.
Version 1.0 -
Premire version de ce fascicule, termine et diuse au mois de mai 2011. Elle
comporte 15 chapitres.
Page: 167
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 168
macro: svmono.cls
date/time: 11-Feb-2013/22:06
B
Fichiers de donnes et de calculs
Plusieurs exemples illustrent les sujets traits dans ce document. L'norme avantage de la distribution
par le web est que nous pouvons diuser les chiers de donnes avec les calculs associs.
Tous les chiers sont au format Excel. Vous avez du le remarquer, chaque copie d'cran est accompagne en bas de page d'une double rfrence : le nom du chier (.xlsx - Excel format 2007) et le nom de la
feuille. Vous pouvez ainsi tudier dans le dtail la squence de calculs ralise pour obtenir les rsultats
dcrits dans le document.
Ces chiers sont regroups dans une archive (http://eric.univ-lyon2.fr/~ricco/cours/cours/
econometrie_regression_fichiers.zip). Nous les listons ici avec les principaux thmes qui y sont
abords :
1. regression_simple_rendements_agricoles.xlsx. Source : Bourbonnais, page 12. Thmes : rgression linaire simple, intervalle de conance de la droite de rgression, dcomposition de la variance,
test de signicativit globale, test de signicativit de la pente, intervalle de conance de la pente,
rsultats de droitereg, prdiction ponctuelle, intervalle de prdiction.
2. conso_poids_vehicules_reg_simple.xlsx. Thme : tude de cas, consommation de carburant vs.
poids.
3. equipementmagnetoscope.xlsx. Source : Bourbonnais, page 160. Thmes : modle logistique, estimation des coecients, estimation par balayage de ymax .
4. regression_sans_constante.xlsx. Thme : rgression sans constante, sur donnes centres et noncentres.
5. comparaisondesregressions.xls. Thme : comparaison des rgressions.
6. reg_multiple_consommation_automobiles.xlsx. Thmes : rgression linaire multiple et sujets
associs (en version Open Oce Calc : reg_multiple_consommation_automobiles.ods).
7. cigarettes-regressionmultiple.xls. Thmes : rgression linaire multiple et sujets associs.
8. regression-salaire-sexe.xlsx. Source : http://www.cabannes.org/exemples_pour_excel.htm.
Thme : rgression sur exogne qualitative (binaire).
Page: 169
macro: svmono.cls
date/time: 11-Feb-2013/22:06
170
B Fichiers de donnes et de calculs
9. analysetauxdechomage.xlsx. Source : http://aurelie.bonein.free.fr/. Thme : tude de cas,

rgression linaire multiple.
Page: 170
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Littrature
1. Avazian Z.,
tude statistique des dpendances, ditions Mir, 1978.
2. Bourbonnais, R.,
3. Bressoux P.,
Economtrie. Manuel et exercices corrigs, Dunod, 2 dition, 1998.
Modlisation statistique appliques aux sciences sociales, De Boeck, 2008.
4. Confais J., Le Guen M., Premier
R , Revue Modulad no 35, pages 220 363,

pas en rgression linaire avec SAS
2006.
5. Dagnelie P., Statistique thorique et appliques - Infrence Statistique une et deux dimensions, vol.2, de Boeck,
2006.
6. Dodge, Y, Rousson, V.,
7. Giraud, R., Chaix, N.,
8. Hardy M.,
Analyse de rgression applique, Dunod, 2 dition, 2004.
Economtrie, Presses Universitaires de France (PUF), 1989.
Regression with Dummy Variables, Sage University Papers Series on Quantitative Applications in
the Social Sciences, 07-093, Newbury Park, CA : Sage, 1993.

9. Jacquard J., Turrisi R.,
Interaction eects in multiple regression, (2nd ed). Sage University Papers Series on
Quantitative Applications in the Social Sciences, 07-072, Thousands Oaks, CA : Sage, 2003.
10. Johnston, J., DiNardo, J.,
11. Labrousse, C.,
Mthodes Economtriques, Economica, 4 dition, 1999.
Introduction l'conomtrie. Matrise d'conomtrie, Dunod, 1983.
12. Rakotomalala R.,
Analyse de corrlation - tude des dpendances - Variables quantitatives, http://eric.
univ-lyon2.fr/~ricco/cours/cours/Analyse_de_Correlation.pdf.
13. Rakotomalala R.,
Pratique de la rgression linaire multiple - Diagnostic et slection de variables, http:
//eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf.
14. Rakotomalala, R.,
Pratique de la rgression logistique - Rgression Logistique Binaire et Polytomique, http:
//eric.univ-lyon2.fr/~ricco/cours/cours/pratique_regression_logistique.pdf.
15. Saporta, G.,
Probabilits, Analyse des donnes et Statistique, Technip, 2me dition, 2006.
16. Scherrer B.,
Biostatistique, Volume 1, Gatan Morin Editeur, 2007.
17. Tenenhaus, M.,
Page: 171
Statistique - Mthodes pour dcrire, expliquer et prvoir, Dunod, 2007.
macro: svmono.cls
date/time: 11-Feb-2013/22:06

Econometrie Regression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Econometrie Regression

Transféré par

Droits d'auteur :

Formats disponibles

Ricco Rakotomalala

La rgression linaire simple et multiple

Universit Lumire Lyon 2

le temps pass sur mon Thomson M05 programmer des petites

est devenu mon mtier.

http://eric.univ-lyon2.fr/~ricco/regress.html  mme si, honntement, il doit y avoir trs peu

Table des matires

Partie I Rgression Linaire Simple

Modle de rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1 Modle et hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.1 Rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Principe de l'ajustement des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.1 Estimateur des moindres carrs ordinaires (MCO) . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.2 Calculs pour les donnes "Rendements agricoles" . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.3 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3 Dcomposition de la variance et coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.1 Dcomposition de la variance - quation d'analyse de variance . . . . . . . . . . . . . . . . .

1.3.2 Coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.3 Coecient de corrlation linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.4 L'exemple des rendements agricoles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Variance - Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.1 Variance de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2 Convergence de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.3 Variance et convergence de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.4 Quelques remarques sur la prcision des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 Thorme de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1 valuation globale de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.1 Tableau d'analyse de Variance - Test de signicativit globale . . . . . . . . . . . . . . . . . .

3.1.2 Exemple : les rendements agricoles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2 Distribution des coecients estims . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

3.2.2 Estimation de la variance de l'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.3 Distribution des coecients dans la pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3 tude de la pente de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.1 Test de signicativit de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.2 Test de conformit un standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.3 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Intervalle de conance de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.5 La rgression avec la fonction DROITEREG d'EXCEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6 Quelques quivalences concernant la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6.1 quivalence avec le test de signicativit globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6.2 quivalence avec le test de signicativit de la corrlation . . . . . . . . . . . . . . . . . . . . .

Prdiction et intervalle de prdiction

4.1 Prdiction ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Prdiction par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.1 Variance de l'erreur de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.2 Loi de distribution de l'erreur de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.3 Intervalle de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.4 Application numrique - Rendements agricoles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

tude de cas - Consommation des vhicules vs. Poids . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Non linarit - Modles drivs et interprtation des coecients . . . . . . . . . . . . . . . . . .

6.1 Interprtation de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2 Modles non-linaires mais linarisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2.1 Modle log-linaire - Schma lasticit constante . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2.2 Modle exponentiel (gomtrique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2.3 Modle logarithmique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2.4 Le modle logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3 Un exemple de modle logistique : taux d'quipement en magntoscope des mnages . . . .

Rgression sans constante

7.1 Cas des donnes centres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.2 Cas des donnes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.3 Un exemple d'application : comparaison de salaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

http://eric.univ-lyon2.fr/~ricco/regress.html mme si, honntement, il doit y avoir trs peu

1.3 Dcomposition de la variance et coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.2 Coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.3 Coecient de corrlation linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.1 Tableau d'analyse de Variance - Test de signicativit globale . . . . . . . . . . . . . . . . . .

3.2 Distribution des coecients estims . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.3 Distribution des coecients dans la pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.1 Test de signicativit de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.3 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Intervalle de conance de la droite de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6.1 quivalence avec le test de signicativit globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6.2 quivalence avec le test de signicativit de la corrlation . . . . . . . . . . . . . . . . . . . . .

Non linarit - Modles drivs et interprtation des coecients . . . . . . . . . . . . . . . . . .

8.2 Dtecter la nature de la dirence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8.2.1 Dirences entre les pentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8.2.2 Dirences entre les constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8.3 Un rcapitulatif des direntes SCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8.4.2 Comparaison des coecients - Cas des variances identiques . . . . . . . . . . . . . . . . . . . .

8.4.3 Comparaison des coecients - Cas des variances direntes . . . . . . . . . . . . . . . . . . . .

9.6.2 Estimation de la matrice de variance covariance des coecients . . . . . . . . . . . . . . . .

10.1 Tableau d'analyse de variance et coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . .

10.1.1 Tableau d'analyse de variance et coecient de dtermination . . . . . . . . . . . . . . . . . .

10.1.3 Coecient de corrlation linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

11 Gnralisation de l'tude des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11.1 Infrence sur les coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

13 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13.1 Coecient brut et partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

i N (0, ). L'hypothse de normalit des erreurs est un lment cl pour l'infrence