Vous êtes sur la page 1sur 111

UNIVERSITE DU BURUNDI

FACULTE D’AGRONOMIE ET DE BIO-INGENIERIE (FABI)

DEPARTEMENT DE SOCIO-ECONOMIE RURALE (SER)

B.P. 2940 Bujumbura-Burundi1

ECONOMETRIE SER 3501

SYLLABUS DE COURS DESTINE AUX ETUDIANTS DE BAC III, SER

Titulaire du cours:

Dr.Ir. NIMENYA Nicodème

Année académique 2016-2017

1
Téléphone : (257) 22 22 43 57 ; Fax : (257) 22 24 75 30 ; E-mail : facagroburundi@yahoo.fr
ECONOMETRIE SER 3501: VHE: 45h = CM (30h) + TD (15h)

Objectifs de la formation

- Mise en œuvre des notions de base d’analyse mathématique pour investiguer la


relation entre variables économiques
- Mise en évidence des relations entre variables économiques, réalisation de
l’inférence statistique et validation de la théorie économique
- Conduite d’une régression économétrique, interprétation des estimateurs des
moindres carrées ordinaires dans l’étude d’une situation économique dans le concret
- A l'issue des séances consacrées à ce cours, les étudiants seront en mesure de
résoudre par eux-mêmes différents problèmes d'estimations classiques auxquels ils
pourraient être confrontés

Prérequis

Pour être admis dans ce cours, les étudiants doivent avoir réussi le cours d’introduction à la
probabilité et à la statistique ou équivalent et de mathématiques pour économistes en
particulier l’algèbre matricielle.

Méthodes pédagogiques

Syllabus, cours magistral, projections power point, cas d’études sur ordinateur à l’aide
des logiciels d’économétrie (TSP/Oxmetrics, stata).

Evaluation des connaissances

Travaux diriges réalisés en équipes ayant un coefficient de pondération de 20% ainsi qu’une
épreuve finale écrite cotée sur 80% et portant sur la théorie et la pratique.

Adresse de contact pour toutes questions relatives à ce cours :

Titulaire du cours: Dr.Ir. Nimenya Nicodème, Economiste agricole


E-mail: nimnic@yahoo.fr ; Tél.: 22 22 43 57; Bureau: Bâtiment Administratif de la FABI

Réception des étudiants sans rendez-vous: Vendredi de 15h à 18h

i
Contenu du cours
PARTIE I. RAPPELS STATISTIQUES ET MATHEMATIQUES

Chapitre 1. Distributions de probabilité


1.1. Variables stochastiques discontinues et distributions de probabilité
1.2. Variables stochastiques continues
1.3. Distributions de probabilité jointe, marginale et conditionnelle
1.4. Espérance mathématique de fonctions de plus d’une variable
1.5. Indépendance versus corrélation

Chapitre 2. Inférence statistique


2.1. Concepts de base de l’inférence statistique
2.2. Estimation de la moyenne d’une population
2.3. Tests d’hypothèses sur la moyenne d’une population
2.4. Quelques statistiques de test importantes et leur distribution

Chapitre 3. Rappels sur l’algèbre matricielle


3.1. Matrices et vecteurs
3.2. Définitions de base et opérations sur les matrices
3.3. Déterminants
3.4. Dépendance linéaire et rang d’une matrice
3.5. Différenciation matricielle

Partie II – Introduction à l’économétrie

Chapitre 4.Régression linéaire simple


4.1. Lignes de régression de la population et de l’échantillon
4.2. Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
4.3. Mesures de la robustesse de la méthode

Chapitre 5. Régression linéaire multiple


5.1. Estimation des Moindres Carrés Ordinaires (MCO) en régression multiple
5.2. Hypothèses classiques en régression multiple
5.3. Propriétés des estimateurs MCO
5.4. Inférence en régression multiple
5.5. Multicollinéarité
5.6. Tests de restrictions linéaires sur les paramètres d’une régression
5.7. Variables explicatives qualitatives

Chapitre 6. Modélisation des variables dépendantes qualitatives binaires


6.0. Introduction
6.1. Modèle probit
6.2. Modèle logit
6.3. Effets marginaux

Références bibliographiques

1. Bourbonnais, R. (2005). Econométrie : Manuel et exercices corrigés, 6ème édition,


Dunod, Paris, 351 p.
2. Crepon, B., Jacquemet, N. (2010). Econométrie : méthode et applications. Editions
de boeck
3. Gujarati, D.N. (2005). Econométrie 4è édition américaine
4. Thomas, R.L. (1997). Modern Econometrics – an introduction. Prentice Hall, Financial
Times, 369 p.

ii
Chapitre 1 – Distribution de probabilité

Une connaissance de base des probabilités et inférence statistique est un pré-requis pour
n’importe quelle analyse quantitative et en particulier économétrique. Ce chapitre et le
suivant révèlent cette connaissance. Nous supposons bien évidemment que l’étudiant de par
son background des années antérieures a de bonnes connaissances sur la probabilité et sa
distribution. Dans ce chapitre et le suivant, nous résumons les concepts clés qui seront
particulièrement utiles pour la suite du cours.

1.1. Variables stochastiques et distributions de probabilité

Considérons une simple expérience réalisée sur un dé avec 6 faces identiques numérotées
de 1 à 6. Un essai de cette expérience consiste à faire rouler ou lancer le dé en l’air deux
fois de suite et à additionner les numéros de face qui se trouvent sur la face supérieure. Les
résultats (issues) possibles de cette double lancée de dé sont au nombre de 36. Si les 6
faces du dé sont parfaitement semblables, les 36 résultats ont la même chance de se
produire, ils sont dits équiprobables. Chacun des 36 résultats se produit avec une chance ou
une probabilité équivalente à 1/36.

Tableau 1.1. Espace de distribution des résultats de combinaisons possibles de numéros de


faces d’un dé à la suite de deux lancées

(1,1) 2 (2,1) 3 (3,1) 4 (4,1) 5 (5,1) 6 (6,1) 7


(1,2) 3 (2,2) 4 (3,2) 5 (4,2) 6 (5,2) 7 (6,2) 8
(1,3) 4 (2,3) 5 (3,3) 6 (4,3) 7 (5,3) 8 (6,3) 9
(1,4) 5 (2,4) 6 (3,4) 7 (4,4) 8 (5,4) 9 (6,4) 10
(1,5) 6 (2,5) 7 (3,5) 8 (4,5) 9 (5,5) 10 (6,5) 11
(1,6) 7 (2,6) 8 (3,6) 9 (4,6) 10 (5,6) 11 (6,6) 12

Définissons dès lors une variable X, égale à la somme des chiffres observés sur chacune
des 6 faces du dé à la fin d’un essai de lancée. La variable X variera d’un essai à un autre
et ses valeurs possibles sont visualisées au Tableau 1.1. Les valeurs de X varient entre 2 (1
deux fois) et 12 (6 deux fois).

La variable X est un exemple d’une variable aléatoire ou stochastique. Une variable


stochastique ou aléatoire est une variable dont les valeurs sont déterminées par chance ou
au hasard. Pour le cas d’espèce, la chance est liée au jeu de lancée du dé. La variable X est
aussi appelée une variable discrète ou discontinue dans la mesure où elle ne peut
prendre que certaines valeurs comprises entre 2 et 12. Certaines autres valeurs telles que
les valeurs décimales ne peuvent pas être prises par X.

Nous pouvons dès lors dégager de ce qui précède la probabilité d’occurrence des valeurs de
X. Cette distribution de probabilité établit une relation entre chacune des valeurs possibles
de X et la probabilité associée à chacune d’elles. A titre d’exemple, si on désire dégager la
probabilité associée à X = 4 dans un essai, il suffit de compter le nombre de fois que X
prend la valeur 4 et de reporter ce nombre au nombre de cas possibles. Les cas favorables à
X = 4 sont (1,3), (2,2) et (3, 1). Dans la mesure où la probabilité associée à chacun de ces
résultats est de 1/36, la probabilité associée à X=4 est dès lors 3/16. On
note Pr( X  4)  3 / 36 . Les probabilités associées à chacune des valeurs possibles de X
allant de 2 à 12 se calculent de façon similaire. Le tableau 2.2 liste la probabilité notée p(X)
associée à chacune des valeurs possibles de X. Par exemple p(7)  Pr( X  7) . Du reste, il
est évident que si on couvre toutes les valeurs possibles de X , la somme des probabilités
correspondantes est unitaire, soit 
p(X )  1

1
Tableau 1.2. Distribution de probabilité

X 2 3 4 5 6 7 8 9 10 11 12
p(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Exercice 1.1

Une pièce de monnaie est jetée quatre fois. Listez l’ensemble des issues possibles pouvant
résulter de cette expérimentation. Si X est le nombre de ‘faces’ obtenues lors d’un essai de
cette expérimentation, dégagez la distribution de probabilité associée à X .

Exercice 1.2

Un vase contient 2 boules rouges et 5 boules blanches. Trois boules sont retirées du vase et
ne sont pas remplacées avant que la suivante ne soit tirée. Trouvez la distribution de la
probabilité du nombre de boules rouges tirées. Attention, dans le cas d’espèce, toutes les
issues possibles ne sont pas équiprobables !

Espérance mathématique

Considérons n essais de l’expérience de la lancée du dé où n est un nombre suffisant élevé.


Supposons que nous désirons connaître la valeur moyenne prise par la variable X . Nous ne
pouvons pas considérer une moyenne arithmétique directe de toutes les valeurs prises par
X dans la mesure où il y a des valeurs qui reviennent plus fréquemment que d’autres. Nous
prenons dès lors une moyenne pondérée des valeurs de X ; les poids étant constitués des
proportions du nombre de fois que chaque valeur apparaît. En d’autres termes, nous
utilisons les probabilités du Tableau 1.2 comme poids et la moyenne pondérée de
X devient :

X  2 p(2)  3 p(3)  4 p(4)  ........  12 p(12)


  Xp ( X )

Où la sommation se fait sur toutes les valeurs possibles prises par la variable
stochastique X .

Ainsi la moyenne pondérée de X dans le Tableau 1.2 est donnée par :


2 6 12 20 30 42 40 36 30 22 12
 Xp( X )  36  36  36  36  36  36  36  36  36  36  36  7
La quantité  Xp (X ) est appelée la moyenne de la distribution de probabilité de X et est
donnée par le symbole µ. Elle est aussi appelée valeur espérée ou espérance mathématique
de X notée E (X ) :

  E ( X )   Xp( X ) (1.1)

Le symbole E de la relation (1.1) est appelé l’opérateur d’espérance mathématique.

Supposons cette fois-ci que chaque fois que nous réalisons un essai lors de l’expérience
réalisée sur le dé. Mais au lieu de compter le nombre de points obtenus X (la somme des
numéros correspondants aux faces supérieures), intéressons-nous plutôt à leur carré X 2 .
Quelle est la valeur moyenne de X 2 obtenue après n essais avec n suffisamment grand?

2
En utilisant la terminologie vue ci-haut, la valeur espérée ou l’espérance mathématique
de X 2 est notée E ( X 2 ) . Les valeurs possibles de X 2 sont : 4, 9, 16, 25, 36, …, 144. Pour
trouver E ( X 2 ) , nous prenons tout simplement la moyenne pondérée des valeurs possibles
prises par E ( X 2 ) en utilisant les probabilités reprises dans le Tableau 1.2. Nous obtenons
ainsi :

E ( X 2 )   X 2 p( X ) (1.2)

En exécutant la relation (1.2) sur base de la distribution de probabilité reprise dans le


Tableau 1.2, nous avons :

4 18 48 144
E( X 2 )     ..........   54,83
36 36 36 36
La valeur moyenne de X obtenue après un nombre élevé d’essais est dès lors 54,83.
Notons que E ( X 2 ) est différent de E ( X )  72  49  54,83
2

De façon générale, nous avons :

E ( X 2 )  E ( X )
2
(1.3)

Cette inégalité nous montre bien que nous devons être vigilants en manipulant l’opérateur
d’espérance mathématique.

La technique utilisée en haut pour trouver les valeurs espérées peut être appliquée à
n’importe quelle fonction de la variable X . Ainsi donc, nous pouvons par exemple exprimer
comme suit l’espérance mathématique des expressions ci-dessous :

 
E ( X 3 )   X 3 p( X ) ; E  X  4    X  4 p( X ) ; E (1/ X )   (1/ X ) p( X )
2 5

De façon générale, nous pouvons écrire, pour n’importe quelle fonction f (X ) d’une variable
stochastique X son espérance mathématique E f (X ) comme suit:
E f ( X )   f ( X ) p ( X ) (1.4)

Où la sommation se fait sur toutes les valeurs possibles de X .

Variance d’une distribution de probabilité

En partant de la généralisation établie à la relation (1.4), une importante espérance


mathématique est donnée par :

 2

E  X       X    p( X )
2
(1.5)

où   E ( X )   Xp( X ) est la moyenne de la distribution de probabilité telle que stipulée à


la relation (1.1). La quantité de l’équation (1.5) est connue sous le nom de variance de la
distribution de probabilité, notée Var (X ) et symbolisée plus fréquemment par  2 .

3
En considérant par exemple notre jeu de faire rouler un dé, la moyenne
  7 et  2  E X  72 . La variance est ici une mesure de la distance moyenne entre les
valeurs de X et sa valeur moyenne qui est 7. C’est une mesure de l’étendue à laquelle les
valeurs possibles de X générées par plusieurs essais du jeu s’écartent de leur moyenne
pondérée qui est de 7. L’écart à la moyenne est un indicateur de dispersion des
observations par rapport à la moyenne ou à la valeur centrale qui est de 7. Comme cette
dispersion dépend des probabilités du Tableau 1.2, la variance est une mesure de la
dispersion de probabilités dans une distribution de probabilité.

Une méthode de calculer la variance à partir d’une distribution de probabilité est celle
d’utiliser la relation de l’espérance mathématique (relation 1.5). Cependant, il est possible de
calculer cette variance plus facilement en passant par la transformation suivante :
 
 2  E  X   2 p( X )    X   2 p( X )
  X 2 p( X )  2  Xp ( X )   2  p( X )
(1.6)
 E ( X 2 )  2 2   2
 E ( X 2 )  E ( X )
2

 
En revenant à notre exemple du jeu du dé, la moyenne E( X )    7 et E X 2  54,83 . Dès
lors la variance de la distribution de probabilité du Tableau 2.2 est, en utilisant la formule
(1.6) :

Var ( X )  54,83  7  5,83


2

Bien que nous sachions que la variance est une mesure de la dispersion d’une distribution
de probabilité et que plus la variance est élevée, plus grande est la distribution de la
probabilité, il n’est pas souvent facile d’attacher une signification particulière à une seule
valeur telle que  2  5,83 . C’est pour combler cette lacune que nous définissons un autre
paramètre, la déviation standard ou l’écart-type  d’une distribution de probabilité qui est la
racine carrée positive de la variance. Dans le cas d’espèce, la déviation standard
est   5,83  2,41 .

Il est possible de donner une signification toute prête à cette valeur de 2.41. Nous disons
que, à l’issue de plusieurs essais réalisés en faisant rouler un dé, la variable X sera à une
distance de 2,41 de sa valeur centrale ou moyenne qui est de 7. Cette explication ne
constitue pas en soi une définition précise de la déviation standard mais elle constitue un
guide utile pour interpréter les valeurs absolues de  .

Exercice 1.3

Trouver la moyenne et la variance d’une distribution de probabilité obtenue à partir de


l’exercice 1.1 Dégager les valeurs E ( X 3 ) et E1 / 1  X  .

Il est important dans ce chapitre que le lecteur puisse avoir une idée de ce qui peut être fait
et de ce qui ne l’est pas avec l’opérateur d’espérance mathématique E . Nous présentons à
différentes étapes, une série de théorème qui mettent en évidence les propriétés de cet
opérateur. Le premier de ces théorèmes est présenté ci-dessous:

4
Théorème 1.1

Si X est une variable aléatoire et si a et b sont des constantes, nous avons l’égalité
suivante :
E(a  bX )  a  bE( X ) ; Var (a  bX )  b2 E ( X )

Preuve

E (a  bX )   a  bX p X 
 a  p( X )  b Xp  X 
 a  bE  X 

Bien plus,
Var (a  bX )  E a  bX   E a  bX 
2 2

 
 a 2  2abE  X   b 2 E X 2  a 2  2abE  X   b 2 E  X 
2

 
 b 2 E X 2  E  X 
2

 b 2Var  X 
Si en particulier a  0 dans le théorème 1.1, nous avons :

EbX   bE  X  ; Var bX   b2Var  X 

Dès lors, il convient de noter que si par exemple E6 X   6E X  , ce n’est pas le cas
pour Var 6 X   36Var  X  . Bien plus, comme la déviation standard est la racine carrée
positive de la variance, la déviation standard de 6 X notée  6 X est 36Var  X   6 X .

Exercice 1.4

Supposons que E  X   3 et que Var  X   7 . Construisons une nouvelle variable Y  5 X  4 .


Trouver E Y  et Var  X  .

Quelques distributions de probabilité des variables discrètes les plus connues

La distribution binomiale

Considérons une expérience avec juste deux issues possibles qu’on peut appeler ‘succès’ et
‘échec’. Supposons en plus que tous les essais de cette expérience peuvent être considérés
comme indépendants l’un de l’autre. C'est-à-dire que le résultat d’un essai n’est pas
influencé par et ne peut influencer le résultat d’un autre essai. La probabilité de ‘succès’ de
n’importe quel essai peut être considérée comme constante et qu’on note  . Un exemple
évident de cette expérience pourrait être le lancer d’une pièce de monnaie. Si ‘pile’
correspond au ‘succès’, alors   0,5 .

Considérons n essais d’une expérience binomiale. Si X représente le nombre de ‘succès’


obtenus dans ces n essais où X  1,2,3,................., n . La probabilité de distribution de X est
donnée par l’expression suivante :

5
p X    X 1   n  X
n!
(1.7)
n  X ! X !
L’équation (1.7) définit une distribution binomiale dont la moyenne est E  X   n et la
variance est Var  X   n 1   

Par exemple dans un pays donné, 80 pour cent de la population sont favorables à son
intégration régionale pendant les 20 pour cent restants s’y opposent. Si on interviewe 8
personnes, quelle est la chance de trouver 6 personnes favorables à l’adhésion ?
p6  0,86 0,286  0,294
8!
8  6!6!
En partant de la relation (1.7), la somme des probabilités de distribution est donnée par :
n n

 p X  k     k 1   n  k    1   n  1
n!
k 0 k  0 n  k !k!

L’égalité de la somme des probabilités de distribution au binôme de Newton lui vaut


l’appellation de loi binomiale.

L’équation (1.7) définit une distribution binomiale dont la moyenne est E  X   n et la


variance est Var  X   n 1    .

Preuve
n n n
E  X    p X  k k   Cnk k 1    k   Cnk k 1   
nk nk
k
k 0 k 0 k 1
Or, nous savons que
n! nn  1! n  1!
kCnk  k k n  nCnk11
n  k !k! n  k !k k  1! n  1  k  1!k  1!
Dès lors, l’espérance mathématique E  X  devient :
n n
E  X   n Cnk11 k 1     n  Cnk11 k 1 1   
nk nk

k 1 k 1
n 1
 n  Cnk1 k 1   
n  k 1
(1.8)
k 0

 n   1   
n 1

 n
Pour dégager l’expression de la variance, nous passons par une variable aléatoire selon la
loi de Bernoulli, c’est-à-dire un cas particulier d’une variable binomiale où le nombre d’essais
est égal à l’unité, soit n  1 . La variable est égale à 1 en cas de succès et à 0 en cas d’échec.
Si  est la probabilité de succès, la variable X est notée B1, p  . Si X est B1, p  , alors :

p X  1   et p X  0  1   .
E X   1*   0 * 1      ; Var  X   E X 2   E X      2   1   
2

Or, il est prouvé que toute variable aléatoire binomiale Bn,   , c’est–à-dire comportant n
essais du jeu avec une probabilité  de réussite, peut s’écrire comme une somme de
variables aléatoires selon la loi de Bernoulli. Soit X qui est Bn,   , nous avons :

6
X  X1  X 2  .......  X n où X i , i  1,2,....., n est B1,  

Du fait que l’’espérance mathématique tout comme la variance sont linéaires, nous
obtenons :

 n
 n n
1°) E 

 X    E  X     n
i 1
i
i 1
i
i 1

Ce résultat corrobore effectivement ce que nous avons dégagé à travers la démonstration ci-
haut en (1.8).

 n
 n n
2°) Var   i X   Var  X i     1     n 1   
 i 1  i 1 i 1

Exercice 1.5

La probabilité que des personnes mâles âgées de 60 ans puissent être encore en vie 20 ans
durant est de 0,2. Etant donné un échantillon de 5 personnes de cette catégorie de
personnes, et si X représente le nombre dans l’échantillon le nombre de ceux qui seront
encore en vie dans 20 ans, utilisez la relation (1.7) pour trouver la distribution de probabilité
de X . Dessiner l’histogramme de cette distribution de probabilité.

Distribution de Poisson

Considérons encore une fois l’expérience binomiale. Supposons que le nombre d’essais
n est très élevé que par contre, la probabilité constante de ‘succès’  est très faible. La
relation (1.7) peut être approximée par :

 n X   n
p X    e (1.8)
 X ! 
où n est de nouveau la moyenne de distribution de la probabilité de succès dans n essais.

La relation (1.8) est particulièrement utile quand n et  ne sont pas connus alors que leur
produit n , lui, est connu. Dans ce cas, la relation (1.8) devient :

X
p X   e   ,   n (1.9)
X!
où X est de nouveau le nombre de succès. La relation (1.9) définit la distribution de Poisson.

Exercice 1.6

Les décès dus à la malaria dans une ville en milieu tropical atteignent un taux de 8 par
semaine. Utiliser la relation (1.9) pour trouver (a) la probabilité d’occurrence de 5 morts par
semaine et (b) la probabilité d’enregistrer au moins un décès par semaine.

La distribution géométrique

Considérons de nouveau une expérience binomiale avec des essais indépendants pour
lesquels la probabilité fixe de succès est  . Supposons que X soit le nombre d’essais
réalisés avant que le premier ‘échec’ n’apparaisse. Cela veut dire par exemple que si le

7
premier échec apparaît au 5è essai alors X  4 . La probabilité de distribution de X peut être
obtenue en utilisant l’expression:

p X   1    X (1.10)

L’équation (1.10) définit la distribution géométrique dont la moyenne est E X    / 1    et


la variance est Var  X    / 1    . Ainsi par exemple si une pièce de monnaie est lancée de
2

façon répétitive, la probabilité d’avoir la première ‘pile’ au troisième lancer est donnée par :

p X   0,5 * 0,52  0,125 .

1.2 Variables stochastiques continues

Dans cette section, nous pouvons prendre notre variable X la taille des étudiants dans une
université. Dans la mesure où cette taille peut en principe prendre n’importe quelle valeur
comprise dans l’intervalle donné de cette taille, X est appelée variable continue par
opposition aux variables discrètes de la section précédente.

En supposant que nous menons une investigation exhaustive de mesurer la taille de


plusieurs dizaines de milliers d’étudiants d’une Université, à la pouce près.2 Nous pouvons
prendre la proportion ou la fréquence relative des étudiants par classes de taille. Ainsi par
exemple, nous pouvons considérer la proportion des étudiants ayant la taille de 63 pouces,
c’est-à-dire la fréquence relative des étudiants ayant une taille comprise entre 62,5 et 63,5
( 62,5  X  63,5) qui est estimée à 0,094 soit 9,4 pour cent.

Dans la mesure où nous traitons un effectif de grande taille, nous pouvons prendre cette
proportion pour une probabilité. C’est-à-dire qu’en sélectionnant au hasard ou de façon
aléatoire un étudiant dans cette population d’étudiants et qu’on mesure sa taille, la
probabilité que cet étudiant ait la taille de 63 pouces est de 0,094. Dans ce contexte, la
variable X devient stochastique, et il est possible dans ce cas de constituer la distribution de
sa probabilité à partir des différentes fréquences relatives calculées à partir de cette
enquête. L’histogramme de la distribution de cette probabilité est visualisé à la Figure 1.1.

Figure 1.1. Histogramme de tailles mesurées à un pouce près

2 1pouce = 2,540004 cm dans le système métrique américain

8
Dans cette étude sur la taille des étudiants, supposons qu’au lieu de la mesurer à la pouce
près, nous la mesurons à un demi inche près, c’est-à-dire que nous pouvons classifier les
étudiants ayant la taille de 61,5 ; 62 ou 62,5 pouces, etc. Nous pouvons de nouveau calculer
les frequences relatives des différentes classes de taille et interpréter ces fréquences
relatives comme des probabilités. Dès lors, la fréquence relative est donc la probabilité
d’avoir X  63 c’est-à-dire toutes les tailles cette fois-ci comprises entre 62,75 et 63,25.

La Figure 1.2 reproduit l’histogramme de probabilités obtenu en arrangeant les différentes


valeurs de X . Nous utilisons la même échelle de valeurs sur l’axe horizontal que dans la
Figure 1.1, seulement les blocs prennent la moitié de la superficie qu’ils ont dans la Figure
1.1. Ainsi par exemple, la probabilité d’avoir 62,75  X  63,25 est de 0,046.

Figure 1.2. Histogramme des tailles mesurées à un demi pouce près

Clairement, il est encore possible d’augmenter davantage l’apparition des blocs de mesures
en augmentant la précision de la mesure. En mesurant la taille à un dixième près d’un
pouce, nous aurons beaucoup plus de blocs de mesures avec cependant une petite
superficie et par conséquent une probabilité réduite au dixième de ce qu’elle est à la Figure
1.1. Plus on augmente la précision des mesures, les blocs de l’histogramme de probabilité
sont de plus en plus étroits mais avec un contour de moins en moins irrégulier, bien que
l’allure générale de la courbe reste la même. En effet au fur et à mesure que la précision
augmente, la courbe devient de plus en plus lisse. Ainsi la forme de la courbe de la Figure
1.3 est le résultat d’un nombre de blocs tendant vers l’infini, chacun avec une surface de plus
en plus infinitésimale.

La surface des blocs est utilisée pour représenter la probabilité ; ainsi pour trouver les
probabilités en dessous de la courbe de la Figure 1.3., nous devons calculer la surface en
dessous de la courbe. Ainsi par exemple, pour trouver la probabilité que la taille d’un
étudiant choisi au hasard soit comprise entre 61 et 64 pouces, il suffit de déterminer la
surface en dessous de la courbe et comprises entre les deux valeurs. Si l’équation de la
courbe peut être trouvée, pour dégager cette probabilité il suffirait d’intégrer cette fonction
entre les limites 61 et 64. Heureusement les statisticiens ont découvert la fonction
représentant cette courbe depuis plusieurs années, il s’agit de:

p X   2 2 
0, 5

exp  x    / 2 2
2
 (1.11)

9
où   E  X  est la moyenne de la distribution de probabilités et  2 est sa variance.

La distribution de probabilités décrite par la relation (1.11) est connue sous le nom de
distribution normale. Plusieurs variables dans la nature, par exemple, le poids, la taille, le
tour de taille des peuplements forestiers se révèlent être normalement distribuées. Cette
distribution normale est importante pour les tests d’hypothèse comme nous le verrons au
chapitre suivant consacré à l’inférence statistique.

Dès lors que p X  nous renseigne sur la densité de probabilité pour différentes tranches de
valeurs de X , les fonctions telles que (1.11) qui nous renseignent sur la distribution de
probabilité des variables continues sont appelées des fonctions de densité de probabilité.

Figure 1.3. La distribution normale

Bien entendu toutes les variables continues n’ont pas une distribution normale. Cependant,
en général, quand une variable continue X a une fonction de densité de probabilité f  X  , il
est prouvé que sa moyenne est donnée par :


E  X    Xf  X dX (1.12)


et sa variance par :

 X  E  X  f  X dX

Var  X   
2
(1.13)


Les expressions (1.12) et (1.13) peuvent être comparées aux expressions (1.1) et (1.5)
valables pour les variables discrètes. Comme les relations (1.12) et (1.13) ne sont pas très
faciles à utiliser, nous ne les utilisons pas souvent dans ce texte. Mais quand elles sont
appliquées à une fonction de densité de probabilité normale (1.11), il est prouvé qu’on
obtient :

E  X    pour la moyenne et var  X    2 pour la variance de la distribution.

10
Une variable ayant une fonction de densité de probabilité (1.11) est normalement distribuée
avec une moyenne  et une variance  2 . En statistique, une manière abrégée d’écrire une
telle variable est la suivante :

X est N  , 2 
Ainsi par exemple si une variable X est N 4,25 , elle est normalement distribuée avec une
moyenne de 4 et une variance de 25.

Comme nous l’avons mis en relief dans les paragraphes ci-haut, la surface en dessous de la
courbe de la Figure 1.3 représentent les probabilités qui peuvent être calculées en intégrant
la relation (1.11) entre des limites finis. Cependant, le processus d’intégration est compliqué
et son usage continu est fastidieux. C’est pour cette raison que des tables ont été préparées
et reflètent les surfaces en dessous d’une courbe de distribution normale particulière, la
distribution normale standard.

Une distribution normale standard est une distribution normale dont la moyenne est nulle et
dont la variance est unitaire. Ainsi donc, une variable a une distribution normale standard si
elle est N 0,1 . En partant de la relation (1.11), la fonction de densité de probabilité d’une
distribution normale standard devient :

p X   2 
0,5

exp  X 2 / 2  (1.14)

La courbe de distribution normale standard est illustrée à la Figure 1.4. Cette courbe est
centrée sur X  0 et, comme toutes les courbes normales, elle a une forme bien lisse en
forme de cloche.

p(X)

0
Figure 1.4. La distribution normale standard

Une table sur les superficies en dessous de la courbe normale standard et une brève
description de son utilisation sont présentées en annexe de ce chapitre. Bien qu’il soit
supposé que les lecteurs de ce document savent bien comment utiliser cette table, il ne
serait pas superflu de donner un exemple illustratif pour montrer comment les surfaces en
dessous de n’importe quelle courbe normale peuvent être calculées quelles que soient sa
moyenne et sa variance.

Nous démontrons, dans un premier temps que n’importe quelle variable normalement
distribuée peut être facilement transformée et ramenée en une variable normale
standard N 0,1 . En prenant pour exemple la population d’étudiants, supposons que les
tailles de tels étudiants soient normalement distribuées avec une moyenne de 64,3 pouces
et une variance de 9,8, c’est-à-dire une déviation standard de 3,13 pouces. Cela veut dire
que :

X est N 64,3;9,8
En soustrayant de toutes les valeurs de X la moyenne de 64,3, nous obtenons une nouvelle
variable Y telle que :

11
Y  X  64,3 soit N 0;9,8 (1.15)

Pour obtenir la relation (1.14), nous utilisons la première partie du théorème 2.1 et le fait que
la soustraction d’une constante à partir d’une variable ne change pas la forme de la courbe
représentative de sa fonction de densité de probabilité.

Si nous divisons Y par sa déviation standard, 3,13, nous obtenons une nouvelle variable Z
telle que :
X  64,3
Z est N 0,1 (1.16)
3,13

Ainsi Z est une variable normale standard. Pour obtenir (1.15), nous avons utilisé la seconde
partie du théorème 1.1 sur les variances et sur le fait qu’en divisant une variable par une
constante laisse inchangée la forme de la fonction de densité de probabilité de cette
variable.
Notons que pour transformer la variable X en une variable normale standard N 0,1 , nous
avons défalqué sa moyenne 64,3 et l’avons divisé par sa déviation standard 3,13.

De façon générale, il est clair que si X est une variable normalement distribuée avec une
moyenne  et une variance  2 , dès lors X peut toujours être convertie en une variable
normale standard Z en soustrayant des valeurs de X la moyenne  et en divisant par la
suite la variable obtenue par la déviation standard  .
X 
Ainsi, Z  est N 0,1 (1.17)

Supposons que nous désirons calculer la probabilité pour qu’un étudiant choisi au hasard ait
une taille qui excède 69 pouces. Cette question se rapporte à X et l’astuce consiste à
convertir cette variable X en une variable Z . Dès lors, il devient possible de répondre à la
question en utilisant des tables se rapportant à la distribution normale standard.

 X  64,3 69  64,3 
Pr X  69  Pr  
 3,13 3,13 
 PrZ  1,50
 0,5  surface A
 0,5  0,4332
 0,0668
Pour ce faire, il suffit d’utiliser la Figure 1.5 et la table de la distribution normale standard.

p(X)

A Pr [Z>1,50]

0 1,50

Figure 1.4. La distribution normale standard

12
La probabilité requise est de 0,0668 ou alors 6,68 pour cent de tous les étudiants ont une
taille qui dépasse 69 pouces.

Exercice 1.7

La dépense alimentaire hebdomadaire £ d’une seule personne adulte de sexe féminin


est N 48,5 . Trouver la proportion de telles personnes (a) avec des dépenses qui excèdent
52, (b) avec une dépense comprise entre 46,5 et 51,5 et (c) avec une dépense égale à 46.

Exercice 1.8

Les points obtenus par des étudiants dans un examen sont normalement distribués avec une
moyenne de 54 et une déviation standard de 12. Il est décidé de donner à 10 pour cent des
étudiants un grade A. Quelle est la note qu’un étudiant doit avoir pour mériter le grade A ?

1.3. Distributions de probabilité jointe, marginale et conditionnelle

Considérons de nouveau l’expérience sur le lancer de la pièce de monnaie en quatre temps


successifs. Le Tableau 1.3 présente les issues possibles de cette expérience qui sont au
nombre de 16, où P désigne ‘pile’ et F ‘face’. Pourvu que la pièce soit bien équilibrée,
chaque résultat a une probabilité de se produire égale à 1/16 dans n’importe quel essai de
cette expérimentation. Définissons dès lors deux variables aléatoires stochastiques comme
suit :

X = nombre de ‘piles’ obtenu au troisième lancer de la pièce de monnaie


Y = nombre de ‘piles’ obtenu après les quatre lancers

Les valeurs prises par X et Y pour chacun des résultats possibles de l’expérimentation sont
présentées au Tableau 1.3 ci-dessous.

Le Tableau 1.4, quant à lui, présente en son corps principal, les probabilités jointes
concernant X et Y. Une distribution de probabilité jointe consiste en une liste des
combinaisons possibles de X et Y, en attribuant une probabilité associée à chaque
combinaison.

Tableau 1.3 L’espace des résultats possibles du jeu


du lancer en 4 temps d’une pièce de monnaie

X Y X Y
PPPP 3 4 FPPP 2 3
PPPF 3 3 FPPF 2 2
PPFP 2 3 FPFP 1 2
PPFF 2 2 FPFF 1 1
PFFP 1 2 FFPP 1 2
PFFF 1 1 FFPF 1 1
PFPF 2 2 FFFP 0 1
PFPP 2 3 FFFF 0 0

13
Tableau 1.4. Distributions de probabilités jointes et marginales
Variable Y
0 1 2 3 4 f(X)
Variable X

0 1/16 1/16 0 0 0 1/8


1 0 3/16 3/16 0 0 3/8
2 0 0 3/16 3/16 0 3/8
3 0 0 0 1/16 1/16 1/8
g(Y) 1/16 1/4 3/8 1/4 1/16

Par exemple, la valeur de 3/16 à l’intersection de la ligne X=2 et colonne Y=3 représente la
probabilité jointe d’avoir X=2 et Y=3 dans le même essai (lancer en 4 temps d’une pièce de
monnaie). En nous référant à l’espace des issues possibles du Tableau 1.3, nous réalisons
que sur les 16 résultats possibles, la combinaison X=2 et Y=3 apparaît 3 fois, dès lors sa
probabilité jointe est de 3/16. De façon similaire, la combinaison X=0 et Y=1 apparaît juste 1
fois dans l’espace des issues possibles et sa probabilité jointe est de 1/16. La plupart des
probabilités jointes sont nulles, traduisant par là des combinaisons de X et Y impossibles.
Ainsi par exemple, s’il n’y a pas une seule fois ‘pile’ au troisième lancer, il est impossible d’en
avoir 2,3 ou 4 après les quatre lancers. Bien plus, en aucun cas X ne peut être supérieur à
Y.

Nous notons, de façon générale, la distribution de probabilité jointe par p X , Y  . Ainsi par
exemple, p3,4 signifie Pr X  3, Y  4  1/ 16 et p2,2  Pr X  2, Y  2  3 / 16 ,etc. Notons
en plus que la somme de toutes les probabilités jointes vaut une unité parce qu’elle couvre
toutes les combinaisons possibles de X et Y.

Focalisons cette fois-ci notre regard sur la variable X en ignorant momentanément la valeur
prise par Y, c’est-à-dire que nous nous limitons au troisième lancer de la pièce de monnaie.
La probabilité que X prenne une certaine valeur, indépendamment de la valeur prise par Y
est appelée probabilité marginale et la distribution de telles probabilités est appelée
distribution de probabilités marginales. Ces probabilités sont affichées dans la dernière
colonne à droite du Tableau 1.4, avec les valeurs correspondantes de X affichées dans la
dernière colonne à gauche. Par exemple, la valeur de 3/8 est la simple probabilité marginale
d’obtenir X=1. Cette valeur peut être obtenue en nous référant au Tableau 1.3 des issues
possibles. En ignorant les valeurs de Y, nous réalisons que dans 6 cas sur les 16 possibilités
de chaque essai de l’expérimentation, nous avons juste 1 ‘face’ au troisième lancer de la
pièce de monnaie. Dès lors, sa probabilité marginale est de 3/8. De la même manière, la
probabilité marginale correspondant à X=3 est 1/8 parce que 2 cas des 16 possibles
impliquent 3 ‘faces’ obtenues au cours des trois premiers lancers. La probabilité marginale
de X est notée f(X).

De la même manière, nous obtenons la probabilité marginale de Y notée g(Y) est la valeur
prise par Y indépendamment de X. Nous nous focalisons sur le nombre de ‘faces’ obtenues
après les 4 lancers. Par exemple, en ignorant momentanément la valeur de X, le Tableau 1.3
fait ressortir dans 4 sur les 16 où Y=1. Dès lors, il y a 4 cas favorables à Y=1 sur les 16 cas
possibles, soit PrY  1  1 / 4 . Il est possible d’appliquer le même raisonnement aux autres
valeurs de Y.

Il convient de noter qu’au regard du Tableau 1.4, les probabilités marginales et jointes sont
intimement liées. Chaque probabilité marginale est la somme des probabilités jointes qui se
trouvent sur le même rang (ligne ou colonne) qu’elle. Par exemple pour trouver la probabilité
marginale correspondant à X=2, nous avons besoin de lister tous les cas de probabilités
jointes favorables à cette issue ; il s’agit de X=2, Y=2 et X=2,Y=3 qui sont mutuellement
exclusifs par ailleurs. Dès lors leurs probabilités sont additionnées pour trouver la probabilité
marginale de X=2. C’est ce que nous trouvons par ailleurs en additionnant toutes les
14
probabilités jointes se trouvant sur la même ligne que X =2. Le même raisonnement
s’applique aux différentes valeurs de Y.

Enfin, il est possible de trouver la moyenne et la variance d’une distribution marginale à la


manière de la section 1.1. Ainsi par exemple, en prenant la distribution de probabilité
marginale de X et de Y dans le Tableau 1.4., leurs moyennes et leurs variances sont
données par :

8 8 8 8
    
E  X    Xf  X       1,5 Var  X   E X 2  E X 2       0,75
3 6 3 12 3 12 9 9 3
8 8 8 4 4
1 3 3 1 8
4 4 4 4 4
    
E Y   Yg Y        2 Var Y   E Y 2  E Y 2     1  22  1
1 6 9
4 4 4

Exercice 1.9

Un dé à 4 faces numérotées 1, 2, 3 et 4 est lancé deux fois de suite. (a) Dégager l’espace
des issues possibles de cette expérimentation. (b) Si X est le plus élevé des deux nombres
correspondants à la face supérieure dans les deux lancers et Y le plus petit nombre, dégager
une distribution de probabilité jointe pour X et Y et les distributions de probabilité marginale
de X et Y. (c) Trouver la moyenne et la variance de la distribution marginale de X et de
Y.[Note : quand le dé présente chaque fois la même face, X=Y ; exemple : si nous avons 3
deux fois alors X=3 et Y=3].

Distributions de probabilité conditionnelle

Concentrons-nous pour le moment sur les essais de l’expérimentation précédente où on


obtient X=2, c’est-à-dire obtenir ‘deux faces’ au cours des 3 premiers lancers de la pièce de
monnaie. Supposons que nous désirons savoir la proportion de tels essais qui se terminent
par Y=3, c’est-à-dire, 3 ‘piles’ après les 4 lancers. Ce que nous recherchons est connue de
probabilité conditionnelle d’obtenir Y=3 étant donné que X=2. Nous pouvons trouver cette
probabilité en faisant simplement recours usage de la définition d’une probabilité
conditionnelle :

Pr X  2, Y  3 p2,3 3 / 16
PrY  3 / X  2     0,5
Pr X  2 f 2 3/8

Pour obtenir cette probabilité conditionnelle, nous prenons la probabilité jointe présentée au
Tableau 1.4 et nous la divisons par la probabilité marginale de X. La valeur de 0,5 que nous
obtenons signifie tout simplement que, à l’issue de plusieurs essais de cette expérimentation
qui se terminent par 2 ‘piles’ obtenus après trois lancers, la moitié d’entre eux se terminent
par 3 trois ‘piles’ après les 4 lancers de la pièce de monnaie.

De la même façon, il est possible de trouver la probabilité conditionnelle d’obtenir Y: 0, 1, 2,


3 ou 4 étant donné que X=2. Le Tableau 1.5 synthétise la distribution de probabilités
conditionnelles y afférentes. Les valeurs nulles de ces probabilités reflètent des situations
impossibles au niveau des probabilités jointes.

Tableau 1.5. Distribution de probabilités


conditionnelles pour Y étant donné que X=2

Y 0 1 2 3 4
g(Y/2) 0 0 0,5 0,5 0

15
Une fois qu’un tableau de probabilités jointes et marginales a été dressé, on peut facile en
déduire celui des probabilités conditionnelles. Par exemple, dans le Tableau 1.5 nous avons
obtenu les probabilités conditionnelles en divisant les probabilités jointes par les probabilités
marginales f 2 parce que la distribution est conditionnelle à X=2. Les probabilités jointes
requises sont celles qui se trouvent sur la même et à gauche de f 2 . Diviser ces
probabilités jointes par f 2 donne lieu aux probabilités conditionnelles de Y à X=2.
Il est bien évidemment possible de dégager la distribution conditionnelle de X étant donné
les valeurs de Y. Considérons par exemple la distribution conditionnelle de X étant donné
Y= 3. Cette distribution est présentée au Tableau 1.6. Pour obtenir ces probabilités
conditionnelles, nous nous intéressons aux essais de cette expérience qui impliquent Y=3.
La probabilité marginale de Y=3 est g 3 . Les probabilités jointes sont celles présentées
dans la colonne au-dessus de g 3 dans le Tableau 1.4. Diviser ces probabilités jointes par
la probabilité marginale g 3 donne lieu aux probabilités conditionnelles de X à Y=3.

Tableau 1.6. Distribution de probabilités


conditionnelles pour X étant donné que Y=3

X 0 1 2 3
f(X/3) 0 0 0,75 0,25

Moyennes et variances des distributions de probabilités conditionnelles

De la même manière que nous avons trouvé la moyenne et la variance des variables
aléatoires X et Y à partir de leurs distributions de probabilités marginales consignées dans le
Tableau 1.4. Ainsi donc, la moyenne et la variance des variables aléatoires X et Y sont
données par:

   
E  X    Xf  X  ; Var  X   E X 2   E X 2  ; E Y    Yg Y  et Var Y   E Y 2   E Y 2 

Ces quantités ainsi trouvées sont variances et ces moyennes non conditionnelles. Il est
aussi possible de dégager ces moyennes et variances pour des distributions conditionnelles.
En nous référant au Tableau 1.5 où nous avons la distribution conditionnelle de Y étant
donné X=2 qui est g(Y/2). La moyenne et la variance de cette distribution se présentent
comme suit:

E Y / 2   Yg Y / 2  2 * 0,5  3 * 0,5  2,5


Y

 
E Y / X  2   Y 2 g Y / 2  22 * 0,5  32 * 0,5  6,5
2

 2

Var Y / 2  E Y / X  2  EY / 2  6,5  2,5  0,25
2 2

De la même façon nous dégageons la moyenne et la variance de la distribution


conditionnelle de X étant donné Y=3 qui est f(X/3) :

E  X / 3   Xf  X / 3  2 * 0,75  3 * 0,25  2,25


X

 
E X / Y  3   X 2 f  X / 3  22 * 0,75  32 * 0,25  5,25
2

 
Var  X / 3  E X 2 / Y  3  E X / 3  5,25  2,25  0,1875
2 2

16
Exercice 1.10.

En vous basant sur les variables aléatoires de l’exercice 1.9, trouvez (a) la distribution de
probabilité conditionnelle pour Y étant donné que X  4 et (b) la distribution conditionnelle
de X étant donné que Y  2 et (c) la moyenne et la variance conditionnelle de la première
distribution et interprétez les valeurs obtenues.

1.4. Espérance mathématique de fonctions à plus d’une variable

Considérons de nouveau les variables X et Y de la section 1.3 sur le lancer en l’air de la


pièce de monnaie; mais soyons intéressés cette fois-ci par la variable ‘produit XY ’. Que
vaut E  XY  , la valeur moyenne obtenue après plusieurs essais ?
Comme nous avons trouvé E  X  et E Y  en prenant respectivement  Xf  X  et  Yg Y  ,
nous pouvons obtenir E  XY  en prenant la double sommation suivante :

E  XY    XYp  X , Y  (1.20)
X Y

où p X , Y  est la distribution de probabilité jointe de X et Y .

La double sommation en (1.20) signifie que pour chaque combinaison de X et Y , nous


multiplions le produit XY par la probabilité jointe des deux variables et nous en faisons la
sommation. La probabilité jointe est donnée au Tableau 1.4 et le produit XY est présenté
au Tableau 1.7 (a) pour toutes les combinaisons possibles. Dès lors, pour former E  XY  ,
nous faisons la somme des produits des nombres du Tableau 1.4 par les nombres
correspondants du Tableau 1.7 (a).

Tableau 1.7 (a). Valeurs de XY Tableau 1.7 (b). Valeurs de X3Y2

Variable Y Variable Y
0 1 2 3 4 0 1 2 3 4
Variable X

0 0 0 0 0 0
Variable X

0 0 0 0 0 0
1 0 1 2 3 4 1 0 1 4 9 16
2 0 2 4 6 8 2 0 8 32 72 128
3 0 3 6 9 12 3 0 27 108 243 432

E  XY  
3 6 12 18 9 12
      3,75
16 16 16 16 16 16

Ceci veut dire qu’après plusieurs essais, la valeur moyenne obtenue par XY est dès lors
égale à 3,75. Notons cependant que bien que la valeur moyenne de X après plusieurs
essais est E  X   1,5 et que la valeur moyenne de Y soit E Y   3 , la valeur moyenne
E  XY  diffère du produit des deux moyennes. En général, nous avons l’inégalité suivante :

E XY   E X EY  (1.21)

17
De même si nous voulons déterminer l’espérance mathématique de X 3Y 2 , il suffit de faire la
somme des produits des valeurs de X 3Y 2 présentées au Tableau 1.7 (b) par les valeurs
correspondantes de la distribution de probabilité jointe présentées au Tableau 1.4.

 
E X 3Y 2   X 3Y 2 p X , Y  (1.22)
X Y

Pour chaque élément X 3Y 2 du Tableau 1.7 (b), nous le multiplions par la probabilité jointe
correspondante du Tableau 1.4 et faisons la somme des produits.

 
E X 3Y 2 
3 12 96 216 243 432
  
16 16 16 16

16

16
 62,625

    
De nouveau, il est facile de vérifier que E X 3Y 2  E X 3 E X 2

De façon générale, nous pouvons trouver la valeur espérée de n’importe quelle fonction
h X , Y  de X et Y en procédant comme suit :

Eh X , Y    h X , Y p X , Y  (1.23)


X Y
A ce niveau, une autre propriété de l’opérateur d’espérance mathématique mérite d’être
soulignée.

Théorème 1.2

Si X et Y sont deux variables aléatoires et si a et b sont des constantes, alors :


EaX  bY   aE X   bEY 

Preuve :

E aX  bY    aX  bY  p X , Y 
X Y

  aXp  X , Y    bYp  X , Y 
X Y X Y

 a  X  p  X , Y   b Y  p  X , Y 
X Y Y X

 a  Xf  X   b Yg Y 
X Y

 aE  X   bE Y 
Il convient de noter qu’à la quatrième ligne de cette démonstration, nous avons utilisé la
relation entre probabilité jointe et probabilité marginale.

En particulier, si a et b sont chacun égal à 1, nous avons E X  Y   E X   EY  et il est


facile de vérifier cette dernière égalité en utilisant la distribution de probabilité dégagée dans
le cas du lancer de la pièce de monnaie.

Le théorème 1.2 peut être étendu à plus de deux variables aléatoires. Par exemple, en
considérant 4 variables X, Y, Z et W, nous avons :

EaX  bY  cZ  dW   aE X   bEY   cE Z   dEW 

18
Covariances et corrélations

La covariance entre deux quelconques variables aléatoires X et Y est définie par :

Cov X , Y   EX  E X Y  EY  (1.24)

C’est une mesure de la force et de la direction de n’importe quelle relation linéaire entre X et
Y . Dans l’exemple du lancer de la pièce de monnaie, E  X   1,5 et E Y   2 , il va sans dire
que : Cov X , Y   EX  1,5Y  2 est la valeur moyenne de X  1,5Y  2 après plusieurs
essais. En supposant qu’il y a une relation linéaire inverse entre X et Y (c’est-à-dire
X augmente pendant que Y diminue). Ceci implique que, après plusieurs essais, les valeurs
positives de X  1,5 tendent à coïncider avec des valeurs négatives de Y  2 et vice versa.
Dès lors, le produit X  1,5Y  2 tend à être négatif et sa valeur moyenne après plusieurs
essais, EX  1,5Y  2 sera clairement négative. Bien plus, plus la relation linéaire
entre X et Y est forte, plus forte sera la covariance entre les deux variables.

Si par contre, il y a une relation directe entre X et Y (c’est-à-dire X augmente en même


temps que Y ), le produit EX  E X Y  EY  tendra à être positif. Dès lors, la valeur
espérée de ce produit, c’est-à-dire la covariance entre X et Y sera également positive. Bien
plus, plus forte est la relation linéaire entre X et Y plus forte sera la covariance entre les
deux variables.

Une voie d’évaluer la covariance de la relation (1.24) est celle d’utiliser la double sommation

 X  E X Y  EY p X , Y  . Cependant, il y a une voie plus simple que celle-là :
X Y

Cov X , Y   EX  E  X Y  E Y 


 EXY  XE Y   YE  X   E  X E Y  (1.25)
 E  XY   E  X E Y   E Y E  X   E  X E Y 

Dans la relation (1.25), étant donné que E  X  et E Y  sont des constantes, nous utilisons le
théorème 1.1 pour les mettre en évidence de l’opérateur d’espérance mathématique. Il s’en
suit que :

Cov X , Y   E XY   E X EY  (1.26)

La relation (1.26) est normalement simple à évaluer que la double sommation équivalente.
Par exemple dans le jeu du lancer de la pièce de monnaie, nous savons que E  XY   3,75 et
que E  X   1,5 et E Y   2 ce qui donne lieu à Cov X , Y   3,75  1,5 * 2  0,75

La valeur positive de la covariance entre X et Y implique une relation linéaire directe positive
entre les deux variables. Ce résultat est attendu dans la mesure où un nombre élevé de
‘piles’ après les trois premiers lancers de la pièce de la monnaie implique nécessairement un
nombre élevé après les 4 lancers.

Le seul problème qui se pose avec la covariance comme mesure de la force de la relation
linéaire entre X et Y est qu’elle ne fournit pas un standard absolu contre lequel il est
possible de juger la force de ce lien. Une covariance plus élevée implique une relation

19
linéaire très forte, mais la valeur ci-haut calculée de 0,75 signifie-t-elle une relation forte ou
faible ? Pour résoudre ce problème, les statisticiens préfèrent utiliser le concept de
corrélation entre X et Y . La corrélation entre X et Y dénotée  est définie comme suit:

Cov X , Y  EX  E  X Y  E Y 


  (1.27)
Var  X  Var Y  EX  E  X 
2
EY  E Y 
2

Le coefficient de corrélation  a l’avantage d’appartenir dans l’intervalle  1,1 , en


particulier   0 quand la covariance est nulle c’est –à-dire en d’autres termes quand il n’y a
pas relation linéaire entre les variables X et Y . Quand il y a un lien linéaire positif ou direct
entre X et Y , le coefficient de corrélation prend la valeur de 1 mais quand la relation linéaire
est négative ou indirecte, le coefficient de corrélation devient -1.

Pour se rendre à l’évidence de cette assertion, supposons qu’il y a une relation linéaire
exacte entre X et Y exprimée comme suit :

Y    X , d’après le théorème 1.1 EY     E X  ; en faisant une substitution de Y et


E Y  dans le numérateur de la corrélation (relation (1.27)), nous avons :

EX  E X   X    E X   EX  E X 


2

En faisant de même au dénominateur, nous avons :

EX  E  X 
2 2

E  X    E  X    2 EX  E  X    EX  EX 
2 2 2

Il convient de souligner que dans cette dernière expression, nous prenons toujours la racine
carrée positive.
Le ratio numérateur sur dénominateur qui est  devient +1 si   0 et -1 si   0 .

Il est aussi possible de calculer la corrélation entre les variables X et Y de l’expérience du


lancer de la pièce de monnaie. Nous connaissons déjà la valeur de la covariance entre les
deux variables qui est de 0,75. Les deux variances qui apparaissent au dénominateur se
calculent comme suit :

 
EX  E X   E X 2  E X   3  1,5  0,75
2 2 2
(1.28)

 
EY  EY   E Y 2  EY   5  2  1
2 2 2
(1.29)
Nous rappelons que pour obtenir les expressions E X   et EY  dans les relations (1.28) et
2 2

(1.29), nous utilisons respectivement  X f  X  et Y g Y  .


2 2

Cov X , Y  0,75
 
Var  X  Var Y  0,75 1
 0,87

Comme 0,87 est plus proche de l’unité que de zéro, nous pouvons dire qu’il y a une forte
relation positive linéaire entre X et Y et ce résultat était prévisible étant donné la définition
des deux variables.

20
Exercice 1.11

Pour les variables de l’exercice 1.9 sur le lancer du dé à quatre faces, (a) trouver la
covariance entre X et Y et (b) trouver la variance de X , la variance de Y et (c) dégager des
réponses fournies en (a) et (b) la corrélation entre X et Y .

Exercice 1.12

Une boîte contient 9 balles, dont deux sont blanches et sept rouges. Trois balles sont
retirées de la boîte de façon successive et aucune balle n’est remplacée avant que la
suivante ne soit retirée. Soit X le nombre de balles blanches retirées de la boîte et Y celui
des balles rouges retirées de la boîte. Dégager la distribution de probabilités jointes
pour X et Y . Dès lors, montrer que la corrélation entre X et Y est – 1 et expliquer pourquoi ce
résultat n’est point surprenant.

Théorème 1.3

Si deux variables stochastiques X et Y sont non corrélées, dès lors E XY   E X EY  .

Preuve

Rappelons la covariance entre X et Y est donnée par Cov X , Y   E XY   E X EY  . Si les


variables X et Y sont non corrélées, dès lorsCov X , Y   0 et par
conséquent Cov X , Y   E XY   E X EY   0 et donc E  XY   E X E Y  .

Comme nous l’avons souligné au début de cette section, ce n’est pas tout le temps
que E  XY   E X E Y  . Le théorème 1.3 stipule simplement que cette égalité tient
seulement débout quand les deux variables sont non corrélées. Ce théorème peut bien
évidemment être étendu à plus de deux variables aléatoires. Ainsi par
exemple E XYZ   E X EY EZ  à condition que les trois variables aléatoires soient non
corrélées.

Théorème 1.4

Si X et Y sont deux variables aléatoires et si a et b sont des constantes, alors :

Var aX  bY   a2Var  X   b2Var Y   2abCov X , Y 

Preuve :

Var aX  bY   EaX  bY  E aX  bY 


2

 EaX  aE  X   bY  bE Y 
2

 
 E a 2 X  E  X   b 2 Y  E Y   2abX  E  X Y  E Y 
2 2

 a 2 EX  E  X   b 2 EY  E Y   2abEX  E  X Y  E Y 


2 2

 a 2Var  X   b 2Var Y   2abCov X , Y 

Il convient de noter que si X et Y sont non corrélées dans lequel cas Cov X , Y   0 , dès lors
le théorème 1.4 se réduit à :

21
Var aX  bY   a 2Var  X   b2Var Y  (1.30)
Il existe d’autres cas spéciaux utiles à dégager à partir du théorème 1.4. Par exemple, si :

(i) a  1 et b  1 , nous avons :

Var  X  Y   Var  X   Var Y   2Cov X , Y  (1.31)

(ii) a  1 et b  1 , nous avons :

Var  X  Y   Var  X   Var Y   2Cov X , Y  (1.32)


(iii) Si les variables X et Y sont non corrélées, dès le terme de la covariance dans les
relations (1.31) et (1.32) tombe et nous obtenons :

Var  X  Y   Var  X  Y   Var  X   Var Y  (1.33)

Exercice 1.13

X Y et Z sont des variables aléatoires avec :

E  X   3 E Y   4 E Z   11
Var  X   12 Var Y   8 Var Z   34

Y et Z sont non corrélées mais Cov X , Y   8 . Si U  4Y  Z ; V  X  Y et


W  4 X  3Y sont trois autres variables aléatoires, trouver la moyenne et la variance de
U , V et W .

Exercice 1.14

Deux variables aléatoires X et Y ont les moyennes, les variances et la covariance


suivantes :

E  X   5 , Var  X   10 E Y   2 , Var Y   20 et Cov X , Y   5

Si A  2 X  Y et B  X  2Y , trouvez les moyennes et les variances de A et de B . Montrez


   
que E AB   2E X 2  2E Y 2  3E XY  . Trouvez la covariance entre A et B .

Covariances et corrélations d’un échantillon

Nous avons déjà évoqué les concepts de covariance et de corrélation dans cette section.
Cependant, les expressions qui traduisent ces concepts telles que les relations (1.25) –
(1.27) ne sont pas très familières parce que la plupart du temps du temps la covariance et la
corrélation s’appliquent à des échantillons plutôt qu’à la population.

Considérons de nouveau le jeu de la pièce de monnaie de la section 1.3 qui est lancée deux
fois de suite avec les variables aléatoires X et Y qui gardent la même définition. Supposons
que, n  10 essais de cette expérimentation. Pour Chaque essai, nous aurons une valeur de
X et une valeur de Y . Avec les 10 essais, nous aurons 10 paires de valeurs de X et Y , qui
peuvent être considérées comme un échantillon de taille n  10 , tiré de façon aléatoire d’une
population constituées de pairs de valeurs de X et Y , laquelle population est caractérisée

22
par la distribution de probabilité jointe du Tableau 1.4. Un tel exemple d’échantillon est
donné dans les deux premières colonnes du Tableau 1.8

Tableau 1.8. Les valeurs de X et Y dans un échantillon

X Y X X X  X  2
Y Y Y  Y  X  X Y  Y 
2

2 3 0,3 0,09 0,8 0,64 0,24


1 2 -0,7 0,49 -0,2 0,04 0,14
2 2 0,3 0,09 -0,2 0,04 -0,06
0 0 -1,7 2,89 -2,2 4,84 3,74
2 2 0,3 0,09 -0,2 0,04 -0,06
3 4 1,3 1,69 1,8 3,24 2,34
1 1 -0,7 0,49 -1,2 1,44 0,84
1 2 -0,7 0,49 -0,2 0,04 0,14
2 3 0,3 0,09 0,8 0,64 0,24
3 3 1,3 1,69 0,8 0,64 1,04
17 22 8,10 11,60 8,84

Pour tous les paramètres (moyenne, variance, covariance et corrélation) passés en revue
jusqu’à présent se rapportent à la population à partir de la distribution de probabilités jointes
et marginales du Tableau 1.4). Chacun a son équivalent appliqué à un échantillon.

Les moyennes E  X  et E Y  de la distribution de la distribution de probabilités marginales


du Tableau 1.4 correspondent aux moyennes de ces variables notées X et
Y respectivement dans l’échantillon. Ces moyennes sont calculées comme suit :

X
X et Y 
Y (1.34)
n n

En nous référant à l’échantillon présenté dans le Tableau 1.8, ces deux moyennes sont
égales à 1,7 et 2,2 respectivement.

Les variances de la population EX  E  X  et EY  E Y  correspondent aux variances de


2 2

ces variables notées respectivement S 2 X et S 2Y . Comme dans le cas d’une population, les
variances de l’échantillon mesurent la dispersion de chaque variable par rapport à sa
moyenne arithmétique dans son échantillon. Ainsi donc, les variances dans l’échantillon se
calculent comme suit :

 X  X  
Y  Y 
2 2

S 2
X  et S 2
Y (1.35)
n n

La variance, que ce soit dans la population ou dans l’échantillon, se traduit toujours en


termes de valeur moyenne des carrés des écarts à la moyenne. La seule différence est que
dans la population, cette moyenne se calcule sur base d’un nombre infini d’essais de
l’expérimentation pendant que dans un échantillon, elle se calcule sur base d’un nombre
n fini d’essais tirés aléatoirement de la population. En utilisant les données de l’échantillon
présentées au Tableau 1.8, les variances sont S 2 X  0,81 et S 2Y  1,16 .

La covariance de la population EX  E X Y  EY  définie par la relation (1.26)


correspond à la moyenne du produit des écarts à la moyenne de X et Y dans l’échantillon

23
(colonne 7 du Tableau 1.8). Cette covariance de l’échantillon notée S XY se calcule comme
suit :

S XY 
 X  X Y  Y  (1.36)
n

où la sommation se fait sur toutes les paires de valeurs de X et Y

Comme dans le cas d’une population, la covariance de l’échantillon est une mesure de la
force de n’importe quelle relation linéaire existante entre les variables X et Y sauf qu’ici la
covariance se calcule sur base des valeurs des variables dans l’échantillon. En utilisant la
relation (1.36), la covariance de l’échantillon S XY  0,884 est positive reflétant dès une
relation plutôt directe qu’inverse entre X et Y .

Finalement, il est possible de faire correspondre à la corrélation de la population définie par


la relation (1.27) une corrélation de l’échantillon. Pour calculer cette corrélation de
l’échantillon, il suffit de remplacer, dans la relation (1.27) les variances et la covariance de la
population par les paramètres correspondants de l’échantillon.

R
S XY

 X  X  Y  Y  (1.37)
S X SY
 X  X   Y  Y 
2 2

où R est la corrélation de l’échantillon.

En utilisant les données du Tableau 1.8, la corrélation de l’échantillon prend la valeur de :

0,884
R  0,91
0,81 1,16

Tout comme dans la population, la corrélation au niveau de l’échantillon se situe entre – 1 et


+ 1, les valeurs positives indiquant une relation linéaire positive et les valeurs négatives une
relation linéaire inverse. La valeur de 0,91 est un signe d’une forte relation linéaire entre les
variables X et Y .

Il convient de noter que les valeurs des moyennes, des variances, de la covariance et de la
corrélation dégagées au niveau de l’échantillon diffèrent des valeurs trouvées au niveau de
la population. Le fait qu’il y a de telles différences entre la population et échantillon ne
constitue point une surprise. En effet, il suffit de se rappeler que l’échantillon n’est qu’un
sous ensemble de la population qui contient ici juste 10 essais. Si nous réalisons encore 10
essais, l’échantillon constitué pourra fort probablement présenter des valeurs différentes des
moyennes, variances, covariance et corrélation. Ces valeurs différeront également des
vraies valeurs des paramètres correspondants de la population. C’est ainsi que les valeurs
des paramètres de l’échantillon sont considérées comme étant des estimateurs des
paramètres correspondants de la population. Nous reviendrons plus en détail sur ce vocable
en italique aux chapitres consacrés à l’économétrie.

1.5. Indépendance versus non-corrélation

Dans les sections qui précèdent, nous avons vu que la corrélation entre deux variables
aléatoires est une mesure de la force d’une relation linéaire entre elles. Un coefficient de
corrélation nul implique une absence d’une telle relation linéaire. Cependant, ce fait n’exclut
pas pour autant l’existence de relations non linéaires plus compliquées entre les deux

24
variables. Ces dernières relations peuvent être fortes et presque exactes ou au contraire
faibles et imprécises. Si toutes les sortes de relations, linéaires et non linéaires, entre les
variables X et Y sont exclues, les variables en question sont dites variables indépendantes.

Deux événements aléatoires A et B sont dits indépendants si Pr A, B   Pr A PrB  . En


d’autres termes, la probabilité jointe des deux événements est égale au produit de leurs
probabilités marginales. Dans l’exemple du lancer de la pièce de monnaie développé dans
la section 1.3, supposons que A soit l’événement X  2 , c’est-à-dire obtenir 2 fois ‘pile’
après les trois premiers lancers et B l’événement Y  3 , c’est obtenir trois fois ‘pile’ après les
quatre lancers.

Pour que les deux événements soient indépendants, il est nécessaire, en utilisant la notation
de la section 1.3, que p2,3  f 2g 3 . En utilisant le Tableau 1.4, il y a lieu de prouver
facilement que ce n’est pas le cas. Un tel résultat suggère que les variables X et Y de cet
exemple ne sont pas indépendantes.

De façon générale, pour que deux variables aléatoires X et Y soient indépendantes, il est
nécessaire que leur probabilités jointes soit égales aux produits des probabilités marginales
correspondantes et ce pour toutes les combinaisons possibles de X et Y . Cette
assertion s’écrit comme suit :

p X , Y   f  X g Y  pour toutes les valeurs de X et Y (1.38)

Le Tableau 1.9 montre un exemple d’une distribution jointe où il est facilement vérifiable que
l’égalité de la relation (1.39) est satisfaite et ce pour toutes les probabilités jointes. Les
variables X et Y du Tableau 1.8 sont indépendantes.

Tableau 1.9. Distribution pour des variables indépendantes


g Y 
Variable X
2 4 6 8 10
Variable

10 0,08 0,08 0,12 0,08 0,04 0,4


20 0,04 0,04 0,06 0,04 0,02 0,2
30 0,08 0,08 0,12 0,08 0,04 0,4
Y

f X  0,2 0,2 0,3 0,2 0,1

L’indépendance exclut toute forme de relation, linéaire ou non linéaire, entre les variables
X et Y pendant que l’absence de corrélation est valable pour une absence de relations
linéaires seulement. L’indépendance est donc une condition plus forte que l’absence de
corrélation. L’indépendance implique nécessairement l’absence de corrélation mais l’inverse
n’est pas vrai.

La conséquence d’une indépendance entre deux variables est que les distributions de
probabilités conditionnelles des variables sont identiques à leurs distributions marginales.
Par exemple, dans le Tableau 1.9, la probabilité marginale pour que X  6 indépendamment
de la valeur de Y est égale est f 6  0,3 .

De façon générale, si X et Y sont indépendantes, nous avons les égalités suivantes :

p X , Y  f  X g Y 
f X / Y     f X  (1.39)
g Y  g Y 

25
p X , Y  f  X g Y 
g Y / X     g Y  (1.40)
f X  f X 

Exercice 1.15

Calculez E  X  , E Y  et E  XY  des distributions jointes suivantes :

Variable X
0 1 2 3
Variable

1 0,125 0 0 0,125
2 0 0,25 0,25 0
3 0 0,125 0,125 0
X

Exercice 1.16

Deux variables X et Y sont indépendantes et ont les distributions marginales suivantes :

X 1 2 3 4 5
f(X) 0,1 0,2 0,3 0,2 0,2

Y 3 6 9
g(Y) 0,3 0,4 0,3

Ecrivez les distributions de probabilité jointe pour X et Y . Vérifiez que


E XY   E X EY  dans ce cas. Vérifiez également que la distribution conditionnelle de X
étant donné Y  6 est identique à la distribution de probabilité marginale de X .
Les concepts d’indépendance et de non-corrélation s’appliquent aussi bien aux variables
discrètes qu’aux variables continues dans les exemples ci-dessus. Cependant, quand les
variables continues en considération sont normalement distribuées, la distinction entre les
deux concepts perd son importance. En effet, il peut être prouvé que si deux variables
aléatoires normalement distribuées sont non-corrélées, elles sont nécessairement
indépendantes.

Nous clôturons ce chapitre par un théorème final, cité sans démonstration, au sujet des
variables normalement distribuées qui se révèlent être indépendantes.

Théorème 1.5.

Si Z1, Z 2 ,......, Z n sont toutes des variables indépendantes et normalement distribuées, dès
lors n’importe quelle combinaison linéaire de ces variables est également normalement
distribuée.

Comme nous le verrons plus tard, ce théorème constitue une propriété très utile. Il implique
par exemple que si W , X et Y sont indépendantes et normalement distribuées, dès lors une
combinaison linéaire telle que Z  3  2W  6 X  4Y est normalement distribuée.

26
Chapitre 2 – Inférence statistique

Ce chapitre a pour objectifs principaux de : (i) fournir les concepts de base sur l’inférence
statistique; (ii) mener une discussion sur les intervalles de confiance de localisation d’un
paramètre d’une population (moyenne ou variance) ; (iii) mener des tests d’hypothèses sur
les moyennes et les variances d’une population et (iv) passer en revue les densités de
probabilités les plus rencontrées dans les problèmes d’inférence statistique.

2.1. Concepts de base sur l’inférence statistique

Chaque fois que nous observons ou investiguons un phénomène ou une variable, il y a deux
types de sources de données que nous pouvons utiliser. Primo, nous pouvons avoir accès à
la population de toutes les observations possibles, passées, présentes et futures sur la
variable d’intérêt. En considérant par exemple une variable «gains obtenus durant la
première semaine du mois de mars 1995 par une personne adulte de sexe masculin dans un
secteur industriel » et en supposant que nous avons accès à toutes les observations
relatives à cette variable à travers un recensement, nous pouvons traiter cette variable sur
base de la population de toutes les observations se rapportant à cette variable. Secundo,
comme il est rare qu’un investigateur ait accès à toute la population des observations de
données, les données d’une enquête complète sur un phénomène peuvent souvent faire
défaut. Dans ces conditions, l’investigateur est amené à constituer un échantillon
d’observations de cette variable.

La plupart du temps, les statisticiens ont seulement à leur disposition des données provenant
des échantillons. Sur base d’un échantillon, ils déduisent ou infèrent les faits relatifs à la
population à partir de laquelle l’échantillon est tiré. Ce processus de déduction de
comportement d’une variable dans une population à partir d’un échantillon est appelé
‘inférence statistique’. Considérons par exemple que le revenu hebdomadaire moyen dans
un secteur industriel soit de 540 dollars des Etats-Unis ($EU) à l’année t . L’année suivante
ou à la date t  1 , un chercheur désire savoir si le revenu hebdomadaire moyen a changé
mais ne dispose de données se rapportant à l’ensemble de la population. Pour ce faire, il fait
des enquêtes ou des investigations sur 100 personnes faisant du secteur industriel et trouve
une moyenne de 560$EU. Peut-il conclure que le revenu a augmenté dans ce secteur ? Si la
moyenne du revenu hebdomadaire est de 700$EU, peut-il dire que le revenu a
substantiellement augmenté ? Qu’en est-il du revenu moyen de 543$EU ?

Le problème soulevé par l’inférence statistique revient à décider à partir de quel seuil la
moyenne de l’échantillon surpasse (ou se situe en dessous de) la moyenne de la population
avant de dire qu’il y a eu augmentation (ou diminution) de la moyenne de la population.

Un problème essentiel, présent dans tous les processus d’inférence statistique est ce que
nous appelons ‘la variabilité d’échantillonnage’. Par ce phénomène, nous voulons dire que
différents échantillons vont produire différents résultats. En revenant à notre exemple de
gains hebdomadaires dans le secteur industriel, un autre échantillon de 100 ouvriers pourra
générer une moyenne des gains hebdomadaires différente de celle du premier échantillon.
Un troisième échantillon de 100 ouvriers pourrait encore une fois générer une moyenne
différente des deux premières et ainsi de suite. Au regard de cette variabilité
d’échantillonnage, il y a un risque que le résultat de l’échantillonnage va varier d’un
échantillon à un autre. Heureusement, pourvu que notre échantillon soit constitué d’une
manière particulière, la variabilité d’échantillonnage suit un modèle à propos duquel
beaucoup de choses sont connues. En effet, si nous pouvons juguler ce phénomène de
variabilité d’échantillonnage, il est nécessaire que les échantillons soient des échantillons
aléatoires.

27
Un échantillon de taille n individus est dit aléatoire si toute combinaison de n individus dans
une population a la même chance d’être tiré que l’échantillon actuellement tiré.

Tirer de façon aléatoire un échantillon de 100 individus d’une population requiert (i) la
constitution de la liste de tous les individus de cette population, (ii) l’attribution d’un numéro
d’ordre aux différents individus de cette liste et l’utilisation des tables de nombres aléatoires
pour tirer les 100 individus faisant partie de l’échantillon. Pour la suite de l’étude de
l’inférence statistique, nous supposons que nous utilisons des échantillons qui sont tirés au
hasard.

Distribution d’échantillonnage de la moyenne

Supposons que la variable ‘revenu hebdomadaire moyen’ dans le secteur industriel soit
désigné par une variable X telle que E  X    et var  X    2 . Les paramètres de la
population des travailleurs du secteur industriel sont  et  2 fixes mais inconnus.

Pour les connaître, utilisons un échantillon tiré de façon aléatoire de n travailleurs à partir de
la population de travailleurs du secteur industriel.

A partir des revenus des n travailleurs il est possible de constituer une moyenne
1 n
arithmétique X   X i . Cependant, cette moyenne va varier d’un échantillon à un autre.
n i 1
Supposons que cette moyenne soit de 560$EU dans le premier échantillon, de 558$EU dans
le deuxième échantillon, de 564$EU dans le troisième échantillon, de 567$EU dans le
quatrième, et bien d’autres valeurs dans les autres échantillons allant jusqu’au nième
échantillon. Il se pose ici un problème de variabilité de l’échantillon. La probabilité de
distribution de la moyenne X est désignée sous le nom de distribution d’échantillonnage
de la moyenne.

0,2
0,18
0,16
Densité de probabilité

0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
// 558 559 560 561 562 563 564 565 566 567 568

Figure 2.1. Distribution d’échantillonnage de la moyenne X

Ces distributions d’échantillonnage de ce genre sont d’une importance cruciale dans


l’inférence statistique et nous aurons à détailler ce sujet tout au long de ce chapitre. En
pratique bien entendu, les distributions d’échantillonnage sont rarement construites de façon
empirique sur ce modèle. Normalement, l’évidence se dégage à partir d’un seul échantillon
28
et il n’est pas pratique de constituer un grand nombre d’échantillons. Heureusement
beaucoup de conclusions peuvent être dégagées au sujet de la distribution d’échantillonnage
sans être dans la nécessité de constituer plus d’un seul échantillon. Nous utilisons les
connaissances des valeurs espérées et de la variance obtenues au premier chapitre pour
dégager les expressions correspondantes de la distribution d’échantillonnage.

Théorème 2.1.

Si des échantillons aléatoires de taille n sont tirés d’une population de taille infinie ayant une
moyenne et  une variance  2 , dès lors la distribution d’échantillonnage de la moyenne de
l’échantillon X aura :

2
E X    et var X  
n

1 1 1 1
En effet, X 
n
 X i  X 1  X 2  ........  X n
n n n
E  X   E  X 1   E  X 2   .......  E  X n 
1 1 1
n n n
1
 n (2.1)
n


La première ligne de l’expression (2.1) découle de propriété d’additivité qu’on peut appliquer
à l’opérateur d’espérance mathématique. La deuxième ligne trouve son fondement dans le
théorème 1.2 du chapitre 1. Bien plus, si l’échantillon est aléatoire, nous pouvons traiter les
variables X i comme étant indépendantes et dès lors non corrélées.

Var  X   var X 1   var X 2   ....  var X 3 


1
n2
1
 2 n 2 (2.2)
n
2

n

Pour développer l’expression (2.2), nous faisons recours au théorème 1.4 du premier
chapitre.

Le théorème 2.1 est au juste, révélateur de trois leçons tirées au sujet de la distribution
d’échantillonnage de X quand ‘un nombre élevé’ d’échantillons, tous de taille n sont tirés
 
de notre population. Primo, le théorème stipule que quand nous calculons E X , la moyenne
des valeurs X obtenues à partir de plusieurs échantillons est égale à  , la moyenne des
variables X de la population. Secundo, le théorème stipule que la variabilité (mesurée
comme étant :  X2   2 / n ) dans les différentes variables X obtenues à partir de plusieurs
échantillons dépend de deux facteurs: d’une part, la constante donnée par la taille n des
échantillons considérés et d’autre part, la variabilité (  2 ) des variables X de la population
d’origine. Tertio, plus la taille des échantillons est élevée plus la variabilité de la moyenne de

29
l’échantillon est faible et plus la variabilité des X dans la population originelle, plus grande
sera également la variabilité des X .

Rappelons que, conformément au contenu du chapitre précédent, plusieurs variables du


monde réel tendent à être normalement distribuées. S’il advenait que la population dont il est
 
ici question est également normalement distribuée, c’est-à-dire que : X est N  , 2 , dès
lors nous pouvons dégager une autre affirmation importante au sujet de la distribution
d’échantillonnage de X . Comme l’équation (2.2) le montre clairement, X est une fonction
linéaire des X i . Dès lors si les X i sont normalement distribuées, X doit être elle-même
normalement distribuée d’après le théorème 1.5. En clair si :

  
X est N  , 2 alors X est N  , 2 / n  (2.3)

Comme noté précédemment, les paramètres de la population tels que  et  2 sont


généralement inconnus et nous devons faire une inférence y relative en utilisant une
information disponible au niveau de l’échantillon. Pour comprendre le précédent théorème,
considérons l’exemple suivant dans lequel les paramètres de la population sont connus.

Exemple

Une population de salariés du secteur industriel a une moyenne de revenus hebdomadaires


de 560 $EU, avec une déviation standard (écart-type) de 12 $EU. Les gains hebdomadaires
sont supposés avoir une distribution normale. Si un échantillon aléatoire de 100 salariés est
tiré de cette population, quelle est la probabilité que la moyenne des gains hebdomadaires
des salariés dans l’échantillon excède 562 $EU ?

 
Désignons par X les gains d’un salarié, nous désirons obtenir Pr X  562 étant donné que
X ~ N 560,144 .

   
En exploitant le théorème 2.1, E X    560 et Var X   2 / n  1.44 . Dans la mesure où
la population est normalement distribuée, nous avons en recourant la relation (2.3) :

X ~ N 560;1,44

Nous pouvons transformer X en une distribution normale standard en procédant comme


indiqué dans le chapitre précédent, c’est-à-dire en soustrayant de X la moyenne  et en
divisant par l’écart-type  / n :

X  560
Z ~ N 0,1 ; c’est-à-dire que la variable Z a une distribution normale standard.
1,2
En convertissant la question se rapportant à X en une question relative à Z , nous
obtenons :

 X  560 562  560 


PrX  562  Pr    PrZ  1,67   0,0475
 1,2 1,2 
La valeur de la probabilité est lue directement dans les tables de distribution normale
standard (voir Annexe 1). Nous réalisons qu’il y a une faible probabilité d’obtenir une
moyenne de l’échantillon qui excède 562 $EU.

30
La résolution de l’exercice ne dépend pas seulement du théorème 2.1 mais aussi et surtout
de l’hypothèse selon laquelle est normalement distribuée. En dehors de cette hypothèse,
est-il toujours raisonnable de faire recours aux tables de distribution normale ? La réponse à
cette question est fournie par le théorème énoncé ci-dessous.

Théorème 2.2 (Théorème de la limite centrale)

Si des échantillons de grande taille sont tirés aléatoirement d’une population de moyenne 
et de variance  2 , dès lors la distribution d’échantillonnage de la moyenne sera
approximativement normalement distribuée avec E X   et  
Var X      / n indépendamment de la forme de la distribution.
2
X
2

La démonstration de ce théorème dépasse cependant le cadre de ce cours. Cependant, le


théorème stipule que, pourvu que les échantillons soient de taille suffisamment grande, dès
lors, même si la population n’est pas normalement distribuée (une distribution pouvant
prendre une des formes particulières telles que celles reprises à la figure 2.2), la distribution
d’échantillonnage de la moyenne peut toujours être approximée par une distribution normale.
En effet, plus la taille de l’échantillon est grande, plus précise sera l’approximation. Notons
cependant qu’il n’y a pas de distinction claire et précise entre ‘petit échantillon’ et ‘grand
échantillon’. En pratique cependant, quand la taille d’un échantillon atteint ou dépasse 30
observations, nous pouvons être tranquilles en supposant que la distribution de
l’échantillonnage a une forme proche de celle de la distribution normale.

En nous référant à l’exemple précédent, il devient clair que, en


 
recherchant Pr X  562  0,0475 , nous n’avons pas besoin d’adopter l’hypothèse selon
laquelle la population des salariés du secteur industriel est normalement distribuée. Comme
la taille de l’échantillon est suffisamment grande ( n  100 ), nous pouvons en toute sécurité
faire appel au théorème central limite et affirmer que notre réponse est valable quelle que
soit la forme de la population parentale. La situation serait toute autre si la taille de
l’échantillon était de 10.

Densité de probabilité Densité de probabilité Densité de probabilité

0 X 0 X 0 X

Figure 2.2. Autres formes de distributions de population

Exercices

2.1. La moyenne mensuelle des dépenses alimentaires d’une seule personne de sexe
masculin dans une grande ville a une moyenne de 480 $EU, avec une déviation standard de
115. Si un échantillon aléatoire de taille 60 est tiré de cette population, quelle est la
probabilité d’avoir une moyenne des dépenses alimentaires de l’échantillon qui :
(a) soit comprise entre 460 $EU et 510 $EU ? (b) soit supérieure à 500 $EU ?

31
2.2. Il généralement affirmé que le poids des jeunes filles de 8 ans ont une moyenne de 20
kg avec une variance de 25. Si ce cette affirmation est correcte et qu’un échantillon de 40 est
à tirer de cette population, quelles est la probabilité d’avoir un poids moyen dans l’échantillon
qui soit inférieur à 18,5 kg ?

Si l’échantillon est pris qu’il a une moyenne inférieure à 18,5 kg, ce fait pourrait vous amener
à douter de l’affirmation de départ selon laquelle le poids moyen de la population est de 20
kg ? Que penseriez-vous de cette même affirmation si la moyenne de l’échantillon était de
18 kg ?

2.3. Des colis ont une moyenne de 300 kg, avec une déviation standard de 50. Un
échantillon aléatoire de 25 colis est chargé sur un élévateur. Trouvez la probabilité d’avoir un
poids combiné de ces colis qui excède les limites de sécurité spécifiques de l’élévateur
fixées à 8200 kg.

Dans les exemples ci-dessus, les paramètres de la population  et  2 sont supposés


connus et nous utilisons le théorème central limite pour calculer les probabilités se
rapportant à l’échantillon. En pratique, dans la situation normale, ces paramètres de la
population sont inconnus et nous devons utiliser l’information connue au niveau de
l’échantillon pour faire de l’inférence sur eux. L’inférence statistique peut être divisée en
deux aspects : (i) l’estimation et (ii) les tests d’hypothèses. Nous discutons dans les sections
qui suivent chacun des deux sujets.

2.2. Estimation de la moyenne d’une population

Quand un paramètre de la population est inconnu, il y a deux voies à travers lesquelles il


peut être estimé. Primo, nous pouvons estimer le paramètre par un seul nombre ou un
estimateur pointé ou alors, secundo, spécifier un intervalle de confiance dans lequel il y a
une forte probabilité d’y retrouver le paramètre recherché.

-Estimateurs ponctuels

Ce sont des estimateurs constitués d’un seul nombre. Par exemple, nous pouvons estimer la
moyenne hebdomadaire des revenus (gains) d’une population de salariés d’un secteur
industriel par 480 $EU ou 520 $EU. En fait, la façon la plus évidente d’estimer la moyenne
inconnue  de la population est d’utiliser la moyenne connue X de l’échantillon. Il y a un
 
avantage d’utiliser l’estimateur X . A partir du théorème 2.1., nous savons que E X   .
Ceci pour dire qu’en prenant un grand nombre d’échantillons tirés à partir d’une population,
nous obtenons une distribution d’échantillonnage semblable à celle présentée à la Figure
2.3. (a). et en moyenne nous obtenons une valeur égale à la vraie mais inconnue moyenne
de la population  . Même si en pratique, nous considérons un seul échantillon, c’est
confortant de savoir qu’il n’y a pas d’erreur ou de biais systématique dans notre procédure
 
d’estimation. Etant donné que E X   , X est appelé ‘estimateur pointé non biaisé’
de  .

Dans certains contextes, le statisticien est aussi appelé à estimer la variance  2 .


L’estimateur pointé de la variance  2 est la variance de l’échantillon donné par :

v 2

X i  X
2

(2.4)
n

32
Par exemple, en ayant les données des revenus hebdomadaires d’un échantillon aléatoire
de n salariés du secteur industriel, nous utilisons simplement l’expression de la variance
d’une série de n nombres. Le seul problème avec la relation (2.4) est que, à l’instar
de X , v 2 prendra différentes dans différents échantillons et malheureusement :

 n 1 2
 
E v2     
2
(2.5)
 n 
Il est relativement aisé de démontrer la relation (2.5). Partons de l’expression même de la
variance dans un échantillon :

v2

X
 Xi 1
2

   X i      X   
2

n n
1
n
 2 2

   X i      X     2 X i    X   

   X i       X     2 X      X i   
1 2 1 2 1
n n n
   X i      X     2 X   
1 2 2 2

n
   X i     X   
1 2 2

n
   X i      X   
1 2 1 2

n n
 2
n 1 2
2   
n n
n 1 2
E v2   
n
 2
Pour venir à bout de ce biais, la variance de la population  2 est normalement estimée par :

S 2

X i  X
2

(2.6)
n 1

n n 1 2
 
E S2 
n 1 n
 2
Dès lors, S 2 est un estimateur non biaisé de la variance  2 de la population.

Densité de probabilité Densité de probabilité

(a) (b)

0 µ X 0 2 v2
Figure 2.3 (a) Estimateur ponctuel non biaisé (b) Estimateur ponctuel biaisé de 2

33
Intervalles de confiance

Il arrive des fois qu’un seul nombre ou un estimateur ponctuel d’un paramètre ne suffit pas.
Nous voulons ainsi dans ces conditions spécifier le niveau de confiance que nous avons
dans notre estimateur. Une façon de faire ainsi est celle de déterminer un intervalle de
valeurs dans lequel nous sommes à 95% par exemple confiants que le paramètre y est situé.
Nous traitons ce problème en prenant le cas de la moyenne de la population  et en
procédant comme suit :

Supposons que nous désirons dégager un intervalle de valeurs comprises entre X  E et


X  E tel qu’il y ait une probabilité de 0,95 d’avoir dans cet intervalle le paramètre inconnu
recherché  . Etant donné que X est un estimateur non biaisé de  , il est très logique qu’il
soit au milieu de l’intervalle que nous désirons identifier. Le terme E est simplement une
expression ou une formule que nous allons spécifier par la suite.

Si notre échantillon est de taille suffisamment grande, nous savons de par le théorème
 
central limite que X ~ N  , 2 / n ; dès lors, nous pouvons dire que :

X 
Z ~ N 0,1 (2.7)
/ n

En faisant usage des tables de distribution normale standard ou centrée réduite dans
l’annexe et de la Figure 2.4 (a), nous trouvons que :

Pr 1,96  Z  1,96  0,95 (2.8)

En substituant Z de la relation (2.8) par sa valeur dans la relation (2.7), nous obtenons :

 X  
Pr  1,96   1,96   0,95 (2.9)
 / n 
p(Z) p(Z)
(a) (b)

0,475 0,475 0,495 0,495

-1,96 0 1,96 Z -2,58 0 2,58


Figure 2.4 (a) Surface comprise entre Z= +1,96 et Z= -1,96 (b) Surface entre Z= +2,58 et
Z= -2,58
En réarrangeant les quantités entre parenthèses de la relation (2.9), nous obtenons :
   
Pr X  1,96    X  1,96   0,95 (2.10)
 n n

La relation (2.10) indique que nous avons dégagé l’intervalle de confiance qui contient à 95%
de chance le paramètre inconnu  . Le terme E que nous avons évoqué tantôt n’est autre

34

que 1,96 . L’intervalle que nous avons dégagé dans la relation (2.10) est connu sous le
n
nom d’intervalle de confiance à 95% pour le paramètre  . Le seul problème avec cet

intervalle est que l’expression E  1,96 dépend de  , qui, à l’instar de  , est inconnu. En
n
pratique, quand on calcule un intervalle de confiance,  est à remplacer par s , la déviation
standard de l’échantillon dégagé à travers la relation (2.6) qui fournit un estimateur non
biaisé. L’intervalle de confiance à 95% pour le paramètre  à partir d’un échantillon de
grande taille est dès lors écrit comme :
s
X  1,96 (2.11)
n

Il est bien possible de dégager un intervalle de confiance où nous avons plus de chance et
partant plus de confiance d’y trouver le paramètre inconnu  . Le fait d’augmenter le niveau
de confiance implique une autre valeur critique de Z dans la table de distribution normale
standard. Par exemple, la Figure 2.4 (b) indique que pour former un intervalle de confiance à
99%, il faut remplacer la valeur de 1,96 par 2,58 et nous obtenons :
s
X  2,58 (2.12)
n

Une fois que les expressions basiques sont dégagées, il devient très facile de construire un
intervalle de confiance. Par exemple, dans notre exemple de salariés du secteur industriel,
un échantillon de taille n  80 avec une moyenne X  574 et une déviation standard
s  94 donne un intervalle de confiance à 95% fourni par l’expression suivante :
94
574  1,96  574  20,6 . L’intervalle requis va donc de 553,4 à 594,6.
80

Bien que les intervalles de confiance soient faciles à construire, ils ne sont pas pour autant
faciles à interpréter. Il convient de rappeler que la moyenne de la population  , bien
qu’inconnue, est une constante fixe. Il est soit compris dans cet intervalle de 553,4 – 594,6
ou alors être situé en dehors de cet intervalle. S’il est dans cet intervalle, il y a une
probabilité d’une unité qu’il soit dans cet intervalle. S’il est situé en dehors de cet intervalle,
la probabilité d’avoir le paramètre  dans cet intervalle est donc nulle. Dès lors, nous ne
pouvons pas dire que le paramètre est compris dans l’intervalle 553,4 – 594,6 à une
probabilité de 0,95 ! Que devient doc la signification de l’intervalle ainsi calculé ?

La solution à cette question est de garder à l’esprit que les différents échantillons vont
produire différentes moyennes X et différentes déviations standard s . En toute logique,
différents échantillons vont générer différents intervalles de confiance. Si un très grand
nombre d’échantillons est considéré, 95% de ces intervalles contiennent le paramètre
inconnu pendant que les 5% restants ne contiennent pas ce paramètre. Bien que les
intervalles de confiance varient d’un échantillon à un autre, le paramètre  est fixe. A cause
de cela, ce que nous pouvons dire est qu’avant de prendre un échantillon, il y a une
probabilité de 0,95 que l’intervalle ainsi déterminé contienne le paramètre recherché  .
Malheureusement, une fois qu’un échantillon est pris et que l’intervalle de confiance est
construit, nous ne pouvons pas, strictement parlant, garder ce langage. Dès lors
l’interprétation des intervalles de confiance n’est pas n’est aussi directe qu’on le pensait.

35
Comme on peut s’y attendre, il est possible de construire un intervalle de confiance pour
d’autres paramètres de la population autres que la moyenne  . Le processus de
détermination de cet intervalle est cependant similaire à ce qui est fait précédemment. La
déviation standard d’une distribution d’échantillonnage d’un estimateur est connue sous le
nom d’un estimateur de la déviation standard. A titre d’exemple, la déviation standard de
l’estimateur de la moyenne X est simplement s X  s / n , c’est-à-dire la déviation standard
de la distribution d’échantillonnage. Etant donné un estimateur ponctuel non biaisé et pourvu
que sa distribution d’échantillonnage soit symétrique, les intervalles de confiance prennent
toujours la forme :

Estimateur pointé ± (valeur critique)*(écart-type de l’estimateur) (2.13)

La ‘valeur critique’ dans la relation (2.13) est puisée dans une table de valeurs de distribution
telle qu’une table de distribution normale standard. Par exemple, dans les relations (2.11) et
(2.12), l’estimateur ponctuel est X , la valeur critique est tirée de la table de distribution
normale standard et la déviation standard est s / n .

Exercices

Exercice 2.4.

Un échantillon aléatoire de 8 automobiles (tous du même modèle) affichent les valeurs


suivantes pour leur kilométrage effectué sur base de la consommation d’un gallon de
carburant :
37,1 35,6 37,7 36,2 36,1 36,5 37,6 35,2
Trouvez les estimateurs non biaisés de: (a) la moyenne de la population; (b) la variance de
la population

Exercice 2.5.

Dans un échantillon de 40 cabinets d’avocats, les charges légales par heure ont une
moyenne de 25 $EU avec une déviation standard s  3,7 $EU . Dégagez un intervalle de
confiance à 95% de la moyenne de la charge légale horaire dans la profession des avocats
en général.

Exercice 2.6.

Un échantillon de 38 appartements de trois chambres chacun a une moyenne de la valeur


locative de 135 $EU avec une déviation standard de s  22 $EU . Trouvez un intervalle de
confiance à 99% de la vraie moyenne de la valeur locative de tels appartements. Si vous
souhaitez estimer à 99% la vraie moyenne de la valeur locative dans un intervalle de 2,00 $
EU, quelle taille de l’échantillon allez-vous considérer ?

2.3. Tests d’hypothèses sur la moyenne de la population

Il est des occasions où au lieu d’estimer le paramètre de la population, nous avons intérêt à
tester si un tel paramètre prend une valeur spécifique. Pour débuter cette section, nous
prenons le cas des salariés du secteur industriel comme un exemple typique en inférence
statistique en considérant une situation où la moyenne hebdomadaire des revenus des
salariés (  )est égale à 540 $EU à la date t ; une année plus tard à la date t  1 , nous
faisons face à un problème de savoir, sur base d’un échantillon de 100 salariés, si nous
pouvons décider si oui ou non il y a eu une augmentation de revenus dans l’intervalle de
temps considéré. Nous sommes dans une position d’appréhender ce problème.
36
Nous commençons par formuler deux hypothèses : une hypothèse nulle et son alternative.
L’hypothèse nulle stipule que la moyenne de la population n’a pas varié dans l’intervalle de
temps considéré, c’est-à-dire que  à la date t  1 reste égale à 540 $EU. L’hypothèse nulle
notée habituellement H 0 est formulée comme suit :

H 0 :   540 (Aucun changement dans les gains des salariés du secteur industriel) (2.14)

Nous formulons cette fois-ci une hypothèse alternative, notée H A qui couvre les alternatives
possibles de l’hypothèse nulle. En admettant que le taux d’inflation est positif,
raisonnablement les revenus salariaux ne peuvent diminuer dans cet intervalle ; ainsi nous
formulons comme suit l’hypothèse alternative :

H A :   540 (Augmentation des revenus salariaux) (2.15)


Notre problème se pose dans les termes suivants : entre l’hypothèse nulle H 0 et son
alternative H A , laquelle faut-il choisir ? Le choix est effectué sur base de l’information tirée
d’un échantillon de taille n  100 .

Une fois que l’échantillon est pris, il devient facile d’en dégager sa moyenne X . Clairement,
il sera plus logique de rejeter l’hypothèse nulle selon laquelle les revenus n’ont pas
augmenté si la moyenne de l’échantillon est supérieure à la moyenne de la population  de
l’instant t . La question qui se pose à ce niveau est celle savoir de combien la moyenne de
l’échantillon à l’instant t  1 doit excéder la moyenne de la population à l’instant t pour pouvoir
rejeter l’hypothèse nulle et accepter par conséquent l’hypothèse alternative?

L’outil adroit auquel nous faisons recours pour traiter cette question est le théorème de la
limite centrale. Dans la mesure où notre échantillon est de taille suffisamment grande, nous

savons que la distribution d’échantillonnage de la moyenne X est N  , 2 / n et par 
conséquent la relation (2.7) reste valable.

Supposons que l’hypothèse nulle soit vraie, c’est-à-dire que les revenus salariaux sont
restés les mêmes. Etant donnée la formulation H 0 :   540 de l’hypothèse nulle, en la
substituant dans la relation (2.7), nous avons :
X  540
TS  ~ N 0,1 (2.16)
/ n

  
La quantité X  540 /  / n est appelée la statistique de test ou test statistic (TS) en
anglais. Chaque fois que nous faisons un test d’hypothèse, nous rencontrerons de telles
statistiques de test. Le point crucial de cette statistique de test est qu’elle a une
distribution N 0,1 uniquement quand l’hypothèse nulle est vraie. Si l’hypothèse nulle n’est
pas vraie, la relation (2.16) ne tient plus dans la mesure où  a pris une autre valeur que
540.

Comme nous pouvons le voir à travers la Figure 2.5, la distribution normale standard
N 0,1 est centrée sur zéro. Rappelons que la surface en dessous de la courbe représente
les probabilités. Il suit de cette lecture que si l’hypothèse nulle est vraie, il y a une forte
probabilité que TS prendra une valeur proche de zéro. Si elle prend une valeur très différente
de zéro, dans ces conditions nous douterons de la véracité de l’hypothèse nulle. Si
l’hypothèse nulle est fausse, il n’y a aucune raison qui empêcherait que TS prenne une
37
valeur éloignée de zéro. La statistique de test fournit donc un moyen de tester si l’hypothèse
nulle est vraie ou fausse.

Notons que TS est basée sur la différence entre la moyenne de l’échantillon X et celle de la
population  . Plus X surpasse   540 , plus grande sera la statistique de test. En toute
logique, nous rejetons l’hypothèse nulle si X est plus grande que 540. Plus TS sera positive,
plus nous serons amenés à rejeter l’hypothèse nulle en faveur de son alternative.


Supposons qu’un échantillon de 100 salariés est considéré et que TS  X  540 /  / n  
est calculée où généralement la déviation standard de l’échantillon s est utilisée comme
estimateur non biaisé de la déviation standard  de la population. Supposons en plus que
TS>1,64. La valeur de 1,64 n’est pas fixée au hasard. En effet, comme nous pouvons le voir
à partir de la Figure 2.5, la surface située en dessous de la courbe normale standard et à
droite de la droite d’équation X  1,64 équivaut exactement à 0,05. La valeur de 1,64 est
indubitablement positive mais TS>1,64 est-elle suffisamment positive pour ne pas douter de
l’hypothèse nulle selon laquelle les revenus n’ont pas augmenté? En effet si TS>1,64, nous
devons prendre une des options suivantes :
Primo, nous pouvons maintenir que H 0 est vraie. En adoptant cette hypothèse cependant,
nous devons affirmer que quelque chose d’inhabituel s’est produit. Si H 0 reste vraie, dès lors
la relation (2.16) est valable et les courbes de la Figure 2.5 représentent la distribution de la
statique de test. Si c’est ainsi la probabilité d’avoir une valeur de TS qui excède 1,64 est
seulement de 0,05, c’est un seul cas favorable sur 20 possibles. Beaucoup de gens
pourraient considérer l’occurrence d’un événement qui a seulement une chance sur 20 de se
produire comme étant étrange.

p(Z) p(Z)
(a) (b)

0,45 0,05 0,49 0,01

0 1,64 rejet de H0 Z 0 2,33 rejet de H0

Figure 2.5 Rejet de l’hypothèse nulle H0 aux seuils de significativité de 0,05 (a) et 0,01 (b)

Alternativement (secundo), bien sûr, si TS>1,64, nous pouvons rejeter H0 et adopter que
l’hypothèse alternative HA est vraie signifiant par-là que les revenus ont augmenté à la
date t  1 . Si l’hypothèse alternative est vraie, dès lors il n’y a aucune raison qui ferait que la
Figure 2.5 représente la distribution de la statistique de test. TS pourrait être distribuée
autour de 1,5 ou 2 et dans ce cas, il n’y aura rien d’étrange à ce que TS soit supérieure à
1,64. Cependant, si nous rejetons l’hypothèse nulle en faveur de son alternative, nous
devons garder à l’esprit qu’il subsiste une petite probabilité s’élevant à 0,05 d’avoir
l’hypothèse nulle qui est vraie. En admettant que les revenus ont augmenté à la date t  1 ,
nous commettons une erreur de 0,05 de faire ainsi.

Ainsi donc quand un(e) statisticien(ne) obtient une valeur de la statistique de test qui excède
1,64, il (elle) conclut normalement qu’il (elle) rejette l’hypothèse nulle au seuil de
significativité de 0,05. Ceci est simplement un jargon statistique de rejet de l’hypothèse nulle
tout en admettant qu’il y a une probabilité de 0,05 de commettre une erreur en procédant

38
ainsi. Dès lors le seuil de significativité représente la probabilité d’erreur qui accompagne le
rejet de l’hypothèse nulle. La probabilité de ce genre est normalement donnée par le
symbole  . Concrètement, nous avons :

Le niveau de significativité  =Probabilité (rejeter H0/H0 est vraie)

Comme nous pouvons le voir, le seuil de significativité n’est pas le seul type d’erreur qui
apparaît dans les tests d’hypothèses. Pour clarifier cette affirmation, considérons d’une
façon quelque peu différente l’implication du rejet de H0 quand TS>1,64. A partir de la
relation (2.16), si TS>1,64, dès lors :
X  540  1,64 / n (2.17)

Nous rejetons l’hypothèse nulle H0 si X excède une certaine valeur critique donnée par le
terme de droite de la relation (2.17). Etant donné qu’il existe un estimateur de  , cette valeur
 
peut être calculée. Mais si H0 est vraie, dès lors X ~ N 540, 2 / n et la probabilité que la
relation (2.17) se produise peut être facilement calculée comme suit :
 
Pr X  540  1,64 / n  PrZ  1,64  0,05

C’est-à-dire que si H0 est vraie, il y a seulement une probabilité de l’ordre de 0,05 d’obtenir
une valeur de X qui excède la valeur critique de la relation (2.17). Dès lors, si nous obtenons
une telle valeur, nous la considérons comme une occurrence invraisemblable de ‘rejeter
l’hypothèse nulle H0 au seuil de significativité de 0,05’.

Il n’y a rien de spécial au sujet de 1,64 ou du seuil de significativité de 0,05. Alternativement,


nous pouvons décider de rejeter H0 et dire qu’il y a eu augmentation des revenus si TS>2,33.
En effet la valeur de 2,33 est telle que la surface située en dessous de la courbe normale
standard et à droite de la droite d’équation X  2,33 (Figure 2.5) est égale à 0,01. En suivant
le même argument comme en haut, étant donné que TS>2,33, nous pouvons soit accepter
H0 comme vraie et dire qu’un événement ayant une probabilité de 0,01 s’est produite ou
alors rejeter H0. Cependant, si nous rejetons H0, nous devons nous souvenir qu’il subsiste
une probabilité d’erreur de l’ordre de 0,01.
Dans un jargon plus statistique, nous disons que nous rejetons H0 au seuil de significativité
de l’ordre de 0,01.

Notons que plus le seuil de significativité auquel nous rejetons l’hypothèse nulle est faible,
plus ce rejet sera fort. Par exemple, un rejet de H0 au seuil de 0,01 est un rejet plus
prononcé que celui qui se fait au seuil de 0,05 dans la mesure où la probabilité d’erreur
correspondante est faible. Notons également qu’il est impossible de réduire le seuil de
significativité à zéro dans la mesure où les bouts de la courbe normale standard
s’approchent asymptotiquement de l’a xe des Z sans le toucher.
En introduisant des valeurs chiffrées dans le processus de tests d’hypothèses, supposons
que notre échantillon de 100 salariés ait une moyenne X  564$ avec une déviation
standard s équivalant à 75. En substituant dans la statistique de test de la relation (2.16)
chaque paramètre par sa valeur correspondante avec s comme estimateur de  , nous
obtenons :
564  540
TS   3,2
75 100

Le test n’excède pas seulement 1,64 mais aussi 2,33. Nous pouvons dès lors rejeter
l’hypothèse nulle qui stipule que les revenus restent inchangés entre les deux dates aux
seuils de 0,05 et plus fortement celui de 0,01 de significativité.

39
Tests bilatéraux

Dans l’exemple ci-dessus, nous avons, compte tenu du facteur inflation, exclu l’éventualité
d’une possible chute de revenus entre les deux dates. Supposons que nous soyons
incapables de rejeter cette éventualité et de tester simplement les revenus ont changé ou
pas. Nous pouvons recourir à la même hypothèse nulle comme précédemment. Cependant,
l’hypothèse alternative qui couvre ici toutes les possibilités alternatives signifie tout
simplement que les revenus moyens diffèrent 540$.

Nous avons dès lors :

L’hypothèse nulle H0 : µ = 540 (pas de changement de revenus)


L’hypothèse alternative HA : µ ≠ 540 (changement de revenus)

Une fois que nous avons pris un échantillon, il devient plus compréhensible de rejeter
l’hypothèse nulle soit si X est beaucoup plus élevé que 540$ ou alors beaucoup plus petit
que 540$. Dans le cas précédent, nous avons seulement rejeté l’hypothèse nulle quand X
est plus grand que 540$, ce qui est justifié dans la mesure où nous avons rejeté la possibilité
que les revenus aient diminué.

En interprétant le critère révisé de rejet de H0 en termes de statistique de test (2.16), nous


nous rendons compte que nous pouvons rejeter H0 et affirmer que les revenus ont changé si
TS de loin supérieure à zéro (très positive) ou alors si TS est de loin inférieure à zéro (très
négative). Pour de décider de l’ampleur de la positivité ou de la négativité de TS, nous nous
référons de nouveau aux tables de la distribution normale standard. Par exemple, l’examen
de la Figure 2.6 indique qu’en adoptant un seuil de significativité de 0,05, nous pouvons
rejeter l’hypothèse nulle et affirmer que les revenus ont changé si la statistique de test est
soit plus négative que – 1,96 soit plus positive que + 1,96. Notons que la probabilité d’erreur
de 0,05 est dès lors distribuée équitablement entre les deux ailes de la distribution normale
standard. Pour cette raison, ce test est connu sous le nom de test bilatéral pendant que
celui décrit à la Figure 2.5 est, pour des raisons évidentes, est connu sous le nom de test
unilatéral.

p(Z) p(Z)
(a) (b)

0,025 0,025 0,005 0,005

-1,96 0 1,96 Z -2,58 0 2,58 Z


rejet de H0 rejet de H0 0 rejet de H0 rejet de H0
Figure 2.6 Zones de rejet de l’hypothèse nulle H0 dans un test bilatéral aux seuils de
significativité de 0,05 (a) et 0,01 (b)

Nous pouvons encore ré-exprimer notre décision ou notre critère de test bilatéral en termes
de valeur absolue de la statistique de test en écrivant :
‘Rejeter H0 au seuil de significativité de 0,05 si /HS/>1,96’
‘Rejeter H0 au seuil de significativité de 0,01 si /HS/ >2,58’

40
Exercices

Exercice 2.7
La moyenne de la durée de vie d’un échantillon aléatoire de 80 ampoules lumineuses
produites par une industrie est de 1460h avec une déviation standard de 110h. Si µ est la
durée de vie moyenne de toutes les ampoules fabriquées par cette industrie, testez si µ =
1500 contre une hypothèse alternative µ ≠ 1500 aux seuils de : (a) 0,05 et (b) 0,01.

Exercice 2.8
La résistance à la rupture des câbles manufacturiers a une moyenne de 905 kg avec une
variance de 2500 kg2. Il est admis que la résistance à la rupture peut être augmentée par
une autre technique manufacturière. Pour cette tester cette affirmation, un échantillon de 40
câbles produits en utilisant la nouvelle technique montre une moyenne de la résistance à la
rupture de 930 kg. Testez cette affirmation au seuil de significativité de 0,05. Justifiez votre
choix d’hypothèse alternative.

Types d’erreur
Dans les exemples ci-dessus, la décision dans l’analyse ou le critère de test est tel que :
‘Rejeter H0 si /TS/>k mais accepter H0 si /TS/<k’ (2.18)

La valeur de k est prise dans les tables de distribution normale, et dépendra du niveau de
significativité adoptée et de la nature du test (unilatéral ou bilatéral). Le rejet de H0 implique
automatiquement l’acceptation de l’hypothèse alternative HA, pendant que l’acceptation de
H0 implique le rejet de HA.

Etant donné un critère de décision de la forme (2.18), il y a deux types d’erreur que nous
pouvons commettre en faisant notre test. Dans la mesure où H0 est vraie (dans lequel cas HA
est fausse) ou H0 est fausse (dans lequel cas HA est vraie) et étant donné que nous rejetons
ou acceptons H0, ces deux types d’erreur sont illustrés au Tableau 2.1.

Tableau 2.1. Types d’erreurs associées à un test d’hypothèse sur la moyenne d’une
population
H0 est vraie H0 est fausse
Rejeter H0 Erreur de première espèce
Accepter H0 Erreur de deuxième espèce

Concrètement, si nous acceptons H0 quand elle est vraie ou rejetons H0 quand elle est
fausse, nous ne commettons pas d’erreur. Si nous rejetons H0 alors qu’elle est vraie, nous
commettons une erreur que les statisticiens appellent erreur de première espèce. Comme
nous l’avons vu précédemment, la probabilité de commettre ce genre d’erreur est en effet le
seuil de significativité.
D’autre part, si nous acceptons l’hypothèse nulle quand elle est fausse, nous commettons
une erreur dite erreur de deuxième espèce.

Personne ne souhaiterait commettre une erreur de l’un ou l’autre type et dans la mesure du
possible, chacun aimerait limiter dans la mesure du possible la probabilité de ces deux types
d’erreur à des valeurs très faibles. Idéalement, nous aurions aimé être capable de choisir
une valeur de k dans le critère de test de la relation (2.18) qui rend la probabilité d’erreurs de
première et de deuxième espèce aussi faible que possible. Malheureusement, ceci est
rarement possible pour la raison suivante.

Il se révèle que quand on fait varier k dans le critère de test de la relation (2.18), plus on rend
plus petite la probabilité d’erreur de première espèce, plus la probabilité d’erreur de
deuxième espèce devient plus grande et vice versa. En peu de mots, il n’est pas possible de
rendre toutes les deux probabilités en même temps. Pour comprendre cela, revenons à notre
41
exemple sur les revenus dans le secteur industriel où nous avons déjà défini l’hypothèse
nulle et les hypothèses alternatives.

H0 : µ = 540 ; HA : µ ≠ 540

Le critère de décision (2.18) implique que nous rejetons H0 quand :


X  540
TS  est soit supérieur à k ou inférieur à –k
 n
Nous pouvons réécrire cela comme suit :

k k
Rejeter H0 si X  540  ou si X  540  (2.19)
n n
La valeur de k dépend bien entendu du seuil de significativité adopté.
Nous savons que, sous l’hypothèse nulle, µ = 540, la moyenne de l’échantillon
 
X ~ N 540, 2 / n . La distribution est visualisée à la courbe de gauche de la Figure 2.7,
laquelle courbe est centrée sur la moyenne X  540 . Les points R’ et R de la Figure 2.7 ont
k k
comme abscisses respectivement 540  et 540  sur l’axe des X . Notre critère de
n n
décision (relation 2.19) est tel que, si la moyenne de l’échantillon X prend une valeur à
gauche de R’ ou à droite de R, nous rejetons H0. La probabilité d’erreur de première espèce
(rejet de H0 quand celle-ci est vraie) et la partie de gauche de la courbe représente la
distribution de X , est égale à la somme des aires en dessous de la courbe à gauche de R’ et
à droite de R. Cette surface est égale à deux fois la surface bordée à droite de R.

Supposons cette fois-ci que HA est vraie pendant que H0 est fausse. HA implique que µ ≠
540, mais considérons un instant un cas particulier où µ = 560. Si µ = 560, la moyenne de
 
l’échantillon X est N 560,  2 / n . Cette distribution est visualisée à la courbe de droite de la
Figure 2.7. Comme elle a la même variance que la première courbe mais avec une plus
grande moyenne, la forme est identique à celle de la première courbe mais elle légèrement
décalée vers la droite le long de l’axe des X .

En nous référant à notre critère de décision, nous acceptons H0 si X prend une valeur
comprise entre R’ et R. Cependant, si HA plutôt que H0 est vraie, dès lors la distribution
de X est matérialisée par la courbe de droite. Dès lors que HA est vraie, la probabilité
d’accepter à tort H0 est égale à la surface hachurée en vertical en dessous de la courbe de
droite à gauche de R. Cette surface hachurée représente dès lors la probabilité d’erreur de
deuxième espèce, c’est-à-dire la probabilité d’accepter H0 alors qu’elle est fausse.

Il devient ainsi clair qu’en réduisant la probabilité d’erreur de première espèce, on augmente
en même temps la probabilité d’erreur de deuxième espèce et vice versa. En faisant varier la
valeur de k dans notre critère de décision de la relation (2.19), c’est-à-dire le seuil de
significativité, fait bouger automatiquement les points R’ et R de la Figure 2.7. Si k
augmente, R se déplace vers la droite et dès lors la surface hachurée en horizontal en
dessous de la courbe de gauche, ce qui implique une réduction de la probabilité d’erreur de
première espèce. Mais en même temps que R se déplace vers la droite, la surface hachurée
en vertical en dessous de la courbe de droite augmente, augmentant par-là la probabilité
d’erreur de deuxième espèce. De façon similaire, le déplacement de R vers la gauche
augmente la probabilité d’erreur de première espèce et réduit la probabilité d’erreur de
deuxième espèce.

42
p( X ) H0 vraie H0 fausse

R’ 540 R 560 X
Figure 2.7 Erreurs de première et de deuxième espèce

La puissance du test

Si nous adoptons un critère de décision de la forme :

‘Rejeter H0 si /TS/>k mais jugement réservé si /TS/<k’ (2.20)

Nous n’acceptons jamais l’hypothèse nulle: nous jetons soit l’hypothèse nulle (et acceptons
l’hypothèse alternative) ou nous nous réservons du jugement de savoir si l’hypothèse nulle
est vraie ou fausse. Dans la mesure où nous n’acceptons jamais l’hypothèse nulle, nous ne
pouvons commettre une erreur de deuxième espèce qui implique l’acceptation de
l’hypothèse nulle quand celle-ci est fausse. La raison pour laquelle nous n’acceptons jamais
l’hypothèse nulle est que nous ne connaissons pas la probabilité d’erreur de deuxième
espèce mais suspectons tout simplement qu’elle pourrait être grande.

En adoptant un critère de décision de la forme (2.20), il apparaît clairement que nous


pouvons espérer que, si une hypothèse nulle est fausse, dès lors nous la rejetterons en
faveur de l’hypothèse alternative HA. Cependant, un examen plus détaillé de la Figure 2.7
indique que cela peut ne pas se produire. Si H0 est fausse et que la vraie distribution de la
moyenne X de l’échantillon est représentée par la courbe de droite, il subsiste une
probabilité d’obtenir X à gauche du point R conduisant au non rejet de H0, comme nous
l’avons déjà indiqué, à cause du jugement réservé. La probabilité, dans cette situation, de
rejeter H0 quand elle est fausse est donnée par la surface à droite du point R en dessous de
la courbe de droite. Cette probabilité est clairement inférieure à l’unité.

La probabilité de rejeter l’hypothèse nulle H0 quand elle est fausse est connue sous le nom
de puissance du test. Elle mesure la probabilité de détecter une hypothèse nulle fausse.

Evidemment, on aurait aimé que cette probabilité soit aussi élevée que possible, et si
possible, proche de l’unité. Cependant un examen minutieux de la Figure 2.7 révèle que,
étant donné un point R, plus la distribution de la courbe de droite et celle de la courbe de
gauche se rapprochent, plus la puissance du test est faible.

43
2.4. Quelques statistiques de tests importantes et leur distribution

Dans les exemples précédents, nous faisons allusion à l’inférence sur la moyenne de la
population. Dans certains cas, nous désirons faire de l’inférence sur la variance de la
population. L’inférence statistique a un rôle essentiel à jouer dans l’analyse de la régression.

Degrés de liberté
Considérons X1 , X 2 ,........, X n , n variables aléatoires continues et la somme de leurs
n
carrés X
i 1
i
2
. Le degré de liberté est un concept associé aux sommes des carrés.

Considérons 5 variables régies par deux restrictions linéaires :


X 1  X 2  X 3  0 et 2 X 4  3 X 5  8 . En affectant des valeurs à trois d’entre elles, les valeurs
des autres (les deux restantes) sont déterminées automatiquement. Si par exemple,
X1  2; X 2  3 et X 4  1 , alors X 3  1 et X 5  1 . Dans cet état de faits, nous disons que
nous avons 3 degrés de liberté de fixer les valeurs des X i . La somme des carrés associés à
ces 5 variables est dite avoir 3 degrés de liberté.

De façon générale, quand nous avons n variables et r restrictions, nous dirons que nous
n
avons n  r degrés de liberté ou encore que la somme des carrés X i 1
i
2
associée à ces n

variables a n  r degrés de liberté.

 X  X  où X est la moyenne
n
2
Supposons que nous désirons calculer la quantité i
i 1

X
 X  X   Xi  n
n i
arithmétique de l’échantillon. Du moment que i
i 1
 0 L’égalité
i 1 i n
 X  X   0 constitue une restriction linéaire ; ainsi donc,  X  X  a n  1 degrés de
2
i i

 X    , sachant qu’il n’y a aucune raison pour que  X    0 ,


2
liberté. Par contre, i i

est dite avoir n degrés de liberté car aucune restriction linéaire n’est imposée à cette somme
des carrés.

Chaque fois qu’un paramètre de la population est remplacé par un paramètre de


l’échantillon, il y a perte d’un degré de liberté.

Le nombre de degrés de liberté associé à une somme de carrés est donné par le nombre
d’observations utilisées pour calculer ladite somme des carrés moins le nombre de
paramètres de la population remplacés par des paramètres de l’échantillon.

1°. La distribution de chi-deux (  2 )

Soient Z1 , Z 2 ,......., Z n des variables indépendantes et normalement distribuées, c’est-à-dire


que chacune des Z i ~ N 0,1 , alors Z
2
i a une distribution de chi-deux à n degrés de

Z ~  2 n  . Comme elles sont indépendantes par hypothèse, aucune relation,


2
liberté, soit i

linéaire ou non linéaire, ne peut exister entre elles ; par conséquent, aucune restriction
linéaire impliquant de telles variables ne peut exister. Une variable  2 ayant n degrés de
liberté est notée  n2 .

44
La forme de quelques distributions  2 pour différents degrés de liberté est montrée à la
Figure 2.9.

2 ddl 5ddl 10 ddl

Figure 2.9. Distributions  2 à 2, 5 et 10 degrés de liberté

   
Var Zi   E Zi2  EZi   E Zi2  1 car E Zi   0 étant donné que Z i ~ N 0,1 . Dans ces
2

conditions, E  Z    E Z   n .
2 2
i i

Usage de la distribution de chi-deux


Xi  
 
Soient X 1 , X 2 ,......., X n des variables N  , 2 , une variable Z i

aura une distribution

Xi  
normale centrée réduite, c’est-à-dire Z i ~ N 0,1 . (2.21)

 X 
2

Il découle de la relation (2.21) que  Z    i  a une distribution  n .


2 2
(2.22)
  
i

Considérons la variance de l’échantillon S 2 


1
 X i  X 2 donnée par la relation (2.6) ;
n 1
en multipliant les moyens et les extrêmes entre eux et en divisant les deux membres de
l’égalité par  2 , nous obtenons :

n  1 
 X  X  ayant une distribution  n21 .
1 2
S2 (2.23)
 2
 2 i

En effet, ici le nombre de degrés de liberté est n  1 parce qu’en passant de la relation
(2.22) à (2.23), nous avons remplacé le paramètre  par son estimateur X .

La relation (2.23) implique que si nous considérons plusieurs échantillons de taille n à partir
 
d’une population N  , 2 , nous obtenons alors une distribution d’échantillon des valeurs
pour S 2 . Etant donné que différents échantillons produisent différentes valeurs de X , ils
produiront également différentes valeurs de S 2 . Si, pour échantillon nous
calculons S 2 n  1 /  2 , la distribution d’échantillonnage pour cette statistique sera une
distribution  2 avec n  1 degrés de liberté.

45
Exemple

Dans le passé, le temps mis pour compléter une section donnée d’un processus de
production a une déviation standard de 35 secondes. Cette variabilité du temps cause
cependant des interruptions au processus de production et il est admis qu’une nouvelle
méthode opératoire pourrait réduire cette déviation standard.

Dans une expérimentation, 20 usages recourant à la nouvelle méthode montrent une


déviation standard S  28 secondes. Sur base de cette évidence, déterminez si la nouvelle
méthode représente réellement une amélioration.

Pour répondre à cette question, commençons par formuler les hypothèses nulle et
alternative. L’hypothèse nulle stipule que la nouvelle méthode n’est pas meilleure que
l’ancienne. Ceci signifie autrement que si la nouvelle méthode est utilisée de façon
permanente, la variance restera 352  1225 . Nous avons ainsi donc :

H 0 :  2  1225

L’hypothèse alternative stipule que la variance, lorsque la nouvelle méthode est utilisée, est
plus petite que 1225 de l’ancienne méthode. Nous avons ainsi :

H A :  2  1225

Nous utilisons la relation (2.23) pour déterminer la statistique de test. Sous l’hypothèse nulle,
nous avons :
S 2 n  1
TS  a une distribution  2 avec n  1 degrés de liberté. (2.24)
1225

Dans la mesure où  n21 a une moyenne de n  1 , ceci signifie que, sous l’hypothèse nulle, il
est attendu que cette statistique de test prenne une valeur proche de n  1 . Nous rejetons
bien évidemment l’hypothèse nulle en faveur de l’alternative et concluons que la nouvelle
méthode constitue une amélioration si la variance de l’échantillon S 2 est suffisamment petite
que 1225. Ceci signifie que la statistique de test doit être suffisamment plus petite
que n  1 quand nous sommes amenés à rejeter l’hypothèse nulle.

Pour décider ce que nous voulons dire par ‘suffisamment plus petit que n  1 ’, nous nous
référons à la Figure 2.10 et à la table des valeurs critiques de  2 . Une telle table avec une
description de son utilisation est fournie en annexe de ce chapitre. Un examen de la Figure
2.10 indique, au seuil de 5% de significativité :

Nous rejetons H 0 si TS   02,95 avec un jugement réservé si TS   02,95

Ceci constitue notre critère de test, avec la valeur précise de  02,95 dépendant du nombre de
degrés de liberté et partant de la taille de l’échantillon. En effet, avec n  1  19 degrés de
liberté, la table de la distribution de chi-deux indique que  02,95  10,12 .
Dans notre exemple, la taille de l’échantillon est n = 20, le nombre de fois qu’on utilise la
nouvelle méthode opératoire. La variance de cet échantillon est S2 = (28)2 = 784. La valeur
de la statistique de test (relation 2.24) est :

46
784 *19
TS   12,16
1225

En appliquant notre critère de test, nous réalisons que nous devons réserver notre jugement
au sujet de l’hypothèse nulle au seuil de 5% de significativité. L’évidence pour conclure que
la nouvelle méthode opératoire représente réellement une amélioration n’est pas suffisante.

  0,95
0,05

0  02,95 2

Figure 2.10. Tests d’hypothèses sur la variance d’une population

Une propriété importante des distributions de  2

Les distributions  2 sont obtenues au moyen de la somme des carrés, Z


i
i
2
de n variables

à distribution normale standard. Si ces variables sont indépendantes les unes des autres,
dès lors la distribution obtenue a n degrés de liberté. Si, par contre, seulement r de ces
variables normales standard sont indépendantes, les variables restantes étant dépendantes
de ces r variables, dès lors la somme des carrés  Z i2 aura seulement r degrés de liberté.
En d’autres termes la distribution  qui en découle aura également r degrés de liberté.
2

Nous déduisons de cette observation que  2 variables ont la propriété importante suivante :

Théorème 2.3.
Si  u2 et  v2 sont deux distributions  2 indépendantes avec u et v leurs degrés de liberté
respectifs, dès lors u2   v2 aura une distribution  2 avec u  v degrés de liberté.
La somme de deux distributions chi-deux est également une distribution chi-deux et le
nombre de degrés de liberté associé à cette nouvelle distribution équivaut la somme des
degrés de liberté associés aux distributions originales.

Le théorème 2.3 est évident. En effet, la somme de deux sommes de carrés est également
une somme de carrés. Le nombre de restrictions sur les variables dans la nouvelle somme
de carrés est égal à la somme des deux restrictions sur les sommes de carrés d’origine.
Cette propriété, apparemment évidente, a de nombreuses et importantes applications dans
l’analyse de la régression.

47
La distribution t de Student

Si Z1 , Z 2 ,......., Z n sont toutes des variables indépendantes et normalement distribuées, dès


lors la quantité :
Z0
t (2.25)
n

Z
i 1
i
2
/n

est appelée distribution de Student t avec n degrés de liberté.


1 n 2
L’expression au dénominateur sous le radical de la relation (2.25) est  Z i , qui est une
n i1
variable chi-deux divisée par son degré de liberté. Ainsi donc, une définition alternative de la
distribution de Student est le ratio d’une variable normale standard a la racine carrée d’une
variable chi-deux qui a été divisée par son degré de liberté. Notons que la distribution de
Student t obtient son degré de liberté de la distribution de chi-deux qui apparaît au
dénominateur.

L’allure de la courbe de Student t est illustrée à la Figure 2.11. Il est possible de montrer
que la surface totale comprise entre la courbe et l’axe des abscisses vaut l’unité. Comme
pour le cas de la distribution de Chi-deux, nous sommes justifiés si prenons cette distribution
pour une fonction de densité de probabilités. Cela veut dire que les surfaces en dessous de
la courbe peuvent être prises pour des probabilités avec des densités de probabilités
mesurées sur l’axe vertical. L’allure est très semblable à celle de la distribution normale
standard, symétrique autour de zéro mais avec une plus grande probabilité de trouver des
valeurs aux deux extrémités.

L’allure précise de la distribution de Student dépend de son nombre de degrés de liberté n .


On peut montrer que si n   , l’allure de cette distribution tend vers celle de la distribution
normale centrée réduite. En particulier, si n  50 , les différences entre les deux distributions
peuvent être ignorées sur le plan pratique.

0 t0,05=1,76 rejet de H0 t
Figure 2.11 La distribution t de Student

L’usage de la distribution t de Student

Dans la section précédente, nous avons considéré des tests en grands échantillons au sujet
des moyennes des populations. Dans la mesure où les échantillons sont de grande taille, il
est possible de d’invoquer le théorème central limite pour dégager une statistique de test
appropriée.

Quand bien même les échantillons sont de petite taille, rappelons-le, pourvu que la
population soit normalement distribuée, la distribution d’échantillonnage de la moyenne
    
X reste N  , 2 / n . Par conséquent, X   /  / n a une distribution normale standard.

48
Si  était connu, il aurait été possible de constituer une statistique de test qui serait normale
standard sous une hypothèse nulle stipulant que  équivaut à une valeur donnée 0 .

La déviation standard  de la population est, comme d’habitude, inconnue et doit être


remplacée par la déviation standard s de l’échantillon. Malheureusement, en petits
  
échantillons, il n’y a aucune qui expliquerait pourquoi X   /  / n serait une variable
normale standard. Cependant, nous pouvons maintenant montrer que, pourvu que la
population soit normalement distribuée, que :

X 
a une distribution de Student à n  1 degrés de liberté. (2.26)
s/ n

Pour des échantillons tirés d’une population normale, il est aussi vrai que :
X 
a une distribution normale standard. (2.27)
/ n

et en reproduisant la relation (2.23), nous avons :

S2
n  1 a une distribution  2 à n  1 degrés de liberté. (2.28)
 2

Rappelons la définition alternative de la variable t (relation 2.25); en prenant le ratio de


l’expression (2.27) à la racine carrée de l’expression (2.28) divisée par son degré de liberté,
nous avons :
X   /  /   X     X  
n
s /2 2
 / n s /   s / n (2.29)

Dès lors, X   / s / n  a une distribution t de Student et, en plus, le nombre de degrés de


liberté associé à cette distribution est celle de la distribution  2 qui figure au dénominateur
de l’expression de relation (2.29), qui est n  1 . Dès lors, nous avons prouvé que la relation
(2.26) est vraie.

Exemple

En nous référant à la population des salariés d’un secteur industriel traité dans le précédent
chapitre, supposons encore une fois que, nous voulons tester l’hypothèse nulle
H 0 :   540 contre l’hypothèse alternative H A :   540 . A cette occasion, supposons que
seul un petit échantillon de taille n  15 pour laquelle X  556$ et s  68$ est disponible.

Sachant que la population des gains des salariés est normalement distribuée, nous pouvons
en dégager une statistique de test en notant, sous l’hypothèse nulle, que :
X  540
TS  a une distribution t de Student à n  1 degrés de liberté.
s/ n

Avec un test unilatéral, nous rejetons encore l’hypothèse nulle si la statistique de test est
suffisamment plus grande que zéro. Il convient dès lors, de déterminer, ce que signifie
concrètement ‘plus grande que zéro’ en nous référant à la Figure 2.11 et à une Table des
valeurs critiques pour la distribution t. Une telle Table, avec des instructions sur son usage,

49
est fournie en annexe de ce document. En utilisant un seuil de significativité de 0,05, nous
remarquons qu’avec n  1  14 , notre critère de test devient :

Rejet de H 0 si TS  t0,05  1,76 avec un jugement réservé si TS  1,76


Dans notre exemple, la statistique de test prend une valeur de TS = 0,91. En appliquant le
critère de test ci-dessus, nous devons réserver notre jugement sur cette hypothèse. Il
apparaît clairement qu’il n’y a pas d’évidence suffisante dans notre échantillon pour pouvoir
rejeter l’hypothèse nulle ou pour affirmer que les gains perçus par les travailleurs du secteur
industriel dépassent 540$.

La distribution F de Fisher

La distribution F de Fisher est également une des distributions importantes auxquelles nous
faisons recours dans des analyses économétriques. Supposons que  u2 et  v2 soient deux
variables indépendantes ayant une distribution  2 et où u et v sont leurs degrés de liberté
respectifs. Le ratio
 u2 / u
F (2.30)
 v2 / v
est appelé la distribution F de Fisher aux degrés de liberté u, v . En clair, une variable de
Fisher est un ratio de deux variables indépendantes  2 , chacune étant divisée par son degré
de liberté correspondant.

L’allure d’une distribution de Fisher est montrée à la Figure 2.12. Elle est similaire à l’allure
de la distribution de  2 avec cependant l’aile de droite plus étendue. La surface totale en
dessous de la courbe équivaut à l’unité, et, de nouveau, nous sommes justifiés en prenant
cette surface pour une fonction de densité de probabilité. L’allure précise de cette distribution
dépend des degrés de liberté u et v associés aux deux distributions de Chi-deux. Les
valeurs critiques de cette distribution de Fisher sont normalement présentées en deux tables,
une pour le seuil de 5% et l’autre pour le seuil de 1% de significativité. De telles tables, avec
des instructions sur leur usage, sont fournies en annexe de chapitre.

La distribution F à (20,20) degrés de liberté

0 F
Figure 2.12. La distribution de Fisher à (20,20) degrés de liberté

Usage d’une distribution de Fisher

Une distribution de Fisher peut être utilisée pour tester une hypothèse nulle selon laquelle
deux populations normalement distribuées ont la même variance. Cette hypothèse nulle est
d’habitude testée contre une hypothèse alternative stipulant qu’une des variances est plus
grande que l’autre. Si  12 et  22 sont les deux variances, nous avons :
H0 :  12   22
HA :  12   22
où la population présumée d’avoir la plus grande variance est notée ‘population 1’

50
Supposons que des échantillons aléatoires, de taille n1 et n2 respectivement, sont
respectivement tirés de deux populations et leurs variances s12 et s22 étant calculés.
Considérons le ratio s12 / s22 . Il est logique de rejeter H0 en faveur de HA et affirmer que
 12   22 si le ratio est suffisamment plus large. Encore une fois, nous avons besoin de savoir
quand justement ce ratio est ‘suffisamment large’.

En vertu de l’hypothèse nulle, H0, les variances des deux populations sont les mêmes et
nous avons donc :
s12 s12 /  12 s12 n1  1 /  12 n1  1
  (2.31)
s22 s22 /  22 s22 n2  1 /  22 n2  1

En utilisant la relation (2.24), nous réalisons que le numérateur de l’expression (2.31) est
une variable  2 à n1  1 degrés de liberté, divisée par ce même degré de liberté. De même,
le dénominateur est une variable  2 à n2  1 degrés de liberté, divisée par ce même degré
de liberté. Dès lors, en partant de la définition d’une variable de Fisher, nous pouvons dire,
sous H0 que :

TS  s12 / s22 a une distribution de Fisher avec n1  1, n2  1

Nous pouvons dès lors recourir aux tables de Fisher pour déterminer si la statistique de test
est suffisamment large pour nous permettre de rejeter l’hypothèse nulle et ainsi dire la
première population a une plus grande variance.

Supposons, par exemple, que le premier échantillon soit de taille n1  11 avec s12  248
pendant que le deuxième échantillon ait une taille n2  20 avec s22  164 . En utilisant une
table de Fisher au seuil de 5% de significativité, et avec 10,19 degrés de liberté, la valeur
critique de F est F0,05 = 2,38. Le critère requis pour le test est :

Rejeter H0 si TS>2,38, mais réserver le jugement si TS<2,38

Pour les deux échantillons considérés, TS  s12 / s22 =1,51. En appliquant notre critère de test,
nous constatons nous devons avoir un jugement réservé au seuil de 5% de significativité au
sujet du rejet de l’hypothèse nulle. En d’autres termes, il n’y a pas de preuve suffisante pour
pouvoir dire que la variance de la première population est plus grande que celle de la
deuxième.

Les tables sur les principales distributions déjà vues dans ce cours (distribution normale
centrée réduite ou standard, distribution de Chi-carré, de Student et Fisher) sont fournies en
annexe de ce syllabus de cours.

51
Chapitre 3 – Algèbre matricielle

Ce chapitre a pour objectif de rappeler les principaux éléments de l’algèbre matricielle. Ces
éléments seront capitalisés par la suite dans l’analyse de la régression linéaire simple et
multiple (chapitres 4 et 5).

3.1. Matrices et vecteurs

Une matrice est un empilement en deux dimensions de nombres. Chaque nombre individuel
est appelé scalaire. Dans la suite du texte nous représenterons les matrices par des lettres
majuscules.

Exemple :

 a11 a12 a13 ......a1n 


 
 a21 a22 a23 ......a2 n 
a a32 a33 .......a3n 
A   31 
 ... ... ... ........... 
 
 ... ... ... ........... 
a am 2 am 3 ..... amn 
 m1

A est une matrice constituée de m rangées et de n colonnes de nombres ou de scalaires.


C’est une matrice d’ordre m X n où m et n désignent respectivement le nombre de lignes et
de colonnes. On représente de façon courante un scalaire de la ième ligne et de la
jème colonne par le symbole aij . A titre d’exemple, a46 est un scalaire de la quatrième ligne
et de la sixième colonne. Comme nous le verrons dans les chapitres consacrés à l’analyse
de la régression linéaire simple et multiple, l’écriture matricielle est essentielle pour
représenter des séries de données impliquant une ou plusieurs variables. Chaque fois
qu’une classification en deux dimensions de données est requise, le recours aux matrices
est d’un intérêt indéniable.

Une matrice constituée d’une seule colonne est appelée vecteur colonne. Nous la
représenterons par une lettre minuscule. Ainsi par exemple :

 a1 
 
 a2  5 
a   
 3    3
a   a4  et b   7  sont respectivement des vecteurs colonnes d’ordre 7x1 et 5X1.
   
 a5  1 
 a6  2 
 
 
 a7 

De même, les vecteurs constitués d’une seule ligne sont appelés des vecteurs lignes. Ainsi
x  x1 x2 x3 .......x8  et y  3  12 5  7 sont des vecteurs lignes d’ordre 1X8 et 1X4
respectivement.

52
Une matrice dont tous les éléments constitutifs sont nuls est appelée vecteur nul et est notée
par le symbole O . De même un vecteur ne contenant que des éléments nuls est appelé
vecteur nul et est noté o ou o

3.2 Définitions et opérations élémentaires sur les matrices

3.2.1 Egalité de deux matrices

Deux matrices A et B sont dites égales si et seulement si chaque scalaire dans une matrice
équivaut au scalaire correspondant dans l’autre matrice. Cette définition équivaut à l’écriture
suivante :

A B ssi aij  bij i et j (3.1)

3.2.2. Multiplication d’un scalaire par un vecteur

Il est des occasions où il est nécessaire de multiplier tous les scalaires d’un vecteur par un
autre scalaire ou une constante. Il s’agit d’une multiplication par un scalaire qu’il ne faudra
pas confondre avec la matrice d’une matrice par une autre.

Si  est une constante quelconque qu’on multiplie par la matrice A pour constituer une
matrice C , on adopte la notation suivante :

C  A ce qui implique que cij  aij i et j (3.2)

Chaque scalaire de la matrice C est obtenue en multipliant le scalaire correspondant de la


matrice A par le scalaire ou la constante  .

3.2.2. Addition versus soustraction matricielle

L’addition de deux matrices se fait en additionnant les scalaires correspondant des deux
matrices. Si par exemple P  A  B , dès lors les scalaires en P sont donnés par :

pij  aij  bij i et j (3.3)

Deux matrices peuvent être additionnées ou faire l’objet d’une soustraction si elles ont les
mêmes dimensions. Bien plus, il va sans dire que cette opération d’addition/ soustraction
peut s’étendre à plus de deux matrices. Ainsi :

A  B  C  B  A  C C  B  A (3.4)

3.2.3 Multiplication matricielle

Supposons que nous ayons deux matrices qui font l’objet d’une multiplication
 b11 b12 
 a11 a12 a13 a14   
   b21 b22 
A   a21 a22 a23 a24  et B  
a a a a  b b32 
 31 32 33 34   31 
b b41 
 41

53
Le produit matriciel P  AB est défini de façon quelque peu arbitraire et étrange. La raison
apparaîtra plus claire juste après. Le scalaire de la ième ligne et de la jème colonne dans la
matrice P est obtenu en faisant la somme des produits des éléments de la ième ligne de A
par les éléments de la jème colonne de B. Ainsi par exemple, pour former le scalaire p32 ,
nous multiplions la troisième ligne de A par la deuxième colonne de B.

p32  a31b12  a32b22  a33b32  a34b42 (3.5)


Pour former un produit matriciel à partir de A et B, il faut que le nombre de colonnes de A
soit égal au nombre de lignes de B.

3.2.4. Transposition de matrices et de vecteurs

Le transposé d’une matrice s’obtient en interchangeant les colonnes et les lignes mais leur
numéro d’ordre reste inchangé. Ainsi donc la première ligne dans une matrice originale
A devient la première colonne dans la matrice transposée notée A .

En général, le scalaire de la ième ligne et de la jème colonne de la matrice A devient le


scalaire de la jème ligne et de la ième colonne dans la matrice transposée A . Si A est la
transposée de la matrice A , on adopte la notation suivante :

aij  a 'ji i et j (3.6)

3.3. Algèbre matricielle comme raccourcis

Bien que la matricielle puisse paraître étrange et arbitraire, une fois qu’elle est adoptée, cette
algèbre matricielle devient un raccourci mathématique intéressant. Considérons par exemple
un système de m équations à n variables x1; x2 , ....., xn ; les aij et b j étant des constantes :

a11x1  a12 x2  a13x3  ......  a1n xn  b1


a21x1  a22 x2  a23 x3  ......  a2 n xn  b2
.
.
am1 x1  am 2 x2  am3 x3  .....  amn xn  bn

A partir de ce système d’équations, nous pouvons définir une matrice A d’ordre m X n avec,
comme d’habitude aij représentant le scalaire de la ième ligne et de la jème ligne. Si nous
définissons en plus les vecteurs colonnes x d’ordre n X 1 et b d’ordre m X 1 comme suit :

 x1   b1 
   
 x2   b2 
x  b 
x   3  et b   3  (3.8)
.  . 
   
.  . 
x  b 
 n  m

54
Dès lors le système d’équations ci-haut défini peut être exprimé sous la forme algébrique
réduite suivante :

Ax  b (3.9)

Cette écriture matricielle sera souvent utilisée au chapitre consacré à l’analyse de la


régression linéaire multiple. Une autre application de l’algèbre matricielle comme raccourci
est constituée par l’exemple suivant :

S 2  x12  x22  x32  ......  xn2 (3.10)


Si nous définissons un vecteur colonne x comme en (3.8), dès lors la somme des carrées
de la relation (3.10) peut simplement s’écrire comme suit :

S 2  xx (3.11)
Où x est le vecteur ligne obtenu en transposant le vecteur colonne x .

3.4. L’inverse d’une matrice

Considérons le système d’équations (3.9) avec en particulier m  n , c’est-à-dire un même


nombre d’équations que de variables. Supposons que nous désirons résoudre un tel
système d’équations. La question intéressante qui se pose à ce niveau est celle de savoir si
il est possible de trouver une matrice que nous pouvons noter A1 , telle que nous puissions
la pré-multiplier de chaque côté de l’équation (3.9) et obtenir :

A1 Ax  A1b ou x  A1b (3.12)

Etant donnée une telle matrice, nous pouvons dès lors l’utiliser dans les opérations
habituelles de multiplication pour former le produit matriciel A1b qui est, conformément à la
relation (3.12), identique à un vecteur colonne x . Les scalaires du vecteur colonne x  A1b
représentent dès lors la solution au système d’équations.

Avant de répondre à la question soulevée dans cette section, rappelons la matrice identité.
C’est une matrice carrée particulière ayant dont les scalaires sur la principale diagonale sont
unitaires pendant que le reste des scalaires sont nuls. Cette matrice est généralement
symbolisée par la lettre I . Par exemple, une matrice identité d’ordre 5 X 5 prend la forme
suivante :

1 0 0 0 0
 
0 1 0 0 0
I  0 0 1 0 0
 
0 0 0 1 0
0 0 0 0 1

La matrice identité a une propriété cruciale. Si une matrice A de dimensions carrées est pré-
multipliée ou post-multipliée par la matrice identité I , elle est reste inchangée. Nous pouvons
noter cette propriété comme suit :

IA  AI  A (3.13)

55
Nous sommes dès lors en position de définir la matrice inverse. L’inverse d’une matrice
carrée A est une matrice notée A1 telle que :

AA1  A1 A  I (3.14)


Où I est la matrice identité. Remarquons que seules les matrices carrées peuvent avoir des
matrices inverses qui sont, à leur tour, carrées ; sinon il serait impossible de former les
produits matriciels AA1 et A1 A .

L’inverse d’une matrice est analogue à l’inverse d’un scalaire ordinaire. Dans l’algèbre
ordinaire, l’inverse d’un scalaire A est 1 / A qui est également noté A1 tel
que AA1  A1 A  1. Cependant, en algèbre matricielle, l’inverse d’une matrice n’est jamais
notée par 1 / A . Il est impossible de diviser une matrice A par une autre matrice B . Au
contraire, dans l’algèbre matricielle, une procédure analogue à la division est de pré-
multiplier ou de post-multiplier A par l’inverse de B . Dès lors, nous formons le produit
matriciel B 1 A  AB 1 .

Dès lors que nous avons défini la matrice inverse, il devient clair que, étant donné une
matrice A1 , nous pouvons résoudre le système d’équations linéaires par la procédure
décrite à la relation (3.12). Procédons cette fois-ci aux différentes étapes de la procédure de
détermination de l’inverse d’une matrice.

3.5 Déterminants des matrices

Toute matrice carrée A est associée à un scalaire connu sous le nom de déterminant de la
matrice et noté det(A) ou A . Si la matrice A est d’ordre n x n , le déterminant correspondant
sera d’ordre n .

L’évaluation d’un déterminant d’ordre 2 se fait de la manière suivante:

a11 a12
A  a11a22  a12a21 (3.15)
a21 a22

L’évaluation des déterminants d’ordre supérieur à 2 se fait généralement par le calcul des
mineurs et cofacteurs. En supprimant la ième ligne et la jème colonne d’une matrice carrée,
nous obtenons une sous-matrice liée au scalaire aij . Le déterminant de cette sous-matrice
est appelé mineur qu’on note mij . A titre d’exemple, en rayant la première ligne et la
deuxième colonne d’une matrice carrée 3x3, nous avons :

 a11 a12 a13 


   a21 a23 
 a21 a22 a23  donne une sous-matrice   . Le mineur du scalaire a12 est donné par le
a a a   31 33 
a a
 31 32 33 
déterminant de la sous-matrice ainsi obtenue en balayant la ligne et la colonne de ce
scalaire. C’est-à-dire que :
a21 a23
m12   a21a33  a23a31 .
a31 a33

56
Tous les scalaires d’une matrice ont bien évidemment des mineurs correspondants. Le
cofacteur de n’importe quel scalaire d’une matrice est intimement lié à son mineur. Le
cofacteur cij d’un scalaire aij de la matrice A est défini comme suit:
cij   1 mij
i j
(3.16)

Il est possible de procéder au calcul des cofacteurs pour trouver le déterminant d’une
matrice surtout quand cette dernière comporte un nombre de lignes et de colonnes supérieur
à deux. Ce déterminant équivaut à la somme des produits des scalaires d’une ligne ou d’une
colonne au choix par leurs cofacteurs respectifs.

  4 0 2
 
En considérant par exemple la matrice 3x3 suivante:  1  3 1  il est possible de calculer
  2 1 0
 
son déterminant en faisant le développement des produits des scalaires de la première ligne
(le choix porte sur cette rangée parce qu’elle comporte déjà un élément nul, ce qui réduit les
calculs à faire), ce qui donne le résultat suivant :

A  a11c11  a12c12  a13c13


 a11m11  a12m12  a13m13

Etant donné que les mineurs correspondants aux scalaires de la première ligne sont :

3 1 1 1 1 3
m11   1 , m12   2 , m13   5
1 0 2 0 2 1

Le déterminant A   4 1  02  2 5  6

Notons que quelle que soit la ligne ou la colonne considérée dans le développement des
produits de scalaires par leurs cofacteurs correspondants, nous obtenons le même résultat
en ce qui concerne le déterminant de la matrice. Bien plus, notons que les produits (scalaires
par cofacteurs correspondants) obtenus alternent de signe. A titre exemplatif, l’égalité ci-
dessous montre le modèle d’alternance des signes permettant d’établir l’égalité mineurs
cofacteurs.

 c11 c12 c13   m11  m12 m13 


   
 c21 c22 c23     m21 m22  m23  (3.17)
c c c   m 
 31 32 33   31  m32 m33 

Evaluation de déterminants d’ordre supérieur

Les déterminants des matrices d’ordre 4x4 ou supérieur peuvent également être évalués en
termes de mineurs et cofacteurs. Cette fois-ci cependant, si nous prenons n’importe quel
scalaire d’une matrice 4x4 et que nous supprimons sa ligne et sa colonne, il nous reste une
sous matrice d’ordre 3x3. Le mineur mij est obtenu en faisant le calcul de la sous matrice.
Dès lors que ce déterminant est d’ordre 3, il doit être évalué par la méthode présentée à la
section précédente. Le cofacteur du scalaire aij est dès lors obtenu en utilisant la relation

57
(3.16). La relation (3.18) fait une extension du changement de signe en faisant le passage
des mineurs aux cofacteurs et vice-versa.

 c11 c12 c13 c14   m11  m12 m13  m14 


   
 c21 c22 c23 c24    m21 m22  m23 m24 
c  (3.18)
c32 c33 c34   m31  m32 m33  m34 
 31   
c c42 c43 c44    m41 m42  m43 m44 
 41

Le déterminant d’une matrice 4x4 peut être évalué de manière exactement analogue au
calcul d’un déterminant d’ordre 3. Nous pouvons prendre n’importe quelle ligne ou colonne et
multiplier ses scalaires par leurs cofacteurs respectifs. La somme de ces produits est le
déterminant de la matrice. En faisant le développement par rapport aux scalaires de la
première ligne, nous obtenons :

A  a11c11  a12c12  a13c13  a14c14


(3.19)
 a11m11  a12m12  a13m13  a14m14

Les déterminants des matrices d’ordre supérieur se calculent exactement de la même façon
que ceux des matrices 3x3 ou 4x4. L’alternance des signes entre cofacteurs et mineurs se
fait sur le même modèle et l’extension se fait à la fois vers le bas et vers à droite.
L’évaluation des déterminants d’ordre élevé pose cependant un problème de manipuler des
calculs qui s’amplifient. En effet, le calcul d’un déterminant d’une matrice 4x4 fait intervenir
un déterminant d’ordre 3, de même en faisant le calcul d’un déterminant d’une matrice
d’ordre 5x5 fait intervenir un déterminant d’ordre 4. De façon générale, le déterminant d’une
matrice d’ordre nxn fait intervenir un déterminant d’ordre n-1.

3.6. L’inverse d’une matrice

L’inverse d’une matrice A d’ordre nxn a été définie par la relation (3.14). Maintenant que
nous sommes familiers avec la notion de déterminant, nous sommes en mesure de trouver
l’inverse de la matrice A notée A1 .

La première étape est de former à partir de la matrice A une nouvelle matrice en remplaçant
chaque scalaire aij de A par son cofacteur cij . La transposée de cette nouvelle matrice de
cofacteurs est appelée matrice adjointe de A . C’est-à-dire :

 c11 c21 c31 .....cn1 


 
 c12 c22 c32 ......cn 2 
c c23 c33 ......cn 3 
adj  A   13  (3.20)
. . . . 
 
. . . . 
c c2 n c3n ...... cnn 
 1n
Il est toujours possible de vérifier cette importante propriété des déterminants :

58
A 0 0 .......0 
 
0 A 0 .......0 
 
Aadj  A  adj  AA  
0 0 A ......0 
 AI (3.21)
 
. . . .
. . . .
 
0 0 0...... 0 

Où I est une matrice identité nxn . En effet en multipliant la matrice adjointe de la matrice
A par la même matrice on obtient une matrice dont les scalaires de la diagonale équivalent
chacun au déterminant de la matrice A , le reste des scalaires étant constitué de zéros.

En supposant que A  0 , nous pouvons multiplier la relation (3.21) par le scalaire 1 / A pour
obtenir :

A1 / A adj  A  1 / A adj  AA  I (3.22)

La comparaison des relations (3.21) et (3.22) avec (3.14) indique que la matrice inverse
A1 est donnée par :

 c11 c21 c31 .....cn1 


 
 c12 c22 c32 ......cn 2 
 c23 c33 ......cn 3 
1  c13
A  adj  A 
1 1  (3.23)
A A . . . . 
 
. . . . 
c c2 n c3n ...... cnn 
 1n

En rappelant la multiplication d’une matrice par un scalaire, nous réalisons que l’inverse
d’une matrice A peut être formé en multipliant tous les scalaires de sa matrice adjointe par le
scalaire 1 / A . Remarquons que la procédure ci-haut décrite de calcul de la matrice inverse
est seulement possible si A  0 . Si A  0 , la matrice A est dite singulière et ne peut pas
d’inverse.

Une matrice donnée a une seule matrice inverse. C’est-à-dire que, si A1 existe, elle est
unique. Pour se rendre à l’évidence, supposons qu’une matrice inverse notée B existe telle
que AB  I . Dès lors :
A1  A1I  A1 AB  B , c’est donc dire que la matrice B équivaut à A1 . L’inverse d’une
matrice est souvent utilisé pour fournir une solution à un système d’équations comme le met
en relief la relation (3.12).

3.7. Dépendance linéaire et rang d’une matrice

Une série de m vecteurs colonnes a1 , a2 , a3 ,…., am d’ordre nx1 sont linéairement dépendants
si il existe une série de scalaires i , non tous nuls, tels que :

59
1a1  2a2  3a3  .....  n an  o (3.24)

Où o est un vecteur colonne dont tous les scalaires sont nuls.

A titre exemplatif, considérons les vecteurs colonnes suivants :

 
4  0 6 
     
a1    2  , a2   3  et a3   0  ; étant donné que 3a1  2a2  2a3  o , ces vecteurs sont
3  1   
     11 
2
dits linéairement dépendants.

Des vecteurs colonnes ai sont dits linéairement indépendants si il est impossible de trouver
des scalaires i non tous nuls tels que  a
i i o.

5 15 
   
Exemple : a1   2  et a2  10  sont linéairement indépendants.
 4   3
   

Une matrice A d’ordre mxn peut être considérée comme une série de n vecteurs colonnes
d’ordre mx1 qui se juxtaposent côte à côte. C’est-à-dire que la matrice A peut s’écrire
comme suit :

A  a1 a2 a3.........an  (3.25)

Le rang d’une matrice A noté r  A est le nombre maximal de colonnes linéairement


indépendantes dans la matrice. A titre d’exemple, une matrice A constituée de vecteurs
colonnes a1 et a2 présentés précédemment a comme rang 2 étant donné que les deux
vecteurs colonnes sont linéairement indépendants.

Une matrice A d’ordre mxn peut également s’écrire comme m1xn  vecteurs lignes a1 ,
a2 , a3 ,…., an empilés les uns sur les autres. Il peut être montré que le rang d’une matrice
peut également se définir comme étant le nombre maximal de lignes linéairement
indépendantes dans la matrice. Après tout, c’est toujours le cas que le nombre maximal de
lignes linéairement indépendantes équivaut au nombre maximal de colonnes linéairement
indépendantes.

Il est possible de montrer que pour que le rang d’une matrice mxn soit k , il est nécessaire
que :
(a) Chaque mineur d’ordre k  1 soit nul
(b) Au moins un mineur d’ordre k soit non-nul

Considérons la matrice A suivante :

60
 4  2 3
 
A  8  4 6 
 2  1  3
 
La matrice A a comme rang 2 parce que les deux premières lignes sont linéairement
dépendantes (la deuxième ligne étant le double de la première). Nous pouvons dès lors
obtenir un mineur d’ordre 3 si nous considérons le déterminant de toute la matrice A . Etant
donné que la matrice A est singulière, son déterminant A  0 . Nous pouvons cependant
trouver un mineur d’ordre 2 qui est non-nul en rayant la première ligne et la première colonne
de la matrice A . Ceci confirme que le rang r  A  2 . Ceci veut dire qu’une façon de
déterminer le rang d’une matrice est de chercher le plus grand déterminant non-nul qui peut
être formé à partir de ses lignes et colonnes.

Pour que le rang d’une matrice carrée nxn soit n , cette matrice doit être non-singulière. Dès
lors un système nxn d’équations Ax  b aura une solution unique si r  A  n . Dans cette
section, il convient de rappeler un résultat important au sujet du rang des produits matriciels.
Il peut être montré que le rang d’un produit matriciel AB ne peut excéder le plus petit des
rangs des matrices A et B .

3.9 Dérivation matricielle

Considérons le produit matriciel suivant :

 x1 
 
 x2 
x 
ax  a1 a2 a3......an  3   a1 x1  a2 x2  a3 x3  ....  an xn
. 
 
. 
x 
 n
La dérivée partielle de ax par rapport à chacun des xi est donnée par le scalaire du
vecteur a . C’est-à-dire que : ax  / xi  ai , i . Si nous rangeons les n dérivées partielles
sous forme d’un vecteur colonne, nous pouvons écrire :

(ax)
a (3.26)
x

Le terme de gauche de la relation (3.26) désignant le processus de dérivation de ax par


rapport à xi . En sachant que le scalaire ax peut également être noté xa , nous pouvons
dès lors écrire :
xa 
a (3.27)
x

Considérons cette fois-ci le produit matriciel :

61
x 
a12 a13......a1n  1 
 a11
  x 
a22 a23.....a2 n  2 
 a12
x
xAx  x1 x2 x3 ......xn  a13
a23 a33.....a3n  3  (3.28)
  . 
. . . .......  
  .
a2 n a3n .....ann  
 a1n
 xn 
Il convient de noter que la matrice A est une matrice symétrique, c’est-à-dire que
chaque aij  a ji , i, j . Le développement du produit matriciel xAx donne lieu à l’égalité
suivante :

xAx  a11x12  2a12 x1 x2  2a13x1 x3  .......  2a1n x1 xn


 a22 x22  2a23x2 x3  .......  2a2 n x2 xn
 a33x32  ...........  2a3n xn
(3.29)
.
.
 ann xn2
xAx est un exemple de ce qu’on appelle une forme quadratique. La dérivation partielle de
(3.29) par rapport à chacun des xi donne :


xAx   2a11x1  a12 x2  a13x3  .....  a1n xn 
x1

xAx   2a12 x1  a22 x2  a23x3  .....  a2 n xn 
x2

xAx   2a13x1  a23x2  a33x3  .....  a3n xn  (3.30)
x3
.

xAx   2a1n x1  a2 n x2  a3n x3  .....  ann xn 
xn

Les quantités entre parenthèses du côté droit de la relation de la relation (3.30) sont les
scalaires du produit matriciel Ax . Si nous plaçons ces scalaires sous forme d’un vecteur

colonne, nous pouvons écrire la dérivation partielle xAx   2 Ax (3.31)
x

Cette dérivation sera d’une application importante au chapitre 5 consacré à la régression


linéaire multiple.

L’inverse d’une matrice de n’importe quelles dimensions tout comme la multiplication


matricielle se font aisément avec le tableur Excel, en faisant respectivement recours aux
fonctions inversemat et produitmat (illustrations dans la salle de calcul).

62
Chapitre 4 – Régression linéaire simple

4.0. Introduction

L’économétrie peut être définie comme ‘l’application des statistiques mathématiques aux
données économiques pour prêter un soutien empirique aux modèles construits par les
mathématiques économiques et pour obtenir des estimateurs numériques (Samuelson et al.,
1954, pp. 141-6).3

Plus succinctement, le rôle principal de l’économétrie est de rendre plus crédibles (solides)
les modèles et postulats théoriques. La théorie économique déduit ou prédit des relations
variées entre variables (exemples : fonction de demande (cfr théorie du consommateur qui
établit une relation entre la quantité d’un bien demandée et son prix, fonction de production
mettant en relation la quantité produite avec le coût des inputs et celle d’offre (cfr théorie du
producteur) qui relie la quantité offerte au prix du bien émis sur le marché.

L’économètre est préoccupé par :

(i) La mesure des relations entre variables économiques et l’estimation des paramètres
qu’elles impliquent
(ii) Le test des idées théoriques véhiculées par de telles relations
(iii) L’utilisation de ces relations entre variables économiques à des fins prédictives ou
prévisionnelles

L’économétrie implique une série de disciplines engobant les mathématiques économiques,


les statistiques économiques et l’inférence statistique.

Dans le cadre de ce cours de techniques quantitatives appliquées à l’économie rurale, nous


passerons en revue deux chapitres introductifs de l’économétrie à savoir la régression
linéaire et la régression linéaire multiple. Le premier type de régression implique uniquement
deux variables : une variable dépendante et une variable explicative pendant que le
deuxième type de régression admet plusieurs variables explicatives pour une même variable
dépendante.

4.1. Régression linéaire simple

Il s’agit d’une analyse de la régression impliquant deux variables. Pour y voir plus clair,
considérons un échantillon aléatoire de 25 ménages tiré d’une population d’un pays
industrialisé. La série de 25 observations correspondant aux 25 ménages de l’échantillon
contient des informations en centaines de dollars américains de leur revenu annuel
disponible et de leurs dépenses totales sur les biens et services non durables (Table 4.1).
Dans la mesure où les ménages font face aux mêmes prix prévalant à la même époque,
nous n’avons pas besoin de tenir compte des différences entre consommation réelle et
consommation nominale ou entre revenu réel et revenu nominal.

Nous sommes intéressés par la relation existant entre la consommation et le revenu


disponible. Nous nous intéressons plus particulièrement à la forme et à la nature des
relations pouvant exister entre les deux variables. L’analyse de telles relations existant entre
deux ou plusieurs variables est appelée analyse de la régression.

3
Samuelson, P.A., Koopmans, T.C., Stone, J.R.N. (1954). Report of the Evaluative Committee for Econometrica.
Econometrica, 22, 141-146.

63
Tableau 4.1. Revenu du ménage ( X ) et sa consommation ( Y )

Ménage Yi Xi
1 52,3 36,4
2 78,44 46,8
3 88,76 57,2
4 54,08 67,6
5 111,44 74,3
6 105,2 86,5
7 45,73 91,3
8 122,35 102,8
9 142,24 114,5
10 86,22 120,9
11 174,5 135
12 185,2 144
13 111,8 156
14 214,6 173,7
15 144,6 182
16 174,36 199,2
17 215,4 208
18 286,24 217,8
19 188,56 223,2
20 237,2 234
21 181,8 251
22 373 260
23 191,6 289,5
24 247,12 296,4
25 269,6 312

Nous nous limitons dans ce chapitre à l’analyse de la régression entre deux variables,
laissant momentanément de côté le cas de plusieurs variables qui sera traité au chapitre
suivant.

En analysant la relation existant entre le revenu disponible et la consommation, le lecteur


pourra noter qu’il y a d’autres facteurs qui entrent en ligne de compte dans cette relation. La
direction de la relation de cause à effet importe beaucoup. Dans le cas d’espèce c’est le
revenu qui justifie la consommation et non l’inverse, c’est-à-dire que le revenu explique la
consommation. La variable ‘revenu’ est ainsi appelée variable explicative et sera
notée X pendant que la variable ‘consommation’ est appelée variable dépendante notée Y .

Le diagramme de dispersion montre le nuage de points ayant pour coordonnées X en


abscisses et Y en ordonnées. La relation entre le revenu X et la consommation Y est
positive dans la mesure où la consommation augmente quand le revenu augmente.

64
Figure 4.1. Diagramme de nuage de points du revenu X et de la consommation Y

4.2. Lignes de régression de la population et de l’échantillon

Avant de continuer à investiguer la relation entre X et Y , nous avons besoin de développer


un modèle formel qui explique cette relation. L’échantillon de 25 ménages est tiré
probablement d’une population de plusieurs milliers voire millions de ménages recensés sur
un territoire national donné.

Supposons que la relation entre le revenu X et la consommation Y de ces ménages soit de


la forme :

EY     X (4.1)

où E Y  représente la consommation attendue ou espérée ou attendue d’un ménage étant


donné son revenu X ; E Y  peut s’interpréter comme étant la consommation moyenne de
plusieurs ménages ayant un même revenu donné X ;  et  étant des paramètres inconnus
de la population à estimer.

La relation (4.1) est appelée ‘équation de régression de la population’. Nous avons


supposé une relation linéaire pour des raisons de simplicité tout en reconnaissant que cette
relation n’est pas nécessairement linéaire. La Figure 4.2 représente cette ligne de régression
de la population.

La consommation actuelle Y d’un ménage ne sera pas toujours égale à la valeur


espérée E Y  . La consommation actuelle d’un ménage peut être perturbée ou déviée de sa
valeur espérée par plusieurs causes souvent incontrôlées.

65
Y

0 X
Figure 4.2. Ligne de régression de la population

La consommation Y s’écrit alors :

Y  EY    (4.2)
Ou encore :
Y    X   (4.3)
où  désigne la perturbation ou le terme d’erreur qui peut être positif ou négatif. Ce terme
d’erreur représente les effets d’autres facteurs non pris en compte dans cette explication de
la consommation par le revenu. Le terme  représente aussi l’imprévisibilité ou le caractère
aléatoire du comportement humain.

Nous avons simplement représenté le revenu par X et la consommation par Y mais


logiquement, pour l’échantillon de 25 ménages numérotés de 1 à 25, nous devrions noter le
revenu par X i et la consommation par Yi . Nous pouvons ainsi passer à la notation valable
pour chacun des ménages de cet échantillon en procédant comme suit:

E Yi     X i i  1,2,..................., n (4.4)


et Yi    X i   i i  1,2,..................., n (4.5)

 i est la valeur inobservée de la perturbation  pour le ménage i . Par exemple,  7 est la


perturbation associée au septième ménage. Par exemple, La ligne de régression (4.1) est
inconnue pour tout investigateur et restera toujours inconnue. Pour estimer cette ligne de
régression de la population de la Figure 4.2, il faut ajuster une droite de régression qui passe
dans le nuage de points de la Figure 8.1.
Supposons que cette droite ajustée soit représentée par l’équation suivante :

Yˆ  ˆ  ˆX (4.6)
La relation (4.6) est l’équation de régression de l’échantillon et représente une ligne droite
avec un intercepte ̂ et une pente ˆ . ̂ et ˆ sont en fait respectivement les estimateurs des
paramètres  et  qui apparaissent dans l’équation de régression de la population (4.1).

Yˆ est la valeur prédite de Y ; elle est appelée ainsi parce qu’il est possible, et ce pour
chaque ménage, de trouver la valeur de la consommation en substituant le revenu X par sa
valeur.

66
Exemple : Yˆ14  ˆ  ˆX14  ˆ  173,70ˆ

Pour tout ménage i  1,2,..................., n , il est possible d’utiliser l’équation de régression de


l’échantillon pour obtenir la consommation prédite pour chaque ménage en adoptant la
notation générale suivante dans laquelle on substitue la variable X i par le revenu
correspondant:

Yˆi  ˆ  ˆX i i  1,2,..................., n (4.7)

La consommation prédite Yˆi ne pourra pas coïncider avec la valeur actuelle de la


consommation Yi pour le ménage i sinon tous les points du diagramme de dispersion se
situeraient sur une même droite qui est la ligne de régression de l’échantillon ; ce qui est peu
probable. La différence entre la consommation actuelle ( Yi ) et la consommation prédite ( Yˆi )
est connue sous le nom de résidu que nous représentons par ei . Ainsi donc, nous pouvons
écrire :

Yi  Yˆi  ei i  1,2,..................., n (4.8)

Ainsi par exemple, e10 est le résidu associé au 10ème ménage de l’échantillon et est
simplement la différence entre la consommation actuelle Y10 et sa consommation prédite Yˆ10 .
Clairement la relation (4.8) indique qu’il y aura un résidu pour chaque ménage de
l’échantillon.

Il est important de ne pas confondre le résidu avec la perturbation ou le terme d’erreur


introduit précédemment. L’analyse de la Figure 4.3 permet d’y voir clair. Dans cette figure, la
ligne discontinue représente l’équation de régression de la population qui est et reste
inconnue de tout investigateur. Le point marqué par une croix représente les valeurs
actuelles de la consommation et du revenu du 14ème ménage du Tableau 4.1. C’est donc un
des points du nuage de points apparaissant au diagramme de la Figure 4.1.

Y x 14
Y14 e14 EY     X

Yˆ  ˆ  ˆX

Yˆ14 E Y14 

0 X 14 X

Figure 4.3. Perturbations (termes d’erreur) et résidus

L’examen des équations (4.4) et (4.5) qui, conjointement, nous permettent d’écrire :

67
Yi  E Yi    i i  1,2,..................., n (4.9)

nous montre que le terme d’erreur correspondant au 14ème ménage noté 14 est la distance
verticale comprise entre le point noté x et la ligne de régression de la population. Ce qui veut
dire que :

14  Y14  EY14 

Même si l’investigateur connaît l’emplacement exact du point noté ‘x’, le terme d’erreur ne
sera pas connu tant que l’équation de régression de la population reste inconnue. Pour
chaque ménage, on peut lui faire correspondre un point du nuage de points. S’il advient
qu’un point donné (consommation actuelle) soit situé en dessous de la ligne de régression
de la population, la perturbation correspondante est négative mais reste inconnue.

La ligne continue de la Figure 4.3 représente l’équation de régression de l’échantillon (4.6)


encore appelée droite d’ajustement du nuage de points de la Figure 4.1 au moyen d’une
méthode qui n’est pas encore ici dévoilée.

En partant de la relation (4.8), il peut être déduit que e14 , le résidu associé au 14ème ménage,
est en réalité la distance verticale entre le point noté ‘x’ et la ligne de régression de
l’échantillon. De la même façon, le résidu de n’importe quel ménage de l’échantillon peut être
représenté par la distance verticale comprise entre le point du nuage correspondant à ce
ménage et la droite de régression de l’échantillon. Les points en dessous de la ligne de
régression de l’échantillon sont caractérisés par un résidu négatif pendant que ceux qui se
trouvent au-dessus de cette ligne présentent un résidu positif. Notons que cette fois-ci, les
points du nuage étant connus et que la ligne de régression de l’échantillon est aussi connu,
les résidus, contrairement aux perturbations, sont des quantités connues. Et d’ailleurs les
résidus sont souvent considérés comme des estimateurs des termes d’erreur qui, eux, sont
inconnus.

Jusqu’à présent, nous n’avons délibérément rien dit sur la façon dont la ligne de régression
de l’échantillon est obtenue. Cependant, quelle que soit la méthode adoptée pour ajuster une
droite à partir du nuage de points, il en résultera toujours une série de
résidus, ei , (i  1,2,..................., n) .

4.3. Estimation par la méthode des moindres carrés ordinaires

En ajustant la ligne ou la droite de régression de l’échantillon dans le nuage de points, il est


logique de sélectionner une ligne (c’est-à-dire choisir les valeurs ̂ et ˆ ) telle que les résidus
ei soient aussi petits que possible. Les résidus ei étant donnés par l’expression
ei  Yi  Yˆi seront minimes si la valeur prédite de la consommation obtenue par la ligne de
régression de l’échantillon est proche de la consommation actuelle (le point du nuage sur le
diagramme repris à la Figure 4.1).

La méthode la plus populaire et la mieux connue pour bien ajuster la droite de régression de
l’échantillon est de choisir minimiser les résidus est de choisir ̂ et ˆ qui minimisent la

68
somme des carrés des résidus e
i
2
i . Cette méthode d’estimation des paramètres  et  de

la population est connue sous le nom de méthode des Moindres Carrés Ordinaires (MCO).
La popularité de la méthode tient au fait que, sous certaines hypothèses, que nous
passerons d’ailleurs en revue au chapitre suivant, la méthode des MCO donne de bons
estimateurs de  et  . Nous expliquerons plus tard ce qu’il faut entendre par ‘bon’
estimateur. Pour le moment, focalisons-nous sur la question technique de dégager les
estimateurs MCO.

Représentons par S la somme des carrés des résidus ; à partir des relations (4.7) et (4.8)
nous avons ainsi:

    Y  ˆ  ˆX 
n n 2 n 2

S   ei2   Yi  Yˆi i i (4.10)


i 1 i 1 i 1

La méthode des MCO choisit ̂ et ˆ qui minimisent la somme S . Pour minimiser S (relation
4.10) par rapport à ̂ et ˆ , il faut annuler les dérivées partielles premières et rendre
négatives les dérivées partielles seconde par rapport à ces deux paramètres. Nous avons
ainsi :

S
 
n
 2 Yi  ˆ  ˆX i  0 (4.11)
ˆ i 1

S
 
n
 2 X i Yi  ˆ  ˆX i  0
ˆ i 1

(4.12)

Le terme entre parenthèses dans les équations (4.11) et (4.12) est en effet le terme
résiduel ei  Yi  ˆ  ˆX i . Il est donc possible d’écrire les équations (4.11) et (4.12) comme
suit:

 2 ei  0 et  2 X i ei  0 . Les deux équations impliquent que :


i i

e
i
i  0 et X ei
i i 0 (4.13)

Les résidus des MCO obéissent toujours aux relations (4.13). Comme ˆ  nˆ , nous
i

pouvons réarranger les équations (4.11) et (4.12) comme suit :

Y  nˆ  ˆ  X
i i (4.14)

 X Y  ˆ  X
i i i  ˆ  X i2 (4.15)

69
Les équations (4.14) et (4.15) sont appelées ‘équations normales’ du modèle de régression
de deux variables. Dans la mesure où X i et  X Y peuvent être calculées à partir de la
i i

série de données de l’échantillon, les seules inconnues sont ̂ et ˆ .

La relation (4.14) peut se traduire, en divisant par n , comme suit :

 ˆ  ˆ  i ; cela équivaut à : Y  ˆ  ˆX où Y et X sont les moyennes


Yi X
n n
arithmétiques de l’échantillon des variables Y et X respectivement. A partir de cette
dernière relation, il est possible de dégager ̂ comme suit :

ˆ  Y  ˆX (4.16)

La relation (4.15) devient :

X Y i i  ˆ  X i  ˆ  X i2

 Y  ˆX  X i  ˆ  X i2
 Y  X i  ˆX  X i  ˆ  X i2

X i  Yi  ˆ  X i2   X i  
1  1 2

n
  n 

Il est dès lors possible d’extraire l’estimateur ˆ comme suit :


1
 X Y  n  X Y
i i i i
ˆ  (4.17)
 X   X 
1 2 2
i i
n
Du reste, nous savons d’un côté que  X i  X    X i2 
2 1
n
 X i  et de l’autre
2

 X  X Y  Y    X Y  n  X Y , l’estimateur ˆ peut alors s’écrire comme suit:


1
que i i i i i i

ˆ  
xy i i
(4.18)
x 2
i

où xi  X i  X et yi  Yi  Y sont respectivement des écarts ou des déviations de X i et Yi


de leurs moyennes respectives X et Y .

Le Tableau 4.2 reprend les principaux calculs de base pour une régression à deux variables.
Nous pouvons dès lors calculer les estimateurs pour le présent exemple :

Y  Y i
 163.29 et X  X i
 163.20 (4.19)
n n

Nous pouvons cette fois-ci calculer ce que nous pouvons appeler les trois grands blocs de
base de la régression à deux variables. Ces blocs ou ces quantités sont :

70
x  X
2
i i
2

1
 X i 2  832146,8  1 4080,102  166258,2 (4.20)
n 25

 x y   X Y  n  X Y  801322,7  25 4080,10 * 4082,34  135068,5


1 1
i i i i i i (4.21)

 y  Y
2
i i
2

1
Yi 2  825308,5  1 4082,342  158688,5 (4.22)
n 25

Dans l’immédiat, nous n’aurons pas besoin d’utiliser la relation (4.22). En incorporant les
relations (4.20) et (4.21) dans la relation (4.18), nous dégageons l’estimateur ˆ comme
suit :

ˆ  
xi yi 135068,5
  0,812 (4.23)
 xi2 166258,2

Tableau 4.2. Les calculs de base pour une régression de deux variables

Yi Xi Yi 2 X i2 X iYi
52,3 36,4 2735,29 1324,96 1903,72
78,44 46,8 6152,8336 2190,24 3670,992
88,76 57,2 7878,3376 3271,84 5077,072
54,08 67,6 2924,6464 4569,76 3655,808
111,44 74,3 12418,8736 5520,49 8279,992
105,2 86,5 11067,04 7482,25 9099,8
45,73 91,3 2091,2329 8335,69 4175,149
122,35 102,8 14969,5225 10567,84 12577,58
142,24 114,5 20232,2176 13110,25 16286,48
86,22 120,9 7433,8884 14616,81 10423,998
174,5 135 30450,25 18225 23557,5
185,2 144 34299,04 20736 26668,8
111,8 156 12499,24 24336 17440,8
214,6 173,7 46053,16 30171,69 37276,02
144,6 182 20909,16 33124 26317,2
174,36 199,2 30401,4096 39680,64 34732,512
215,4 208 46397,16 43264 44803,2
286,24 217,8 81933,3376 47436,84 62343,072
188,56 223,2 35554,8736 49818,24 42086,592
237,2 234 56263,84 54756 55504,8
181,8 251 33051,24 63001 45631,8
373 260 139129 67600 96980
191,6 289,5 36710,56 83810,25 55468,2
247,12 296,4 61068,2944 87852,96 73246,368
269,6 312 72684,16 97344 84115,2
 Yi =4082,34  Xi = Yi 2 =825308,5  2
X i =832146,8  Yi X i =801322,7
4080,10

71
Etant donné ˆ , il nous est possible de calculer l’estimateur ̂ en combinant les relations
(4.16) et (4.19) :

ˆ  Y  ˆX  163,29  0,812 *163,20  30,71 (4.24)

L’équation de la droite de régression de l’échantillon devient :

Yˆ  30,71  0,812 X (4.25)

L’équation (4.25) est l’équation de régression de l’échantillon que nous faisons passer à
travers le nuage de points de la Figure (4.1), ce qui donne l’illustration reportée à la Figure
4.4.

Figure 4.4. Droite de régression de l’échantillon

4.4. Mesure de la qualité d’ajustement de la droite de régression de l’échantillon

Nous venons de voir que la droite de régression de l’échantillon s’ajuste bien à travers le
nuage de points dans la Figure 4.4 de façon à être plus proche de tous les points et par
conséquent à minimiser les résidus. Un meilleur ajustement reste cependant une expression
vague et il devient impérieux d’avoir un indicateur statistique à travers il devient possible
d’évaluer et de comparer la qualité d’ajustement de plusieurs droites de régression de
l’échantillon dans un diagramme de dispersion.

Pour déduire un tel indicateur, nous considérons la question suivante :

‘Quelle est la proportion de la variation dans la consommation parmi les 25 ménages peut-on
attribuer à la variation dans leur revenu ?’ Clairement, si avec les variations dans le revenu
des ménages nous pouvons expliquer une large proportion de variations dans la
consommation, dans ce cas la droite de régression s’ajuste mieux dans le diagramme de
dispersion.

72
Pour répondre à la question posée, considérons la Figure 3.5 dans laquelle nous dessinons
une droite horizontale correspondant à la moyenne de l’échantillon Y  163.29 . Le seul point
qui apparaît dans le diagramme se réfère au 18ème ménage pour lequel, Y18  286,24 et
Yˆ18  207,55 mais le raisonnement que nous développons ici s’applique à n’importe quel point
du nuage de la Figure 3.1.

Mesurons le niveau de la variation dans la consommation par rapport à la moyenne ; pour le


point considéré, la variation totale à la moyenne s’écrit :

Y18  Y  122,95 . Cependant, pour ce même ménage, la variation en Y qui peut être
attribuée au revenu X (c’est-à-dire due à la droite de régression de l’échantillon) est donnée
par la distance verticale Yˆ18  Y  44,26 . La part de la variation en Y qui ne peut être
attribuée au revenu X peut être dégagée et équivaut au résidu e18  78,69 associé au 18ème
ménage. Pour cette raison, nous appelons cette variation, la variation résiduelle en Y . A
partir de la Figure 8.5, nous remarquons que :

La variation totale = variation due à X + variation résiduelle

Y18  Y  Yˆ18  Y  Y18  Yˆ18  Yˆ18  Y  e18

Yˆ  30,17  0,812 X
x
e18
122,95  Y18  Y
Yˆ18  Y  44,26
Y  163,29

0 X
Figure 4.5. Décomposition de la variation totale en Y

En procédant de la sorte, il est clair que, pour chaque point du diagramme, nous pouvons
décomposer la variation totale en Y en une variation attribuée à X et en une variation
résiduelle. Nous pouvons noter cette décomposition de la manière suivante :

Yi  Y  Yˆi  Y  ei i  1,2,..................., n (4.26)

C’est dont nous avons besoin est donc une mesure globale de la division mise en relief dans
la relation (8.26) et qui couvre tous les ménages. Pour tous les ménages de notre
échantillon, c’est-à-dire, tous les points du diagramme, une mesure évidente globale de la

73
 Y  Y 
2 4
variation totale en Y par rapport à sa moyenne Y est: i . Cette quantité est
i

souvent appelée la somme des carrés totale.

A partir de tous les points de l’échantillon, il est également possible de construire sur le
même modèle une mesure de la variation en Y , par rapport à sa moyenne, attribuable à la

 Yˆ  Y 
2
variation du revenu X qui est : i . C’est la somme des carrés expliquée ou la
i

variation expliquée en Y . Enfin, une mesure pertinente du terme restant appelée variation
résiduelle en Y est e
i
2
i encore appelée somme des carrés résiduelle.

Présentons cette fois-ci un résultat important: pourvu que notre méthode d’estimation soit la
méthode des moindres carrés ordinaires, il découle de la relation (8.26) que :

 Y  Y    Yˆ  Y    e
2 2 2
i i i (4.27)

Ainsi, pour tous les points du diagramme représenté à la Figure 4.1, pourvu que nous
définissions nos mesures comme indiquées ci-dessus, nous avons:

Variation totale en Y = variation due à X + variation résiduelle

Nous pouvons traduire dans les termes qui suivent l’égalité ci-dessus:

La somme des carrés totale (SCT) = somme des carrés expliquée (SCE) + somme des
carrés résiduelle (SCR).

Notons bien évidemment que la relation (4.27) n’est pas automatique à partir de la relation
(4.26). En effet, en élevant au carré chaque membre de la relation (4.26) et en faisant la
sommation sur toutes les observations, nous obtenons :

 Y  Y    Yˆ  Y    e 
 2ei Yˆi  Y 
2 2 2
i i i (4.28)

Si la relation (4.28) est réduite à la relation (4.27), cela implique que le troisième terme du
membre de droite de l’égalité (4.28) est nul. En effet :

 e Yˆ  Y   e ˆ  ˆX


i i i i 
 Y  ˆ  ei  ˆ  X i ei  Y  ei  0 et ce, en vertu des
propriétés consignées dans la relation (4.13).

En d’autres termes, la relation (4.27) tient la route grâce aux propriétés de la méthode des
moindres carrés ordinaires et ne pourra pas être nécessairement valide pour d’autres
méthodes d’estimation.

Nous sommes donc en position de répondre à la question posée au début de cette section.
Nous définissons le coefficient de détermination R 2 comme la proportion de la variation de

4 En divisant cette dernière quantité par la taille de l’échantillon n , nous retrouvons tout simplement la variance de
l’échantillon.

74
l’échantillon en Y qui peut être attribuée à la variation de l’échantillon en X . Etant donnée la
relation (4.27) et en utilisant la terminologie dégagée ci-dessus, nous avons :

var iation attribuée à X SCE


R2   (4.29)
var iation totale SCT

Pour évaluer R 2 , nous avons besoin des expressions convenables pour le dénominateur et
le numérateur de la relation (4.29). Nous savons que : SCT  y 2
i pendant que :


SCE   Yˆi  Y    ˆ  ˆX  Y 
2
i
2

  ˆX  ˆX 
2
i (4.30)

  ˆ 2 X i  X   ˆ 2  xi2
2

Dès lors, en substituant SCE et SCT par leurs valeurs respectives dans la relation (8.29),
nous obtenons :

SCE ˆ  xi
2 2

R2   (4.31)
SCT  yi2
Même si la relation (4.31) est la mieux indiquée pour le coefficient de détermination dans une
régression linéaire simple (c’est-à-dire impliquant seulement deux variables), du moment que
SCT = SCE + SCR, nous pouvons aussi réécrire la relation (4.29) comme suit :

 1   i2
SCE SCT  SCR
2
SCR e
R 
2
 1 (4.32)
SCT SCT SCT  yi
L’équation (4.31) est la mieux indiquée pour calculer R 2 parce que pour notre échantillon de
25 ménages, nous avons déjà dégagé les valeurs des termes apparaissant dans la relation
(4.31). En effet, ˆ  0,812 , y 2
i  158688,5 et x
2
i  166258,2 . En substituant chacun des
quantités apparaissant dans la relation (4.31) par sa valeur, nous obtenons un R 2 égal à
0,691. Nous disons dès lors que 69,1% de la variation dans la consommation parmi les 25
ménages enquêtés peut être attribué aux variations dans leurs revenus.

Notons que, comme R 2 est une proportion, ses valeurs varient entre 0 et 1. Dès lors, nous
pouvons évaluer la qualité de l’ajustement d’une droite de régression par la méthode des
moindres carrés dans le nuage de points en calculant la valeur du coefficient de
détermination. Plus ce coefficient est proche de l’unité, plus la qualité de l’ajustement est
meilleure. Enfin, rappelons que, comme nous avons ajusté une droite linéaire à partir du
nuage de points, R 2 mesure la proportion de la variation totale en Y qui peut être attribuée à
une relation linéaire entre X et Y . Dès fois, les meilleurs ajustements s’obtiennent au moyen
des relations non linéaires.

75
Le coefficient de corrélation

Le coefficient de détermination R 2 est étroitement lié à une autre mesure vue au premier
chapitre qui traduit la force du lien entre les variables X et Y . Il est possible de montrer que la
racine carrée R du coefficient de détermination R 2 est identique au coefficient de corrélation
de l’échantillon décrit à la section 1.4 du premier chapitre.

Avant de démontrer la relation entre les deux mesures, déterminons le coefficient de


corrélation de l’échantillon entre les variables X et Y pour la série des 25 ménages du
Tableau 4.1. Dans la notation de ce chapitre, la corrélation de l’échantillon ou coefficient de
corrélation donnée par la définition (1.38) devient présentement:

R x y i i
(4.33)
x y 2
i
2
i

Ceci veut dire que la corrélation entre les variables X et Y peut être calculée simplement en
utilisant les quantités ou les blocs de calculs de base (3.20)-(3.22) essentiels à la
détermination d’une régression linéaire simple. En substituant ces valeurs dans la relation
(3.33), nous obtenons :

135068,5
R  0,832
166258,2 158688,5

Notons par-là que le coefficient de corrélation R est en effet la racine carré du coefficient de
détermination obtenu plus haut et qui équivaut à 0,691. Bien plus, le signe positif de R dans
le cas d’espèce indique que la relation linéaire entre X et Y est une relation positive.

Démontrons cette fois-ci que le carré du coefficient de corrélation est toujours égal au
coefficient de détermination. En élevant au carré la relation (3.33), nous obtenons en effet :

 x y  i i
2
 x y  /x
  i i
2 2
i  x y /x  x
  i i
2 2
i
2
i
 ˆ 2 x
2
i

x  y2
i
2
i y 2
i y
2
i y
i
2

Cette dernière expression vaut exactement le coefficient de détermination R 2 tel qu’il est mis
en relief dans la relation (4.31).Dans la mesure où le coefficient de détermination R 2 varie
entre 0 et 1, il est clair que sa racine carrée doit varier entre +1 et -1. A titre d’exemple, dans
la Figure 4.6 (a), tous les points du nuage s’alignent sur une droite ascendante ; dans ce
cas, toute la variation en Y peut être attribuée à la variation en X et le coefficient de
détermination devient automatiquement 1. Le coefficient de corrélation dans ce même cas
de figure sera +1, indiquant par là une forte relation positive parfaite entre les deux variables.

Dans la Figure 4.6(b) par contre, tous les points du diagramme se trouvent sur une ligne
descendante donnant lieu de nouveau à un coefficient de détermination équivalant à l’unité.
Pour ce cas cependant, le coefficient de corrélation vaut – 1 indiquant par là une parfaite
relation linéaire négative ou inverse entre les variables X et Y . Enfin dans la Figure 4.6(c),
les points du diagramme sont répartis uniformément dans le tout le quadrant indiquant
clairement qu’aucune variation en Y ne peut être attribuée à une quelconque variation en X .
Dans ce cas, le coefficient de détermination vaut 0. Bien plus, même le coefficient de

76
corrélation vaut 0 indiquant par là qu’aucune association linéaire les variables X et Y n’est
détectable.

Y (a) Y (b) Y (c)

0 X 0 X 0 X

Figure 4.6. (a) Une corrélation de + 1 (b) une corrélation de – 1 et (c) une corrélation de zéro

Cependant, même si les coefficients de détermination et de corrélation sont intimement liés,


il convient de faire la part des choses quant à leurs interprétations. Les statisticiens utilisent
le coefficient de corrélation simplement comme une mesure de la force d’une relation ou
association linéaire existant deux variables sans pour autant inférer quoi que ce soit au sujet
de la direction d’une quelconque causalité entre les deux variables. Le coefficient de
corrélation de + 0,832 indique une forte association linéaire entre le revenu et la
consommation pour les 25 ménages de l’échantillon. On ne peut rien dire cependant avec
cette mesure que le revenu affecte la consommation ou vice- versa. Le coefficient de
corrélation est juste une mesure de l’ampleur à laquelle les variables en question ‘bougent
concomitamment’ mais cette mesure reste muette au sujet d’une quelconque causalité entre
les variables.

Le coefficient de détermination par contre est couramment utilisé dans un contexte d’une
analyse de régression linéaire, dans laquelle, comme nous l’avons vu plus haut, une
direction de la causalité entre les variables est mise en évidence. Ce coefficient mesure ainsi
la proportion de la variation dans la variable dépendante qui peut être attribuée à la variation
dans la variable explicative.

Chapitre 5 – Régression linéaire multiple

77
Il est rare qu’une variable dépendante soit sous la dépendance d’une seule variable
explicative. La plupart du temps, plusieurs variables (ou une série de variables) explicatives
sont impliquées dans l’explication de la variable dépendante.

A titre d’exemple, la demande d’un bien ne dépend pas seulement de son propre prix mais
aussi de celui de ses substituts ou compléments, du niveau général des prix, du revenu, des
préférences et goûts des consommateurs, etc.5 En adoptant cette configuration, nous avons
une relation de type :

Y  1  2 X 2  3 X 3  ........  k X k   (5.1)
où les X j ( j  2,3,......., k ) sont des variables explicatives encore appelées régresseurs; les
 j ( j  1,2,3,......., k ) sont les paramètres inconnus de la population et  la perturbation ou le
terme d’erreur.

La plupart du temps 1 pourra être considéré comme le coefficient de la variable X 1 qui


prend la valeur unité. La relation (5.1) pourrait dès lors s’écrire comme suit :

Y  1 X1  2 X 2  3 X 3  ........  k X k   (5.1a)

Pour le moment cependant, gardons l’écriture du modèle (5.1) qui, même s’il contient
k paramètres à estimer, implique juste k  1 régresseurs. Nous verrons plus tard dans ce
chapitre l’intérêt de cette parcimonie quand nous dégagerons la méthode des moindres
carrés ordinaires pour une régression linéaire multiple.

5.1. Estimation par la méthode des moindres carrés ordinaires dans la régression
linéaire multiple

En supposant que E    0 comme dans le cas d’une régression linéaire simple, la valeur
espérée de la variable dépendante de la relation (5.1) devient :

EY   1  2 X 2  3 X 3  ........  k X k (5.2)


La relation (5.2) est l’équation de régression de la population. Comme dans le cas d’une
régression linéaire simple, elle est inconnue de tout investigateur. Nous lui avons donné une
forme linéaire pour le moment et contrairement au cas de deux variables, nous ne pouvons
pas la représenter dans un diagramme à deux dimensions.

Les  j sont les paramètres de la population, aussi appelés coefficients de régression. Le


paramètre 1 est l’intercepte et  2 , 3 ,.....,  k les paramètres de pente de la régression. De
façon générale, le paramètre  k représente l’effet sur E Y  d’un changement d’une unité en
X k quand les autres variables sont maintenues constantes.

Comme l’équation de régression de la population est inconnue, elle doit être estimée à partir
des données d’un échantillon.

5
Dans certaines analyses microéconomiques, la fonction de demande fait intervenir la quantité demandée et le
seul prix du bien qui fait l’objet de la transaction, mais il faut avouer que c’est une représentation simplifiée et
moins réaliste.

79
Nous supposons un échantillon de taille n (ou n observations) où chaque observation
contient la valeur de la variable dépendante Y et les valeurs correspondantes des différentes
variables explicatives X k . Nous pouvons écrire de la i ème observation comme :

Yi , X 2i , X 3i , ……., X ki
Comme la relation (5.1) est supposée avoir généré les données de l’échantillon, chaque
observation doit impliquer une série de valeurs qui vérifient cette relation. Nous avons donc :

Yi  1  2 X 2i  3 X 3i  ........  k X ki   i i  1,2,..................., n (5.3)


où  i est le terme d’erreur de la i ème observation.

Il est commode d’écrire la relation (5.3) sous une forme matricielle comme suit :

Y  X   (5.4)
où :
n 1 n X k  k X 1 n X 1
 Y1  1 X 21 X 31 ........... . X k1   1   1 
       
 Y2  1 X 22 X 32............ X k 2   2  2 
.  1 X X ............ X  .  . 
Y  , X  23 33 k3
 ,     et    
.   .................................  .  . 
       
.   ..................................  .  . 
Y  1 X X ............. X     
 n  2n 3n kn   k  n

Si nous utilisons les données de l’échantillon pour estimer l’équation de la régression de la


population, nous pouvons écrire la relation (5.2) comme suit :

Yˆ  ˆ1  ˆ2 X 2  ˆ3 X 3  ........  ˆk X k (5.5)


où les ˆ j sont des estimateurs des  j de la population et Yˆ est la valeur prédite de Y

Pour une observation donnée i de l’échantillon, en substituant ses valeurs pour les variables
X i dans la relation (5.5) étant donné que les ˆ j sont des estimateurs connus, nous obtenons
la valeur prédite de Y notée Yˆ :
i i

Yˆi  ˆ1  ˆ2 X 2i  ˆ3 X 3i  ........  ˆk X ki i  1,2,..................., n (5.6)


Les valeurs actuelles de Y ne vont pas coïncider avec les valeurs prédites correspondantes.
La différence entre les deux traduit le ‘résidu’. Nous pouvons donc écrire la relation entre la
valeur actuelle et la valeur prédite comme suit :
Yi  Yˆi  ei (5.7)
où ei est le résidu correspondant à la i ème observation.

En utilisant la relation (5.6) pour traduire la valeur prédite, il est possible d’écrire la relation
(5.7) comme suit :

Yi  ˆ1  ˆ2 X 2i  ˆ3 X 3i  ........  ˆk X ki  ei (5.8)

80
La relation (5.8) peut également s’écrire en forme matricielle comme suit :

Y  X̂  e (5.9)
où Y est le même vecteur colonne que celui de la relation (5.4), X est le même vecteur de
dimension n X k  que celui de la relation (5.4) ;
 ˆ1   e1 
   
 ˆ   e2 
 2  
ˆ  .  et e   . 
  
. . 
   
.  . 
 ˆ  e 
 k   n
La méthode la plus populaire dans la régression linéaire multiple est de nouveau la méthode
des moindres carrés ordinaires (MCO). Comme dans le cas de deux variables, nous
choisissons la ligne de la régression linéaire de l’échantillon de façon à minimiser la somme
des carrés résiduelle. Nous sélectionnons les valeurs de ˆ1 , ˆ2 ,…………….., ˆk dans (5.5)
qui minimisent :


S   ei2   Yi  Yˆi 
2
(5.10)

La minimisation de la relation (5.10) implique une différenciation de S par rapport à


chaque ˆ j . Etant qu’il serait trop complexe d’effectuer cette minimisation en algèbre
ordinaire, nous préférons l’effectuer en écritures matricielles. Notons d’abord que :
 e1 
 
 e2 
e 
 3
 ei  ée  e1 e2 e3 .......en  .   e12  e22  e32  ......  en2
2

. 
. 
 
 en 

Dès lors, en utilisant la relation (5.9), nous obtenons :

 

S  ée  Y  Xˆ Y  Xˆ 
 
 Y   ˆ X  Y  Xˆ  (5.11)
 Y Y  ˆ X Y  Y Xˆ  ˆ X Xˆ
 Y Y  2ˆ X Y  ˆ X Xˆ
où la dernière étape est possible parce que ˆ X Y  Y Xˆ sont des scalaires.

81
Nous devons cette fois-ci différencier la relation (5.11) par rapport au vecteur ˆ et égaliser
les dérivées partielles premières à zéro. Cette différenciation matricielle donne lieu à
l’expression (5.12):

S
 2 X Y  2 X Xˆ  0 (5.12)
ˆ

Le lecteur qui n’est pas familier à la différenciation matricielle est prié de se rabattre au
chapitre 3 de ce cours qui s’articule autour des rappels mathématiques sur l’algèbre
matricielle.

L’équation (5.12) représente une série de k équations qui peuvent être écrites comme suit:

X X̂  X Y (5.13)

Les équations (5.13) sont les équations normales dans le cas d’une régression linéaire
multiple, et sont analogues aux équations (4.14) et (4.15) de la régression linéaire simple.
Notons que, pour plus de détails sur ces équations normales, si nous substituons Y dans la
relation (5.13) par sa valeur dans (5.9), nous obtenons les expressions suivantes:

 
X Xˆ  X  Xˆ  e  X Xˆ  X e

Dès lors, pour que l’expression ci-dessus tienne la route, il faut que:
X e  0 (5.14)

A partir des définitions de X et de e , il s’en suit de cette multiplication matricielle que :


  
ei  0 , ei X 2i  0 , ei X 3i  0 , ei X 4i  0 , etc. (5.14a)

Ainsi donc, la propriété de la méthode d’estimation des MCO est que les résidus qui en
résultent satisfont les relations (5.14a). Notons que les relations (5.14a) rappellent les
relations (4.13) du chapitre précédent.

Pourvu que la matrice X X soit non singulière, les équations normales (5.13) doivent être
résolues pour produire ˆ , le vecteur des estimateurs des moindres carrés ordinaires. En
multipliant par  X X  aux deux termes de l’égalité représentée par la relation (5.13), nous
1

obtenons :

 X X 1 X X̂   X X 1 X Y


Nous pouvons dès lors extraire le vecteur ˆ comme suit :

̂   X X 1 X Y (5.15)

L’équation (5.15) qui traduit l’expression des estimateurs MCO dans le cas d’une régression
linéaire multiple, est probablement la formule la plus connue en économétrie.

Illustrons la relation (5.15) par un exemple où le nombre de variables explicatives est juste
égal à 2.
ei  Yi  Yˆi  Yi  ˆ1  ˆ2 X 2i  ˆ3 X 3i i (5.15a)

La somme des carrés des résidus est :


82
S   ei2   Yi  Yˆi    Y  ˆ  ˆ X
2
i 1 2 2i  ˆ3 X 3i 
2
(5.15b)

Pour minimiser (5.15b), nous annulons les dérivées partielles premières de S respectivement
par rapport à ˆ1 , ˆ2 et ˆ3 . Nous avons :

S
ˆ1

 2 Yi  ˆ1  ˆ2 X 2i  ˆ3 X 3i  0 
S
ˆ2

 2 X 2i Yi  ˆ1  ˆ2 X 2i  ˆ3 X 3i  0 
S
ˆ
3

 2 X 3i Yi  ˆ1  ˆ2 X 2i  ˆ3 X 3i  0 
Le réarrangement de ces équations donne les équations normales des estimateurs MCO :
Y  nˆ  ˆ  X  ˆ  X
i 1 2 2i 3 3i (5.15c)

 X Y  ˆ  X  ˆ  X ˆ  X X
2i i 1 2i 2
2
2i 3 2i 3i (5.15d)

 X Y  ˆ  X  ˆ  X X ˆ  X
3i i 1 3i 2 2i 3i 3
2
3i (5.15e)

Les trois équations (5.15c), (5.15d) et (5.15e) doivent être résolues pour trouver les
estimateurs des MCO, ˆ1 , ˆ2 et ˆ3 . Etant donné que :
1 X 21 X 31   Y1 
   
1 X 22 X 32   Y2   ˆ1 
1 X X  .   
X    , Y    et    ˆ2 
ˆ
23 33

 ................  .   
     ˆ3 
 .......... ......  .
   
1 X X  Y 
 2n 3n   n

1 X 21 X 31 
 
1 X 22 X 32   n
1

1 ........1  
 1 X 23 X 33  
 X 2 i  X 3i 

X X   X 21 X 22...... X 2 n    =   X 2i  X 22i  X 2 i X 3i 
 X X .... X   ................   
 31 32 3n      X 3i  X 3i X 2i  X 32i 

 ................ 
1 X X 
 2n 3n 

  Yi   nˆ1  ˆ2  X 2i  ˆ3  X 3i 


   
X Y    X 2iYi  ; X X̂  1  X 2i   2  X 2i  3  X 2i X 3i 
 ˆ ˆ 2 ˆ
   
 X Y   2 
 1  X 3i   2  X 3i X 2i  3  X 3i 
ˆ ˆ ˆ
 3i i 

Comme X Y  X X̂ , on en déduit que :  X X  X X̂   X X  X Y et le vecteur des


1 1

estimateurs ˆ1 , ˆ2 et ˆ3 est dégagé par la relation (5.15).

83
Pour calculer le vecteur ˆ , nous devons exécuter les tâches suivantes :

(i) Former la matrice X X d’ordre k X k  et la matrice X Y d’ordre k X 1 ;


(ii) Former la matrice inverse  X X  d’ordre k X k  ;
1

(iii) Multiplier la matrice  X X  d’ordre k X k  par la matrice X Y d’ordre k X 1 ;


1

L’étape (iii) permet de produire le vecteur colonne ˆ des estimateurs des MCO. C’est l’étape
(ii) qui exige trop de calculs. Déjà avec deux variables explicatives k  3 , nous avons à faire
à l’inversion d’une matrice d’ordre 3 x 3. Si le nombre de variables explicatives augmente, la
tâche devient plus fastidieuse.

La détermination du vecteur ˆ n’est pas normalement une tâche à effectuer à la main, elle
est réalisée à l’ordinateur et la plupart des logiciels d’économétrie contiennent des
commandes permettant de générer directement les estimateurs des MCO.

En utilisant des écarts aux moyennes arithmétiques, il est possible de raccourcir les calculs
de détermination des estimateurs des MCO. En effet, au lieu d’inverser une matrice
d’ordre k X k  , l’économètre est amené à inverser une matrice d’ordre k 1X k  1 .

Partons de la relation (5.8) ; si nous faisons la somme sur les i observations que nous
divisons par leur effectif n et ce, pour toutes les variables, nous avons :

Y i
1  ˆ2  2i  ˆ3  3i  ........  ˆk  ki  ei
n ˆ

X X X n
n n n n n n (5.16)
 Y  ˆ1  ˆ2 X 2i  ˆ3 X 3  .................   k X k  e

Or, nous savons déjà que e i  0 (voir relation 5.14a), ce qui signifie que e  0 . En faisant
une soustraction membre à membre des équations (5.8) et (5.16), nous avons :

Yi  Y  ˆ2 X 2i  X 2   ˆ3 X 3i  X 3   ............  ˆk X ki  X k   ei . Les barres qui se trouvent


au-dessus de certaines variables désignent les valeurs moyennes de l’échantillon. En posant
yi  Yi  Y ; x2i  X 2i  X 2 ; x3i  X 3i  X 3 , etc. nous pouvons réécrire la dernière équation
ci-dessus comme suit :

yi  ˆ2 x2i  ˆ3 x3i  ............  ˆk xki  ei i (5.8a)


Il est également possible d’écrire (5.8a) sous une forme matricielle comparable à la relation
(5.9) :

y  x̂  e (5.9a)
pourvu qu’on définisse les matrices y , x ,  et e comme suit:

84
 y1   ˆ2   e1 
   x21 x31 ..........xk1     
 y2     e2 
 x22 x32..........x k 2   ˆ
3 
.    e 
y    
x  .........................    .  et e   3 
ˆ
.    . 
  . 
  .........................
   
.    . 
y   x2 n x3n ............xkn   k  e 
 n    n
Le vecteur des résidus reste inchangé et par conséquent, la somme des carrés résiduelle
reste ée et en procédant par le raisonnement développé à la relation (5.11), mis à part que
les matrices x et y remplacent les matrices X et Y , il devient possible de générer une
expression comparable (5.15) :

̂  xx 1 xy (5.15a)

L’avantage de (5.15a) par rapport à (5.15) est que la matrice à inverser est
d’ordre k 1X k  1 au lieu d’être k X k  . Le seul problème avec (5.15a) est que le
vecteur ˆ ne contient pas l’estimateur ˆ1 .Cependant, une fois que ˆ est connu, la valeur de
ˆ1 peut être obtenue par le réarrangement de (5.16) en sachant que e  0 .

ˆ1  Y  ˆ2 X 2  ˆ3 X 3  .........  ˆk X k (5.17)

Structure des matrices xx et xy

 x21 x31 .......xk1    x2i  x2i x3i .......  x2i xki 


2
 x21 x22 .......x2 n 
   
 x22 x32.......xk 2    x3i x2i  x3i ........... x3i xki 
2
 x31 x33.......x3n 
xx   .....................   .....................    ............................................... 
   
 .....................   .....................   ................................................ 
   
 x2 n x3n .......xkn    xki x2i  xki x3i ........ xki 
2
 xk1 xk 2 .......xkn 
et
  x2i yi 
 
  x3i yi 
 
xy   ..........  (5.18)
 .......... 
 
  xki yi 
 
Il convient de remarquer que la matrice xx est une matrice symétrique.
Avec par exemple deux variables explicatives k  3 , nous avons :
  x22i x  et xy    2i i 
x   x y
xx 

2 i 3i
(5.19)
 x x  x y 
 3i 2 i x
2
3i

  3i i 

En particulier si k  2 , c’est-à-dire le cas de la régression de 2 variables, les quantités xx et


xy de la relation (5.18) deviennent:
xx   x2i2 et xy   x2i yi . La relation (5.15a) permet d’avoir :

85
ˆ2  ˆ  xx 1 xy   x22i 
1
x yi   x y comparable
2i i
2i
 x 
2
2i
à la relation (4.18) ; la relation

(5.17) se réduit à :
ˆ1  Y  ˆ2 X 2 comparable à (4.16).

Exemple numérique

Reconsidérons l’exemple des 25 ménages du chapitre précédent. Au lieu de considérer la


seule variable explicative X (le revenu) que nous appelons dans ce chapitre X 2 , nous
considérons aussi que des actifs liquides du ménage soit X 3 expliquent les dépenses en
biens non-durables Y .

L’équation de régression de la population est de la forme :

EY   1  2 X 2  3 X 3 (5.20)

Tableau 5.1. Consommation domestique Y , le revenu X 2 et les actifs liquides X 3


Ménage Y X2 X3
1 52,3 36,4 104,70
2 78,44 46,8 26,00
3 88,76 57,2 248,10
4 54,08 67,6 201,30
5 111,44 74,3 143,70
6 105,2 86,5 462,30
7 45,73 91,3 244,80
8 122,35 102,8 381,30
9 142,24 114,5 183,80
10 86,22 120,9 370,80
11 174,5 135 615,20
12 185,2 144 465,60
13 111,8 156 443,70
14 214,6 173,7 585,60
15 144,6 182 612,00
16 174,36 199,2 948,80
17 215,4 208 587,30
18 286,24 217,8 1034,30
19 188,56 223,2 584,60
20 237,2 234 934,70
21 181,8 251 841,30
22 373 260 1536,60
23 191,6 289,5 772,60
24 247,12 296,4 1345,60
25 269,6 312 704,40
Utilisons la relation (5.19) pour déterminer les matrices xx et xy . Certains éléments ont été
déjà calculés à partir du chapitre précédent. En effet,

 x   x  =1,663.10
2
2i
2
i
5

 x y   x y  =1,351.10
2i i i i
5

Calculons les éléments restant de la même manière :


86
x 2i 3ix =2 981 925,0 ;  x2i =4 080 ;  x3i yi =2 994 882,5 ;  x3i2 =11 737 267,5 ;  x3i =14
379,1 (5.22)

x 2i 3ix   X 2i X 3i 
1
 X 2i  X 3i =6,352.105 (5.23)
n

De la même manière :

x 2
3i =34,67.105 et x 3i yi =6,469.105 (5.24)
Plaçons les éléments ainsi calculés, chacun à sa place, dans la relation (5.19) :

1,663 6,352  1,351 


xx  105   xy  105   (5.25)
 6,352 34,67   6, 469 
 34,67  6,352 
xx  17,31.105 La matrice inverse est dès lors : xx   5,77.107 
1
 (5.26)
  6,352 1,663 

En utilisant la relation (5.15a), nous obtenons les estimateurs de  2 et  3 .

 ˆ2 
   5,77.107  34,67  6,352 1,351    0,332  (5.27)
 ˆ    6,352 1,663  6,469   0,126 
 3     

L’estimateur restant qui est ˆ1 se calcule comme suit :

ˆ1  Y  ˆ2 X 2  ˆ3 X 3  163,29  0,332163,20  0,126575,16  36,64 (5.28)

Ainsi l’équation de la droite de régression de l’échantillon est :

Yˆ  36,64  0,332 X 2  0,126 X 3 (5.29)

Le coefficient de 0,332 de X 2 n’est plus le même que dans le cas de la régression linéaire
simple où il équivaut à 0,812. La diminution de ce coefficient est compréhensible dans la
mesure où en gardant le revenu comme seule variable explicative des dépenses en biens
non durables, il surgit un problème d’omission de variables. Le coefficient de 0, 812 inclut
non seulement l’effet du revenu sur la variation de la consommation mais aussi celui d’autres
variables omises telles que les actifs des ménages. Etant donné que X 2 et X 3 varient dans
le même sens (pour s’en rendre compte, il suffit de jeter un coup d’œil sur le tableau 5.1), la
valeur de 0,812 intègre aussi la part de la variable X 3 dans l’explication de la consommation.

Qualité de l’ajustement dans une régression linéaire multiple

En partant de la relation (5.7), il est possible d’en déduire l’implication suivante:

Yi  Yˆi  ei  Yi  Y  Yˆi  Y  ei i (5.30)

87
La quantité Yi  Y est appelée variation totale ; Yˆi  Y variation expliquée et ei variation
résiduelle.

 Y  Y    Yˆ  Y    e 
 2 ei Yˆi  Y 
2 2 2
i i i (5.31)

Le troisième terme de cette dernière égalité (relation 5.31) est nul. En effet,

 e Yˆ  Y    e ˆ  ˆ X  ˆ X  .....  ˆ X  Y 


i i i 1 2 2i 3 3i k ki

 ˆ  e  ˆ  e X  ˆ  e X  .....  ˆ  e X
1 i 2 i 2i 3 i 3i k i ki  Y  ei  0

En somme, nous pouvons établir l’égalité suivante :

 Y  Y    Yˆ  Y    e
2 2 2
i i i
(5.32)
 SCT  SCE  SCR

Où SCT : est la somme des carrés des écarts totale ; SCE : somme des carrés des écarts
expliqués ; SCR : somme des carrés des écarts résiduelle.

De nouveau, nous définissons le coefficient de détermination multiple R 2 comme étant la


proportion de la variation en Y qui peut être attribuée aux variations de toutes les variables
explicatives agissant de façon conjointe.

SCE
R2  (5.33)
SCT

Même s’il n’y a pas de formule nette de calcul du coefficient de détermination comparable à
(8.31), il est possible de développer R 2 comme dans (5.32). En procédant de la sorte, nous
avons:

 1   i2
SCE SCT  SCR
2
SCR e
R 
2
 1 (5.34)
SCT SCT SCT  yi
La somme des carrés des écarts résiduelle dans le cas d’une régression linéaire simple peut
être calculée au moyen de la différence entre la somme des écarts totale et la somme des
carrés des écarts expliquée (relation 4.30). En procédant ainsi, nous aurons :

SCR  SCT  SCE



 e2  y 2  ˆ 2
i  i x 2
i

88
En utilisant la relation (4.18), nous pouvons remplacer l’estimateur ˆ par
x y i i
. Ainsi
x 2
i

SCR  SCT  SCE



 e2 
i 
y 2  ˆ 2i x 2
i

  yi2  ˆ  xi2  i 2 i
donc, xy
 xi
  yi2  ˆ  xi yi

En suivant ce raisonnement pour le cas d’une régression linéaire multiple, nous aurons :

e   y
2
i
2
i  ˆ2  x2i yi  ˆ3  x3i yi  .......  ˆk  xki yi (5.35)

Application numérique

En partant des données se rapportant aux 25 ménages du Tableau 5.1, la plupart des
quantités requises pour déterminer la somme des carrés résiduels (5.35) sont déjà
calculées. Exception faite de la quantité 
yi2 , toutes les autres quantités sont fournies dans
les relations (5.21), (5.24) et (5.27). Même y 2
i est déjà calculée dans la relation (4.22) et
équivaut à 1,587.10 . Dans la mesure où k  3 dans cet exemple, (5.35) devient :
5

e   y
2
i
2
i  ˆ2  x2i yi  ˆ3  x3i yi  105 1,587  0,3321,351  0,1266,469  3,234.104

Dès lors, en utilisant la relation (5.35), nous pouvons déterminer aisément le coefficient de
détermination R 2 qui devient :

3,234.104
R2  1   0,796
1,587.105

Ce coefficient signifie qu’environ 80% de la variation dans la consommation des biens non
durables des ménages sont attribuées aux variations dans leur revenu et leurs actifs
liquides.

Le coefficient de détermination ajusté

Le coefficient de détermination R 2 est quelques fois utilisé pour comparer la qualité de


l’ajustement de deux équations estimées contenant un nombre différent de variables
explicatives. A titre d’exemple, pour notre échantillon de 25 ménages du Tableau 5.1, nous
avons réalisé dans la section 4.3 du chapitre précédent que R 2 =0,691 pour l’équation (4.25)
dans laquelle la seule variable explicative est le revenu disponible. Dans ce chapitre
cependant, nous obtenons un R 2 =0,796 en considérant une équation avec le revenu
disponible et les actifs liquides comme variables explicatives. L’augmentation du coefficient
de détermination en faveur de l’augmentation du nombre de variables explicatives peut être
considérée en soi comme une évidence.

Cependant, il faut interpréter avec plus de précaution le coefficient de détermination quand il


est utilisé dans cette voie. En ajoutant des variables explicatives additionnelles dans une

89
équation de régression, R 2 , la proportion de la variation dans la variable dépendante
expliquée, ne peut pas décroître. Il est donc virtuellement possible d’augmenter R 2 en
incluant dans une équation donnée des variables explicatives additionnelles, importe peu
leur pertinence. Dans ce contexte, il devient difficile de faire une comparaison juste de deux
équations l’une contenant par exemple trois variables explicatives à une autre qui n’en
contient qu’une ou deux. Pour cette raison, beaucoup d’économètres réalisent la
comparaison de la qualité d’ajustement en utilisant une mesure connue sous le nom ‘de
coefficient de détermination ajusté par le nombre de degrés de liberté’ qui est définie
par la relation suivante :

e / n  k 
1 
2
2 i
R (5.36)
 y /n  1
2
i

Nous n’allons pas nous préoccuper de la base théorique de R 2 , seulement nous réalisons
que l’augmentation du nombre de variables explicatives et donc une augmentation du
nombre de paramètres k réduira la somme des carrés résiduels 
ei2 et dès lors
2
augmentera R . Cependant, comme la quantité e2
i est divisée par n  k  , l’augmentation
de k tend à compenser l’effet d’une diminution de e 2
i . Chaque fois qu’une variable
additionnelle est incluse dans le modèle, R 2 n’augmentera pas automatiquement
comme R 2 . La quantité R 2 peut même diminuer si la diminution de e 2
i est tellement petite
qu’elle est vite compensée par l’augmentation du nombre de paramètres k . Exception faite
au cas où R 2  1 (dans ce cas, R 2 et R 2 prennent la même valeur), partout
ailleurs R 2  R 2 .

Contrairement à R 2 , R 2 est une mesure fiable pour procéder à la comparaison de la qualité


de l’ajustement de deux équations de régression. Le critère d’inclusion d’une variable
additionnelle dans un modèle est que cette variable s’accompagne d’une augmentation
de R 2 .

Le critère d’information d’Akaike

Une autre méthode permettant de comparer la qualité d’ajustement de deux équations


estimées comportant un nombre différent de variables est celle d’utiliser le critère
d’information d’Akaike. Ce critère est défini comme suit :

  ei2  2k
AIC  ln  
 n (5.37)
 n 
Encore une fois, nous nous préoccupons moins de la base théorique de cet indicateur mais
nous notons tout simplement que dans le cas d’espèce le critère pour inclure dans un
modèle une variable explicative additionnelle est que cette dernière entraine une diminution
de l’AIC. Tout comme R 2 , la quantité AIC dépend de la somme des carrés résiduels ei2 et 
du nombre de paramètres k . Cependant, une diminution en e 2
i qui est naturellement
consécutive à l’inclusion de variable(s) explicative(s) additionnelle(s) peut ne pas conduire
nécessairement à une diminution de l’AIC. L’inclusion d’une variable explicative additionnelle
s’accompagne d’une augmentation du nombre k de paramètres à estimer, ce qui augmente

90
par voie de conséquence la valeur de l’AIC. Dès lors, l’AIC diminuera uniquement si la chute
en  ei2 est suffisant pour contrebalancer l’effet de l’augmentation en k .

Comme exemple d’utilisation de R 2 et de l’AIC, considérons les équations (4.25) et (5.29)


pour lesquelles nous avons déjà obtenu les valeurs de R 2 s’élevant à 0,691 et 0,796
respectivement. En considérant premièrement l’équation (5.25), nous avons
 yi2  1,587.105 ; 
ei2  0,4901.105 avec k  2 . Etant donné que n  25 , les expressions
des relations (5.36) et (5.37) prennent les valeurs suivantes :

0,4901/ 23
R 2 1  0,678
1,587 / 24
 49010  4
AIC  ln    7,74
 25  25

En partant cette fois-ci de l’équation (5.29) dans laquelle, le régresseur additionnel est
constitué du stock d’actifs liquides, 
ei2  0,3234.105 , k  3 pendant que yi2 et n 
2
restent inchangés. Dans ces conditions, les quantités R et AIC deviennent :

0,3234 / 22
R2 1  0,778
1,587 / 24
 32340  6
AIC  ln    7,40
 25  25

Exercice 5.1

Les données suivantes se réfèrent à des ventes hebdomadaires Y , les dépenses


publicitaires hebdomadaires X 2 et le revenu moyen des clients X 3 :

Y 302 338 362 361 422 380 408 447 495 480
X2 14 15 26 23 30 33 33 38 42 46
X3 32 33 35 36 40 41 44 44 47 48

y 2
 34990 ; x 2
2  1028 ; x 2
3  300 ;  x y  5683 ,  x y  3069 . Les variables
2 3

en lettres minuscules apparaissant dans les quantités ci-dessous étant des écarts par

rapport à la moyenne :

a) Trouvez x x 2 3

b) Estimez l’équation de régression EY   1   2 X 2  3 X 3


c) Calculez le coefficient de détermination pour cette régression
d) Calculez le coefficient de détermination ajusté

91
Exercice 5.2

Une fonction de production de type Cobb-Douglas a la forme Q  AK  L . Après fait une


transformation logarithmique de toutes les variables et que ses variables transformées sont
exprimées en termes d’écarts par rapport à la moyenne, un échantillon de 60 observations
produit les résultats suivants :
 q 2  1700 ;  k 2  3200 ; 
l 2  2800 ;  kq  1100 ; 
lq  800 ; kl  1500

(a) Utilisez la méthode des moindres carrés ordinaires pour estimer les élasticités de
l’output Q par rapport à l’input capital K et à l’input travail L .
(b) Si  lnQ  825 ,  lnK   771et  lnL  648 , estimez le paramètre A.
Exercice 5.3

Le modèle Y  1   2 X 2  3 X 3   4 X 4   est à estimer à partir d’un échantillon de 24


observations pour lesquelles avec des variables mesurées en termes d’écarts à la moyenne,
nous avons les données suivantes :

 0,8 0,1  0,6 


 
xx 
1
  0,1 0,6  0,8   x y  21 ,  x y  42 ,  x y  34 ,  y
2 3 4
2
 78
  0,6  0,8 1,4 
 
Dégagez les estimateurs des MCO de  2 ,  3 et  4 et calculez le coefficient de
détermination.

5.2. Les hypothèses classiques de la régression linéaire multiple

Tout comme dans le cas d’une régression linéaire simple, la méthode des moindres carrés
ordinaires est de loin la plus populaire et la mieux connue dans l’estimation des paramètres
d’une régression multiple. Cependant, il est également important de préciser qu’il n’y a
aucune garantie que les estimateurs des MCO produisent dans tous les cas de bons
estimateurs. Différents échantillons produiront en effet différents estimateurs MCO et donc,
chaque estimateur ˆ j aura comme vu dans le chapitre précédent une distribution
d’échantillonnage. Les propriétés souhaitées aux estimateurs des MCO ne peuvent être
atteintes que moyennes une série d’hypothèses qui s’appliquent aussi bien aux variables
explicatives qu’au terme d’erreur.

Les hypothèses concernant la (les) variable(s) explicative(s)

Chaque variable explicative est supposée :

(IA) être non-stochastique : ses valeurs ne sont pas déterminées au hasard. Ceci tient du
fait que les variables explicatives sont générées par un expérimentateur ou un investigateur.
La variable dépendante par contre est stochastique dans la mesure où elle dépend du terme
d’erreur (perturbation) qui est stochastique.

(IB) les valeurs de (des) variable(s) explicative(s) sont fixes dans des échantillons
répétés :

Cette hypothèse fait allusion à ce qu’on obtient dans une situation où ‘un très grand nombre
d’échantillons’ est tiré. Les valeurs des variables explicatives restent inchangées dans ces

92
échantillons répétés. Par contre, les valeurs de la variable dépendante ne sont pas fixes
dans la mesure où elles dépendent des valeurs incontrôlables comme le terme d’erreur.
Comme les valeurs de la variable dépendante varient d’un échantillon à un autre, elles vont
générer des estimateurs MCO qui varient également d’un échantillon à un autre.
(IC) la variable explicative est telle que : si n   , sa variance
1/ n x2ji  Q j ( j  2,3,.., k ) où Q j est une constante finie.

(ID) aucune relation ne doit exister entre deux ou plusieurs valeurs des variables explicatives
sinon la matrice  XX  sera singulière et par conséquent son inverse et les estimateurs des
MCO n’existeront pas.

Hypothèses se rapportant à la perturbation (ou terme d’erreur)

Le terme  doit être tel que :

(IIA) E  i   0 i

(IIB) Var  i   E  i  E  i    2 i
2

      
(IIC) Cov  i ,  j  E i  E  i   j  E  j  E  i j  0 i  j
(IID) Chaque  i est distribué normalement (indépendant et identiquement distribué: i.i.d), soit
 i ~ iid 0, 2 

L’hypothèse (IIA) implique que les points du nuage obtenus au départ des échantillons
répétés sont équitablement répartis de part et d’autre de la droite de régression.

L’hypothèse (IIB) implique qu’au cours des échantillons répétés, la variance reste constante.
Les termes d’erreur  i sont dits homoscédastiques. Dans le cas contraire, quand la
variance des  i est variable, les termes d’erreur sont dits hétéroscédastiques.

L’hypothèse (IIC) implique la non-corrélation des termes d’erreur pris deux à deux.
L’hypothèse (IID) traduit que les termes d’erreur ont une distribution normale de moyenne
nulle et de variance constante  2 .

Les hypothèses (IIA) à (IID) peuvent être résumées en termes de matrice variance-
covariance des termes d’erreur. En effet, l’espérance mathématique du produit matriciel
de  par sa transposée   donne :


 
 E 12 E 1 2  E 1 3  ......... E 1 n  

 
 E  21  E  22 E  2 3  ............ E  2 n 
 
E      
E  31  E  3 2  E  32 ............. E  3 n  
(5.38)
 ................................................................... 
 
 ................................................................... 
 
 E  n1  E  n 2  E  n 3  ..............E  n   2

Etant donné que l’espérance mathématique (moyenne) de chaque terme d’erreur est nulle
(voir IIA), que les éléments sur la diagonale de la matrice symétrique (9.38) représentent les
variances des termes d’erreur et que les éléments hors-diagonale sont les covariances entre

93
les différents termes d’erreur, la matrice (9.38) est appelée matrice variance-covariance
des termes d’erreur.

En utilisant les hypothèses (IIB) et (IIC), nous réalisons que le modèle classique implique
que :

  2 0 0 ......... 0 
 
 0  2 0 ............ 0 
 
  2 ........... 0 
E   
0 0
   2In (5.39)
 .................................. 
 
 ................................... 
 
0 0 0 .............. 2 

où I n est la matrice identité d’ordre n .

Dans la mesure où l’hypothèse IIA implique E    0 , nous pouvons représenter toutes les
quatre hypothèses au sujet de la perturbation par une seule formulation :

 ~ i.i.d 0, 2 I n  (5.40)

La représentation (5.40) signifie que le vecteur des perturbations  est normalement


distribué ou indépendant et identiquement distribué avec une moyenne égale au vecteur de
valeurs nulles et une matrice variance-covariance  2 I n .

5.3. Propriétés des estimateurs des moindres carrés ordinaires

Tout comme dans la régression linéaire simple, les propriétés possédées par les estimateurs
MCO dépendent beaucoup de quelles hypothèses classiques sont valides. Nous
focaliserons notre regard beaucoup plus sur les paramètres de pente  j  j  2,3,....., k 
plutôt que l’intercepte 1 . Dans les applications pratiques en économétrie, les paramètres de
pente sont d’un grand intérêt.

a) Linéarité

Seulement les hypothèses (IA) et (IB) sont requises pour que les estimateurs des MCO
soient des fonctions linéaires des observations de l’échantillon. Comme les valeurs des
variables X sont considérées comme étant des constantes fixes sous ces hypothèses,
l’équation (5.15) des estimateurs des MCO devient :

̂   X X 1 X Y  CY (5.41)
où C   X X  X  est une matrice de constantes fixes étant donné que la matrice X est
1

aussi une matrice de constantes fixes. La propriété de linéarité est incorporée dans la
relation (5.41) dans la mesure où cette équation peut être réécrite en termes scalaires
comme suit :

 j  c j1Y1  c j 2Y2  c j 3Y3  ........  c jnYn j

94
où les Yi sont les observations de l’échantillon et les c ji sont les constantes fixes de la
ligne j de la matrice C d’ordre (k X n) .

b) Absence de biais

Les hypothèses IA, IB et IIA sont suffisantes pour démontrer l’absence de biais des
estimateurs des MCO. La situation est identique à celle de la régression de deux variables,
excepté que nous avons ici plus d’une variable non-stochastique. En substituant (5.4) dans
(5.15), nous obtenons :

ˆ   X X 1 X  X   
  X X  X X   X X  X 
1 1
(5.42)
 I  C    C
où C est la matrice des constantes fixes définie ci-haut. En termes scalaires, la relation
(5.42) implique :

ˆ j   j  c j11  c j 2 2  c j 3 3  ....  c jn n j (9.42a)

où c jn représente toujours l’élément situé sur la ligne j de la matrice C . En considérant


l’espérance mathématique de l’expression (5.42a), nous avons, étant donné que les c ji sont
constants, suite aux hypothèses IA et IB :

 
E ˆ j   j  c j1E1   c j 2 E 2   c j 3 E 3   .....  c jn E n  j

Etant donné que l’espérance mathématique de chaque terme d’erreur est nulle ( E  i   0 )
en vertu de l’hypothèse IIA :

 
E ˆ j   j j (5.43)

A travers la relation (5.43), nous concluons que les estimateurs ˆ j sont sans biais.

Alternativement, nous pouvons considérer l’espérance mathématique des termes matriciels


sur la relation (5.43) et nous obtenons :


E ˆ    CE  

Etant donné qu’en vertu de l’hypothèse IIA, E    0 nous avons :


E ˆ   (5.43a)

95
c) Meilleurs estimateurs linéaires non biaisés

Nous venons de voir qu’à travers les hypothèses IA et IB, les estimateurs des MCO sont
linéaires et non biaisés. Pour que ces mêmes estimateurs ayant la plus petite variance (dans
quel cas ils sont dits meilleurs), il est aussi important que les hypothèses IIB et IIC soient
aussi valables. En d’autres termes, les termes doivent être homoscédastiques et non-auto
corrélés.


Considérons la matrice symétrique E ˆ   ˆ   d’ordre k X k .  

1 1  1   
 E ˆ   2 E ˆ   ˆ   ........E ˆ   ˆ  
 1 2 2 1 1 k  k

  

ˆ ˆ
E          
  E ˆ2   2 ˆ1   E ˆ2   2 .........E ˆ2   2 ˆk   k 
 2
  
(5.44)

 ...........................................................................................
 
k k 1 1  k k  
 E ˆ   ˆ   E ˆ   ˆ   ...... E ˆ   2 
 2 2  k 
k 
 
  

Etant donné que E ˆ j   j j , E ˆ   ˆ   devient :  
   
Var ˆ1 Cov ˆ1 , ˆ2 ........Cov ˆ1 , ˆk 

 
   
 Cov ˆ , ˆ Var ˆ .........Cov ˆ , ˆ 
 1 2 2  2 k 
 (5.45)
 ........................................................... 

 ˆ   ˆ ˆ 
 Cov  k , 1 Cov  k ,  2 .....Var  k  
ˆ 

 

E ˆ   ˆ   est appelée matrice variance-covariance de ˆ notée Var ̂ . Cette matrice 
est d’une importance capitale pour réaliser l’inférence sur les vraies  j . En partant de la
relation (5.42), ˆ    C   X X  X 
1

Comme  X X 1 est une matrice symétrique, nous pouvons établir l’égalité

suivante :
  
 
E ˆ   ˆ    E  X X  X   X  X X 
1 1
  (5.46)
  X X  X E  X  X X 
1 1

étant donné que X est une matrice constituée de constantes fixes.

Bien plus, sachant que E     2 I n en vertu des hypothèses IIB et IIC, nous pouvons
réécrire la relation (5.46) comme suit :

  
 
Var ˆ  E ˆ   ˆ     X X  X   2 I n X  X X 
1 1
  (5.47)
   X X  X X  X X    2  X X 
2 1 1 1

En notant X ij l’élément de la ième ligne et de la jème colonne de  X X  et étant donné


1

que la matrice  X X 1 est symétrique, nous pouvons adopter l’égalité suivante : X ij  X ji .

96
Une comparaison des expressions (5.47) avec (5.45) indique que la variance de ˆ j notée
 2 ˆ est donnée par :
j

j  
 2 ˆ  Var ˆ j   2 X jj j  1,2,......., k (5.48)

La racine carrée de la variance de ˆ j notée  ˆ   2 ˆ j est connue sous le nom de


j

déviation standard ou écart-type de ˆ j . La comparaison des expressions (5.45) et (5.47)


indique que :

 
Cov ˆi , ˆ j   2 X ij i  j (5.49)

Les expressions (5.48) et (5.49) sont importantes dans l’inférence de la régression linéaire
multiple.

Il est également possible de dégager des expressions comparables à (5.48) et (5.49) en


utilisant des variables transformées en écarts par rapport à leurs moyennes. Comme vu
précédemment, il est plus intéressant de travailler avec xx  qu’avec  X X  . Nous avons
1 1

ainsi donc :

j  
 2 ˆ  Var ˆ j   2 x jj j  2,......., k (5.48a)
Covˆ , ˆ    x
i j
2 ij
i  j (5.49a)

La normalité des termes d’erreurs implique aussi que les estimateurs des MCO doivent
l’être. Ainsi nous notons ainsi que chaque estimateur ˆ j des MCO a une distribution
normale avec une moyenne  j et une variance  2 ˆ j :

ˆ j ~ N  j , 2 X jj  (5.50)
En termes d’écarts aux moyennes arithmétiques, nous avons :

ˆ j ~ N  j , 2 x jj  (5.50a)

5.4. Inférence en régression multiple

Si toutes les hypothèses classiques sont valides, l’inférence concernant les paramètres de
pente en régression linéaire multiple peuvent être basées sur le résultat (5.51a) qui implique
que :

ˆ j   j
~ N 0,1 (5.51)
 ˆ j

où la déviation standard  ˆ est donnée par (5.48a).


j

Le problème avec la relation (5.51) est que la déviation standard  ˆ est inconnue étant
j

donné la variance du terme d’erreur  est inconnue. Cependant, un estimateur non biaisé
2

de  2 est donné par :

97

2
2 e i
s (5.52)
nk

 
En effet, E s 2    

n
 
E ~ 2   2 . La somme des carrés résiduels est couramment
 n  k 
calculée en utilisant la relation (5.35) où
e   y 2
i
2
i  ˆ2  x2i yi  ˆ3  x3i yi  .......  ˆk  xki yi

Les estimateurs non biaisés des variances des estimateurs MCO sont :

s 2 ˆ j  s 2 X jj j  2,3,...., k (5.53)

ˆ j   j
En remplaçant  ˆ par son estimateur non biaisé sˆ , nous avons qui a une
j j
sˆ
j

distribution de Student.

En effet, pour le cas de deux variables, nous avons:

e 2
i

Y  ˆ  ˆX 
i i
2

~  n2 2 (parce que ̂ et ˆ sont estimés à partir des données de


 2
 2

l’échantillon)

D’autre part,  i ~ N 0, 2  et par conséquent


i  0
~ N 0,1 et
e 2
i
~  n2 2 et
 2
ˆ j   j
~ N 0,1
 ˆ

Par définition, nous savons qu’une distribution de Student est un ratio d’une variable N 0,1
à la racine carrée d’une variable  2 divisée par son degré de liberté.

ˆ j 
  j /  ˆ
j
Ainsi donc : ~ tn  2
e 2
i /  n  2
2

Le développement de ce ratio conduit au résultat suivant :

ˆ 
  j /  ˆ ˆ   j /  ˆ

2
j j e
j
 j
(car s 2 i
)
e 2
i /  2 n  2 s2 /  2 n2
ˆ j   j /  ˆ ˆ j   j
 j

sˆ / ˆ 2 j sˆ
j
j

98
ˆ j   j
Donc de façon générale, (5.54)
sˆ
j

a une distribution de Student avec n  k degrés de liberté.


L’inférence statistique peut être basée sur la relation (5.54). Par exemple, un intervalle de
confiance de 95% pour n’importe quel  j ( j  2,3,....., k ) est :

ˆ j  t0,025sˆ j
(5.55)
Un intervalle de confiance de 99% des mêmes paramètres peut être trouvé en remplaçant
t0, 025 par
t0,005 . Les valeurs de t0, 025 et t0,005 dépendent bien évidemment du nombre de degrés de
liberté.

Sous l’hypothèse nulle  j  0 (qui signifie que la variable X j n’influence pas


significativement la variable dépendante), nous avons :

ˆ j
est une statistique de test de Student à n  k degrés de liberté. (5.56)
sˆ
j

Application numérique

En partant des 25 ménages de notre échantillon repris au Tableau 5.1, faisons une
illustration de l’inférence statistique en régression linéaire multiple. Pratiquement, toutes les
quantités requises pour procéder à cette inférence ont été calculées: la matrice xx  est
1

donnée par la relation (5.26); la valeur des estimateurs ˆ2 , ˆ3 est donnée par la relation
(5.27) ; finalement, la somme des carrés résiduels e 2
i  3,324.104 est déjà calculée.

Pour faire cette inférence statistique à propos de  2 et  3 , nous avons besoin de la déviation
standard estimée afférente à chaque paramètre. En partant de la relation (5.55), l’estimateur
de la variance du terme d’erreur est :


2
e 3,234.104
s 2 i
  1470
n3 22

Les éléments diagonaux de la matrice xx 1 


sont respectivement x 22  34,67 5,777.107 
et x 33

 1,663 5,777.10 7
 . En incorporant ces valeurs dans la relation (9.53), nous obtenons :
 
s 2 ˆ2  s 2 x 22  1470 * 34,67 5,777.107  0,02944
s 2 ˆ3  s 2 x33  1470 *1,6635,777.10   0,001412
7

Ainsi donc, les déviations standard estimées de ˆ2 et ˆ3 sont respectivement
sˆ  0,172 et sˆ  0,0376
2 3

99
Les intervalles de confiance de  2 et  3 se calculent sur base de la relation (9.55). Par
exemple, un intervalle de confiance à 95% de  3 (  3 étant ici interprétée comme étant la
propensité marginale de consommer les actifs liquides) est :

ˆ3  t0,025sˆ  0,126  2,0740,0376  0,126  0,078


3

avec t0,025  2,074 pour n  k  22 degrés de liberté

Le test de significativité des coefficients en est dès lors une conséquence directe. Testons
par exemple si les actifs liquides influencent de manière significative la consommation des
25 ménages de l’échantillon (Tableau 5.1).

Hypothèse nulle : H 0 : 3  0

ˆ3 0,126
En utilisant la statistique de test, nous t    3,35 qui soit être comparée, au
sˆ 0,0376
3

seuil de significativité de 5% et à 22 degrés de liberté, à la valeur critique de Student


t0,05  1,717 . La statistique de test est clairement suffisamment plus grande que la valeur
critique pour conduire au rejet de l’hypothèse nulle. Nous concluons que les actifs liquides
influencent la consommation domestique.

De la même façon, nous testons si le revenu influence le niveau de la consommation. Nous


adoptons de nouveau une hypothèse nulle :

ˆ2 0,332
H 0 : 2  0 ; le ratio t de Student équivaut à : t    1,93 . De nouveau, la valeur
sˆ 0,172
2

de ce test excède la valeur critique de 1, 717. Nous rejetons donc l’hypothèse nulle et
concluons que le revenu influence la consommation.

En présentant les résultats de la régression linéaire multiple, il est commode de placer les
ratios de Student entre parenthèses en dessous de la valeur du coefficient estimé. En
procédant ainsi, nous pouvons réécrire l’équation (5.25) comme suit :

Yˆ  36,64  0,332 X 2  0,126 X 3


(5.57)
(1,93) (3,35)

Comme signalé précédemment dans ce chapitre, l’inclusion de la variable ‘actifs liquides’


dans l’équation conduit à une baisse substantielle du coefficient estimé de la variable
‘revenu’. Nous notons également à travers l’équation (5.57) que la variable ‘revenu’ a le
faible ratio de Student que la variable ‘actifs liquides’ et paraît ainsi ‘moins significative’ dans
la détermination de la consommation des ménages de l’échantillon.

5.5 Multicollinearite

Quand la multicollinearite est parfaite, la matrice  X X  est singulière et les estimateurs


1

MCO ne peuvent pas être fournis. Des cas de multicollinearite faible peuvent aussi se
présenter et sont souvent de biais d’estimation.

100
5.6. Tests de restrictions linéaires sur les paramètres d’une régression

En passant de la régression linéaire simple (chapitre 4) a la régression linéaire multiple


(chapitre 5), il a été question d’inclure parmi les regresseurs ou variables explicatives, une
variable additionnelle, les actifs liquides des ménages X 3 . Il est possible d’en inclure d’autres
d’avantage. Mais une démarche inverse peut aussi être envisagée. Si plusieurs variables ont
été incluses dans un modèle, il arrive souvent qu’on soit amené à tester la significativité
individuelle ou conjointe des regresseurs. Des tests de significativité individuelle peuvent
toujours se réaliser à l’aide de la statistique de tests de Student donnée par la relation (5.56).
Cependant, une variable dont le coefficient n’est statistiquement différent de zéro, n’est pas
nécessairement indésirable dans l’équation. Elle peut en effet apporter sa contribution dans
la significativité conjointe de toutes les variables explicatives.

Un analyste qui s’intéresse à tester la significativité des deux variables explicatives X 2 et X 3


est amené à confronter les deux équations suivantes:

Y  1   2 X 2   3 X 3   (5.58)
La relation (5.58) n’est que l’équivalent de la relation (5.20) vue plus haut. Cette équation est
alors testée contre :
Y  1   (5.59)

Le passage de la relation (5.58) à la relation (5.59) repose sur une hypothèse nulle qui peut
être écrite comme suit :

H 0 :  j  0, j (5.60)
Dans l’hypothèse nulle de la relation (5.60) il y a h  k  1  2 restrictions linéaires, il convient
d’utiliser un test de restrictions linéaires de Fisher. Dans les lignes qui suivent, nous
exposons le principe de ce test de restrictions linéaires de Fisher.

5.6.1. Fondements du test de Fisher sur les restrictions linéaires

Dans l’équation non réduite (5.58), la somme des carrés totaux des écarts SCT se
décompose en somme des carrés des écarts expliqués SCE  et en somme des carrés
écarts résiduels SCR  comme suit :

SCT  SCEnr  SCRnr (5.61)


L’indice nr désigne le modèle non réduit.

De la même manière, la somme des carrés des écarts totaux se décompose dans les
mêmes composantes pour le modèle réduit :

SCT  SCEr  SCRr (5.62)


Ici l’indice r désigne le modèle réduit.
Remarquons que la somme des carrés des écarts totaux dans les deux modèles (réduit et
y   Yi  Y  . Comme la
2
non réduit) est la même. En effet, rappelons que SCT  2
i
i i
variable dépendante reste la même dans les modèles réduit et non réduit, il n’y a aucune qui
explique pourquoi la somme des carrés des écarts totaux ne reste pas la même.

101
Par contre, en l’absence de restrictions, c’est-à-dire dans le modèle non réduit, on explique
mieux la variable dépendante. Ainsi donc la somme des carrés des écarts expliqués y est
plus élevée que dans le modèle réduit ; l’inverse étant vrai pour la somme des écarts
résiduels. Nous pouvons donc traduire ces deux inégalités comme suit :

SCEr  SCEnr et SCRr  SCRnr (5.63)


Si les restrictions linéaires sont valides, nous devons nous attendre à de légères différences
entre les deux sommes des carrés résiduels. Si par contre les restrictions ne sont pas
valides, l’écart entre les deux sommes des carrés résiduels se creuse davantage. Autrement
dit, nous rejetons les restrictions linéaires si la différence entre SCRr et SCRnr est
suffisamment large. Le seul problème qui subsiste est celui du critère qui nous permet de
décider que la différence est « suffisamment large » pour, in fine, rejeter les restrictions
linéaires.

Pour résoudre ce problème, nous partons des propriétés de la régression OLS. Nous savons
en effet que :

SCR e 2
i
e 0
2

 i
  i  (5.64)
2 2   
En vertu des hypothèses classiques, les résidus, sont normalement distribués avec une
moyenne nulle et une variance constante :

ei  0 e 2

 i ~ N 0, 2  ; dès lors,


i
~ N 0,1 . Par conséquent, i
~  n
2
k ; le degré de liberté
 2
associée a e i
2
i est n  k .

Ainsi pour le modèle non réduit, nous avons :

SCRnr /  2 ~  n
2
k nr (5.65)
où k nr est le nombre de paramètres du modèle non réduit ; n  k nr étant le nombre de degré
de liberté associé a la somme des carrés de la relation (5.65).

De même pour le modèle réduit,

SCRr /  2 ~  n
2
kr (5.66)
De nouveau, où k r est le nombre de paramètres du modèle non réduit ; n  k r étant le
nombre de degré de liberté associé à la somme des carrés de la relation (5.66).

Chaque restriction linéaire que nous imposons a la régression linéaire réduit le nombre de
coefficients estimés  j d’une unité. En général, si h restrictions linéaires sont imposées,
nous avons :

h  k nr  k r
A partir des relations (5.65) et (5.66), en soustrayant les sommes des carrés résiduelles,
nous obtenons, et ce, en vertu du théorème 2.3 du chapitre 2 :
SCRr  SCRnr  /  2 ~  h2 (5.67)

102
5.6.2. Tests de significativité conjointe des variables explicatives

Si on teste une seule restriction, par exemple un seul coefficient égal a zéro, alors le nombre
de restrictions h  1
Par contre, si on teste les restrictions qui nous font passer de l’équation (5.58) à (5.59), nous
avons h  k nr  k r  2

Si la variance des erreurs  2 était connue, on pourrait déjà décider si la différence des
sommes des carrés résiduelles est suffisamment large pour ainsi remettre en cause les
restrictions linéaires. Nous pourrions des lors calculer la quantité de la relation (5.67) et, si
elle excède une valeur critique prise dans les tables de  2 , nous rejetons l’hypothèse nulle
de restrictions linéaires. Le problème est sans doute la variance des erreurs  2 qui n’est pas
connue.

Cependant, il est possible de contourner ce problème en construisant une statistique de test


qui convient qui utilise les relations (5.65) et (5.67). Rappelons que le ratio de deux
distributions indépendantes de  2 , chacune divisée par son degré de liberté a une
distribution de Fisher. Ainsi nous avons :

SCRr  SCRnr  / h ~ F h, n  k  (5.68)


SCRnr / n  k nr 
nr

Du moment toutes les quantités de la relation (5.68) sont connues, nous pouvons rejeter
l’hypothèse nulle de validité des restrictions si l’expression (5.68) excède la valeur critique de
Fisher correspondant aux degrés de liberté. La statistique de test de la relation (5.68) est
basée sur la quantité
SCRr  SCRnr  qui est l’augmentation relative de la somme des
SCRnr
carrés résiduelle.

Pour illustrer la relation (5.68) et tester la significativité des variables explicatives de


l’équation (5.58), nous procédons comme suit :

SCRr  158689
SCRnr  32502

Ainsi donc :
158689  32502 / 2  42,7068
32502 / 25  3
C’est cette valeur qui apparait dans l’output TSP du modèle non réduit.

La valeur critique de la statistique de Fisher aux degrés de liberté 1,22 est : 4,30 au seuil de
5% et 8,02 au seuil de 1%. Nous rejetons donc au seuil de 1% les restrictions linéaires de
nullité des conjointes de tous les coefficients affectés aux variables explicatives du modèle.
Autrement dit, prises conjointement, les variables explicatives X 2 et X 3 expliquent de
manière significative le modèle.

103
5.7 Variables explicatives qualitatives

Il est des fois nécessaire d’inclure parmi les regresseurs des variables qualitatives telles que
les variables dichotomiques pour représenter des facteurs qualitatifs. L’interprétation des
coefficients affectés aux variables qualitatives diffère cependant de celui des variables
explicatives continues.

Quand l’équation comprend du côté droit des variables continues et dichotomiques et que la
transformation logarithmique n’affecte que la variable dépendante, nous avons alors affaire à
une équation semi-logarithmique qui prend la forme suivante :

ln Y  a   bi X i   c j D j (5.69)
i j

Où ln Y est le logarithme népérien de la variable dépendante, X i les variables continues du


modèle et Di les variables dichotomiques du modèle.

Le coefficient des variables continues est :

 ln Y 1 Y
bi   (5.70)
X i Y X i
Des lors, le coefficient d’une variable continue, multiplié par 100, est égal a l’effet en
pourcentage sur la variable Y de variations infinitésimales en X i .

Si une variable dummy entre dans l’équation sous forme d’une dichotomique, la dérivée de
la variable dépendante par rapport à la dummy n’existe pas. Le coefficient de la dummy
mesure l’effet discontinu sur la variable dépendante d’un facteur représenté par la variable
dummy. L’interprétation correcte du coefficient de la variable muette ou dummy peut être
dégagée en procédant à la transformation de l’équation (5.69).

Pour des raisons de simplicité, admettons qu’il n’y a qu’une seule variable dichotomique.
L’équation (5.69) peut alors être écrite comme suit :

 
Y  1  g  exp  a   bi X i 
D
(5.71)
 i 
Où g est l’effet relatif discontinu sur la variable Y de la présence de la dummy. Etant donné
que : ln Y  a  b X i i D ln 1  g  , le coefficient de la dummy dans l’équation (5.69) est :
i

c  ln 1  g  . L’effet relatif de la dummy sur la variable dépendante est : exp c   1 et l’effet


en pourcentage sur Y est :

100 g  100exp c   1. Il arrive que dans certaines études, on fasse une fausse interprétation
de l’effet des variables dichotomiques en prenant c pour g .

104
Chapitre 6 – Modélisation des variables dichotomiques dépendantes

A la dernière section du chapitre précédent, nous avons réalisé qu’il est souvent nécessaire
de tenir compte des facteurs qualitatifs à travers l’inclusion des variables qualitatives parmi
les régresseurs. Il est tout autant utile d’utiliser des variables dichotomiques comme
variables dépendantes. A titre d’exemple, nous pouvons être intéressés de savoir si oui ou
non un ménage possède un véhicule. Nous pouvons des lors définir la variable qualitative
dépendante comme suit :

Di  1 si le ménage possède un véhicule


Di  0 si le ménage ne possède pas d’automobile
Le fait qu’un ménage possède un véhicule peut dépendre de nombreux facteurs : son
revenu, a taille, l’âge de ses membres, sa localisation, etc. Cependant pour des raisons de
simplicité, admettons que Di soit une fonction linéaire de juste une seule variable X 2i , le
revenu du ménage. Des lors, on écrit :

Di  1   2 X 2i   i i (6.1)

Ou  i est comme d’habitude le terme d’erreur. En admettant que E  i   0 , nous avons


donc :

EDi   1   2 X 2i (6.2)
La valeur attendue d’une variable qualitative telle que Di a une interprétation intéressante :
Désignons par Pi  PrDi  1 ; étant donné que Di peut prendre uniquement les valeurs 0
ou 1, il s’en suit que : PrDi  0  1  Pi . Des lors,
EDi   1. PrDi  1  0. PrDi  0  1.Pi  0.1  Pi   Pi (6.3)

En d’autres mots l’espérance mathématique de la variable dichotomique E Di  est tout


simplement la probabilité qu’un ménage i possède un véhicule. Nous pouvons des lors
réécrire la relation (6.2) comme suit :

Pi  1   2 X 2i i (6.4)

La relation (6.4) est connue sous le nom de modèle de probabilité linéaire. Une fois qu’on
aura dégagé les estimateurs de  2 et  3 , il devient possible d’estimer la probabilité qu’un
ménage avec un revenu donné X 2i possédera un véhicule.

Le modèle de probabilité linéaire peut être estimé par la méthode des moindres carrés
ordinaires (MCO). Cependant, cette approche soulève un certain nombre de préoccupations.
Primo, les erreurs ne peuvent pas être normalement distribuées. En effet, elles ont une
distribution binomiale (pour plus de détails, voir chapitre 1).

En partant de la relation (6.2), nous pouvons écrire ce qui suit :

Si Di  1 alors  i  1  1   2 X 2i
Si Di  0 alors  i  1   2 X 2i

105
Des lors, le terme d’erreur  i prend seulement deux valeurs ci-haut avec les probabilités Pi
alors et 1  Pi respectivement.

Il convient en particulier de signaler que les erreurs sont heteroscedastiques. Ceci veut dire
que la variance Var  i  n’est pas constante. En effet, comme E  i   0 , nous avons :

Var  i   E  i2   Pi valeur de  i quand Di  1 


2

1  Pi valeur de  i quand Di  0
2
c (6.5)

 Pi 1  1   2 X 2i   1  Pi  1   2 X 2i 
2 2

Etant donné que, en partant de la relation (6.4), Pi  1   2 X 2i , nous avons :

Var  i   Pi 1  Pi   1  Pi Pi 2  Pi 1  Pi 
2
(6.6)

Des lors, étant donné que la variance dépend de la probabilité Pi , qui varie elle-même d’un
ménage a un autre en fonction du revenu de ce dernier, l’erreur est donc heteroscedastique.
Ceci signifie que bien que l’estimation de la relation (6.2) par la méthode des moindres
carrés ordinaires produise des 2estimateurs non biaisés de 1 et  2 , ces estimateurs ne sont
pas meilleurs (BLUE)6. Même la déviation standard sera cette fois-ci biaisée, des lors les
procédures inférentielles standard ne seront pas valides.

Il existe un autre problème qui se pose avec le modèle de probabilité linéaire. Supposons
que l’on désire estimer la relation (6.4) par une équation de régression de l’échantillon :

Pˆi  ˆ1  ˆ2 X 2i (6.7)

Une représentation graphique de la droite de régression de l’échantillon montre que la valeur


de P̂i pour des valeurs trop faibles du revenu peut descendre en dessous de zéro ; de même
pour des valeurs très élevées du revenu, la valeur de P̂i pourra excéder 1.

Enfin, le coefficient de détermination de la relation (6.7) sera très faible. Il est en effet évident
qu’il n’y a aucune droite qui pourrait bien s’ajuster dans ce nuage de points. Ainsi, R 2 n’est
donc pas un bon indicateur de l’ajustement de la droite quand la variable dépendante est
une dichotomique.

Une approche souvent utilisée pour venir à bout des problèmes associes a l’estimation du
modèle de probabilité linéaire est de passer par la construction d’une variable latente
Y * donnée par :

Y *  1   2 X 2i   i (6.8)
*
Dans notre exemple sur la possession d’une automobile, Y pourrait être un indice
inobservable de consentement, d’habileté ou de désir de posséder une automobile. Des lors,
au lieu d’avoir la relation (6.2) du modèle de probabilité linéaire, nous avons :

6
Best Linear Unbiased Estimators

106
 
E Y *  1   2 X 2i (6.9)

Di  1 Si Y *  0
Di  0 Si Y *  0

Zéro est alors une valeur seuil de Y * . Si Y * est au-dessus de zéro pour un ménage donné,
des lors le ménage en question devient détenteur d’automobile.

Contrairement au modèle de probabilité linéaire où Pi  PrDi  1 n’est plus donné par la


relation (6.4). Pour obtenir une expression de Pi , on procède comme suit :

Pi  PrDi  1  Pr Y *  0 
 Pr1   2 X 2i   i  0 (6.10)

 Pr i  1   2 X 2i 
Si la distribution de probabilité de  i est symétrique avec E  i   0 , nous obtenons :

Pr i  1   2 X 2i   Pr i  1   2 X 2i 

Des lors, nous obtenons :

Pi  PrDi  1  Pr i  1   2 X 2i  (6.11)


L’équation (6.11) dépend de la manière dont  i est distribuée. Si les  i sont normalement
distribués, un modèle dénommé probit en résulte. Cependant, la probabilité (6.11) n’est pas
facile à manipuler. Les chercheurs préfèrent des lors représenter la relation (6.11) par une
fonction dite logistique, qui conduit au modèle logit.

Le modelé logit

Si une fonction logistique est utilisée dans la relation (6.11), nous avons des lors :

1
Pi  i (6.12)
1  exp  1   2 X 2i   i 

L’équation (6.12) a l’avantage de contraindre Pi de se situer entre 0 et 1. En effet, étant


donné que  2  0 , si X 2i  , Pi  1 et si X 2i  , Pi  0

La relation (6.12) est comparable à la relation (6.4) du modèle de probabilité linéaire. Il est
aussi facile de voir que :

exp  1   2 X 2i   i 
1  Pi  et dès lors :
1  exp  1   2 X 2i   i 

 P 
ln  i   1   2 X 2i   i (6.13)
 1  Pi 

107
Pi
La quantité est connue sous le nom de ratio d’odds pendant que son logarithme
1  Pi
naturel est connu sous le nom de logit. Par exemple, si la probabilité d’un ménage de
posséder un automobile est de 0,75, des lors le ratio de odds est de 0,75/0,25 = 3.

Bien évidemment il est possible de généraliser la relation (6.13) en incluant des variables
additionnelles telles que le statut social, l’âge, la localisation du ménage, etc. pour avoir :

 P 
ln  i   1   2 X 2i   3 X 3i  .........   k X ki   i (6.14)
 1  Pi 

Notons que dans le modèle logit de la relation (6.13), Pi n’est pas linéairement lié
a X 2i comme c’est le cas dans le modèle de probabilité linéaire. La différenciation de la
relation (6.13) par rapport à X 2i donne :

dPi 1 dPi 1
  2
dX 2i Pi dX 2i 1  Pi 

dPi
Des lors,   2 Pi 1  Pi  (6.15)
dX 2i

Exercice

Une étude sur la lecture des journaux au sein des ménages. La variable dichotomique D est
définie comme suit :

Di = 1 si le ménage lit un journal de qualité

Di = 0 si le ménage ne lit pas de journaux de qualité

Nous voulons investiguer l’étendue à laquelle la formation (S), l’âge (A) et les revenus (E)
des ménages influencent le type de journaux lus.

La base de données à utiliser est celle fournie dans le tableau ci-dessous.

Tableau 6.1 – Base de données pour l’estimation de l’effet de quelques variables


socioéconomiques sur la lecture des journaux

HH A S E DUM
1 0 6 4.71 0
2 1 3 3.6 0
3 2 0 4.37 0
4 2 4 4.64 0
5 3 1 3.27 0
6 5 0 4.26 0
7 6 7 6.14 1
8 7 5 6.74 0
9 8 0 6.11 0

108
10 8 2 5.53 1
11 8 6 5.53 0
12 10 1 5.36 0
13 11 7 8.73 1
14 13 0 5.85 0
15 15 0 6.88 0
16 15 2 7.17 1
17 15 7 10.8 1
18 18 0 5.06 0
19 19 6 13.69 1
20 21 0 8.01 0
21 21 2 17.13 1
22 23 1 7.75 1
23 24 0 6.2 0
24 24 5 17.72 1
25 24 3 8.8 1
26 25 2 12.8 0
27 25 0 5.2 0
28 27 4 8.12 1
29 28 7 17.54 1
30 28 4 22.52 1
31 30 3 5.47 0
32 31 1 13.67 0
33 32 0 4.84 0
34 34 5 38.52 1
35 34 2 9.98 1
36 37 6 27.73 1
37 37 0 5.06 0
38 37 1 4.36 0
39 38 7 23.96 1
40 38 4 30.77 1
41 39 0 20.68 1
42 40 2 50.9 1
43 42 3 3.96 0
44 42 0 7.58 0
45 43 4 6.18 1
46 44 3 43.25 0
47 44 1 32.04 0
48 45 0 3.35 0
49 45 2 18.35 0
50 46 0 4.95 0

109

Vous aimerez peut-être aussi