Vous êtes sur la page 1sur 46

DR OKOU GUEI CYRILLE

PhD en Mathématiques appliquées:


Statistiques
Enseignant-Chercheur
Maître Assistant des Universités CAMES

Cours : Modélisation linéaire


Table des matières
Chapitre I : Régression linéaire simple .................................................................................................. 3
1. Le Modèle.................................................................................................................................... 3
2. Estimation des paramètres 𝜷𝟎, 𝜷𝟏 et 𝝈𝟐 ................................................................................. 5
2.1. Estimation des paramètres 𝜷𝟎, 𝜷𝟏 ................................................................................... 5
2.2. Estimation du paramètre 𝝈𝟐 .............................................................................................. 7
3. Test d’hypothèses et intervalle de confiance 𝜷𝟏 ...................................................................... 8
4. Coefficient de détermination ................................................................................................... 10
5. Prévision d’une valeur ultérieure ............................................................................................. 11
Chapitre 2 : Régression linéaire multiple ............................................................................................. 13
1. Modèle ...................................................................................................................................... 13
2. Estimation des paramètres 𝜷𝟎, 𝜷𝟏, …, 𝜷𝒑et 𝝈𝟐 .................................................................... 16
2.1. Estimation de 𝛽 par la méthode des moindres carrés .................................................... 16
2.2. Estimation du paramètre 𝝈𝟐 ............................................................................................ 18
3. Tests d’hypothèses et intervalles pour les paramètres 𝜷𝒋 ..................................................... 19
4. Prévision d’une valeur ultérieure ............................................................................................. 24
5. Sélection de variables ............................................................................................................... 28
Chapitre 3 : Analyse de la Variance (ANOVA) ...................................................................................... 32
1. Analyse de la variance à un facteur ............................................................................................. 32
1.1. Introductif : ....................................................................................................................... 32
1.2. Présentation des données ................................................................................................ 34
1.3. Modèle .............................................................................................................................. 35
1.4. Estimation des paramètres............................................................................................... 39
Référence bibliographique ................................................................................................................... 46
Chapitre I : Régression linéaire simple
1. Le Modèle
Nous cherchons à mettre en avant une relation de dépendance entre les variables Y et X. Y est
celle que l'on cherche à expliquer (à prédire), on parle de variable endogène (dépendante); X
est la variable explicative (prédictive), on parle de variable exogène (indépendante). Les
variables X et X sont des variables quantitatives continues. L’objectif de cette étude est de
modéliser la relation de dépendance entre deux variables quantitatives continues. Un modèle
de régression linéaire simple est de la forme suivant :

Remarque : La désignation « linéaire » correspond du fait que le modèle est linéaire en 𝛽0 et


𝛽1
Pour la construction du modèle, nous disposons d'un échantillon de n observations i.i.d
(indépendantes et identiquement distribuées) pour estimer ces paramètres.
Pour les n observations, nous pouvons décrire le modèle de régression linéaire simple sous la
forme :
Nous pouvons écrire le modèle (2) de la manière suivante :

𝑌 = 𝑋𝛽 + 𝜀

- Y désigne le vecteur à expliquer de taille n*1


- X désigne la matrice explicative de taille n*p
- 𝜀 désigne le vecteur des erreurs de taille n*1

Exemple : La figure suivante présente les graphiques deux échantillons (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) et


(𝑦1 , 𝑦2 , … , 𝑦𝑛 )
Figure 1 : Graphique deux échantillons simulés

2. Estimation des paramètres 𝜷𝟎 , 𝜷𝟏 et 𝝈𝟐


A partir d’un échantillon (aléatoire) de n observations {(𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1,2, … , 𝑛}, nous voulons
estimer les paramètres 𝜷𝟎 , 𝜷𝟏 et 𝝈𝟐 .
Pour estimer les paramètres 𝜷𝟎 et 𝜷𝟏 , nous pouvons utiliser la méthode des moindres carrés
qui ne nécessite pas d’hypothèses supplémentaires sur la distribution de 𝜀𝑖 (ou 𝑦𝑖 ),
contrairement à la méthode du maximum de vraisemblance qui est fondée sur l’hypothèse de
normalité de de 𝜀𝑖 (ou 𝑦𝑖 )

La méthode des moindres carrés ne fournit pas l’estimateur de 𝝈𝟐

2.1. Estimation des paramètres 𝜷𝟎 , 𝜷𝟏


̂𝟎 et 𝜷
Nous cherchons 𝜷 ̂𝟏 qui minimisent la somme des carrées des résidus :
2.2. Estimation du paramètre 𝝈𝟐
La paramètre 𝝈𝟐 est défini par :

Remarque :

- 𝒔𝟐 est un estimateur sans biais de la variance 𝝈𝟐 ;


- La perte de deux degrés de liberté dans l’expression de 𝒔𝟐 est le cout de l’estimation
des paramètres 𝜷𝟎 et 𝜷𝟏 nécessaire pour obtenir 𝑦̂𝑖 .
3. Test d’hypothèses et intervalle de confiance 𝜷𝟏
̂𝟏 et 𝒔𝟐
Nous définissons des nouvelles propriétés pour les estimateurs 𝜷

Commentaires : Les propriétés (a), (b) et (c) seront démontrés au cours


Nous déduisons alors des propriétés (a)-(c) que

𝑠
Remarque : Nous pouvons remarquer que le dénominateur est un estimateur
√∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ 𝑛 )
2

̂𝟏 ), l’écart-type de 𝜷
de √𝕧(𝜷 ̂𝟏 .
Nous utilisons la statistique suivante :
4. Coefficient de détermination
5. Prévision d’une valeur ultérieure
Nous désirons prévoir à l’aide du modèle la valeur de la variable y pour une valeur non
observée 𝑥0 de x.

Nous en déduisons que :

Nous pouvons montrer que :

Nous utilisons ce résultat pour construire un intervalle de prédiction pour 𝑦0 de y, c’est-à-dire un


intervalle [A,B] tel que

Nous pouvons noter que 𝑦0 est une variable aléatoire et non un paramètre. L’intervalle de
prédiction est donc un intervalle dans lequel une future observation 𝑦0 va tomber avec une
certaine probabilité.
Nous en déduisons l’intervalle de prédiction pour 𝑦0 au niveau de confiance 1 − 𝛼 suivant :
Remarque : La variance de l’erreur de prévision dépend

- De la variabilité intrinsèque 𝜎 2 de la variable aléatoire 𝑦0


- De la variabilité due à l’imprécision des estimations de 𝛽0 et 𝛽1 dans la formule de
régression.
Cette source de variabilité peut être réduite (en augmentant la taille de l’échantillon par
exemple), contrairement à la première source de variabilité.
Nous pouvons aussi construire un intervalle de confiance de la valeur moyenne

Nous en déduisons l’intervalle de confiance 𝔼(𝑦0 ) suivant :


Chapitre 2 : Régression linéaire multiple
1. Modèle
Nous cherchons à modéliser la relation entre plus de 2 variables quantitatives. Un modèle de
régression linéaire multiple est de la forme suivante :

Exemple : Nous cherchons à modéliser la relation en poids des bébés à la naissance et l’âge,
le poids et le statut tabagique de la mère durant la grossesse. Nous posons
- Y= poids à la naissance en grammes (bwt)
- 𝑋1= age de la mère (age)
- 𝑋2= poids de la mère en kilos (weight)
- 𝑋3= statut tabagique de la mère pendant la grosse (smoke) codée en 1=oui et 0=non.
Nous supposons que cette relation est linéaire de la forme :
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3
Nous utilisons un échantillon de n=1174 naissances pour lesquelles le poids du bébé, l’age, le
poids et le statut tabagique de la mère, ont été observés.
Nous pouvons également écrire le modèle (2) de la manière suivante :
𝑌 = 𝑋𝛽 + 𝜀

2. Estimation des paramètres 𝜷𝟎 , 𝜷𝟏 , …, 𝜷𝒑 et 𝝈𝟐
A partir d’un échantillon (aléatoire) de n observations {(𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑝 , 𝑦𝑖 ), 𝑖 = 1,2, … , 𝑛},
nous voulons estimer les paramètres 𝜷𝟎 , 𝜷𝟏 , … , 𝜷𝑝 , et 𝝈𝟐 .
Pour estimer les paramètres 𝛽 = (𝜷𝟎 , 𝜷𝟏 , … , 𝜷𝑝 ), nous pouvons utiliser la méthode des
moindres carrés qui ne nécessite pas d’hypothèses supplémentaires sur la distribution de 𝜀𝑖
(ou 𝑦𝑖 ), contrairement à la méthode du maximum de vraisemblance qui est fondée sur
l’hypothèse de normalité de de 𝜀𝑖 (ou 𝑦𝑖 ).
La méthode des moindres carrés ne fournit pas l’estimateur de 𝝈𝟐 .

2.1. Estimation de 𝛽 par la méthode des moindres carrés


2.2. Estimation du paramètre 𝝈𝟐
La paramètre 𝝈𝟐 est défini par :
3. Tests d’hypothèses et intervalles pour les paramètres 𝜷𝒋
Nous voulons maintenant tester la nullité des coefficients 𝛽𝑗 du modèle de régression
Nous en déduisons alors des propriétés

Nous utiliserons donc la statistique suivante :


Contribution jointe d’un ensemble de régresseurs
Nous pouvons maintenant tester la nullité de 𝑞 < 𝑝 paramètres
Nous pouvons montrer que sous 𝐻0

4. Prévision d’une valeur ultérieure


Nous désirons prévoir à l’aide du modèle la valeur de la variable y pour une valeur non
observée 𝑥1,0 𝑥2,0 … , 𝑥𝑝,0 des p variables explicatives.
5. Sélection de variables
Chapitre 3 : Analyse de la Variance
(ANOVA)
1. Analyse de la variance à un facteur
1.1. Introductif :
Exemple introductif : Un exemple de reproductibilité pour étudier les performances de trois
laboratoires relativement à la détermination de la quantité de sodium de lasalocide dans de
la nourriture pour de la volaille. Une portion de nourriture contenant la dose nominale de
85mg/kg de sodium de lasalocide a été envoyée à chacun des laboratoires à qui il a été
demandé de procéder à 10 réplications de l’analyse. Les mesures de sodium de lasalocide
obtenues sont exprimées en mg/kg. Elles sont reproduites dans le tableau suivant :

Cette écriture du tableau est dite désempilée., Nous pouvons l’écrire sous forme standard (empilée),
c’est-à-dire avec deux colonnes, une pour le laboratoire et une pour la valeur de la teneur en sodium
de lasalocide mesurée, et trente lignes pour chacune des observations réalisées.
Définition : Sur chaque essai, on observe deux variables.
a. Le laboratoire. Il est totalement contrôlé. La variable "Laboratoire" qualitative avec trois
modalités bien déterminées : A, B, et C. Nous l’appelons le facteur. Ici, le facteur
"Laboratoire" est à effets fixes.
b. La quantité de sodium de lasalocide. La variable "Lasalocide" est considérée comme
quantitative comme généralement tous les résultats obtenus par une mesure. Nous
l’appelons la variable réponse.
La variable mesurée dans un tel schéma expérimental sera notée Y. Pour les observations,
nous utilisons deux indices :
1. Le premier indice indique le numéro du groupe dans la population ("Laboratoire");
2. Le second indice indique le numéro de l’observation dans l’échantillon ("Essai"). Pour
le premier indice, nous utiliserons en général l’indice i. Pour le second indice, nous
utiliserons en général l’indice j. Ainsi, les observations seront notées en général :
𝑦𝑖,𝑗 𝑖 = 1,··· , 𝐼 ; 𝑗 = 1,··· , 𝐽(𝐼).

Définition : Lorsque les échantillons sont de même taille, à savoir J(i) = I et ce, quel que soit i,
nous disons alors que l’expérience est équilibrée.
Objectif :
ANOVA : Pour étudier l'effet des variables qualitatives sur une variable quantitative
Terminologie
• Facteur (variable qualitative) : prend un nombre ni de valeurs,
• Une valeur = une classe. Exemple : facteur " Engrais"
• Niveau (ou population) : les différentes valeurs prises par un facteur. Ex : niveaux A, B,
C
• Test de l'effet d'un facteur : tester si les moyennes des populations sont égales.
• La variable étudiée : Y, a valeurs numériques (note).

1.2. Présentation des données


Exemple :

1.3. Modèle
a- PREMIER MODELE
1.4. Estimation des paramètres
b- Le deuxième modèle
Variabilité et signicativité
Tableau d'Analyse de la Variance (ANOVA)
La plupart des logiciels de statistiques présentent leurs sorties d'ANOVA de la manière
suivante :
Référence bibliographique

G. Saporta, TECHNIP Dodge, Y, Rousson, V. (2004) Probabilités Analyses des données et


Statistique, Analyse de régression appliquée, Dunod, 2ème édition.

M. Carbon (2015). Cours d’Analyse de la Variance, Université de Laval.

R. Rakotomalala (2018). Econométrie-Régression linéaire simple et multiple, http://eric.univ-


lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

R. Rakotomalala (2015). Pratique de la régression linéaire multiple. Diagnostic et Sélection de


variables, http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

Vous aimerez peut-être aussi