Amphistat5 - ARCHE

Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Statistique multivariée
Y X1 ... Xp
Observation 1 y1 x11 ... x1p
Observation 2 y2 x21 ... x2p
.. .. .. .. ..
. . . . .
Observation i yi xi1 ... xip
.. .. .. .. ..
. . . . .
Observation n yn xn1 ... xnp
Y : variable à expliquer ou variable réponse

X1 , . . . , Xp : p variables explicatives ou régresseurs
Mêmes buts que pour la régression linéaire simple : description,
explication (quelles variables explicatives à une réelle influence sur la
variable réponse), prédiction etc
1
Régression Linéaire Multiple
2
Régression linéaire multiple

Modèle
Yi = β0 + β1 xi,1 + . . . + βp xi,p + εi , i = 1, . . . , n
β0 , β1 , . . . , βp ∈ R.
εi i.i.d. centrés, et de variance σ 2 .
p variables ”explicatives” x·,j , non aléatoires (dans un domaine

d’étude fixé)
Yi aléatoire
Z Les paramètres à estimer sont : β0 , β1 , . . . , βp et σ.
Remarque
Si p = 1, on retrouve la régression linéaire simple. 3
Notation matricielle : les notations suivantes sont équivalentes
Yi = β0 + β1 xi,1 , +β2 xi,p + . . . + βp xi,p + εi

pour i = 1, . . . , n
m
       
Y1 1 x1,1 ... x1,p β0 ε1
 Y2   1 x2,1 ... x2,p   β1   ε2 
=  +
       
 ..  .. .. .. ..   ..   .. 
 .   . . . .   .   . 
Yn 1 xn,1 ... xn,p βp εn
Y = Xβ +

Y1
  1 x1,1 ... x1,p  
β0
 
ε1

 Y2   1 x2,1 ... x2,p   β1   ε2 
       
où Y =  . , X =  . . . . , β =  . , =  .
       

 .   . . . .   .   . 
 .   . . . .   .   . 
Yn 1 xn,1 ... xn,p βp εn
4
Estimation des paramètres
Problème 1
Estimer les paramètres β0 , . . . , βp .
Solution : les moindres carrés

 b 
β0
 βb1 
On cherche βb =  .  qui minimise le carré des erreurs :
 
 .. 
βbp
 2
n
X
min yi − (β0 + β1 xi,1 + . . . + βp xi,p )
 
β0 ,...,βp | {z }
i=1
erreur i
5
Estimation des paramètres β0 , β1 , . . . , βp par moindres carrés Exo
 b 
β0  2
 βb1  X n Xp
βb =  .  = argmin
   y i − β0 − βj xij 
 ..  β0 ,...,βp i=1 j=1
βbp
= argminky − X βk2
β0 ,...,βp
= (X 0 X )−1 X 0 y
En effet, rappels de calcul

Les calculs différentiel :
ky − X βk2 = (y − X β)0 (y − X β)
f : Rd → R différentiable
= y 0y − β0X 0y − y 0X β + β0X 0X β car
= y 0 y − 2y 0 X β + β 0 X 0 X β Si f (u) = a0 u où a ∈ Rd ,
β 0 Xy est un scalaire, donc égal à sa transposée. alors ∇f (u) = a
La dérivée par rapport à β donne Si f (u) = u 0 Au où A
matrice de taille d × d,
−2X 0 y + 2X 0 X β
alors ∇f (u) = (A + A0 )u
6
Remarques :
1 Si p = 1, on retrouve les mêmes estimateurs que dans la régression
linéaire simple :
Pn
0 1 1 ... 1 0 i=1 y i
X = X y = Pn
x1 x2 . . . xn i=1 xi yi
Pn
(x − x̄)(yi − ȳ )
a = β̂0 = ȳ − bx̄ b = β̂1 = Pn i
i=1
2
i=1 (xi − x̄)
2 Si p est trop grand, éviter d’utiliser la formule βb = (X 0 X )−1 X 0 Y à

cause des erreurs d’arrondi. Mieux vaut utiliser un algorithme de
minimisation.
7
Après l’estimation des paramètres β0 , . . . , βp , on en déduit

1 Valeurs ajustées (”estimées”) des observations
pour 1 6 i 6 n, estimation du y correspondant à xi = (1, xi,1 , . . . , xi,n ) :
 
βb0
p
 β1 
X  b 
ybi = βb0 + xi,k βbk = (1, xi,1 , . . . , xi,p )   = xi,. β
.  b
k=1
| {z }  .. 
xi,.
βbp
En vectoriel : ŷ = X β̂.
2 Résidus : ei = yi − ybi (le vecteur des n résidus : e = y − ŷ )
 
1
 xn+1,1 
Prévision pour un nouveau point xn+1 = 
 
3
.. 
 . 
xn+1,p
p
X 0
ybn+1 = βb0 + xn+1,k βbk = xn+1 βb
k=1
8
Problème 2 : Estimation de la variance σ 2 des erreurs

n
1 1 X
s2 = ky − ybk2 = (yi − ŷi )2
n−p−1 n−p−1
i=1
Pythagore. De même que dans la RL simple : R2 Exo CD
n
X n
X n
X
(yi − ȳ )2 = (yi − ybi )2 + yi − ȳ )2
(b
i=1 i=1 i=1
ky − ȳ k2 = ky − ybk2 + y − ȳ k2
kb
| {z } | {z } | {z }
SCT SCE SCM
somme des carrés totale somme des carrés des erreurs somme des carrés moyens
variation totale variation résiduelle variation expliquée par le modèle
Figure – Rappel de la formule de ”Pythagore” dans le cas de la régression linéaire simple
9
B Exemple :
Y = Quantité d’ozone
X1 = Rayonnement solaire, X2 = Vent, X3 = Température, X4 =
Mois, X5 = Jour.
10
B Exemple :
Y = Quantité d’ozone
X1 = Rayonnement solaire, X2 = Vent, X3 = Température, X4 =
Mois, X5 = Jour.
Solution du problème des moindres carrés :

Y = −64.12 + 0.05X1 − 3.32X2 + 1.89X3 − 3.04X4 + 0.27X5
Problème 2
Problème 1 Choix des variables. Quelles
Peut-on faire des prédictions avec ce variables explicatives ont un
modèle ? Sont-elles valables ? impact sur la variable
réponse ?
10
Intervalles de confiance (IC) et tests
11
Question à se poser pour chaque variable Xk , 1 6 k 6 p :

La variable explicative Xk est-elle utile pour prédire Y ? Est-ce qu’elle a une
influence sur Y ?
Z Est-ce que βk = 0 ?
Rappel
Pour un échantillon (xi1 , xi2 , . . . , xip , yi )i=1,...,n on a une estimation βb et donc
un modèle estimé yb = X β.b
Z βbk est donc aléatoire !
Z Trouvons sa loi pour en déduire un test sur le vrai βk et un IC du

vrai βk .
12
A partir de maintenant, et dans toute la suite, i ∼ N (0, σ) i.i.d.
Loi de chaque régresseur

Soit 0 6 k 6 p le numéro d’une variable explicative .
(k = 0 correspond à l’ordonnée à l’origine)
On a : q
βbk ∼ N βk , σ [(X 0 X )−1 ] k,k
βbk − βk βbk − βk
⇒ q ∼ N (0, 1) et q ∼ T (n − p − 1)
σ [(X 0 X )−1 ]k,k S [(X 0 X )−1 ]k,k
Test de nullité de βk
H0 : βk = 0 (les autres βj =6 0)
IC de niveau 1 − γ pour βk
H1 : βk 6= 0 (les autres βj =6 0)
h q i
βbk ± tγ/2 S [(X 0 X )−1 ]k,k Statistique de test :
βbk
q ∼ T (n − p − 1)
S [(X 0 X )−1 ]k,k H0
13
Zoom sur le test de la nullité de βk Exo
H 0 : βk = 0 (les autres 6 0)
βj =
H1 : βk 6= 0 (les autres βj =6 0)
Statistique de test :
βbk
q ∼ T (n − p − 1)
H0
S [(X 0 X )−1 ]k,k
Ce test permet de voir si l’ajout de la variable Xk est pertinent

Ce test est équivalent au test suivant :
H0 : β1 6= 0, . . . , βk−1 6= 0, βk = 0, βk+1 6= 0 et βp 6= 0
H1 : βj 6= 0, j = 1, . . . , p
forward backward
14
Intervalle de confiance de la ’droite’
Soit un point x = (1, x1 , . . . , xp ) et sa prédiction yb = x βb
Yb − E(Y (x))
q ∼ T (n − p − 1).
0 −1 0
S x (X X ) x
Z Intervalle de confiance (IC) de niveau 1 − γ pour E(Y (x)) :

q
−1
Yb ± tγ/2 S x (X 0 X ) x 0
C’est l’intervalle de confiance de la ”droite”, i.e. un IC de la valeur

moyenne E(Y (x)) attendue au point x.
15
Intervalle de confiance des prévisions Exo
Soit un point x = (1, x1 , . . . , xp ) et sa prédiction yb = x βb
Yb − Y
q ∼ T (n − p − 1).
−1
S 1 + x (X 0 X ) x0
Z Intervalle de confiance (IC) de niveau 1 − γ pour Y = Y (x) :

q
−1
yb ± tγ/2 S 1 + x (X 0 X ) x 0
C’est l’intervalle de confiance du nuage de points.
16
Test sur le modèle entier ou test de Fisher global Exo
H 0 : β 1 = β2 = . . . = βp = 0
H1 : ∃k ∈ {1, . . . , p} : βk 6= 0
Sous H0 :
Y = β0 = constante ⇒ Yb = Yb0 = Ȳ
Yb les valeurs ajustées de Y sur les p variables X1 , . . . , Xp .
• Statistique de test :
!13
x 10
1.2
kYb − Ȳ k2 /p
1
densité de la
loi de Fisher à
(!1,!2) degrés de liberté
∼ F (p, n − p − 1)
0.8
F = 0.6
kY − Yb k2 /(n − p − 1) H0 0.4
"
0.2
0
f"
• Rejet de H0 au risque α de se tromper si F > fα .
Pn b
R 2 n−p−1 (Yi −Ȳ )2 b −Ȳ k2
kY SCM
Remarque : F = 1−R 2 p avec R 2 = Pi=1
n 2 = kY −Ȳ k2
= SCT
i=1 (Yi −Ȳ )
Pythagore
17
Validation (et qualité)
18
Validation du modèle
Repose essentiellement sur l’analyse des résidus (comme dans la

régression linéaire simple)
1 Variance constante (homoscédasticité)
2 Normalité
3 Indépendance
Il est bien d’afficher les résidus ei (idée de l’indépendance et contrôle

de l’homoscédasticité), de tracer (yi , ei ) et les (xi,j , ei ) pour
j = 1, . . . , p pour détecter les éventuels points aberrants et avoir une
idée de l’indépendance des résidus.
19
Mesure de l’ajustement Pyth
Coefficient de détermination :
kYb − Ȳ k2 SCM SCT-SCE SCE

R2 = 2
= = =1−
kY − Ȳ k SCT SCT SCT
i.e.
kY − Yb k2
R2 = 1 −
kY − Ȳ k2
Remarque : Ce coef ne tient pas compte de la dimension du modèle et
augmente avec le nombre de variables.
Coefficient de détermination ajusté :
n − 1 kY − Yb k2
Ra2 = 1 −
n − p − 1 kY − Ȳ k2
20
Bilan
1 Examiner le tableau de données (graphiques, corrélations)
2 Sélectionner les variables intéressantes (par procédure automatique

s’il y en a beaucoup)
3 Appliquer la régression linéaire multiple
4 Effectuer un test à chaque régresseur Xk pour vérifier que βk 6= 0
5 Effectuer le test de Fisher global pour vérifier la significativité du

modèle global obtenu
6 Vérifier les hypothèses sur les résidus
21
Sélection de variables
22
Cas où p est très grand

Parmi ces p variables explicatives, lesquelles sont réellement
explicatives ?
1 1re idée : regarder la relation entre Y et chaque variable explicative :
Relation entre Y et X1
Relation entre Y et X2
..
.
Relation entre Y et Xp
sélectionner les Xi fortement corrélés avec Y
attention si Xi et Xj fortement corrélées avec Y mais aussi
fortement corrélées entre elles (variables ’redondantes’)
2 2e idée : regarder la relation globale entre Y et les p variables

explicatives
un critère : par exemple, celui du R 2 ajusté.
23
1re idée : Outils de base pour le choix des variables explicatives

1 Nuages de points (yi , xij ), pourairquality
chaque data variable explicative Xj
0 50 150 250 60 70 80 90 0 5 10 15 20 25 30
150
Ozone
0 50
300
Solar.R
150
0
15
Wind
5
Temp
80
60
5 6 7 8 9
Month
10 20 30
Day
0
0 50 100 150 5 10 15 20 5 6 7 8 9
2 Matrice de corrélation entre chaque variable deux à deux :
1 sur la diagonale
Matrice symétrique
24
Coefficient de corrélation entre Y et une variable explicative X (rappel)
Cov (X ,Y )
ρ= √ ∈R
Var (X )Var (Y )
Pn
(x −x)(y −y )
r = Pn i=1 i 2 √Pi n
√ 2
estimation de ρ
i=1 (x i −x) i=1 (yi −y )
Pn
(x −x)(Y −Y )
R = √Pn i=1 i 2 √Pin 2
v.a. dont r est une réalisation
i=1 (xi −x) i=1 (Yi −Y )
On peut tester la nullité de ρ
Interprétation H0 : ρ = 0 contre H1 : ρ 6= 0
r ∈ [−1; 1]
r proche de ±1 : le nuage de Statistique de test :
√ R
point est aligné (croissant si n − 2√ ∼ T (n − 2)
r ≈ 1, décroissant si r ≈ −1). 1 − R 2 H0
r proche de 0 : pas de Condition d’application du test
tendance linéaire. Y = β0 + βxi + i
avec εi ∼ N (0, σ) i.i.d.
25
2e idée : regarder la relation globale entre Y et les p variables explicatives

un critère simple pour mesurer l’ajustement du modèle : celui du R 2
(ajusté)
Types de procédures de sélection de variables

1 la recherche exhaustive parmi tous les modèles linéaires possibles
2 les méthodes de type pas à pas
26
Remarques :
Outils qui vont suivre :
1 efficaces
2 mais ne pas se fier uniquement aux résultats fournis par ces outils.
Les méthodes présentées ensuite :

1 La recherche exhaustive
2 La méthode ascendante
3 La méthode descendante
4 La régression stepwise
Remarque importante
Toutes ces procédures ne mènent pas forcément à la même solution
quand elles sont appliquées au même problème.
27
La méthode exhaustive
La recherche exhaustive (parmi tous les modèles linéaires possibles)

Z Si p variables disponibles, cela fait 2p modèles à comparer.
Z Nous choisissons celui qui a le R 2 ajusté maximum (ou avec un autre

critère d’ajustement).
Z Impossible numériquement si p dépasse 10...
28
La méthode ascendante (forward selection)

Z Simplification de la méthode de la recherche exhaustive.
Z Idée :
On part d’un modèle sans variable explicative puis on introduit une à une
d’autres variables explicatives en utilisant le test d’inclusion d’une
variable revoir
29

Détails de la méthode ascendante
1 Étape 0 : On part d’un modèle sans variable explicative. Faire p
régressions avec une seule variable explicative.
Inclure la variable explicative la plus significative.
2 Étape k : Modèle Mk avec k variables explicatives
(il reste donc p − k autres variables à tester)
Test du modèle Mk augmenté d’une nouvelle variable revoir
On réalise p − k tests :
H0 modèle Mk
H1 modèle Mk augmenté d’une variable explicative
Deux cas se présentent :

aucune variable supplémentaire n’est retenue : Mk est choisi, on va à
l’étape Fin
inclure la variable la plus significative, on note Mk+1 le nouveau modèle et
on passe à l’étape k + 1 avec le modèle Mk+1 .
3 Fin On ne peut plus ajouter de variable significative. 30

Avantages et inconvénient de la méthode ascendante

évite de travailler avec plus de variables que nécessaire,
améliore l’équation à chaque étape.
Mais l’inconvénient majeur de la méthode ascendante : une variable

introduite dans le modèle ne peut plus être éliminée.
31
La méthode descendante (backward selection)

Détails de la méthode descendante (backward selection)
1 Étape 0 : Modèle M0 avec toutes (p) les variables explicatives. Test
de nullité de chacun des p coefficients de régressions βk .
Exclure la variable explicative la moins significative.
2 Étape k : Modèle Mk avec p − k variables explicatives
on a éliminé k variables explicatives aux k étapes précédentes
Test de du modèle Mk contre le modèle Mk diminué d’une variable revoir
On réalise p − k tests :
H0 modèle Mk avec une variable explicative en moins
H1 modèle Mk
Deux cas se présentent :

toutes les variables sont significatives : Mk est choisi, on va à l’étape Fin.
on élimine la variable la moins significative et on passe à l’étape k + 1
avec le modèle Mk+1 à p − k − 1 variables significatives.
3 Fin Le modèle obtenu a toutes ses variables significatives.

32
La méthode descendante (backward selection)
Conclusions de la méthode descendante

Très satisfaisante pour l’utilisateur préférant avoir toutes les
variables possibles afin de ne rien ignorer.
Inconvénient majeur : il n’est plus possible de réintroduire une

variable une fois qu’elle a été supprimée !
33
Méthodes ascendante/descendante
♦ En pratique :
Pour chacune des deux méthodes, on fixe un risque α pour déterminer, à
l’étape k, si aucune ”nouvelle” variable n’est retenue (ascendante)/toutes
les variables ”encore en jeu” sont significatives (descendante). En fait,
quand on parle de significativité, c’est sous-entendu par rapport à un
certain risque α.
Remarques :
Avec la méthode descendante, on ne peut plus introduire une
variable éliminée une fois.
Avec la méthode ascendante, on ne peut plus éliminer une variable

introduite une fois.
Z Ce problème est alors résolu par la procédure stepwise.

34
La méthode stepwise
Procédure stepwise
Z Amélioration de la méthode ascendante.
Comment ?
À chaque étape, nous réexaminons toutes les variables introduites
précédemment dans le modèle. En effet, une variable considérée comme
la plus significative à une étape de l’algorithme peut, à une étape
ultérieure, devenir non significative.
Pourquoi ce phénomène ?
En raison de la redondance avec d’autres variables introduites après coup
dans le modèle.
35
Procédure stepwise
Après l’introduction d’une nouvelle variable dans le modèle :
refaire les tests pour chaque variable explicative anciennement
admise dans le modèle,
après réexamen, si des variables ne sont plus significatives, alors

retirer du modèle la moins significative d’entre elles.
Le processus continue jusqu’à ce que plus aucune variable ne puisse être
introduite ni retirée du modèle.
36
Bilan
1 Examiner le tableau de données (graphiques, corrélations)
2 Sélectionner les variables intéressantes (par procédure automatique

s’il y en a beaucoup)
3 Appliquer la régression linéaire multiple
4 Effectuer un test à chaque régresseur Xk pour vérifier que βk 6= 0
5 Effectuer le test de Fisher global pour vérifier la significativité du

modèle global obtenu
6 Vérifier les hypothèses sur les résidus
37
Exercice
38
Exercice : influence des heures de travail et du capital sur la production ?

Obs
X1 : Travail X2 : Capital Y : Production
(× 100 h) (× 10 machines/h) (× 1000 tonnes)
1 11 30 6
2 12 40 12
3 14 42 19
4 15 40 25
5 15 51 30
6 16 59 36
7 18 60 38
8 18 63 43
9 18 61 44
On suppose que pour i = 1, . . . , 9,
Yi = β0 + β1 X1,i + β2 X2,i + i ,
où β = (β0 , β1 , β2 ) ∈ R3 est inconnu et i sont des


i.i.d.

de loi N (0, σ).

6 1 11 30
 12   1 12 40 
Sous Matlab, on rentre les matrices suivantes
   
y =  . , X =  . . . 
   
 .   . . . 
 .   . . . 
44 1 18 61
39
Exercice : influence des heures de travail et du capital sur la production ?

1 Que vaut sum((y-mean(y)).^ 2) ? Pythagore
2 Donner une estimation du vecteur β et de la variance σ 2 . Estimation
3 Tester le modèle dans sa globalité. Test global
4 Chacune des deux variables ”Travail” et ”Capital” influence-t-elle

significativement la ”Production” ? Test partiel
5 Pour un travail de 1600 (16 × 100) heures et un capital de 500
(50 × 10) machines par heures, quelle production (+IC) s’attend-on
à avoir en moyenne ? IC
6 On exécute le programme suivant : subplot(1,2,1)
qqplot(y-X*b)
subplot(1,2,2)
plot((y-X*b)/s,’o’)
où s désigne l’écart-type estimé des résidus.
Commenter ces résultats. À quoi servent-ils ?
40

Amphistat5 - ARCHE

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Amphistat5 - ARCHE

Transféré par

Droits d'auteur :

Formats disponibles

Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Y : variable à expliquer ou variable réponse

Régression Linéaire Multiple

Régression linéaire multiple

εi i.i.d. centrés, et de variance σ 2 .

p variables ”explicatives” x·,j , non aléatoires (dans un domaine

Notation matricielle : les notations suivantes sont équivalentes

Yi = β0 + β1 xi,1 , +β2 xi,p + . . . + βp xi,p + εi

Estimation des paramètres

Solution : les moindres carrés

Estimation des paramètres β0 , β1 , . . . , βp par moindres carrés Exo

En effet, rappels de calcul

2 Si p est trop grand, éviter d’utiliser la formule βb = (X 0 X )−1 X 0 Y à

Après l’estimation des paramètres β0 , . . . , βp , on en déduit

Problème 2 : Estimation de la variance σ 2 des erreurs

Pythagore. De même que dans la RL simple : R2 Exo CD

variation totale variation résiduelle variation expliquée par le modèle

Figure – Rappel de la formule de ”Pythagore” dans le cas de la régression linéaire simple

Solution du problème des moindres carrés :

Intervalles de confiance (IC) et tests

Question à se poser pour chaque variable Xk , 1 6 k 6 p :

Z βbk est donc aléatoire !

Z Trouvons sa loi pour en déduire un test sur le vrai βk et un IC du

A partir de maintenant, et dans toute la suite, i ∼ N (0, σ) i.i.d.

Loi de chaque régresseur

Zoom sur le test de la nullité de βk Exo

Ce test permet de voir si l’ajout de la variable Xk est pertinent

Intervalle de confiance de la ’droite’

Soit un point x = (1, x1 , . . . , xp ) et sa prédiction yb = x βb

Z Intervalle de confiance (IC) de niveau 1 − γ pour E(Y (x)) :

C’est l’intervalle de confiance de la ”droite”, i.e. un IC de la valeur

Intervalle de confiance des prévisions Exo

Soit un point x = (1, x1 , . . . , xp ) et sa prédiction yb = x βb

Z Intervalle de confiance (IC) de niveau 1 − γ pour Y = Y (x) :

C’est l’intervalle de confiance du nuage de points.

Test sur le modèle entier ou test de Fisher global Exo

• Rejet de H0 au risque α de se tromper si F > fα .

Validation (et qualité)

Repose essentiellement sur l’analyse des résidus (comme dans la

Il est bien d’afficher les résidus ei (idée de l’indépendance et contrôle

Mesure de l’ajustement Pyth

kYb − Ȳ k2 SCM SCT-SCE SCE

Coefficient de détermination ajusté :

1 Examiner le tableau de données (graphiques, corrélations)

2 Sélectionner les variables intéressantes (par procédure automatique

3 Appliquer la régression linéaire multiple

4 Effectuer un test à chaque régresseur Xk pour vérifier que βk 6= 0

5 Effectuer le test de Fisher global pour vérifier la significativité du

6 Vérifier les hypothèses sur les résidus

Cas où p est très grand

2 2e idée : regarder la relation globale entre Y et les p variables

1re idée : Outils de base pour le choix des variables explicatives

2 Matrice de corrélation entre chaque variable deux à deux :

Coefficient de corrélation entre Y et une variable explicative X (rappel)

On peut tester la nullité de ρ

2e idée : regarder la relation globale entre Y et les p variables explicatives

Types de procédures de sélection de variables

Les méthodes présentées ensuite :

La recherche exhaustive (parmi tous les modèles linéaires possibles)

Z Nous choisissons celui qui a le R 2 ajusté maximum (ou avec un autre

Z Impossible numériquement si p dépasse 10...

La méthode ascendante (forward selection)

La méthode ascendante (forward selection)

A partir de maintenant, et dans toute la suite, i ∼ N (0, σ) i.i.d.

où β = (β0 , β1 , β2 ) ∈ R3 est inconnu et i sont des