Académique Documents
Professionnel Documents
Culture Documents
Par
Ghizlane Lakhnati
ENSA AGADIR
Plan 2
1. Introduction et définitions;
3. Autres modèles;
4. Inférence statistique.
Introduction 3
Préciser une liaison éventuelle entre deux variables statistiques
pour lesquelles on dispose d’une série d’observations jointes. Par
exemples:
• La taille et le poids d’un groupe d’individus.
• Le salaire et le solde bancaire moyen des clients d’une banque.
• La consommation et le revenu d’un groupe d’individus.
On dispose d’une série de n observations, des deux variables x et y,
représentées par un nuage de points dans lequel un point i à pour
coordonnées (xi , yi ).
Les nuages de points associés à des séries statistiques peuvent
présenter plusieurs formes:
le nuage présente un caractère linéaire, une allure d’une courbe qui
n’est pas une droite ou n’a pas de structure particulière.
Le modèle 4
Soit y une variable quantitative, qu’on veut expliquer par une autre
variable quantitative x.
y est appelée la variable à expliquer.
x est appelée la variable explicative. L’ajustement linéaire est la
recherche de la meilleur droite résumant les observations: on
cherche une relation linéaire
yi = β0 + β1 xi + ei , 1≤i≤n
Les valeurs α et β sont inconnues, on les estime par des valeurs βˆ0
et βˆ1 .
Principe:
on choisit βˆ1 et βˆ0 qui rendent minimum la somme des carrés
résiduelles (SCR):
Xn
min e2i .
i=1
On a ei = yi − ŷi = yi − (β0 + β1 xi ).
Le modèle 6
Pn 2
Pn 2
e
i=1 i = [y
i=1 i − (β0 + β x
1 i )] = Φ(β0 , β1 ) est une fonction de
β0 et β1 .
ˆ cov(x, y)
β1 =
V ar(x)
βˆ0 = y − βˆ1 x
R2 = r2 (x, y).
Log-linéaire:
y = β0 xβ1
Le taux de variation de y est proportionnel au taux de variation de
x:
dy = β0 β1 xβ0 −1 dx.
Alors dy = β1 yx−1 dx.
Et donc dy
y
= β 1
dx
x
.
• C’est un modèle à élasticité constante.
• Pour estimer les paramètres de ce modèle, on passe à la
linéarisation par:
ln y = ln(β0 ) + β1 ln(x).
Exponentiel:
y = eβ0 +β1 x
Le taux de variation de y est proportionnel à la variation de x:
dy = βeβ0 +β1 x dx.
Alors dy = β1 ydx.
Et donc dy y
= β1 dx.
Pour estimer les paramètres de ce modèle, on passe à la
linéarisation par:
ln y = β0 + β1 x.
Autres modèles de base 13
Logarithmique:
y = β0 + β1 ln x
La variation de y est proportionnel au taux de variation de x:
dy = βeβ0 +β1 x dx.
Alors dy = β1 dx x
.
y = α + β ln x, permet d’estimer les paramètres de ce modèle.
Autres modèles de base 14
Puissance:
y = β0 + β1 xn , avec n ∈ N∗
Ou bien aussi,
y = β0 + β1 xr , avec r ∈ R∗
Inférence statistique 15
On suppose une liaison:
y = β0 + β1 x + e.
e v.a qui représente l’erreur ou la perturbation.
On dispose d’observationsidentiquement distribuées (xi , yi )1≤i≤n .
Sous l’hypothèses:
1. La distribution de l’erreur est indépendante de x.
2. L’erreur est centrée et de variance constante: E(ei ) = 0,
V ar(ei ) = σe2 , ∀i = 1, ..., n.
3. Les ei sont indépendantes.
4. ei ∼ N (0, σe ), ∀i = 1, ..., n.
βˆ0 et βˆ1 qui sont des estimations statistiques des vraies coefficients
β0 et β1 du modèle.
Inférence statistique 16
• Les résidus êi approchent les aléas inconnues ei .
Pn 2 Pn 2
ê n σ
σ̂e2 = i=1 i = i=1 ê
,
n−2 n−2
appelée la variance résiduelle.
• βˆ0 et βˆ1 sont des estimateurs sans biais de β0 et β1 .
• βˆ0 et βˆ1 suivent des lois normales: N (β0 , σβˆ0 ) et N (β1 , σβˆ1 ).
2
2 1 x
σβˆ0 = + σe2 .
n nV ar(x)
2
σe
σβ2ˆ1 = .
nV ar(x)
2 2
ˆ ˆ σex
cov(β0 , β1 ) = − .
nV ar(x)
Si σe2 est inconnue, on la remplace dans les formules, par son
estimation σ̂e2 .
Inférence statistique 17
Test de significativité
Il s’agit de tester si, pour un niveau de confiance donné,
l’hypothèse de nullité d’un des paramètres.
β̂0 − β0 β̂1 − β1
et
σ̂β̂0 σ̂β̂1
suivent des lois de student de degrés de liberté n − 2.
|βˆ1 |
Si σ̂βˆ
< t α2 ,n−2 , le coefficient β1 est non significatif au risque α.
1
|βˆ1 |
Si σ̂βˆ
> t α2 ,n−2 , le coefficient est significatif au risque α.
1
Inférence statistique 19
Prévision: