Vous êtes sur la page 1sur 9

Modèle linéaire général (GLM)

On appelle modèle linéaire un modèle statistique qui peut s’écrire sous la forme
Y=θ1X1+……+ θkXk+E

– Y, variable observée que l’on souhaite expliquer et/ou prédire=variable à expliquer ou variable
réponse ou dépendante, suivant loi normale

– Variables Xj (j=1 à k), variables réelles ou dichotomiques observées, non aléatoires= variables
explicatives ou prédicteurs

– θj (j = 1 à k), paramètres du modèle, à estimer par des techniques statistiques appropriées

– E terme d’erreur dans le modèle, variable non observée pour laquelle on pose
les hypothèses suivantes : E(E) = 0 ; Var(E) = σ2 > 0, E suit N(0, σ2)
Modèle linéaire général (3)
Introduisons maintenant :
– x, vecteur de IRn composé des valeurs x1,...xn,

– X, matrice (n,k), contenant les valeurs observées des k variables explicatives


disposées en colonnes,

– θ le vecteur de IRk contenant les k paramètres du modèle,

– e le vecteur de IRn des erreurs du modèle.

On peut donc écrire le modèle sous forme matricielle : x = Xθ + e


Modèle linéaire général (4)
Modèle linéaire général (5)

x1= 1x11+ 2x12+……… kx1k+e1


………………………………
xn= 1xn1+ 2xn2+……… kxnk+en
Modèle linéaire général (5)
Régression linéaire

On cherche à modéliser une variable quantitative x en fonction de


variables explicatives quantitatives x1, ..., xp

Sous l’hypothèse gaussienne, le modèle de régression linéaire


s’écrit :

xi = θ0 + θ1x1 i + ... + θpxp i + ei

avec θ0, θ1, ..., θp inconnus, et e1, ..., en erreurs associées à n


observations indépendantes d’une loi N(0,σ2) avec σ2 inconnue.
Modèle linéaire général (6)
Modèle factoriel

On cherche à modéliser une variable quantitative x en fonction de variables


explicatives qualitatives (=facteurs)

Sous l’hxpothèse gaussienne, le modèle à un facteur s’écrit :

xij = µi + eij i = 1 à I ; j = 1 à ni

avec µ1, ..., µI inconnus, et e11, ..., eInI n observations indépendantes d’une
loi N(0, σ2) avec σ2 inconnue.

PS. Il existe (i) modèles simple et à interaction et (ii) modèle linéaire


généralisé
Résultats des GLM: Qualité du modèle
∑ =1( − [ ])² ∑ =1( − )²
• R²= è
=∑ =1-∑ ,
avec yiest, val. Estimée; yiobs, val.
=1( − )² =1( − )²
Observée, E(y), val moyenne
• R²ajusté=R²-(k[1-R²]/[n-k-1]), avec n, nbr observations, k, nbr paramètres du
modèle
• Meilleur modèleMax R² ou R² ajusté
• Critère d’information d’Akaike, AIC=-2logL-2k, L, vraisemblance maximisée
• L=p(y1∩y2 ∩….. ∩yn)=∏ ( ), avec k, nbr paramètres du modèle
( )
• Biais moyen= ∑ 100

• Root mean square error, RMSE= ∑ ( − )²


• Meilleur modèleMin AIC, Biais et RMSE
Résultats des GLM: Paramètres du modèle
• Coefficients θj(j=1 à k) et tests de signification correspondantes (ES et
statistiques du test, degré de signification p)

Source
(variable Borne Borne
réponse/dép inférieure supérieure
endante) Coefficient θ Ecart-txpe t Pr > |t| (95%) (95%)
Constante 3,071 0,826 3,719 0,001 1,396 4,745
x1 -0,877 1,168 -0,751 0,458 -3,245 1,491
x2 0,000 0,000
x3 1,135 1,168 0,972 0,337 -1,233 3,503
x4 0,000 0,000
x5 5,484 1,651 3,321 0,002 2,135 8,833
x6 0,000 0,000
x7 0,000 0,000
x8 0,000 0,000
Utilité du GLM

• Expliquer les phénomènes: identifier les variables qui affectent le


plus la variable réponse qui nous intéresse, et de quelle manière
(positivement/négativement?)

• Faire des prévisions: évaluer les valeurs de la variable réponse en


fonction de celles des variables explicatives (ou facteurs)

Vous aimerez peut-être aussi