Vous êtes sur la page 1sur 3

Quand en utilise la régression multiple ?

Pour estimer la relation entre une variable


dépendante Y et plusieurs variables indépendantes X1, X2, X3 ...
Equation de régression multiple : cette équation précise la façon dont la variable
dépendante est reliée aux variables explicatives : Y=
Le modèle linéaire de régression multiple : s’écrit sous forme matricielle ; y =
Les hypothèses du modèle : hypothèses de nature probabiliste : - les variables X
aléatoires - pour tout i - pour tout 1<i<p (homoscédasticité des erreurs)
– Cov ( ) = 0 pour tout i ≠ j – Le vecteur aléatoire suit une loi normale à n dimensions
N (0, ) ; hypothèses structurelles : - det ( )=0 – n>p+1
Estimation des coefficients de régression : méthode : les moindres carrés ordinaires ;
le principe de l’estimation des coefficients de régression, , consiste à
minimiser la somme des carrés des résidus .
Estimation de la variance des résidus :
Intervalles de confiance :
Le coefficient de détermination R² : exprime le pourcentage de la variance de Y
expliquée par le modèle. Il donne une idée globale de l’ajustement du modèle.
Le test global de Fisher : il permet de répondre à la question : la liaison globale entre Y
et les X est-elle significative ? >> Hypothèses : H0 : β1 = β2 = ……= β = 0 ; H1 : au moins
un coefficient est non nul, Y dépend d’au moins une variable X. il permet de tester si le
fait d’ajouter une variable indépendante à un modèle comportant déjà une variable est
statistiquement significatif.
Le test de Student sur un coefficient de régression : permet de répondre à la
question suivante : l’apport marginal d’une variable X est-il significatif ? >> Hypothèses :
H0 : β=0 on peut supprimer la variable X ; H1 : β ≠ 0 il faut conserver la variable X
Analyse des résidus => Normalité : QQ plot – tests de normalité. Homosccédasticité : la
variance des résidus n’est pas stable. – transformation des données. Indépendance des
résidus : test de Drbin Watson. Détection des valeurs atypiques.
Mode : valeur dominante est la modalité la plus fréquente.
Médiane : c’est la valeur de la variable qui se situe au centre de la série statistique classé
par ordre croissant, elle sépare la distribution en 2 groupes de même effectifs.
L’étendue : différence entre les valeurs extrême de la distribution, e = max – min = X - X
Ecart interquartile : différence entre le 1er et le 3em quartile, il englobe la moitié des
observations situé au centre de la distribution.
L’écart-type : la moyenne des écarts entre les valeurs observées et la moyenne. Il
mesure le degré de dispersion autour de la moyenne.
Moyenne arithmétique : c’est la moyenne des variables observées.
La variance : la moyenne des carrés des écarts par rapports à la moyenne.
Covariance : permet d’étudier la variation d’un élément à un autre par rapport à leur
moyenne respective.
Coefficient de corrélation : étudie l’intensité de la relation entre X et Y.
Coefficient de détermination : étudie le niveau d’ajustement de la droite de régression
au nuage de points. Il fournit une indication de la force de la liaison possible pouvant
exister entre X et Y au niveau de la population.
MMC (Méthode des moindres carrés) : essaie de construire une droite de régression
empirique qui minimise la somme des carrés des distances verticales entre cette droite
et chacun des points observés.
Multicolinéarité : c’est l’existence de corrélation élevées entre les variables
indépendantes (variables explicatives), il a notamment pour conséquences : - de fausser
la précision de l’estimation des coefficients de régression – de rendre sensible
m’estimation des coefficients à de petites variations des données.
Homoscédasticité : hypothèse selon laquelle la variance des erreurs est la même
quelque soit l'observation considérée. (Augmente d’une manière constante)
Héteroscédasticité : On parle d'hétéroscédasticité lorsque les variances des variables
examinées sont différentes. Une collection de variables aléatoires est hétéroscédastique,
s'il y a des sous-populations qui ont des variabilités différentes des autres. La notion
d'hétéroscédasticité s'oppose à celle d'homoscédasticité
Les variables indicatrices => variable muette ou indicatrice : variable prenant les
valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique,
par exemple une périodicité.
SCE : somme des carrées expliqués par le modèle.
Test de normalité permettent de vérifier si des données réelles suivent une loi
normale ou non.
Pourquoi un modèle de régression multiple (r2) ne constitue pas un bon
indicateur pour juger le modèle ? => Lorsque en ajoute de nouvelles variables
explicatives au modèle, le R2 augmente (même dans le cas ou les nouvelles variables
explicatives sont très liées à la variable dépendante)
Interprétation des valeurs prises par r et la covariance entre 2 variables X et Y ?
=>
r : r = +ou- 1 existe une relation exacte ; r : r = 0 X et Y sont indépendantes, c-à-d il
n’existe aucune relation linéaire entre les 2 variables. ; r : r ≠ 0 et r ≠ +ou- 1 relation + ou
– forte.
Cov = 0 aucune relation entre X et Y ; Cov > 0 les 2 variables X et Y ont une relation et
évoluent dans le même sens ; Cov < 0 les 2 variables X et Y évoluent dans le sens
contraire.