dépendante Y et plusieurs variables indépendantes X1, X2, X3 ... Equation de régression multiple : cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : Y= Le modèle linéaire de régression multiple : s’écrit sous forme matricielle ; y = Les hypothèses du modèle : hypothèses de nature probabiliste : - les variables X aléatoires - pour tout i - pour tout 1<i<p (homoscédasticité des erreurs) – Cov ( ) = 0 pour tout i ≠ j – Le vecteur aléatoire suit une loi normale à n dimensions N (0, ) ; hypothèses structurelles : - det ( )=0 – n>p+1 Estimation des coefficients de régression : méthode : les moindres carrés ordinaires ; le principe de l’estimation des coefficients de régression, , consiste à minimiser la somme des carrés des résidus . Estimation de la variance des résidus : Intervalles de confiance : Le coefficient de détermination R² : exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l’ajustement du modèle. Le test global de Fisher : il permet de répondre à la question : la liaison globale entre Y et les X est-elle significative ? >> Hypothèses : H0 : β1 = β2 = ……= β = 0 ; H1 : au moins un coefficient est non nul, Y dépend d’au moins une variable X. il permet de tester si le fait d’ajouter une variable indépendante à un modèle comportant déjà une variable est statistiquement significatif. Le test de Student sur un coefficient de régression : permet de répondre à la question suivante : l’apport marginal d’une variable X est-il significatif ? >> Hypothèses : H0 : β=0 on peut supprimer la variable X ; H1 : β ≠ 0 il faut conserver la variable X Analyse des résidus => Normalité : QQ plot – tests de normalité. Homosccédasticité : la variance des résidus n’est pas stable. – transformation des données. Indépendance des résidus : test de Drbin Watson. Détection des valeurs atypiques. Mode : valeur dominante est la modalité la plus fréquente. Médiane : c’est la valeur de la variable qui se situe au centre de la série statistique classé par ordre croissant, elle sépare la distribution en 2 groupes de même effectifs. L’étendue : différence entre les valeurs extrême de la distribution, e = max – min = X - X Ecart interquartile : différence entre le 1er et le 3em quartile, il englobe la moitié des observations situé au centre de la distribution. L’écart-type : la moyenne des écarts entre les valeurs observées et la moyenne. Il mesure le degré de dispersion autour de la moyenne. Moyenne arithmétique : c’est la moyenne des variables observées. La variance : la moyenne des carrés des écarts par rapports à la moyenne. Covariance : permet d’étudier la variation d’un élément à un autre par rapport à leur moyenne respective. Coefficient de corrélation : étudie l’intensité de la relation entre X et Y. Coefficient de détermination : étudie le niveau d’ajustement de la droite de régression au nuage de points. Il fournit une indication de la force de la liaison possible pouvant exister entre X et Y au niveau de la population. MMC (Méthode des moindres carrés) : essaie de construire une droite de régression empirique qui minimise la somme des carrés des distances verticales entre cette droite et chacun des points observés. Multicolinéarité : c’est l’existence de corrélation élevées entre les variables indépendantes (variables explicatives), il a notamment pour conséquences : - de fausser la précision de l’estimation des coefficients de régression – de rendre sensible m’estimation des coefficients à de petites variations des données. Homoscédasticité : hypothèse selon laquelle la variance des erreurs est la même quelque soit l'observation considérée. (Augmente d’une manière constante) Héteroscédasticité : On parle d'hétéroscédasticité lorsque les variances des variables examinées sont différentes. Une collection de variables aléatoires est hétéroscédastique, s'il y a des sous-populations qui ont des variabilités différentes des autres. La notion d'hétéroscédasticité s'oppose à celle d'homoscédasticité Les variables indicatrices => variable muette ou indicatrice : variable prenant les valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique, par exemple une périodicité. SCE : somme des carrées expliqués par le modèle. Test de normalité permettent de vérifier si des données réelles suivent une loi normale ou non. Pourquoi un modèle de régression multiple (r2) ne constitue pas un bon indicateur pour juger le modèle ? => Lorsque en ajoute de nouvelles variables explicatives au modèle, le R2 augmente (même dans le cas ou les nouvelles variables explicatives sont très liées à la variable dépendante) Interprétation des valeurs prises par r et la covariance entre 2 variables X et Y ? => r : r = +ou- 1 existe une relation exacte ; r : r = 0 X et Y sont indépendantes, c-à-d il n’existe aucune relation linéaire entre les 2 variables. ; r : r ≠ 0 et r ≠ +ou- 1 relation + ou – forte. Cov = 0 aucune relation entre X et Y ; Cov > 0 les 2 variables X et Y ont une relation et évoluent dans le même sens ; Cov < 0 les 2 variables X et Y évoluent dans le sens contraire.