Vous êtes sur la page 1sur 13

Régression linéaire

simple et multiple
But

 Existe-t-il une relation entre variables ?


 Si oui , la prise en compte des valeurs d’une variable permet-elle de prédire les valeurs de
l’autre ;
 On suppose deux variables X et Y , on peut représenter la distribution de ces deux
variables par un nuage de points ;
Principe

 Un des objectifs principaux de la statistique est d’expliquer la variabilité que l ’on observe
dans les données.
 La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ
pour étudier la présence d ’une relation entre une variable dépendante Y (quantitative et
continue) et une ou plusieurs variables indépendantes X1, X2, …, Xp (qualitatives et/ou
quantitatives).

 Y: variable dépendante ou variable réponse ou variable expliquée ou variable endogène


 X1, X2, …, Xp : variable indépendantes, explicatives, exogènes,…
Modèle de régression linéaire simple

 P=1;
 ;
 Exemple: les Pizza Parlors sont une chaine de restaurants implantés dans 5 Etats aux USA. Les restos
les plus fréquentés se situent près des campus universitaires. Les responsables pensent que les ventes
trimestrielles de ces restos notés y sont positivement liées à la taille de la population étudiante (notée
x): ce qui veut dire les restos situés à cote des universités de grande taille ont tendance à effectuer
plus d’achats que ceux situés près des campus de plus petite taille. Nous pouvons construire
l’équation en indiquant de quelle manière y est liée à la variable indépendante x,
 Y = 0 + 1X + 
 Puisque tout modèle statistique n’est qu’une approximation (nous espérons la meilleure possible!!), il
y a toujours une erreur, notée  dans le modèle, car le lien linéaire n’est jamais parfait.
Modèle de régression linéaire simple

 : terme d’erreur ou variabilité de y non expliquée par x;


 Y = 0 + 1X + ;
 0 est l’ordonnée à l’origine et 1 la pente;
 Puisqu’on utilise des données d’échantillon, on estime 0 et 1 par
 Estimation par la méthode des moindres carrés;
 En prenant E ()=0, on estime E(y)= 0 + 1X par la méthode des moindres carrés
 Regression.xlsx
Le modèle marche t-il?

 Nous voulons savoir si l’équation ainsi estimée s’ajuste aux données;


 = somme des carrés des résidus est une mesure de l’erreur commise en utilisant l’équation
estimée de la régression pour estimer les valeurs de la variable dépendante=
 SCT= somme des carrés totale= -)
 =
 montre la variation de y expliqué par x ;

 Plus est élevé plus y explique x et inversement


Hypothèses du modèle

 Y = 0 + 1X + 
 : variable aléatoire de moyenne nulle E()=0;
 La variance de  notée est la même pour toutes les valeurs de x (la variance de y pour une
valeur de x est égale à et est la même pour toutes les valeurs de x;
 Les valeurs de  sont indépendantes: la valeur de  associée à une valeur particulière de x
n’est pas liée à la valeur de  associée à une autre valeur x’
  est une variable normalement distribuée;
 E[Y] = E[0]+ E[1X] + E[]= 0 +1 E [X] +0= 0 +1 E [X]
Test de signification

 Si on rejette on conclut que et que les deux variables ont une relation statistiquement
significative.
 Le test s’impose car on travaille avec les données d’échantillon
 On peut trouver les intervalles de confiance
Régression: estimer et prévoir

 Restaurant:
 Nous pouvons utiliser l’équation de la régression pour effectuer une estimation ponctuelle
de la moyenne de y pour une valeur particulière de x ou pour prévoir la valeur de y
associée à une valeur particulière de x;
 Supposons que les responsables des restaurants veuillent prévoir les ventes d’un restaurant
situé près du collège Talbot, une école comptant 10000 étudiants.
 ;
Analyser des résidus: valider les hypothèses du
modèle
 Méthode utilisée pour valider les hypothèses associer à un modèle de régression: analyse
des résidus;
 Résidu de l’observation i: ou est la valeur observée et la valeur estimée de la variable
dépendante;
 Si les hypothèses sont vérifiées, il n’est pas certain que le modèle fournisse de bonnes
prévisions;
 Si ou plusieurs hypothèses sont contestables, mais pas forcément fausses, la prudence doit
être de mise dans l’interprétation des résultats de la régression.
Régression multiple

 Dans le cas général:++++-------++


 Même hypothèse que la régression simple
 Equation de la régression multiple: E(y)=++++-------+ car E(y)=0;
 Equation estimée de la droite de régression:
 = ++ +---+
Schématisation


Y=++++---++
Equation de régression multiple
E(y)=++++-------+

Données de l’echantillon: x1,


x2,….xp


d

Calculer
l’équation
estimée:
Coefficient de détermination multiple

 Idem que le coefficient de détermination dans la régression simple;

 est la proportion de la variabilité de y expliquée par l’équation estimée de la régression


multiple

Vous aimerez peut-être aussi