Académique Documents
Professionnel Documents
Culture Documents
simple et multiple
But
Un des objectifs principaux de la statistique est d’expliquer la variabilité que l ’on observe
dans les données.
La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ
pour étudier la présence d ’une relation entre une variable dépendante Y (quantitative et
continue) et une ou plusieurs variables indépendantes X1, X2, …, Xp (qualitatives et/ou
quantitatives).
P=1;
;
Exemple: les Pizza Parlors sont une chaine de restaurants implantés dans 5 Etats aux USA. Les restos
les plus fréquentés se situent près des campus universitaires. Les responsables pensent que les ventes
trimestrielles de ces restos notés y sont positivement liées à la taille de la population étudiante (notée
x): ce qui veut dire les restos situés à cote des universités de grande taille ont tendance à effectuer
plus d’achats que ceux situés près des campus de plus petite taille. Nous pouvons construire
l’équation en indiquant de quelle manière y est liée à la variable indépendante x,
Y = 0 + 1X +
Puisque tout modèle statistique n’est qu’une approximation (nous espérons la meilleure possible!!), il
y a toujours une erreur, notée dans le modèle, car le lien linéaire n’est jamais parfait.
Modèle de régression linéaire simple
Y = 0 + 1X +
: variable aléatoire de moyenne nulle E()=0;
La variance de notée est la même pour toutes les valeurs de x (la variance de y pour une
valeur de x est égale à et est la même pour toutes les valeurs de x;
Les valeurs de sont indépendantes: la valeur de associée à une valeur particulière de x
n’est pas liée à la valeur de associée à une autre valeur x’
est une variable normalement distribuée;
E[Y] = E[0]+ E[1X] + E[]= 0 +1 E [X] +0= 0 +1 E [X]
Test de signification
Si on rejette on conclut que et que les deux variables ont une relation statistiquement
significative.
Le test s’impose car on travaille avec les données d’échantillon
On peut trouver les intervalles de confiance
Régression: estimer et prévoir
Restaurant:
Nous pouvons utiliser l’équation de la régression pour effectuer une estimation ponctuelle
de la moyenne de y pour une valeur particulière de x ou pour prévoir la valeur de y
associée à une valeur particulière de x;
Supposons que les responsables des restaurants veuillent prévoir les ventes d’un restaurant
situé près du collège Talbot, une école comptant 10000 étudiants.
;
Analyser des résidus: valider les hypothèses du
modèle
Méthode utilisée pour valider les hypothèses associer à un modèle de régression: analyse
des résidus;
Résidu de l’observation i: ou est la valeur observée et la valeur estimée de la variable
dépendante;
Si les hypothèses sont vérifiées, il n’est pas certain que le modèle fournisse de bonnes
prévisions;
Si ou plusieurs hypothèses sont contestables, mais pas forcément fausses, la prudence doit
être de mise dans l’interprétation des résultats de la régression.
Régression multiple
Y=++++---++
Equation de régression multiple
E(y)=++++-------+
d
Calculer
l’équation
estimée:
Coefficient de détermination multiple