Vous êtes sur la page 1sur 17

R ÉGRESSION LINÉAIRE SIMPLE

Statistiques - 4ème année Data Science - A.U. 2021/2022


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Plan

1 Introduction

2 Modèle

3 Estimation des paramètres

4 Qualité d’ajustement

5 Application R

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Exemple introductif

Problème: Une entreprise cherche à étudier les quantités vendues(Y ) d’un


produit "p" en fonction de la dépense publicitaire(X) par internet pour les 5
derniers mois. ➪ Les résultats obtenus sont présentés par le tableau suivant:

Les quantités vendues (Y ) 114 124 143 158 166


La dépense publicitaire (X) 35 45 55 65 75

Pour un budget fixé pour la dépense publicitaire, peut-on


déterminer les quantités vendues du produit "p"?

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

☛ Représentation du nuage de points associé à (X, Y )

Objectif:
Trouver une relation affine entre Y et X de la forme :
Y =b+aX
@UP-Maths Test paramétrique:2 échnatillons Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Modèle

On note
• Y la variable aléatoire réelle à expliquer: variable endogène,
dépendante ou réponse.

• X la variable explicative ou effet fixe :exogène.

Le modèle revient à supposer, qu’en moyenne, E(Y ), est


une fonction affine de X
E(Y ) = f (X) = b + a X ou Y = b + aX + ε

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Hypothèses

Les hypothèses relatives au modèle sont les suivantes :

2
 La distribution de l’erreur ε est indépendante de X OU X est fixe.

2
 L’erreur est centrée et de variance constante (homoscédasticité):
E(εi ) = 0 V ar(εi ) = σ 2 ∀i = 1, ...., n

2
 a et b sont des constantes, pas de rupture du modèle.

 Hypothèse complémentaire pour les inférences ε ∼ N (0, σ 2 ).


2

2
 Les εi sont indépendantes.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Estimation des paramètres du modèle

Estimation des paramètres:


L’estimation des paramètres a, b est obtenue en maximisant la vraisemblance,
sous l’hypothèse que les erreurs sont gaussiennes, ou encore par minimisation
de la somme des carrés des écarts entre observations et modèle (moindres car-
rés). Les deux approches conduisent aux mêmes estimation.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Méthode des Moindres carrés

Revenons à notre exemple introductif la représentation graphique de nuage des


points nous permet de définir des points
Mi (xi ; yi )1≤i≤n

Objectif:
✓ Déterminer, suivant la méthode des moindres carrés, une équation de la
droite (D) passant "le plus proche" possible des points du nuage.

✓ Ajuster ce nuage de points par la méthode des moindres carrés, c’est


Xn
déterminer la droite (D) pour que la somme (yi − b − axi )2 soit
i=1
minimale.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

Pour une séquence d’observations {(xi , yi )}i=1,....,n , le critère des moindres carrés
s’écrit :
n
X
a,b (yi − b − axi )2
i=1
En considérant que les dérivées partielles d’ordre 1 doivent s’annuler en l’extrêmum,
on obtient :
n
X n
X n
X
xi y i = a x2i +b xi
i=1 i=1 i=1

n
X n
X
yi = a xi + n b
i=1 i=1

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

10

Notons
• X la variable qui prend les valeurs (xi )
• Y la variable qui prend les valeurs (yi )
La résolution du système associé conduit à :
n
1X
xi yi − xy
n i=1 cov(X, Y )
a = n = 2
1X σX
(xi − x)2
n i=1
b = y − ax
En fixant a = y − bx, on constate que cet extremum est un minimum .

➪ La droite d’équation Y = aX + b est la droite d’ajustement du nuage de points


par la méthode des moindres carrés.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

11

À chaque valeur de X correspond la valeur estimée ou ajustée de Y :

ybi = b + a xi

Les résidus calculés ou estimés sont :

ei = yi − ybi

Les résidus sont de somme et de moyenne nulle.


X
La méthode des moindres carrés conduit à avoir la somme e2i minimale.
i

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

12

Indicateur de qualité d’un ajustement


Coefficient de détermination

Somme des Carrés :


n
X
Totale: SCT = (yi − y)2
i=1
n
X
Expliquée: SCE = (ybi − y)2
i=1
n
X
Résiduelle: SCR = e2i
i=1

Relation fondamentale : SCT = SCE + SCR

➪ Plus la variabilité résiduelle est faible, plus la part expliquée est importante.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

13

Indicateur de qualité d’un ajustement


Coefficient de détermination

Coefficient de détermination :
Le coefficient de détermination est un indicateur de la qualité de la régression
défini par :

SCE
R2 =
SCT

➪ Plus R2 est voisin de 1, plus la relation affine entre X et Y est significative.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

14

Indicateur de qualité d’un ajustement


Coefficient de corrélation

Coefficient de de corrélation linéaire:


Le nombre R est appelé coefficient de corrélation linéaire entre Y et X . On a :

Cov(X, Y ) σY
a= 2 = R
σX σX
D’où :

Cov(X, Y )
R=
σX σ Y

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

15

Application R

Afin de procéder à l’étalonnage d’un nouvel appareil de mesures, on effectue 5


mesures (grandeurs obtenues) avec cet appareil associées à 5 valeurs de référence X
(grandeurs théoriques).
Pour chaque mesure effectuée, on calcule l’écart, noté Y , entre la valeur obtenue et
la valeur de référence.

Valeurs de référence xi 0.2 0.5 1 2 4


Ecarts yi 0.083 0.176 0.311 0.631 1.231

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

16

Application R

1 A partir de l’échantillon proposé, utiliser la méthode des moindres carrés pour


estimer les paramètres du modèle suivant:
Y = aX + b

2 Etudier la validité de l’hypothèse de normalité.

3 Etudier la qualité d’ajustement du modèle.

@UP-Maths Test paramétrique:2 échnatillons Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Application R

17

Correction

1 Pour ajuster un modèle linéaire simple gaussien yi = axi + b + ϵi

> modele = lm(y ∼ x)


2 Pour étudier la validité de l’hypothèse de normalité.

> shapiro.test(resid(modele))
3 Pour voir les principales statistiques du modèle et la qualité d’ajustement du
modèle.

> summary(modele)

@UP-Maths Test paramétrique:2 échnatillons Statistiques

Vous aimerez peut-être aussi