Vous êtes sur la page 1sur 12

A.

U : 2019/2020

L’Analyse de Régression
Linéaire

Pr. Youssef BENGHABRIT


you_benghabrit@yahoo.fr
Qu’est ce qu’une régression ?
 La régression peut être définie comme étant la réduction statistique des données d’un
problème ou d’un phénomène complexe, dans le but de permettre une visualisation
simplifiée.

 La régression linéaire, méthode prédictive, peut être définit comme étant une technique
permettant d’ajuster une surface de régression à des données lorsque la variable
dépendante est quantitative.
Pr Y.BENGHABRIT
A quoi sert l’analyse de régression ?
 Il y a un certain nombre de situations où on cherche à modéliser une variable expliquée,
notée classiquement Y, en fonction d'une ou plusieurs autres variables explicatives notées
Xi. Par la suite modéliser le système les générant.

 Le modèle, soigneusement défini par des équations, sert d’abord à décrire les
phénomènes, souvent dans une optique de causalité, ensuite à prédire de nouvelles
valeurs, à condition de prendre certaines précautions.

Pr Y.BENGHABRIT
Exemple introductif
Sur chaque étudiant on a observé trois variables X (nombre de modules non validés), Y
(nombre d’absences) et Z (nombre d’heures de travail), ce qui a permis d’obtenir neuf
observations pour chacune. Les résultats obtenus sont résumés dans le tableau suivant :
X 1 1 1 2 2 2 3 3 3

Y 1 2 3 1 2 3 1 2 3

Z 6 5 4 4 3 2 2 1 0

Problématique :

Existe il une relation entre le nombre de modules non validés et le nombre d’absences ? Ou
encore une relation entre le nombre de modules non validés, le nombre d’absences et le
nombre d’heures de travail ?
Pr Y.BENGHABRIT
Problématique
 Soit un système dont on fixe certains paramètres (variables/caractères).

 Soient 𝑋 (1) , … , 𝑋 (𝑘) les k paramètres fixés entrées du systèmes et Y le paramètre


(variable/caractère) sortie du système.

Problématique : On cherche à modéliser ce système.

Solution : La régression.

 Pour modéliser le système, on effectue des expériences qui permettent d’obtenir les
valeurs de Y (variable à expliquer) et des k autres paramètres 𝑋 (1) , … , 𝑋 (𝑘) (variables
explicatives), de telle sorte à avoir Y = f(𝑋 (1) , … , 𝑋 (𝑘) ).
Pr Y.BENGHABRIT
Les types d’analyse de régression
 Suivant la nature de Y, le nombre et la nature des Xi, cette modélisation porte différents
noms dits de régression :

Variable Nature de la régression


Régression simple (droite
Une seule variable explicative X
de régression)
Plus d’une variable explicative Xi Régression multiple
 Lorsque Y et les Xi sont quantitatives, le modèle le plus étudié est nommé régression
linéaire.

 Si Y est qualitative, le modèle est nommé régression logistique. Le cas le plus simple
est la régression logistique binaire (Y n'a que deux modalités).
Pr Y.BENGHABRIT
Les types d’analyse de régression
Variables Nature de la régression

Y qualitative et Xi quantitatives ou
Régression logistique
qualitatives

Y quantitative et Xi quantitatives Régression linéaire

 Pour réaliser une bonne régression, il faut commencer par choisir le modèle adéquat
parmi les modèles possibles (simple, multiple, linéaire, logistique). Ensuite, on passe à
déterminer les paramètres du modèle, autrement dit les coefficients de l’équation (des
équations) de régression. Enfin, on teste la qualité générale du modèle et on analyse
l'ajustement du modèle aux données par l'analyse des résidus.
Pr Y.BENGHABRIT
Analyse de Régression Linéaire
 En analyse de régression linéaire, on écrit le modèle sous la forme : 𝑌 = σ𝑘𝑖=1 𝛽𝑖 𝑋 (𝑖)

 Afin d’estimer les coefficients 𝛽𝑖 , on effectue n expériences ce qui permet d’avoir les
(𝑖)
valeurs de Y et des k 𝑋 (𝑖) . D’où le système : 𝑦𝑗 = σ𝑘𝑖=1 𝛽𝑖 𝑋𝑗 + 𝑒𝑗 (1) de n équations à k

inconnus.

 Ainsi, le modèle linéaire vient modéliser Y en fonction de X (un ou plusieurs Xi) par la
relation matricielle : 𝑦 = 𝑥 𝑡 𝛽 + 𝑒, tel que 𝑦(𝑛,1) = (𝑦1 , … , 𝑦𝑛 )𝑡 ,𝛽(𝑘,1) = (𝛽1 , … , 𝛽𝑘 )𝑡 ,

(1) (1)
𝑥1 ⋯ 𝑥𝑛
𝑒(𝑛,1) = (𝑒1 , … , 𝑒𝑛 )𝑡 et 𝑥(𝑘,𝑛) = ⋮ ⋱ ⋮ .
(𝑘) (𝑘)
Pr Y.BENGHABRIT 𝑥 ⋯ 𝑥𝑛
Analyse de Régression Linéaire 2
 Il faut donc déterminer les coefficients 𝛽1 , … , 𝛽𝑘 de tel sorte à minimiser l’erreur 𝑒 .

La méthode des moindres carrées consiste à


2
rendre minimale 𝑒 = σ𝑛𝑗=1 𝑒𝑗2 . (critère choisi)
𝑒

 Géométriquement, la projection orthogonale de 𝑦

sur l’espace H engendré par 𝑥 𝑡 𝛽 permet d’obtenir


H
2 2 2
𝑦 = 𝑥𝑡 𝛽 + 𝑒 .

2 2
 Par la suite, 𝑒 = σ𝑛𝑗=1 𝑒𝑗2 = σ𝑛𝑗=1(𝑦𝑗 − σ𝑘𝑖=1 𝛽𝑖 𝑋𝑗(𝑖) )² = 𝑡
𝑦 −𝑥 𝛽
Pr Y.BENGHABRIT
2
Analyse de Régression Linéaire
2
𝑡
 Ainsi, 𝑒 minimale ≡ 𝑦 − 𝑥 𝛽 minimale

Sans perte de généralité, le problème revient alors à résoudre 𝑦 = 𝑥 𝑡 𝛽 ou encore 𝑥 𝑦

= 𝑥𝑥 𝑡 𝛽

 La solution du problème posé, quand elle existe, est alors : 𝛽 = (𝑥𝑥 𝑡 )−1 𝑥 𝑦

La matrice 𝑥𝑥 𝑡 n’est autre que la matrice de covariance, si les données sont centrées et
divisées par la taille n. Quand les k variables explicatives 𝑋 (𝑖) sont indépendante, on
obtient la matrice de variance, une matrice diagonale composée des k variances. Donc,
une matrice semi-définie positive et par la suite la matrice 𝑥𝑥 𝑡 est inversible quand les k
variables explicatives sont indépendante. Pr Y.BENGHABRIT
Analyse de Régression Linéaire
2 2 2
𝑡
 Selon le théorème de Pythagore, on obtient la relation : 𝑒 = 𝑦 − 𝑥 𝛽

2
on peut donc calculer 𝑒 .

2 2
 Si on trouve que 𝑒 ≈ 10% 𝑦 , on peut conclure que le modèle est bon.

 Soit 𝑥’ les valeurs de nouvelles expériences. La prévision 𝑦’ est notée 𝑦′ = 𝑥 ′𝑡 𝛽.

La prévision est bonne lorsque l’erreur est petite.

Pr Y.BENGHABRIT
Analyse de Régression Linéaire
X 1 1 1 2 2 2 3 3 3

Y 1 2 3 1 2 3 1 2 3

Z 6 5 4 4 3 2 2 1 0

La recherche d’une relation entre X (nombre de modules non validés), Y (nombre


d’absences) et Z (nombre d’heures de travail) par une régression linéaire multiple donne la
2 2
droite obtient X =4.5 -0.5Y – 0.5 Z. avec des p-values <2e-16 soit 𝑒 ≈ 10% 𝑥 .

Conclusion : En cherchant une régression à deux dimension, on trouve que le nombre de


modules non validés change en fonction du nombre d’absences et d’heures de travail.
Comme l’erreur est petite, on peut accepter le modèle pour l’échantillon étudié.
Pr Y.BENGHABRIT

Vous aimerez peut-être aussi