Académique Documents
Professionnel Documents
Culture Documents
U : 2019/2020
L’Analyse de Régression
Linéaire
La régression linéaire, méthode prédictive, peut être définit comme étant une technique
permettant d’ajuster une surface de régression à des données lorsque la variable
dépendante est quantitative.
Pr Y.BENGHABRIT
A quoi sert l’analyse de régression ?
Il y a un certain nombre de situations où on cherche à modéliser une variable expliquée,
notée classiquement Y, en fonction d'une ou plusieurs autres variables explicatives notées
Xi. Par la suite modéliser le système les générant.
Le modèle, soigneusement défini par des équations, sert d’abord à décrire les
phénomènes, souvent dans une optique de causalité, ensuite à prédire de nouvelles
valeurs, à condition de prendre certaines précautions.
Pr Y.BENGHABRIT
Exemple introductif
Sur chaque étudiant on a observé trois variables X (nombre de modules non validés), Y
(nombre d’absences) et Z (nombre d’heures de travail), ce qui a permis d’obtenir neuf
observations pour chacune. Les résultats obtenus sont résumés dans le tableau suivant :
X 1 1 1 2 2 2 3 3 3
Y 1 2 3 1 2 3 1 2 3
Z 6 5 4 4 3 2 2 1 0
Problématique :
Existe il une relation entre le nombre de modules non validés et le nombre d’absences ? Ou
encore une relation entre le nombre de modules non validés, le nombre d’absences et le
nombre d’heures de travail ?
Pr Y.BENGHABRIT
Problématique
Soit un système dont on fixe certains paramètres (variables/caractères).
Solution : La régression.
Pour modéliser le système, on effectue des expériences qui permettent d’obtenir les
valeurs de Y (variable à expliquer) et des k autres paramètres 𝑋 (1) , … , 𝑋 (𝑘) (variables
explicatives), de telle sorte à avoir Y = f(𝑋 (1) , … , 𝑋 (𝑘) ).
Pr Y.BENGHABRIT
Les types d’analyse de régression
Suivant la nature de Y, le nombre et la nature des Xi, cette modélisation porte différents
noms dits de régression :
Si Y est qualitative, le modèle est nommé régression logistique. Le cas le plus simple
est la régression logistique binaire (Y n'a que deux modalités).
Pr Y.BENGHABRIT
Les types d’analyse de régression
Variables Nature de la régression
Y qualitative et Xi quantitatives ou
Régression logistique
qualitatives
Pour réaliser une bonne régression, il faut commencer par choisir le modèle adéquat
parmi les modèles possibles (simple, multiple, linéaire, logistique). Ensuite, on passe à
déterminer les paramètres du modèle, autrement dit les coefficients de l’équation (des
équations) de régression. Enfin, on teste la qualité générale du modèle et on analyse
l'ajustement du modèle aux données par l'analyse des résidus.
Pr Y.BENGHABRIT
Analyse de Régression Linéaire
En analyse de régression linéaire, on écrit le modèle sous la forme : 𝑌 = σ𝑘𝑖=1 𝛽𝑖 𝑋 (𝑖)
Afin d’estimer les coefficients 𝛽𝑖 , on effectue n expériences ce qui permet d’avoir les
(𝑖)
valeurs de Y et des k 𝑋 (𝑖) . D’où le système : 𝑦𝑗 = σ𝑘𝑖=1 𝛽𝑖 𝑋𝑗 + 𝑒𝑗 (1) de n équations à k
inconnus.
Ainsi, le modèle linéaire vient modéliser Y en fonction de X (un ou plusieurs Xi) par la
relation matricielle : 𝑦 = 𝑥 𝑡 𝛽 + 𝑒, tel que 𝑦(𝑛,1) = (𝑦1 , … , 𝑦𝑛 )𝑡 ,𝛽(𝑘,1) = (𝛽1 , … , 𝛽𝑘 )𝑡 ,
(1) (1)
𝑥1 ⋯ 𝑥𝑛
𝑒(𝑛,1) = (𝑒1 , … , 𝑒𝑛 )𝑡 et 𝑥(𝑘,𝑛) = ⋮ ⋱ ⋮ .
(𝑘) (𝑘)
Pr Y.BENGHABRIT 𝑥 ⋯ 𝑥𝑛
Analyse de Régression Linéaire 2
Il faut donc déterminer les coefficients 𝛽1 , … , 𝛽𝑘 de tel sorte à minimiser l’erreur 𝑒 .
2 2
Par la suite, 𝑒 = σ𝑛𝑗=1 𝑒𝑗2 = σ𝑛𝑗=1(𝑦𝑗 − σ𝑘𝑖=1 𝛽𝑖 𝑋𝑗(𝑖) )² = 𝑡
𝑦 −𝑥 𝛽
Pr Y.BENGHABRIT
2
Analyse de Régression Linéaire
2
𝑡
Ainsi, 𝑒 minimale ≡ 𝑦 − 𝑥 𝛽 minimale
= 𝑥𝑥 𝑡 𝛽
La solution du problème posé, quand elle existe, est alors : 𝛽 = (𝑥𝑥 𝑡 )−1 𝑥 𝑦
La matrice 𝑥𝑥 𝑡 n’est autre que la matrice de covariance, si les données sont centrées et
divisées par la taille n. Quand les k variables explicatives 𝑋 (𝑖) sont indépendante, on
obtient la matrice de variance, une matrice diagonale composée des k variances. Donc,
une matrice semi-définie positive et par la suite la matrice 𝑥𝑥 𝑡 est inversible quand les k
variables explicatives sont indépendante. Pr Y.BENGHABRIT
Analyse de Régression Linéaire
2 2 2
𝑡
Selon le théorème de Pythagore, on obtient la relation : 𝑒 = 𝑦 − 𝑥 𝛽
2
on peut donc calculer 𝑒 .
2 2
Si on trouve que 𝑒 ≈ 10% 𝑦 , on peut conclure que le modèle est bon.
Pr Y.BENGHABRIT
Analyse de Régression Linéaire
X 1 1 1 2 2 2 3 3 3
Y 1 2 3 1 2 3 1 2 3
Z 6 5 4 4 3 2 2 1 0