Académique Documents
Professionnel Documents
Culture Documents
16 Mars 2023
Présentation du code
Le code est constitué par deux fonctions, gradient() et valeurs(). La
fontcion gradient() calcule le gradient pour la fonction de coût J(β, β0 ) =
n
1
(yi −fβ,β0 (xi ))2 pour chaque β, et la fonction valeurs() utilise la fonction
P
2n
i=1
gradient() pour appliquer la méthode de descente de gradient.
gradient()
La fonction gradient() calcule le gradient par rapport à chaque élément
du vecteur β en se basant sur la base de données. Une condition d’utilisation
de la fonction estime que la première colonne de la base de données est la
variable expliquée y et que les autres variables sont les variables expliquatives
xi=1...n de la variable y. Une implémentation de la fonction gradient est la
suivante :
1
valeurs()
La fonction valeurs() est utilisée pour calculer les valeurs optimales de
β. Elle prend pour argument la base de données, le vecteur initial de β,
l’hyperparamètre α et le nombre d’itérations pour que l’algorithme converge.
Ci-dessous une implémentation de la fonction :
2
Pour respecter les fonctions qu’on a déjà implémenté, on doit préparer
deux bases de données, une pour chaque problème :
Problème 1
Traitement et analyse des données
La première étape avant d’appliquer la régression linéaire est de traiter la
base de données. On commence d’abord par vérifier si on n’a pas de valeurs
manquantes dans notre base :
3
Figure 7 – Enlèvement des valeurs aberrantes
La quatrième étape est de vérifié si il’y a une corrélation entre les variables
maxO3 et T12.
4
La dernière étape est de visualiser le graphe de la relation entre maxO3
et T12.
Régression linéaire
En utilisant les deux fonctions gradient() et valeurs() on essayera de
trouver les valeurs β0 et β1 pour trouver le modèle maxO3 = β0 + β1 T 12 qui
minimise l’erreur entre les valeurs observées et prédictives.
5
Figure 12 – Les valeurs des coefficients de régression
Evaluation du modèle
Pour évaluer le modèle, on va calculer l’erreur quadratique moyenne
(RMSE en anglais) entre les valeurs observées et prédectives :
6
Donc l’erreur quadratique moyenne est de 17,32.
Problème 2
On va traiter la base de données data2 de la même manière que data1.
Après l’enlèvement des valeurs aberrantes on obtient une base de données de
107 observations.
7
Figure 16 – Matrice de corrélation
Régression linéaire
En utilisant les deux fonctions gradient() et valeurs() on essayera de
trouver les valeurs β0 , β1 , β2 et β3 pour trouver le modèle maxO3 = β0 +
β1 T 9 + β2 T 12 + β3 T 15 qui minimise l’erreur entre les valeurs observées et
prédictives.
8
Evaluation du modèle
Pour évaluer le modèle, on va calculer l’erreur quadratique moyenne
(RMSE en anglais) entre les valeurs observées et prédectives :
9
On remarque que la corrélation entre la nébulosité et la teneur maxilmale
en ozone observée pendant toute la journée est négative, alors une augmen-
tation de la nébulosité va causer la diminution de la teneur en ozone.
10