Regression

Chapitre III :
La régression
Mme. Khaoula Tbarki

Année universitaire 2019/2020
Mme. Khaoula Tbarki
I. Définition
➢ Sorties de type continue.
➢ La réponse à une question est représentée par une quantité qui peut être déterminée de
manière flexible en fonction des entrées du modèle.
2,55 2,05
1,75 1,70
3,25 2,99
6,33 6,20
7,98 Evaluation du performance du système ??
7,35
5,65 5,80
8,25 9,00
Mme. Khaoula Tbarki

II. Les protocoles expérimentaux
❖ Root Mean Square Error (RMSE) [0,inf]
RMSE est une règle de notation quadratique qui mesure également la
moyenne de l'erreur.
1 n
RMSE =  r p
n i =1
( y − y ) 2 Eq. III.1
❖ Mean Absolute Error (MAE) [0,inf]

MAE mesure la moyenne des erreurs dans un ensemble de prévisions, sans tenir
compte de leur direction.
1 n
MAE =  yr − y p Eq. III.2
n i =1
Mme. Khaoula Tbarki

Mean Absolute Error (MAE) [0,inf]
❖ Explained Variance (EV) [0,1]
var( yr − y p )
EV = 1 − Eq. III.3
var( yr )
Mme. Khaoula Tbarki

❖ Mean Square Error (MSE)
1 n
MSE =  ( yr − y p ) 2 Eq. III.3
n i =1
Mme. Khaoula Tbarki

❖ Mean absolute percentage error (MAPE)
Le MAPE indique dans quelle mesure les prévisions du modèle sont en moyenne
différentes des sorties correspondantes.
100 n yr − y p Eq. III.4

MAPE =  y
n i =1 r
MAPE et MAE sont robustes aux effets des

valeurs aberrantes grâce à l'utilisation de la
valeur absolue.
Mme. Khaoula Tbarki

II. La régression linéaire
II.1 Définition
➢ La régression linéaire est une approche pour modéliser la relation entre les variables scalaire dépendent Y et
une ou plusieurs variables explicatives X.
➢II.2 Type de régression linéaire
La régression linéaire simple La régression linéaire multiple
Une seule variable explicative Plusieurs variables explicatives
Exemple : Prédiction du prix d’une maison en Exemple : Prédiction du prix d’une maison en fonction de
fonction de la taille seulement la taille, nombre des chambres, adresse,…
Mme. Khaoula Tbarki
II.2 Type de régression linéaire
La régression linéaire simple La régression linéaire multiple
Mme. Khaoula Tbarki

But du R.L : trouver une relation entre X et Y
II.3 La régression linéaire
Y
Y
X
X
Mme. Khaoula Tbarki

H(X)=Y=a*X+b= Trouver
a et b=
Dependent variable:
predicted variable independent
= variable: Feature=
X
Mme. Khaoula Tbarki

H(X)=Y=a*X+b= Trouver
a et b=
Dependent variable:
predicted variable independent
= variable: Feature=
X
Mme. Khaoula Tbarki

II.3 La régression linéaire Comment trouver a et b=
➢ Calculer Cost Function :
C(X) <<<0 : les prévisions C(X) >>>0 : les prévisions

sont très proches du valeur sont différents du valeur
réel réel
Mme. Khaoula Tbarki

Y
Predicted value
Real value
????
Mme. Khaoula Tbarki
????
Méthode de résolution=
Design Matrix approach :

Gradient Descent=
=
Mme. Khaoula Tbarki

Design Matrix approach (D.M.A) Gradient Descent(G.D)

=
➢ Cas des problèmes de dimensions ➢ Approche itérative

réduites : nombre réduites des ➢ fonctionne d’une manière efficace
features. avec une base de données
➢ si une matrice de grande taille : volumineuse,
complexité de calcul est grande
Mme. Khaoula Tbarki =

Gradient Descent(G.D)
Mme. Khaoula Tbarki

Small learning rate :

huge learning rate :
➢ Nombre des étapes reduit pour
➢ Nombre des étapes est important
converger vers le min
➢ Chaque itération s’exécute
➢ Chaque itération prend beaucoup
rapidement
de temps (augmente la C.C)
➢ N’est performent
➢ Performent (précis)
Mme. Khaoula Tbarki
Performance du modèle :
RSS : residual sum of squaries (RSS=MSE)
TSS : total sum of squares : somme totale des

carrés (RSS=MSE)
Mme. Khaoula Tbarki

III. L’arbre de décision (Decision Tree)
➢Un arbre de décision fournit un modèle de classification ou de régression construit sous forme
d'arborescence.
➢Leur principe est la partition de l'espace d'entrée en des régions, où chacun région peut prendre une
décision : Elle a pour but de trouver les partitions de données.
➢Le modèle de prédiction est non linéaire.
Mme. Khaoula Tbarki

Chiffre Couleu Soulig Gras

r 500 né 700
200
1 rouge oui oui
1 rouge oui Non
➢ Simple à manipuler. 0 rouge non oui
0 bleu non oui
0 bleu non non
0 Tbarki
Mme. Khaoula bleu non non
➢Apprentissage supervisé.
➢Utilisé plus dans le cas de la classification, mais aussi utilisé dans la régression.
➢Fonctionne bien avec les variables de types catégorique et continues.
How to decide what node (feature) is important?
Mme. Khaoula Tbarki

Les algorithms:
➢ Gini index approach
➢ Calculating the information entropy (ID3 algorithm or C4,5 approach)
➢ algorithm based on variance reduction,
Mme. Khaoula Tbarki

III.1 The Entropy
➢ Prediction to play golf or no

➢ Categorical variables (predictor or features) :
- Outlook
- Temperature
- Humidity
- Wind
➢ Utilisation de l’entropy et information gain pour construire l’arbre
Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

➢Les arbres de décision sont instables.
➢ Problème de sur-apprentissage (overfitting).
➢L’arbre de décision édicte des règles basées sur la comparaison entre une variable et un seuil.
Mme. Khaoula Tbarki

IV. Forêt Aléatoire (Random Forest)
➢La forêt aléatoire est un classifieur composé de nombreux arbres de décision

binaire.
➢Plutôt que de simplement faire la moyenne de la prédiction des arbres.
➢ Utilisé dans la classification et la régression.
Mme. Khaoula Tbarki

IV. Forêt Aléatoire (Random Forest)
+ Surmonter le problème de l'overfitting.
+ Moins de variance qu'un seul arbre de décision.
+ Random Forest est comparativement moins affecté par le bruit.
- Complexité de calcul que les arbres de décisions.
Mme. Khaoula Tbarki

V. Gradient Boosting
Mme. Khaoula Tbarki

➢ Ensembling : est un ensemble de prédicteurs qui se rassemblent pour donner une prédiction finale.
➢ Ensembling : mieux de faire la prédiction en utilisant un ensemble de prédicteurs différents que n'importe quel
prédicteur seul.
➢ Bagging :
• Une technique simple d'assemblage.
• Nombreux prédicteurs ou modèles indépendants.
• Résultat final : moyenne.
Le boosting :
• Une technique d'assemblage.
• Les prédicteurs ne sont pas établis de manière indépendante, mais séquentiels.
Mme. Khaoula Tbarki

➢Utilisé dans la classification et la régression.

➢ Ensemble de modèles de prédiction faibles : associent les décisions de plusieurs modèles pour améliorer les
performances globales.
➢À tout instant t, les résultats du modèle sont pondérés en fonction des résultats de l'instant précédent t-1.
+ Nouvel arbre corrige les erreurs commises

par les arbres précédemment formés.
- Overfitting problem.
Mme. Khaoula Tbarki

VI. Extreme Gradient Boosting (XGBoost)
➢Utilisé pour la classification et la régression.

➢ Contrôler les sur-ajustements : meilleures performances.
➢ Un algorithme efficace : fonctionner sur plusieurs jeux de données différents, indépendamment de leurs problèmes de
faible densité (les données avec la plupart des éléments sont nulles), des données déséquilibrées, une faible variance.
- pas largement utilisé
Mme. Khaoula Tbarki

VII. Modèles paramétriques et non paramétriques
Modèles non
Modèles paramétriques
paramétriques
Un modèle dans lequel nous ne

Un modèle où nous supposons la supposons pas la «forme» des
«forme» des données données
Nous pouvons pas estimer les Nous devons estimer la forme la
coefficients du modèle. plus appropriée du modèle, ainsi
Exemple : Gaussian, Parzen, que les coefficients (les
LDA, NDA,… paramètres).
Exemple :
K-nearest neighbour, SVM, …
Mme. Khaoula Tbarki


Regression

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regression

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre III :

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

❖ Mean Absolute Error (MAE) [0,inf]

Mme. Khaoula Tbarki

❖ Explained Variance (EV) [0,1]

Mme. Khaoula Tbarki

❖ Mean Square Error (MSE)

Mme. Khaoula Tbarki

❖ Mean absolute percentage error (MAPE)

100 n yr − y p Eq. III.4

MAPE et MAE sont robustes aux effets des

Mme. Khaoula Tbarki

La régression linéaire simple La régression linéaire multiple

Une seule variable explicative Plusieurs variables explicatives

La régression linéaire simple La régression linéaire multiple

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

➢ Calculer Cost Function :

C(X) <<<0 : les prévisions C(X) >>>0 : les prévisions

Mme. Khaoula Tbarki

Design Matrix approach :

Mme. Khaoula Tbarki

Design Matrix approach (D.M.A) Gradient Descent(G.D)

➢ Cas des problèmes de dimensions ➢ Approche itérative

Mme. Khaoula Tbarki =

Mme. Khaoula Tbarki

Small learning rate :

RSS : residual sum of squaries (RSS=MSE)

TSS : total sum of squares : somme totale des

Mme. Khaoula Tbarki

➢Le modèle de prédiction est non linéaire.

Mme. Khaoula Tbarki

Chiffre Couleu Soulig Gras

➢Fonctionne bien avec les variables de types catégorique et continues.

How to decide what node (feature) is important?

Mme. Khaoula Tbarki

➢ Calculating the information entropy (ID3 algorithm or C4,5 approach)

➢ algorithm based on variance reduction,

Mme. Khaoula Tbarki

III.1 The Entropy

➢ Prediction to play golf or no

➢ Utilisation de l’entropy et information gain pour construire l’arbre

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

➢Les arbres de décision sont instables.

➢ Problème de sur-apprentissage (overfitting).

Mme. Khaoula Tbarki

➢La forêt aléatoire est un classifieur composé de nombreux arbres de décision

➢Plutôt que de simplement faire la moyenne de la prédiction des arbres.

➢ Utilisé dans la classification et la régression.

Mme. Khaoula Tbarki

+ Surmonter le problème de l'overfitting.

+ Moins de variance qu'un seul arbre de décision.

+ Random Forest est comparativement moins affecté par le bruit.

- Complexité de calcul que les arbres de décisions.

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

Mme. Khaoula Tbarki

➢Utilisé dans la classification et la régression.

+ Nouvel arbre corrige les erreurs commises