Vous êtes sur la page 1sur 33

Chapitre III :

La régression

Mme. Khaoula Tbarki


Année universitaire 2019/2020
Mme. Khaoula Tbarki
Année universitaire 2019/2020
I. Définition
➢ Sorties de type continue.
➢ La réponse à une question est représentée par une quantité qui peut être déterminée de
manière flexible en fonction des entrées du modèle.

2,55 2,05
1,75 1,70
3,25 2,99
6,33 6,20
7,98 Evaluation du performance du système ??
7,35
5,65 5,80
8,25 9,00

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. Les protocoles expérimentaux
❖ Root Mean Square Error (RMSE) [0,inf]
RMSE est une règle de notation quadratique qui mesure également la
moyenne de l'erreur.

1 n
RMSE =  r p
n i =1
( y − y ) 2 Eq. III.1

❖ Mean Absolute Error (MAE) [0,inf]


MAE mesure la moyenne des erreurs dans un ensemble de prévisions, sans tenir
compte de leur direction.
1 n
MAE =  yr − y p Eq. III.2
n i =1

Mme. Khaoula Tbarki


Année universitaire 2018/2019
II. Les protocoles expérimentaux
Mean Absolute Error (MAE) [0,inf]

❖ Explained Variance (EV) [0,1]

var( yr − y p )
EV = 1 − Eq. III.3
var( yr )

Mme. Khaoula Tbarki


Année universitaire 2018/2019
II. Les protocoles expérimentaux

❖ Mean Square Error (MSE)

1 n
MSE =  ( yr − y p ) 2 Eq. III.3
n i =1

Mme. Khaoula Tbarki


Année universitaire 2018/2019
II. Les protocoles expérimentaux

❖ Mean absolute percentage error (MAPE)

Le MAPE indique dans quelle mesure les prévisions du modèle sont en moyenne
différentes des sorties correspondantes.

100 n yr − y p Eq. III.4


MAPE =  y
n i =1 r

MAPE et MAE sont robustes aux effets des


valeurs aberrantes grâce à l'utilisation de la
valeur absolue.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
II. La régression linéaire
II.1 Définition
➢ La régression linéaire est une approche pour modéliser la relation entre les variables scalaire dépendent Y et
une ou plusieurs variables explicatives X.
➢II.2 Type de régression linéaire

La régression linéaire simple La régression linéaire multiple

Une seule variable explicative Plusieurs variables explicatives

Exemple : Prédiction du prix d’une maison en Exemple : Prédiction du prix d’une maison en fonction de
fonction de la taille seulement la taille, nombre des chambres, adresse,…
Mme. Khaoula Tbarki
Année universitaire 2019/2020
II. La régression linéaire
II.2 Type de régression linéaire

La régression linéaire simple La régression linéaire multiple

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
But du R.L : trouver une relation entre X et Y
II.3 La régression linéaire
Y
Y

X
X

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

H(X)=Y=a*X+b= Trouver
a et b=

Dependent variable:
predicted variable independent
= variable: Feature=
X

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

H(X)=Y=a*X+b= Trouver
a et b=

Dependent variable:
predicted variable independent
= variable: Feature=
X

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire Comment trouver a et b=

➢ Calculer Cost Function :

C(X) <<<0 : les prévisions C(X) >>>0 : les prévisions


sont très proches du valeur sont différents du valeur
réel réel

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire
Y

Predicted value

Real value

????
Mme. Khaoula Tbarki
Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

????
Méthode de résolution=

Design Matrix approach :


Gradient Descent=
=

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

Design Matrix approach (D.M.A) Gradient Descent(G.D)


=

➢ Cas des problèmes de dimensions ➢ Approche itérative


réduites : nombre réduites des ➢ fonctionne d’une manière efficace
features. avec une base de données
➢ si une matrice de grande taille : volumineuse,
complexité de calcul est grande

Mme. Khaoula Tbarki =


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

Gradient Descent(G.D)

Mme. Khaoula Tbarki


Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

Small learning rate :


huge learning rate :
➢ Nombre des étapes reduit pour
➢ Nombre des étapes est important
converger vers le min
➢ Chaque itération s’exécute
➢ Chaque itération prend beaucoup
rapidement
de temps (augmente la C.C)
➢ N’est performent
➢ Performent (précis)
Mme. Khaoula Tbarki
Année universitaire 2019/2020
II. La régression linéaire
II.3 La régression linéaire

Performance du modèle :

RSS : residual sum of squaries (RSS=MSE)

TSS : total sum of squares : somme totale des


carrés (RSS=MSE)

Mme. Khaoula Tbarki


Année universitaire 2019/2020
III. L’arbre de décision (Decision Tree)

➢Un arbre de décision fournit un modèle de classification ou de régression construit sous forme
d'arborescence.

➢Leur principe est la partition de l'espace d'entrée en des régions, où chacun région peut prendre une
décision : Elle a pour but de trouver les partitions de données.

➢Le modèle de prédiction est non linéaire.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
III. L’arbre de décision (Decision Tree)

Chiffre Couleu Soulig Gras


r 500 né 700
200
1 rouge oui oui
1 rouge oui Non
➢ Simple à manipuler. 0 rouge non oui
0 bleu non oui
0 bleu non non
0 Tbarki
Mme. Khaoula bleu non non
Année universitaire 2018/2019
III. L’arbre de décision (Decision Tree)
➢Apprentissage supervisé.

➢Utilisé plus dans le cas de la classification, mais aussi utilisé dans la régression.

➢Fonctionne bien avec les variables de types catégorique et continues.

How to decide what node (feature) is important?

Mme. Khaoula Tbarki


Année universitaire 2018/2019
III. L’arbre de décision (Decision Tree)

Les algorithms:
➢ Gini index approach

➢ Calculating the information entropy (ID3 algorithm or C4,5 approach)

➢ algorithm based on variance reduction,

Mme. Khaoula Tbarki


Année universitaire 2018/2019
III. L’arbre de décision (Decision Tree)

III.1 The Entropy

➢ Prediction to play golf or no


➢ Categorical variables (predictor or features) :
- Outlook
- Temperature
- Humidity
- Wind

➢ Utilisation de l’entropy et information gain pour construire l’arbre

Mme. Khaoula Tbarki


Année universitaire 2018/2019
III. L’arbre de décision (Decision Tree)

Mme. Khaoula Tbarki


Année universitaire 2018/2019
III. L’arbre de décision (Decision Tree)

➢Les arbres de décision sont instables.

➢ Problème de sur-apprentissage (overfitting).

➢L’arbre de décision édicte des règles basées sur la comparaison entre une variable et un seuil.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
IV. Forêt Aléatoire (Random Forest)

➢La forêt aléatoire est un classifieur composé de nombreux arbres de décision


binaire.

➢Plutôt que de simplement faire la moyenne de la prédiction des arbres.

➢ Utilisé dans la classification et la régression.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
IV. Forêt Aléatoire (Random Forest)

+ Surmonter le problème de l'overfitting.

+ Moins de variance qu'un seul arbre de décision.

+ Random Forest est comparativement moins affecté par le bruit.

- Complexité de calcul que les arbres de décisions.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
V. Gradient Boosting

Mme. Khaoula Tbarki


Année universitaire 2018/2019
V. Gradient Boosting

➢ Ensembling : est un ensemble de prédicteurs qui se rassemblent pour donner une prédiction finale.
➢ Ensembling : mieux de faire la prédiction en utilisant un ensemble de prédicteurs différents que n'importe quel
prédicteur seul.
➢ Bagging :
• Une technique simple d'assemblage.
• Nombreux prédicteurs ou modèles indépendants.
• Résultat final : moyenne.
Le boosting :
• Une technique d'assemblage.
• Les prédicteurs ne sont pas établis de manière indépendante, mais séquentiels.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
V. Gradient Boosting

➢Utilisé dans la classification et la régression.


➢ Ensemble de modèles de prédiction faibles : associent les décisions de plusieurs modèles pour améliorer les
performances globales.
➢À tout instant t, les résultats du modèle sont pondérés en fonction des résultats de l'instant précédent t-1.

+ Nouvel arbre corrige les erreurs commises


par les arbres précédemment formés.

- Overfitting problem.

Mme. Khaoula Tbarki


Année universitaire 2018/2019
VI. Extreme Gradient Boosting (XGBoost)

➢Utilisé pour la classification et la régression.


➢ Contrôler les sur-ajustements : meilleures performances.
➢ Un algorithme efficace : fonctionner sur plusieurs jeux de données différents, indépendamment de leurs problèmes de
faible densité (les données avec la plupart des éléments sont nulles), des données déséquilibrées, une faible variance.

- pas largement utilisé

Mme. Khaoula Tbarki


Année universitaire 2018/2019
VII. Modèles paramétriques et non paramétriques

Modèles non
Modèles paramétriques
paramétriques

Un modèle dans lequel nous ne


Un modèle où nous supposons la supposons pas la «forme» des
«forme» des données données
Nous pouvons pas estimer les Nous devons estimer la forme la
coefficients du modèle. plus appropriée du modèle, ainsi
Exemple : Gaussian, Parzen, que les coefficients (les
LDA, NDA,… paramètres).
Exemple :
K-nearest neighbour, SVM, …

Mme. Khaoula Tbarki


Année universitaire 2018/2019

Vous aimerez peut-être aussi