Chapitre Algorithmes de Régression

Chapitre : Algorithmes de régression
1. Introduction
La régression sert à trouver la relation d’une variable par rapport à une ou plusieurs
autres.
Dans l’apprentissage automatique, le but de la régression est d’estimer une valeur

(numérique) de sortie à partir des valeurs d’un ensemble de caractéristiques en entrée.
Par exemple, estimer le prix d’une maison en se basant sur sa surface, nombre des
étages, son emplacement. Donc, le problème revient à estimer une fonction de calcul
en se basant sur des données d’entrainement.
Il existe plusieurs algorithmes pour la régression :
• Régression linéaire
• Régression polynomiale
• Régression logistique
• Régression quantile
2. Régression linéaire
La régression linéaire simple sert à trouver une relation d’une variable de sortie par
rapport à une autre.
La régression linéaire multiple est une version étendue de la régression linéaire

simple. Elle permet de décrire la variation d’une variable dépendante (y) associée
aux variations de plusieurs variables indépendantes. Dans le contexte de
l’apprentissage automatique, elle sert à estimer une fonction linéaire entre la sortie
(avec des valeurs continues, numériques) et les entrées. La fonction qui estime les
valeurs de y d’un échantillon en se basant sur des caractéristiques d’entrée x est
écrite comme suit:
Où:
• ŷ est la sortie estimée.

• xj est une caractéristique d’entrée,
• θj est le poids de cette caractéristique
Dans ce cas, l’apprentissage est le fait d’estimer ces poids en se basant sur des
données d’entrées et des résultats attendus.
La fonction coût
La fonction du coût aide à trouver l’erreur entre le résultat estimé et le résultat attendu.
Elle est utilisée pour régler les poids des caractéristiques. Donc, pour trouver les poids
les plus optimaux, il faut minimiser cette fonction. Étant donnée un ensemble des
données d’entrainement avec N échantillons, la fonction coût la plus utilisée est l’erreur
quadratique moyenne (MSE) entre les sorties attendues (y) et les sorties estimées (ŷ)
Cette fonction est une fonction convexe ; ça veut dire qu’elle n’a pas des minimums
locaux. Donc, elle a un minimum global unique.
Algorithme du gradient
L’algorithme du gradient est la partie la plus importante dans l’apprentissage

automatique par régression linéaire. Il est utilisé pour mettre à jour les poids de la
fonction linéaire en se basant sur la fonction coût. C’est un algorithme itératif qui met
à jour les poids à chaque itération pour minimiser la fonction coût. L’algorithme du
gradient est le suivant:
1. Initialiser les poids θj à 0. Fixer un pas α pour mettre à jour les poids. Aussi,
Fixer un seuil de tolérance ε > 0.
2. Calculer les gradients de la fonction du coût en θj
3. Mettre à jours les poids θj en utilisant leurs anciennes valeurs, leurs gradients
et le pas α
4. Si la fonction du coût J < ε on s’arrête; sinon, on revient à l’étape (2).
Le pas α : il est une valeur connue entre 0 et 1. α ∈ ]0, 1].
• Si le pas est grand, on risque de manquer la solution optimale.

• S’il est petit, l’algorithme prend du temps à converger.
Il y a une technique pour mettre à jour le pas dynamiquement :
• Si le coût se baisse, augmenter le pas

• Si le coût s’augmente, diminuer le pas
Dans ce cas, il faut introduire deux paramètres: le taux d’augmentation et le taux de

réduction.
Critère d’arrêt : c’est le seuil de tolérance ε qui est la valeur minimale

acceptable pour le coût. Lorsque le coût atteint ce seuil, on s’arrête.
Lorsque le pas est grand, on peut manquer le minimum. Dans ce cas, on s’arrête s’il
n’y a plus d’amélioration en terme de coût. Une autre technique est de fixer le nombre
maximum des itérations.
Les gradients : Le gradient de chaque poids θj est calculé en utilisant le dérivé

partiel de la fonction du coût par rapport à ce poids. Donc, le gradient d’un
poids θj est calculé comme suit, où (i) représente un échantillon:
Pour les θj avec j>0:
Pour θ0:
Mise à jour des poids : Les poids sont mis à jour en se basant sur les gradients
et le pas comme suit :
3. Régression polynomiale
La régression polynomiale est un cas spécial de la régression linéaire. On peut créer

de nouvelles caractéristiques dans l’étape de préparation des données en multipliant
les valeurs des anciennes caractéristiques. Par exemple, La régression polynomiale
d’ordre 2 sera:
4. Régression logistique
La régression logistique est utilisée pour le classement et pas la régression. Mais, elle
est considéré comme une méthode de régression puisqu’elle sert à estimer la probabilité
d’appartenir à une classe. Il y a trois types de régression logistique:
Régression logistique binaire: le but de la classification est d’identifier si un
échantillon appartient à une classe ou non.
Régression logistique multinomiale : le but de la classification est
d’identifier à quelle classe appartient-t-il un échantillon parmi plusieurs
classes.
Régression logistique ordinale: le but de la classification est de chercher la
classe d’un échantillon parmi des classes ordonnées. Un exemple de classes :
non satisfait, satisfait, très sataisfait.
❖ Principe : Pour combiner entre les différentes caractéristiques, on utilise une

fonction linéaire (exactement comme la régression linéaire):
Cette valeur est transformée à une probabilité en utilisant la fonction

logistique. Donc, la probabilité qu’un échantillon avec les caractéristiques x1,
…, xn appartienne à une classe y est calculée comme suit:
Les valeurs de la fonction logistique sont comprises entre 0 et 1; comme il est indiqué
dans le diagramme suivant:
❖ La décision : Pour prédire si un échantillon x appartient à une classe donnée
(classe positive) y=1, on calcule sa probabilité en utilisant l’équation
précédante. Ensuite, on utilise un seuil sur cette probabilité pour décider.
On peut utiliser le seuil 0.5. Dans ce cas:
• Si p(y=1|x) >= 0.5 donc classe positive

• Sinon classe négative
En cas de plusieurs classes, on utilise une stratégie d’un-contre-le-reste. On

entraine plusieurs classifieurs, chacun pour une classe. Pour décider quelle est
la classe d’un échantillon, on prend celle avec la probabilité la plus élevée.
❖ La fonction du coût : L’erreur quadratique moyenne (MSE) ne peut pas être

utilisée comme dans la régression linéaire. Ceci est dû au fait que la fonction de
prédiction est non linéaire. La fonction du coût va être non-convex avec
plusieurs minimums locaux. Lors de la minimisation, on peut tomber sur un
minimum local et l’algorithme du gradient va s’arrêter sans converger vers la
solution optimale.
Dans ce cas, on utilise l’entropie croisée. Etant donnée un ensemble de

données avec N échantillons, où le résulat y est soit 1 ou 0. La fonction du coût
est calculée comme suit, où (i) réfère au i-ème échantillon dans les données
d’entrainement:
Puisque y peut prendre seulement les deux valeurs 0 et 1, cette fonction

peut être simplifiée comme suit:
❖ Les gradients : Le gradient de chaque poids θj est calculé en utilisant le dérivé

partiel de la fonction du coût par rapport à ce poids. Donc, le gradient d’un
poids θj est calculé comme suit:
❖ Avantages
La régression linéaire
• Simple à comprendre et à expliquer

• Utile pour l’analyse des données
La régression polynomiale
• Fournit une bonne approximation de la relation entre la variable

dépendante y et la variable indépendante x.
La régression logistique
• Pourtant elle est utilisée pour la classification, elle donne des probabilités pour
les sorties.
• Le modèle logistique peut être mis à jour facilement.
❖ Limites
La régression linéaire
• Elle donne des mauvaises performances s’il n’y a pas une relation linéaire.
• La plupart des phénomènes réelles ne correspondent pas la supposition du
modèle linéaire.
• Sensible aux valeurs aberrantes
La régression polynomiale
• Les mêmes limites que la régression linéaire

• Concernant son implémentation, la régression polynomiale est une régression
généralisée sur des caractéristiques augmentées (par multiplication des
caractéristiques originales). Donc, on peut avoir un grand nombre de valeurs
en entrée.
La régression logistique
• Donne une mauvaise performance lorsqu’il existe plusieurs limites de décision

ou des limites de décision non linéaires.

Chapitre Algorithmes de Régression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre Algorithmes de Régression

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre : Algorithmes de régression

Dans l’apprentissage automatique, le but de la régression est d’estimer une valeur

Il existe plusieurs algorithmes pour la régression :

La régression linéaire multiple est une version étendue de la régression linéaire

• ŷ est la sortie estimée.

L’algorithme du gradient est la partie la plus importante dans l’apprentissage

Le pas α : il est une valeur connue entre 0 et 1. α ∈ ]0, 1].

• Si le pas est grand, on risque de manquer la solution optimale.

Il y a une technique pour mettre à jour le pas dynamiquement :

• Si le coût se baisse, augmenter le pas

Dans ce cas, il faut introduire deux paramètres: le taux d’augmentation et le taux de

Critère d’arrêt : c’est le seuil de tolérance ε qui est la valeur minimale

Les gradients : Le gradient de chaque poids θj est calculé en utilisant le dérivé

Pour les θj avec j>0:

La régression polynomiale est un cas spécial de la régression linéaire. On peut créer

❖ Principe : Pour combiner entre les différentes caractéristiques, on utilise une

Cette valeur est transformée à une probabilité en utilisant la fonction

On peut utiliser le seuil 0.5. Dans ce cas:

• Si p(y=1|x) >= 0.5 donc classe positive

En cas de plusieurs classes, on utilise une stratégie d’un-contre-le-reste. On

❖ La fonction du coût : L’erreur quadratique moyenne (MSE) ne peut pas être

Dans ce cas, on utilise l’entropie croisée. Etant donnée un ensemble de

Puisque y peut prendre seulement les deux valeurs 0 et 1, cette fonction

❖ Les gradients : Le gradient de chaque poids θj est calculé en utilisant le dérivé

• Simple à comprendre et à expliquer

• Fournit une bonne approximation de la relation entre la variable

• Les mêmes limites que la régression linéaire

• Donne une mauvaise performance lorsqu’il existe plusieurs limites de décision

Vous aimerez peut-être aussi