Vous êtes sur la page 1sur 6

Chapitre : Algorithmes de régression

1. Introduction
La régression sert à trouver la relation d’une variable par rapport à une ou plusieurs
autres.

Dans l’apprentissage automatique, le but de la régression est d’estimer une valeur


(numérique) de sortie à partir des valeurs d’un ensemble de caractéristiques en entrée.
Par exemple, estimer le prix d’une maison en se basant sur sa surface, nombre des
étages, son emplacement. Donc, le problème revient à estimer une fonction de calcul
en se basant sur des données d’entrainement.

Il existe plusieurs algorithmes pour la régression :

• Régression linéaire
• Régression polynomiale
• Régression logistique
• Régression quantile

2. Régression linéaire

La régression linéaire simple sert à trouver une relation d’une variable de sortie par
rapport à une autre.

La régression linéaire multiple est une version étendue de la régression linéaire


simple. Elle permet de décrire la variation d’une variable dépendante (y) associée
aux variations de plusieurs variables indépendantes. Dans le contexte de
l’apprentissage automatique, elle sert à estimer une fonction linéaire entre la sortie
(avec des valeurs continues, numériques) et les entrées. La fonction qui estime les
valeurs de y d’un échantillon en se basant sur des caractéristiques d’entrée x est
écrite comme suit:

Où:

• ŷ est la sortie estimée.


• xj est une caractéristique d’entrée,
• θj est le poids de cette caractéristique

Dans ce cas, l’apprentissage est le fait d’estimer ces poids en se basant sur des
données d’entrées et des résultats attendus.
La fonction coût

La fonction du coût aide à trouver l’erreur entre le résultat estimé et le résultat attendu.
Elle est utilisée pour régler les poids des caractéristiques. Donc, pour trouver les poids
les plus optimaux, il faut minimiser cette fonction. Étant donnée un ensemble des
données d’entrainement avec N échantillons, la fonction coût la plus utilisée est l’erreur
quadratique moyenne (MSE) entre les sorties attendues (y) et les sorties estimées (ŷ)

Cette fonction est une fonction convexe ; ça veut dire qu’elle n’a pas des minimums
locaux. Donc, elle a un minimum global unique.

Algorithme du gradient

L’algorithme du gradient est la partie la plus importante dans l’apprentissage


automatique par régression linéaire. Il est utilisé pour mettre à jour les poids de la
fonction linéaire en se basant sur la fonction coût. C’est un algorithme itératif qui met
à jour les poids à chaque itération pour minimiser la fonction coût. L’algorithme du
gradient est le suivant:

1. Initialiser les poids θj à 0. Fixer un pas α pour mettre à jour les poids. Aussi,
Fixer un seuil de tolérance ε > 0.
2. Calculer les gradients de la fonction du coût en θj
3. Mettre à jours les poids θj en utilisant leurs anciennes valeurs, leurs gradients
et le pas α
4. Si la fonction du coût J < ε on s’arrête; sinon, on revient à l’étape (2).

Le pas α : il est une valeur connue entre 0 et 1. α ∈ ]0, 1].

• Si le pas est grand, on risque de manquer la solution optimale.


• S’il est petit, l’algorithme prend du temps à converger.

Il y a une technique pour mettre à jour le pas dynamiquement :

• Si le coût se baisse, augmenter le pas


• Si le coût s’augmente, diminuer le pas

Dans ce cas, il faut introduire deux paramètres: le taux d’augmentation et le taux de


réduction.

Critère d’arrêt : c’est le seuil de tolérance ε qui est la valeur minimale


acceptable pour le coût. Lorsque le coût atteint ce seuil, on s’arrête.
Lorsque le pas est grand, on peut manquer le minimum. Dans ce cas, on s’arrête s’il
n’y a plus d’amélioration en terme de coût. Une autre technique est de fixer le nombre
maximum des itérations.

Les gradients : Le gradient de chaque poids θj est calculé en utilisant le dérivé


partiel de la fonction du coût par rapport à ce poids. Donc, le gradient d’un
poids θj est calculé comme suit, où (i) représente un échantillon:

Pour les θj avec j>0:

Pour θ0:

Mise à jour des poids : Les poids sont mis à jour en se basant sur les gradients
et le pas comme suit :

3. Régression polynomiale

La régression polynomiale est un cas spécial de la régression linéaire. On peut créer


de nouvelles caractéristiques dans l’étape de préparation des données en multipliant
les valeurs des anciennes caractéristiques. Par exemple, La régression polynomiale
d’ordre 2 sera:

4. Régression logistique

La régression logistique est utilisée pour le classement et pas la régression. Mais, elle
est considéré comme une méthode de régression puisqu’elle sert à estimer la probabilité
d’appartenir à une classe. Il y a trois types de régression logistique:
Régression logistique binaire: le but de la classification est d’identifier si un
échantillon appartient à une classe ou non.
Régression logistique multinomiale : le but de la classification est
d’identifier à quelle classe appartient-t-il un échantillon parmi plusieurs
classes.
Régression logistique ordinale: le but de la classification est de chercher la
classe d’un échantillon parmi des classes ordonnées. Un exemple de classes :
non satisfait, satisfait, très sataisfait.

❖ Principe : Pour combiner entre les différentes caractéristiques, on utilise une


fonction linéaire (exactement comme la régression linéaire):

Cette valeur est transformée à une probabilité en utilisant la fonction


logistique. Donc, la probabilité qu’un échantillon avec les caractéristiques x1,
…, xn appartienne à une classe y est calculée comme suit:

Les valeurs de la fonction logistique sont comprises entre 0 et 1; comme il est indiqué
dans le diagramme suivant:
❖ La décision : Pour prédire si un échantillon x appartient à une classe donnée
(classe positive) y=1, on calcule sa probabilité en utilisant l’équation
précédante. Ensuite, on utilise un seuil sur cette probabilité pour décider.

On peut utiliser le seuil 0.5. Dans ce cas:

• Si p(y=1|x) >= 0.5 donc classe positive


• Sinon classe négative

En cas de plusieurs classes, on utilise une stratégie d’un-contre-le-reste. On


entraine plusieurs classifieurs, chacun pour une classe. Pour décider quelle est
la classe d’un échantillon, on prend celle avec la probabilité la plus élevée.

❖ La fonction du coût : L’erreur quadratique moyenne (MSE) ne peut pas être


utilisée comme dans la régression linéaire. Ceci est dû au fait que la fonction de
prédiction est non linéaire. La fonction du coût va être non-convex avec
plusieurs minimums locaux. Lors de la minimisation, on peut tomber sur un
minimum local et l’algorithme du gradient va s’arrêter sans converger vers la
solution optimale.

Dans ce cas, on utilise l’entropie croisée. Etant donnée un ensemble de


données avec N échantillons, où le résulat y est soit 1 ou 0. La fonction du coût
est calculée comme suit, où (i) réfère au i-ème échantillon dans les données
d’entrainement:

Puisque y peut prendre seulement les deux valeurs 0 et 1, cette fonction


peut être simplifiée comme suit:

❖ Les gradients : Le gradient de chaque poids θj est calculé en utilisant le dérivé


partiel de la fonction du coût par rapport à ce poids. Donc, le gradient d’un
poids θj est calculé comme suit:
❖ Avantages

La régression linéaire

• Simple à comprendre et à expliquer


• Utile pour l’analyse des données

La régression polynomiale

• Fournit une bonne approximation de la relation entre la variable


dépendante y et la variable indépendante x.

La régression logistique

• Pourtant elle est utilisée pour la classification, elle donne des probabilités pour
les sorties.
• Le modèle logistique peut être mis à jour facilement.

❖ Limites
La régression linéaire

• Elle donne des mauvaises performances s’il n’y a pas une relation linéaire.
• La plupart des phénomènes réelles ne correspondent pas la supposition du
modèle linéaire.
• Sensible aux valeurs aberrantes

La régression polynomiale

• Les mêmes limites que la régression linéaire


• Concernant son implémentation, la régression polynomiale est une régression
généralisée sur des caractéristiques augmentées (par multiplication des
caractéristiques originales). Donc, on peut avoir un grand nombre de valeurs
en entrée.

La régression logistique

• Donne une mauvaise performance lorsqu’il existe plusieurs limites de décision


ou des limites de décision non linéaires.

Vous aimerez peut-être aussi