2 - Apprentissage supervisé

L’Apprentisssage Supervisé (Machine Learning)
Chapitre 1 : La régression linéaire :

I – la régression linéaire simple :
1- Objective :
L'objectif de la régression linéaire est de prédire la valeur d'une variable à partir d'une ou plusieurs autres
variables.
2- Meilleure prédiction linéaire :
Sans entrer dans des calculs statistiques détaillés, une règle empirique pour obtenir un modèle
de régression linéaire décent consiste à ajuster la ligne qui traverse l'espace qui minimise la
distance de chacun des points de données variables indépendants par rapport à la ligne droite.
Cette méthode d'estimation est appelée estimation des moindres carrés ordinaires (OLS:
ordinary least squares). Supposons que nous examinions une seule variable X, le nuage de
points (tracé de Y contre X comme points de données) fournit des indices visuels sur la
répartition des points de données et la tendance approximative entre X et Y.
Pour ajuster manuellement une ligne de régression, il faut visualiser la ligne qui passe par les
points de telle sorte que la distance de chaque point par rapport à la ligne soit minimale. Une
fois la ligne tracée (par exemple sur un papier millimétré), on peut facilement calculer
l'ordonnée à l'origine et la pente comme coefficients approximatifs (bruts) pour le modèle de
régression. Une ligne intuitive de meilleur ajustement sur un nuage de points ressemblerait à
ceci.
3 – Calcule de R² :
R² = ∑ ¿ ¿ ¿ où : y^ = b0 + b1x et y’ = Moyenne de y
4 – R² :
Calculer R Squared en utilisant la régression linéaire :
R-carré Le R au camé est une mesure de performance utile pour comprendre dans quelle
mesure le modèle de régression s'est adapté aux données d'apprentissage Par exemple, un R
au came de 80 % indique que 80 % des données d'apprentissage correspondent au modèle de
régression Une valeur R-cané plus élevée indique généralement un meilleur ajustement du
modèle
5 – Erreur d’estimation standard
Erreur d’estimation standard(Standard Error of Estimation) utilisée dans l’analyse de regression
(Erreur quadratique moyenne)(Mean Squarred Error)
√
' 2
SEOE = Σ ( y− y ) où n : nombre d’observation
n−2
Erreur standard de l'estimation (Standard Error of the Estimate) utilisée dans fanalyse de
régression (erreur quadratique moyenne) (Mean Squared Error: Pour évaluer la précision d'une
droite d'estimation, nous devons introduire une métrique de l'erreur. Pour cela on utilise
souvent l'erreur quadratique moyenne (ou mean squared error). Terreur quadratique moyenne
est vraiment primordiale en machine leaming. C'est souvent la métrique d'erreur qui est
utilisée (c'est ce qu'on appelle la loss function). Il y a plusieurs raisons à ça L'erreur quadratique
moyenne est la moyenne des camées des différences entre les valeurs prédites et les vraies
valeurs
le schéma montre les points

actuels par rapport aux valeurs prédits
En résumé :
La régression linéaire simple sert a trouver une relation d’une variable de sortie(continue) par rapport a
une ou plusieurs autres
dans l’apprentissage automatique , le but de la régression est d’estimé une valeurs numérique de sortie a
partir des valeurs d’un ensemble de caractéristique en entré
par exemple , estimer le prix d’une maison en se basant sur sa surface ,nombre des étages ,son
emplacement, etc. donc, le problème revient a estimé une fonction de calcule en se basant sur des donnée
d’entrainement.
Il existe plusieurs algorithmes pour la régression :
Régression linéaire simple , régression linéaire multiple , régression logistique , etc …
La régression linéaire simple sert à trouver une relation d’une variable de sortie(continue) par rapport a
une autre
1 – Dataset(x,y) : y ∈ Rm x 1 et x ∈ Rm x n
2 – Modèle linéaire : f(x) = a x + b
1
3 – Fonction coût : J (a, b) =
2m
∑ (ax ¿+by )² ¿
4 – Gradient Descent : pour minimiser l’erreur
On va présenter la régression linéaire multiple qui est une version étendu de la régression linéaire simple
Erreur Standard des de l’estimation :

(SEE Standard Error of the Estimate) utilisée dans l’analyse de régression pour évaluer la précision des
prédictions du modèle .
Plus la valeur de l’erreur standard d'estimation est petite, plus les points sont proches de la ligne de
régression et meilleure est l’estimation basée sur l’équation de la ligne. Si l’erreur standard est nulle, cela
signifie qu'il n'y a aucune variation correspondant à la ligne calculé et la corrélation sera parfaite
Mathématiquement, L’erreur standard d'estimation est calculée en prenant la racine carrée de la somme
des carrés des résidus (différences entre les valeurs observes et les valeurs prédites), divisé par le nombre
de degrés de
SEE =√ ∑ ( y observed− y predicted) ²/(n− p−1)¿ ¿
Où y observed sont les valeurs réelles observées, y predicted sont les valeurs précites par le modèle, n est
le nombre d'observations et p est le nombre de variables indépendantes.
Ainsi, l’erreur standard d'estimation mesure la précision des chiffres estimés c'est-à-dire qu'il est possible
de vérifier la qualité et la représentativité de la ligne de régression en tant que description de la relation
moyenne entre les deux séries.
En utilisant le quantile de la distribution de Student :
Vous pouvez calculer les bornes supérieur et inférieur de l’intervalle de confiance pour chaque valeur
prédite. Les bornes sont généralement calculées en utilisant la formule suivantes :
Borne_Sup = valeur prédite + (quantile*SEE)
Borne_Inf = valeur prédite - (quantile*SEE)
Ces bornes représentes l’intervalle de confiance autour de la valeur prédite indiquant la plage dans laquelle
la vraie valeur de la variable dépendante est susceptible de se situer avec une certaine proba
Il est important de noter que les intervalles de confiance basé sur l’erreur standard d’estimation supposent
que les résidus suivent une distribution normale et que les erreurs sont indépendantes et identiquement
distribuées. Ses hypothèses doivent être vérifiée pour interpréter correctement les intervalles de
confiances.
Analyse de la valeur de résidus :
Résidus = valeur observé(réelle) – valeur prédite(ligne de régression)
Les résidus représentent donc les écarts entre les valeurs réelles et les valeurs prédits par le modèle .ils
peuvent être positifs et négatives. selon que la valeur observé est supérieur ou inferieur a la valeur prédits
L’analyse des résidus est importante dans la régression linéaire pour évaluer la qualité de l’ajustement du
modèle.
Des résidus normaux(proche de zéro, avec une distribution aléatoire et une variance constante ) indiquent
un bon ajustement du modèle
Des résidus non normaux (non proches de zéro, avec une distribution non aléatoire ou une variance non
constante) indiquent un mauvais ajustement du modèle.
La Fonction coût :
La fonction coût en régression lineaire est utilisée pour mesurer l’écart entre les valeurs prédits par le
modèle de regression et les valeurs réelles obsérvéede la variable dépendantes.l’objectif est de trouvé les
coefficientde regression qui minimisent cette fonction de coût ,afin de trouver la meilleur estimation
possible de la relation entre la variable idependante et la variable dépendante . c’est la somme des carré
des residus
Coût =∑ ( y observed − y predicted )

2
Le but est de trouver les valeurs des coefficients de regression qui minimisent cette somme des carrés des
résidus .cela peut être réaliser
Analyse de l’erreur quadratique moyenne(MSE :Mean Squarred Error )
L’erreur quadratique moyenne est càd la distance euclidienne moyenne entre les points et la droite du
modèle. C’est la moyenne des carrés des differences entre les valeurs préditeset les vraies valeurs.Voici la
formule :
RMSE =
√ ∑ ( y true− y pred )2
n
Une valeur plus faible de l’erreur quadratique moyenne indique une meilleure adéquation du modèle aux
donnée ,càd que les prédictions du modèle sont en générale plus proche des valeurs réelles.
Cependant,il est important de noter que l’interpretation de la valeur de l’erreur quadratique moyenne
dépend du contexte et des unités
L’analyse de l’erreur absolue moyenne (MAE : Mean Absolute Error) :
La formule de la fonction coût basée sur l’erreur absolue moyenne est la suivante :
1
MAE = ( ¿∗∑ ( y observed − y predicted )
n
Où y_observed sont les valeurs réelles obsérvées , y_predicted sont les valeurs prédits par le modèle et n le
nombre d’observation
L’erreur absolue moyenne est une mesure altérnative
 Calculer la descente de gradient :
1 – initialiser les paramètre : commencer par initialiser les paramètre de modèle , càd la pente(b1)et
l’ordonnée à l’origine(b0) [on peut les initialiser par des valeurs aleatoires ou nulles]
2 – Calculer la prédiction : utiliser les parametre actuelle pour effectuer la prédiction des valeur y
(y_predicted) a partir des variables d’entrée x [y_predicted = b0 + b1x]
3 – Calculer l’erreur : Comparez les valeurs prédites avec les valeurs réelle obsérvée pour calculer
l’erreur ( Erreur = yobserved - y_predicted)
4 – Calculer les gradients : utiliser l’erreur pour calculer les gradients des paramètres par rapport à
la fonction coût . pour la régression lineaire simple , les gradient sont donnée par les formules
suivantes :
gradient b1 = (-2/n)*∑ ( x∗erreur ) ;
gradient b0 = (-2/n)*∑ ( erreur )
5 – Mettre à jour les paramètres : utiliser les gradients calculés pour mettre à jour les paramètres en
utilisant la formule de la descente de gradients :
B1_new = b1 –(taux apprentissage*gradient_b1 )
B0_new = b0 –(taux apprentissage*gradient_b1 )
6 – Répéter les étapes de 2 à 5 : Répéter les étapes 2 à 5 jusqu’à ce que la convergence soit atteinte
, càd que la fonction coût ne diminue plus significativement ou que le nombre d’itération prédéfinie
soit atteinte
7 – renvoyer les paramètres : (manquante)
L'algorithme de descente de gradient est utilisé pour optimiser les paramètres d'un
modèle de régression linéaire en minimisant la fonction de coût
Il est important de noter que la performance de l’algorithme de descente de gradient
peut être influencée par le choix du taux d'apprentissage.
Un taux d'apprentissage trop élevé peut conduire à une convergence lente ou à une
divergence.
Tandis qu'un taux d'apprentissage trop faible peut ralentir la convergence.
Il est souvent nécessaire de tester différents taux d'apprentissage pour trouver celui qui
donne les meilleurs résultats .
II – la régression linéaire multiple :

Principe de la régression linéaire multiple :
La régression linéaire multiple a comme but de décrire la variation d’une variable dépendante
(y) associée aux variations de plusieurs variables indépendantes .dans le contexte de
l’apprentissage automatique .elle sert à estimer une fonction linéaire entre le sortie (avec des
valeurs continues , numériques ) et les entrées . la fonction qui estime les valeurs de y d’un
échantillons en se basant sur des caractéristique d’entrée x est écrit comme suit :
Y^ = θ0 + θ1*x 1+ θ2*x2 +……….+ θ2*x2
La fonction du coût :
La fonction du coût aide à trouver l’erreur entre le résultas estimé et le résultat attendu. Ele est
utilisée pour régier les poids des caractéristiques Donc, pour souver les poids les plus optimals,
il faut minimiser cette fonction
m
J(θ) = 1/2m*∑ ( h ( x i )− y i )
2
i=1
Etant donne un ensemble des données d'entrainement avec m échantillons, la fonction du côut
plus utilisée erreur quadratique moyenne (MSE) entre les sorties attendues (y) et les sorties
estimées d'hypothèse (x) est désignée par : h(x) = θ0 + θ1*x1+ θ2*x2+……+ θn*xn
La fonction du coût est une fonction convexe ; ça veut dire qu'elle n'a pas des minimums
locaux. Donc, elle a un minimum globale unique
Notre objectif est de trouver les paramètres du modèle de manière à ce que la fonction de
coût soit minimale
Algorithmes du gradient :
 Mettre à jour les poids θj en utilisant leurs anciennes valeurs , leurs gradients et le pas alpha
 Si la fonction du coût J < ε on s’arrête ; sinon on revient à l’étape 2
Le pas :
Le pas alpha est une valeur entre 0 et 1 , alpha ∈ ]0,1]
Si le pas est grand on risque de manquer la solution optimale .
S il est petit prend du temps à converger
Il ya une technique pour le mettre à jour
Les gradients :
le gradients de chaque de chaque poids est calculé en utilisant le dérivé partiel de la fonction coût par
rapport à ce poids . Donc , le gradient d’un poids θj est calculé comme suit , où (i) représente un
échantillon :
n j
∂J 1
∑ ∂∂θjy ∗∂( y xi )
i=1
=
∂ θj N ❑
Nous commençons par initialiser les paramètres du modèle avec des valeurs aléatoires , c’est ce qu’on
appelle aussi l’initialisation aléatoires
1 – Nous devons maintenant mesurer l’évolution de la fonction coût en fonction de l’évolution de ces
paramètres
2 – Par conséquents , nous calculons les dérivées partielles
Chapitre 2 : La régression Polynomial :

Définition :
C’est la relation non linéaire entre les variables prédictives et les variables cible
Objective :
L’objective ici est de trouver un polynôme P : P(X) ≈ y
Chapitre 3 : La régression logistique(classsification) :
Y est une valeur discrète :

La variable y dans ces problème est vaut 0 ou 1
0 = classe négative
1 = classe positive
Commencer par les problèmes de classes binaire :

Examinons plus tard le problème de classification multiclasse , bien qu’il ne s’agisse que d’une extention
de la classification binaire .
Comment developper un modele de classifictaion ?
Nous pourrions utiliser la régression logistique .
Sigmoid function :
Logistic regression est un modele de classification linieaire qui le pendant de la regression lineaire ,
quand Y ne doit prendre que deux valeurs possibles (0 ou 1). Comme le modele est lineaire la fonction
hypothses poura s’écrire comme suit :
S(X(i)) = θ0 + θ1 x1+θ2 x2+θ3 x3 +…….+ θn xn
Avec :
X(i) : une observation(soit trainning ou test dataset) cette variable est un vecteur contenant x1,x2,xn
θ0 : est une constant nommée le bais(biais)
xi : est une variable predictive(feature)
θi :
On peut observer q’on peut réecrire θ0 : θ0x0 avec x0 = 1,Cela nous permet de réecrire notre fonction
S(X) de faço plut compacte comme suit :
n +1
S(X) = ∑ (θ i∗xi )
i=0
On a définit précédament Xi comme étant un vecteur de x1,x2,……,xn . Faisant la même chose pour les
θi :
Soit grand theta le vecteur contenant : θi , θi , ………. , θi

Pour combiner entre les differentes caractéristiques, on utilise une fonction lineaire(exactement comme
la regression lineaire) :
Z(x) = θ0 + θ1 x1+θ2 x2+θ3 x3 +…….+ θm xm
Cette valeur est transformé à une probabilité en utilisant la fonction logistique.
Donc , la probabilité qu’un échantillon avec le caractéristiques x1,……,xn appartient à une classe y est
calculé comme suit :
1
hθ(x) = p(y=1|x) = −Z (x)
1+ e
Sigmoid function pour calculé la probabilité d’une classe :
Les gradients :
Le gradient de chaque poids est calculé en utilisantle derivé partiel de la fonction du côut par rapport a
ce poids . Donc,le gradient d’un poids est calculé comme suit :
( i)
∂J 1
= ∑ xj ( h ( x )− y )
∂ θj N j
Géneralisation de la regression logistique sur la classification multi classes :

Telle qu’on l’a vu jusqu’ici,Logistic regression permet uniquement de classifier binairement les
observation (Spam/non,Maligne/Benigne,Noir/blanc……) ce qui est assez contraignant !
Imaginez maintenant que vous avez a classifier une observation dont une categorie parmi trois .Par
exemple : classer un article d presse dans une des trois categories : Sport,High-tech ou politique . Dans
ce cas en parle de Multi classe classification.L ‘Etiquette Y {0,1,2}
Note : On parle de multi class classification du moment que le nombre de labels(étiquettes)possible est
supérieur à 2
L’algorithme ONE vs ALL :
L’algorithme One-versus-ALL permet d’utiliser la Logistic Regression pour la classification multi classe.Le
principe est simple : il consiste à decomposer le probleme de classification multi classes en une
multitude de problèmes de classificaio binaires
Supposons que le triangle vert correspond à la classe 1 , le carré bleu à la classe 2 et la croix rouge à la
classe 3 . l’algorithme One vs All v procéder comme suit :
Etape 1 :
Etape 2 :
Etape 3 :
Chacune de ces fonctions de prédiction H1(x), H2(x), H3(x) nous donnera la probabilité que x soit de la
classe Yp la bonne classe de observation x est celle pour laquelle
Le caractére binaire de la variable à expliquer rend la méthode des moindres carrés impossible à
mettreen œuvre dans ce contexte .
On rappelle que les estimateurs des moindres carré du modele lineaire gaussian coincident avec les
estimateurs du maximum de vraisemblance : la méthode maximum-likelihood estimation(methode de
vraiassemblence maximal)
Chapitre 4 : Le KNN (K Nearest - Neighbors) :

Definition :
L’algorithme de Knn (K nearst-neighbors) est un type de d’algo de l’apprentissage automatique
supervisé (ML) qui peut être utilisée pour les problèmes prédictifs de classification et de régression.
Cependant, il est principalement utilisée dans l’industrie pour les problèmes de classification de et de
prédiction.
Pourquoi avons-nous besoin de l’algorithme K-NN ?

Supposons qu’il y a deux catégories, A et B et que nous ayons un nouveau point de données x1. Pour
déterminer à laquelle de ces catégories appartient ce point de données, l’algorithme K-NN est
nécessaire pour résoudre ce type de problème . comme le montre le diagramme ci-dessous,nous
pouvons facilement identifier la catégorie ou la classe d’un ensemble de données particuliers à l’aide de
K-NN
Comment fonctionne l’algorithme de K-NN ?

L’algorithme KNN prédit les valeurs des nouveaux points de donnée en fonction de la similarité de
caractéristique . ce qui signifie qu’une valeur sera attribué au nouveaux points de données en fonction de
son degré de de correspendance avec les points de l’ensemble d’apprentissage. Les étapes suivantes nous
aideront à comprendre comment cela fonctionne :
Etape 1 : selectionner le nombre k des voisin
Etape 2 : Calculer la distance euclidienne de k nombre de voisin
Etape 3 : Prenez les k voisins les plus proches selon la distance euclidienne calculé
Etape 4 : Parmi ces k voisin, comptez le nombre de point dans chaque catégorie
Etape 5 : Affecter le nombre de point de donnes si la catégorie pour laquelle le nombre des voisins est
maximale.
Etape 6 : Notre modèle est prête
Tous d’abord nous allons sélection le nombre de voisin supposons que K=5 la distance euclidienne entre les
points de donnée seras alors calculer .La distance euclidienne est la distance entre deux points, il peut être
√ 2
calculer comme suit : Distance Euclidienne = ( x ' −x ) +( y ' − y ) ²
Nous avons obtenue les voisin les plus proches en calculons la distance euclidienne ce qu’ il est donnes
trois voisins les plus proches dans la catégorie a et deux voisins les plus proches dans la catégorie B ,
comme le montre l’image ci-dessous .
Comme nous pouvons le voir , les trois voisin les plus proches sont de la catégorie A donc ce nouveau point
de données doit également être de la même catégorie .
Comment choisir la valeur de k dans l’algorithme K-NN ?

Voici quelque éléments à garder à l’esprit lors du choix de la valeur k dans l’algorithme K-NN :
 Il n’ y a pas de moyen specifique de determiner la meilleur valeur pour k , nous devns donc
experimenter avec differente valeur pour trouver la meilleur .
 Une valeur tres faible pour k telle que K=1 ou K= 0 peut être bruyante et provoquer des
effets aberrentes dans le modele
 Des valeurs elve pour k sont preferable , mais ils peuvent entrené des complication
Exemple d’application commerciales de la classification :

 Demande d’hypothèse(finance)
Demande susceptible de manquer à ses obligations ou non
 Catégorisation des types de clients
Clients fortunés , moyennement fortuné , peu fortunés
 Diagnostic médicale
Avantages et inconvénient de l’algorithme K-NN :

Avantages :
 C’est simple à mettre en œuvre

 Il est résistant aux données d’entrainement bruitées
 Si les données d’entrainement sont volumineuses, cela peut être plus efficace
Inconvénients :
 Il est toujours nécessaire de déterminer la valeur de k , ce qui peut parfois être difficile
 Le coût de calcul est élevée, car la distance entre deux points de données de tous les
échantillons d’apprentissage est calculé .

2 - Apprentissage supervisé

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2 - Apprentissage supervisé

Transféré par

Droits d'auteur :

Formats disponibles

L’Apprentisssage Supervisé (Machine Learning)

Chapitre 1 : La régression linéaire :

2- Meilleure prédiction linéaire :

le schéma montre les points

Erreur Standard des de l’estimation :

SEE =√ ∑ ( y observed− y predicted) ²/(n− p−1)¿ ¿

Coût =∑ ( y observed − y predicted )

II – la régression linéaire multiple :

Chapitre 2 : La régression Polynomial :

Chapitre 3 : La régression logistique(classsification) :

Y est une valeur discrète :

Commencer par les problèmes de classes binaire :

Soit grand theta le vecteur contenant : θi , θi , ………. , θi

Géneralisation de la regression logistique sur la classification multi classes :

Chapitre 4 : Le KNN (K Nearest - Neighbors) :

Pourquoi avons-nous besoin de l’algorithme K-NN ?

Comment fonctionne l’algorithme de K-NN ?

Comment choisir la valeur de k dans l’algorithme K-NN ?

Exemple d’application commerciales de la classification :

Avantages et inconvénient de l’algorithme K-NN :

 C’est simple à mettre en œuvre

Vous aimerez peut-être aussi