Chapitre 1 Introduction To Machine Learning 1

V11.
2
Machine Translated by Google
Unité 1. Introduction à l'apprentissage automatique
Uvide
Temps estimé
01:15
Aperçu
Cette unité récapitule les principaux sujets du module I, Présentation de l'IA et fournit une vision plus approfondie de sujets
complexes, tels que :
• Apprentissage automatique
• Algorithmes d'apprentissage automatique
• Réseaux de neurones •
Apprentissage profond
© Copyright IBM Corp. 2018, 2019 11

Les supports de cours ne peuvent pas être reproduits en totalité ou en partie sans l'autorisation écrite préalable d'IBM.
V11.2
Uvide
Objectifs de l'unité
• Expliquer ce qu'est l'apprentissage automatique.
• Décrire ce que l'on entend par modèle statistique et algorithme.
• Décrire les données et les types de données.
• Décrire les types et les approches d'apprentissage automatique (supervisé,

Non supervisé et renforcement).
• Répertoriez différents algorithmes d'apprentissage automatique.
• Expliquer ce que sont les réseaux de neurones et l'apprentissage profond, et pourquoi ils le sont.
important dans le domaine de l’IA d’aujourd’hui.
• Décrire les composants d'apprentissage automatique.
• Répertoriez les étapes du processus de création d'applications d'apprentissage automatique.
• Expliquer ce qu'est l'adaptation de domaine et ses applications.
Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019
Figure 11. Objectifs de l'unité

V11.2
Uvide
1.1. Qu’estce que l’apprentissage automatique ?

V11.2
Uvide
Qu’estce que l’apprentissage automatique ?
Figure 12. Qu’estce que l’apprentissage automatique ?

V11.2
Uvide
Les sujets
• Qu'estce que l'apprentissage
automatique ? • Algorithmes d'apprentissage

automatique • Que sont les réseaux de neurones ?
profond ? • Comment évaluer un modèle de machine learning ?
Figure 13. Les sujets

V11.2
Uvide
Apprentissage automatique
• En 1959, le terme « apprentissage automatique » a été introduit pour la première fois par Arthur
Samuel. Il l’a défini comme « le domaine d’étude qui donne aux ordinateurs la capacité
d’apprendre sans être explicitement programmés ».
• Le processus d'apprentissage améliore le modèle de machine au fil du temps en utilisant

données d'entraînement.
• Le modèle évolué est utilisé pour faire des prédictions futures.
Figure 14. Apprentissage automatique
Arthur Samuel, ancien ingénieur d'IBM et professeur à Stanford, a été l'un des pionniers dans le domaine du jeu
vidéo et de l'intelligence artificielle. Il a été le premier à introduire le terme « apprentissage automatique ».
L'apprentissage automatique est un domaine de l'intelligence artificielle. Il utilise des méthodes statistiques pour donner
à l'ordinateur la capacité « d'apprendre » à partir des données, sans être explicitement programmé.
Si un programme informatique peut améliorer la façon dont il exécute certaines tâches sur la base d’expériences
passées, alors il a appris. Cela diffère du fait d'exécuter la tâche toujours de la même manière car elle a été
programmée pour le faire.
Le processus d'apprentissage améliore ce que l'on appelle le « modèle » au fil du temps en utilisant différents points de
données (données d'entraînement). Le modèle évolué est utilisé pour faire des prédictions futures.
Les références:
https://link.springer.com/chapter/10.1007/9781430259909_1
https://link.springer.com/chapter/10.1007/9789400902794_9

V11.2
Uvide
Qu'estce qu'un modèle statistique
• Un modèle dans un ordinateur est une fonction mathématique qui représente une relation ou une
correspondance entre un ensemble d'entrées et un ensemble de sorties.
• Les nouvelles données « X » peuvent prédire la sortie « Y ».
Figure 15. Qu'estce qu'un modèle statistique
La représentation d'un modèle dans l'ordinateur se présente sous la forme d'une fonction mathématique. Il s'agit d'une
relation ou d'un mappage entre un ensemble d'entrées et un ensemble de sorties. Par exemple, f(x)=x^2.
Supposons qu’un système soit alimenté par des données indiquant que les taux de crimes violents sont plus élevés lorsque le
temps est plus chaud et plus agréable, et qu’ils augmentent même fortement pendant les journées d’hiver plus chaudes que d’habitude.
Ensuite, ce modèle peut prédire le taux de criminalité pour cette année par rapport aux taux de l'année dernière, en fonction des
prévisions météorologiques.
En revenant à la représentation mathématique du modèle permettant de prédire le taux de criminalité en fonction de la

température, nous pourrions proposer le modèle mathématique suivant :
Incidents de crimes violents par jour = Température moyenne × 2
Il s'agit d'un exemple trop simpliste pour expliquer que l'apprentissage automatique fait référence à un ensemble de techniques
d'estimation de fonctions (par exemple, la prévision des incidents criminels) basées sur des ensembles de données (paires de la
température moyenne de la journée et du nombre d'incidents criminels associé). Ces modèles peuvent être utilisés pour prédire
les données futures.

V11.2
Uvide
1.2. Algorithmes d'apprentissage automatique

V11.2
Uvide
Algorithmes d'apprentissage automatique
Figure 16. Algorithmes d'apprentissage automatique

V11.2
Uvide
Sujets •
Qu'estce que l'apprentissage


V11.2
Uvide
• L'algorithme d'apprentissage automatique est une technique grâce à laquelle le

système extrait des modèles utiles à partir de données historiques. Ces modèles
peuvent être appliqués à de nouvelles données.
• L'objectif est de faire apprendre au système une transformation entrée/sortie

spécifique.
• La qualité des données est essentielle à la précision de l'apprentissage automatique

résultats.
Pour estimer la fonction qui représente le modèle, un algorithme d'apprentissage approprié doit être utilisé.
Dans ce contexte, l'algorithme d'apprentissage représente la technique par laquelle le système extrait des modèles utiles à
partir des données historiques d'entrée. Ces modèles peuvent être appliqués à de nouvelles données dans de nouvelles
situations. L'objectif est de faire en sorte que le système apprenne une transformation d'entrée/sortie spécifique et de faire
des prédictions futures pour un nouveau point de données. Trouver les algorithmes appropriés pour résoudre des problèmes
complexes dans divers domaines et savoir comment et quand les appliquer est une compétence importante que les
ingénieurs en apprentissage automatique doivent acquérir. Étant donné que les algorithmes d’apprentissage automatique
dépendent des données, la compréhension et l’acquisition de données de haute qualité sont cruciales pour obtenir des résultats précis.

V11.2
Uvide
Approches d'apprentissage automatique
1) Apprentissage supervisé : entraînezvous en utilisant des données étiquetées, et apprenez et

prédisez de nouvelles étiquettes pour les données d'entrée invisibles.
• La classification consiste à prédire une étiquette de classe discrète, telle que

« noir, blanc ou gris » et « tumeur ou pas tumeur ».
• La régression consiste à prédire une quantité continue, telle que le « poids »,

la « probabilité » et le « coût ».
Figure 19. Approches d'apprentissage automatique
L’apprentissage supervisé est l’une des principales catégories d’apprentissage automatique. Dans l'apprentissage
automatique supervisé, les données d'entrée (également appelées exemples de formation) sont accompagnées d'une étiquette,
et le but de l'apprentissage est de prédire l'étiquette pour de nouveaux exemples imprévus. Un algorithme d'apprentissage
supervisé analyse les données d'entraînement et produit une fonction déduite, qui peut être utilisée pour cartographier de nouveaux exemple
En pratique, les problèmes résolus grâce à l’apprentissage supervisé sont regroupés en problèmes
de régression ou de classification.
La classification consiste à prédire une étiquette de classe discrète, telle que « noir, blanc ou gris » et « tumeur ou non ».
La régression consiste à prédire une quantité continue, telle que le « poids », la « probabilité » et le « coût ».

V11.2
Uvide
Approches d’apprentissage automatique (suite)
2) Apprentissage non supervisé : détectez des modèles et des relations entre les données
sans utiliser de données étiquetées.
• Algorithmes de clustering : découvrez comment diviser l'ensemble de données en un

nombre de groupes de sorte que les points de données des mêmes groupes soient
plus similaires les uns aux autres par rapport aux points de données des autres groupes.
Figure 110. Approches d’apprentissage automatique (suite)
L'apprentissage non supervisé est un type d'apprentissage automatique qui apprend à partir de données qui n'ont pas été étiquetées.
Le but de l’apprentissage non supervisé est de détecter des modèles dans les données. L’un des types d’apprentissage non supervisé
les plus populaires est celui des algorithmes de clustering.
Les algorithmes de clustering sont des algorithmes qui découvrent comment diviser l'ensemble de données en un certain nombre de
groupes de telle sorte que les points de données des mêmes groupes soient plus similaires les uns aux autres par rapport aux
points de données des autres groupes.

V11.2
Uvide
3) Apprentissage semisupervisé :
• Une technique d'apprentissage automatique qui se situe entre le supervisé et le

apprentissage non supervisé.
• Il comprend des données étiquetées avec une grande quantité de données non étiquetées.
• Voici un exemple qui utilise le pseudoétiquetage :
un. Utilisez des données étiquetées pour entraîner un modèle.
b. Utilisez le modèle pour prédire les étiquettes pour les données non étiquetées.
c. Utilisez les données étiquetées et les données étiquetées nouvellement générées pour créer un
nouveau modèle.
De nombreux problèmes pratiques réels entrent dans cette catégorie d’apprentissage automatique où vous disposez de peu de
données étiquetées et le reste des données n’est pas étiqueté.
L'étiquetage des données est un processus coûteux ou long. De plus, cela nécessite de faire appel à des experts du domaine pour
étiqueter les données avec précision. Pensez à étiqueter les images de maladies de peau qui doivent être étiquetées par un expert du
domaine. En outre, trop de données d’étiquetage pourraient introduire des biais humains dans le modèle.
En apprentissage semisupervisé, vous essayez de tirer le meilleur parti de vos données non étiquetées. Il existe différentes techniques
pour réaliser cette tâche. Par exemple, vous pouvez utiliser le pseudoétiquetage, qui vise à donner des étiquettes approximatives
aux données non étiquetées. Le pseudoétiquetage fonctionne comme suit :
1. Utilisez des données étiquetées pour entraîner un modèle.
2. Utilisez le modèle pour prédire les étiquettes pour les données non étiquetées.
3. Utilisez les données étiquetées et les données étiquetées nouvellement générées pour créer un modèle.
Les références:
http://deeplearning.net/wpcontent/uploads/2013/03/pseudo_label_final.pdf
https://www.analyticsvidhya.com/blog/2017/09/pseudolabellingsemisupervisedlearningtechniqu
e/

V11.2
Uvide
4) Apprentissage par renforcement
• L'apprentissage par renforcement utilise des essais et des erreurs (une approche enrichissante).
• L'algorithme découvre une association entre l'objectif et la séquence d'événements qui mène
à un résultat positif.
• Exemples d'applications d'apprentissage par renforcement :
Robotique : Un robot qui doit trouver sa voie.
Voitures autonomes.
L'apprentissage par renforcement est un apprentissage axé sur un objectif et basé sur l'interaction avec
l'environnement. Au fur et à mesure que le système effectue certaines actions, il en apprend davantage sur le monde.
Le renforcement apprend par essais et erreurs (une approche enrichissante).
L'algorithme découvre une association entre l'objectif et la séquence d'événements qui mène à un résultat positif.
Exemples de problèmes d’apprentissage par renforcement :
• Robotique : Un robot qui doit trouver son chemin.
• Voitures autonomes.

V11.2
Uvide
Comprendre votre problème et les différents types d'algorithmes ML aide à sélectionner

le meilleur algorithme.
Voici quelques algorithmes d’apprentissage automatique :
• Classification Naïve Bayes (classification supervisée – probabiliste)
• Régression linéaire (régression supervisée)
• Régression logistique (classification supervisée)
• Machine à vecteurs de support (SVM) (classification linéaire ou non linéaire

supervisée)
• Arbre de décision (classification non linéaire supervisée)
• Clustering Kmeans (apprentissage non supervisé)
Dans les diapositives suivantes, nous explorons différents algorithmes d'apprentissage automatique. Nous décrivons les
algorithmes les plus importants. Chaque algorithme appartient à une catégorie d'apprentissage. Nous explorons les
algorithmes supervisés et non supervisés, les algorithmes de régression et de classification, ainsi que la classification
linéaire et non linéaire.

V11.2
Uvide
Classification bayésienne naïve

• Les classificateurs bayésiens naïfs supposent que la valeur d'une caractéristique particulière
est indépendante de la valeur de toute autre caractéristique, étant donné la variable de classe.
Par exemple, un fruit peut être considéré comme une pomme s’il est rouge, rond et mesure environ
10 cm de diamètre.
Caractéristiques : Couleur, rondeur et diamètre.
Hypothèse : Chacune de ces caractéristiques contribue indépendamment à la probabilité

que ce fruit soit une pomme, quelles que soient les corrélations possibles entre les caractéristiques
de couleur, de rondeur et de diamètre.
Figure 114. Classification bayésienne naïve
Les classificateurs Naïve Bayes sont un algorithme d'apprentissage automatique supervisé puissant et simple. Il
suppose que la valeur d'une fonctionnalité particulière est indépendante de la valeur de toute autre fonctionnalité, étant
donné la variable de classe. Par exemple, un fruit peut être considéré comme une pomme s’il est rouge, rond et mesure
environ 10 cm de diamètre.
Caractéristiques : Couleur, rondeur et diamètre.
Un classificateur Naïve Bayes considère que chacune de ces caractéristiques contribue indépendamment à
la probabilité que ce fruit soit une pomme, quelles que soient les corrélations possibles entre les caractéristiques
de couleur, de rondeur et de diamètre.

V11.2
Uvide
Classification Bayes naïve (suite)

Exemple : utilisez Naïve Bayes pour prédire si l'étiquette rouge, de forme ronde et
de 10 cm de diamètre est une pomme ou non.
Figure 115. Classification Bayes naïve (suite)
Imaginez que vous disposez de l'ensemble de données présenté dans le tableau de cette diapositive. La colonne
intitulée « Estce qu'Apple ? » représente l'étiquette des données. Notre objectif est de faire une nouvelle prédiction pour
un objet inconnu. L'objet inconnu présente les caractéristiques suivantes :
• La couleur rouge
• Forme : ronde
• Diamètre : 10 cm
Remarque 1 : Parfois, la terminologie « paramètres » ou « variables » est utilisée pour décrire les « caractéristiques ».
Remarque 2 : « Données annotées » ou « données étiquetées » font référence à la même terminologie.

V11.2
Uvide
Pour effectuer un classement, vous devez effectuer les étapes suivantes :
1. Définissez deux classes (CY et CN) qui correspondent à Apple = Oui et
Pomme = Non.
2. Calculez la probabilité pour CY sous la forme x : p(CY | x) :
p(Pomme = Oui | Couleur = Rouge, Forme = ronde, Diamètre => 10 cm)
3. Calculez la probabilité pour CN comme x : p(CN | x) :
p(Pomme = Non | Couleur = Rouge, Forme = ronde, Diamètre => 10 cm)
4. Découvrez quelle probabilité conditionnelle est la plus grande :
Si p(CY |x) > p(CN |x), alors c'est une pomme.
Votre algorithme dépend essentiellement du calcul de deux valeurs de probabilité :
• Probabilités de classe : probabilités d'avoir chaque classe dans l'ensemble de données d'entraînement.
• Probabilités conditionnelles : probabilités de chaque caractéristique d'entrée donnant une valeur de classe spécifique.
Le processus pour résoudre ce problème est le suivant :
1. Définissez deux classes CY et CN qui correspondent à Apple = Oui et Apple = Non.
2. Calculez la probabilité pour CY sous la forme x : p(CY | x) : p(Pomme = Oui | Couleur = Rouge, Forme = ronde,
Diamètre => 10 cm)
3. Calculez la probabilité pour CN comme x : p(CN | x) : p(Pomme = Non | Couleur = Rouge, Forme = rond, Diamètre
=> 10 cm)
4. Découvrez quelle probabilité conditionnelle est la plus grande : Si p(CY |x) > p(CN |x), alors c'est une pomme.

V11.2
Uvide
Modèle bayésien naïf :
5. Calculez p(x|CY) = p(Couleur = Rouge, Forme = ronde, Diamètre =>10
cm | Pomme = Oui).
Naïve Bayes suppose que les caractéristiques des données d'entrée (la pomme
paramètres) sont indépendants.
La formule Naïve Bayes est donnée par ce modèle. Notre objectif est de calculer la formule pour atteindre p(CK |x),
où K est n'importe quelle classe (CY ou CN).
5. Calculez la probabilité conditionnelle d'avoir chaque caractéristique étant donné que la classe est CY : p(x|CY) =
p(Couleur = Rouge, Forme = rond, Diamètre =>10 cm | Pomme = Oui).
Étant donné que Naïve Bayes suppose que les caractéristiques des données d'entrée (les caractéristiques de
l'objet) sont indépendantes, pour obtenir la valeur p(x|CY) , nous calculons la probabilité conditionnelle de chaque
caractéristique à la fois avec la classe CY, puis multiplions le tout. les valeurs.

V11.2
Uvide
Ainsi, nous pouvons réécrire p(x| CY) comme :
= p(Couleur = Rouge | Pomme = Oui) X p(Forme = rond | Pomme = Oui) X
p(Diamètre => 10 cm | Pomme = Oui)
Idem pour p(x| CN) :
= p(Couleur = Rouge | Pomme = Non) X p(Forme = rond | Pomme = Non) X
p(Diamètre => 10 cm | Pomme = Non)
Ainsi, nous pouvons réécrire p(x| CY) comme :
= p(Couleur = Rouge | Pomme = Oui) X p(Forme = rond | Pomme = Oui) X p(Diamètre => 10 cm | Pomme
= Oui)
Nous appliquons la même règle pour p(x| CN) en multipliant les probabilités conditionnelles d'atteindre la caractéristique
d'entrée étant donné CN :
= p(Couleur = Rouge | Pomme = Non) X p(Forme = rond | Pomme = Non) X p(Diamètre => 10 cm | Pomme =
Non)

V11.2
Uvide

6. Calculez chaque probabilité conditionnelle :
p(Couleur = Rouge | Pomme = Oui) = 3/5 (Sur cinq pommes, trois d'entre elles étaient rouges.)
p(Couleur = Rouge | Pomme = Non) =
2/5 p(Forme = Rond | Pomme = Oui) = 4/5
p(Forme = Ronde | Pomme = Non) = 2/5
p(Diamètre = > 10 cm | Pomme = Oui) = 2/5
p(Diamètre = > 10 cm | Pomme = Non) = 3/5
Voyons comment calculer ces probabilités conditionnelles. Par exemple, pour calculer p(Couleur = Rouge | Pomme = Oui),
vous demandez : « Quelle est la probabilité d'avoir un objet de couleur rouge étant donné que nous savons que c'est une
pomme ».
Vous parcourez le tableau pour voir combien de « est Apple ? » a une étiquette « oui ». Vous voyez que l’occurrence est cinq
fois.
Maintenant, d’après le tableau, combien de ces cinq occurrences se produisent lorsque vous avez une couleur = rouge ? Vous
constatez qu’il existe trois occurrences pour la couleur rouge. Par conséquent, p(Couleur = Rouge | Pomme = Oui) = 3/5.
Répétez ces étapes pour le reste des fonctionnalités.

V11.2
Uvide
• p(Couleur = Rouge | Pomme = Oui) X p(Forme = rond | Pomme = Oui) X
p(Diamètre = > 10 cm | Pomme = Oui)
= (3/5) x (4/5) x (2/5) = 0,192
• p(Couleur = Rouge | Pomme = Non) X p(Forme = rond | Pomme = Non) X
p(Diamètre = > 10 cm | Pomme = Non)
= (2/5) x (2/5) x (3/5) = 0,096
• p(Pomme = Oui) = 5/10
• p(Pomme = Non) = 5/10
Maintenant, nous avons toutes les valeurs dont nous avons besoin. Comme mentionné à l'étape 5, nous multiplions les
probabilités conditionnelles comme suit :
p(Couleur = Rouge | Pomme = Oui) X p(Forme = rond | Pomme = Oui) X p(Diamètre = > 10 cm | Pomme =
Oui)
= (3/5) x (4/5) x (2/5) = 0,192
p(Couleur = Rouge | Pomme = Non)p(Forme = rond | Pomme = Non)p(Diamètre = > 10 cm | Pomme = Non)
= (2/5) x (2/5) x (3/5) = 0,096
p(Pomme = Oui) = 5/10
p(Pomme = Non) = 5/10

V11.2
Uvide
Comparez p(CY | x) à p(CN | x) :
Le verdict est donc qu’il s’agit d’une pomme.
Enfin, nous comparons les valeurs de p(CY |x) par rapport à p(CN |x). En remplaçant les valeurs
calculées aux étapes précédentes, nous découvrons que p(CY |x) > p(CN |x), ce qui signifie que l'objet
est une pomme.

V11.2
Uvide
Régression linéaire
• La régression linéaire est une équation linéaire qui combine un ensemble spécifique de
des valeurs d'entrée (X) et un résultat (Y) qui est la sortie prédite pour cet ensemble de
valeurs d'entrée. En tant que tel, les valeurs d’entrée et de sortie sont numériques.
• La variable cible est une valeur continue.
Exemples d'applications :
• Analyser l'efficacité du marketing, les prix et les promotions sur le

ventes d'un produit.
• Prévoir les ventes en analysant les ventes mensuelles de l'entreprise pour le passé
quelques années.
• Prédire les prix des logements avec une augmentation de la taille des maisons.
• Calculer les relations causales entre les paramètres en biologie

systèmes.
Figure 122. Régression linéaire
Les algorithmes de régression sont l’un des algorithmes clés utilisés dans l’apprentissage automatique. Les algorithmes de
régression aident les analystes à modéliser les relations entre les variables d'entrée X et l'étiquette de sortie Y pour les points
de données d'entraînement. Cet algorithme cible les problèmes de régression supervisée, c'estàdire que la variable cible est
une valeur continue.
Dans la régression linéaire simple, nous établissons une relation entre la variable cible et les variables d'entrée en
ajustant une ligne appelée ligne de régression.
Il existe différentes applications qui bénéficient de la régression linéaire :
• Analyser l'efficacité marketing, les prix et les promotions sur les ventes d'un produit.
• Prévoir les ventes en analysant les ventes mensuelles de l'entreprise au cours des dernières années.
• Prédire les prix des logements avec une augmentation de la taille des maisons.
• Calculer les relations causales entre les paramètres des systèmes biologiques.

V11.2
Uvide
Régression linéaire (suite)

• Exemple : Supposons que nous étudions le marché immobilier. •
Objectif : Prédire le prix d'une maison compte tenu de sa taille en utilisant les
données.
Taille Prix
30 30 000
70 40 000
90 55 000
110 60 000
130 80 000
150 90 000
180 95 000
190 110 000
Figure 123. Régression linéaire (suite)
Supposons que nous étudions le marché immobilier et que notre objectif soit de prédire le prix d'une maison en
fonction de sa taille en utilisant des données précédentes. L'étiquette dans ce cas est la colonne prix.

V11.2
Uvide

Tracez ces données sous forme de graphique
Après avoir tracé les points sur le graphique, ils semblent former une ligne.

V11.2
Uvide

• Pouvezvous deviner quelle est la meilleure estimation du prix d'une maison de
140 mètres carrés ?
• Laquelle est correcte?
A. 60 000 $
Taille Prix
B. 95 000 $ 30 30 000
C. 85 000 $
70 40 000
90 55 000
110 60 000
130 80 000
150 90 000
180 95 000
190 110 000
Vous souhaitez connaître la valeur prix d’une maison de 140 mètres carrés. Lequel des choix suivants est correct ?
1. 60 000 $
2. 95 000 $
3. 85 000 $

V11.2
Uvide

• Cible : Une ligne qui se trouve à une distance « appropriée » de tous les points.
• Erreur : la distance agrégée entre les points de données et la valeur supposée.

doubler.
• Solution : calculez l'erreur de manière itérative jusqu'à ce que vous atteigniez le maximum
ligne précise avec une valeur d'erreur minimale (c'estàdire la distance minimale entre la ligne et
tous les points).
Pour répondre à la question « Quel est le prix d’une maison de 140 mètres carrés ? », nous devons tracer la ligne qui correspond
le mieux à la plupart des points de données.
Comment pouvonsnous trouver la ligne qui correspond le mieux à tous les points de données ? Nous pouvons tracer plusieurs lignes, alors
laquelle est la meilleure ?
La meilleure ligne doit avoir la valeur d'erreur minimale. L'erreur fait référence à la distance agrégée entre les points de
données et la ligne supposée. Calculez l'erreur de manière itérative jusqu'à ce que vous atteigniez la ligne la plus précise avec
une valeur d'erreur minimale.

V11.2
Uvide
• Après le processus d'apprentissage, vous obtenez la ligne la plus précise, le biais et le
pente pour tracer votre ligne.
• Voici notre représentation de modèle de régression linéaire pour ce problème :

*
h(p) = p0 + p1 X1
ou
Prix = 30 000 + 392* Taille

Prix = 30 000 + 392* 140
= 85 000
Après le processus d’apprentissage, vous obtenez la ligne la plus précise, le biais et la pente pour tracer votre ligne.
p0 est le biais. On l'appelle également l'interception car elle détermine où la ligne intercepte l'axe y.
p1 est la pente car elle définit la pente de la ligne ou la façon dont x est en corrélation avec la valeur ay avant
d'ajouter le biais.
Si vous disposez de la valeur optimale de p0 et p1, vous pouvez tracer la ligne qui représente le mieux les données.

V11.2
Uvide
• Fonction d'erreur quadratique

m est le nombre d'échantillons.
est la valeur prédite pour le point de données i.
est la valeur réelle du point de données i.
Cible : choisissez les valeurs P pour minimiser les erreurs.
• Algorithme de descente de gradient stochastique :
j est le numéro de fonctionnalité.
est le taux d’apprentissage.
La fonction d'erreur quadratique J est représentée par la différence entre le point prédit et les points réels. Il est
calculé comme suit :
J(P) = (1/(2*m)) Σ (hp(xi ) yi)2

Où:
• i est le numéro d'un échantillon ou d'un point de données dans l'ensemble de données échantillons.
• hp(xi ) est la valeur prédite pour le point de données i.
• yi est la valeur réelle du point de données i.
• m est le nombre d'échantillons d'ensembles de données ou de points de données.
Nous pouvons utiliser une technique d'optimisation appelée descente de gradient stochastique. L'algorithme évalue et met à jour les poids à chaque
itération pour minimiser l'erreur du modèle. La technique fonctionne de manière itérative. À chaque itération, l’instance de formation est exposée
une fois au modèle. Le modèle fait une prédiction et l'erreur correspondante est calculée. Le modèle est mis à jour pour réduire l'erreur de la
prochaine prédiction. Le processus continue d'ajuster les poids du modèle pour atteindre la plus petite erreur.

V11.2
Uvide
Ici, nous utilisons l'algorithme de descente de gradient pour obtenir de manière itérative les valeurs de p0 et p1 (l'ordonnée
à l'origine et la pente de la ligne sont également appelées poids) par l'algorithme suivant :
Pj := Pj – α (hp(xi ) yi) xj
je
Où:
j est le numéro de fonctionnalité.
α est le taux d'apprentissage.

V11.2
Uvide

• Dans les dimensions supérieures où nous avons plus d'une entrée (X), la
ligne est appelée plan ou
hyperplan. • L'équation peut être généralisée de la simple régression linéaire à
régression linéaire multiple comme suit :
Y(X)=p0 +p1 *X1 +p2 *X2 +...+pn *Xn
Avec plus de fonctionnalités, vous n’avez pas de ligne ; à la place, vous avez un avion. Dans les dimensions
supérieures où nous avons plus d’une entrée (X), la ligne est appelée plan ou hyperplan.
L'équation peut être généralisée de la régression linéaire simple à la régression linéaire multiple comme suit :
Y(X)=p0 +p1 *X1 +p2 *X2 +...+pn *Xn

V11.2
Uvide
Régression logistique
• Algorithme de classification supervisée.

• Cible : Une variable dépendante (Y) est une catégorie discrète ou une classe (et non une
variable continue comme dans la régression linéaire).
Exemple : Classe1 = Cancer, Classe2 = Pas de cancer
Figure 130. Régression logistique
La régression logistique est un algorithme de classification supervisée. Elle est différente de la régression linéaire où la
variable dépendante ou de sortie est une catégorie ou une classe. La cible est une catégorie discrète ou une classe (et non
une variable continue comme dans la régression linéaire), par exemple, Classe1 = cancer, Classe2 = Pas de cancer.

V11.2
Uvide
Régression logistique (suite)

• La régression logistique doit son nom à la fonction utilisée au cœur de
l'algorithme.
• La fonction logistique (fonction sigmoïde) est une courbe en forme de S pour la discrimination des
données entre plusieurs classes. Il peut prendre n’importe quelle valeur réelle comprise entre 0 et 1.
Fonction logistique
Figure 131. Régression logistique (suite)
La régression logistique doit son nom à la fonction utilisée au cœur de l'algorithme, à savoir la fonction logistique. La fonction
logistique est également connue sous le nom de fonction sigmoïde. Il s'agit d'une courbe en forme de S (comme le montre la
figure) pour la ségrégation des données sur plusieurs classes qui peut prendre n'importe quelle valeur réelle comprise entre 0 et
1.

V11.2
Uvide
• La fonction sigmoïde compresse la valeur d'entrée entre [0,1].
• Équation de régression logistique :
Y = exp(p0+p1X)/(1+exp(p0+p1X))
Au cours du processus d'apprentissage, le système tente de générer un modèle (estimer un ensemble de paramètres
p0, p1, …) qui peut prédire au mieux la probabilité que Y tombe dans la classe A ou B étant donné l'entrée X. La
fonction sigmoïde comprime l'entrée valeur comprise entre [0,1], donc si la sortie est de 0,77, elle est plus proche de 1
et la classe prédite est de 1.

V11.2
Uvide

• Exemple : Supposons que les valeurs estimées de p pour un certain modèle qui prédit le
sexe à partir de la taille d'une personne sont p0= 120 et p1 = 0,5.
• La classe 0 représente les femmes et la classe 1 représente les hommes.
• Pour calculer la prédiction, utilisez :

Y = exp(120+0,5X)/(1+exp(120+0,5X))
Y = 0,00004539
P(mâle|hauteur=150) est 0 dans ce cas.
Exemple : supposons que les valeurs estimées de p pour un certain modèle qui prédit le sexe à partir de la taille
d'une personne sont p0= 120 et p1=0,5.
Supposons que vous ayez deux classes où la classe 0 représente les femmes et la classe 1 représente les hommes.
Y = exp(120+0,5X)/(1+exp(120+0,5X))
Y = 0,00004539
P(mâle|hauteur=150) est 0 dans ce cas.

V11.2
Uvide
Machine à vecteurs de support
• Le but est de trouver un hyperplan de séparation entre les exemples positifs et négatifs
de données d'entrée.
• SVM est également appelé « classificateur à grande marge ».
• L'algorithme SVM recherche l'hyperplan ayant la plus grande marge, c'estàdire la plus grande
distance jusqu'aux points d'échantillonnage les plus proches.
Figure 134. Machine à vecteurs de support
SVM est un modèle d'apprentissage supervisé qui peut être un classificateur linéaire ou non linéaire. SVM est également
appelé « classificateur à grande marge » car l'algorithme recherche l'hyperplan avec la plus grande marge, c'estàdire la plus
grande distance par rapport aux points d'échantillonnage les plus proches.

V11.2
Uvide
Machine à vecteurs de support (suite)
Figure 135. Machine à vecteurs de support (suite)
Supposons qu'un ensemble de données se trouve dans un espace bidimensionnel et que l'hyperplan sera une
ligne unidimensionnelle.
Bien que de nombreuses lignes (en bleu clair) séparent correctement toutes les instances, il n'existe qu'un seul
hyperplan optimal (ligne rouge) qui maximise la distance jusqu'aux points les plus proches (en jaune).

V11.2
Uvide
Arbre de décision
• Un algorithme d'apprentissage supervisé qui utilise une structure arborescente pour modéliser
les décisions.
• Cela ressemble à un organigramme ou à des cas ifelse.
• Un exemple d'application est la prise de décision commerciale générale, comme prédire la

volonté des clients d'acheter un produit donné dans un contexte donné, par exemple en
ligne ou dans un magasin physique.
Figure 136. Arbre de décision
Un arbre de décision est un algorithme d’apprentissage supervisé populaire qui peut être utilisé pour des problèmes de
classification et de régression. Les arbres de décision sont une méthode de prédiction populaire. Les arbres de décision
peuvent expliquer pourquoi une prédiction spécifique a été faite en parcourant l'arbre.
Il existe différents exemples d'applications pouvant utiliser l'arbre de décision en entreprise. Par exemple, prédire la volonté
des clients d'acheter un produit donné dans un contexte donné, par exemple en ligne ou dans un magasin physique.
Note
Dans notre propos, nous nous concentrons sur un arbre de classification.

V11.2
Uvide
Arbre de décision (suite)
Figure 137. Arbre de décision (suite)
Un arbre de décision comprend trois entités principales : le nœud racine, les nœuds de décision et les feuilles.
La figure montre la représentation graphique de ces entités.
Un arbre de décision construit le modèle de classification ou de régression sous la forme d'une structure
arborescente. Il ressemble à un organigramme et est facile à interpréter car il décompose un ensemble de données en
sousensembles de plus en plus petits tout en construisant l'arbre de décision associé.

V11.2
Uvide
L’exemple « Play Tennis » est l’un des exemples les plus populaires pour expliquer les arbres de décision.
Dans l'ensemble de données, le label est représenté par « PlayTennis ». Les caractéristiques sont le reste des colonnes :
« Perspectives », « Température », « Humidité » et « Vent ». Notre objectif ici est de prédire, en fonction de
certaines conditions météorologiques, si un joueur peut ou non jouer au tennis.
Référence:
http://jmvidal.cse.sc.edu/talks/decisiontrees/choosingbest.html?style=White

V11.2
Uvide
De retour à l'exemple, la représentation de l'arbre de décision sur le côté droit de la figure montre les
informations suivantes :
• Chaque nœud interne teste un attribut.
• Chaque branche correspond à une valeur d'attribut.
• Chaque nœud feuille attribue une classification.
A terme, nous souhaitons faire une classification de « si Jouer au Tennis = {Oui, Non} ».
Référence:
http://jmvidal.cse.sc.edu/talks/decisiontrees/choosingbest.html?style=White

V11.2
Uvide
Un arbre de décision est construit en prenant des décisions concernant les éléments suivants :
• Quelle fonctionnalité choisir comme nœud racine
• Quelles conditions utiliser pour le fractionnement
• Quand arrêter le fractionnement
L'algorithme fonctionne en divisant de manière récursive les données en fonction de la valeur d'une fonctionnalité. Après
chaque fractionnement, la partie des données devient plus homogène.
Maintenant, l’algorithme doit décider :
1. Quelle fonctionnalité choisir comme nœud racine.
2. Quelles conditions utiliser pour le fractionnement.
3. Quand arrêter le fractionnement.

V11.2
Uvide

• Utiliser l'entropie et le gain d'information pour construire un arbre de décision.
• Entropie : C'est la mesure du degré d'incertitude et de caractère aléatoire dans

un ensemble de données pour la tâche de classification.
• Gain d'informations : il est utilisé pour classer les attributs ou les fonctionnalités à diviser
à un nœud donné dans l'arborescence.
Gain d'information = (Entropie de la distribution avant la scission) – (entropie de la
distribution après celleci)
L'algorithme Iterative Dichotomiser3 (ID3) fonctionne en utilisant l'entropie et le gain d'informations pour construire un
arbre de décision. L'entropie est la mesure du degré d'incertitude et de caractère aléatoire dans un ensemble de données pour
la tâche de classification. L'entropie est maximisée lorsque tous les points ont des probabilités égales.
Si l'entropie est minime, cela signifie que l'attribut ou la caractéristique apparaît proche d'une classe et possède un bon
pouvoir discriminant pour la classification.
L'entropie zéro signifie qu'il n'y a pas de caractère aléatoire pour cet attribut.
Le gain d'informations est une métrique utilisée pour classer les attributs ou les fonctionnalités à diviser à un nœud donné de
l'arborescence. Il définit la quantité d'informations qu'une fonctionnalité fournit sur une classe. La fonctionnalité avec le gain
d'informations le plus élevé est utilisée pour la première division.

V11.2
Uvide
Regroupement Kmoyenne
• Algorithme d'apprentissage automatique non supervisé.
• Il regroupe un ensemble d'objets de telle sorte que les objets du même groupe (appelé
cluster) soient plus similaires les uns aux autres que ceux des autres groupes (autres
clusters).
Figure 142. Regroupement Kmoyenne
Le clustering Kmeans est une technique d’apprentissage automatique non supervisée. L'objectif principal de l'algorithme est
de regrouper les observations de données en k groupes, où chaque observation appartient au groupe ayant la moyenne la plus
proche.
Le centre d'un cluster est le centre de gravité. La figure montre des tracés de la partition d'un ensemble de données en
cinq clusters, les centroïdes de cluster étant représentés par des croix.

V11.2
Uvide
Clustering Kmeans (suite)

Des exemples d'applications incluent la segmentation des clients, la
segmentation des images et les systèmes de recommandation.
Figure 143. Clustering Kmeans (suite)
Exemples d'applications :
• Segmentation de la clientèle : Imaginez que vous êtes propriétaire d'un magasin d'électronique. Tu veux
comprendre les préférences de vos clients pour développer votre entreprise. Il n'est pas possible d'examiner les
détails d'achat de chaque client pour trouver une bonne stratégie marketing. Mais vous pouvez regrouper les détails,
par exemple, en cinq groupes en fonction de leurs habitudes d'achat. Ensuite, vous commencez à élaborer votre
stratégie marketing pour chaque groupe.
• Segmentation et compression d'images : processus de partitionnement d'une image numérique en plusieurs segments
(ensembles de pixels) pour simplifier et modifier la représentation d'une image en quelque chose de plus significatif et
plus facile à analyser. Pour réaliser cette tâche, nous avons besoin d'un processus qui attribue une étiquette à
chaque pixel d'une image de telle sorte que les pixels portant la même étiquette partagent certaines caractéristiques.
L'image de cette diapositive est segmentée et compressée en trois régions à l'aide du regroupement kmeans.
Avec un plus petit nombre de clusters, il fournit davantage de compression d’image mais au détriment d’une qualité
d’image moindre.
• Systèmes de recommandation : ces systèmes vous aident à trouver des utilisateurs ayant les mêmes préférences pour
construire de meilleurs systèmes de recommandation.

V11.2
Uvide Les références:
https://www.mathworks.com/help/examples/images/win64/SegmentGrayscaleImageUsingKMeans
ClusteringExample_02.png
https://www.mathworks.com/help/examples/images/win64/SegmentGrayscaleImageUsingKMeans
ClusteringExample_01.png

V11.2
Uvide

• Exemple : étant donné les points de données suivants, utilisez le clustering Kmeans pour
partitionner les données en deux clusters.
Supposons que vous disposez des points de données présentés dans la figure. Votre objectif est de regrouper chaque
point de données dans l'un des deux groupes. Ainsi, la taille du cluster est de 2. C1 et C2 représentent ces deux clusters.

V11.2
Uvide
• Les centroïdes initiaux définis sont C1 (1,1) et C2 (2,1).
Supposons que les centroïdes initiaux sont C1, point (1,1) et C2, point (2,1)

V11.2
Uvide
Trouvez un nouveau centroïde en utilisant
Itération 1 :
• Maintenant, nous calculons pour chaque point à quel centre il appartient. Le résultat dépend de
la distance entre le centre et le point (en utilisant la distance euclidienne) :
Point 1 : (1, 1) d11 = Oui d12 = Non

Cela signifie que le point1(2,2) appartient à C1 et non à C2 car il est plus proche de C1.
Point 2 : (2, 1) d21 = Non, d22 = Oui

Point 3 : (4, 3) d31 = Non, d32 = Oui
Point 4 : (5, 4) d41 = Non, d42 = Oui
• Maintenant, nous calculons le nouveau centroïde comme suit :
C1 = (1, 1)
C2 = 1/3 ((2, 1) + (4, 3) + (5, 4)) = (3,67, 2,67)
Pour calculer le centroïde d'un cluster, utilisez un processus itératif dans lequel chaque point est examiné et vous
déterminez s'il appartient à un cluster spécifique. Ensuite, vous calculez le nouveau centre de gravité en
utilisant la moyenne de tous les points.

V11.2
Uvide
Comme vous le voyez, les nouveaux points en rouge sont les nouveaux centroïdes. Nous appliquons une autre itération pour trouver
un meilleur centroïde qui représente chaque cluster.

V11.2
Uvide

Itération 2 : •
Point 1 : (1, 1) d11 = Oui, d12 = Non • Point 2 : (2,

1) d21 = Oui, d22 = Non • Point 3 : (4, 3) d31 =
Non, d32 = Oui • Point 4 : (5, 4) d41 = Non, d42 =
Oui Maintenant, nous calculons le nouveau
centroïde comme suit : • C1 = 1/2 ((1, 1)+(2,1)) = (1,5, 1) •
C2 = 1/2 ((4, 3) + (5, 4)) = (4,5, 3,5)
Maintenant, nous examinons à nouveau chaque point par rapport au centre de gravité en utilisant la distance euclidienne et calculons
les nouveaux centres de gravité (C1 et C2).

V11.2
Uvide
Comme vous le voyez, les nouveaux centroïdes rouges représentent les centres des deux clusters. L'algorithme s'arrête
lorsque les centroïdes ne changent pas ou changent légèrement, ou si un nombre maximum d'itérations est défini.

V11.2
Uvide
1.3. Que sont les réseaux de neurones ?

V11.2
Uvide
Que sont les réseaux de neurones ?
Figure 150. Que sont les réseaux de neurones ?

V11.2
Uvide
Les sujets
Qu’estce que l’apprentissage automatique ?
Algorithmes d'apprentissage automatique Que
sont les réseaux de neurones ?
Qu’estce que l’apprentissage profond ?
Comment évaluer un modèle de machine learning ?

V11.2
Uvide
Les réseaux de neurones
• Modèles d'apprentissage automatique inspirés de la structure de l'être humain

cerveau.
• On estime que le cerveau humain compte 100 milliards de neurones, et

chaque neurone est connecté à jusqu'à 10 000 autres neurones.
Figure 152. Les réseaux de neurones
Les réseaux de neurones représentent un paradigme de traitement de l’information inspiré du cerveau humain.
Dans le cerveau, les neurones sont hautement connectés et communiquent des signaux chimiques via
les synapses (une jonction entre deux cellules nerveuses) entre les axones et les dendrites. On estime que le
cerveau humain compte 100 milliards de neurones, chaque neurone étant connecté à 10 000 autres neurones.
neurones.
La figure montre une représentation d'un réseau de neurones dans le cerveau.

V11.2
Uvide
Réseaux de neurones (suite)

• Les réseaux de neurones artificiels sont des ensembles de « neurones » interconnectés
(appelés nœuds) qui travaillent ensemble pour transformer les données d’entrée en données de sortie.
• Chaque nœud applique une transformation mathématique aux données qu'il

reçoit ; il transmet ensuite son résultat aux autres nœuds sur son chemin.
• Exemples d'applications :
Détection d'objets, suivi et analyse d'images et de vidéos
Traitement du langage naturel (par exemple, traduction automatique)

Voitures et robots autonomes
Figure 153. Réseaux de neurones (suite)
Les réseaux de neurones artificiels communiquent des signaux (des nombres) via des poids et des fonctions d'activation
qui activent les neurones. À l’aide d’un algorithme d’entraînement, ces réseaux ajustent ces poids pour résoudre un
problème.
Chaque nœud applique une transformation mathématique aux données qu'il reçoit ; il transmet ensuite son résultat aux autres
nœuds sur son chemin. Chaque connexion entre les nœuds représente un paramètre différent du modèle.
Un réseau de neurones est utile pour les tâches d'apprentissage automatique qui comportent trop de fonctionnalités (des millions).
Par exemple:
• Détection d'objets, suivi et analyse d'images et de vidéos à l'aide d'un système neuronal convolutif.
Réseau (CNN)
• Tâches de traitement du langage naturel telles que la reconnaissance vocale et la traduction automatique à l'aide d'un
réseau neuronal récurrent (RNN)
• Voitures et robots autonomes (réseaux de neurones plus complexes)

V11.2
Uvide
Réseaux de neurones (suite)

• Trois calques ou plus (un calque d'entrée, un ou plusieurs calques masqués et un
couche de sortie).
• Les modèles de réseaux neuronaux peuvent s'ajuster et apprendre à mesure que les données changent.
Figure 154. Réseaux de neurones (suite)
Un réseau de neurones est composé de trois couches ou plus : une couche d'entrée, une ou plusieurs couches cachées et
une couche de sortie. Les données sont importées via la couche d'entrée. Ensuite, les données sont modifiées dans les
couches cachées et en sortie en fonction des pondérations appliquées à leurs nœuds. Le réseau neuronal typique peut être
constitué de milliers, voire de millions de nœuds de traitement simples, densément interconnectés.

V11.2
Uvide
Perceptron
• Un modèle de neurone unique et créateur du réseau neuronal.
• Semblable à la classification linéaire, où chaque entrée a un poids.
• Un biais.
Figure 155. Perceptron
Un perceptron est un modèle de neurone unique à l’origine des réseaux de neurones. C’est similaire à la
régression linéaire. Chaque neurone a son propre biais et sa propre pente (poids). Par exemple, supposons
qu'un neurone ait deux entrées (X1 et X2), il nécessite donc trois poids (P1, P2 et P0 ). La figure de cette
diapositive montre un poids pour chaque entrée et un pour le biais.

V11.2
Uvide
Réseaux de neurones : rétropropagation

La rétropropagation est un algorithme de formation de réseaux de neurones comportant
plusieurs couches. Cela fonctionne en deux phases :
• Première phase : La propagation des entrées à travers un réseau de neurones jusqu'à la couche
finale (appelée feedforward).
• Deuxième phase : L'algorithme calcule une erreur. Une valeur d'erreur est ensuite calculée
en utilisant la sortie souhaitée et la sortie réelle pour chaque neurone de sortie du réseau.
La valeur d'erreur se propage vers l'arrière à travers les poids du réseau (en ajustant
les poids) en commençant par les neurones de sortie en passant par la couche cachée et
jusqu'à la couche d'entrée (en fonction de la contribution de l'erreur).
Figure 156. Réseaux de neurones : rétropropagation
La rétropropagation est un algorithme permettant de former des réseaux de neurones comportant plusieurs couches. Cela fonctionne en
deux phases :
• Propagation des entrées à travers un réseau de neurones jusqu'à la couche finale (appelée feedforward).
• L'algorithme calcule une erreur. Une valeur d'erreur est ensuite calculée en utilisant la sortie souhaitée et la sortie réelle
pour chaque neurone de sortie du réseau. La valeur d'erreur se propage vers l'arrière à travers les poids du réseau
(en ajustant les poids) en commençant par les neurones de sortie en passant par la couche cachée et jusqu'à la couche
d'entrée (en fonction de la contribution de l'erreur).
La rétropropagation continue d'être un aspect important de l'apprentissage des réseaux neuronaux. Avec des ressources
informatiques plus rapides et moins chères, il continue d’être appliqué à des réseaux plus vastes et plus denses.

V11.2
Uvide
1.4. Qu’estce que l’apprentissage profond ?

V11.2
Uvide
Qu’estce que l’apprentissage profond ?
Figure 157. Qu’estce que l’apprentissage profond ?
V11.2
Uvide
Les sujets


V11.2
Uvide
L'apprentissage en profondeur
• Semblable à un réseau neuronal traditionnel, mais il contient beaucoup plus de choses cachées
couches.
• L'apprentissage profond est apparu aujourd'hui pour les raisons suivantes :
Émergence du big data, qui nécessite une mise à l’échelle du traitement des données.
Amélioration de la puissance de traitement et utilisation des GPU pour entraîner les réseaux de
neurones.
Avancement dans les algorithmes comme l’unité linéaire rectifiée (ReLU).
Figure 159. L'apprentissage en profondeur
Le Deep Learning est une technique d’apprentissage automatique qui utilise les réseaux de neurones pour apprendre. Bien que
l’apprentissage profond soit similaire à un réseau neuronal traditionnel, il comporte de nombreuses autres couches cachées. Plus
le problème est complexe, plus le modèle comporte de couches cachées.
L’apprentissage profond est apparu aujourd’hui pour les raisons suivantes :
• L'augmentation continue du Big Data nécessite une mise à l'échelle du traitement des données pour analyser et utiliser ces données.
données correctement.
• Amélioration de la puissance de traitement et utilisation des GPU pour entraîner les réseaux de neurones.
• Les progrès des algorithmes tels que l'unité linéaire rectifiée (ReLU) au lieu de l'algorithme sigmoïde contribuent à accélérer la
convergence de la descente de gradient.

V11.2
Uvide
Apprentissage profond (suite)
Applications:
• Perceptron multicouche (MLP) : classification et régression, par exemple, une prévision du

prix de l'immobilier.
• Réseau neuronal convolutif (CNN) : pour le traitement d'images comme le visage

reconnaissance.
• Réseau neuronal récurrent (RNN) : pour les données d'entrée de séquence

unidimensionnelle. Comme l'audio et les langues.
• Réseau neuronal hybride : couvrant des réseaux neuronaux plus complexes, par
exemple, les voitures autonomes.
Figure 160. Apprentissage profond (suite)
Il existe différents types de réseaux de neurones. Chaque réseau est plus adapté à un type de problème d’apprentissage
automatique. Voici un aperçu de ces réseaux et de leurs applications :
• Perceptron multicouche (MLP) : classe de réseaux de neurones artificiels (ANN) à action directe. C'est
utile dans les problèmes de classification où les entrées se voient attribuer une classe. Cela fonctionne également dans les problèmes
de régression pour une quantité à valeur réelle comme une prévision du prix de l'immobilier.
• Réseau neuronal convolutif (CNN) : prend une entrée sous forme d'image. C'est utile pour les problèmes de
reconnaissance d'images comme la reconnaissance faciale.
• Réseau neuronal récurrent (RNN) : a une nature temporelle où l'entrée peut être une fonction dans le temps, comme les
fichiers audio. Il est également utilisé pour les données de séquence unidimensionnelles. Il convient aux entrées telles
que l'audio et les langues. Il peut être utilisé dans des applications telles que la reconnaissance vocale et la traduction
automatique.
• Réseau neuronal hybride : couvre des réseaux neuronaux plus complexes, par exemple les voitures autonomes.
qui nécessitent un traitement d'images et un travail à l'aide d'un radar.
Référence:
https://machinelearningmastery.com/whentousemlpcnnandrnnneuralnetworks/

V11.2
Uvide
1.5. Comment évaluer un modèle de machine learning ?

V11.2
Uvide
Comment évaluer un modèle de

machine learning ?
Figure 161. Comment évaluer un modèle de machine learning ?

V11.2
Uvide
Les sujets


V11.2
Uvide
Évaluation du modèle
• Le surajustement se produit lorsqu'un modèle d'apprentissage automatique peut s'adapter parfaitement à

l'ensemble de formation et échoue avec des données futures invisibles.
Raison : trop de fonctionnalités sont utilisées ou vous réutilisez des échantillons de formation lors
des tests.
Solution:
Moins de fonctionnalités
Plus de données
Validation croisée
Figure 163. Évaluation du modèle
Une fois que vous avez entraîné avec succès votre modèle, vous devez suivre une méthodologie pour évaluer les performances de
votre modèle d'apprentissage automatique. Une erreur classique consiste à utiliser les mêmes échantillons de données que
ceux utilisés dans la formation pour tester un modèle, ce qui produit un score faussement parfait. C'est ce qu'on appelle le
« surajustement » (également appelé « variance élevée »). Le problème du surajustement est que votre modèle ne parvient pas à
prédire les futures données invisibles.
Un autre cas pouvant provoquer un surajustement est celui où vous avez des données déséquilibrées. Par exemple, supposons que vous travaillez
sur un ensemble de données pour l’analyse du taux de désabonnement. Les clients qui ont abandonné représentent en réalité 2 % de votre ensemble
de données. L’utilisation de cet ensemble de données « tel quel » entraîne un surapprentissage.
L'objectif d'un bon modèle d'apprentissage automatique est de généraliser à tous les points de données futurs.
Un surajustement peut également se produire si vous utilisez trop de fonctionnalités. Relativement, si le nombre de
fonctionnalités est égal ou supérieur au nombre d’échantillons d’apprentissage, cela peut provoquer un surajustement. L'une
des solutions pour surmonter le surajustement consiste à augmenter le nombre d'échantillons d'ensembles de données
utilisés pour la formation par rapport aux fonctionnalités. Une autre solution consiste à diminuer manuellement le nombre de
fonctionnalités, mais cela peut entraîner la suppression d'informations utiles. Une autre solution consiste à effectuer une
sélection de modèle en utilisant la validation croisée.

V11.2
Uvide Les références:
https://www.coursera.org/lecture/machinelearning/theproblemofoverfittingACpTQ
https://en.oxforddictionaries.com/definition/overfitting
https://ai.stanford.edu/~ang/papers/cvfinal.pdf
https://www.youtube.com/watch?v=OSd30QGMl88

V11.2
Uvide
Évaluation du modèle (suite)
• Le sousajustement se produit lorsqu'un modèle d'apprentissage automatique ne peut pas s'adapter aux besoins.
données d’entraînement ou généraliser à de nouvelles données.
Raison : Le modèle utilise un estimateur simple.
Solution : ajoutez plus de fonctionnalités ou utilisez un estimateur différent
Figure 164. Évaluation du modèle (suite)
Le sousajustement (également appelé « biais élevé ») se produit lorsqu'un modèle d'apprentissage automatique ne peut pas s'adapter aux données
d'entraînement ou se généraliser à de nouvelles données.
Une raison possible pourrait être que le modèle utilise un estimateur simple. Par exemple, vous utilisez peutêtre un estimateur
linéaire, mais ce dont vous avez réellement besoin est un estimateur quadratique ou polynomial de degré supérieur pour
développer votre modèle comme dans le graphique « Ajustement correct ».
Une autre raison peut être que vous n'utilisez pas suffisamment de fonctionnalités, de sorte que votre estimateur ne parvient
pas à capturer la structure des données. Une solution possible serait d’ajouter plus de fonctionnalités et d’essayer un
autre estimateur.
Il existe d'autres méthodes utilisées pour aider à résoudre le surajustement et le sousajustement de votre modèle, telles que la
régularisation, mais ces méthodes dépassent le cadre de ce cours.
Les références:
https://en.oxforddictionaries.com/definition/overfitting
https://www.youtube.com/watch?v=OSd30QGMl88

V11.2
Uvide
Évaluation du modèle (suite)

• La validation croisée (CV) est un processus permettant d'évaluer un modèle en divisant l'ensemble de
données une ou plusieurs fois lors de la formation et des tests.
• Méthode d'exclusion : divise aléatoirement l'ensemble de données en un ensemble d'apprentissage et

ensemble d'essai.
• Validation croisée Kfold : divise les données en K souséchantillons où chaque souséchantillon a

une chance d'être l'ensemble de validation, et K1 est l'ensemble d'apprentissage.
• Laisser un de côté validation croisée (LOOCV) : similaire au pli en K, sauf qu'un souséchantillon
contenant un point de données est retenu et que le reste des données est utilisé pour la formation.
Figure 165. Évaluation du modèle (suite)
Il est courant, lors de l'application d'une tâche d'apprentissage automatique (supervisée), de conserver une partie des données
disponibles sous forme d'ensemble de test. Il existe différentes méthodes pour réaliser cette tâche :
• La validation croisée (CV) est un processus permettant d'évaluer un modèle d'apprentissage automatique en divisant un ensemble de
données une ou plusieurs fois pour entraîner et tester le modèle. L'ensemble de données peut être divisé en un ensemble de formation
pour entraîner le modèle et un ensemble de validation pour prétester le modèle. Sélectionnez le modèle qui présente le moins d'erreurs.
Enfin, il existe un ensemble de tests pour évaluer le modèle. Ainsi, l'ensemble de données peut être divisé en 60 % 20 % 20 % pour
les ensembles de formation, de validation et de test.
Une critique de ce processus est que la division de l'ensemble de données en trois parties réduit le nombre d'échantillons pouvant être
utilisés pour entraîner le modèle.
• La méthode d'exclusion divise l'ensemble de données en un ensemble majoritaire pour la formation et un ensemble minoritaire pour
les tests. La répartition entre l'ensemble de formation et l'ensemble de test est de 80 % à 20 % ou de 70 % à 30 %, sans règle fixe.

V11.2
Uvide
• La validation croisée Kfold divise les données de manière aléatoire en K souséchantillons de taille égale. Pour chaque
itération, un souséchantillon est conservé comme ensemble de validation et le reste des souséchantillons (K1) constitue
l'ensemble d'apprentissage. Les itérations sont répétées K fois, chaque souséchantillon ayant une chance d'être l'ensemble
de validation. Les résultats K peuvent ensuite être moyennés pour produire un modèle unique. Le plus grand avantage
de Kfold est que toutes les données sont modifiées pour être utilisées à la fois pour la formation et la validation. Il n'y a
pas de règle stricte pour le nombre K, mais il s'agit généralement de K=5 ou K=10, qui correspondent à
une validation croisée 5 fois ou à une validation croisée 10 fois. Pour chaque souséchantillon, vous conservez
approximativement le même pourcentage de données de chaque classe cible que dans l’ensemble complet, ce qui est
connu sous le nom de méthode Kfold stratifiée.
• Laisser un CV de côté (LOOCV) est similaire au pli K, mais dans ce cas, chaque point de données d'échantillon est
présenté comme un ensemble de validation, et le reste de l'ensemble de données est l'ensemble d'apprentissage. En
comparant LOOCV et Kfold, Kfold est plus rapide et nécessite moins de calculs, mais en termes de précision, LOO
CV a souvent une variance élevée en tant qu'estimateur.
Les références:
https://projecteuclid.org/download/pdfview_1/euclid.ssu/1268143839
http://scikitlearn.org/stable/modules/cross_validation.html
https://www.cs.cmu.edu/~schneide/tut5/node42.html

V11.2
Uvide
Résumé de l'unité
• Expliquer ce qu'est l'apprentissage automatique.
• Décrire ce que l'on entend par modèle statistique et algorithme.
• Décrire les données et les types de données.
• Décrire les types et les approches d'apprentissage automatique (supervisé,

Non supervisé et renforcement).
• Répertoriez différents algorithmes d'apprentissage automatique.
• Expliquer ce que sont les réseaux de neurones et l'apprentissage profond, et pourquoi ils le sont.
important dans le domaine de l’IA d’aujourd’hui.
• Décrire les composants d'apprentissage automatique.
• Répertoriez les étapes du processus de création d'applications d'apprentissage automatique.
• Expliquer ce qu'est l'adaptation de domaine et ses applications.
Figure 166. Résumé de l'unité


Chapitre 1 Introduction To Machine Learning 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 1 Introduction To Machine Learning 1

Transféré par

Droits d'auteur :

Formats disponibles

V11.

Unité 1. Introduction à l'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 1­1

• Décrire ce que l'on entend par modèle statistique et algorithme.

• Décrire les données et les types de données.

• Décrire les types et les approches d'apprentissage automatique (supervisé,

• Répertoriez différents algorithmes d'apprentissage automatique.

• Décrire les composants d'apprentissage automatique.

• Répertoriez les étapes du processus de création d'applications d'apprentissage automatique.

• Expliquer ce qu'est l'adaptation de domaine et ses applications.

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­1. Objectifs de l'unité

© Copyright IBM Corp. 2018, 2019 1­2

© Copyright IBM Corp. 2018, 2019 1­3

Qu’est­ce que l’apprentissage automatique ?

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­2. Qu’est­ce que l’apprentissage automatique ?

© Copyright IBM Corp. 2018, 2019 1­4

• Qu'est­ce que l'apprentissage

automatique ? • Algorithmes d'apprentissage

• Qu'est­ce que l'apprentissage

profond ? • Comment évaluer un modèle de machine learning ?

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­3. Les sujets

© Copyright IBM Corp. 2018, 2019 1­5

• Le processus d'apprentissage améliore le modèle de machine au fil du temps en utilisant

• Le modèle évolué est utilisé pour faire des prédictions futures.

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­4. Apprentissage automatique

© Copyright IBM Corp. 2018, 2019 1­6

Qu'est­ce qu'un modèle statistique

• Les nouvelles données « X » peuvent prédire la sortie « Y ».

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­5. Qu'est­ce qu'un modèle statistique

En revenant à la représentation mathématique du modèle permettant de prédire le taux de criminalité en fonction de la

Incidents de crimes violents par jour = Température moyenne × 2

© Copyright IBM Corp. 2018, 2019 1­7

© Copyright IBM Corp. 2018, 2019 1­8

Algorithmes d'apprentissage automatique

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­6. Algorithmes d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 1­9

• Qu'est­ce que l'apprentissage

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­7. Les sujets

© Copyright IBM Corp. 2018, 2019 1­10

Algorithmes d'apprentissage automatique

• L'algorithme d'apprentissage automatique est une technique grâce à laquelle le

• L'objectif est de faire apprendre au système une transformation entrée/sortie

• La qualité des données est essentielle à la précision de l'apprentissage automatique

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­8. Algorithmes d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 1­11

Approches d'apprentissage automatique

1) Apprentissage supervisé : entraînez­vous en utilisant des données étiquetées, et apprenez et

• La classification consiste à prédire une étiquette de classe discrète, telle que

• La régression consiste à prédire une quantité continue, telle que le « poids »,

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

Figure 1­9. Approches d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 1­12

Approches d’apprentissage automatique (suite)

• Algorithmes de clustering : découvrez comment diviser l'ensemble de données en un

Introduction à l'apprentissage automatique © Droits d'auteur IBM Corporation 2019

© Copyright IBM Corp. 2018, 2019 11

Figure 11. Objectifs de l'unité

© Copyright IBM Corp. 2018, 2019 12

© Copyright IBM Corp. 2018, 2019 13

Qu’estce que l’apprentissage automatique ?

Figure 12. Qu’estce que l’apprentissage automatique ?

© Copyright IBM Corp. 2018, 2019 14

• Qu'estce que l'apprentissage

• Qu'estce que l'apprentissage

Figure 13. Les sujets

© Copyright IBM Corp. 2018, 2019 15

Figure 14. Apprentissage automatique

© Copyright IBM Corp. 2018, 2019 16

Qu'estce qu'un modèle statistique

Figure 15. Qu'estce qu'un modèle statistique

© Copyright IBM Corp. 2018, 2019 17

© Copyright IBM Corp. 2018, 2019 18

Figure 16. Algorithmes d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 19

• Qu'estce que l'apprentissage

Figure 17. Les sujets

© Copyright IBM Corp. 2018, 2019 110

Figure 18. Algorithmes d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 111

1) Apprentissage supervisé : entraînezvous en utilisant des données étiquetées, et apprenez et

Figure 19. Approches d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 112

Figure 110. Approches d’apprentissage automatique (suite)

© Copyright IBM Corp. 2018, 2019 113

• Voici un exemple qui utilise le pseudoétiquetage :

Figure 111. Approches d’apprentissage automatique (suite)

© Copyright IBM Corp. 2018, 2019 114

Figure 112. Approches d’apprentissage automatique (suite)

© Copyright IBM Corp. 2018, 2019 115

• Clustering Kmeans (apprentissage non supervisé)

Figure 113. Algorithmes d'apprentissage automatique

© Copyright IBM Corp. 2018, 2019 116

Figure 114. Classification bayésienne naïve

© Copyright IBM Corp. 2018, 2019 117

Figure 115. Classification Bayes naïve (suite)

© Copyright IBM Corp. 2018, 2019 118

Figure 116. Classification Bayes naïve (suite)

© Copyright IBM Corp. 2018, 2019 119

Figure 117. Classification Bayes naïve (suite)

© Copyright IBM Corp. 2018, 2019 120