Vous êtes sur la page 1sur 9

Quelle est la différence entre l'apprentissage

automatique supervisé et non supervisé?

Crédit d'image: Depositphotos


Cet article fait partie de Demystifying AI , une série de publications
qui (tentent de) lever l'ambiguïté du jargon et des mythes entourant
l'IA.
L'apprentissage automatique , le sous-ensemble de l'intelligence
artificielle qui enseigne aux ordinateurs à effectuer des tâches à
travers des exemples et de l'expérience, est un domaine brûlant de
la recherche et du développement. De nombreuses applications que
nous utilisons quotidiennement utilisent des algorithmes
d'apprentissage automatique, notamment des assistants d'IA, des
recherches sur le Web et la traduction automatique.
Votre fil d'actualité sur les réseaux sociaux est alimenté par un
algorithme d'apprentissage automatique. Les vidéos recommandées
que vous voyez sur YouTube et Netflix sont le résultat d'un modèle
d'apprentissage automatique. Et Discover Weekly de Spotify
s'appuie sur la puissance des algorithmes d'apprentissage
automatique pour créer une liste de chansons conformes à vos
préférences.
Mais l'apprentissage automatique se décline en de nombreuses
saveurs différentes. Dans cet article, nous explorerons
l'apprentissage supervisé et non supervisé, les deux principales
catégories d'algorithmes d'apprentissage automatique. Chaque
sous-ensemble est composé de nombreux algorithmes différents qui
conviennent à diverses tâches.

Une note très rapide sur l'apprentissage automatique


Avant de plonger dans l'apprentissage supervisé et non supervisé,
examinons en zoom arrière ce qu'est l'apprentissage automatique.
Dans leur forme la plus simple, les systèmes d'IA d'aujourd'hui
transforment les entrées en sorties. Par exemple, un classificateur
d'images prend des images ou des trames vidéo en entrée et produit
le type d'objets contenus dans l'image. Un algorithme de détection
de fraude prend les données de paiement en entrée et délivre la
probabilité que la transaction soit frauduleuse. Une IA jouant aux
échecs prend l'état actuel de l'échiquier comme entrée et sort le
coup suivant.
Les approches classiques du développement de systèmes
d'intelligence, connues sous le nom d'intelligence artificielle
symbolique , obligeaient les programmeurs à spécifier explicitement
les règles qui mappaient les entrées aux sorties. Bien que l'IA
symbolique présente de nombreux avantages, elle a une utilisation
limitée dans des domaines où l'entrée peut prendre de nombreuses
formes diverses telles que la vision par ordinateur , la reconnaissance
vocale et le traitement du langage naturel .
En revanche, l'apprentissage automatique utilise une approche
différente pour développer un comportement. Lors de la création
d'un système ML, le développeur crée une structure générale et la
forme sur de nombreux exemples. Ces exemples peuvent être des
images avec leurs images correspondantes, des données de jeu
d'échecs, des articles achetés par les clients, des chansons écoutées
par les utilisateurs ou toute autre donnée pertinente pour le
problème que le modèle d'IA veut résoudre. Après avoir analysé les
données d'entraînement, l'algorithme d'apprentissage automatique
ajuste ses paramètres internes pour pouvoir traiter de nouvelles
données d'entrée.
Enseignement supervisé

La régression logistique est un type d'algorithme d'apprentissage


automatique supervisé qui peut classer les entrées en différentes
classes
Si vous suivez l'actualité de l'intelligence artificielle, vous avez
probablement entendu dire que les algorithmes d'IA ont besoin de
beaucoup d'exemples étiquetés par l'homme . Ces histoires font
référence à l'apprentissage supervisé, la catégorie la plus populaire
d'algorithmes d'apprentissage automatique.
L'apprentissage automatique supervisé s'applique aux situations
dans lesquelles vous connaissez le résultat de vos données
d'entrée. Supposons que vous souhaitiez créer un algorithme
d'apprentissage automatique de classification d'images capable de
détecter des images de chats, de chiens et de chevaux.
Pour entraîner le modèle IA, vous devez rassembler un grand
ensemble de données de photos de chats, de chiens et de
chevaux. Mais avant de les envoyer à l'algorithme d'apprentissage
automatique, vous devez les annoter avec le nom de leurs classes
respectives. L'annotation peut inclure le placement des images de
chaque classe dans un dossier séparé, l'utilisation d'une convention
de dénomination de fichier ou l'ajout de métadonnées au fichier
image. C'est la tâche manuelle laborieuse qui est souvent
mentionnée dans les histoires qui mentionnent les ateliers de misère
de l'IA .
Une fois les données étiquetées, l'algorithme d'apprentissage
automatique (par exemple un réseau neuronal convolutif ou une
machine à vecteurs de support) traite les exemples et développe un
modèle mathématique qui peut mapper chaque image à sa classe
correcte. Si le modèle d'IA est formé sur suffisamment d'exemples
étiquetés, il sera en mesure de détecter avec précision la classe des
nouvelles images contenant des chats, des chiens, des chevaux.
L'apprentissage automatique supervisé résout deux types de
problèmes: la classification et la régression. L'exemple expliqué ci-
dessus est un problème de classification, dans lequel le modèle
d'apprentissage automatique doit placer les entrées dans des
compartiments ou des catégories spécifiques. Un autre exemple de
problème de classification est la reconnaissance vocale.
Les modèles d'apprentissage automatique de régression ne sont pas
limités à des catégories spécifiques. Ils peuvent avoir des valeurs
continues et infinies, telles que combien un client paiera pour un
produit ou la probabilité qu'il pleuve demain.
Certains algorithmes d'apprentissage supervisé courants sont les
suivants:
• Régression linéaire et logistique
• Bayes naïves
• Soutenir les machines vectorielles
• Arbres de décision et forêts aléatoires
• Réseaux de neurones artificiels
Apprentissage non supervisé

Les algorithmes d'apprentissage automatique non supervisés


peuvent diviser les données en clusters en fonction de leurs
fonctionnalités partagées
Supposons que vous soyez propriétaire d'une entreprise de vente au
détail en ligne qui possède des milliers d'enregistrements de ventes
clients. Vous souhaitez savoir quels clients ont des habitudes d'achat
partagées afin de pouvoir utiliser ces informations pour leur faire des
recommandations pertinentes et améliorer votre politique de vente
incitative. Le problème est que vous n'avez pas de catégories
prédéfinies dans lesquelles diviser vos clients. Par conséquent, vous
ne pouvez pas former un modèle d'apprentissage automatique
supervisé pour classer vos clients.
Il s'agit d'un problème de clustering, la principale utilisation de
l'apprentissage automatique non supervisé. Contrairement à
l'apprentissage supervisé, l'apprentissage automatique non
supervisé ne nécessite pas de données étiquetées. Il parcourt les
exemples de formation et les divise en groupes en fonction de leurs
caractéristiques communes.
Un algorithme d'apprentissage automatique non supervisé bien
formé divisera vos clients en clusters pertinents. Cela vous aidera à
prédire les produits que les clients achèteront en fonction de leurs
préférences partagées avec d'autres personnes de leur cluster.
K-means est un algorithme d'apprentissage automatique de
clustering non supervisé bien connu. L'un des défis de l'utilisation de
k-means est de savoir en combien de clusters diviser vos
données. Trop peu de données emballeront des données qui ne sont
pas très similaires, tandis que trop de clusters ne feront que rendre
votre modèle complexe et inexact.
Outre le regroupement, l'apprentissage non supervisé peut
également réduire la dimensionnalité. Vous pouvez utiliser la
réduction de dimensionnalité lorsque vous avez un jeu de données
avec trop d'entités. Supposons que vous ayez un tableau
d'informations sur vos clients, qui comporte 100 colonnes. Avoir
autant de données sur vos clients peut sembler intéressant. Mais en
réalité, ce n'est pas le cas.
Au fur et à mesure que le nombre de fonctionnalités dans vos
données augmente, vous aurez également besoin d'un plus grand
ensemble d'échantillons pour former un modèle d'apprentissage
automatique précis. Vous n'avez peut-être pas suffisamment
d'échantillons pour entraîner un modèle à 100 colonnes. Trop de
fonctionnalités augmentent également les risques de surajustement,
ce qui signifie en fait que votre modèle d'IA fonctionne bien sur les
données d'entraînement mais mal sur d'autres données.
Les algorithmes d'apprentissage automatique non supervisés
peuvent analyser les données et trouver les fonctionnalités les moins
pertinentes et peuvent être supprimées pour simplifier le modèle
sans perdre de précieuses informations. Par exemple, dans le cas de
notre table client, après l'avoir exécutée via l'algorithme de réduction
de dimensionnalité, nous pourrions découvrir que les fonctionnalités
liées à l'âge et à l'adresse du domicile du client ont très peu de
pertinence et nous pouvons les supprimer.
L'analyse des composants principaux (ACP) est un algorithme
d'apprentissage automatique de réduction de dimensionnalité
populaire.
Certains analystes de sécurité utilisent également l'apprentissage
automatique non supervisé pour la détection des anomalies afin
d'identifier les activités malveillantes dans le réseau d'une
organisation.
L'un des avantages de l'apprentissage non supervisé est qu'il ne
nécessite pas le processus laborieux d'étiquetage des données que
l'apprentissage supervisé doit suivre. Cependant, le compromis est
que l'évaluation de l'efficacité de ses performances est également
très difficile. En revanche, il est très facile de mesurer la précision des
algorithmes d'apprentissage supervisé en comparant leur sortie aux
étiquettes réelles de leurs données de test.

Vous aimerez peut-être aussi