Cet article fait partie de Demystifying AI , une série de publications qui (tentent de) lever l'ambiguïté du jargon et des mythes entourant l'IA. L'apprentissage automatique , le sous-ensemble de l'intelligence artificielle qui enseigne aux ordinateurs à effectuer des tâches à travers des exemples et de l'expérience, est un domaine brûlant de la recherche et du développement. De nombreuses applications que nous utilisons quotidiennement utilisent des algorithmes d'apprentissage automatique, notamment des assistants d'IA, des recherches sur le Web et la traduction automatique. Votre fil d'actualité sur les réseaux sociaux est alimenté par un algorithme d'apprentissage automatique. Les vidéos recommandées que vous voyez sur YouTube et Netflix sont le résultat d'un modèle d'apprentissage automatique. Et Discover Weekly de Spotify s'appuie sur la puissance des algorithmes d'apprentissage automatique pour créer une liste de chansons conformes à vos préférences. Mais l'apprentissage automatique se décline en de nombreuses saveurs différentes. Dans cet article, nous explorerons l'apprentissage supervisé et non supervisé, les deux principales catégories d'algorithmes d'apprentissage automatique. Chaque sous-ensemble est composé de nombreux algorithmes différents qui conviennent à diverses tâches.
Une note très rapide sur l'apprentissage automatique
Avant de plonger dans l'apprentissage supervisé et non supervisé, examinons en zoom arrière ce qu'est l'apprentissage automatique. Dans leur forme la plus simple, les systèmes d'IA d'aujourd'hui transforment les entrées en sorties. Par exemple, un classificateur d'images prend des images ou des trames vidéo en entrée et produit le type d'objets contenus dans l'image. Un algorithme de détection de fraude prend les données de paiement en entrée et délivre la probabilité que la transaction soit frauduleuse. Une IA jouant aux échecs prend l'état actuel de l'échiquier comme entrée et sort le coup suivant. Les approches classiques du développement de systèmes d'intelligence, connues sous le nom d'intelligence artificielle symbolique , obligeaient les programmeurs à spécifier explicitement les règles qui mappaient les entrées aux sorties. Bien que l'IA symbolique présente de nombreux avantages, elle a une utilisation limitée dans des domaines où l'entrée peut prendre de nombreuses formes diverses telles que la vision par ordinateur , la reconnaissance vocale et le traitement du langage naturel . En revanche, l'apprentissage automatique utilise une approche différente pour développer un comportement. Lors de la création d'un système ML, le développeur crée une structure générale et la forme sur de nombreux exemples. Ces exemples peuvent être des images avec leurs images correspondantes, des données de jeu d'échecs, des articles achetés par les clients, des chansons écoutées par les utilisateurs ou toute autre donnée pertinente pour le problème que le modèle d'IA veut résoudre. Après avoir analysé les données d'entraînement, l'algorithme d'apprentissage automatique ajuste ses paramètres internes pour pouvoir traiter de nouvelles données d'entrée. Enseignement supervisé
La régression logistique est un type d'algorithme d'apprentissage
automatique supervisé qui peut classer les entrées en différentes classes Si vous suivez l'actualité de l'intelligence artificielle, vous avez probablement entendu dire que les algorithmes d'IA ont besoin de beaucoup d'exemples étiquetés par l'homme . Ces histoires font référence à l'apprentissage supervisé, la catégorie la plus populaire d'algorithmes d'apprentissage automatique. L'apprentissage automatique supervisé s'applique aux situations dans lesquelles vous connaissez le résultat de vos données d'entrée. Supposons que vous souhaitiez créer un algorithme d'apprentissage automatique de classification d'images capable de détecter des images de chats, de chiens et de chevaux. Pour entraîner le modèle IA, vous devez rassembler un grand ensemble de données de photos de chats, de chiens et de chevaux. Mais avant de les envoyer à l'algorithme d'apprentissage automatique, vous devez les annoter avec le nom de leurs classes respectives. L'annotation peut inclure le placement des images de chaque classe dans un dossier séparé, l'utilisation d'une convention de dénomination de fichier ou l'ajout de métadonnées au fichier image. C'est la tâche manuelle laborieuse qui est souvent mentionnée dans les histoires qui mentionnent les ateliers de misère de l'IA . Une fois les données étiquetées, l'algorithme d'apprentissage automatique (par exemple un réseau neuronal convolutif ou une machine à vecteurs de support) traite les exemples et développe un modèle mathématique qui peut mapper chaque image à sa classe correcte. Si le modèle d'IA est formé sur suffisamment d'exemples étiquetés, il sera en mesure de détecter avec précision la classe des nouvelles images contenant des chats, des chiens, des chevaux. L'apprentissage automatique supervisé résout deux types de problèmes: la classification et la régression. L'exemple expliqué ci- dessus est un problème de classification, dans lequel le modèle d'apprentissage automatique doit placer les entrées dans des compartiments ou des catégories spécifiques. Un autre exemple de problème de classification est la reconnaissance vocale. Les modèles d'apprentissage automatique de régression ne sont pas limités à des catégories spécifiques. Ils peuvent avoir des valeurs continues et infinies, telles que combien un client paiera pour un produit ou la probabilité qu'il pleuve demain. Certains algorithmes d'apprentissage supervisé courants sont les suivants: • Régression linéaire et logistique • Bayes naïves • Soutenir les machines vectorielles • Arbres de décision et forêts aléatoires • Réseaux de neurones artificiels Apprentissage non supervisé
Les algorithmes d'apprentissage automatique non supervisés
peuvent diviser les données en clusters en fonction de leurs fonctionnalités partagées Supposons que vous soyez propriétaire d'une entreprise de vente au détail en ligne qui possède des milliers d'enregistrements de ventes clients. Vous souhaitez savoir quels clients ont des habitudes d'achat partagées afin de pouvoir utiliser ces informations pour leur faire des recommandations pertinentes et améliorer votre politique de vente incitative. Le problème est que vous n'avez pas de catégories prédéfinies dans lesquelles diviser vos clients. Par conséquent, vous ne pouvez pas former un modèle d'apprentissage automatique supervisé pour classer vos clients. Il s'agit d'un problème de clustering, la principale utilisation de l'apprentissage automatique non supervisé. Contrairement à l'apprentissage supervisé, l'apprentissage automatique non supervisé ne nécessite pas de données étiquetées. Il parcourt les exemples de formation et les divise en groupes en fonction de leurs caractéristiques communes. Un algorithme d'apprentissage automatique non supervisé bien formé divisera vos clients en clusters pertinents. Cela vous aidera à prédire les produits que les clients achèteront en fonction de leurs préférences partagées avec d'autres personnes de leur cluster. K-means est un algorithme d'apprentissage automatique de clustering non supervisé bien connu. L'un des défis de l'utilisation de k-means est de savoir en combien de clusters diviser vos données. Trop peu de données emballeront des données qui ne sont pas très similaires, tandis que trop de clusters ne feront que rendre votre modèle complexe et inexact. Outre le regroupement, l'apprentissage non supervisé peut également réduire la dimensionnalité. Vous pouvez utiliser la réduction de dimensionnalité lorsque vous avez un jeu de données avec trop d'entités. Supposons que vous ayez un tableau d'informations sur vos clients, qui comporte 100 colonnes. Avoir autant de données sur vos clients peut sembler intéressant. Mais en réalité, ce n'est pas le cas. Au fur et à mesure que le nombre de fonctionnalités dans vos données augmente, vous aurez également besoin d'un plus grand ensemble d'échantillons pour former un modèle d'apprentissage automatique précis. Vous n'avez peut-être pas suffisamment d'échantillons pour entraîner un modèle à 100 colonnes. Trop de fonctionnalités augmentent également les risques de surajustement, ce qui signifie en fait que votre modèle d'IA fonctionne bien sur les données d'entraînement mais mal sur d'autres données. Les algorithmes d'apprentissage automatique non supervisés peuvent analyser les données et trouver les fonctionnalités les moins pertinentes et peuvent être supprimées pour simplifier le modèle sans perdre de précieuses informations. Par exemple, dans le cas de notre table client, après l'avoir exécutée via l'algorithme de réduction de dimensionnalité, nous pourrions découvrir que les fonctionnalités liées à l'âge et à l'adresse du domicile du client ont très peu de pertinence et nous pouvons les supprimer. L'analyse des composants principaux (ACP) est un algorithme d'apprentissage automatique de réduction de dimensionnalité populaire. Certains analystes de sécurité utilisent également l'apprentissage automatique non supervisé pour la détection des anomalies afin d'identifier les activités malveillantes dans le réseau d'une organisation. L'un des avantages de l'apprentissage non supervisé est qu'il ne nécessite pas le processus laborieux d'étiquetage des données que l'apprentissage supervisé doit suivre. Cependant, le compromis est que l'évaluation de l'efficacité de ses performances est également très difficile. En revanche, il est très facile de mesurer la précision des algorithmes d'apprentissage supervisé en comparant leur sortie aux étiquettes réelles de leurs données de test.