Académique Documents
Professionnel Documents
Culture Documents
com
V11.2
Exercice 1. Appliquer des algorithmes d'apprentissage automatique
EXvide
Temps estimé
01:00
Aperçu
Savoir comment sélectionner l'algorithme d'apprentissage automatique approprié pour un cas d'utilisation donné est une
compétence importante dont vous avez besoin pour résoudre des problèmes réels. Cet exercice fournit les concepts de base que
vous devez comprendre pour appliquer quatre algorithmes d'apprentissage automatique populaires :
• K-means clustering
• Classificateur naïf de Bayes
• Régression linéaire
• Arbre de décision
Objectifs
Après avoir terminé cet exercice, vous devriez être en mesure de :
• Déterminer les centroïdes d'un ensemble de données avec l'algorithme de clustering K-means
Introduction
• Le clustering K-means est une technique d'apprentissage automatique non supervisée. L'objectif principal de
l'algorithme est de regrouper les observations de données en k clusters ; chaque observation appartient au cluster
avec la moyenne la plus proche.
• Les classificateurs naïfs de Bayes sont une famille de classificateurs simplesclassificateurs probabilistes basé sur
l'application Théorème de Bayes avec naïfindépendance hypothèses entre les caractéristiques des données.
• La régression linéaire est l'un des algorithmes de régression populaires. Il aide les analystes à modéliser les relations
entre les variables d'entrée X et l'étiquette de sortie Y en fonction d'un ensemble de points de données
d'apprentissage. Cet algorithme cible les problèmes de régression supervisée, où la variable cible est une valeur
continue.
• Un arbre de décision est un algorithme qui construit un modèle sous forme d'arborescence. Il ressemble à un organigramme et il
est facile à interpréter. Il décompose un ensemble de données en sous-ensembles de plus en plus petits
EXvide
tout en construisant l'arbre de décision associé. L'arbre de décision est essentiellement constitué de trois entités
principales, à savoir le nœud racine, les nœuds de décision et les feuilles.
Indice
Pour réaliser cet exercice, vous pouvez utiliser une calculatrice scientifique en ligne qui fournit des fonctions
mathématiques de base et avancées telles que WEB 2.0 CALChttps://web2.0calc.com/
Exigences
Aucune exigence particulière, uniquement du papier et un stylo.
EXvide
Consignes d'exercice
Dans cet exercice, vous effectuerez les tâches suivantes :
__ 1. Déterminez les centroïdes d'un ensemble de données avec l'algorithme de clustering K-means.
Partie 1: Détermination des centroïdes d'un ensemble de données avec l'algorithme de clustering
K-means
Dans cette partie, vous allez calculer les centres (également appelés centroïdes) pour un ensemble de données non étiqueté
(anonymes) en utilisant l'algorithme de clustering K-means. Il existe de nombreux cas d'utilisation pratiques du clustering K-
means; exemples sont :
• Segmentation de la clientèle
Le clustering aide les spécialistes du marketing à améliorer leur clientèle, à travailler sur des zones cibles et à segmenter
les clients en fonction de l'historique des achats, des intérêts ou du suivi des activités. La classification des clients peut
aider les entreprises à cibler des groupes spécifiques de clients pour des campagnes spécifiques.
Introduction
Cette section fournit des informations d'introduction dont vous avez besoin pour résoudre ce problème.
Pour calculer le centroïde d'un cluster, un processus itératif est utilisé par lequel chaque point est examiné et il
est déterminé s'il appartient à un cluster spécifique. Ensuite, le nouveau centre de gravité est calculé en utilisant
la moyenne de tous les points avec l'équation suivante :
Notation:
EXvide
Vous catégoriserez les points de l'ensemble de données dans la figure suivante entre deux clusters (K=2) en
appliquant l'algorithme de clustering K-means.
Comme point de départ, supposonsau hasard deux points quelconques comme centroïdes initiaux. Supposons que vous ayez sélectionné les
deux points suivants :
Groupe 1 = C1 = (2, 2)
Groupe 2 = C2 = (3, 1).
Vous classerez chaque point d'échantillonnage comme appartenant à un cluster particulier et vous mettrez à jour le
centre du cluster sur seulement deux itérations. Cette approche maintient le processus simple et plus facile à
comprendre. Dans un problème réel, l'ensemble de données comprendrait un grand nombre de points et il faudrait
plusieurs itérations pour catégoriser les points et déterminer le centroïde.
Itération 1
__ 1. Pour chaque point, calculez le barycentre auquel il appartient ; cela dépend de la distance
entre le centroïde et le point calculé en utilisant la distance euclidienne.
EXvide
Point 1 :(2, 2) → d11 = Oui, d12 = Non
Cela signifie que le point1 (2,2) appartient à C1 et non à C2 car il est plus proche de C1.
__ 2. Ensuite, calculez les nouveaux centroïdes en déplaçant les centroïdes qui ont été initialement choisis au
hasard au centre de chaque cluster.
EXvide
Itération 2
Maintenant c'est ton tour. Suivez un processus similaire à l'itération 1 pour effectuer l'itération 2 et déplacer les centres
de cluster.
Quelles sont les nouvelles valeurs de C1 et C2 après l'itération 2 ? Tracez-les dans le graphique.
Il existe de nombreux cas d'utilisation pratiques du classificateur Naïve Bayes; exemples sont :
Introduction
Cette section fournit des informations d'introduction dont vous avez besoin pour résoudre le problème suivant :
Appliquez le classificateur Naïve Bayes à l'ensemble de données du tableau suivant pour prédire si un objet est une
pomme. Les caractéristiques de l'objet sont : couleur = Rouge, forme = Cylindre et diamètre = 10 CM de diamètre.
Le processus que vous suivrez pour déterminer si l'objet est une pomme comprend les étapes suivantes :
1. Définissez deux classes, CY et CN, correspondant respectivement à Pomme = Oui et Pomme = Non.
EXvide
3. Calculez la probabilité pour CN étant donné les attributs x de l'échantillon : p(CN | x)
4. Déterminez quelle probabilité conditionnelle est la plus grande. Utilisez le théorème de Naïve Bayes pour calculer la
probabilité conditionnelle avec la formule suivante :
Si p(CY |x) > p(CN |x) alors l'objet est une pomme.
Naïve Bayes suppose que les caractéristiques (également appelées attributs) des données d'entrée sont indépendantes.
Par conséquent, vous pouvez écrire p(x|CY) sous la forme :
p(x|CY) = p(Couleur = Rouge | Pomme = Oui) p(Forme = Cylindre | Pomme = Oui) p(Diamètre => 10 CM |
Pomme = Oui)
p(x| CN) = p(Couleur = Rouge | Pomme = Non) p(Forme = Cylindre | Pomme = Non) p(Diamètre => 10 CM |
Pomme = Non)
Résoudre le problème
__ 1. Calculer la probabilité conditionnelle. Remplissez les blancs en utilisant les données du tableau 1 Exemple de
caractéristiques d'objet.
Du tableau, cinq objets ne sont pas des pommes et deux d'entre eux sont rouges.
p(Pomme = Non) = …
__ 2. À l'aide des calculs effectués à l'étape précédente, multipliez les termes suivants :
EXvide
p(Couleur = Rouge | Pomme = Oui) * p(Forme = Cylindre | Pomme = Oui) * p(Diamètre => 10 cm |
Pomme = Oui) = …
p(Couleur = Rouge | Pomme = Non) * p(Forme = Cylindre | Pomme = Non) * p(Diamètre = > 10 cm | Pomme
= Non) =
Note
Pour gagner du temps, il est recommandé aux élèves de travailler surPartie 3, "Appliquer la régression linéaire à un
ensemble de données simple (facultatif)" etPartie 4, "Construire un arbre de décision pour prédire si un athlète est en
forme (facultatif)" comme devoirs par eux-mêmes et ils discutent des résultats avec l'instructeur le jour 2.
La régression linéaire est le modèle le plus simple et le plus largement utilisé pour l'apprentissage supervisé avec des
objectifs continus. Il donne une fonction de prédiction linéaire qui est particulièrement facile à interpréter et à utiliser dans la
notation des observations.
La régression est une technique qui affiche la relation entre une variable « y » basée sur les valeurs d'une
variable « x ». La régression linéaire est utilisée pour trouver la relation entre les variables dépendantes et
indépendantes.
La régression linéaire est une technique statistique très puissante et peut être utilisée pour générer des informations sur le
comportement des consommateurs, comprendre les entreprises et les facteurs influençant la rentabilité. Par exemple:
• Analyser l'efficacité marketing, les prix et les promotions sur les ventes d'un produit
• Prévoir les ventes en analysant les ventes mensuelles de l'entreprise au cours des dernières années
• Prédire les prix des maisons avec l'augmentation de la taille des maisons
• Calculer les relations causales entre les paramètres dans les systèmes biologiques
En appliquant des techniques de régression linéaire, vous pouvez tracer une ligne à une distance optimale de tous les points. Pour
tracer cette ligne, calculez l'erreur de manière itérative jusqu'à ce que vous atteigniez la meilleure ligne avec le minimum
EXvide
valeur d'erreur, c'est-à-dire la distance minimale entre la ligne et tous les points. L'erreur représente la
distance agrégée entre les points de données et la ligne cible.
Introduction
Cette section fournit des informations d'introduction dont vous avez besoin pour résoudre le problème.
Attention
Dans cet exercice, la représentation du modèle de régression linéaire pour ce problème sera :
hp(Xje) = p0 + p1 * X
Notation:
• i est le numéro d'un échantillon ou d'un point de données dans les échantillons de l'ensemble de données.
• p0s'appelle le biais. p0est également appelée l'interception car elle détermine l'endroit où la ligne
intercepte l'axe y.
• p1est appelée la pente car elle définit la pente de la ligne ou la façon dont x est corrélé à la valeur y
avant d'ajouter le biais.
• L'algorithme de descente de gradient pour obtenirnouveau les poids donnésvieux poids est calculé avec la
formule suivante :
p0=p0– α * erreurmin
De même, pour p1
p1=p1– α * erreurmin
EXvide
• Une seule caractéristique (une dimension), c'est-à-dire la valeur de j = 1.
• L'ensemble de données est représenté dans le tableau suivant où x représente l'entrée et Y représente la
sortie.
X Oui
1 2
2 1
4 5
• L'initialisation pour p0=p1= 0. Et donc hp(Xje) = 0, puisque hp(Xje) = p0+p1* X. Utilisez la descente de gradient
pour calculer de nouvelles valeurs pour p0et P1.
Itération 1
__ 2. Calculer p0
__ 3. Calculez l'erreur pour l'itération 1. Remplacez les valeurs dans la fonction de coût :
Itération 2
__ 1. Utiliser les valeurs calculées à l'itération 1 pour p0et P1pour calculer les nouvelles valeurs de p0et P1
EXvide
__ 2. Calculez l'erreur pour l'itération 2.
__ 4. Étape facultative :Vous pouvez utiliser leRégression linéaire feuille comme indiqué dans la figure suivante
pour ajuster les poids initiaux et le taux d'apprentissage (en bleu) et voir comment l'erreur change.
Partie 4 : Construire un arbre de décision pour prédire si un athlète est en forme (facultatif)
Decision Tree est un algorithme de classification qui tente de résoudre le problème en utilisant une représentation
arborescente. Chaque nœud interne de l'arbre correspond à un attribut, et chaque nœud feuille correspond à une
étiquette de classe.
Les arbres de décision sont une méthode de prédiction populaire. Les arbres de décision peuvent expliquer pourquoi une
prédiction spécifique a été faite en parcourant l'arbre.
• Construire des plates-formes de gestion des connaissances pour le service client qui améliorent la résolution
du premier appel, le temps de traitement moyen et les taux de satisfaction client.
• En finance, prévoir les résultats futurs et attribuer des probabilités à ces résultats.
• Prédire la volonté des clients d'acheter un produit donné dans un environnement donné, par exemple, en ligne ou dans
un magasin physique.
Introduction
Cette section fournit des informations d'introduction dont vous avez besoin pour résoudre le problème.
Dans cet exercice, vous construirez un arbre de décision à partir d'un ensemble de données pour décider si un joueur est apte. Pour
comprendre le processus, examinons un exemple différent, pour décider si c'est une bonne journée pour jouer au tennis en fonction des
conditions météorologiques.
• Gain d'information : il s'agit d'une métrique qui définit la quantité d'informations qu'une fonctionnalité fournit sur une classe.
L'ensemble de données est divisé en différentes caractéristiques (ou attributs) pour construire l'arbre. La fonction avec le gain
d'informations le plus élevé est utilisée pour la première division.
EXvide
• Entropie : C'est une métrique qui est utilisée pour calculer le gain d'information comme suit :
Jouer au tennis
Oui Non
4 6
Jouer au tennis
La formule suivante calcule l'entropie pour jouer au tennis lorsqu'il y a du vent (venteux = Oui), en ne prenant en
considération que la fréquence de jouer au tennis lorsqu'il y a du vent.
EXvide
=970-0.965127
= 0,004873.
Vous comprenez maintenant comment calculer l'entropie et le gain. Vous pouvez passer à la section suivante pour construire un
arbre de décision à partir d'un ensemble de données afin de décider si un joueur est apte.
Les données du tableau suivant décrivent huit joueurs de football s'entraînant pour un match à venir. Chaque
joueur a trois caractéristiques ou attributs, et chaque joueur est apte ou non. La colonne IsFit représente
l'étiquette des données. Trouvez l'arbre de décision correspondant.
Itération 1
Calculez le gain pour chaque fonctionnalité afin de spécifier le nœud racine dans l'arbre de décision :
__ 1. Gain (IsFit , Pratique) = Entropie (IsFit) – (4/8) Entropie (Pratique = Modéré) – (2/8)
Entropie (Pratique = Bon) - (2/8) Entropie (Pratique = Non)
__ d. Entropy(Practice = No) = 0 (Essayez de le calculer, mais comme vous pouvez le voir dans le tableau,
lorsque Practice = No , IsFit est toujours No).
EXvide
Gain (IsFit, IsMotivated)=1 – (5/8) × 0,7219 – 0 = 0,5488
__ 3. Gain(IsFit, Abid_Dietary) = Entropy(IsFit) – (3/8) Entropy(Abid_Dietary = Yes) – (5/8)
Entropie (Abid_Dietary = Non)
Gain(IsFit, Abid_Dietary)=
Puisque Gain(IsFit, IsMotivated) est le plus grand, alors le nœud racine est IsMotivated.
Itération 2
Pour compléter l'arborescence, calculez le gain des autres fonctionnalités pour l'ensemble de données lorsque IsMotivated = Yes.
EXvide
Fin d'exercice
EXvide
Bilan de l'exercice et synthèse
Dans cet exercice, vous avez appliqué quatre algorithmes d'apprentissage automatique pour résoudre des problèmes simples et utilisé de petits
ensembles de données.
Vous avez appris à calculer des centroïdes dans des clusters K-means comme exemple d'apprentissage non
supervisé. Vous avez implémenté la classification supervisée à l'aide de Naïve Bayes. Vous avez résolu une
régression avec régression linéaire et finalement construit un arbre de décision.
Vous avez effectué tous les calculs manuellement pour comprendre le processus requis pour appliquer ces algorithmes à
des problèmes et à un ensemble de données très simples.