Académique Documents
Professionnel Documents
Culture Documents
Learning
Master AFM
Cours
Quiz
Travaux pratiques
Commencer un premier
projet de Machine Learning
Appliquer l’apprentissage
non supervisé
Appliquer l’apprentissage
supervisé
Intelligence artificielle
AIMachine Learning
Deep Apprentissage
automatique
Learning Apprentissage profond IA
Initiation au Machine Learning 4
Intelligence Machine Deep Learning
Artificielle Learning Réseaux de neurones avec
méthodes statistiques qui de nombreuses couches qui
toute technique permettant permettent aux machines apprennent les
aux machines d'imiter « d'apprendre » des tâches à représentations et les
l'intelligence humaine partir de données sans tâches directement à partir
programmation explicite des données
Le Machine Learning est explicitement lié au Big Data, étant donné que pour
apprendre et se développer, les ordinateurs ont besoin de flux de données à
analyser, sur lesquelles s’entraîner.
Entrainement Prédiction 6
Plus de données, plus de questions, de meilleures
réponses
• La reconnaissance faciale
Lancer !
Approche
traditionnelle 🙂
Etudier le
Définir les règles Evaluation
problème
☹
Analyser les
erreurs
Approche Machine
Learning Lancer !
Données
🙂
Etudier le Apprentissage Evaluer la
problème automatique solution
☹
Analyser les
erreurs
L'objectif de l'apprentissage automatique supervisé est de Utiliser l'apprentissage supervisé pour prédire les
construire un modèle qui effectue des prédictions basées sur
des preuves en présence d'incertitude. Un algorithme crises cardiaques
d'apprentissage supervisé prend un jeu connu de données
Supposons que les cliniciens veuillent prédire si quelqu'un aura
d'entrée et de réponses connues aux données (sortie) et
une crise cardiaque d'ici un an. Ils ont des données sur les
entraîne un modèle pour générer des prédictions
patients précédents, y compris l'âge, le poids, la taille et la
raisonnables pour la réponse aux nouvelles données.
tension artérielle. Ils savent si les patients précédents ont eu des
crises cardiaques dans l'année. Le problème est donc de
L'apprentissage supervisé utilise des techniques de
combiner les données existantes dans un modèle qui peut
classification et de régression pour développer des modèles
prédire si une nouvelle personne aura une crise cardiaque d'ici
prédictifs.
un an.
• Les techniques de classification prédisent des réponses discrètes, par
exemple, si un e-mail est authentique ou un spam, ou si une
tumeur est cancéreuse ou bénigne. Les modèles de
classification classent les données d'entrée en catégories. Les
applications typiques incluent l'imagerie médicale, la
reconnaissance vocale et la notation de crédit.
• Parmi ces dossiers, 1427 seront acceptés (soit 64,8%) et 774 seront
refusés (soit 35,2%). La variable explicative qui sépare le mieux les
dossiers acceptés (notre variable cible) des autres dossiers est l’âge du
client. Ainsi, chez 942 clients âgés entre 18 et 42 ans (42,8% de la totalité
des clients), le taux d’acceptation de crédit atteint 77,9% (soit 734
clients) alors que chez les 33 clients âgés de 63 ans et +, le taux
d’acceptation de crédit n’est que de 12,1%. La meilleure séparation de la
population des clients âgés entre 18 et 42 ans (Nœud 1) se fait en
fonction du revenu. Vous le voyez, les 459 clients ayant un revenu net
annuel supérieur à 55K euros ont un taux d’acceptation de crédit de
89,5%.
• Chez les clients âgés entre 43 ans et 62 ans, c’est le sexe qui est la
variable la plus explicative de l’acceptation d’un crédit. Ainsi, chez les
femmes, le taux d’acceptation d’un crédit est de 62,1% contre 48,4% pour
les hommes de cette même tranche d’âge.
• L'objet mnist contient deux entrées principales, data et target. On peut les
afficher :
• data contient les images sous forme de tableaux de 28 x 28 = 784 couleurs de pixel
en niveau de gris, c'est-à-dire que la couleur de chaque pixel est représentée par un
nombre entre 0 et 16 qui représente si celle-ci est proche du noir ou pas (0 = blanc,
16 = noir).
• target qui contient les annotations (de 1 à 9) correspondant à la valeur "lue" du
chiffre
• Nous séparons le jeu de données en training set et testing set, on a appelé les
images d'exemple "X" et les annotations cibles "y" :
• On peut créer un premier classifieur 3-NN, c'est-à-dire qui prend en compte les 3
plus proches voisins pour la classification. Pour cela, on va utiliser l'implémentation
de l'algorithme qui existe dans la librairie scikit-learn :
• l'algorithme ici n'effectue aucune optimisation mais va juste sauvegarder toutes les
données en mémoire. C'est sa manière d'apprendre en quelque sorte.
• Testons à présent l’erreur de notre classifieur. La méthode score effectue
exactement ça, tester les performances de prédiction d'un classifieur, il renvoie ainsi
le pourcentage de prédiction véridique trouvée par le classifieur.
• Comme on peut le voir, le k-NN le plus performant est celui pour lequel k = 4. On
connaît donc notre classifieur final optimal : 4-NN. Ce qui veut dire que c'est celui qui
classifie le mieux les données, et qui donc dans ce cas précis reconnaît au mieux les
nombres écrits à la main.
• À titre d'exemple, vous pouvez afficher les prédictions du classifieur sur quelques
données