1 Generalites

Historique et Dénition
Approches d'apprentissage automatique

Méthodologie
Apprentissage automatique
Généralités
Gorgoumack SAMBE
Université Assane Seck de Ziguinchor
Version 1.0 - 2021
1/23 Gorgoumack SAMBE Apprentissage automatique

Méthodologie
Objectifs
Objectif général
Distinguer les dénitions et concepts de base de
l'apprentissage automatique.

Méthodologie
Objectifs
Objectif général
Distinguer les dénitions et concepts de base de
l'apprentissage automatique.
Objectifs spéciques
1 Distinguer et positionner l'apprentissage automatique par
rapport aux domaines connexes ;
2 Distinguer les diérentes approches d'apprentissage
automatique.
3 Appliquer une méthodologie de résolution de problème
d'apprentissage automatique ;

Plan
1 Historique et Dénition
2 Approches d'apprentissage automatique
3 Méthodologie
Plan
3 Méthodologie
Méthodologie
Historique
1952 : Samuel Checkers-playing Program

programme d'auto apprentissage du jeux de dame
1959 : Naissance du terme
50-60 : fortes promesses - manque de résultats

74-80/87-93 : Hivers de l'IA.
93- : Renouveau avec internet, puissance de calcul des
ordinateurs.

Méthodologie
Histoire fortement liées à celle de l'Intelligence Articielle
L'apprentissage automatique est un sous-domaine de l'intelligence
articielle (IA) qui se concentre sur la conception de systèmes qui
apprennent ou améliorent le rendement en fonction des données
qu'ils consomment.(https ://www.oracle.com)
Méthodologie
Domaine pluridisciplinaire
A la croisée de
Probabilités : étude des phénomènes aléatoires
Statistiques : étude des phénomènes à travers la collecte, le

traitement et l'analyse de données.
Extraction de connaissances (Dataming) : extraction de

connaissance à partir de grandes masses de données
Optimisation/recherche opérationnelle : modélisation et

résolution des problèmes de maximisation/minimisation, plus
court chemin, . . . .

Méthodologie
Applications
Systèmes de recommandations : suggestion de produits

dans le e-commerce (Amazon, . . . ), suggestion de lms sur la
VOD (Netix, . . . ), . . . ;
Détection d'anomalies : détection de spams, détection de
fraudes, . . . ;
Scoring : évaluation d'un individu (client/prospect) par
rapport à diérents critères ;
Traitement automatique du langage (TAL), agents
conversationnels (chat bots), reconnaissance vocale ;
Reconnaissance de motifs ;
Conduite autonome (voiture/avion/. . . ) ;
Diagnostic médical ;
...
Méthodologie
Domaines connexes
Data science (science des données) : approche

pluri-disciplinaire pour l'extraction de connaissances à partir
de données hétérogènes [Cleveland, 2001, Abiteboul et al.,
2014].
Intelligence articielle : Simulation de l'intelligence humaine
Représentation des connaissances, systèmes experts, calcul
formel, raisonnement . . .
Big data (Données massives) : 4V (volume, variété, vélocité,
véracité) et éléments de solutions issus du stockage/calcul
distribué [Leskovec et al., 2014].
Statistiques, Datamining.

Plan
3 Méthodologie
Méthodologie
Approches
4 approches 1 :
1 approche supervisée
1 problèmes de classication
2 problèmes de régression
2 approche non supervisée
3 approche semi-supervisée
4 approche par renforcement
1. https ://ichi.pro/fr/classication-des-modeles-d-apprentissage-
automatique-101468035093087
Méthodologie
1 - Approche supervisée
Données étiquetées

Méthodologie
1 - Approche supervisée
Données étiquetées
1 problème de classication : étiquette de classe

exemples : Détection de spams.
2 problème de régression : valeur continue.
exemples : prédiction de la moyenne d'étudiants.

Méthodologie
2 - Approche non supervisée
Données non étiquetées
Exemples : segmentation d'images, segmentation de clientèle

Méthodologie
3 - Approche semi-supervisée
Une partie des données est étiquetée
Exemples : segmentation d'images, segmentation de clientèle

Méthodologie
4 - Approche par renforcement
Agent apprenant par expérience dans le temps

basé sur un système de récompense/punition.
Exemples : conduite autonome, jeux . . .

Plan
3 Méthodologie
Méthodologie
Le processus d'apprentissage automatique
Étape du cycle de vie d'exploration de données.

Plusieurs méthodes (framework) : CRISP-DM, Oracle data
science lifecycle, the data science process (Harvard
CS109) 2 , . . .

Méthodologie
Le processus d'apprentissage automatique
Étape du cycle de vie d'exploration de données.

Plusieurs méthodes (framework) : CRISP-DM, Oracle data
science lifecycle, the data science process (Harvard
CS109) 2 , . . .

Méthodologie
Les phases de l'apprentissage automatique
1 choix d'un modèle

Bonne connaissance des données (exploration)
Bonne connaissance des modèles.
2 phase d'apprentissage
Données d'entraînement : 60 % à 90 % des données
Bonne connaissance des algorithmes d'apprentissage
3 phase de validation
Données de validation : 10 à 40 % des données
Bonne connaissance des estimateurs.

Méthodologie
Choix entre plusieurs modèles
1 phase d'apprentissage
Données d'entraînement : 50 % en général.
Apprentissage de plusieurs modèles.
2 phase de validation
Données de validation : 25 % en général.
Test des diérents modèles ⇒ choix du "meilleur modèle".
3 phase de test
Données de test : 25 % en général.
Test du modèle choisi.

Méthodologie
Validation
1 Validation croisée
Partitionnement des données en k parties Dk
Pour tout k :
Apprentissage sur ∪(l6=k) Dk .
validation sur Dk .
Évaluation par la moyenne des performances.
leave-one-out : si k =1
2 Bootstrap
Utilisation de b échantillons (D1 , . . . , Db ) de taille n (taille de
D ).
Di : tirage de n éléments de D avec remplacement.

Méthodologie
Critères de performances
Classication
1 Matrice de confusion
classe réelle
1 (P) 0 (N)
Classe 1 vrais positifs (TP) faux positifs (FP)
prédite 0 faux négatifs (FN) vrais négatifs (TN)
2 Critères dérivés
Exactitude 3 : accuracy = TP+TN
P+N .
Taux d'erreur 4 : error = FP+FN
P+N = 1 − accuracy .
Rappel ( taux de vrais positifs) : Rappel = TP+FN
5 TP
.
Spécicité (taux de vrais négatifs) : Spécicité= TN+FP
TN
.
Précision : Precision = TP+FP .
6 TP
3. accuracy rate
4. error rate
5. sensitivity
6. adjoint au rappel et/ou la spécicité
Méthodologie
Exemple
Dépistage du cancer
1 Matrice de confusion
classe réelle Total
cancer pas de cancer
Classe cancer 190 (TP) 210 (FP) 400
prédite pas de cancer 10 (FN) 3590 (TN) 3600
Total 200 3800 4000
2 Critères dérivés
190+3590
Exactitude : accuracy = TP+TN
P+N = 4000 = 94, 5%.
Taux d'erreur : error = P+N = 1 − accuracy = 5, 5%.
FP+FN
Rappel : Rappel = TP+FN

TP
= 190
200 = 95%.
Spécicité : Spécicité= TN+FP = 3590
TN
3800 = 94, 47%.
Précision : Precision = TP+FP
TP
= 190
400 = 47, 5%.

Méthodologie
Critères de performances
Prédiction
y1 , . . . , yn étiquettes réelles, y10 , . . . , yn0 les prédictions.

1 Fonctions de pertes (loss function) :
Erreur quadratique moyenne (MSE 7 ) :
MSE = 1n Σni=1 (yi − yi0 )2 .
Racine de l'Erreur quadratique moyenne (RMSE 8 ) :

1 Σn
q
RMSE = n i=1 (yi − yi0 )2 .
même unité que la cible.
Erreur quadratique relative (RSE 9 )

Σni=1 (yi −yi0 )2
. avec y = 1n Σni=1 yi
Σni=1 (yi −y )2
complémentaire à un du coecient de détermination.
...
7. Mean squared error
8. Root Mean squared error
9. Relative squared error

1 Generalites

Transféré par

Droits d'auteur :

Formats disponibles

Vous aimerez peut-être aussi

1 Generalites

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 Generalites

Transféré par

Droits d'auteur :

Formats disponibles

Historique et Dénition

Approches d'apprentissage automatique

Université Assane Seck de Ziguinchor

Version 1.0 - 2021

1/23 Gorgoumack SAMBE Apprentissage automatique

2/23 Gorgoumack SAMBE Apprentissage automatique

2/23 Gorgoumack SAMBE Apprentissage automatique

2 Approches d'apprentissage automatique

2 Approches d'apprentissage automatique

1952 : Samuel Checkers-playing Program

50-60 : fortes promesses - manque de résultats

5/23 Gorgoumack SAMBE Apprentissage automatique

Histoire fortement liées à celle de l'Intelligence Articielle

Probabilités : étude des phénomènes aléatoires

Statistiques : étude des phénomènes à travers la collecte, le

Extraction de connaissances (Dataming) : extraction de

Optimisation/recherche opérationnelle : modélisation et

7/23 Gorgoumack SAMBE Apprentissage automatique

Systèmes de recommandations : suggestion de produits

Data science (science des données) : approche

9/23 Gorgoumack SAMBE Apprentissage automatique

2 Approches d'apprentissage automatique

12/23 Gorgoumack SAMBE Apprentissage automatique

1 problème de classication : étiquette de classe

12/23 Gorgoumack SAMBE Apprentissage automatique

2 - Approche non supervisée

Données non étiquetées

Exemples : segmentation d'images, segmentation de clientèle

13/23 Gorgoumack SAMBE Apprentissage automatique

Une partie des données est étiquetée

Exemples : segmentation d'images, segmentation de clientèle

14/23 Gorgoumack SAMBE Apprentissage automatique

4 - Approche par renforcement

Agent apprenant par expérience dans le temps

Exemples : conduite autonome, jeux . . .

15/23 Gorgoumack SAMBE Apprentissage automatique

2 Approches d'apprentissage automatique

Le processus d'apprentissage automatique

Étape du cycle de vie d'exploration de données.

17/23 Gorgoumack SAMBE Apprentissage automatique

Le processus d'apprentissage automatique

Étape du cycle de vie d'exploration de données.

17/23 Gorgoumack SAMBE Apprentissage automatique

Les phases de l'apprentissage automatique

1 choix d'un modèle

18/23 Gorgoumack SAMBE Apprentissage automatique

Choix entre plusieurs modèles

19/23 Gorgoumack SAMBE Apprentissage automatique

20/23 Gorgoumack SAMBE Apprentissage automatique

Rappel : Rappel = TP+FN

22/23 Gorgoumack SAMBE Apprentissage automatique

y1 , . . . , yn étiquettes réelles, y10 , . . . , yn0 les prédictions.

Racine de l'Erreur quadratique moyenne (RMSE 8 ) :

Erreur quadratique relative (RSE 9 )

Vous aimerez peut-être aussi

Historique et Dénition

Histoire fortement liées à celle de l'Intelligence Articielle

1 problème de classication : étiquette de classe