TVL - Cours IA - Apprentissage Automatique - Machine Learning

Pourquoi l’apprentissage automatique ?
L’apprentissage automatique consiste à utiliser des ordinateurs pour

optimiser un modèle de traitement de l’information selon certains
critères de performance à partir d’observations, que ce soit des
données-exemples ou des expériences passées.
Lorsque l’on connaı̂t le bon modèle de traitement à utiliser, pas
besoin de faire de l’apprentissage !
L’apprentissage automatique peut être utile lorsque :
◮ On n’a pas d’expertise sur le problème (p. ex. robot navigant sur Mars)
◮ On a une expertise, mais on ne sait pas comment l’expliquer (p. ex.
reconnaissance de visages)
◮ Les solutions au problème changent dans le temps (p. ex. routage de
paquets)
◮ Les solutions doivent être personalisées (p. ex. biométrie)
Exemple
Une entreprise en crédit doit estimer automatiquement le niveau de

risque de ses clients
Mesures disponibles : revenus du client (variable x1 ) et épargnes du
client (variable x2 )
Banque de données sur des clients pré-identifiés comme étant haut
risque (rouge) ou à faible risque (vert)
Exemple
0.55
Haut risque
0.50 Faible risque
0.45
0.40
Epargnes
0.35
0.30
0.25
0.20
0.15
0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55
Revenus
Si x1 > 0.32 et x2 > 0.27 alors faible risque sinon haut risque
Modèle et observations
Objectif : inférer un modèle de traitement général à partir

d’observations spécifiques
◮ Le modèle inféré doit être une approximation correcte et utile des
observations
Les observations sont peu coûteuses et disponibles en quantité
suffisantes ; la connaissance est coûteuse et rare
Exemple en forage de données : relier des transactions de
consommateurs à leurs comportements de consommation
◮ Suggestions d’items similaires sur Amazon (livre, musique), Netflix
(cinéma), etc.
Vues de l’apprentissage automatique
Optimiser un modèle à partir d’observations selon un critère de

performance
Vue statistique : inférence à partir d’échantillons
Vue informatique : construire des algorithmes et des représentations
efficaces pour construire et évaluer les modèles
Vue ingénierie : résoudre des problèmes sans devoir spécifier ou
spécialiser les modèles
Apprentissage d’associations
Analyse d’un panier d’épicerie

◮ P(Y |X ) est la probabilité qu’une personne achetant X achète
également Y , où X et Y sont des produits ou services
Exemple : P(croustilles|biere) = 0.7
Apprentissage supervisé
Apprentissage supervisé
◮ Objectif : apprendre une projection entre des observations X en entrée
et des valeurs associées Y en sortie
Modèlisation mathématique
◮ y = h(x|θ)
◮ h(·) : fonction générale du modèle
◮ θ : paramètres du modèle
Schématisation de l’apprentissage supervisé
xi ri
Observations Professeur
+
Système
h(xi )
supervisé -
Σ
e(xi )
Classification
Y est discret et correspond à des étiquettes de classes
h(·) est une fonction discriminante
0.55
Haut risque
0.50 Faible risque
0.45
0.40
Epargnes
0.35
0.30
0.25
0.20
0.15
0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55
Revenus
Applications de la classification
Reconnaissance des formes

◮ Reconnaissance de visages : reconnaı̂tre les personnes malgré les
variations (pose, éclairage, lunettes, maquillage, coiffure)
◮ Reconnaissance de caractères manuscrits : reconnaı̂tre malgré différents
styles d’écriture
◮ Reconnaissance de la parole : dépendance temporelle de l’information,
utiliser des dictionnaires de mots/structures valides
Aide au diagnostic médical : déterminer les problèmes médicaux à
partir des symptômes
Extraction de connaissances : expliquer par des règles simples des
masses de données
Compression : représenter par des modèles compacts les données
Détection d’irrégularités : identifier des fraudes, des intrusions
Reconnaissance de visages
Tiré de la banque de visages ORL, http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

Reconnaissance de caractères
Tiré de Y. LeCun, L. Bottou, Y. Bengio and P. Haffner, Gradient-Based Learning Applied to Document Recognition,
Proceedings of the IEEE, 86(11) :2278-2324, Novembre 1998.
Régression
Y est une valeur réelle
h(·) est la fonction de régression
Exemple : prédiction du prix de
vente d’une voiture usagée à
partir du kilométrage parcouru
◮ Observations : kilométrage
parcourue (x)
y: price
◮ Prédiction : prix de vente (y )

Applications en prédiction de
valeurs
◮ Économie
◮ Météorologie x: milage
Applications en contrôle de Tiré de E. Alpaydin, Introduction to Machine Learning,

haut-niveau 2e édition, MIT Press, 2010.
◮ Volant de voiture (CMU

NavLab)
◮ Articulations de bras robotisés
Apprentissage non-supervisé
Contrairement à l’apprentissage supervisé, il n’y a pas de valeurs de

sortie
Objectif : découvrir des régularités dans les observations
◮ Clustering : découvrir des groupements d’observations similaires
Applications
◮ Segmenter les consommateurs dans les bases de données d’achats
◮ Compression d’images : réduire le nombres de couleurs utilisées
◮ Bio-informatique : découvrir des patrons dans l’ADN
Schématisation de l’apprentissage non-supervisé
xi Système non-
h(xi )
Observations supervisé
Mesure
e(xi ) d'appariement
Apprentissage par renforcement
Apprendre une politique : séquences d’actions

L’apprentissage n’est pas supervisé, mais une récompense avec un
délais est obtenue
Problème d’assignation du crédit : quelles actions ont permis
d’obtenir la récompense ?
Applications
◮ Jeux, avec un ou plusieurs participants
◮ Robotique : navigation dans un environnement
◮ Agents : prises de décision
Schématisation de l’apprentissage par renforcement
Agent
État
st Récompense Action
rt at
rt+1
Environnement
st+1
Banques de données (ressources)
UCI Machine Learning Repository :

http://archive.ics.uci.edu/ml/
Statlib : http://lib.stat.cmu.edu
MNIST Database of handwritten digits :
http://yann.lecun.com/exdb/mnist
Revues scientifiques (ressources)
Journal of Machine Learning Research :

http://jmlr.csail.mit.edu
Machine Learning : http:
//www.springer.com/computer/artificial/journal/10994
IEEE Transactions on Pattern Analysis and Machine Intelligence :
http://www2.computer.org/portal/web/tpami/
Pattern Recognition : http://www.elsevier.com/locate/pr
Neurocomputing : http://www.elsevier.com/locate/neucom
Conférences scientifiques (ressources)
International Conference on Machine Learning (ICML)

Neural Information Processing Systems (NIPS)
European Conference on Machine Learning (ECML)
International Joint Conference on Artificial Intelligence (IJCAI)
Uncertainty in Artificial Intelligence (UAI)
International Conference on Pattern Recognition (ICPR)
Introduction aux systèmes à apprentissage
Qu’est-ce que l’apprentissage ?
• Mémoriser quelque chose
• Apprendre des faits au travers d’observations et d’explorations
• Amélioration sensori-motrice et/ou amélioration de ses connaissances

par la pratique
• Organiser de nouvelles connaissances en un tout cohérent
Définition. Un système est capable d’apprentissage s’il est doté d’un

mécanisme d’adaptation permettant d’améliorer l’accomplissement d’une
certaine tâche par répétition de celle-ci.

Qu’est-ce que l’apprentissage ?
Définition. Un système est capable d’apprentissage s’il est doté d’un

mécanisme d’adaptation permettant d’améliorer l’accomplissement d’une
certaine tâche par répétition de celle-ci.
Entrées (capteurs) Sorties (Actionneurs)
Système
Mécanisme
d’adaptation
Mesure de performance vis à vis

de la tâche à accomplir
2
Qu’est-ce que l’apprentissage ? - Induction et causalité
Un type d’apprentissage très courant est l’acquisition d’informations dans

le but de faire des prédictions concernant le futur (prévisions).
Principe de sens commun. La répétition d’un même événement dans des

circonstances identiques, nous conforte dans l’idée que cet événement se
reproduira lorsque ces mêmes circonstances seront réalisées.
Chaque fois que l’on a constaté une hausse de la pression atmosphérique, cela
s’est accompagné du beau temps.
Conclusion : la prochaine fois que je constaterai une hausse de pression
atmosphérique je pourrai conclure à l’apparition du beau temps.
On retrouve cette idée que l’on apprend quelque chose de la répétition.
Croyance en la régularité des phénomènes : les mêmes causes

produisent les mêmes effets

Apprentissage et recherche d ’une fonction
Etant donné un ensemble d’exemples entrée/sortie, trouver une fonction

permettant de représenter au mieux la relation entrée/sortie.
- Prononciation : fonction liant les lettres aux sons.

- Lecture de caractères manuscrits : fonction liant un ensemble de pixels
aux lettres.
- Diagnostic : fonction liant les symptômes aux causes
Le problème de l’apprentissage d’une fonction implique 3 aspects :
- La mémorisation (base d ’apprentissage).
- La moyennisation (recherche des régularités).
- La généralisation (capacité à fournir la bonne réponse pour de nouveaux

exemples).
3
Différents types d ’apprentissage
Apprentissage supervisé (Supervised learning). Etant donné un ensemble

d’exemples entrée/sortie, trouver une règle (une loi) permettant de prédire
la sortie associée à une nouvelle entrée.
- Régression
- Classification
Apprentissage non supervisé (Unsupervised learning). Etant donné un

ensemble d ’exemples non étiquetés (on ne connaît pas la sortie), grouper ces
exemples par paquets (clusters) « cohérents ».
- Clustering
Apprentissage par renforcement (reinforcement learning). Le système

interagit avec son environnement en exécutant des actions à partir
d ’observations. En fonction des actions réalisées, le système est puni ou
récompensé; il doit apprendre à choisir les actions permettant de récolter le
plus grand nombre de récompenses.
Apprentissage supervisé - Régression

Sommaire
· Position du problème
· Régression au sens des moindres carrés

- Algorithme LMS (méthode en ligne )
- Formule des moindres carrés simples
- Interprétation probabiliste
· Le problème du surajustement ! régularisation

- Interprétation probabiliste de la régularisation
· Quelques autres méthodes

- Régression L1
- Régression par noyau (kernel regression)
- Régression linéaire localement pondérée
4
Position du problème
Etant donné un ensemble d’exemples entrée/sortie : ( xi , yi ) i "1, ,N
xi # R n : xiT " [ xi ,1 xi , 2 ! xi ,n ], yi # R , i " 1, ,N
on souhaite prédire yN+1 pour la nouvelle donnée xN+1 : yˆ N $1 " f ( x N $1 , w)

Avec f ( . , w) : Fonction de régression à choisir et à paramétrer (calcul de w).

Régression linéaire (par rapport aux données et aux paramètres)
On souhaite estimer yn+1 à l’aide d’une fonction linéaire des données :
yˆ N $1 " f ( x N $1 , w) " w0 $ w1 x N $1,1 $ ! $ wn x N $1,n " x N $1w

T
x N $1 " [1 x N $1,1 x N $1, 2 ! x N $1,n ], w " %w0 w2 ! wn &

T T
w1
Pb : Calculer le vecteur des paramètres w permettant de réaliser au

mieux l’estimation.
Régression linéaire Régression linéaire
80 80
60 60
40 40
20 20
y y
0 0
-20 -20
-40 -40
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
x x
5
Régression linéaire optimale au sens des moindres carrés
Régression linéaire
80
60 Erreur (résidu)
Obs y
y ' yˆ
40
Coût à minimiser :
yˆ " x w
T
20
1 N
0
J ( w) " (
2 i "1
( yi ' xiT w) 2
-20
-40
0 1 2 3 4 5 6 7 8 9
x

Méthode temps réel - Algorithme LMS
1 N N
J ( w) " ( i i
2 i "1
( y ' x T
w) 2
" (
i "1
J i (W )
Méthode du gradient
. / +
w k $1 " w k ' 0 , J ( w) )
- /w * w" wk
/ N
/ / 1 /
J ( w) " ( J i ( w) et J i ( w) " ( yi ' xiT w) 2
/w i "1 /w /w 2 /w
" '( yi ' xi w) xi
T
Algorithme LMS
k $1
" w $ 0 ( y k ' xk w ) xk
k T k
w
6
Méthode des moindres carrés simple
1 N
J ( w) " (
2 i "1
( yi ' xi w)
T 2
1 2 1
" y ' Xw 2 " ( y ' Xw) ( y ' Xw)
T
2 2
1
" ( y T y ' 2 y T Xw $ wT X T Xw)
2
/
J ( w) " ' X T y $ X T Xw ! w " ( X T X ) '1 X T y
/w
6 x1T 3 6 y1 3
4 T1 4y 1
x
X # R : X " 4 2 1,
N 7n
y#R : y " 4 2 1
N
4" 1 4 " 1
4 T1 4 1
54 x N 21 5 yN 2

Régression non linéaire par rapport aux données - Exemple
polynome de gré :2
80
yˆ i " w0 $ w1 xi $ w2 xi " X i w
2 T
60
613 6 w0 3
40 X i " 4 xi 1, w " 44 w1 11
4 1
45 xi2 12 45 w2 12
20
y
0
Remarque : La fonction de
-20
régression demeure linéaire par
rapport aux paramètres.
-40
0 1 2 3 4 5 6 7 8 9
x
7
Régression non linéaire par rapport aux données
Etant donné un ensemble d’exemples entrée/sortie : ( xi , yi ) i "1, ,N
xi # R n : xiT " [ xi ,1 xi , 2 ! xi ,n ], yi # R , i " 1, ,N
Soit : X i " %1 f 2 ( xi ) ! f d ( xi )&

T
f1 ( xi )
Par exemple : X " 1 xi ,1
T
i % xi , 2
2
xi ,1
2
xi , 2 xi ,1 xi , 2 &
6 X 1T 3 6 y1 3
4 T1 4y 1
X
Soit : X # R N 7d : X " 4 2 1, y # R N : y " 4 2 1
4 " 1 4 " 1
4 T1 4 1
45 X N 12 5 yN 2
Le vecteur paramètre qui minimise y ' Xw 2 , s'écrit : w " ( X T X ) '1 X T y
2
Prédiction : yˆ N $1 " X N $1w

T

Interprétation probabiliste des MCS
Vraisembla nce
yˆ " X i w
T
N
. 1 +
L( w) " 8 exp, ' ( y ' X iT w) 2 )
i "1 - 29 2
*
. 1 N
2+
y xi ~ N ( X i w, 9 )
T 2
" exp, '
- 29
2 ((y ' X
i "1
T
i w) )
*
1 . ( y ' X iT w) 2 +
N ( X i w, 9 ) " exp,, ' )
T 2
2: 9 29 2 )
- *
0
0
xi
Recherche de w au sens du maximum de vraisemblance = recherche de
w au sens des moindres carrés :
wopt " arg max L ( w) " arg min J ( w)
w w
8
Le problème du sur-ajustement : régularisation
polynome de gré :10
100
50
-50
-100
-150
0 1 2 3 4 5 6 7 8 9
x
Le problème du sur-ajustement (sur-apprentissage) ne permet pas de généraliser

Le problème du sur-ajustement : régularisation
polynome de gré :10 a ve c ré gula ris a tion

80
60
1 2 2
40 Minimiser : y ' Xw 2 $ ; w 2
2
y 20 Avec ; petit, la solution s ’écrit :
'1
w " (X X $ ;I) X y
0 T T
-20
-40
0 1 2 3 4 5 6 7 8 9
x
9
Interprétation probabiliste de la régularisation
1 . ( y ' X iT w) 2 +
y xi ~ N ( X w, 9 ) " exp,, ' )
T 2
vraisemblance : i
2: 9 29 2 )
- *
92 1 . ;w 2 +
Information a priori : w ~ N (0, )" exp,, ' )
2 )
; 2: 9 - 29 *
p ( w, x1 , , xn )
On veut maximiser l ’information a posteriori : p ( w x1 , , xn ) "
p ( x1 , , xn )
< p ( w, x1 , , xn )
. ; 2+
N
. ; +
p ( w, x1 , , x N ) " exp, ' w 2 )8 exp, ' ( y ' X T w) 2 )
- 29 * i "1 - 29 *
6 2 . ; N
+3
w 2 $ ( ( y ' X T w) 2 )1
2
" exp 4' ,'
5 29 - 29 i "1 *2

Sensibilité des MCS - Robustesse
N
Ji
J ( w) " ( ( yi ' X w)
T 2
i
i "1
N
" ( Ji yi
i "1 T
X wi
/J i
/yi
Sensibilité par rapport aux yi yi

T
X w
i
10
Régression L1 - Moindres valeurs absolues (MVA)
Ji N
J ' ( w) " ( yi ' X i w
' T
Ji
i "1
N
" ( J 'i
yi i "1
T
Xi w
Résolution d’un problème d’optimisation
linéaire (programmation linéaire)
Sensibilité par rapport aux yi
@ N
/J i =w, c "[ c1!c N ] ( ci
'
min
/yi = i "1
?
= yi ' X i w A ci i " 1,
T
yi ,N
T
X w
i
=> X iT w ' yi A ci i " 1, ,N

Régression L1 - Moindres valeurs absolues (MVA)
30 30
y y
MVA MVA
25
25
20
20
15
15
MCS
10 MCS
10
5
5
0
x x
0 -5
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
11
Régression par noyau (Kernel regression)
Méthode de régression non paramétrique : nécessite de disposer
en permanence de la base de données
S igma 2 =1
30
y
25
N
20
( y k(x ' x )
i i
15 yˆ ( x ) " i "1
N
10
( k(x ' x )
i "1
i
x
0
0 1 2 3 4 5 6 7 8 9
. ( x ' xi ) 2 +
,' )
, 29 2 )
- *
k ( x ' xi ) " e

Régression par noyau (Kernel regression)
S igma 2 =0.01
30
y
25
20
15
10
x
0
0 1 2 3 4 5 6 7 8 9
12
Régression linéaire localement pondérée (Locally weighted linear regression (LWR))
Méthode de régression non paramétrique : nécessite de disposer
en permanence de la base de données
S igma 2 =1
30
y
25
Pour un point donné
x on minimise le critère :
20 N
J ( w, x) " ( k ( x ' xi )( yi ' X i w)
T
15 i "1
10
5
wopt ( x ) " arg min J ( w, x )
w
x
0
0 1 2 3 4 5 6 7 8 9
. ( x ' xi ) 2
,'
, 29 2
+
)
)
yˆ ( x) " X T wopt ( x )
- *
k ( x ' xi ) " e

Régression linéaire localement pondérée (Locally weighted linear regression (LWR))
S igma 2 =0.02
30
y
25
20
15
10
x
0
0 1 2 3 4 5 6 7 8 9
13
Apprentissage supervisé - Classification
Sommaire
· Classification probabiliste
- Exemple introductif : le sélecteur aléatoire
- Classification bayesienne optimale
- Notion de rejet en classification
- Paramétrage du classifieur : le cas gaussien
· Classification neuronale
· Classification floue

Soit un ensemble de données réparties en k classes : ( xi , yi ) i "1, ,N
xi # R n : xiT " [ xi ,1 xi , 2 ! xi ,n ], yi # B1, 2, , k C, i " 1, ,N

on souhaite pouvoir associer une nouvelle donnée xN+1 à l’une des classes.
C’est un problème de décision : à quelle classe de données, la nouvelle
donnée « ressemble » le plus ?
Différence avec la régression : les « sorties » sont ici discrètes, à chaque
valeur discrète correspond une classe.
Base de données Nouvelles données Méthodes

C2 # C1
C1 Approche probabiliste
# C2 Approche neuronale
# ? Approche floue
14
Approche probabiliste - Exemple introductif : le sélecteur aléatoire
s1 s2 s3 sm
On considère m sources de variables aléatoires
dont on connaît les lois de densité de probabilité.
Sélecteur
aléatoire On note p(x/Si) la loi de densité de probabilité de la va
délivrée par la source Si
x
Le sélecteur aléatoire permet de sélectionner
l’une des sources au gré du hasard
Lorsqu’une source est sélectionnée, on réalise une observation x(t) .

Problème : déterminer à partir de l’observation x(t) la source sélectionnée
Sélection équiprobable des sources

Deux cas :
Sélection non équiprobable des sources

Sélection équiprobable des sources
Densité de probabilité La source sélectionnée correspond au plus grand des

s1 s2 s3 sm p(x/Si ). La source Si sélectionnée est telle que :
p(x/s2)
p ( x / si ) " Max p ( x / sj )
j "1 m
Soit P(Si/x) la probabilité pour que la source Si soit

x sélectionnée, l’observation x étant réalisée, on a :
p(x/s3)
m
m ( p( x / s ) i
m
p( x / si )
( P( si / x) " 1 " i "1
m
"( m
p(x/s1) i "1
( p( x / s )
j "1
j
i "1
( p( x / s )
j "1
j
p(x/sm)
p ( x / si )
x On a donc : P( si / x) " m
Une observation de x ( p( x / s )
j "1
j
Cette relation permet de calculer la probabilité pour que la source Si soit sélectionnée
l’observation x étant réalisée. La source sélectionnée correspond à la plus grande des probabilités
15
Sélection non équiprobable des sources
Densité de probabilité Considérons deux sources S1 et S2 avec S1 ayant deux fois

s1 plus de chance d’être sélectionnée que S2.
s2
p(x/s1) D Trois sources équiprobables dont deux identiques à S1
P(s1)=2/3 La source S1 a 2 chances sur 3 d’être sélectionnée @ P( s1 ) " 2 3
!?
La source S2 a 1 chance sur 3 d’être sélectionnée > P ( s2 ) " 1 3
x P(S1) et P(S2) sont les probabilités a priori
d’occurrence des sources.
p(x/s2)
Une mesure x étant réalisée, la source sélectionnée correspond au
P(s1)=1/3 plus grand des deux nombres : P(S1)p(x/ S1) à P(S2)p(x/ S2).
Pour m sources, on a alors la règle de décision suivante :
x
P ( si ) p ( x / si ) " Max P ( s j ) p ( x / sj )
Une observation de x j "1 m
La probabilité d’occurrence de la source Si l’observation x étant réalisée s’écrit alors :
P ( si ) p ( x / si )
P ( si / x ) ! m
C’est la formule de Bayes. Elle permet de calculer les
probabilités a posteriori d’occurrence des sources, c’est à
P( s j ) p( x / s j ) dire une fois l’observation réalisée.
j !1

Approche probabiliste - Classification bayesienne optimale
L’exemple du sélecteur aléatoire n’est autre qu’un problème de classification.

Soit x(t) le vecteur des observations et considérons m classes C1, C2, … , Cm.
Soit p(r/Ci ) la loi de densité de probabilité de la variable x correspondant à la classe Ci.
Soit P(Ci ) la probabilité a priori d’occurrence de la classe Ci .
La probabilité d’occurrence de la classe Ci une observation r étant réalisée
(probabilité a posteriori) s ’écrit :
P(Ci ) p( x / Ci )
P(Ci / x) ! m
, i !1 m
P (Cj ) p ( x / Cj )
j !1
L ’observation r est alors affectée à la classe Ci fournissant la plus grande probabilité a posteriori :
x(t ) " Ci : P (Ci / x) ! Max P (C j / x)

j !1 m
La probabilité d’une mauvaise classification s’écrit : 1 # Max P (Cj / x )

j !1 m
Elle est minimale, cette approche est donc optimale au sens d’une erreur de classification minimale
16
Notion de rejet en classification
On distingue deux types de rejet : le rejet d’ambiguïté et le rejet en distance.
Le rejet d'ambiguïté se produit lorsqu’une observation se trouve sur la frontière

séparant plusieurs classes ou un domaine commun à celles-ci.
Classe : C1
Classe : C2
Décider dans ces conditions de l’appartenance de l’observation à l’une des classes plutôt
qu’à l’autre constitue un risque d’erreur important. Soit Ra le seuil de rejet par
ambiguïté, la règle de rejet s’écrit :
Si eclass ! 1 # Max P (C j / x ) $ Ra alors l’observation est rejetée par ambiguïté

j !1 l

Notion de rejet en classification
Le rejet en distance se produit lorsqu’une observation se trouve dans une zone

éloignée de toutes les classes connues.
Classe : C1
Classe : C2
Cette situation peut signifier la nécessité de prendre en compte une nouvelle classe
pour laquelle on ne dispose d’aucune information dans la base d’apprentissage. Soit Rd le
seuil de rejet en distance, la règle de rejet s’écrit :
Si Max P (Cj / x ) % Rd alors l’observation est rejetée en distance

j !1 l
17
Approche probabiliste - Paramétrage des classes : le cas gaussien
Dans les applications réelles, les lois de densité de probabilité des classes ne sont pas connues.
En pratique, l’hypothèse gaussienne est souvent adoptée. Chaque classe est modélisée par une
loi de densité de probabilité gaussienne de dimension q (dimension de x) :
1 . 1 +
p ( x / Ci ) ! exp, # ( x # mi )T & i#1 ( x # mi ) )
(2/ ) det '& i (
q
- 2 *
avec mi la moyenne de la classe Ci et &i sa matrice de variance covariance. Ces deux

paramètres peuvent êtres calculés à l’aide des estimateurs suivants :
Ni Ni
1 1
mˆ i ! x j , &ˆ i ! ( x j # mi )( x j # mi )
T
Ni j !1 N i j !1
Les probabilités a priori, d’occurrences des classes P(Ci), sont estimées à l’aide de la relation :
Ni
Pˆi ! l
Nj
j !1
où Ni représente l’effectif de la classe Ci etl le nombre de classes connues.

Approche neuronale
1 1 1
w10,1 w20,1 w30,1
w11,1 w 2
1,1 w31,1
w12,1 w22,1 w32,1
& 011
f1 y11=f(011)
& 0 21
f2 y2 1
& 031 +1
-1
y31=f(031)
w1n,1 w2n,1 w3n,1

Neurone N°1 Neurone N°1 Neurone N°1
1 1 1
w10,2 w20,2 w0,2
w11,2 w21,2 w31,2
u1
w12,2 w22,2 w32,2
u2
& 012
f1 y12=f(012)
& 0 22
f2
y22
& 032 +1
-1
y32=f(032)
w1n,2 w2n,2 w3n,2

un Neurone N°2 Neurone N°2 Neurone N°2
1 1 1
1
w 0,m w0,m w0,m
w11,m w21,m w31,m
w12,m w22,m w32,m
& 01m
f1 y1m=f(01m)
& 02m
f2 y2m=f(02m)
&
+1
-1
y3m=f(03m)
w1n,m w2n,m w3n,m

Neurone N°m Neurone N°m Neurone N°m
18
Approche floue
'1 ~1 2
( '
~2
(
Si x est A1 et x est A1 Alors la classe est C1
'1 ~1 2
( '
~2
(
Si x est A 2 et x est A 2 Alors la classe est C2
x1 111 ( x 1 ,2 11 ) 41 +
+1 C1
x 2 3
112 ( x 2 ,2 12 ) -1
f1(x,21) -
max 4 max
1 21 ( x 1 ,2 12 ) 42 - C2
+1
3
1 ( x ,2 )
2
2
2 2
2
-1
f2(x,22) +
-
C 1d
Fonction +
d’adaptation -
+ C2d
Apprentissage non supervisé

Sommaire
· Analyse en composantes principales

- Motivations
- Principe de l’ACP
- Définition des composantes principales
- Calcul de la 1ère composante principale
- Calcul de la 2ème composante principale
- Méthode générale
- Exemple
· Clustering (ou techniques de regroupement)

- Qu’est-ce que le clustering
- Applications
- Mesure de dissimilarité (similarité d’objets)
- Méthode des K-moyennes (K-means)
- Fuzzy k-means et algorithme de Gustafson-Kessel
19
• Rappelons que dans le cadre de la classification et de la régression, on

dispose d ’un ensemble de couples entrée/sortie (xi, yi )i=1,…,N. L’objectif est
de prédire la sortie yN+1 associée à une nouvelle donnée xN+1. Ces méthodes
sont dites à apprentissage supervisé (on connaît la réponse pour chaque
entrée).
• Dans le cas des méthodes non supervisées, on dispose uniquement de

données non étiquetées (xi )i=1,…,N (on ne connaît pas la réponse).
• Pb : que peut-on apprendre de données non étiquetées (unlabelled data) ?

• Généralement il est facile de collecter des données brutes, mais les

étiquetées peut être une tâche d ’ampleur insurmontable.
• Les données peuvent être de grande dimension ( xi " R1000 ), il est alors
intéressant de rechercher une représentation de faible dimension permettant
de décrire les données initiales sans trop de perte d’information.
• Pour tout traitement ultérieur, il est toujours utile de connaître comment

sont structurées les données.
Les méthodes d’apprentissage non supervisé permettent de répondre à ces

types de problème :
-Analyse en composantes principales

-Clustering
20
Analyse en composantes principales (ACP) - Motivations
L’analyse en composantes principales (ACP) permet de réduire la
dimension des données initiales en minimisant la perte d ’information.
Le principe est de rechercher un nouvel ensemble de données de plus

faible dimension qui conserve au mieux l’information contenue dans les
données initiales (élimination des composantes fortement corrélées).
Par information, on entend le degré de corrélation entre les

composantes des données. Deux composantes seront dites très
informatives si elles sont non corrélées.
L ’analyse en composantes principales est une transformation linéaire

permettant de ne retenir que les composantes non corrélées. Celles-ci
sont appelées les composantes principales.
L’ACP peut être vue comme une rotation d ’axes telle que les données
projetées sur les nouveaux axes soient de variance maximale. Le nouveau
système d’axes est orthogonal.

Analyse en composantes principales (ACP) - Motivations
Caractéristiques de 24 modèles de voiture (Source : L’argus de l’automobile, 2004)
Cylindrée Puissance Vitesse Poids Largeur Longueur

Modèle
(cm3) (ch) (km/h) (kg) (mm) (mm)
Citroën C2 1.1 Base 1124 61 158 932 1659 3666
Smart Fortwo Coupé 698 52 135 730 1515 2500
Mini 1.6 170 1598 170 218 1215 1690 3625
Nissan Micra 1.2 65 1240 65 154 965 1660 3715
Renault Clio 3.0 V6 2946 255 245 1400 1810 3812
Audi A3 1.9 TDI 1896 105 187 1295 1765 4203
Peugeot 307 1.4 HDI 70 1398 70 160 1179 1746 4202
Peugeot 407 3.0 V6 BVA 2946 211 229 1640 1811 4676
Mercedes Classe C 270 CDI 2685 170 230 1600 1728 4528
BMW 530d 2993 218 245 1595 1846 4841
Jaguar S-Type 2.7 V6 Bi-Turbo 2720 207 230 1722 1818 4905
BMW 745i 4398 333 250 1870 1902 5029
Mercedes Classe S 400 CDI 3966 260 250 1915 2092 5038
Citroën C3 Pluriel 1.6i 1587 110 185 1177 1700 3934
BMW Z4 2.5i 2494 192 235 1260 1781 4091
Audi TT 1.8T 180 1781 180 228 1280 1764 4041
Aston Martin Vanquish 5935 460 306 1835 1923 4665
Bentley Continental GT 5998 560 318 2385 1918 4804
Ferrari Enzo 5998 660 350 1365 2650 4700
Renault Scenic 1.9 dCi 120 1870 120 188 1430 1805 4259
Volkswagen Touran 1.9 TDI 105 1896 105 180 1498 1794 4391
Land Rover Defender Td5 2495 122 135 1695 1790 3883
Land Rover Discovery Td5 2495 138 157 2175 2190 4705
Nissan X-Trail 2.2 dCi 2184 136 180 1520 1765 4455
Xi = [cylindrée puissance vitesse poids largeur longueur]T, i=1,…,24
21
Analyse en composantes principales (ACP) - Principe de l ’ACP
Chaque visage est représenté par un vecteur de grande dimension x " R 361
Comment choisir U ?

Les données sont des vecteurs d ’un espace

multidimensionnel. Dans la suite on suppose
les données centrées réduites.
X ! 5X 1 ! X N 6,
X iT ! [ xi ,1 ! xi ,n ], i ! 1, ,N
Objectif : projeter les données (les Xi)

suivant des axes permettant de maximiser
la variance des données.
Echantillon de N observations dans

un espace de dimension 2.
22
La projection d ’un vecteur Xi sur un axe

uk s ’écrit :
proj( X i , uk ) ! ukT X i
La direction de plus grande variance est

telle que E ((u1T X i ) 2 ) est maximale sur tout
u2 les Xi . La direction u1 est la première
u1
composante principale.
N N
1 1
E ((u1 X i ) ) ! (u1 X i ) !
T 2 T 2 T T
u1 X i X i u1
N i !1 N i !1
.1 N
+
! u1T , X i X iT )u1 ! u1T C XX u1
-N i !1 *
Cxx est la matrice de variance covariance
des données (les Xi).

Analyse en composantes principales (ACP) - Définition des composantes principales
Etant donné un ensemble de N observations d’un vecteur de dimension n
X ! 5X 1 ! X N 6, X i ! [ xi ,1 ! xi ,n ], i ! 1,
T
,N
On définit la première composante principale des N données, par la

transformation linéaire
z1 ! u1T X , z1T ! 5z1,1 ! z1, N 6, z1,i ! u1T X i !

n
u1, j xi , j
j !1
5 6
Où le vecteur u1T ! u1,1 u1, 2 ! u1,n est choisi de sorte que E ((u1T X i ) 2 ) soit maximum
sur tout les Xi, et que u1 soit unitaire : u1 u1 ! 1
T
u1 ! arg max u C XX u 7 u1 ! arg min # u C XX u

T T
u !1 u !1
.1 N
+
C XX ! , X i X iT )
-N i !1 *
23
Analyse en composantes principales (ACP) - Définition des composantes principales
De la même façon on définit la kième composante principale des N données, par la

transformation linéaire :
z k ! uk X , z k ! 5z k ,1 ! z k , N 6, z k ,i ! u k X i !
n
u k , j xi , j , k ! 1,
T T T
,n
j !1
5 6
Où le vecteur u kT ! u k ,1 u k , 2 ! u k , n est choisi de sorte que E ((u kT X i ) 2 ) soit maximum
sur tout les Xi, sous les contraintes : u kT u k ! 1 et u k ul ! 0, k $ l 8 1
T
<uk ! arg max u T C XX u <uk ! arg min # u T C XX u

9 u !1 9 u !1
; 7 ;
9:uk ul ! 0, k $ l 8 1
T
9:uk ul ! 0, k $ l 8 1
T
.1 N
T +
C XX ! , Xi Xi )
-N i !1 *

Analyse en composantes principales (ACP) - Calcul de la 1ère composante principale
<max u1T C XX u1 <min # u1T C XX u1

9 u1 9
7 ; u1 7 min J (u1 ), J (u1 ) ! #u1 C XX u1 > (u1 u1 # 1)
T T
; u
9:u1T u1 ! 1 9:u1T u1 ! 1 1
?
J (u1 ) ! #2C XX u1 > 2 u1 ! 0 = (C XX # I ) u1 ! 0
?u1
u1 est le vecteur propre de Cxx associé à la valeur propre = 1
On a maximisé : u1T C XX u1 ! u1T 1u1 ! 1
Par conséquent, 1 est la plus grande valeur propre de Cxx

1 représente la variance des données projetées sur u1.
24
Analyse en composantes principales (ACP) - Calcul de la 2ème composante principale
*max u 2T C XX u 2 *min # u2T C XX u 2

' u2 ' u2
) + )
'(u2 u 2 ! 1, u2 u1 ! 0
T T
'(u 2T u 2 ! 1, u 2T u1 ! 0
*'min J (u 2 )
+ ) u2 , J (u2 ) ! #u2T C XX u 2 % (u2T u 2 # 1)
'(u2 u1 ! 0
T
&
J (u2 ) ! #2C XX u 2 % 2 u2 ! 0 $ (C XX # I ) u 2 ! 0
&u 2
u2 est le vecteur propre de Cxx associé à la valeur propre = 2.
(Notons que la contrainte u2Tu1=0 est satisfaite puisque u1 et u2 sont des vecteurs propres)
On a maximisé : u 2 C XX u 2 ! u 2 u ! "
T T
2 2 2 , ( 2 1 )
Par conséquent, 2 est la deuxième plus grande valeur propre de Cxx.

2 représente la variance des données projetées sur u2.
D ’une manière générale, la kème composante principale correspond au kème vecteur

propre de Cxx associé à la kème plus grande valeur propre de Cxx.

Analyse en composantes principales (ACP) - Méthode générale
Etant donné un ensemble de N observations d’un vecteur V de dimension n
Vi ! [vi ,1 ! vi ,n ], i ! 1,
T
V1 , V2 , VN ,N
1. Construire la matrice X des données normalisées
X ! ,X 1 ! X N -, X i ! [ xi ,1 ! xi ,n ], i ! 1,
T
,N
vi ,1 # m1 vi , 2 # m2 vi ,n # mn
xi ,1 ! , xi , 2 ! , , xi ,n !
.1 .2 .n
* 1 N * 1 N * 1 N
'm1 ! N / xi ,1 'm2 ! N / xi , 2 'mn ! N / xi ,n
' i !1 ' i !1 ' i !1
) N
, ) N
, ,) N
'. ! 1 '. ! 1 '. ! 1
'( 1 N # 1 / '( 2 N # 1 / /
( xi ,1 # m1 ) 2
( xi , 2 # m2 ) 2
( xi ,n # mn )
2
i !1 i !1
'( n
N # 1 i !1
25
Etant donné la matrice X des données normalisées
X ! ,X 1 ! X N -, X iT ! [ xi ,1 ! xi ,n ], i ! 1, ,N
2. Calculer la matrice de variance covariance Cxx de X :
1 5 1 N 2
C XX !
N #1
XX T ! 3 /
4 N # 1 i !1
X i X iT 0
1
3. Calculer les valeurs propres de Cxx : 1> 2>... n-1> n.
4. Calculer les vecteurs propres associés aux valeurs propres 1 à n : u1, u2,…, un
et construire la matrice :
;u1T 8
9 6
U ! 9 " 6, ui ! [ui ,1 ! ui ,n ], i ! 1,
T
,n
9u nT 6
: 7
Notons que U n ’est autre qu’une matrice de changement de base

3. Réduction de la dimension des données. Construire la matrice Ur correspondant

aux r vecteurs propres associés aux r plus grandes valeurs propres de Cxx : 1>... k.
;u1T 8
9 6
U r ! 9 " 6, ui ! [ui ,1 ! ui ,n ], i ! 1,
T
,r
9u rT 6
: 7
5. Calculer le nouveau jeu de données (dimension réduites) :
Z ! ,z1 z 2 ! z N - ! U r X , zi ! [ zi ,1 ! zi ,r ] < R , i ! 1,
T r
,N
Reconstruction des données initiales : Xˆ ! U T Z
26
Analyse en composantes principales (ACP) - Choix du nombre de composantes
On élimine les composantes de moindre variance.
25
1
20
2
Variance (%)
15 3
10
4
5 5 6 7 8 9 10
0
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
On ne perd pas trop d’information si les valeurs propres associées aux composantes
éliminées sont faibles relativement à celles que l’on conserve :
- Données initiales de dimension n

- On calcule n valeurs propres et vecteurs propres
- On choisit les r vecteurs propres correspondant aux r plus grandes valeurs propres
- Les données finales sont de dimension r

Analyse en composantes principales (ACP) - Exemple
27
Analyse en composantes principales (ACP) - Exemple

Clustering - Sommaire
· Clustering (ou techniques de regroupement)

- Qu’est-ce que le clustering
- Applications
- Mesure de dissimilarité (similarité d’objets)
- Méthode des K-moyennes (K-means)
- Fuzzy k-means et algorithme de Gustavson-Kessel
28
Clustering (regroupement) - Qu’est-ce que le clustering
Le clustering consiste en une organisation de données en groupes (clusters)
de façon que les données appartenant à un même groupe soient fortement
similaires.
• Définir une mesure de similarité (dissimilarité) entre objets (données).
• Construire un algorithme permettant de créer des groupes de similarité
tels que:
- La mesure de similarité des éléments dans un même groupe soit
maximale.
- La mesure de similarité des éléments appartenant à des groupes
distincts soit minimale.
Le clustering permet d ’avoir une bonne vision de la manière dont sont
structurées les données

Clustering (regroupement) - Applications
- Segmentation
- Classification (pour trouver les classes)
- Recherche d ’information (Web)
- Compression de données
- Modélisation
- etc
29
Clustering (regroupement) - Mesure de dissimilarité
Soit X la matrice des données :
X ! ,X 1 ! X N -, X iT ! [ xi ,1 ! xi ,n ], i ! 1, ,N
Un choix courant de la mesure de dissimilarité entre deux données Xi et Xj, est

la distance euclidienne :
n
D( X i , X j ) ! X i # X j
2
! / (x
l !1
i ,l # x j ,l )
2
Les clusters définis à l’aide de la distance Euclidienne sont invariants par

translations ou rotations dans l’espace de représentation, cela n’est pas vrai
dans le cas d’une mise à l’échelle des données
= il n ’est pas toujours désirable d ’effectuer une normalisation des données.

Clustering (regroupement) - Méthode des k-moyennes
• Les données sont représentées à l ’aide de K clusters (groupes)
• Chaque groupe est défini par un prototype pk représentant la moyenne des

éléments du groupe (centre du groupe)
• Chaque donnée est affectée à un seul groupe. On peut définir la fonction

d’appartenance >ik de la donnée n°i au cluster n° k :
K
>ik < ?0,1@, /> ik ! 1 Ai
k !1
Exemple : 4 données et 3 clusters :
;1 0 08 X 1 < cluster k ! 1
90 0 166 X 2 < cluster k ! 3
[ >ik ] ! 9
90 1 06 X 3 < cluster k ! 2
9 6
:0 0 17 X 4 < cluster k ! 3
Remarque : les prototypes pk sont inconnus ainsi que les fonctions d ’appartenance.
30
Calcul des prototypes pk et des fonctions d ’appartenance >ik
* N K
' J ! // >ik X i # pk
On minimise la fonction coût : ' i !1 k !1
)K
' > ! 1 Ai
'(/
k !1
ik
1. Choisir le nb K de clusters et initialisation des prototypes pk, k=1,…,K
2. Minimiser J par rapport aux >ik $ affecter chaque donnée Xi à

l ’unique prototype le plus proche pk.
N N
3. Minimiser J par rapport aux pk $ pk ! / >ik X i /> ik

i !1 i !1
4. Tant que J>e aller en 2

31

32

33

34
Clustering (regroupement) - Fuzzy c-means
Permet de partitionner les données en ensembles non-

disjoints (recouvrements) à l’aide d’une mesure de
similarité des données
A partir de l’ensemble des données
x i ! [ xi ,1 , xi , 2 , , xi ,n ] < B , i ! 1,
T n
,N
Trouver la matrice de partitionnement flou:
; >11 >1C 8
M ! [ >ik ] ! 99 " # " 66, >ik < [0,1]
9: > N 1 > NC 67
et les centres des clusters:
V ! { v1 , v C }, v k < B
n

Xi
Fonction objectif à minimiser Dik
N C
J ! // >ikm X i # Vk
2
2 Vk
i !1 k !1
Sous les contraintes

0 C >ik C 1, i ! 1, , N , k ! 1, , C Degré d’appartenance
/
C
k !1
>ik , i ! 1, ,N total membership
0 D /i !1 > ik D N , k ! 1, pas de cluster vide

N
,C
m < (1, E) fuzziness parameter
35
Répéter
On initialise V ou U
1. Calculer le centre des clusters
/
N
>mx
i !1 ik i
vk !
/i!1 >ikm
N
2. Calculer les distances

d ik ! (x i # v k ) (x i # v k )
2 T
3. Mettre à jour la matrice de partitionnement

1
>ik ! C
/ j !1 (dik2 / dij2 )1/( m#1)
Jusqu’à U D F D’autres tests d’arrêt sont possibles

Clustering (regroupement) - Algorithme de Gustafson-Kessel
• Utilise une mesure de distance adaptative

d 2 ( x i # v k ) ! ( x i # v k )T A k ( x i # v k )
1/ n #1
A k ! Fk Fk
• Fuzzy covariance matrix
/
N
( >ik ) (x i # v k )(x i # v k )
m T
Fk ! i !1
/
N
( >ik )
m
i !1
36
Clustering (regroupement) - Algorithme de Gustafson-Kessel
Répéter
1. Calculer le centre des clusters
/
N
>mx
i !1 ik i
vk !
/i!1 >ikm
N
2. Calculer les distances

/
N
( >ik ) (x i # v k )(x i # v k )
m T
1/ n #1 Fk ! i !1
d ! Fk (x i # v k ) F (x i # v k )
2 T
/
N
( >ik )
m
ik k
i !1
3. Mettre à jour la matrice de partitionnement

1
>ik ! C
/ j !1 (dik / dij2 )1/( m#1)
2
Jusqu’à U DF
37
Réseaux de neurones
• Repères historiques
• Inspiration biologique
• Le neurone formel
• Caractéristiques générales des réseaux de neurones
• Les architectures
Apprentissage des réseaux

• Principe de l’apprentissage
• Réseaux monocouche
• Réseaux multicouche
Le point de départ : la cybernétique (1942, congrès sur l’organisation du cerveau, NY)
Norbert Wiener 1948 : La cybernétique est la science qui étudie les processus de contrôle chez
l’animal et dans la machine.
Problématique : construire des machines « intelligentes », i.e. donner aux machines des
performances de plus en plus proches de celles de l’homme.
Intelligence artificielle (IA)
Approche connexionniste (réseaux de neurones) Approche symbolique (systèmes experts)

modélisation du système cérébral modélisation des processus cognitifs
1
Repères historiques
En 1943 : Mc Culloch et Pitts Neurone formel.
En 1949 : Donald Hebb Règle de Hebb (explication de l ’apprentissage)
En 1957 : Franck Rosenblatt Perceptron (règle du perceptron).
En 1959 : Bernard Widrow Adaline (LMS).
En 1969 : Marvin Minsky et Seymour Papert critique du perceptron.
En 1970 : Teuvo Kohonen Apprentissage compétitif.
En 1982 : John Hopfield Modèle de Hopfield (réseau entièrement connecté).
En 1985 : David Rumelhart et Yann Le Cun Algorithme de rétro-propagation.
Le neurone formel
Inspiration biologique
Synapse
Axone
Corps cellulaire
Noyau
Dendrites
Le corps cellulaire : il effectue les transformations biologiques nécessaires à la survie du neurone
Les dendrites : elles forment une arborescence autour du corps cellulaire et jouent le rôle de
récepteur de signaux
L’axone : il transmet le signal émis par le neurone
Les Synapses : ils réalisent l’interconnexion des neurones
2
Le neurone formel
Un neurone formel est une fonction non linéaire de la somme pondérée de ses entrées:
1 Principales fonctions d’activation f
1 1
Fonction de Heaviside Fonction signe
0.8 0.8
w0 0.6 0.6
w1 0.4 0.4
0.2 0.2
u1 0
-0.2
0
-0.2
w2 n -0.4 -0.4
# " ! ui wi -0.6 -0.6
$
u2 i "0 y=f(#) -0.8 -0.8
f -1
1
-5 -4 -3 -2 -1
Fonction linéaire saturée

0 1 2 3 4 5
-1
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
Fonction linéaire
0.8 0.8
wn 0.6 0.6
0.4 0.4
un 0.2 0.2
0 0
-0.2 -0.2
n
# " ! ui wi " u w " w u , y " f '# (
-0.4 -0.4
T T -0.6 -0.6
-0.8 -0.8
i "0 -1
-5 -4 -3 -2 -1 0 1 2 3 4 5
-1
-5 -4 -3 -2 -1 0 1 2 3 4 5
u " %1 u1 u2 un &
1
T Fonction sigmoïde
1
Fonction tangente
0.9 0.8
hyperbolique
0.8 0.6
w " %w0 wn &

T 0.7 0.4
w1 w2 0.6 0.2
0.5 0
0.4 -0.2
Les coefficients de pondération wi, ou poids, sont 0.3 -0.4
0.2 -0.6
les paramètres ajustables du neurone 0.1 -0.8
0 -1
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5
L’interconnexion de plusieurs neurones formels réalise un réseau de neurones
Caractéristiques générales des réseaux de neurones
Un réseau de neurones réalise une fonction non linéaire de ses entrées par composition des
fonctions réalisées par chacun de ses neurones.
Les réseaux de neurones sont des approximateurs universels.
Toute fonction continue bornée peut être approchée avec une précision arbitraire, dans un
domaine fini de l’espace de ses variables, par un réseau de neurones comportant une couche
de neurones cachés en nombre fini, possédant tous la même fonction d’activation, et un
neurone de sortie linéaire
Deux types d’architecture

Les réseaux non bouclés
) Approximation de fonctions non linéaires
Classification automatique d’objets
Modélisation de processus statiques non linéaires
Les réseaux bouclés

)
Identification des systèmes dynamiques non linéaires
Commande non-linéaire
Mémoires associatives dynamiques (bassin d’attraction)
3
Les réseaux de neurones non bouclés ou statiques
Un réseau de neurones non bouclé réalise une fonction statique non linéaire de ses entrées,
par composition des fonctions réalisées par chacun de ses neurones
Réseau non bouclé monocouche (perceptron monocouche) : y (k ) " h'u (k ), w(

un u2 u1
Wn,m w2,m w1,m Wn,2 w2,2 w1,2 Wn,1 w2,1 w1,1
$ w0,m 1
$ w0,2 1
$ w0,1 1
Neurone Neurone Neurone
N°m #m N°2 #2 N°1 #1
f f f
ym=f(#m) y2=f(#2) y1=f(#1)
Les réseaux de neurones non bouclés ou statiques
Réseau non bouclé multicouche (perceptron multicouche) : y (k ) " h'u (k ), w(

1 1 1
w10,1 w20,1
1 w30,1
w 1,1 2
w 1,1 w31,1
w12,1 w22,1 w32,1
$ #11
f1 y11=f(#11)
$ #21
f2
y21=f(#21)
$ #31
f3 y31=f(#31)
w1n,1 w2n,1 3
w n,1
Neurone N°1 Neurone N°1 Neurone N°1
1 1 1
1
w 0,2 2
w 0,2 w0,2
w11,2 w21,2 w31,2
u1
w12,2 w22,2 w32,2
u2
$ #12
f1 y12=f(#12)
$ #22
f2 y22=f(#22)
$ #32
f3 y32=f(#32)
w1n,2 2
w n,2 w3n,2
un Neurone N°2 Neurone N°2 Neurone N°2
1 1 1
1
w 0,m w0,m w0,m
w11,m w21,m w31,m
w12,m w22,m w32,m
$ #1m
f1 y1m=f(#1m)
$ #2m
f2 y2m=f(#2m)
$ #3m
f3 y3m=f(#3m)
w1n,m 2
w n,m 3
w n,m
Neurone N°m Neurone N°m Neurone N°m
4
Les réseaux de neurones bouclés ou dynamiques
Un réseau de neurones bouclé est un système dynamique non linéaire, régi par des équations
différentielles ou aux différences.
x! (t ) " + ' x(t ), u (t ) ( x(k . 1) " + ' x(k ), u (k ) (

y (t ) " * 'x(t ), u (t ) ( y ( k ) " * ' x(k ), u (k ) (
u (t ) y (t ) u (k ) y (k )
+ +
Réseau de neurones Réseau de neurones
statique statique
* *
x(t ) x! (t ) x(k ) x( k . 1)
,
-
z-1

Exemple de mise sous forme d’état d’un réseau bouclé
5
Modélisation de systèmes dynamiques non linéaires
y ( k . 1) " g ( y ( k ), " , y ( k / n y . 1), u ( k ), " , u ( k / nu . 1))
y(k+1)
Réseaux de neurones réalisant une approximation de
la fonction non linéaire g
u(k-1) u(k-nu+1) y(k-ny+1) y(k-1)
u(k) -1 -1 -1 -1 -1
y(k)
Z Z Z Z Z Z-1
Mémoires associatives
Réseau
Dynamique
Apprentissage des réseaux de neurones

L’apprentissage d’un réseau de neurones consiste à modifier son comportement jusqu’à
l’obtention d’un comportement désiré. L’apprentissage fait appel à des exemples de comportement
Phase d’apprentissage : Permet d’ajuster les poids du réseau
Base d’apprentissage uk Réseau de yk

Neurones
'
6 u1 , y d
0
( 30 yk
' (0
1 -
1
!7
d Algorithme de
0 u2 , y2 7k J (W ) "
T
7k
5 2 modification des poids du
N
k
0 #
k
0 réseau
4 '
0 u N , yd
N
(0
1 ydk
+
ydk
Phase de test : Permet d’évaluer les capacités de généralisation du réseau
Base de test u’k Réseau de yk

Neurones
'
6 u '1 , y d '
0
( 30 -
' (0 7k
1
d' Critère de J
0 u '2 , y 2 validation
5 2
0 # 0 du réseau
' (
+
0 u'N , y d ' 0
4 M 1 yd’k
6
Algorithmes d’apprentissage, cas des réseaux monocouche
Règle du Perceptron
1
w0 Pour une entrée donnée, on peut distinguer 4 cas :
8
w1 On ne
1er cas : d=1 y=1 modifie pas
u1 2ème cas : d=0, y=0 les poids
8
w2
$ # 1
y 3ème cas : d=0, y=1 On modifie
u2
4ème cas : d=1, y=0 les poids
wm
um
Dans le 3ème cas if faut diminuer les poids
Dans le 4ème ces il faut augmenter les poids
7 - d
Règle du perceptron +
wk .1 " wk . 9 'd k / yk (uk

wk .1 " wk . 97 k uk

Algorithme d’apprentissage Perceptron
1. Initialisation des poids (par exemple à 0)
2. Présentation d’un exemple uk de la base d’apprentissage
3. Calcul de la sortie yk obtenue pour l ’entrée uk
4. Si la sortie du Perceptron est différente de la sortie désirée dk pour

l’exemple uk alors modification des poids :
wk .1 " wk . 97 k uk
5. Tant que tous les exemples de la base d’apprentissage ne sont pas traités
correctement, retour à l’étape 2.
7
L’apprentissage, un problème d’optimisation
u
Soit un système d’entrée u, de sortie y et
y
Système possédant des éléments de réglage w
L’optimalité d’un système n’a de sens que

w
relativement à un certain critère de performance
Un système est dit optimal relativement au critère J(w), si lors de son

fonctionnement la quantité J est extrémale (maximale ou minimale)
Optimiser un système consiste à déterminer le réglage w conduisant à un critère

de performance J(w) extremum :
wopt " arg min J 'w( wopt " arg max J 'w(
w:W w:W
Fonctionnement avec une consommation de carburant minimale

Fonctionnement avec une vitesse de déplacement maximale

L’apprentissage, un problème d’optimisation
uk Base dk
D’apprentissage
Dans le cas d’un réseau de neurones, on

souhaite un fonctionnement à erreur minimale
yk + 7k
Réseau de neurones
-
w
L’apprentissage du réseau consiste alors à déterminer le vecteur poids w
permettant de minimiser un critère sur l’erreur d’apprentissage
N N
1 1 1 N
J 'w ( "
N
!7k
k "1
J 'w ( "
N
! 7k J 'w ( "
N
!7 2
k
k "1 k "1
8
L’ADALINE (adaptative linear element) de Widrow
1
w0 L’apprentissage est réalisé sur la sortie linéaire du neurone
w1 Apprentissage
u1
w2 - MCS
1
#
$
y - MCR
u2 - Gradient LMS
wm -1
um
@1= @ w0k =
>u k ; > k;
w
uk " > 1 ; wk " > 1 ;
7 - d >#; > # ;
Algorithme
d’apprentissage
+
> k; > k;
?um < ?> wm <;

Méthode des moindres carrés simples (MCS)
C’est une méthode non itérative. Il s ’agit de déterminer le vecteur poid w
permettant la minimisation du critère quadratique suivant:
N N
1 1
! 'd k / # k ( " !7
2
J ( w) " 2
k
N k "1 N k "1
G HJ D G H2J D
J(w) est minimum pour w=wopt si : EE BB " 0 et EE 2 BB A0
F H w C w" wopt F H w C w" wopt
@ d1 = @ u1T =
>d ; > T;
Ce qui conduit à : '
wopt " U U U d
T
(/1 T
avec : d " > 2;
> # ;
u
, U "> 2;
> # ;
> ; > T;
?d N < >?u N ;<
9
Méthode des moindres carrés récursifs (MCR)
C’est une méthode itérative (implémentation temps réel possible), qui permet la mise
à jour du vecteur poids à partir de la donné d ’un nouvel exemple.
Pour N exemples la méthode des MCS permet le

calcul direct du vecteur poids:
w N " U TU ' (
/1
UT d
Problème : comment modifier le vecteur poids wn lorsque l’on connaît un nouvel

exemple uN+1, dN+1 ?
On pose FN=(UTU)-1, et l’on utilise les récurrences suivantes :
6 T
FN u N .1 u N .1 FN
0 FN .1 " FN / T
5 1 . u N .1 FN u N .1
0
' T
4w n .1 " w N . FN .1 u N .1 d N .1 / u N .1 w N (

Méthode du gradient, algorithme LMS
C’est une méthode itérative. Il s ’agit de déterminer le vecteur poids wk permettant de
diminuer le critère J(wk) à chaque présentation de la base d ’exemples.
N N
1 1
! 'd n / # n ( " !7
2
J ( wk ) " 2
n
N n "1 N n "1
G HJ D
Le vecteur poids est calculé à l ’aide de la formule du gradient : w k .1 " w k / I EE BB
F H w C w" wk
2I N
Ce qui conduit à : w k .1 " w k . !7nun
N n "1
Dans le cas de l ’algorithme LMS, la méthode du gradient est appliquée sur (7k)2 au lieu
de J(wk). Le vecteur poids est donc modifié à chaque présentation d’un exemple. La règle
de modification des poids s ’écrit :
w k .1 " w k . 2 I7 k u k
10
Algorithmes d’apprentissage, cas des réseaux multicouche
Algorithme de rétropropagation
wlji wkjl .1
l .1
# il /1 yil /1 # lj y j
s
# kl .1 yk
Neurone N° i de la Neurone N° j de la Neurone N° k de la

couche l-1 couche l couche l+1
Poids de la connexion Poids de la connexion

reliant le neurone i de la reliant le neurone i de la
couche l-1 au neurone j couche l-1 au neurone j
de la couche l de la couche l
' (
# lj " ! wlji yil /1 , y lj " f # lj , # kl .1 " ! wkjl .1 y lj , ykl .1 " f # kl .1 ' (
i j
Objectif : minimiser l’erreur quadratique commise un exemple donné :
1 o 2
J" (d / y ) Où d est la sortie désirée et yo la sortie effective du réseau
2
Algorithmes d’apprentissage, cas des réseaux multicouche

Algorithme de rétropropagation
Pour chaque exemple présenté, on réalise les calculs suivants :
Calcul des #j et yj pour l ’ensemple

des neurones
# lj " ! wlji yil /1 , y lj " f # lj ' (
i
Calcul des erreurs locales pour la

couche de sortie
ek " ( y k / d k ) f ' # k
o o
' ( o
Calcul des erreurs locales pour

l ’ensemble des neurones des e j " f ' #k
l
' (! e
o l .1
k
l .1
wkj
couches cachées k
o /1
Couche de sortie : Jwkj " Iek y j
o o
Modification des poids l /1

Couches cachées : Jw ji " / Ie j yi
l l
11

TVL - Cours IA - Apprentissage Automatique - Machine Learning

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TVL - Cours IA - Apprentissage Automatique - Machine Learning

Transféré par

Droits d'auteur :

Formats disponibles

Pourquoi l’apprentissage automatique ?

L’apprentissage automatique consiste à utiliser des ordinateurs pour

Une entreprise en crédit doit estimer automatiquement le niveau de

Objectif : inférer un modèle de traitement général à partir

Optimiser un modèle à partir d’observations selon un critère de

Analyse d’un panier d’épicerie

Reconnaissance des formes

Tiré de la banque de visages ORL, http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

◮ Prédiction : prix de vente (y )

Applications en contrôle de Tiré de E. Alpaydin, Introduction to Machine Learning,

◮ Volant de voiture (CMU

Contrairement à l’apprentissage supervisé, il n’y a pas de valeurs de

Apprendre une politique : séquences d’actions

UCI Machine Learning Repository :

Journal of Machine Learning Research :

International Conference on Machine Learning (ICML)

• Mémoriser quelque chose

• Apprendre des faits au travers d’observations et d’explorations

• Amélioration sensori-motrice et/ou amélioration de ses connaissances

• Organiser de nouvelles connaissances en un tout cohérent

Définition. Un système est capable d’apprentissage s’il est doté d’un

Introduction aux systèmes à apprentissage

Définition. Un système est capable d’apprentissage s’il est doté d’un

Entrées (capteurs) Sorties (Actionneurs)

Mesure de performance vis à vis

Un type d’apprentissage très courant est l’acquisition d’informations dans

Principe de sens commun. La répétition d’un même événement dans des

On retrouve cette idée que l’on apprend quelque chose de la répétition.

Croyance en la régularité des phénomènes : les mêmes causes

Introduction aux systèmes à apprentissage

Etant donné un ensemble d’exemples entrée/sortie, trouver une fonction

- Prononciation : fonction liant les lettres aux sons.

Le problème de l’apprentissage d’une fonction implique 3 aspects :

- La mémorisation (base d ’apprentissage).

- La moyennisation (recherche des régularités).

- La généralisation (capacité à fournir la bonne réponse pour de nouveaux

Apprentissage supervisé (Supervised learning). Etant donné un ensemble

Apprentissage non supervisé (Unsupervised learning). Etant donné un

Apprentissage par renforcement (reinforcement learning). Le système

Apprentissage supervisé - Régression

· Régression au sens des moindres carrés

· Le problème du surajustement ! régularisation

· Quelques autres méthodes

Etant donné un ensemble d’exemples entrée/sortie : ( xi , yi ) i "1, ,N

xi # R n : xiT " [ xi ,1 xi , 2 ! xi ,n ], yi # R , i " 1, ,N

on souhaite prédire yN+1 pour la nouvelle donnée xN+1 : yˆ N $1 " f ( x N $1 , w)

Apprentissage supervisé - Régression

yˆ N $1 " f ( x N $1 , w) " w0 $ w1 x N $1,1 $ ! $ wn x N $1,n " x N $1w

x N $1 " [1 x N $1,1 x N $1, 2 ! x N $1,n ], w " %w0 w2 ! wn &

Pb : Calculer le vecteur des paramètres w permettant de réaliser au

Apprentissage supervisé - Régression

Apprentissage supervisé - Régression

Etant donné un ensemble d’exemples entrée/sortie : ( xi , yi ) i "1, ,N

xi # R n : xiT " [ xi ,1 xi , 2 ! xi ,n ], yi # R , i " 1, ,N

Soit : X i " %1 f 2 ( xi ) ! f d ( xi )&

Prédiction : yˆ N $1 " X N $1w

Apprentissage supervisé - Régression

Apprentissage supervisé - Régression

polynome de gré :10 a ve c ré gula ris a tion

Apprentissage supervisé - Régression

Sensibilité par rapport aux yi yi

Apprentissage supervisé - Régression

Apprentissage supervisé - Régression

Apprentissage supervisé - Régression

max u 2T C XX u 2 min # u2T C XX u 2