Académique Documents
Professionnel Documents
Culture Documents
" # $ %
! " & # $ %
)$ $ *
' !
'( " $
$
"
$ +
$ ,
,
( $
---
(
( $ "
. , / , ---
$ $ 01
$
2
' $)
"
2
' $) $
2
'
)
$ *
! # #,
! $+ /
! 3
$
' $)
# 2
4 $+ ( ( "
4∅ /
≠∅ /
5' $ # *
5 $ (
5 (
5 6 ' 3 /
5 ( 2 $ "
! "#
$
%!
5 $$ 7
5 $ "
58 8 $ 9 )
5 !
5 2 # $
&
5 ! ( "
5 , '( , 9
9
'
5 $ (
6 $$ ! (
58 $ " 9
5 ( # ()" +
5 (/ $
5
5
8
58 $ , $
5 $
5 $ (
( (
5 # ')
5 / ' + "
5: ( " * $
' /
"
7
5 ' (
5 2
'
'
. 1 . 1
;7
"
8( 8(
( ( " ( $
2 $ $
" + $+ $
< = < =
' $ $$
$) ) 2"
;7
: +
$ $ $ (
# $
$ ' $ /
$ " 9 "
/ / $ # !
$
;7
"
# $ " : (
$ 2"
( 2 ' $$ $"
( " > ( ( "
9 ?' ' ( 7
2 $
( ## $ *
@- # ( # $ ( ## # *
" , , ! -
;- # " $ -
A- 2 $+ + "
$+ -
B- $ $+
& ---
C- 9 . ## D @E 1
# $ D (
* $ $ $ ( ## ,
, 2 " ---
2 $
' $
+
$
"
$
<A=
/
E-F
2 $
5 ' + )$ $ $ )
()$
( ( " $
' $$ $"
$
$
P2
P3
#feep.pgm
# example from the man
10 5
page
4
4 4
0001144300
15
0141144300
0 0 0 0 0 0 0 0 0 15 0 15
0031144300
0 0 0 0 15 7 0 0 0 0 0 0
0001133300
0 0 0 0 0 0 0 15 7 0 0 0
0001122222
15 0 15 0 0 0 0 0 0 0 0 0
Noir et blanc
Pour chaque point du plan imaginaire (z=x+iy)
On lance une boucle de 10 itérations :
On calcule z=f(z)
Si (|x|>10 ou |y|>10 ou |z|>10),
on quitte la boucle.
En fin de boucle :
Si (|x|>10 ou |y|>10),
on marque un pixel noir sur fond blanc.
Couleur
La couleur dépend du nombre d'itérations et de la valeur de |x|, |y|, |z|.
Ensembles de Julia
Fonction f(z)
f(z) = zExposant + C
'
! " *
5' 4
5 * + # G
/ /
56 *# " /+ /
/
5 8 $+ *$
# $ /
'
8 / ( *
5 < $ = ( "
5 #
5 $ $ * ( )$
'
" : 7 H *
57+ 7
59
5 +
5 2 */ /
'
" 7 H *
5 7 " . ,$ 1
59 . , 1
5 / 9)/ . + + 1
'
$ 7 H *
7 $ $! $! /
$ /
ε
+
φ ∂I
9 +
' ⊃
9 + : /
## $
'
" " 7 H *
5 7
5 " /
5 $ 4 2$
'
( $ ' 7 *
'
$ " 7 H
2 $ # $ @ ;*
ε
φ ∂ *
) ⊃
+
'
8 $ >
$$
' $
5 > .( # " + + 1
5
56 $
5
' $
' $
$
J$
7 ' $ / *
5
' $ /
5
$
$ $ $
$
' $) 7 *
58 " *
5 *
5 $ *
5 " * !
" #
5 * $% %&' ( ) *+ *
& ,-
$
7 *
5 ) 6 $ )
$
(
$
5 2$
5 $ ---
;
@
E
K
$
' $) *
5 / 2
5 + /
5 +
'
( " "
' $ / *
5
5 +
5'( )$
' $) *
58 $ , "
5
5 $ * / L
$ '
5 *% . * ' 2 #
$ < $ =4 + %
classification segmentation
Segmentation, souvent égale à de la classification
automatique de pixels dans un espace ℜn
5 ' !' *
$ '4 "
5 ' ! *
$ ') 0 $ '1 ∈ 2
5 ! *
$ 3 4' ) 0 $ '1 ∈ 3 ∈ 42
5 # $ " /
5 ⇔ #
5 + 5D 6 ⇔ 6) $5 '
5 # $ " /
) ) -
7 + 8 # (
K + B
B B M C ; A
C K # A
A B M B C B
( F A 3
5 # $ " /
) ) -
8 (
! " #
$% # & ← ∪ !
5 # $ " /
) ) -
9 7
: (
+ B
B B ; A
#
A B
( F A 3
5 # $ " /
) ) -
59 $ ( (" D
$ "
5 + ( 2
5 + ## ( &
5 # $ " /
) .) )/ -
5' N $+ *
5 $ ) + O*
5 $ ## $$ #
( "
5 ($ D 0 / )1
) ) 2 3
« Clustering »
« Clustering »
$"
($
8
!$ #
« Clustering »
Principe des Nuées
Dynamiques
P
« Clustering »
;
= .<Q!1= & .5 ,!&1
& =@ =@
« Clustering » Cas « Crisp » : &∈{E,@}
) .) )4 - )
($ *
@- ( ( 2 {?@
E
, ?;E ,---, ?>E }
;- ← E
A- ← G@
B- ) 5 .) / ?. @ D 1,
{
ω 6 ← 5 ∈ " ∀& ≠ 6 , . 5, ?6 −@ 1 ≤ . 5, ? & −@ 1 }
?6 : ω6
)
67 # ω6 ≠ ω6 +@ ≤ E, A
# 8
#
« Clustering » Cas « Fuzzy » : &∈ E,@ [ ]
Coefficient d ’appartenance uij dans [0,1]
V1 @4E-F
44E-B
Distance : exponentielle de
[ ]
@R ;
( ) ( )
. @& 1 @
;
.5 , & 1= 2 5 − & @ −@ 5 − &
& ;
« Clustering »
Algorithme des C-Moyennes Floues Exponentielles
(CMFE)
« Clustering »
Comment déterminer
le nombre de groupements C optimal ?
Critère numérique :
la Densité Moyenne
de Partition
(DMP) ?
« Clustering »
# . 1= @ &
& =@ !&
Avec A & ={5∈A *.5−!&1@&−@.5−!&1<@}
& = &
5 ∈A &
@R ;
et l’hypervolume flou de chaque cluster !& = @&
« Clustering »
!
$
. + 1 $
+
T$ # $O $ > ( U
. ( 1
« Clustering »
Regroupement en
famille de gènes
5 # $ " /
) .) )/ -
5 $+ #*
∀5 ∈ " , ∀ω ∈℘. " 1 . 5, ω 1 ∈ ℜ +
5 ) D $ 8( " *
= (℘) = ( 5, ω )
ω∈℘ 5∈ω
5 ) D $ ' " D ?ω *
= (℘) = ( 5, ?ω )
ω∈℘ 5∈ω
5 # $ " /
) .) )/ -
($ *
@- ( ( N 2 {? @
E
, ?;E ,---, ?>E }
;- ← E
A- ← G@
B- ) 5 .) / ?. @ D N1,
{
ω 6 ← 5 ∈ " ∀& ≠ 6 , . 5, ?6 −@ 1 ≤ . 5, ? & −@ 1 }
?6 : ω6
)
67 # ω6 ≠ ω6 +@ ≤ E, A
# 8
#
5 # $ " /
) .) )/ -
2 $ *
@
5 ?ω ) : / ω) .ω 1 5∈ω
5
5 $5 ?' ) $5 ?ω '
5 # $ " /
) .) )/ -
$ *
5' $ # $ *
D 2 2 $
5: / $
+ # 2 $
5 # $ " /
) .) )/ -
2 $ VV N! *
Objectifs
1. Classification automatique
2. Programmation Dynamique
3. Discrimination Fonctionnelle
4. Connexionisme
5. Statistiques bayésiennes
6. K-ppv
7. Méthodes stochastiques
8. Approches syntaxiques et structurelles
Apprentissage (automatique ou artificiel) :
Machine Learning
Cette notion englobe toute méthode permettant de construire un modèle de
la réalité à partir de données.
Il existe deux tendances principales :
•Celle issue de l’IA qualifiée de symbolique
•Celle issue des statistiques qualifiée de numérique
La précision est définie par un écart entre une valeur mesurée ou prédite et
une valeur réelle. Apprendre avec trop de précision conduit à un “sur-
apprentissage”, comme l’apprentissage par coeur, pour lequel des détails
insignifiants (dûs au bruit) sont appris.
= Oie
Couleur = Canard
Couleur
Sombre Sombre
Clair Clair
Blanc Blanc
Couleur Couleur
Sombre Sombre
Clair Clair
Blanc Blanc
Taille de l’oiseau
Couleur
Sombre
Clair
Blanc
Principe :
définir les fonctions de discrimination f permettant de
séparer partiellement ou totalement les classes
représentées par les vecteurs paramètres x de leurs
échantillons. L’ensemble des x exemples représente
l’ensemble d’apprentissage S.
#
@
7
Objectifs :
• Il s’agit d’apprendre un concept sous la forme
géométrique la plus simple : celle d’un hyperplan.
• Apprentissage de surfaces séparatrices linéaires dans un
espace de représentation nécessairement numérique.
• Lien avec les Réseaux de Neurones et les SVM
#@7
d1
Couleur
Sombre
d2
Clair
Blanc
Hypothèses :
Les classes sont linéairement séparables.
W
x
w
. 51
∆ . 5, B 1 =
CE
C
C
x1
. 51 = ω E + ω@ 5@ + ω ; 5; = E
#@7
Apprentissage :
>E A ∈
. A 1 = B -A @
<E A∈ ;
On pose ∀A ∈ @ , ?=A
∀A ∈ ; , ? = −A
Alors
B -A > E A∈
B -? > E ⇔
@
B -A < E A∈ ;
#@7
Cas de 2 classes :
Si on range maintenant les m vecteurs X comme colonnes d’une matrice M,
le problème de séparation linéaire revient à la recherche d’un vecteur W
dans ℜn+1, tel que : B =D
@ ;
= .B , D 1 = B −D
;
#@7
Cas de 2 classes :
Or, si W et B minimisent bien J(W,B) : = .B , D 1 = ∆ . 5, B 1 ;
5∈ B
Donc dans l’hypothèse que les distances entre W et les points mal classés
par W sont répartis selon une distribution gaussienne, et que ceux-ci sont les
seuls à compter dans le positionnement de W, la minimisation de J(W,B) est
la recherche du meilleur hyperplan a posteriori au sens bayésien, cad l eplus
probable connaissant les données.
#@7
Cas de 2 classes :
@ ;
= .B , D1 = B −D ∇ = .B , D 1 = .B −D 1
;
← !
!" ← !α #
← !"
$
% &' (
+
B . 1 =D . 1 puis trouver B(t+1) tel que J(W(t),B(t+1))≤ J(W(t),B(t))
or ∇ D. 1 = .B . 1 , D. 1 1 = − ; .B . 1 − D. 1 1 d’où D. +@1 = D. 1 + α .B . 1 − D. 1 1
or B>=0, d’où # ) 0 si # * +, - α
Cas de 2 classes : #@7
Méthode itérative historique :
Algorithme du Perceptron
. α
←
≤ ( /
( ←
& 0 1 /
2 / ( 0
2 / ∈3"
( ← ( ! α/ une époque d’apprentissage :
2 cumul des contributions de
( ← ( #α/ chaque exemple de S
$
$
$
. !" ←. !(
← !"
$
% &' (
#@7
• Convergence,mais lente et loin de l ’optimum
B +@? +@ = B ? +@ + ? +@
;
+
*
• Minimisation de = .B 1 = − B 5
5∈ B
( " 9 2D
( * 2* . !@1R; (
(
#@7
9 / 2
ω,
ω+
ω<
5 #) ; )=
25 $
Avantages Principaux :
• Inclus dans son traitement Analyse et Prétraitement
• Grande Capacité Autonome d ’Apprentissage
Algorithme de Rétropropagation
• Problème de la Généralisation
• Extension non linéaire et bien fondée théoriquement
donnée par les SVM : Séparateurs à Vastes Marges ou
Support Vector Machines -> kernel-based machine learning
L’Analyse
9
Bayésienne
Propriété :
La règle de décision bayésienne est la règle de décision
optimale au sens où elle minimise le risque réel en utilisant
l’information disponible de manière optimale.
8( )$ >
$ +
. 5, ω 1 $ +
.5 R ω 1 =
.ω 1 . 5 R ω 1 .ω 1
.ω R 51 =
. 5, ω 1 . 51
.ω R 51 =
. 51
Difficile à Probabilité a Probabilités
calculer posteriori a priori
9
Cas de 2 classes :
ω1 = oiseau et ω2 = canard après observation de
la variable x=couleur_aile
. W = R = 1 . = 1
. = R W = 1=
. W = 1
9
Risque bayésien :
Le but de l’agent est de prendre une décision (faire un diagnostic vital par
exemple) minimisant l’espérance de risque.
On définit une fonction de décision S : X ->H, où H est vu comme un
ensemble de décisions à prendre.
Dans le cas de N classes, H peut comprendre les N classes possibles Ω
en décision de classification plus une classe de rejet quand l’incertitude
est trop forte et ne permet pas de prendre de décision.
Avant toute observation sur le monde, et en prenant seulement en
compte les connaissances a priori, l’espérance de risque associée à une
décision h peut s’écrire : %.81 = .8 ω 1 .ω 1
ω∈Ω
où p(ω) dénote la probabilité a priori que le monde soit dans l’état ω,
tandis que l(h| ω) est le coût ou perte encouru lorsque la décision h est
prise alors que l’état du monde est ω.
9
En général,
E 8 =ω . 1
.8 ω 1 = @ 8 ≠ω . 1
8= & . 1
Mais , le coût de ne pas diagnostiquer à tort une tumeur est bien plus
élevé que de faire un faux diagnostic. Le coût de la décision incorrecte
est ajustable.
9
8 =
S
.8 ω 1 .ω 1 . 5 ω 1
8∈ ω∈Ω
9
Principe de la Décision Bayésienne :
cas particuliers
8 =
S
5 .5 ω1
8∈Ω
9
Principe de la Décision Bayésienne :
cas particuliers
p
x
9
Principe de la Décision Bayésienne :
cas particuliers
Nous supposons maintenant que la tâche d’apprentissage consiste à
discriminer les formes observées x en 2 classes : H = Ω = {ω1, ω2}
Etant donnée l’observation x, les espérances de risque associés à chaque
décision sont respectivement en notant l(ωi|ωj)=lij :
R(ω1)=l11 p(ω1 |x) + l12 p(ω2 |x)
R(ω2)=l21 p(ω1 |x) + l22 p(ω2 |x)
La règle de Bayes stipule de choisir l’hypothèse d’espérance de risque
minimal. Il faut donc atrribuer la forme x à la classe ω1 ssi :
(l21-l11) p(ω1 |x) ≥ (l12-l22) p(ω2 |x),
Que l’on peut écrire en appliquant la formule de Bayes de révision des
probabilités :
(l21-l11) p (x| ω1) p(ω1) ≥ (l12-l22) p (x| ω2) p(ω2), soit :
. 5 ω@ 1 . ;@ − 1 .ω@ 1
. 51 = + @@
≥E
.5 ω; 1 . @; − ;; 1 .ω ; 1
9
Principe de la Décision Bayésienne :
cas particuliers
La règle de décision bayésienne se traduit ainsi par une fonction de
discrimination ou de décision d décrivant une frontière ou surface de décision
dans l’espace X.
@ . ;@ − 1 .ω@ 1
. 51 = . 5 − 1 Σ −@ . µ@ − µ ; 1 + @@
;. µ@ − µ ; 1 . @; − ;; 1 .ω ; 1
9
Validation de l’apprentissage
Probabilité de la classe
p Classe
A
Classe
B
Tous de la Tous de la
Classe A Classe B
Critère de décision
x
Validation de l’apprentissage 9
Probabilité de la classe
p
Faux
Vrais
négatifs
positifs
(10 %)
(90 %)
Classe B
Classe A Vrais
Critère de décision
x
négatifs Faux
(60 %) positifs
(40 %)
Critère de décision
x
Validation de l’apprentissage 9
/
9
*
5 A )053 54 , 5 2 * ( $X$
5# : µ=
@
56
→ Θ)0µ σ2 6 =@
@
σ = . 56 − µ 1 ;
6 =@
/
9
/ *
## $
6 () : $
> (
+ ( -
2
N!
>* /
5<? ( / =D ( *
# $ " .
<' 2$ =1
8 ( " > .( () # $
$ 1
' *
$ ( 6
( 5 ℜ $ # $
## 5D
>*
/ *
58 $
; D
$
5 # $
. / , ,( ( ---1
8
8 /
5' $ 2
5 ( & ? /
5 ) ? / (
5 ' /
# /
5 $ "
58 /
$ $ $ # $
57 + $
5
. $ 1
/ . 1
# /
8
5/
5 > 5
5' $$ $" ? 5
5 ( &
5 5 /
8 5 9
58 $+ R
$ %
5 ( 2 8 "
' $ / %
"
58 7 *
+
<6 ! =
<9 / ! ! =
<> =
58 *
2 3
#
"
58 2 4 2 3 .# 2 3 1 G 2 #
.# # 1
58 2 4 @EEZ ! 2
5> . / $+ # $ # 1
DFF,"6FF"6*3,FF"4FF"3FF4 D