RF2005 PDF

!
" # $ %
! " & # $ %
)$ $ *
' !
'( " $
$
"
$ +
$ ,
,
( $
---
(
( $ "
. , / , ---
$ $ 01
$
2
' $)
"
2
' $) $
2
'
)
$ *
! # #,
! $+ /
! 3
$
' $)
# 2
4 $+ ( ( "
4∅ /
≠∅ /
5' $ # *
5 $ (
5 (
5 6 ' 3 /
5 ( 2 $ "
! "#
$
%!
5 $$ 7
5 $ "
58 8 $ 9 )
5 !
5 2 # $
&
5 ! ( "
5 , '( , 9
9
'
5 $ (
6 $$ ! (
58 $ " 9
5 ( # ()" +
5 (/ $
5
5
8
58 $ , $
5 $
5 $ (
( (
5 # ')
5 / ' + "
5: ( " * $
' /
"
7
5 ' (
5 2
'
'
. 1 . 1
;7
"
8( 8(
( ( " ( $
2 $ $
" + $+ $
< = < =
' $ $$
$) ) 2"
;7
: +
$ $ $ (
# $
$ ' $ /
$ " 9 "
/ / $ # !
$
;7
"
# $ " : (
$ 2"
( 2 ' $$ $"
( " > ( ( "
9 ?' ' ( 7
2 $
( ## $ *
@- # ( # $ ( ## # *
" , , ! -
;- # " $ -
A- 2 $+ + "
$+ -
B- $ $+
& ---
C- 9 . ## D @E 1
# $ D (
* $ $ $ ( ## ,
, 2 " ---
2 $
' $
+
$
"
$
<A=
/
E-F
2 $
5 ' + )$ $ $ )
()$
( ( " $
' $$ $"
$
$
Un format portable : pgm ou ppm ou pbm
P2
P3
#feep.pgm
# example from the man
10 5
page
4
4 4
0001144300
15
0141144300
0 0 0 0 0 0 0 0 0 15 0 15
0031144300
0 0 0 0 15 7 0 0 0 0 0 0
0001133300
0 0 0 0 0 0 0 15 7 0 0 0
0001122222
15 0 15 0 0 0 0 0 0 0 0 0
Logiciels libres de manipulation: gimp et imageJ

Exercice : http://sip-crip5.org/lomn/ti.html
Création des biomorphes par fractales
Noir et blanc
Pour chaque point du plan imaginaire (z=x+iy)
On lance une boucle de 10 itérations :
On calcule z=f(z)
Si (|x|>10 ou |y|>10 ou |z|>10),
on quitte la boucle.
En fin de boucle :
Si (|x|>10 ou |y|>10),
on marque un pixel noir sur fond blanc.
Couleur
La couleur dépend du nombre d'itérations et de la valeur de |x|, |y|, |z|.
Ensembles de Julia
Fonction f(z)
f(z) = zExposant + C
'
! " *
5' 4
5 * + # G
/ /
56 *# " /+ /
/
5 8 $+ *$
# $ /
'
8 / ( *
5 < $ = ( "
5 #
5 $ $ * ( )$
'
" : 7 H *
57+ 7
59
5 +
5 2 */ /
'
" 7 H *
5 7 " . ,$ 1
59 . , 1
5 / 9)/ . + + 1
'
$ 7 H *
7 $ $! $! /
$ /
ε
+
φ ∂I
9 +
' ⊃
9 + : /
## $
'
" " 7 H *
5 7
5 " /
5 $ 4 2$
'
( $ ' 7 *
'
$ " 7 H
2 $ # $ @ ;*
ε
φ ∂ *
) ⊃
+
'
8 $ >
$$
' $
Une image peut être modélisée de plusieurs façons :

• une fonction continue de deux variables f(x,y)
• une matrice 2D, discrétisant la fonction f(x,y)
• la réalisation d'une Variable Aléatoire
-> modèle de traitement mathématique, algorithmique, physique

' $
5 > .( # " + + 1
5
56 $
5
' $
' $
$
J$
7 ' $ / *
5
' $ /
5
$
$ $ $
$
' $) 7 *
58 " *
5 *
5 $ *
5 " * !
" #
5 * $% %&' ( ) *+ *
& ,-
$
7 *
5 ) 6 $ )
$
(
$
5 2$
5 $ ---
;
@
E
K
$
' $) *
5 / 2
5 + /
5 +
'
( " "
' $ / *
5
5 +
5'( )$
' $) *
58 $ , "
5
5 $ * / L
$ '
5 *% . * ' 2 #
$ < $ =4 + %
classification segmentation
Segmentation, souvent égale à de la classification
automatique de pixels dans un espace ℜn
Quantification en niveau de gris

dans ℜ1 ou en couleur dans ℜ3
# $ " /
• Cadre typique de la classification non supervisée, cad sans

exemples.
• Notion de Proximité dans un espace métrique
• Principe : Classification et Décision par la Distance
• Propriétés d ’une Classification Idéale :
• Compacité
• Séparabilité
• Dans la pratique, Défaillance de Formes (« floues »)
5 # $ " /
5 ' !' *
$ '4 "
5 ' ! *
$ ') 0 $ '1 ∈ 2
5 ! *
$ 3 4' ) 0 $ '1 ∈ 3 ∈ 42
5 # $ " /
5 ⇔ #
5 + 5D 6 ⇔ 6) $5 '
5 # $ " /
) ) -
7 + 8 # (
K + B
B B M C ; A
C K # A
A B M B C B
( F A 3
5 # $ " /
) ) -
8 (
! " #
$% # & ← ∪ !
5 # $ " /
) ) -
9 7
: (
+ B
B B ; A
#
A B
( F A 3
5 # $ " /
) ) -
59 $ ( (" D
$ "
5 + ( 2
5 + ## ( &
5 # $ " /
) .) )/ -
5' N $+ *
5 $ ) + O*
5 $ ## $$ #
( "
5 ($ D 0 / )1
) ) 2 3
« Clustering »
« Clustering »
$"
($
8
!$ #
« Clustering »
Principe des Nuées
Dynamiques
P
« Clustering »
Algorithme itératif de type

ISODATA
Nombre de groupements C connu
Minimisation itérative d'une fonctionnelle J(V)
V est un vecteur de paramètres de forme : on

peut prendre par exemple le barycentre mC d’un nuage de points C.
« Clustering » Cas « Général »
Principe des C-moyennes
Minimisation de la fonction objective :
;
= .<Q!1= & .5 ,!&1
& =@ =@
« Clustering » Cas « Crisp » : &∈{E,@}
) .) )4 - )
($ *
@- ( ( 2 {?@
E
, ?;E ,---, ?>E }
;- ← E
A- ← G@
B- ) 5 .) / ?. @ D 1,
{
ω 6 ← 5 ∈ " ∀& ≠ 6 , . 5, ?6 −@ 1 ≤ . 5, ? & −@ 1 }
?6 : ω6
)
67 # ω6 ≠ ω6 +@ ≤ E, A
# 8
#
« Clustering » Cas « Fuzzy » : &∈ E,@ [ ]
Coefficient d ’appartenance uij dans [0,1]
V1 @4E-F
44E-B
Dans le cas où m=2, minimisation de la fonctionnelle

suivante :
;
= .<Q!1= ;
& .5 ,!&1
& =@ =@
En utilisant la formulation lagrangienne, on montre que

minimiser J revient à résoudre ce système couplé :
;
∂ .5 ,!&1
; =E
=@
&
∂!&
= @
.5 ,! 1
& =@ .5 ,! &1
Système résolu par le schéma algorithmique itératif suivant :
@- ( ( 2 73
;- ← E RS SR
A- ← G@
B-
5 ) 5 .) / . @ D 1,
) 5 .) / 3. @ D 1, & . 1= @
. 5 ,! & 1
) 6 =@ . 5 ,! 6 1
)
5 9 :,
5 ) 5 .) / 3. @ D 1,
)
;
∂ . 5 ,! & 1
; . −@ 1 =E
=@
&
∂! &
)
.) ) ; 2 8 2
Dans le cas classique où on utilise la distance classique
. 5 ,! & 1 = . 5 − ! & 1 . 5 − ! &1
On met à jour les prototypes par l’équation suivante :

;
;
& . −@ 1 5
! &. 1 = =@
;
;
& . −@ 1
& =@
Il s’agit de l’algorithme du Fuzzy C-Means

classique
« Clustering » [ ]
Cas « Fuzzy » : &∈ E,@
Ajoutons que pour m=1, il n’y a pas de clustering flou

meilleur que le meilleur des « crisp clustering ».
Mais pour m=2 (le cas étudié), il y a des cas pour

lesquels le clustering flou a de plus petites valeurs
pour J2(U;V)
« Clustering »
Algorithme des C-Moyennes Floues Exponentielles
(CMFE)
Prototypes : centroïdes Vj et
matrices de covariance floue Fj
;
;
& . 5 − ! & 1. 5 − ! & 1
@& = =@
;
;
&
=@
Distance : exponentielle de
[ ]
@R ;
( ) ( )
. @& 1 @
;
.5 , & 1= 2 5 − & @ −@ 5 − &
& ;
« Clustering »
Algorithme des C-Moyennes Floues Exponentielles
(CMFE)
« Clustering »
Comment déterminer
le nombre de groupements C optimal ?
Critère numérique :
la Densité Moyenne
de Partition
(DMP) ?
« Clustering »
Critère numérique :la Densité Moyenne de Partition
# . 1= @ &
& =@ !&
Avec A & ={5∈A *.5−!&1@&−@.5−!&1<@}
& = &
5 ∈A &
@R ;
et l’hypervolume flou de chaque cluster !& = @&
« Clustering »
!
$
. + 1 $
+
T$ # $O $ > ( U
. ( 1
« Clustering »
Regroupement en
famille de gènes
5 # $ " /
) .) )/ -
5 $+ #*
∀5 ∈ " , ∀ω ∈℘. " 1 . 5, ω 1 ∈ ℜ +
5 ) D $ 8( " *
= (℘) = ( 5, ω )
ω∈℘ 5∈ω
5 ) D $ ' " D ?ω *
= (℘) = ( 5, ?ω )
ω∈℘ 5∈ω
5 # $ " /
) .) )/ -
($ *
@- ( ( N 2 {? @
E
, ?;E ,---, ?>E }
;- ← E
A- ← G@
B- ) 5 .) / ?. @ D N1,
{
ω 6 ← 5 ∈ " ∀& ≠ 6 , . 5, ?6 −@ 1 ≤ . 5, ? & −@ 1 }
?6 : ω6
)
67 # ω6 ≠ ω6 +@ ≤ E, A
# 8
#
5 # $ " /
) .) )/ -
2 $ *
@
5 ?ω ) : / ω) .ω 1 5∈ω
5
5 $5 ?' ) $5 ?ω '
5 # $ " /
) .) )/ -
$ *
5' $ # $ *
D 2 2 $
5: / $
+ # 2 $
5 # $ " /
) .) )/ -
2 $ VV N! *
Objectifs
1. Classification automatique
2. Programmation Dynamique
3. Discrimination Fonctionnelle
4. Connexionisme
5. Statistiques bayésiennes
6. K-ppv
7. Méthodes stochastiques
8. Approches syntaxiques et structurelles
Apprentissage (automatique ou artificiel) :
Machine Learning
Cette notion englobe toute méthode permettant de construire un modèle de
la réalité à partir de données.
Il existe deux tendances principales :
•Celle issue de l’IA qualifiée de symbolique
•Celle issue des statistiques qualifiée de numérique
Fouille de données (Extraction de connaissances à partir des données) :

Data Mining (Knowledge discovery in data)
La fouille de données prend en charge le processus complet d’extraction de
connaissances : stockage dans une BD, sélection des données à étudier,
nettoyage de ces données, puis utilisation des apprentissages symboliques
et numériques afin de proposer des modèles à l’utilisateur, enfin validation
des modèles proposés.
Précision vs. Généralisation
Le grand dilemme de l’apprentissage.
La précision est définie par un écart entre une valeur mesurée ou prédite et
une valeur réelle. Apprendre avec trop de précision conduit à un “sur-
apprentissage”, comme l’apprentissage par coeur, pour lequel des détails
insignifiants (dûs au bruit) sont appris.
Apprendre avec trop peu de précision, conduit à une surgénéralisation telle

que le modèle s’applique même quand l’utilisateur ne le désire pas.
Il existe des mesures de généralisation, et l’utilisateur peut fixer le seuil de

généralisation qu’IL juge optimal.
Classification :
La classification (voire Analyse de données) consiste à regrouper des

ensembles d’exemples non supervisés en classes.
Ces classes sont souvent organisées en une structure (clustering). Si cette

structure est un arbre, alors on parle de taxonomie ou de taxinomie
(taxonomy).
Il s’agit par exemple de prévoir l’appartenance d’un oiseau observé à la

classe “canard” ou “oie”.
Deux champs industriels de l’Apprentissage :

1. La Reconnaissance des Formes (image, parole, signaux
bio-médicaux)
2. La Fouille de Données
Exemples d’apprentissage :
= Oie
Couleur = Canard
Couleur
Sombre Sombre
Clair Clair
Blanc Blanc
Taille de l’oiseau Taille de l’oiseau
Oiseaux Observés par un Données Etiquetées par un

débutant expert (superviseur)
Exemples d’apprentissage : = Oie
= Canard
Couleur Couleur
Sombre Sombre
Clair Clair
Blanc Blanc
Taille de l’oiseau
Apprentissage d’une règle de Apprentissage d’une règle de

décision simple décision complexe
Exemples d’apprentissage : = Oie
= Canard
Couleur
Sombre
Clair
Blanc
Test en Décision sur d’autres

oiseaux à partir de la règle de
décision simple
#
$
@
Principe :
définir les fonctions de discrimination f permettant de
séparer partiellement ou totalement les classes
représentées par les vecteurs paramètres x de leurs
échantillons. L’ensemble des x exemples représente
l’ensemble d’apprentissage S.
#
@
7
Objectifs :
• Il s’agit d’apprendre un concept sous la forme
géométrique la plus simple : celle d’un hyperplan.
• Apprentissage de surfaces séparatrices linéaires dans un
espace de représentation nécessairement numérique.
• Lien avec les Réseaux de Neurones et les SVM
#@7
d1
Couleur
Sombre
d2
Clair
Blanc
• (d1) minimise le nombre d’erreurs dans l’ensemble d’apprentissage
• (d2) minimise le risque bayésien d’erreurs par rapport à l’ensemble d’apprentissage

#@7
Hypothèses :
Les classes sont linéairement séparables.
Remarque : hypothèse pas plus injustifiée que la classique

hypothèse statistique a priori gaussienne
Dans ℜn, une surface linéaire est un hyperplan f :

. 51 = ω E + ω@ 5@ + ω ; 5; + --- + ω 5 = B - A = E
A = .@, 5@ , 5; ,---, 5 1 = .@, 51
B = . CE , C@ , C; ,---, C 1 = . CE , C1
Dans ℜ2, une droite est définie par : #@7
. 51 = ω E + ω@ 5@ + ω ; 5; = E
que l’on va écrire 5 = . 5@ , 5; 1
. 51 = ω E + C 5 = E C = . C@ , C; 1
Remarque : ∆ est une distance signée
x2
W
x
w
. 51
∆ . 5, B 1 =
CE
C
C
x1
. 51 = ω E + ω@ 5@ + ω ; 5; = E
#@7
Apprentissage :
5 Déterminer les coefficients W de ces fonctions discriminantes

à partir de formes connues
• Algorithme du Perceptron : le plus ancien et le plus simple

#@7
Cas de 2 classes :
>E A ∈
. A 1 = B -A @
<E A∈ ;
On pose ∀A ∈ @ , ?=A
∀A ∈ ; , ? = −A
Alors
B -A > E A∈
B -? > E ⇔
@
B -A < E A∈ ;
#@7
Cas de 2 classes :
Si on range maintenant les m vecteurs X comme colonnes d’une matrice M,
le problème de séparation linéaire revient à la recherche d’un vecteur W
dans ℜn+1, tel que : B =D
où B est un vecteur positif inconnu de ℜm+1
Comme en général M n’est pas inversible et que les données ne sont

pas réellement complètement linéairement séparables, il faut trouver
l’hyperplan W le meilleur possible selon par exemple le critère :
@ ;
= .B , D 1 = B −D
;
#@7
Cas de 2 classes :
Or, si W et B minimisent bien J(W,B) : = .B , D 1 = ∆ . 5, B 1 ;
5∈ B
Ce qui revient à se placer dans le cadre du critère aux moindres carrés.
Donc dans l’hypothèse que les distances entre W et les points mal classés
par W sont répartis selon une distribution gaussienne, et que ceux-ci sont les
seuls à compter dans le positionnement de W, la minimisation de J(W,B) est
la recherche du meilleur hyperplan a posteriori au sens bayésien, cad l eplus
probable connaissant les données.
#@7
Cas de 2 classes :
@ ;
= .B , D1 = B −D ∇ = .B , D 1 = .B −D 1
;
qui atteint son minimum pour .B −D 1=E

+
soit B =D
où M+ est la pseudo-inverse de M = MT(MMT) -1 (user de la SVD si nécessaire)
Comme on ne connait pas B, l’algorithme doit réaliser une minimisation

de J(W,B) sous la contrainte B positif ou nul
#@7
Cas de 2 classes :
Méthode globale basée sur une descente de gradient :
Algorithme de Ho et Kashyap
α
← !
!" ← !α #
← !"
$
% &' (
+
B . 1 =D . 1 puis trouver B(t+1) tel que J(W(t),B(t+1))≤ J(W(t),B(t))
or ∇ D. 1 = .B . 1 , D. 1 1 = − ; .B . 1 − D. 1 1 d’où D. +@1 = D. 1 + α .B . 1 − D. 1 1
or B>=0, d’où # ) 0 si # * +, - α
Cas de 2 classes : #@7
Méthode itérative historique :
Algorithme du Perceptron
. α
←
≤ ( /
( ←
& 0 1 /
2 / ( 0
2 / ∈3"
( ← ( ! α/ une époque d’apprentissage :
2 cumul des contributions de
( ← ( #α/ chaque exemple de S
$
$
$
. !" ←. !(
← !"
$
% &' (
#@7
• Convergence,mais lente et loin de l ’optimum
B +@? +@ = B ? +@ + ? +@
;
+
*
• Minimisation de = .B 1 = − B 5
5∈ B
• La base S peut être parcourue plusieurs fois

• Version stochastique mais meilleure généralisation de Ho et Kashyap
#@7
Cas général : M classes C1, C2, …CM
( " 9 2D
( * 2* . !@1R; (
(
#@7
9 / 2
ω,
ω+
ω<
5 #) ; )=
25 $
• Neurones Formels et Réseaux de Neurones :

##
"
= . C6 56 1
6 =@
• Un Neurone Formel effectue une discrimination linéaire

• Un réseau de Neurones effectue une discrimination linéaire
par morceaux
5
Succès sur le Problème du XOR avec une couche cachée :

5
Divers Points de Vue
sur les Réseaux de Neurones :
•Point de Vue Informatique :

Parallélisme à grains très fins;
•Point de Vue de la Classification :
Discriminateur Linéaire Complexe;
5
Avantages Principaux :
• Inclus dans son traitement Analyse et Prétraitement
• Grande Capacité Autonome d ’Apprentissage
Algorithme de Rétropropagation
• Problème de la Généralisation
• Extension non linéaire et bien fondée théoriquement
donnée par les SVM : Séparateurs à Vastes Marges ou
Support Vector Machines -> kernel-based machine learning
L’Analyse
9
Bayésienne
• Modèle Probabiliste de Représentation des Formes ?

• Assure en théorie le Minimum d’Erreur en Classification
Propriété :
La règle de décision bayésienne est la règle de décision
optimale au sens où elle minimise le risque réel en utilisant
l’information disponible de manière optimale.
Etant donné que l’on m’a fourni un échantillon de

données, comment cela doit-il modifier mes
croyances antérieures sur le monde ?
9
Règle de Bayes de révision des probabilités :
• x : représentation de la forme, ω : classe
8( )$ >
$ +
. 5, ω 1 $ +
.5 R ω 1 =
.ω 1 . 5 R ω 1 .ω 1
.ω R 51 =
. 5, ω 1 . 51
.ω R 51 =
. 51
Difficile à Probabilité a Probabilités
calculer posteriori a priori
9
Cas de 2 classes :
ω1 = oiseau et ω2 = canard après observation de
la variable x=couleur_aile
. W = R = 1 . = 1
. = R W = 1=
. W = 1
9
Risque bayésien :
Le but de l’agent est de prendre une décision (faire un diagnostic vital par
exemple) minimisant l’espérance de risque.
On définit une fonction de décision S : X ->H, où H est vu comme un
ensemble de décisions à prendre.
Dans le cas de N classes, H peut comprendre les N classes possibles Ω
en décision de classification plus une classe de rejet quand l’incertitude
est trop forte et ne permet pas de prendre de décision.
Avant toute observation sur le monde, et en prenant seulement en
compte les connaissances a priori, l’espérance de risque associée à une
décision h peut s’écrire : %.81 = .8 ω 1 .ω 1
ω∈Ω
où p(ω) dénote la probabilité a priori que le monde soit dans l’état ω,
tandis que l(h| ω) est le coût ou perte encouru lorsque la décision h est
prise alors que l’état du monde est ω.
9
En général,
E 8 =ω . 1
.8 ω 1 = @ 8 ≠ω . 1
8= & . 1
Mais , le coût de ne pas diagnostiquer à tort une tumeur est bien plus
élevé que de faire un faux diagnostic. Le coût de la décision incorrecte
est ajustable.
9
Principe de la Décision Bayésienne :

Choisir pour l’observation x la classe ω qui
minimise l’espérance de risque.
8 =
S
.8 ω 1 .ω 1 . 5 ω 1
8∈ ω∈Ω
9
cas particuliers
Règle du Maximum A Posteriori (MAP) :

Lorque les coûts de mauvaise classification sont égaux,
la règle de décision bayésienne de risque minimal
devient la règle du MAP :
8 =
S
5 .ω 1 . 5 ω 1
8∈Ω
Remarque : cette règle minimise le nombre d’erreurs en classification

9
cas particuliers
Règle du Maximum de Vraisemblance

Maximum Likelihood (ML) :
Si de plus toutes les hypothèses ont la même probabilité
a priori, alors la règle du MAP devient la règle du
Maximum de Vraisemblance :
8 =
S
5 .5 ω1
8∈Ω
9
cas particuliers
p
x
9
cas particuliers
Nous supposons maintenant que la tâche d’apprentissage consiste à
discriminer les formes observées x en 2 classes : H = Ω = {ω1, ω2}
Etant donnée l’observation x, les espérances de risque associés à chaque
décision sont respectivement en notant l(ωi|ωj)=lij :
R(ω1)=l11 p(ω1 |x) + l12 p(ω2 |x)
R(ω2)=l21 p(ω1 |x) + l22 p(ω2 |x)
La règle de Bayes stipule de choisir l’hypothèse d’espérance de risque
minimal. Il faut donc atrribuer la forme x à la classe ω1 ssi :
(l21-l11) p(ω1 |x) ≥ (l12-l22) p(ω2 |x),
Que l’on peut écrire en appliquant la formule de Bayes de révision des
probabilités :
(l21-l11) p (x| ω1) p(ω1) ≥ (l12-l22) p (x| ω2) p(ω2), soit :
. 5 ω@ 1 . ;@ − 1 .ω@ 1
. 51 = + @@
≥E
.5 ω; 1 . @; − ;; 1 .ω ; 1
9
cas particuliers
La règle de décision bayésienne se traduit ainsi par une fonction de
discrimination ou de décision d décrivant une frontière ou surface de décision
dans l’espace X.
On peut donc essayer d’apprendre directement cette frontière de décision

plutôt que les probabilités, plus difficiles à estimer -> voire les méthodes de
classifications fonctionnelles et le connexionnisme.
Dans le cas particulier de la discrimination entre deux classes, de distribution
normale gaussienne de moyennes µ1 et µ2 avec des matrices de covariances
égales Σ, la fonction de décision d(x) est une fonction linéaire :
@ . ;@ − 1 .ω@ 1
. 51 = . 5 − 1 Σ −@ . µ@ − µ ; 1 + @@
;. µ@ − µ ; 1 . @; − ;; 1 .ω ; 1
9
Validation de l’apprentissage
Probabilité de la classe
p Classe
A
Classe
B
Tous de la Tous de la
Classe A Classe B
Critère de décision
x
Validation de l’apprentissage 9
Probabilité de la classe
p
Faux
Vrais
négatifs
positifs
(10 %)
(90 %)
Classe B
Classe A Vrais
x
négatifs Faux
(60 %) positifs
(40 %)
x
Validation de l’apprentissage 9
/
9
*
5 A )053 54 , 5 2 * ( $X$
5 $5Eω') $5 Θ' Y Θ)0Θ3 Θ4 , Θ 2 $)

5 ( Θ8 "
. A , Θ1 = ∏ . 56 ,Θ1 = . . 56 ,Θ 11 5
6 =@ 6 =@
5# : µ=
@
56
→ Θ)0µ σ2 6 =@
@
σ = . 56 − µ 1 ;
6 =@
/
9
/ *
## $
6 () : $
> (
+ ( -
2
N!
>* /
5<? ( / =D ( *
# $ " .
<' 2$ =1
8 ( " > .( () # $
$ 1
5 / < $ " + =" + ( -→∞

5 $ ( #
/ $ ( 2
>*
' *
$ ( 6
( 5 ℜ $ # $
## 5D
>*
/ *
58 $
; D
$
5 # $
. / , ,( ( ---1
8
8 /
5' $ 2
5 ( & ? /
5 ) ? / (
5 ' /
# /
5 $ "
58 /
$ $ $ # $
57 + $
5
. $ 1
/ . 1
# /
8
5/
5 > 5
5' $$ $" ? 5
5 ( &
5 5 /
8 5 9
58 $+ R
$ %
5 ( 2 8 "
' $ / %
"
58 7 *
+
<6 ! =
<9 / ! ! =
<> =
58 *
2 3
#
"
58 2 4 2 3 .# 2 3 1 G 2 #
.# # 1
58 2 4 @EEZ ! 2
5> . / $+ # $ # 1
DFF,"6FF"6*3,FF"4FF"3FF4 D

RF2005 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

RF2005 PDF

Transféré par

Droits d'auteur :

Formats disponibles

!

Un format portable : pgm ou ppm ou pbm

Logiciels libres de manipulation: gimp et imageJ

Création des biomorphes par fractales

Une image peut être modélisée de plusieurs façons :

-> modèle de traitement mathématique, algorithmique, physique

Quantification en niveau de gris

• Cadre typique de la classification non supervisée, cad sans

Algorithme itératif de type

Nombre de groupements C connu

Minimisation itérative d'une fonctionnelle J(V)

V est un vecteur de paramètres de forme : on

Dans le cas où m=2, minimisation de la fonctionnelle

En utilisant la formulation lagrangienne, on montre que

. 5 ,! & 1 = . 5 − ! & 1 . 5 − ! &1

On met à jour les prototypes par l’équation suivante :

Il s’agit de l’algorithme du Fuzzy C-Means

Ajoutons que pour m=1, il n’y a pas de clustering flou

Mais pour m=2 (le cas étudié), il y a des cas pour

Critère numérique :la Densité Moyenne de Partition

Fouille de données (Extraction de connaissances à partir des données) :

Apprendre avec trop peu de précision, conduit à une surgénéralisation telle

Il existe des mesures de généralisation, et l’utilisateur peut fixer le seuil de

La classification (voire Analyse de données) consiste à regrouper des

Ces classes sont souvent organisées en une structure (clustering). Si cette

Il s’agit par exemple de prévoir l’appartenance d’un oiseau observé à la

Deux champs industriels de l’Apprentissage :

Taille de l’oiseau Taille de l’oiseau

Oiseaux Observés par un Données Etiquetées par un

Apprentissage d’une règle de Apprentissage d’une règle de

Test en Décision sur d’autres

• (d1) minimise le nombre d’erreurs dans l’ensemble d’apprentissage

• (d2) minimise le risque bayésien d’erreurs par rapport à l’ensemble d’apprentissage

Remarque : hypothèse pas plus injustifiée que la classique

Dans ℜn, une surface linéaire est un hyperplan f :

5 Déterminer les coefficients W de ces fonctions discriminantes

• Algorithme du Perceptron : le plus ancien et le plus simple

où B est un vecteur positif inconnu de ℜm+1

Comme en général M n’est pas inversible et que les données ne sont

Ce qui revient à se placer dans le cadre du critère aux moindres carrés.

qui atteint son minimum pour .B −D 1=E

Comme on ne connait pas B, l’algorithme doit réaliser une minimisation

• La base S peut être parcourue plusieurs fois

• Neurones Formels et Réseaux de Neurones :

• Un Neurone Formel effectue une discrimination linéaire

Succès sur le Problème du XOR avec une couche cachée :

•Point de Vue Informatique :

• Modèle Probabiliste de Représentation des Formes ?

Etant donné que l’on m’a fourni un échantillon de

Principe de la Décision Bayésienne :

Règle du Maximum A Posteriori (MAP) :

Remarque : cette règle minimise le nombre d’erreurs en classification

Règle du Maximum de Vraisemblance

On peut donc essayer d’apprendre directement cette frontière de décision

5 $5Eω') $5 Θ' Y Θ)0Θ3 Θ4 , Θ 2 $)

5 / < $ " + =" + ( -→∞

Vous aimerez peut-être aussi