Vous êtes sur la page 1sur 134

!

" # $ %
! " & # $ %
)$ $ *

' !
'( " $
$
"
$ +

$ ,
,
( $
---

(
( $ "
. , / , ---
$ $ 01
$
2

' $)

"
2

' $) $

2
'
)
$ *
! # #,
! $+ /
! 3

$
' $)

# 2
4 $+ ( ( "
4∅ /
≠∅ /
5' $ # *
5 $ (
5 (

5 6 ' 3 /

5 ( 2 $ "
! "#

$
%!
5 $$ 7
5 $ "
58 8 $ 9 )
5 !
5 2 # $
&
5 ! ( "
5 , '( , 9
9
'
5 $ (
6 $$ ! (
58 $ " 9

5 ( # ()" +
5 (/ $
5
5

8
58 $ , $
5 $
5 $ (
( (
5 # ')
5 / ' + "
5: ( " * $
' /
"
7
5 ' (
5 2
'

'
. 1 . 1
;7

"
8( 8(
( ( " ( $
2 $ $
" + $+ $
< = < =
' $ $$
$) ) 2"
;7

: +
$ $ $ (
# $

$ ' $ /
$ " 9 "

/ / $ # !
$
;7

"
# $ " : (
$ 2"
( 2 ' $$ $"
( " > ( ( "
9 ?' ' ( 7
2 $

( ## $ *
@- # ( # $ ( ## # *
" , , ! -
;- # " $ -
A- 2 $+ + "
$+ -
B- $ $+
& ---
C- 9 . ## D @E 1
# $ D (
* $ $ $ ( ## ,
, 2 " ---
2 $

' $
+
$
"
$

<A=
/
E-F
2 $

5 ' + )$ $ $ )
()$

( ( " $
' $$ $"
$
$

Un format portable : pgm ou ppm ou pbm

P2
P3
#feep.pgm
# example from the man
10 5
page
4
4 4
0001144300
15
0141144300
0 0 0 0 0 0 0 0 0 15 0 15
0031144300
0 0 0 0 15 7 0 0 0 0 0 0
0001133300
0 0 0 0 0 0 0 15 7 0 0 0
0001122222
15 0 15 0 0 0 0 0 0 0 0 0

Logiciels libres de manipulation: gimp et imageJ


Exercice : http://sip-crip5.org/lomn/ti.html

Création des biomorphes par fractales

Noir et blanc
Pour chaque point du plan imaginaire (z=x+iy)
On lance une boucle de 10 itérations :
On calcule z=f(z)
Si (|x|>10 ou |y|>10 ou |z|>10),
on quitte la boucle.
En fin de boucle :
Si (|x|>10 ou |y|>10),
on marque un pixel noir sur fond blanc.
Couleur
La couleur dépend du nombre d'itérations et de la valeur de |x|, |y|, |z|.

Ensembles de Julia
Fonction f(z)
f(z) = zExposant + C
'

! " *
5' 4
5 * + # G
/ /
56 *# " /+ /
/
5 8 $+ *$
# $ /
'

8 / ( *

5 < $ = ( "
5 #
5 $ $ * ( )$
'
" : 7 H *

57+ 7
59
5 +
5 2 */ /
'
" 7 H *

5 7 " . ,$ 1
59 . , 1
5 / 9)/ . + + 1
'
$ 7 H *

7 $ $! $! /
$ /
ε
+
φ ∂I
9 +
' ⊃
9 + : /
## $
'
" " 7 H *

5 7
5 " /
5 $ 4 2$
'
( $ ' 7 *
'
$ " 7 H
2 $ # $ @ ;*

ε
φ ∂ *
) ⊃
+
'
8 $ >

$$
' $

Une image peut être modélisée de plusieurs façons :


• une fonction continue de deux variables f(x,y)
• une matrice 2D, discrétisant la fonction f(x,y)
• la réalisation d'une Variable Aléatoire

-> modèle de traitement mathématique, algorithmique, physique


' $

5 > .( # " + + 1

5
56 $
5
' $
' $
$

J$

7 ' $ / *
5
' $ /

5
$

$ $ $
$

' $) 7 *

58 " *
5 *
5 $ *
5 " * !
" #

5 * $% %&' ( ) *+ *
& ,-
$

7 *
5 ) 6 $ )

$
(
$

5 2$
5 $ ---

;
@

E
K
$

' $) *
5 / 2
5 + /
5 +
'
( " "
' $ / *
5
5 +
5'( )$
' $) *
58 $ , "
5
5 $ * / L
$ '

5 *% . * ' 2 #
$ < $ =4 + %
classification segmentation
Segmentation, souvent égale à de la classification
automatique de pixels dans un espace ℜn

Quantification en niveau de gris


dans ℜ1 ou en couleur dans ℜ3
# $ " /

• Cadre typique de la classification non supervisée, cad sans


exemples.
• Notion de Proximité dans un espace métrique
• Principe : Classification et Décision par la Distance
• Propriétés d ’une Classification Idéale :
• Compacité
• Séparabilité
• Dans la pratique, Défaillance de Formes (« floues »)
5 # $ " /

5 ' !' *
$ '4 "

5 ' ! *
$ ') 0 $ '1 ∈ 2

5 ! *
$ 3 4' ) 0 $ '1 ∈ 3 ∈ 42
5 # $ " /

5 ⇔ #

5 + 5D 6 ⇔ 6) $5 '
5 # $ " /
) ) -
7 + 8 # (

K + B
B B M C ; A

C K # A
A B M B C B

( F A 3
5 # $ " /
) ) -

8 (

! " #

$% # & ← ∪ !
5 # $ " /
) ) -
9 7
: (

+ B
B B ; A

#
A B

( F A 3
5 # $ " /
) ) -

59 $ ( (" D
$ "
5 + ( 2
5 + ## ( &
5 # $ " /
) .) )/ -

5' N $+ *
5 $ ) + O*
5 $ ## $$ #
( "
5 ($ D 0 / )1
) ) 2 3
« Clustering »
« Clustering »

$"

($
8

!$ #
« Clustering »
Principe des Nuées
Dynamiques
P
« Clustering »

Algorithme itératif de type


ISODATA

Nombre de groupements C connu

Minimisation itérative d'une fonctionnelle J(V)

V est un vecteur de paramètres de forme : on


peut prendre par exemple le barycentre mC d’un nuage de points C.
« Clustering » Cas « Général »
Principe des C-moyennes
Minimisation de la fonction objective :

;
= .<Q!1= & .5 ,!&1
& =@ =@
« Clustering » Cas « Crisp » : &∈{E,@}
) .) )4 - )
($ *
@- ( ( 2 {?@
E
, ?;E ,---, ?>E }
;- ← E
A- ← G@
B- ) 5 .) / ?. @ D 1,
{
ω 6 ← 5 ∈ " ∀& ≠ 6 , . 5, ?6 −@ 1 ≤ . 5, ? & −@ 1 }
?6 : ω6
)
67 # ω6 ≠ ω6 +@ ≤ E, A
# 8
#
« Clustering » Cas « Fuzzy » : &∈ E,@ [ ]
Coefficient d ’appartenance uij dans [0,1]

V1 @4E-F

44E-B

Dans le cas où m=2, minimisation de la fonctionnelle


suivante :
;
= .<Q!1= ;
& .5 ,!&1
& =@ =@
« Clustering » Cas « Fuzzy » : &∈ E,@ [ ]

En utilisant la formulation lagrangienne, on montre que


minimiser J revient à résoudre ce système couplé :
;
∂ .5 ,!&1
; =E
=@
&
∂!&
= @
.5 ,! 1
& =@ .5 ,! &1
« Clustering » Cas « Fuzzy » : &∈ E,@ [ ]
Système résolu par le schéma algorithmique itératif suivant :
@- ( ( 2 73
;- ← E RS SR
A- ← G@
B-
5 ) 5 .) / . @ D 1,
) 5 .) / 3. @ D 1, & . 1= @
. 5 ,! & 1
) 6 =@ . 5 ,! 6 1
)
5 9 :,
5 ) 5 .) / 3. @ D 1,
)
;
∂ . 5 ,! & 1
; . −@ 1 =E
=@
&
∂! &
)
.) ) ; 2 8 2
« Clustering » Cas « Fuzzy » : &∈ E,@ [ ]
Dans le cas classique où on utilise la distance classique

. 5 ,! & 1 = . 5 − ! & 1 . 5 − ! &1

On met à jour les prototypes par l’équation suivante :


;
;
& . −@ 1 5
! &. 1 = =@
;
;
& . −@ 1
& =@

Il s’agit de l’algorithme du Fuzzy C-Means


classique
« Clustering » [ ]
Cas « Fuzzy » : &∈ E,@

Ajoutons que pour m=1, il n’y a pas de clustering flou


meilleur que le meilleur des « crisp clustering ».

Mais pour m=2 (le cas étudié), il y a des cas pour


lesquels le clustering flou a de plus petites valeurs
pour J2(U;V)
« Clustering »
Algorithme des C-Moyennes Floues Exponentielles
(CMFE)
Prototypes : centroïdes Vj et
matrices de covariance floue Fj
;
;
& . 5 − ! & 1. 5 − ! & 1
@& = =@
;
;
&
=@

Distance : exponentielle de

[ ]
@R ;

( ) ( )
. @& 1 @
;
.5 , & 1= 2 5 − & @ −@ 5 − &
& ;
« Clustering »
Algorithme des C-Moyennes Floues Exponentielles
(CMFE)
« Clustering »
Comment déterminer
le nombre de groupements C optimal ?
Critère numérique :
la Densité Moyenne
de Partition
(DMP) ?
« Clustering »

Critère numérique :la Densité Moyenne de Partition

# . 1= @ &

& =@ !&
Avec A & ={5∈A *.5−!&1@&−@.5−!&1<@}
& = &
5 ∈A &
@R ;
et l’hypervolume flou de chaque cluster !& = @&
« Clustering »

!
$
. + 1 $

+
T$ # $O $ > ( U
. ( 1
« Clustering »

Regroupement en
famille de gènes
5 # $ " /
) .) )/ -

5 $+ #*
∀5 ∈ " , ∀ω ∈℘. " 1 . 5, ω 1 ∈ ℜ +

5 ) D $ 8( " *

= (℘) = ( 5, ω )
ω∈℘ 5∈ω
5 ) D $ ' " D ?ω *

= (℘) = ( 5, ?ω )
ω∈℘ 5∈ω
5 # $ " /
) .) )/ -
($ *
@- ( ( N 2 {? @
E
, ?;E ,---, ?>E }
;- ← E
A- ← G@
B- ) 5 .) / ?. @ D N1,
{
ω 6 ← 5 ∈ " ∀& ≠ 6 , . 5, ?6 −@ 1 ≤ . 5, ? & −@ 1 }
?6 : ω6
)
67 # ω6 ≠ ω6 +@ ≤ E, A
# 8
#
5 # $ " /
) .) )/ -

2 $ *
@
5 ?ω ) : / ω) .ω 1 5∈ω
5

5 $5 ?' ) $5 ?ω '
5 # $ " /
) .) )/ -

$ *
5' $ # $ *
D 2 2 $

5: / $
+ # 2 $
5 # $ " /
) .) )/ -
2 $ VV N! *
Objectifs

1. Classification automatique
2. Programmation Dynamique
3. Discrimination Fonctionnelle
4. Connexionisme
5. Statistiques bayésiennes
6. K-ppv
7. Méthodes stochastiques
8. Approches syntaxiques et structurelles
Apprentissage (automatique ou artificiel) :
Machine Learning
Cette notion englobe toute méthode permettant de construire un modèle de
la réalité à partir de données.
Il existe deux tendances principales :
•Celle issue de l’IA qualifiée de symbolique
•Celle issue des statistiques qualifiée de numérique

Fouille de données (Extraction de connaissances à partir des données) :


Data Mining (Knowledge discovery in data)
La fouille de données prend en charge le processus complet d’extraction de
connaissances : stockage dans une BD, sélection des données à étudier,
nettoyage de ces données, puis utilisation des apprentissages symboliques
et numériques afin de proposer des modèles à l’utilisateur, enfin validation
des modèles proposés.
Précision vs. Généralisation
Le grand dilemme de l’apprentissage.

La précision est définie par un écart entre une valeur mesurée ou prédite et
une valeur réelle. Apprendre avec trop de précision conduit à un “sur-
apprentissage”, comme l’apprentissage par coeur, pour lequel des détails
insignifiants (dûs au bruit) sont appris.

Apprendre avec trop peu de précision, conduit à une surgénéralisation telle


que le modèle s’applique même quand l’utilisateur ne le désire pas.

Il existe des mesures de généralisation, et l’utilisateur peut fixer le seuil de


généralisation qu’IL juge optimal.
Classification :

La classification (voire Analyse de données) consiste à regrouper des


ensembles d’exemples non supervisés en classes.

Ces classes sont souvent organisées en une structure (clustering). Si cette


structure est un arbre, alors on parle de taxonomie ou de taxinomie
(taxonomy).

Il s’agit par exemple de prévoir l’appartenance d’un oiseau observé à la


classe “canard” ou “oie”.

Deux champs industriels de l’Apprentissage :


1. La Reconnaissance des Formes (image, parole, signaux
bio-médicaux)
2. La Fouille de Données
Exemples d’apprentissage :

= Oie
Couleur = Canard
Couleur
Sombre Sombre

Clair Clair

Blanc Blanc

Taille de l’oiseau Taille de l’oiseau

Oiseaux Observés par un Données Etiquetées par un


débutant expert (superviseur)
Exemples d’apprentissage : = Oie
= Canard

Couleur Couleur
Sombre Sombre

Clair Clair

Blanc Blanc

Taille de l’oiseau

Apprentissage d’une règle de Apprentissage d’une règle de


décision simple décision complexe
Exemples d’apprentissage : = Oie
= Canard

Couleur
Sombre

Clair

Blanc

Test en Décision sur d’autres


oiseaux à partir de la règle de
décision simple
#
$
@

Principe :
définir les fonctions de discrimination f permettant de
séparer partiellement ou totalement les classes
représentées par les vecteurs paramètres x de leurs
échantillons. L’ensemble des x exemples représente
l’ensemble d’apprentissage S.
#
@
7

Objectifs :
• Il s’agit d’apprendre un concept sous la forme
géométrique la plus simple : celle d’un hyperplan.
• Apprentissage de surfaces séparatrices linéaires dans un
espace de représentation nécessairement numérique.
• Lien avec les Réseaux de Neurones et les SVM
#@7

d1
Couleur
Sombre

d2
Clair

Blanc

• (d1) minimise le nombre d’erreurs dans l’ensemble d’apprentissage

• (d2) minimise le risque bayésien d’erreurs par rapport à l’ensemble d’apprentissage


#@7

Hypothèses :
Les classes sont linéairement séparables.

Remarque : hypothèse pas plus injustifiée que la classique


hypothèse statistique a priori gaussienne

Dans ℜn, une surface linéaire est un hyperplan f :


. 51 = ω E + ω@ 5@ + ω ; 5; + --- + ω 5 = B - A = E
A = .@, 5@ , 5; ,---, 5 1 = .@, 51
B = . CE , C@ , C; ,---, C 1 = . CE , C1
Dans ℜ2, une droite est définie par : #@7
. 51 = ω E + ω@ 5@ + ω ; 5; = E
que l’on va écrire 5 = . 5@ , 5; 1
. 51 = ω E + C 5 = E C = . C@ , C; 1
Remarque : ∆ est une distance signée
x2

W
x
w
. 51
∆ . 5, B 1 =
CE
C
C

x1

. 51 = ω E + ω@ 5@ + ω ; 5; = E
#@7
Apprentissage :

5 Déterminer les coefficients W de ces fonctions discriminantes


à partir de formes connues

• Algorithme du Perceptron : le plus ancien et le plus simple


#@7
Cas de 2 classes :

>E A ∈
. A 1 = B -A @

<E A∈ ;

On pose ∀A ∈ @ , ?=A
∀A ∈ ; , ? = −A

Alors
B -A > E A∈
B -? > E ⇔
@

B -A < E A∈ ;
#@7
Cas de 2 classes :
Si on range maintenant les m vecteurs X comme colonnes d’une matrice M,
le problème de séparation linéaire revient à la recherche d’un vecteur W
dans ℜn+1, tel que : B =D

où B est un vecteur positif inconnu de ℜm+1

Comme en général M n’est pas inversible et que les données ne sont


pas réellement complètement linéairement séparables, il faut trouver
l’hyperplan W le meilleur possible selon par exemple le critère :

@ ;
= .B , D 1 = B −D
;
#@7
Cas de 2 classes :
Or, si W et B minimisent bien J(W,B) : = .B , D 1 = ∆ . 5, B 1 ;
5∈ B

Ce qui revient à se placer dans le cadre du critère aux moindres carrés.

Donc dans l’hypothèse que les distances entre W et les points mal classés
par W sont répartis selon une distribution gaussienne, et que ceux-ci sont les
seuls à compter dans le positionnement de W, la minimisation de J(W,B) est
la recherche du meilleur hyperplan a posteriori au sens bayésien, cad l eplus
probable connaissant les données.
#@7
Cas de 2 classes :
@ ;
= .B , D1 = B −D ∇ = .B , D 1 = .B −D 1
;

qui atteint son minimum pour .B −D 1=E


+
soit B =D
où M+ est la pseudo-inverse de M = MT(MMT) -1 (user de la SVD si nécessaire)

Comme on ne connait pas B, l’algorithme doit réaliser une minimisation


de J(W,B) sous la contrainte B positif ou nul
#@7
Cas de 2 classes :
Méthode globale basée sur une descente de gradient :
Algorithme de Ho et Kashyap
α

← !

!" ← !α #
← !"
$

% &' (

+
B . 1 =D . 1 puis trouver B(t+1) tel que J(W(t),B(t+1))≤ J(W(t),B(t))
or ∇ D. 1 = .B . 1 , D. 1 1 = − ; .B . 1 − D. 1 1 d’où D. +@1 = D. 1 + α .B . 1 − D. 1 1

or B>=0, d’où # ) 0 si # * +, - α
Cas de 2 classes : #@7
Méthode itérative historique :
Algorithme du Perceptron
. α


≤ ( /
( ←
& 0 1 /
2 / ( 0
2 / ∈3"
( ← ( ! α/ une époque d’apprentissage :
2 cumul des contributions de
( ← ( #α/ chaque exemple de S
$
$
$
. !" ←. !(
← !"
$

% &' (
#@7
• Convergence,mais lente et loin de l ’optimum

B +@? +@ = B ? +@ + ? +@
;

+
*

• Minimisation de = .B 1 = − B 5
5∈ B

• La base S peut être parcourue plusieurs fois


• Version stochastique mais meilleure généralisation de Ho et Kashyap
#@7
Cas général : M classes C1, C2, …CM

( " 9 2D
( * 2* . !@1R; (
(
#@7
9 / 2

ω,

ω+

ω<

5 #) ; )=
25 $

• Neurones Formels et Réseaux de Neurones :


##
"
= . C6 56 1
6 =@

• Un Neurone Formel effectue une discrimination linéaire


• Un réseau de Neurones effectue une discrimination linéaire
par morceaux
5

Succès sur le Problème du XOR avec une couche cachée :


5
Divers Points de Vue
sur les Réseaux de Neurones :

•Point de Vue Informatique :


Parallélisme à grains très fins;
•Point de Vue de la Classification :
Discriminateur Linéaire Complexe;
5

Avantages Principaux :
• Inclus dans son traitement Analyse et Prétraitement
• Grande Capacité Autonome d ’Apprentissage
Algorithme de Rétropropagation
• Problème de la Généralisation
• Extension non linéaire et bien fondée théoriquement
donnée par les SVM : Séparateurs à Vastes Marges ou
Support Vector Machines -> kernel-based machine learning
L’Analyse
9
Bayésienne

• Modèle Probabiliste de Représentation des Formes ?


• Assure en théorie le Minimum d’Erreur en Classification

Propriété :
La règle de décision bayésienne est la règle de décision
optimale au sens où elle minimise le risque réel en utilisant
l’information disponible de manière optimale.

Etant donné que l’on m’a fourni un échantillon de


données, comment cela doit-il modifier mes
croyances antérieures sur le monde ?
9
Règle de Bayes de révision des probabilités :
• x : représentation de la forme, ω : classe

8( )$ >
$ +
. 5, ω 1 $ +
.5 R ω 1 =
.ω 1 . 5 R ω 1 .ω 1
.ω R 51 =
. 5, ω 1 . 51
.ω R 51 =
. 51
Difficile à Probabilité a Probabilités
calculer posteriori a priori
9

Cas de 2 classes :
ω1 = oiseau et ω2 = canard après observation de
la variable x=couleur_aile

. W = R = 1 . = 1
. = R W = 1=
. W = 1
9

Risque bayésien :
Le but de l’agent est de prendre une décision (faire un diagnostic vital par
exemple) minimisant l’espérance de risque.
On définit une fonction de décision S : X ->H, où H est vu comme un
ensemble de décisions à prendre.
Dans le cas de N classes, H peut comprendre les N classes possibles Ω
en décision de classification plus une classe de rejet quand l’incertitude
est trop forte et ne permet pas de prendre de décision.
Avant toute observation sur le monde, et en prenant seulement en
compte les connaissances a priori, l’espérance de risque associée à une
décision h peut s’écrire : %.81 = .8 ω 1 .ω 1
ω∈Ω
où p(ω) dénote la probabilité a priori que le monde soit dans l’état ω,
tandis que l(h| ω) est le coût ou perte encouru lorsque la décision h est
prise alors que l’état du monde est ω.
9

En général,

E 8 =ω . 1
.8 ω 1 = @ 8 ≠ω . 1
8= & . 1

Mais , le coût de ne pas diagnostiquer à tort une tumeur est bien plus
élevé que de faire un faux diagnostic. Le coût de la décision incorrecte
est ajustable.
9

Principe de la Décision Bayésienne :


Choisir pour l’observation x la classe ω qui
minimise l’espérance de risque.

8 =
S
.8 ω 1 .ω 1 . 5 ω 1
8∈ ω∈Ω
9
Principe de la Décision Bayésienne :
cas particuliers

Règle du Maximum A Posteriori (MAP) :


Lorque les coûts de mauvaise classification sont égaux,
la règle de décision bayésienne de risque minimal
devient la règle du MAP :
8 =
S
5 .ω 1 . 5 ω 1
8∈Ω

Remarque : cette règle minimise le nombre d’erreurs en classification


9
Principe de la Décision Bayésienne :
cas particuliers

Règle du Maximum de Vraisemblance


Maximum Likelihood (ML) :
Si de plus toutes les hypothèses ont la même probabilité
a priori, alors la règle du MAP devient la règle du
Maximum de Vraisemblance :

8 =
S
5 .5 ω1
8∈Ω
9
Principe de la Décision Bayésienne :
cas particuliers
p

x
9
Principe de la Décision Bayésienne :
cas particuliers
Nous supposons maintenant que la tâche d’apprentissage consiste à
discriminer les formes observées x en 2 classes : H = Ω = {ω1, ω2}
Etant donnée l’observation x, les espérances de risque associés à chaque
décision sont respectivement en notant l(ωi|ωj)=lij :
R(ω1)=l11 p(ω1 |x) + l12 p(ω2 |x)
R(ω2)=l21 p(ω1 |x) + l22 p(ω2 |x)
La règle de Bayes stipule de choisir l’hypothèse d’espérance de risque
minimal. Il faut donc atrribuer la forme x à la classe ω1 ssi :
(l21-l11) p(ω1 |x) ≥ (l12-l22) p(ω2 |x),
Que l’on peut écrire en appliquant la formule de Bayes de révision des
probabilités :
(l21-l11) p (x| ω1) p(ω1) ≥ (l12-l22) p (x| ω2) p(ω2), soit :

. 5 ω@ 1 . ;@ − 1 .ω@ 1
. 51 = + @@
≥E
.5 ω; 1 . @; − ;; 1 .ω ; 1
9
Principe de la Décision Bayésienne :
cas particuliers
La règle de décision bayésienne se traduit ainsi par une fonction de
discrimination ou de décision d décrivant une frontière ou surface de décision
dans l’espace X.

On peut donc essayer d’apprendre directement cette frontière de décision


plutôt que les probabilités, plus difficiles à estimer -> voire les méthodes de
classifications fonctionnelles et le connexionnisme.
Dans le cas particulier de la discrimination entre deux classes, de distribution
normale gaussienne de moyennes µ1 et µ2 avec des matrices de covariances
égales Σ, la fonction de décision d(x) est une fonction linéaire :

@ . ;@ − 1 .ω@ 1
. 51 = . 5 − 1 Σ −@ . µ@ − µ ; 1 + @@
;. µ@ − µ ; 1 . @; − ;; 1 .ω ; 1
9
Validation de l’apprentissage

Probabilité de la classe
p Classe
A
Classe
B

Tous de la Tous de la
Classe A Classe B

Critère de décision
x
Validation de l’apprentissage 9
Probabilité de la classe
p

Faux
Vrais
négatifs
positifs
(10 %)
(90 %)
Classe B

Classe A Vrais
Critère de décision
x
négatifs Faux
(60 %) positifs
(40 %)

Critère de décision
x
Validation de l’apprentissage 9
/
9
*
5 A )053 54 , 5 2 * ( $X$

5 $5Eω') $5 Θ' Y Θ)0Θ3 Θ4 , Θ 2 $)


5 ( Θ8 "
. A , Θ1 = ∏ . 56 ,Θ1 = . . 56 ,Θ 11 5
6 =@ 6 =@

5# : µ=
@
56
→ Θ)0µ σ2 6 =@

@
σ = . 56 − µ 1 ;
6 =@
/
9
/ *
## $
6 () : $
> (
+ ( -

2
N!
>* /
5<? ( / =D ( *
# $ " .
<' 2$ =1
8 ( " > .( () # $
$ 1

5 / < $ " + =" + ( -→∞


5 $ ( #
/ $ ( 2
>*

' *
$ ( 6
( 5 ℜ $ # $
## 5D
>*

/ *
58 $
; D
$
5 # $
. / , ,( ( ---1
8
8 /
5' $ 2

5 ( & ? /

5 ) ? / (

5 ' /
# /

5 $ "
58 /
$ $ $ # $
57 + $
5
. $ 1
/ . 1
# /
8
5/

5 > 5
5' $$ $" ? 5
5 ( &

5 5 /
8 5 9

58 $+ R
$ %

5 ( 2 8 "
' $ / %
"

58 7 *
+
<6 ! =
<9 / ! ! =
<> =
58 *
2 3

#
"

58 2 4 2 3 .# 2 3 1 G 2 #
.# # 1
58 2 4 @EEZ ! 2

5> . / $+ # $ # 1

DFF,"6FF"6*3,FF"4FF"3FF4 D

Vous aimerez peut-être aussi