P. 1
Détection des changements pour les observatoires photographiques du paysage

Détection des changements pour les observatoires photographiques du paysage

|Views: 1,176|Likes:
Publié parMario Gharib

More info:

Categories:Types, Research, Science
Published by: Mario Gharib on Sep 16, 2011
Droits d'auteur :Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

02/07/2013

pdf

text

original

La classification supervisée est une des tâches de l’apprentissage supervisé, dont le but
est de prédire une classe correcte sur des données futures. Comme son nom l’indique, la
classification supervisée nécessite une supervision de la part d’un opérateur (ou d’un analyste)
dans laquelle, « il identifie des échantillons assez homogènes de l’image qui sont représentatifs
de différents types de classes d’information. »
[16]

Page 11

Il existe de nombreuses méthodes de classification supervisée, où un opérateur donne
des échantillons de différentes classes recherchées, citons : k plus proches voisins, classifieur
bayésien naïf, machine à vecteurs de support (SVM), etc. [1]

La classification supervisée

commence donc par l’identification des classes d’informations qui sont ensuite utilisées pour

définir les classes spectrales qui les représentent.

Soit le domaine des données, et le domaine des classes et soit une
distribution de probabilité conjointe sur . En donnant un ensemble d’apprentissage

, l’apprentissage supervisé va effectuer l’apprentissage d’une fonction :
. Le but est que prédise une classe correcte sur des futures données , dans

lequel

. [1]
L’abréviation signifie que des variables indépendantes et identiquement distribués
sont des variables aléatoires, où :

elles ont toutes la même loi de probabilité, et

elles sont mutuellement indépendantes (c’est-à-dire, n’ayant aucune influence l’une sur
l’autre). [21]

Comme on a déjà dit, il existe de nombreux classifieurs, on s’intéresse au .

Algorithme : plus proches voisins ( )[1]

Entrée : Ensemble d’apprentissage :

;

Un nombre de voisinages : ;

Une fonction de distance : ;

Test de l’instance :

;

Trouver les données de , les plus proches de

au sens de la distance ;

Sortie :

, qui est la majorité des classes ; départager les ex-æquo aléatoirement.

Pratiquement, l’ensemble d’apprentissage représente les pixels (échantillons) qu’un

opérateur identifie, représente la distance (ex. Euclidienne) , et

représente le pixel
qu’on souhaite classifier. L’algorithme va trouver instances des échantillons les plus proches
de

au sens de et enfin, la sortie de l’algorithme est

de telle façon qu’on départage les

ex-æquo aléatoirement.

Notons que « départager les ex-æquo aléatoirement » signifie qu’en cas de plusieurs
possibilités de valeur égale, l’algorithme va choisir une de ces possibilités de manière aléatoire.
(Voir figure 2.1.)

Page 12

Exemple 1. Illustration de l’algorithme sous l’apprentissage supervisée.

La bibliothèque de Matlab contient la méthode de classification supervisée suivante : [29]

[ class ] = knnclassify ( Sample , Training , Group , K , Distance , Rule ) ;

Cette méthode permet de classifier les données non-libellées, en précisant :

Sample : l’ensemble des données non-libellées.

Training : l’ensemble des données libellées.

Group : les classes correspondant de Training.

K : le nombre de voisinage K et les données libellées.

Distance : la distance métrique entre les données.

Rule : identifie la manière dont le partage des ex-æquo est effectué.

L’objectif est d’appliquer une classification supervisée sur des séries de photographies,
aussi l’opérateur va identifier, dans un premier temps, des pixels de chaque classe (ciel, eau,
arbres, etc.
sont des classes discrètes), mais cela nécessite beaucoup de temps (pour collecter les
données), et il est parfois difficile de le faire.

Dans notre cas, la taille de l’ensemble d’apprentissage est beaucoup très élevée, notons
que la taille minimale d’un ensemble d’apprentissage est égale à la taille d’une photo provenant
d’une série photographique, alors si on souhaite appliquer une classification supervisée, on a
besoin d’avoir une annotation complète de la photographie qui constitue l’ensemble
d’apprentissage ce qui est une tâche très difficile à faire, c’est pour cela que l’on va passer à une

nouvelle méthode de classification qui est une extension de la classification supervisée. On parle
de la classification semi-supervisée.

Page 13

CHAPITRE III

LES METHODES DE CLASSIFICATION
DE PIXELS SEMI-SUPERVISEES

Initialement l’apprentissage semi-supervisé est motivé par son intérêt pratique pour un
apprentissage rapide, meilleur et peu coûteux. Dans différentes applications réelles, il est
relativement facile d’obtenir une grande quantité de données non-libellées. Comme exemple
d’applications réelles, citons :

Des documents qui peuvent être obtenus du Web,

Des images qui peuvent être obtenues à partir des cameras de surveillance,

Des paroles qui peuvent être collectées à la radio, etc.

On a cité ces exemples juste pour illustrer que l’obtention des données non-libellées est
très facile, alors toutes ces données sont non-libellées et qui sont faciles à obtenir et à collecter,
en grandes quantités. La difficulté réside dans la connaissance des labels de ces données pour
certaines tâches de prédictions, ce qui nécessite une annotation humaine parfois très couteuse. [2]

Dans les parties ci-dessous on va définir ce qu’est une classification semi-supervisée, on
va voir comment il est possible d’apprendre quelque chose de données non-libellées et enfin on
va définir la différence entre l’apprentissage inductif et transductif.

1. Définition

La classification semi-supervisée est une extension de la classification supervisée. La
classification supervisée est effectuée par un apprentissage avec des données libellées, tandis
que cette nouvelle classification est réalisée, non pas seulement avec des données libellées, mais
aussi avec des données non-libellées. L’ensemble d’apprentissage de la classification semi-

supervisée, est constitué de données libellées

et non libellées

. [1]

2. Hypothèse

L’hypothèse est que le nombre de données libellées (difficiles à obtenir) va être
beaucoup plus petite que le nombre de données non-libellées (disponibles en grandes quantités

et sont simple à collecter), cela va nous permettre de réduire le travail d’étiquetage. L’idée de la
classification semi-supervisée est d’effectuer l’apprentissage d’un classifieur sur des données
libellées et non-libellées, de telle sorte qu’elle soit meilleure que la classification supervisée. [1]

Page 14

3. Apprentissage

Comment la classification semi-supervisée est-elle possible ? Qu’est ce qu’on peut
apprendre de données non-libellées ? Dans le cas de photographies, qu’est ce qu’on peut
apprendre des pixels dont on ne sait pas de quel composant paysager ils proviennent ? Les
réponses à toutes ces questions résident dans les hypothèses qui font le lien entre la distribution
des données non-libellées et des classes cibles .

4. Exemple d’apprentissage [1]

Dans la figure ci-dessous, on présente un exemple simple pour montrer comment
l’apprentissage semi-supervisé est possible, et pourquoi parfois la décision est meilleure dans la
classification semi-supervisée.

Figure 3.1. Un exemple simple illustrant comment l’apprentissage semi-supervisée est possible.

Dans la figure l’ensemble d’apprentissage supervisé est uniquement constitué de
deux données libellées, un libellé rouge et l’autre bleu, alors la meilleure estimation de la ligne
de décision est pour , donc toutes les données non-libellées qui sont à gauche de cette

ligne vont être classifiées rouge, et les autres vont être classifiées bleu, tandis que l’ensemble
d’apprentissage semi-supervisé
est constitué de toutes les données (libellées et non-libellées),

or l’hypothèse est que les données dans chaque classe forment un groupe cohérent, aussi
l’estimation semi-supervisée de la ligne de décision va être entre les deux groupes pour .

Figure 3.2. Effet de l’apprentissage semi-supervisée

-1.5 -1 -0.5 0 0.5 1 1.5 2

Résultat de l’apprentissage semi-supervisé

-1.5 -1 -0.5 0 0.5 1 1.5 2

Résultat de l’apprentissage supervisé

-1.5 -1 -0.5 0 0.5 1 1.5 2

Page 15

5. Différence type d’apprentissage semi-supervisé (inductif et transductif) [1][2]

On dispose d’un ensemble d’apprentissage de données libellées

et de

données non-libellées

tel que :

et


L’apprentissage inductif effectue l’apprentissage d’une classifieur ,
pour que soit une bonne prévision sur les données futures, au delà de

.

L’apprentissage transductif effectue l’apprentissage d’un classifieur

,

pour que soit une bonne prévision sur les données non libellées

.

6. Méthode d’apprentissage semi-supervisée

Il existe de nombreuses méthodes d’apprentissage semi-supervisé, citons : l’Auto-
Apprentissage (Self-Training), le Co-Apprentissage (Co-Training), les Machines à vecteur de
support (SVM), les Modèles Génératifs (Generative Models), les Modèles à Base de Graphes
(Graph Based SSL). On s’intéressera seulement au trois premières méthodes. Dans les parties
suivantes, on va effectuer l’état de l’art des trois premières méthodes de classifications semi-
supervisées.

You're Reading a Free Preview

Télécharger
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->