Vous êtes sur la page 1sur 6

Les entrée/sorties d’un algorithme d’apprentissage Automatique

Données Algorithme
Exemples du Apprentissage Connaissance
Concept Description du concept
Instances Automatique Modèle

On a des données en entrée et une connaissance en sortie.


L’entrée du processus d’apprentissage automatique est un ensemble d’exemples du concept
qu’on cherche à apprendre. On parle aussi d’instances.

Ces instances sont les objets à classifier, clusteriser, ou associer.

Chaque instance est un individu, un exemple indépendant du concept à apprendre.

Un exemple « Data Weather » de dataset sera utilisé de manière répété au cours de module.
Il existe en deux versions. C’est plus un exemple pédagogique qui permettra de comprendre
beaucoup de notions de ce module.

C’est un petit dataset de 14 instances alors qu’en réalité, les datasets en apprentissage sont
volumineux et peuvent contenir des millions d’instances. D’ailleurs, un dataset contenant
suffisamment de données est condition nécessaire pour la réussite de l’approche
apprentissage automatique. Mais 14 instances est idéal pour un exemple pédagogique utilisé
souvent dans ce genre de cours.

Data Weather 1.
Data Weather 2.

Le dataset est fictif. Il est supposé contenir des exemples de conditions météorologiques de
jours ou on a soit joué soit annulé le jeu.

On a 14 instances (jours différents), une par ligne. Chaque instance est caractérisé par un
ensemble de valeurs d’attributs qui mesure différents aspects de l’exemple.
Dans ce cas (classification), nous avons 4 attributs (Outlook, Temperature, Humidity,
Windy) et la classe (Play).

Dans la version 1, tous les attributs sont de type symbolique (catégoriel).


Outlook peut prendre les valeurs : sunny, overcast, rainy
Temperature : hot, mild, cool
Humidity : high, normal
Windy : false, true
Play : yes, no

Pour les 4 attributs combinés, on a 36 combinaisons possibles. 14 seulement sont présents


dans la base d’apprentissage. La base est toujours qu’un échantillon des possibilités qui dans
la réalité peut être incroyablement grand. D’où la nécessité d’utiliser des techniques tel
l’apprentissage automatique pour justement généraliser à moindre cout.

Dans le deuxième tableau les attributs Temperature et Humidity sont numérique.

Dans certaines situations et pour certains algorithmes, il peut être plus intéressant de
transformer les attributs numériques en symbolique. On parle de discrétisation.
On peut aussi avoir des valeurs manquantes ou erronnées.
Tout cela sera traité (dans des cours à venir) dans la phase de prétraitement.

Les données sont donc représentées sous forme d’une matrice « Instances vs Attributes ».
Cette forme, bien que limitative est la plus répandue (utilisée) pour tout processus
d’apprentissage automatique. On peut dire, une condition nécessaire.

Pour certaines applications, la représentation des données sous cette forme sera le problème
fondamental à résoudre pour un bon apprentissage automatique.

Chaque instance présente à l’entrée du processus apprentissage automatique est


caractérisée par ces valeurs sur l’ensemble fixe et prédéfini d’attributs.

Nous avons une instance par ligne et un attribut par colonne.


Le fait que l’ensemble des attributs est fixe et imposé au départ, est une autre restriction sur
l’approche apprentissage automatique.

Comment faire si différentes instances ont différents attributs ?


La solution est de considérer tous les attributs possibles, comme attributs.

Les règles pour décrire un concept sont une solution idéale.


Une règle a la forme : Si Antécédent (Préconditions) Alors Conséquence (Conclusions)

Pour les règles de classifications l’antécédent est une série de test sur les attributs qui s’ils
sont vérifiés donne la classe spécifiée dans la conclusion.

Un exemple de règles appris à partir du dataset « Weather data » à l’aide d’un algorithme
d’apprentissage automatique de classification peut etre (et ce n’est qu’un exemple) :
Si Outlook = sunny et Humidity= normal Alors Play = yes
Si Temperature = hot et Windy = yes Alors Play = no

Des règles d’associations peuvent aussi être dérivées du même tableau. Cette fois, il n’a y a
pas de classe. Play est un attribut comme les autres, puisqu’on est en apprentissage non
supervisé. A l’aide bien sûr, d’un algorithme spécialisé dans l’extraction des règles
d’associations.
Parmi les bonnes règles extraites (il y’en a (58), on trouvera :
Si Temperature = cool Alors humidity = normal
Si Humidity= normal And Windy = false alors Play= yes

On verra qu’une d’association n’a pas besoin d’être 100% vraie pour être intéressante.
On pourra selon l’application imposer des seuils plus bas pour l’algorithme d’extraction de
ces règles.
Les règles d’associations ne sont pas donc différentes des règles de classifications, à
l’exception qu’ils peuvent prédire la valeur de n’importe quelle attribut, et même des
combinaisons d’attributs.
Contrairement aux règles de classifications, les règles d’associations ne sont pas supposées
être utilisées comme un ensemble uni de règles.

Une autre façon de représenter la connaissance extraite à partir d’un ensemble d’exemples,
est les arbres de décisions.

Un arbre est un ensemble de nœuds, de branches et feuilles.

Les nœuds impliquent le test d’un attribut particulier.

Le nœud a généralement autant de branches, qu’il y a de valeurs possibles pour cet attribut,
dans le cas d’un attribut catégorique. Sinon, on comparera l’attribut à une constante (≤), et
on aura en conséquence, deux branches (yes, no).

Les feuilles (finissent l’arbre) donnent la classe assignée à toutes les instances qui atteignent
cette feuille.

Arbre de décision généré avec l’algorithme ID3 à partir des instances de la base « Data
Weather »

Pour classifier une nouvelle instance, une fois que l’arbre a été construit lors de la phase
d’apprentissage, il suffit de parcourir l’arbre en conformité avec les valeurs des attributs
testés à différent nœuds.
Quand une feuille est atteinte, l’instance prend est classifiée de la classe de la feuille.
Un attribut de type nominal ne peut pas être testé plus d’une fois sur le même parcourt.
Contrairement à un attribut de type numérique qui peut réapparaitre mais un autre test.

Il est facile de lire un ensemble de règles de classifications à partir d’un arbre. Une règle est
générée pour chaque feuille.
L’antécédent de la règle inclut une condition pour chaque nœud sur le parcours de la racine
à la feuille.
Cette procédure produit des règles non ambiguës ou l’ordre de leurs exécutions est sans
importance.
Cependant, en général, ce n’est pas une manière optimale de générer des règles pour un
problème de classification.
Les arbres ont l’avantage de la lisibilité.
Régression
Un autre style de représentation est le modèle linéaire ou la sortie est simplement la somme
des valeurs pondérées des attributs.
Le problème sera de trouver les bons poids qui permettent de tomber sur la valeur en sortie
désirée. Les statisticiens appellent ce processus la régression.
Supposée qu’à partir qu’on veuille déterminer la valeur (prix) d’un appartement à partir de
sa surface, en supposant que toutes les autres caractéristiques soient identiques, soient non
important.
La régression linéaire simple dans ce cas, nous permettra à partir d’un certain nombre
d‘exemples d’appartements déjà vendus, de retrouver la fonction linéaire, bien sûr à l’aide de
l’algorithme approprié.
A titre d’exemple la fonction aura peut-être la forme suivante :
Y = 4.7 + 1.3X avec Y la sortie le prix, et X l’attribut la surface.
Clustering
Quand c’est des clusters qu’on désire obtenir, les sorties prennent la forme de diagramme
qui visualisent comment les instances sont réparties entre différents clusters.
Il s’agit de maximiser la similarité intra-cluster et de minimiser la similarité inter-clusters.
Certains algorithmes de clustering permettent à une instance de figurer dans plusieurs
clusters.
Certains algorithmes associent les instances à des clusters de manière probabilistes.
D’autres produisent des structures hiérarchiques.
Tout cela dépendra de l’approche considéré pour le résoudre le problème en main.
Différents manières de représenter les clusters selon le type :
Répartitition

Hiérarchique

Probabiliste

1 2 3
a 0.4 0.1 0.6
b 0.5 0.2 0.3
c 0.6 0.3 0.1
d 0.3 0.5 0.2
e 0.2 0.1 0.7

Pour conclure ce chapitre :


Les données en entrée se présentent exclusivement sous la forme d’une matrice (Inst vs
Attr), la connaissance (sa description) en sortie, selon le tache en considération
(classification, régression, association, clustering) sera représenté en utilisant les règles, les
arbres, les formules, les diagrammes.
Vous avez fini de lire le cours, relisez le encore 2 ou trois fois.
Comprendre les premiers cours (faciles) est indispensable pour comprendre les suivants.

Vous aimerez peut-être aussi