Vous êtes sur la page 1sur 14

Conception des processus métier basée sur les règles

Introduction

La phase de modélisation de processus est primordiale car elle permet de décrire la


chaîne de valeur d’une entreprise. Pour cela, des modèles et des langages doivent être
utilisés pour permettre la définition des processus et la spécification des
connaissances métier d’une entreprise.
Les règles jouent un rôle important dans la vie quotidienne. Elles permet- tent de
formaliser une convention ou un principe vérifié comme les règles de la grammaire
ou les règles mathématiques. En Informatique, les règles sont utilisées pour
contrôler ou décrire le comportement des personnes et des systèmes, à titre
d’exemple nous pouvons citer les règles qui expriment et contrôlent les politiques
d’accès aux ressources sur les réseaux. Dans la discipline BPM, les règles métier sont
des définitions de haut niveau structurées, qui permettent de contraindre, contrôler et
influencer un aspect du métier. Ces règles sont utilisées pour implémenter les
stratégies ou les poli- tiques d’une entreprise. Elles sont aussi utilisées pour modéliser
un processus métier d’une manière déclarative.
Definition

En effet, un modèle de processus est une représentation théorique qui décrit la


manière dont nous concevons le fonctionnement du processus. Le langage de
modélisation du processus métier véhicule le fonctionnement du processus (le modèle)
en utilisant une syntaxe qui détermine la bonne construction des expressions
représentant les éléments du processus et une sémantique qui détermine la manière dont
les expressions du langage doivent être interprétées.

Les types de processus métier


Une modélisation des processus métier permet de représenter le fonctionnement d’un
processus en spécifiant ensemble des activités à exécuter et en définissant l’ordre
d’exécution des ces activités. C'est sur cette définition que les approches de
modélisation de processus métier divergent. En effet, dans la littérature, le
comportement du processus peut être défini d’une manière explicite (l’approche
impérative) ou d’une manière explicite (l’approche déclarative).

(A) La modélisation impérative (B) La modélisation déclarative

Fig. : Exemple de la modélisation impérative et de la modélisation déclarative


Modèle impératif Modèle déclaratif
Modèle de granularité Centré-processus Centré-activité
Description des flux de contrôle Explicite Implicite
Définition du scenario d’exécution Phase de modélisation Phase d’exécution
Gestion des événements Evènements simples Evènements complexes
Exécution du processus Totalement-spécifiée Partiellement-spécifiée
Langages Impératifs Déclaratifs

Tableau Le modèle impératif vs modèle déclaratif


Le tableau présente une comparaison entre les deux approches de modélisation de
processus. Premièrement, dans la modélisation impérative qui est orientée processus, le
concepteur modélise le processus de façon globale. Tandis que la modélisation déclarative
est orientée activités où les contraintes qui restreignent les possibilités d’exécution des
activités sont prises en compte. Par ailleurs, l’approche impérative propose souvent d’utiliser
des événements simples. Contrairement à l’approche déclarative qui propose de gérer les
événements complexes (composés) car cette manière de modéliser utilise les événements
pour déclencher l’exécution des activités. Ceci étant, la modélisation impérative exige
l’exécution des processus totalement spécifiés. A l’inverse de la modélisation déclarative qui
permet l’exécution des processus partiellement spécifiés. Finalement, pour représenter la
modélisation impérative en utilisent les langages impératifs.
Classification des règles et langages de règles :
Dans la discipline BPM, les règles sont utilisées pour spécifier les directives
internes impliquant les stratégies et les procédures opérationnelles de l’entreprise et
aussi pour spécifier les directives imposées de l'extérieur telles que les exigences
juridiques, les normes et les contrats. Pour cela, ces règles ont les caractéristiques
suivantes :
 Atomique : une règle ne peut pas être subdivisée. On ne peut pas la scinder
sans perdre de l’information.
 Non-ambiguë : La définition d’une règle doit être rigoureuse, concise et doit
exprimer une connaissance métier valide
 Cohérente au sein du système global : L’ensemble de règles doit fournir une
description stable du système
 Énoncée avec une terminologie commune au métier : Les experts doivent
pouvoir valider et enrichir la base de connaissance « knowledge repository»

Dans la littérature, plusieurs catégories de règles ainsi que plu- sieurs


langages de règles ont été proposés. Dans cette section, nous allons nous intéresser
aux catégories de règles et aux langages de règles les plus connus.

Catégories de règles
Parmi les classifications de règles proposées la plus citée est la classification
proposée par Wagner, on distingue cinq catégories de règles métier.
Les règles d’intégrité
Il s’agit des contraintes ou assertions qui doivent être satisfaites. Exemple : le
client doit être enregistré pour satisfaire la commande.
Les règles de dérivation
Il s’agit d’une ou plusieurs conditions et d’une ou plusieurs conclusions. Exemple : Le
client fidèle reçoit une remise de 10%. Boukhebouze est un client fidèle. Comme
conclusion : Boukhebouze doit recevoir une remise de 10%.
Les règles de production
Il s’agit d’une ou plusieurs conditions et d’une ou plusieurs actions. Exemple : Si
le stock est épuisé, Alors lancer l’approvisionnement.
Les règles de réaction
Il s’agit des règles qui se déclenchent par des occurrences d’événements et qui
exigent une satisfaction de conditions pour exécuter des actions. Exemple : à la
réception d’une commande, si les matières premières sont disponibles alors lancer la
production.
Les règles de transformation
Il s’agit des règles qui contrôlent le changement d’état du système. Exemple :
L’âge d’un employé doit être changé de manière incrémentale.
Exemple des regles

Si le Salaire <4000 donc le consommateur est Faible

Si le Salaire entre 4000 et 10000 donc le consommateur est Normal

Si le Salaire entre Age > = 40 et solde > 100000 et Sexe = Homme donc le consommateur est
Contrôleur

Les méthodes pour extraire les règles :

Il existe de nombreuses façons pour apprendre des règles à partir d’ une base de données , les
algorithmes ont été choisis pour couvrir un large domaine d'idées générales pour
l'apprentissage de règles, de sorte que les trois représentent des approches très différentes.

 OneR apprend des règles à partir d'une seule caractéristique. OneR se caractérise par
sa simplicité, son interprétabilité et son utilisation comme référence.
 La couverture séquentielle est une procédure générale qui apprend itérativement des
règles et supprime les points de données qui sont couverts par la nouvelle règle. Cette
procédure est utilisée par de nombreux algorithmes d'apprentissage de règles.
 Les listes de règles bayésiennes combinent des modèles fréquents pré-exploités dans
une liste de décision à l'aide de statistiques bayésiennes. L'utilisation de modèles pré-
minés est une approche commune utilisée par de nombreux algorithmes
d'apprentissage de règles.

Commençons par l'approche la plus simple : Utiliser la meilleure caractéristique unique pour
apprendre des règles.

Apprendre les règles à partir d'une seule fonctionnalité :

L'algorithme OneR proposé par Holte (1993) est l'un des algorithmes d'induction de règles les
plus simples. Parmi toutes les caractéristiques, OneR sélectionne celle qui contient le plus
d'informations sur le résultat d'intérêt et crée des règles de décision à partir de cette
caractéristique.
Malgré le nom OneR, qui signifie "One Rule", l'algorithme génère plus d'une règle : il s'agit
en fait d'une règle par valeur de caractéristique unique de la meilleure caractéristique
sélectionnée. Un meilleur nom serait OneFeatureRules.

L'algorithme est simple et rapide :

 Discrétiser les caractéristiques continues en choisissant des intervalles appropriés.


 Pour chaque caractéristique :
o Créez un tableau croisé entre les valeurs de la caractéristique et le résultat
(catégorique).
o Pour chaque valeur de la caractéristique, créez une règle qui prédit la classe la
plus fréquente des instances qui ont cette valeur de caractéristique particulière
(peut être lue à partir du tableau croisé).
o Calculez l'erreur totale des règles pour la caractéristique.
 Sélectionnez la caractéristique ayant l'erreur totale la plus faible.
OneR couvre toujours toutes les instances de l'ensemble de données, puisqu'il utilise tous les
niveaux de la caractéristique sélectionnée. Les valeurs manquantes peuvent être traitées
comme une valeur de caractéristique supplémentaire ou être imputées au préalable.

Un modèle OneR est un arbre de décision avec une seule division. La division n'est pas
nécessairement binaire comme dans CART, mais dépend du nombre de valeurs de
caractéristiques uniques.

Voyons par exemple comment OneR choisit la meilleure caractéristique. Le tableau suivant
présente un ensemble de données artificielles sur les maisons, avec des informations sur leur
valeur, leur emplacement, leur taille et si les animaux domestiques sont autorisés. Nous
sommes intéressés par l'apprentissage d'un modèle simple pour prédire la valeur d'une maison.

Location Size Pets Value


good small yes high
good big no high
good big no high
bad medium no medium
good medium only cats medium
good small only cats medium
bad medium yes medium
bad small yes low
bad medium yes low
bad small no low
Tableau. : exemple d’une base de données
OneR crée les tableaux croisés entre chaque fonctionnalité et le résultat :
Location/value value=low value=medium value=high
location=bad 3 2 0
location=good 0 2 3
Tableau. : tableau croisé entre Location et value
Size/value value=low value=medium value=high
Size=big 0 0 2
Size=medium 1 3 0
Size=small 2 1 1
Tableau. : tableau croisé entre Size et value
Pets/value value=low value=medium value=high
Pets =no 1 1 2
Pets = only cats 0 2 0
Pets =yes 2 1 1
Tableau. : tableau croisé entre Pets et value
Pour chaque caractéristique, nous parcourons le tableau ligne par ligne : Chaque valeur de
caractéristique est la partie SI d'une règle ; la classe la plus courante pour les instances avec
cette valeur de caractéristique est la prédiction, la partie ALORS de la règle. Par exemple, la
caractéristique taille avec les niveaux petit, moyen et grand donne lieu à trois règles. Pour
chaque caractéristique, nous calculons le taux d'erreur total des règles générées, qui est la
somme des erreurs. La caractéristique de localisation a les valeurs possibles mauvais et bon.
La valeur la plus fréquente pour les maisons dans les mauvais emplacements est faible et
lorsque nous utilisons faible comme une prédiction, nous faisons deux erreurs, parce que deux
maisons ont une valeur moyenne. La valeur prédite pour les maisons situées dans de bons
emplacements est élevée et, là encore, nous commettons deux erreurs, car deux maisons ont
une valeur moyenne. L'erreur que nous faisons en utilisant la caractéristique de localisation
est de 4/10, pour la caractéristique de taille elle est de 3/10 et pour la caractéristique d'animal
de compagnie elle est de 4/10 . La caractéristique taille produit les règles avec l'erreur la plus
faible et sera utilisée pour le modèle OneR final.
Si size=small Alors value=low
Si size=medium Alors value=medium
Si size=big Alors value=high
La Couverture séquentielle :
La couverture séquentielle est une procédure générale qui apprend de manière répétée une
seule règle pour créer une liste (ou un ensemble) de décisions qui couvre l'ensemble des
données règle par règle. De nombreux algorithmes d'apprentissage de règles sont des
variantes de l'algorithme de recouvrement séquentiel. Ce chapitre présente la recette
principale et utilise RIPPER, une variante de l'algorithme de recouvrement séquentiel pour
les exemples.
L'idée est simple : D'abord, trouver une bonne règle qui s'applique à certains des points de
données. Supprimez tous les points de données qui sont couverts par la règle. Un point de
données est couvert lorsque les conditions s'appliquent, que les points soient classés
correctement ou non. Répétez l'apprentissage des règles et la suppression des points couverts
avec les points restants jusqu'à ce qu'il ne reste plus de points ou qu'une autre condition d'arrêt
soit remplie. Le résultat est une liste de décision. Cette approche d'apprentissage répété des
règles et de suppression des points de données couverts est appelée "separate-and-conquer".
Supposons que nous disposions déjà d'un algorithme capable de créer une règle unique qui
couvre une partie des données. L'algorithme de couverture séquentielle pour deux classes (une
positive, une négative) fonctionne comme suit :
 Commencez avec une liste vide de règles (rlist).
 Apprendre une règle r.
 Tant que la liste de règles est inférieure à un certain seuil de qualité (ou que des
exemples positifs ne sont pas encore couverts) :
o Ajouter la règle r à rlist.
o Supprimez tous les points de données couverts par la règle r.
o Apprenez une autre règle sur les données restantes.
 Retourner la liste de décision.
Fig. : l’extraction de la première règle
Comme cette figure montre on peut remarquer que L'algorithme de couverture fonctionne en
couvrant séquentiellement l'espace des caractéristiques avec des règles uniques et en
supprimant les points de données qui sont déjà couverts par ces règles.

Fig. : la suppression des points de données qui sont déjà couverts.


Après avoir supprimer les points de données qui sont déjà couverts par ces règles , on cherche
des nouvelles règles en utilisants le même principe.
Parmi les méthodes les plus utilisés pour la couverture séquentielle on trouve la méthodes
RIPPER.
RIPPER Algorithm :
L'algorithme de Ripper est un algorithme de classification basé sur des règles. Il dérive un
ensemble de règles à partir de l'ensemble d'apprentissage. Il s'agit d'un algorithme d'induction
de règles largement utilisé.
Utilisations de l'algorithme du ripper :
1. Il fonctionne bien sur les ensembles de données avec des distributions de classes
déséquilibrées. Dans un ensemble de données, si nous avons plusieurs enregistrements
dont la plupart appartiennent à une classe particulière et les autres à des classes
différentes, on dit que l'ensemble de données a une distribution déséquilibrée des
classes.
2. Il fonctionne bien avec les ensembles de données bruyants, car il utilise un ensemble
de validation pour éviter du modèle.
Travail de RIPPER :
Cas I : les enregistrements d'apprentissage n'appartiennent qu'à deux classes
Parmi les enregistrements donnés, il identifie la classe majoritaire (celle qui est apparue le
plus souvent) et prend cette classe comme classe par défaut. Par exemple : s'il y a 100
enregistrements et que 80 appartiennent à la classe A et 20 à la classe B, alors la classe A sera
la classe par défaut.
Pour les autres classes, il essaie d'apprendre/dériver diverses règles pour détecter cette classe.
Cas II : Les enregistrements de formation ont plus de deux classes ( Classes multiples )
Considérez toutes les classes disponibles et classez-les sur la base de leur fréquence dans un
ordre particulier (par exemple croissant).
C1,C2,C3,......,Cn
C1 - le moins fréquent
Cn - le plus fréquent
La classe ayant la fréquence maximale (Cn) est considérée comme la classe par défaut.
Comment la règle est dérivée :
Dans un premier temps, il essaie de dériver des règles pour les enregistrements qui
appartiennent à la classe C1. Les enregistrements appartenant à C1 seront considérés comme
des exemples positifs (+ve) et les autres classes seront considérées comme des exemples
négatifs (-ve).
L'algorithme de couverture séquentielle est utilisé pour générer les règles qui permettent de
distinguer les exemples positifs et négatifs.
Ensuite, à cette jonction, Ripper essaie de dériver des règles pour C2 qui la distinguent des
autres classes.
Ce processus est répété jusqu'à ce que le critère d'arrêt soit atteint, c'est-à-dire jusqu'à ce qu'il
nous reste Cn (classe par défaut).
Ripper extrait des règles de la classe minoritaire à la classe majoritaire.
Croissance des règles dans l'algorithme RIPPER :
Ripper utilise une stratégie de croissance des règles allant du général au spécifique. Il part
d'une règle vide et continue à ajouter la meilleure conjonction à l'antécédent de la règle.
Pour l'évaluation des conjonctions, la métrique choisie est le gain d'information de FOIL. En
utilisant cette mesure, la meilleure conjonction est choisie.
Critère d'arrêt pour l'ajout des conjonctions - lorsque la règle commence à couvrir les
exemples négatifs (-ve).
La nouvelle règle est élaguée en fonction de sa performance sur l'ensemble de validation.
L'algorithme RIPPER peut être compris dans un processus en trois étapes.
 Croissance
 Élaguer
 Optimiser

La première étape utilise une méthode "séparer et conquérir" pour ajouter des conditions à
une règle jusqu'à ce qu'elle classifie parfaitement un sous-ensemble de données. Tout comme
les arbres de décision, le critère de gain d'information est utilisé pour identifier l'attribut de
séparation suivant. Lorsque l'augmentation de la spécificité d'une règle ne réduit plus
l'entropie, la règle est immédiatement élaguée. Jusqu'à ce que le critère d'arrêt soit atteint, les
étapes 1 et 2 sont répétées, et l'ensemble des règles est alors optimisé à l'aide d'une variété
d'heuristiques.

Base de règles = ∅
Trier les classes par ordre de fréquence croissante
Pour chaque classe « c » sauf la dernière
Sample = Exemples
Tant que Règle != NULL
Règle = Spécialiser (c, var.cible, var.prédictives, sample)
Si (Règle != NULL) Alors
Base de Règles = Base de Règles + {Règle}
Sample = Sample – {Individus « positifs » couverts par la Règle}
Fin Si
Fin Tant Que
Fin Pour
Exemples = Exemples – {Individus couverts par au moins une règle}
Base de Règles = Base de Règles + {Règle par défaut (exemples)}
Renvoyer (Base de règles)

Extraction des règles à partir d’un arbre de décision

Le C4.5 est l'un des algorithmes d'induction d'arbres de décision les plus appliqués, et
il est typiquement utilisé dans l'exploration de données comme classificateur d'arbres de
décision. L'algorithme C4.5 s'appuie sur des données échantillons pour générer des décisions.
En outre, C4.5 fonctionne en améliorant et en travaillant de manière similaire aux algorithmes
ID3. C4.5 commence par un nœud vide et construit un arbre de décision en sélectionnant
récursivement le nœud présentant le plus grand gain à chaque étape.

C4.5 est une implémentation d'une méthode indirecte de génération de règles à partir
d'un arbre de décision.

Introduction sur les arbres de décision


Les arbres de décision sont la modélisation d'une classification. Ils apprennent à partir
d'observations qu'on appelle des exemples. Un exemple est représenté par une série d'attributs
et une classe associée, on doit connaître la classe parce que les arbres de décision travaillent
sur la classification en mode supervisée. Les arbres de décision sont un bon moyen d'illustrer
le raisonnement pour distinguer les similitudes et les différences entre les attributs des
exemples du jeu de données, ils sont souvent utilisés par les statisticiens pour illustrer le
résultat d'une analyse.

Un arbre de décision est composé de noeuds en arborescence, le noeud à base de


l'arbre est appelé la racine, chacun des noeuds sous la racine est soit une feuille ou un sous-
arbre.

Figure. : Shéma d’un arbre

Une feuille est un noeud terminal qui représente le résultat d'une classification. La racine d'un
sous arbre est étiquetée avec l'attribut qui a été choisi, les branches sont étiquetées avec les
différentes valeurs que peut prendre l'attribut choisi pour le noeud.
Figure. : Shéma des classes et des attribus

Le but des algorithmes de construction d'arbre de décision.

Les algorithmes de construction d'arbre de décision permettent de créer des arbres de décision
avec une taille la plus petite que possible, de façon à créer des règles de décision simples.
Plus un arbre de décision est grand, plus les règles sont complexes. Les algorithmes de
construction d'arbres choisissent les attributs toujours par rapport aux classes.

Construction d'un arbre de décision.

Les arbres de décision sont construits à partir d'un jeu d'apprentissage, un jeu d'apprentissage
est une matrice, où les lignes représentent les exemples et les colonnes représentent les
caractéristiques des exemples, la dernière colonne est réservée aux classes associées aux
exemples. L'algorithme de construction a aussi besoin d'un tableau d'index qui constitue la
liste de référence des attributs à traiter. L'algorithme de construction d'arbre de décision se
divise en 3 étapes. La première étape consiste à vérifier si on doit faire un noeud terminal
pour représenter les exemples du jeu d'apprentissage. Pour faire un noeud terminal, on doit
respecter une des conditions suivantes: Tous les exemples du jeu d'apprentissage
appartiennent à la même classe ou tous les attributs ont été utilisés pour les noeuds
précédents. Cette étape permet d'arrêter l'expansion de la branche de l'arbre. La deuxième et la
troisième étape se produisent lorsqu'on ne respecte pas les critères de la première. La
deuxième consiste à trouver l'attribut pour représenter le noeud de l'arbre. Les algorithmes de
construction d'arbre de décision utilisent une mesure de segmentation par rapport aux attributs
à traiter. Nous allons voir en détail les différentes techniques plus tard. La troisième étape
consiste à éclater le jeu d'apprentissages pour créer les branches du noeud, chacune des
branches du noeud prend une des différentes valeurs que l'attribut du noeud peut prendre.
Pour chacune des branches qu'on aura créées, il faut recommencer le processus en prenant les
exemples correspondants à la branche.

Mesure de segmentation.

La mesure de segmentation est l'heuristique qui permet de choisir l'attribut qui permettra de
répartir le mieux le jeu d'apprentissages. Cette mesure est souvent une mesure statistique.
L'objectif principal est de construire des arbres de décision relativement simple. On recherche
un arbre petit et simple plutôt qu'un arbre grand qui est complexe. Le choix des attributs à
tester est une étape cruciale pour la construction d'un arbre. Pour cela, la mesure de
segmentation doit évaluer toutes les possibilités de choix pour chacun des niveaux d'un arbre
de décision.

Gain informationnel.

Le gain informationnel est une mesure de segmentation qui utilise l'entropie de Shannon. ID3
et C4.5 utilisent le gain pour choisir l'attribut pour représenter le noeud. Il conserve seulement
les informations absolument nécessaires pour classer un objet. À chaque fois, qu'on doit
choisir un attribut pour partitionner l'ensemble d'exemples, il faut choisir celui dont l'entropie
de classification est la plus petite. En général, le gain privilégie généralement les attributs
ayant un grand nombre de valeurs.

Pour avoir un arbre de décision concis et suffisant, il ne faut pas seulement traiter les attributs
séquentiellement. La richesse de cette mesure consiste à choisir judicieusement les attributs
nécessaires comme des noeuds intermédiaires, pour arriver au le chemin le plus court qui
correspond de plus au plus grand nombre d'exemples dans la même classe.

Le gain informationnel (voir l'équation) est la différence entre la répartition des classes par
rapport au jeu d'apprentissage et la répartition des valeurs des attributs par rapport aux classes.
k
freq ( C j , S )
Info ⁡(S)=−∑ ❑
j=1 ¿ S∨¿∗log 2 ⁡¿ ¿

n b Test
|T i|
Gain ⁡( X )=¿ fo(T )− ∑ ❑
¿T ∨¿∗Ing ⁡σ ( T i ) ¿
i=1

La fonction freq (Cj,S) trouve la fréquence des exemples qui correspondent à la classe Cj dans
le jeu d'apprentissage S, T représente le nombre d'exemples à évaluer, nbTest est le nombre de
valeurs pour l'attribut testé, Ti est le nombre d'exemples qui correspond à la valeur i de
l'attribut testé.

Ratio de gain.

C4.5 utilise une notion complémentaire au gain informationnel qu'on appelle le ratio de gain.
Il est utilisé pour pondérer le gain qui favorise les attributs qui ont beaucoup de valeurs. On
calcule toujours le gain informationnel, cependant on calcule aussi la répartition des valeurs
de l'attribut par rapport au jeu d'apprentissage. Ce facteur permet d'éviter de tomber dans le
surapprentissage. Le Split Info représente l'information potentielle générée en partitionnant le
jeu d'apprentissage T en n sous-ensembles, elle montre la proportion de l'information générée
par l'éclatement par un attribut.

n
|T i|
SplitInfo ⁡( X)=−∑ ❑
i=1 ¿ T ∨¿∗log 2 ⁡¿ ¿

Le ratio de gain sélectionne le test de façon à optimiser le ratio, on prend toujours en compte
du gain informationnel, mais on tient compte de la répartition des valeurs des attributs pour
choisir l'attribut pour partitionner le jeu d'apprentissage.

G ain ⁡(X )
G ain ⁡R atio ⁡(X )=
Sp lit ⁡Info ⁡( X)

Après avoir formé l’arbre de décision, on commence par le nœud racine puis on sélectionne
récursivement le nœud le plus pur (par exemple, avec le taux de classification erronée le plus
bas)
La classe majoritaire du nœud terminal est utilisée comme prédiction de la règle ; le chemin
menant à ce nœud est utilisé comme condition de la règle.
La figure suivante illustre un exemple d’extraction des règles à partir d’un arbre de décision :
Fig. : extraction des règles à partir d’un arbre de décision
Un arbre de décision est cultivé pour prédire la cible d'intérêt. Nous commençons par le nœud
racine, suivons avidement et itérativement le chemin qui produit localement le sous-ensemble
le plus pur (par exemple, la plus grande précision) et ajoutons toutes les valeurs fractionnées à
la condition de la règle. Nous finissons avec :

Si location=good et size=big, alors value=high.


Conclusion :
La prédiction avec les règles SI-Alors est rapide, puisque seules quelques instructions binaires
doivent être vérifiées pour déterminer quelles règles s'appliquent.
Les règles SI-Alors génèrent généralement des modèles épars, ce qui signifie que peu de
caractéristiques sont incluses. Elles ne sélectionnent que les caractéristiques pertinentes pour
le modèle. Par exemple, un modèle linéaire attribue par défaut un poids à chaque
caractéristique d'entrée. Les caractéristiques qui ne sont pas pertinentes peuvent simplement
être ignorées par les règles SI-Alors.
Les règles simples comme celles de OneR peuvent être une base pour construire des
algorithmes plus complexes.

Vous aimerez peut-être aussi