Académique Documents
Professionnel Documents
Culture Documents
Prenons l’exemple du dataset « data weather », je vous avais promis qu’il n’allait pas nous
quitté de tout le semestre :
Première étape, trier les exemples d’apprentissage en accord avec la valeur de l’attribut.
Mentionner la classe correspondante à chaque exemple.
Nous avons donc les points de ruptures suivants : 64,5 ; 66,5 ; 70,5 ; 77,5 ; 80,5 ; 84
Jusqu’à maintenant nous avons appliqué deux conditions pour un point de rupture :
La classe change et la valeur change.
Cette façon de procéder va surement générer un taux d’erreur minimum bas.
La règle Temperature qui va la discrétisation plus haut, a un taux d’erreur de……2/14.
C’est bien, vous allez dire, FAUX. Pourquoi : OVERFITTING !
Pour cela nous introduisons une 3ème condition.
Pour éviter l’overfitting 1R exige quand on discrétise un attribut numérique qu’il y est un
nombre minimum d’exemple de la classe majoritaire dans chaque partition.
Supposons que ce minimum soit 3. Comprendre puisqu’il y a que 2 classes no et yes, qu’une
partition doit obligatoirement contenir 3 yes ou 3 no.
Qu’arrivent-ils à nos points de ruptures précédents ?
64,5 : disparait. Pourquoi ? il y a seulement un yes.
66,5 : disparait. Il un yes et un no.
70,5 : reste. Pourquoi ? il y a un no et 4 yes.
77,5 : reste. 2 no et 3 yes
80 : disparait.
84 disparait.
On se retrouve avec :
Chaque partition contient au moins 3 instances de la classe majoritaire, excepter la dernière,
qui a généralement moins (force majeur).
La classe majoritaire de la 1ère partition est yes (avec erreur = 1/5)
La classe majoritaire de la deuxième partition est yes (avec erreur = 2/5)
Pour la troisième partition, nous choisirons aléatoirement la classe no (pour qu’il y est une
règle !) (avec erreur = 2/4).
Bien sûr, avec deux yes qui se suivent, nous allons les fusionner, sans problème.