Vous êtes sur la page 1sur 75

Fouilles de données

prof. armel yodé


Table des matières

1 Introduction 5
1.1 Définition de la fouille des données ou data mining . . . . . . . . 5
1.2 Processus du data mining . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Méthodes de data mining . . . . . . . . . . . . . . . . . . . . . . . 6

2 Clustering 8
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Mesure déloignement . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Données numériques . . . . . . . . . . . . . . . . . . . . . . 11
2.2.3 Données binaires . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Données qualitatives . . . . . . . . . . . . . . . . . . . . . 12
2.2.5 Distance entre clusters . . . . . . . . . . . . . . . . . . . . 12
2.3 Evaluation de la qualité d’un clustering . . . . . . . . . . . . . . 14
2.3.1 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 Indice de Davis-Bouldin . . . . . . . . . . . . . . . . . . . 15
2.3.3 Coefficient de silhouette . . . . . . . . . . . . . . . . . . . 15
2.3.3.1 Cohésion . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.2 Séparation . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.3 Coefficient de silhouette . . . . . . . . . . . . . . 16
2.3.4 Stabilité d’un cluster . . . . . . . . . . . . . . . . . . . . . 16
2.4 Clusterimg partitionnel . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Algorithme des centres mobiles ou K -means de Lloyd-
Forgy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 K-mean (Mc Queen) . . . . . . . . . . . . . . . . . . . . . 20
2.4.3 Nuée dynamique (Diday) . . . . . . . . . . . . . . . . . . . 20
2.5 Les méthodes hiérarchiques . . . . . . . . . . . . . . . . . . . . . . 21
2.5.1 Classification ascendante hiérachique (Cah) . . . . . . . . 21
2.5.2 Classification descendante hiérachique . . . . . . . . . . . 26

2
TABLE DES MATIÈRES 3
2.6 Clustering basé sur la densité . . . . . . . . . . . . . . . . . . . . . 26

3 Classification 27
3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Règles de prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Algorithmes d’apprentissage . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Qualité d’un algorithme d’apprentissage . . . . . . . . . . 32
3.4 Algorithme par minimisation du risque empirique . . . . . . . . 34
3.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Performance de l’algorithme par minimisation du risque
empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.3 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.4 Théorie de Vapnik-Chervonenkis . . . . . . . . . . . . . . 39
3.4.4.1 Dimension de Vapnik . . . . . . . . . . . . . . . 39
3.4.4.2 Classement binaire avec la perte 0-1 . . . . . . 43
3.5 Evaluation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.1 Erreur de généralisation . . . . . . . . . . . . . . . . . . . 44
3.5.2 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . 45
3.5.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.3.1 Méthode HoldOut . . . . . . . . . . . . . . . . . 46
3.5.3.2 Validation croisée . . . . . . . . . . . . . . . . . . 46
3.5.3.3 Bootstrap . . . . . . . . . . . . . . . . . . . . . . 47
3.5.4 Aggrégation de modèles . . . . . . . . . . . . . . . . . . . 47
3.5.4.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.4.2 Bootsting . . . . . . . . . . . . . . . . . . . . . . 48
3.6 K plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7.1 Choix de la variable de segmentation . . . . . . . . . . . . 49
3.7.2 Choix de la bonne taille de l’arbre . . . . . . . . . . . . . 49
3.7.3 Algorithmes de construction d’arbres de décision . . . . . 50
3.7.3.1 Algorithme ID3 . . . . . . . . . . . . . . . . . . . 50
3.7.3.2 Algorithme C4.5 (J48) . . . . . . . . . . . . . . . 50
3.8 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9 Machine à vecteurs supports . . . . . . . . . . . . . . . . . . . . . 52
3.9.1 Principe général . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9.2 SVM pour des données linéairement séparables . . . . . . 53
3.9.3 SVM pour les données linéairement non séparables . . . 59
3.9.3.1 Données presque linéairement séparables . . . . 59
3.9.3.2 Cas des données linéairement non séparables . 61
3.10 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.11 Classification bayésienne . . . . . . . . . . . . . . . . . . . . . . . 65
4 TABLE DES MATIÈRES
4 Regression 68
4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.2 Démarche de la régression . . . . . . . . . . . . . . . . . . 69
4.2.3 Estimateurs des moindres carrés . . . . . . . . . . . . . . 69
4.3 Régrssion linéaire multiple . . . . . . . . . . . . . . . . . . . . . . 70
4.3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.2 Estimateurs des moindres carrés . . . . . . . . . . . . . . 72
4.4 SVM pour la régression (SVR) . . . . . . . . . . . . . . . . . . . . 73
Chapitre

1 Introduction

1.1 Définition de la fouille des données ou data mi-


ning

On peut définir la fouille des données ou data mining comme l’ensemble des
méthodes scientifiques destinées à l’exploration et à l’analyse de grandes bases
de données en vue de détecter dans ces données des profils-type, des compor-
tements récurrents, des règles, des liens, des tendances inconnues (non fixées
a priori), des structures particulières restituant de façon concise l’essentiel de
l’information utile pour l’aide à la décision. Elle est utilisée aujourd’hui dans
de nombreux domaines tels que :

— organisme de crédits : accorder un crédit ou non en fonction du profil


du demandeur, de sa demande, des expériences passées de prêts,. . .
— organisation du rayonnage dans les supermarchés : regrouper les pro-
duits qui sont généralement achetés ensembles ;
— organisation des campagnes de publicité, de promotion : ciblage des
offres ;
— diagnostic medical : ”les patients ayant tels et tels symptômes et de-
meurant à Cocody développent couramment telle pathologie”;
— commerce electronique : personnalisation des pages du site web de l’en-
treprise en fonction du profil de chaque internaute (optimisation de la
navigation sur un site web) ;
— grandes distribution : analyse du ticket de caisse ;
— . . .etc.

5
6 CHAPITRE 1. INTRODUCTION
1.2 Processus du data mining
Les spécialistes du data mining obtiennent généralement des résultats fiables
en suivant un processus structuré et réitérable en six étapes :

1. Définir et comprendre le problème.


2. Compréhension des données : déterminer les informations qui seront
nécessaires pour répondre à l’objectif défini, lister les ressources qui
contiennent les données utiles et rassembler ces dernières. Collecte des
données.
3. Préparation des données : préparer les données dans le format appro-
prié pour répondre à l’objectif et corriger les problèmes de qualité tels
que les doublons ou les données manquantes. Pré-traitement.
4. Modélisation : utiliser des algorithmes pour identifier des modèles.
5. Évaluation : déterminer si et dans quelle mesure les résultats obtenus
par un modèle aideront à atteindre l’objectif. Il y a souvent une phase
itérative pour trouver le meilleur algorithme et donc le meilleur résultat.
6. Déploiement : mettre les résultats de l’analyse à la disposition des dé-
cideurs et utiliser les informations finales pour adapter la stratégie.

Tout au long de ce processus, les membres de l’équipe doivent entretenir une


étroite collaboration afin d’interpréter les résultats et répondre à la question
de départ.

1.3 Données
Les données peuvent être numériques ou catégorielles (qualitatives). L’ana-
lyse et le choix des outils dépendent de la nature des données.

1.4 Méthodes de data mining


Il existe en général deux types de méthodes

• Les méthodes descriptives visent à mettre en évidence des informations


présentes mais cachées par le volume des données (recherche profils-
clients, recherche d’associations de produits,. . .)
Il n’y a pas de variable à expliquer (variable de sortie).
1.4. MÉTHODES DE DATA MINING 7

• Les méthodes prédictives à extrapoler de nouvelles informations à partir


des informations présentes, expliquent les données et il y a une variable
à expliquer (variable de sortie)
Chapitre

2 Clustering

2.1 Introduction
2.1.1 Objectifs
L’objectif du clustering ou classification non supervisée est :
• de former des groupes appelés clusters (ou classe ou segments) au sein
d’une population de N individus
⋆ sur la base de l’observation des p variables X 1 , . . . , X p ;
⋆ les classes obtenues ne sont pas prédéfinies ; elles sont découvertes à
l’issu de l’opération.
• d’optimiser un critère visant à regrouper les individus dans des classes,
⋆ chacune la plus homogène possible,
⋆ entre elles, les plus distinctes.

8
2.1. INTRODUCTION 9

2.1.2 Problématiques
1. Nature des observations : données catégorielles, numériques,. . .
2. Mesure d’éloignement : notion de similarité ou de dissimilarité entre
observations
3. Définition d’un cluster
4. Evaluation de la validité d’un cluster.
5. Nombre de clusters pouvant être identifiés dans les données.

6. Quels algorithmes ? Le nombre de Stirling est le nombre de partitions


de N éléments en k classes :
1 n!
σkN =
X
.
k! n1 ! · · · n k !
n1 + · · · + n k = N
n i ∈ N∗

Exemple 2.1.1. σ25 = 15 σ512 = 1323652


10 CHAPITRE 2. CLUSTERING
Le nombre total de partitions est le nombre de Bell :
N
σkn .
X
B( N ) =
k=1

Exemple 2.1.2. Nous avons :

B(9) = 21147 B(10) = 115975 B(12) = 4213597.

En analyse des données, on a généralement à traiter des ensembles de


plusieurs milliers d’individus. Ainsi, même si nous disposons d’un cri-
tère de bonne classification, il est humainement impossible de tester
toutes les partitions. D’où la nécessité de construire des algorithmes
performants convergeant vers une ”bonne” partition.
7. Comparaison de différents résultats de clustering.

2.2 Mesure déloignement


2.2.1 Définitions
Une bonne méthode de clustering est une méthode qui maximise la ressem-
blance entre les données à l’intérieur de chaque cluster (groupe homogène), et
minimise la ressemblance entre les données des clusters différents. C’est pour-
quoi les résultats d’une technique de clustering dépendent fortement de la
mesure d’éloignement choisie. On distingue deux mesures d’éloignement : la
dissimilarité et la similarité.

Soit E l’ensemble des individus.

Définition 2.2.1. Une dissimilarité est une application d : E × E → R+ vérifiant :


⋆ d(xi , xi ) = 0 ∀i ∈ E
⋆ d ( x i , x j ) = d ( x j , x i ), ∀( i, j ) ∈ E × E

Autrement dit, moins les individus i et j se ressemblent, plus d ( x i , x j ) est


élevée. Une mesure de distance est un exemple de dissimilarité. En effet, elle
vérifie :
• d ( x i , x j ) = d ( x j , x i ), ∀( i, j ) ∈ E 2 .
• d ( x i , x j ) = 0 ⇐⇒ x i = x j .
• d ( x i , x j ) ≤ d ( x i , xk ) + d ( xk , x j ), ∀( i, j, k) ∈ E 3 .
A l’inverse, l’on peut mesurer la ressemblance entre observations à l’aide d’une
similarité :
2.2. MESURE DÉLOIGNEMENT 11
Définition 2.2.2. Une similarité est une application s : E × E → R+ vérifiant :
⋆ s( x i , x j ) = s( x j , x i ) pour tout ( i, j ) (symétrie)
⋆ s( x i , x i ) ≥ s( x i , x j )

Plus les unités i et j se ressemblent plus s( x i , x j ) est élevée. On peut transformer


une similarité s en une dissimilarité d . Il suffit de poser :

d ( x i , x j ) = s( x i , x i ) − s( x i , x j ).

On peut transformer une dissimilarité d en une similarité s. Il suffit de poser :

s( x i , x j ) = sup d ( xl , xk ) − d ( x i , x j ).
(l,k)

2.2.2 Données numériques


Pour mesurer la distance entre des données numériques, plusieurs formules
existent :
v
u p
uX
1. Distance euclidienne : D ( x i , x j ) = t ( x ik − x jk )2 .
k=1
p
X
2. D ( x i , x j ) = | x ik − x jk |.
k=1
3. Si M et une matrice symétrique définie-positive :
q

D n (xi , x j ) = ( x i − x j ) M ( x i − x j ).

(a) On peut choisir M = I p pour les variables homogènes.


³ ´
(b) On peut choisir M = diag σ12 , . . . , σ12 pour les variables hétérogènes :
1 p
C’est la distance de Mahalanobis. Elle permet d’attenuer la structure
de corrélation.

2.2.3 Données binaires


On considère x1 et x2 deux vecteurs binaires. On note
• a le nombre de fois où x1 j = x2 j = 1.
• b le nombre de fois où x1 j = 0 et x2 j = 1.
• c le nombre de fois où x1 j = 1 et x2 j = 0.
• d le nombre de fois où x1 j = 0 et x2 j = 0.
Dans ce cas, voici quelques exemple de smilarité
12 CHAPITRE 2. CLUSTERING
a
• s( x1 , x2 ) = .
a+b+c+d
a
• s( x1 , x2 ) = .
a+b+c
2a
• s( x1 , x2 ) = .
2a + b + c
a
• s 1 ( x1 , x2 ) = .
a + 2( b + c)
a+d
• s 1 ( x1 , x2 ) = .
a+b+c+d

2.2.4 Données qualitatives


• Similarité entre individus : Codage disjonctif complet permettant de se
ramener à un tableau de variables binaires.
• Distance de Hamming : mesurer la différence entre deux séquences de
symbole. Soit a = (a 1 , . . . , a d ) et b = (b1 , . . . , b d ). Nous avons h(a, b) =
Card ({ j : a j ̸= b j })
Exemple 2.2.1. • la distance de Hamming entre 1011101 et 1001001
est 2.
• la distance de Hamming entre ramer et cases est 3
• Distance de Livenshtein (d’édition) : mesurer la différence entre deux
chaines de caractères ; nombre d’opérations élémentaires (insérer/supprimer/remplacer)
pour passer d’une chaine source à une chaine destination. ; par exemple
pour passer de ”a” vers ”ab” : distance=1 (insérer ”b”)

2.2.5 Distance entre clusters


• Distance minimum :
n o
D min (C 1 , C 2 ) = min D ( x i , x j ), x i ∈ C 1 , x j ∈ C 2 .
2.2. MESURE DÉLOIGNEMENT 13
• Distance maximum :

n o
D max (C 1 , C 2 ) = max D ( x i , x j ), x i ∈ C 1 , x j ∈ C 2 .

• Distance moyenne :

P P
x i ∈C 1 x i ∈C 2 D ( x i , x j )
D mo y (C 1 , C 2 ) =
n1 n2

où n1 est le nombre d’élémets de C1 et n2 le nombre d’éléments de C2 .

• Distance des centres de gravité :

D c g ( C 1 , C 2 ) = D (µ 1 , µ 2 )

où µ1 et µ2 sont les centres de gravité respectifs de C1 et C2


14 CHAPITRE 2. CLUSTERING

2.3 Evaluation de la qualité d’un clustering


2.3.1 Inertie
Nous considérons les N individus à classer comme un nuage de points d’un
espace à p dimensions. Chaque point x i est muni d’un poids p i :
n
X
pi > 0 p i = 1.
i =1

Le centre gravité du nuage de points est :


X
G= p i xi .
i

Le centre de gravité du cluster C k est


X
Gk = p i xi .
i ∈C k

• Inertie inter-cluster :

p k D 2 (G k ,G )
X X
I inter = pk = pi;
k i ∈C k

I inter mesure l’éloignement des centres des clusters entre eux. Plus cette
inertie est grande, plus les clusters sont bien séparés.
• Inertie intra-cluster :
Xh X 2
i X
I intra = p i D ( x i ,G k ) = Ik
k i ∈C k k

où I k est l’inertie d’un cluster qui mesure la dispersion des points du
cluster autour du centre de gravité G k . Plus cette inertie est faible, plus
petite est la dispersion des points autour du centre de gravité.
• Pour obtenir une bonne partition, il faut minimiser l’inertie intra-cluster
et donc maximiser l’inertie inter-cluster
2.3. EVALUATION DE LA QUALITÉ D’UN CLUSTERING 15
2.3.2 Indice de Davis-Bouldin
Posons
1 X ³ H +H ´
k l
Hk = D ( x,G k ) DB k = max .
N k x∈C k l ̸= k D (G k ,G l )

L’indice de Davies-Bouldin est défini par

1 XK
DB = DB k .
K k=1

La valeur DB est faible si le numérateur est petit (les clusters sont homogènes)
et le dénominateur est grand (les clusters sont bien séparés). La meilleure
partition est donc celle qui minimise la moyenne de la valeur calculée pour
chaque cluster. En d’autres termes, la meilleure partition est celle qui minimise
la similarité entre les clusters. Minimiser le DB aide aussi à déterminer le
nombre de clusters.

2.3.3 Coefficient de silhouette


Le coefficient de silhouette est une combinaison de la cohésion et de la
séparation.

2.3.3.1 Cohésion
Pour x i ∈ C k , est-il proche des points du cluster auquel il appartient ? Le
coefficient de cohésion est la distance moyenne aux autres points du même
cluster :
1 X
ai = D ( x i , y).
Nk − 1 y∈C k ,y̸= x i

2.3.3.2 Séparation
Pour x i ∈ C k , est-il loin des points des autres clusters ? le coefficient de
séparation est la distance minimale par rapport aux points des clusters C l ,
l ̸= k, c’est à dire au cluster le plus proche :

1 X
b i = min D ( x i , y) H = {1, . . . , K }.
l ∈ H,l ̸= k N l y∈C
l

b i mesure la dissimilarité la plus faible avec tout autre cluster C l avec l ̸= k.


16 CHAPITRE 2. CLUSTERING
2.3.3.3 Coefficient de silhouette

Le coefficient de silhouette est défini par

bi − ai
Si = .
max(a i , b i

Le coefficient de silhouette varie entre −1 (pire classement) et 1 (meilleur


classement) ; si le point x i est dans le bon cluster alors a i < b i et S i est proche
de 1.
1X
Pour tous les points, nous avons S = S i ; S aide à déterminer le nombre
N
de clusters.

2.3.4 Stabilité d’un cluster

Si on lance l’algorithme plusieurs fois sur les mêmes données avec une
initialisation différente, ou sur des sous-ensembles différents des données, ou
encore sur les mêmes données légèrement bruitées, est-ce que l’on obtient les
mêmes résultats ?
Ce critère est particulièrement pertinent pour choisir le nombre de clusters :
si le nombre de clusters choisi correspond à la structure naturelle des données,
le clustering sera plus stable que si ce n’est pas le cas. Sur l’image ci-dessous, un
algorithme qui cherche à déterminer 3 clusters va raisonnablement retrouver les
trois groupes que l’on voit. Mais si on lui demande de déterminer 2 clusters, la
répartition dans ces 2 clusters sera plus aléatoire et ne sera pas nécessairement
deux fois la même. C’est une façon de déterminer que 3 est un meilleur nombre
de clusters que 2.
2.4. CLUSTERIMG PARTITIONNEL 17

2.4 Clusterimg partitionnel


2.4.1 Algorithme des centres mobiles ou K -means de Lloyd-
Forgy
L’algorithme des centres mobiles ou K -means pour la classification automa-
tique d’un ensemble de données ( x1 , . . . , xN ) minimise le critère d’erreur suivant
par rapport aux centres (C1 , . . . , C k ) et les classes S1 , . . . , S K
K X
J (C 1 , . . . , C K ) = d2(xi , C s )
X
s=1 x i ∈S s

qui correspond à la distance euclidienne totale entre chaque x i et le centre C s


dont elle est la plus proche au sens de la distance euclidienne :
p
d2(xi , C s ) = ( x i j − C s j )2 .
X
j =1

Algorithme de k-means de Lloyd-Forgy


18 CHAPITRE 2. CLUSTERING
1. Initialisation : on initialise les centres des classes (C1(0) , . . . , C (0)
K
) (au
choix) pour donner le pas de départ de l’algorithme en choisissant aléa-
toirement K données parmi les données à traiter. Il s’agit donc de dé-
marrer à l’itération t = 0 avec des valeurs initiales pour les paramètres
du modèle (C1(0) , . . . , C (0)
k
).
2. Etape d’affectation : chaque donnée est assignée à la classe du centre
dont elle est la plus proche : ∀ i = 1, . . . , N

1 si s = arg min d 2 ( x i , C l )
z(t)
is
= l ∈{1,...,K }
0 sinon

3. Etape de recalage des centres : le centre C de chaque classe l est


recalculé comme étant la moyenne arithmétique de toutes les données
appartement à cette classe (suite à l’étape d’affectation précédente) :
∀ k = 1, . . . , k
PN (t)
i =1 z ik x i
C (t
l
+1)
= P (t)
N
i =1 z ik

Le processus se stabilise nécessairement et l’algorithme s’arrête


- soit lorsque deux itérations successives conduisent à la même partition ;
- soit la valeur relative au niveau de J devient inférieure à un seuil petit
préfixé ;
- soit encore parce qu’un nombre maximal d’itérations a été fixé a priori.
Généralement, la partition obtenue finalement dépend du choix initial des
centres. Quelle est la métrique utilisée pour évaluer la distance entre les points ?
On utilise généralement la distance euclidienne. L’algorithme du kmeans est un
algorithme itératif qui minimise la somme des distances entre chaque individu
et le centre de gravité du cluster, c’est à la variabilité intracluster.
Inconvénients des algorithmes de partitionnement :
- Instabilité : le minimum obtenu est un minimum local : la répartition
en classes dépend du choix initial des centres (faire tourner l’algorithme
plusieurs fois pour identifier des formes fortes)
- Le nombre de classes est fixé par avance (on peut s’aider d’une ACP
pour le déterminer)

> x=c(-2,-2,0,2,-2,3)
> y=c(2,-1,-1,2,3,0)
> don=matrix(c(x,y),nrow = 6,ncol=2)
> ctre = c(-1,2,-1,3)
2.4. CLUSTERIMG PARTITIONNEL 19
> ctre1=matrix(data=ctre,nrow=2, ncol=2)
> cl1=kmeans(don,ctre1,algorithm="Lloyd")
> cl1

K-means clustering with 2 clusters of sizes 4, 2

Cluster means:
[,1] [,2]
1 -1.5 0.75
2 2.5 1.00

Clustering vector:
[1] 1 1 1 2 1 2

Within cluster sum of squares by cluster:


[1] 15.75 2.50
(between_SS / total_SS = 54.0 %)

Available components:

[1] "cluster" "centers" "totss" "withinss" "tot.withinss"


[6] "betweenss" "size" "iter" "ifault"

> plot(don,col=cl1$cluster)
20 CHAPITRE 2. CLUSTERING

3
2
don[,2]

1
0
−1

−2 −1 0 1 2 3

don[,1]

2.4.2 K-mean (Mc Queen)


Les barycentres des classes ne sont pas recalculés à la fin des affectations ,
mais à la fin de chaque allocation d’un individu à une classe. L’algorithme est
ainsi plus rapide, mais l’ordre d’apparition des individus dans le fichier n’est
pas neutre.

2.4.3 Nuée dynamique (Diday)


Ce n’est plus un seul point qui représente une classe mais un noyau de
points constitués d’éléments représentatifs de la classe. Cela permet de corriger
l’influence d’éventuelles valeurs extrêmes sur le calcul du barycentre.
1. On sélectionne K sous-ensemble C j0 de q individus parmi les N de tel
sorte que C j0 ∩ C j0′ pour j ̸= j ′ . Les C j0 sont appelés noyaux.
2. On affecte les objets i aux classes j dont la distance d ( i, C j0 ) est mini-
male. On obtient alors une partition
n o
I 10 , . . . , I 0k .
2.5. LES MÉTHODES HIÉRARCHIQUES 21
3. On détermine dans chaque classe I 0j les q individus, notés C j1 .
4. On réitère les étapes 2 et 3 jusqu’à obtenir une partition stable.

2.5 Les méthodes hiérarchiques


Il existe deux grands types de méthodes hiérachiques :
— la méthode ascendante dite agglomérative :
1. Initialement chaque observation est un cluster
2. Fusionner les observations proches : mesure de similarité(ressemblance)
3. Itérer jusqu’à 1 seul cluster.
— la méthode descendante dite divisive.
1. Initialement toutes les observations sont dans le même cluster
2. Le diviser jusqu’à séparer toutes les observations

2.5.1 Classification ascendante hiérachique (Cah)


En considérant l’ensemble des observations x i à classer, la CAH repose sur
la définition d’une distance d ( x i , x i′ ) entre les observations x i et x i′ et sur le
choix d’une stratégie d’aggrégation d C (C l , C k ) déterminant la distance entre
les clusters C l et C k .

Algorithme de classification ascendante hiérachique

Entrée : X = ( x1 , . . . , x N )
1. Initialiser les N classes C k formées chacune d’une observation : C i = { x i }
et poser d C (C i , C i′ ) = d ( x i , x i′ ) ;
2. Fusionner les deux classes C l et C q les plus proches pour former une
nouvelle classe C k = C l ∪ C q tels que

d C (C l , C q ) = min

d C (C i , C ′i );
i,i

3. Calculer la distence entre la nouvelle classe C k et les autres : d C (C k , C i )


pour i ̸= l, q ;
4. Itérer : répéter N − 1 fois les étapes 2 et 3 jusqu’à l’obtention d’une
seule classe regroupant tous les objets.
Sortie : Un dendrogramme représentant les étapes de fusion des classes.
22 CHAPITRE 2. CLUSTERING
Le résultat de la classification hiérarchique est un arbre de classes représentant
les relations d’inclusion entre classes appelé Dendogramme.

La complexité d’un algorithme est la quantité de ressources nécessaires


pour traiter des entrées. On la voit comme une fonction de la taille N de
l’entrée. tous les algorithmes sont au moins en O ( N 2 ). On peut tracer un
graphique représentant la décroissance du rapport de la variance intra-classe
sur la variance totale (R 2 partiel) en fonction du nombre de classes. La présence
d’une rupture importante dans cette décroissance aide au choix du nombre de
classes. On peut voir l’indice DB, le coefficient de silhouette.

> data(iris)
> don=iris[,1:4]
> hc=hclust(dist(don), "ave")
> plot(hc)
Height

0 1 2 3 4

15
16 42
33
34
37
4421
32
24
27
536

2. Etape 2
1. Etape 1
38
50
8
40
28
29
41
181 45
196
17
11
4947
20
2214 23
3943
912
13 25
462 7
26
10
35
30
3143
48
129105
133
104112
117
138
111
148
113
140
142
146
116
137
149
125101
121
144
141
145 109
118 135
110
106132
119
123
108 136
131103

dist(don)
126
130 61
58
94 99
66
76
59
5578
77
87

hclust (*, "average")


51
53 86
52
57
74
79
Cluster Dendrogram

64
92
7572
2.5. LES MÉTHODES HIÉRARCHIQUES

98
69 120
88
122115
102
143114
150
128
139 71
147
124
127 73
84
134
83
9368 63107
95
100 62
89
96
97
67
8556
91805
660
54
90
70
81
82
23
24 CHAPITRE 2. CLUSTERING

3. Etape 3

4. Etape 4

5. Etape 5
2.5. LES MÉTHODES HIÉRARCHIQUES 25

Les résultats peuvent êtres différents selon la metrique pour les clusters.

Le CAH est une méthode flexible. Le nombre de clusters n’est pas fixé
au départ. On le choisit en fonction du dendogramme. En peut evaluer les
26 CHAPITRE 2. CLUSTERING
différentes partitions en utilisant les mesures de qualité d’un clustering.

2.5.2 Classification descendante hiérachique


Cette méthode est la moins utilisée. Elle consiste à partir de la classe conte-
nant tous les objets, à partager celle-ci en deux puis, cette opération est répétée
à chaque itération jusqu’à ce que toutes les classes soient réduites à des sin-
gletons.

2.6 Clustering basé sur la densité


Ce type de clustering se base sur l’utilisation de la densité à la place de
la distance. On dit qu’un point est dense si le nombre de ses voisins dépasse
un certain seuil. Un point est voisin d’un autre point s’il est à une distance
inférieure à une valeur fixée. Dans la figure suivante q est dense mais pas p :

L’algorithme DBSCAN (Density-Based Spatial Clustering of Applications


with Noise) est un exemple des algorithmes à base de densité. Il utilise deux
paramètres : la distance ε et le nombre minimum de points MinPts devant se
trouver dans un rayon ε pour que ces points soient considérés comme un cluster.
Les paramètres d’entrées sont donc une estimation de la densité de points
des clusters. L’idée de base de l’algorithme est ensuite, pour un point donné,
de récupérer son ε-voisinage et de vérifier qu’il contient bien MinPts points
ou plus. Ce point est alors considéré comme faisant partie d’un cluster. On
parcourt ensuite l’ε-voisinage de proche en proche afin de trouver l’ensemble
des points du cluster.
Chapitre

3 Classification

3.1 Modélisation
On dispose de n exemples

( x1 , y1 ), . . . , ( xn , yn )

où x i ∈ X ⊂ Rd et yi ∈ Y ⊂ R ; x i est appelée entrée et yi est appelée sortie.


L’ensemble {( x1 , y1 ), . . . , ( xn , yn )} est appelé base d’apprentissage ou encore base
d’entraı̂nement. On suppose dans ce chapitre que Y est fini. On parle alors de
classification ou classement ou discrimination.

Exemple 3.1.1. 1. Diagnostic médical :


— x représente l’ensemble des paramètres observables (âge, taille, ré-
sultats d’examens médicaux...)
— y représente l’étiquette associée au patient.
(
0 si le patient est sain
y=
1 si le patient est malade

2. Mail-spam :
— x représente l’ensemble des paramètres observables
— y représente l’étiquette associée au mail.
(
0 si le mail est un non spam
y=
1 si le mail est un spam

3. Reconnaissance de caractères manuscrits.

27
28 CHAPITRE 3. CLASSIFICATION

Nous disposons d’une image numérisée d’un caractère manuscrit. Cette


image est essentiellement un tableau de nombres réels indiquant l’inten-
sité lumineuse en chacun des pixels. Nous souhaitons trouver la fonction
qui à ce tableau de réels renvoie le caractère présent dans l’image. Ici, x
contient l’ensemble des pixels de l’image et Y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}.

Il s’agit ici d’induire une fonction qui prédise les réponses associées à de
nouvelles observations en commettant une erreur de prédiction la plus faible
possible. Ainsi, on cherche une règle de prédiction ayant une bonne capacité
de généralisation.
Modélisation. On suppose que ( x1 , y1 ), . . . , ( xn , yn ) est une réalisation de va-
3.2. RÈGLES DE PRÉDICTION 29
riables aléatoires ( X 1 , Y1 ), . . . , ( X n , Yn ) i.i.d. de loi de probabilité P inconnue.

3.2 Règles de prédiction


Définition 3.2.1. Une règle de prédiction est une fonction f définie sur X à
valeurs dans Y qui associe la sortie f ( x) à l’entrée x ∈ X .
Le but d’une règle de prédiction est de fournir une étiquette f ( xn+1 ) à xn+1 en
espérant faire coincider la prédicrtion f ( xn+1 ) et la sortie yn+1 . On notera G ,
l’ensemble de toutes les règles de prédiction. Comment mesure-t-on la qualité
d’une règle de prédiction ?
Définition 3.2.2. Toute fonction ℓ : Y ×Y −→ R+ telle que ℓ( y, y) = 0 et ℓ( y, y′ ) >
0 pour y ̸= y′ est appelée fonction de perte ; ℓ(Y , f ( X )) mesure l’erreur entre
la réponse réelle Y et la réponse prédite f ( X ) pour une donne d’entrée X .
Exemple 3.2.1. Fonction de perte classique : ℓ( y, y′ ) = 1 y̸= y′ .
La qualité d’une fonction de prédiction f ∈ G est mesurée par son erreur de
généralisation.
Définition 3.2.3. Etant donnée une fonction de perte ℓ, l’erreur de générali-
sation d’une règle de prédiction f est définie par :
R ( f ) = EP [ℓ(Y , f ( X ))];
l’espérance mathématique EP est prise par rapport à la loi de probabilité P.
Exemple 3.2.2. Fonction de perte classique : ℓ( y, y′ ) = 1 y̸= y′ . Pour une r egle
de prédiction f donnée, l’erreur de généralisation est
³ ´
R ( f ) = EP 1Y ̸= f (X ) = P(Y ̸= f ( X )).

Définition 3.2.4. La ”meilleure” règle de prédiction f ∗ vérifie :


f ∗ ∈ arg min R ( f ).
f ∈G

Remarque 3.2.1. f ∗ est appelée fonction cible ou oracle ; f ∗ dépend de P et


n’est pas utilisable car P inconnue.
Comme d P( x, y) = d P X d P( y | X = x), nous avons
R ( f ) = EP [ℓ(Y , f ( X ))]
Z
= ℓ( y, f ( x)) d P( x, y)
X
Z hZ×Y
i
= ℓ( y, f ( x)) d P( y| X = x) d P X ( x)
ZX h Y i
= E ℓ(Y , f ( X ))| X = x) d P X ( x)
X
30 CHAPITRE 3. CLASSIFICATION
Théorème 3.2.1. Supposons que pour tout x ∈ X , l’infimum
h i
inf E ℓ(Y , z)| X = x)
z∈Y

est atteint. Alorsh une fonctionif ∗ : X −→ Y telle que pour tout x ∈ X , f ∗ ( x)


minimise z 7−→ E ℓ(Y , z)| X = x) , est une fonction cible :
h i

∀ x ∈ X , f ( x) := arg min E ℓ(Y , z)| X = x)
z∈Y

⇒ f := arg min R ( f ).
f ∈G

Démonstration. Nous avons


R ( f ) = EP (ℓ(Y , f ( X ))
= EP X EPY | X (ℓ(Y , f ( X ))
£ ¤
· ¸
≥ EP(X ) min EP(Y | X ) ℓ(Y , y)
y∈Y

= EP(X ) EP(Y | X ) (ℓ(Y , f ∗ ( X ))


£ ¤

= EP (ℓ(Y , f ∗ ( X ))
= R( f ∗)

Exemple 3.2.3. Posons ℓ( y, f ( x)) = 1 y̸= f (x) . La fonction cible est la fonction f ∗
satisfaisant
f ∗ ( x) ∈ arg max P(Y = y| X = x) pour tout x ∈ X .
y∈Y

Lorsque Y = {0, 1}, posons η( x) = P (Y = 1| X = x)


(
1 si η( x) > 1/2
f ∗ ( x) =
0 si η( x) ≤ 1/2

est la fonction cible. En effet, en classification, on a |Y | < +∞, l’infimum re-


cherché est donc bien atteint.
f ∗ ( x) = arg min EP(Y | x) (1Y ̸= y )
y∈Y

= arg min P(Y ̸= y| X = x)


y∈Y

= arg max P(Y = y| X = x)


y∈Y

Lorsque Y = {0, 1},


(
∗ 1 si P(Y = 1| X = x) > P(Y = 0| X = x)
f ( x) =
0 si P(Y = 1| X = x) ≤ P(Y = 0| X = x)
3.2. RÈGLES DE PRÉDICTION 31
Remarque 3.2.2. Analyse discriminante de Fisher
De l’exemple ci-dessus, on tire l’algorithme appelé analyse discriminante
de Fisher. Suppons que P X admet une densité p(·) par rapport à la mesure de
Lebesgue sur Rd . Le théorème de Bayes implique

η( x) = P(Y = 1| X = x)
p( x|Y = 1)P (Y = 1)
=
p( x|Y = 1)P (Y = 1) + p( x|Y = 0)P (Y = 0)
π p 1 ( x)
=
π p 1 ( x) + (1 − π) p 0 ( x)

où p 0 ( x) = p( x|Y = 0), p 1 ( x) = p( x|Y = 1) sont les densités conditionnelles de X


sachant Y = 0 et Y = 1, et π = P(Y = 1). Le classifieur de Bayes s’écrit alors :
p 1 ( x) 1 − π

1 si >

f ( x) = p 0 ( x) π
0 sinon

Les probabilités p 0 , p 1 , π0 et π1 sont inconnues. Le principe de l’analyse dis-


criminante est de partir de la formule ci-dessus pour ”imiter” le classifieur de
Bayes. Elle consiste à estimer p 0 ( x) et p 1 ( x). A partir d’un échantillon repré-
sentatif,
— il est facile d’estimer π0 et π1
— on peut estimer p 0 p 1 par la methode à noyau (estimation non para-
métrique)
— on peut imposer une forme à p 0 et p 1 (estimation paramétrique)
On suppose que les densités p 0 et p 1 sont gaussiennes. On estime donc p 0 et
p 1 par la méthode du maximum de vraisemblance. Nous obtenons alors
(
1
1 η
b n ( x) >
f n∗ ( x) = 2
1
0 η
b n ( x) ≤ 2,
où
π
b1 p
b1 ( x)
η
b n ( x) =
π b1 ( x) + π
b1 p b0 p
b0 ( x)

Limites de l’analyse discriminante de Fischer.


— l’hypothèse de normalité
— Connaı̂tre complètement la distribution des données s’avère couteux !
c’est une condition suffisante mais peut ne pas être necessaire pour
construire un bon algorithme : si l’on ne s’interesse qu’au classement
d’un individu, il suffit de savoir si P
b (Y = 1 | X = x) > P
b (Y = 0 | X = x ) ;
ce qui ne revient pas à connaı̂tre les valeurs exactes de chacune de ces
probabilités
32 CHAPITRE 3. CLASSIFICATION
3.3 Algorithmes d’apprentissage
3.3.1 Définition
Définition 3.3.1. Un algorithme d’apprentissage est une application fbn qui à
tout ensemble d’apprentissage {( X 1 , Y1 ), . . . , ( X n , Yn )} renvoie une règle de pré-
diction.

fbn : (X × Y )n −→ G
³ ´
( X 1 , Y1 ), . . . , ( X n , Yn ) 7−→ fbn ·, ( X 1 , Y1 ), . . . , ( X n , Yn ) .

Remarque 3.3.1. Les règles de prédiction optimale dépendent de P. Il est donc


nécessaire de construire des algorithmes d’apprentissage.

3.3.2 Qualité d’un algorithme d’apprentissage


La performance d’un algorithme d’apprentissage est caractérisée l’excès de
risque défini par :
R ( fbn ) − R ( f ∗ ).

Puisque cette différence est une variable aléatoire, on introduit d’autres me-
sures de performance déterministes telles que :
- E(R ( fbn )) − R ( f ∗ ); l’espérance est prise par rapport à la loi de l’ensemble
d’apprentissage.
- P(R ( fbn ) − R ( f ∗ ) > ε) pour un ε > 0 quelconque.

Définition 3.3.2. Un algorithme d’apprentissage fbn est dit faiblement consis-


tant par rapport à P si
E(R ( fbn )) −−−−−→ R ( f ∗ ).
n→+∞

La consistance garantit la capacité de généralisation. Si la fonction de perte


ℓ est bornée, alors le risque R ( f ) est bornée et la consistance faible équivaut
à la convergence en probabilité de R ( fbn ) vers R ( f ∗ ). En particulier, lorsque ℓ
est bornée, la consistance forte entraı̂ne la consistance faible.

Définition 3.3.3. Un algorithme d’apprentissage est dit faiblement consistant


par rapport à une famille de lois de probabilité P s’il est consistant par rapport
à tout P ∈ P .

Définition 3.3.4. Un algorithme d’apprentissage est dit faiblement universelle-


ment consistant s’il est consistant par rapport à toute probabilité P sur X ×Y .
3.3. ALGORITHMES D’APPRENTISSAGE 33
Les résultats de consistance universelle ne disent pas le nombre de données
nécessaires pour avoir une garantie du type

E(R ( fbn )) ≤ R ( f ∗ ) + ε ε > 0 fixé.

Pour que ce nombre existe, il faudrait un résultat de consistance uniformement


universelle.
Définition 3.3.5. Un algorithme d’apprentissage est dit uniformement univer-
sellement consistant si

lim sup{E(R ( fbn )) − R ( f ∗ )} = 0.


n→+∞ P

En général, ce nombre n’existe pas.


Théorème 3.3.1. (Devroye, Györfi, Lugosi [1]). On considère la fonction de
perte ℓ( y, f ( x)) = 1 y̸= f (x) en classification binaire et l’on suppose que X est
infini. Alors, pour tout n ∈ N et toute règle d’apprentissage fbn , nous avons
1
sup{E(R ( fbn )) − R ( f ∗ )} ≥ > 0,
P∈P 2

le sup étant pris sur l’ensemble de toutes les lois de probabilité sur X × Y .
En particulier, aucun algorithme d’apprentissage de classification ne peut être
uniformément universellement consistant lorsque X est infini.
Par conséquent, sans faire d’hypothèses sur la classe de distributions P qui
pourrait générer les données, on ne peut obtenir des garanties sur l’erreur
de généralisation de notre règle de classification pour un n fini donné. Ainsi,
l’absence d’algorithme universellement uniformément consistant nous amène à
définir un ”bon” algorithme d’apprentissage comme étant un algorithme uni-
versellement consistant et ayant une propriété de convergence uniforme sur
une classe P de lois de probabilités paraissant pertinente pour le problème à
traiter.
Définition 3.3.6. Soit P une classe de lois de probabilité sur X × Y . On dit
qu’un algorithme d’apprentissage est uniformement consistant sur P si

lim sup{E(R ( fbn )) − R ( f ∗ )} = 0.


n→+∞ P∈P

De plus, il faudra avoir une suite

sup{E(R ( fbn )) − R ( f ∗ )}
P∈P

décroissant le plus vite possible vers 0 pour que peu de données soient néces-
saires à l’algorithme pour prédire efficacement dans le cas où P ∈ P .
34 CHAPITRE 3. CLASSIFICATION
Définition 3.3.7. Soit ε > 0. On appelle complexité en quantité de données
de P pour l’algorithme fbn , le plus petit nombre n(P , ε, fbn ) tel que pour tout
n ≥ n(P , ε, fbn ), on a
sup{E(R ( fbn )) − R ( f ∗ )} < ε.
P∈P

En d’autres termes, n(P , ε, fbn ) est la taille minimale necessaire pour garantir
un excès de risque en espérance inferieur à ε pour tout P ∈ P .
Définition 3.3.8. La complexité en données intrinsèque de P est
n(P , ε) = inf n(P , ε, fbn )
fbn

où inf est pris sur l’ensemble de tous les algorithmes d’apprentissage possibles.

3.4 Algorithme par minimisation du risque empi-


rique
3.4.1 Principe
Soit f : X −→ Y une règle de prédiction. L’erreur de généralisation de f
est défini par : ³ ´
R ( f ) = EP 1Y ̸= f (X ) .
La distribution P étant inconnue, R ( f ) est inconnu. Elle peut être estimée par
1X n
Rn( f ) = 1Y ̸= f (X i )
n i=1 i
Définition 3.4.1. Etant donné un sous-ensemble H ⊂ G , l’algorithme de mi-
nimisation du risque empirique sur H est défini par
fbn ∈ arg min R n ( f ).
f ∈H

3.4.2 Performance de l’algorithme par minimisation du risque


empirique
Le choix de H détermine celui de fbn . Prenons H = G . Dans le cas où
Y = {0, 1}, le risque empirique est minimisé par
(
Yi si x = X i , i = 1, . . . , n
fbn ( x) =
0 ou 1 si x ̸∈ { X 1 , . . . , X n }

fbn ( x) reproduit les résultats Yi si x = X i et classifie tous les autres x de façon


arbitraire. Le risque empirique de ce classifieur est 0.
3.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 35
• Prendre H trop grand peut mener à un surapprentissage dans la mesure
où le minimum du risque empirique R n ( fbn ) est inférieur à son erreur de
généralisation R ( fbn ). Concrètement, on parle de surapprentissage quand
un algorithme a trop appris les particularités de chacun des exemples
fournis en exemple. Il présente alors un taux de succès très important
sur les données d’entraı̂nement (pouvant atteindre jusqu’à 100%), au
détriment de ses performances générales réelles.
• Dans la pratique, il faut choisir H suffisamment grand pour pouvoir
raisonnablement approcher la fonction cible par les éléments de H en ne
le prenant pas trop grand pour éviter le phénomène de surapprentissage.
La grandeur de H est appelée la capacité ou la complexité.
Posons
f ∗ ∈ arg min R ( f ) f H ∈ arg min R ( f ).
f ∈G f ∈H

• f H dépend de P ; f H n’est pas utilisable ;


• R ( f H ) ≤ R ( f ) pour tout f ∈ H
• f H est appelé oracle associé à H .
Nous nous intéressons aux questions suivantes :
1. Quelles sont les conditions (nécessaires et suffisantes) de consistance
d’un algorithme d’apprentissage obtenu par le principe de minimisation
du risque empirique ?
2. Quelle est la vitesse de convergence (capacité de généralisation) d’un
algorithme d’apprentissage obtenu par le principe de minimisation du
risque empirique ?
3. Comment contrôle-t-on la vitesse de convergence d’un algorithme d’ap-
prentissage obtenu par le principe de minimisation du risque empirique ?
4. Conmment construire des algorithmes qui peuvent contrôler la vitesse
de convergence ?

Définition 3.4.2. L’algorithme d’apprentissage obtenu par le principe de mini-


misaion du risque empirique est consistant si
P
(i) R n ( fbn ) − R ( fbn ) −−−−−→ 0 ;
n→+∞
P
(ii) R n ( fbn ) −−−−−→ R ( f ∗ ).
n→+∞

Remarque 3.4.1. (i) l’algorithme doit renvoyer une règle de prédiction dont
l’erreur empirique reflète son erreur de généralisation lorsque la taille
de la base d’entraı̂nement tend vers l’infini ;
(ii) l’erreur empirique de l’algorithme doit converger vers l’erreur de géné-
ralisation de la fonction cible.
36 CHAPITRE 3. CLASSIFICATION
Nous avons la décomposition suivante

R ( fb ) − R ( f ∗ ) = R( f ) − R( f ∗) + R ( fbn ) − R ( f H ) .
| n {z } | H {z } | {z }
excès de risque erreur d’approximation erreur d’estimation

- R ( f H )−R ( f ∗ ) mesure à quel point l’espace d’hypothèes choisi H permet


d’approcher la cible f ∗ ; ce terme ne dépend pas des données ;
- R ( fbn ) − R ( f H ) est une quantité aléatoire qui mesure combien fbn est
proche de f H .
Lorsque la taille de H croı̂t, l’erreur d’approximation diminue, mais l’erreur
d’estimation devient en moyenne grande. Il y a donc un compromis à trouver
dans le choix de H . Ce compromis est appelé dilemme biais-variance.
• Estimer l’erreur d’approximation est généralement difficile dans la me-
sure où l’on n’a aucune information sur la cible f ∗ .
• Ainsi, en apprentissage statistique, nous nous concentrons sur l’erreur
d’estimation :
R ( fbn ) − R ( f H )
E(R ( fbn )) − R ( f H )

Définition 3.4.3. Vapnik[4]


L’algorithme d’apprentissage obtenu par le principe de minimisaion du
risque empirique est consistant si
P
(i) R n ( fbn ) − R ( fbn ) −−−−−→ 0 ;
n→+∞
P
(ii) R n ( fbn ) −−−−−→ R ( f H ).
n→+∞

Sous certaines hypothèses sur H , fbn imite l’oracle f H , c’est à dire,

E(R ( fbn )) ≤ R ( f H ) + ∆n (H ),

où ∆n (H ) > 0 est un terme résiduel qui tend vers 0 lorsque n → +∞, c’est à
dire, en moyenne, fbn atteint le même risque que l’oracle f H à un petit terme
résiduel ∆n (H ) près. Plus généralement

E(R ( fbn )) − R ( f ∗ ) ≤ R ( f H ) − R ( f ∗ ) + ∆n (H ).

Souvent, il est désirable d’obtenir des inégalités d’oracle avec forte probabilité :
Pour tout 0 < δ < 1, avec probabilité au moins 1 − δ,

R ( fbn ) ≤ R ( f H ) + ∆n (H , δ)

R ( fbn ) − R ( f ∗ ) ≤ R ( f H ) − R ( f ∗ ) + ∆n (H , δ).
3.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 37
Définition 3.4.4. Un résultat probablement approximativement correct (P.A.C.)
est une affirmation du type : ∀0 < ε ≤ 1, avec une probabilité au moins 1 − ε,
l’événement A ε se produit, où ( A ε ) est une famille d’événements paramétrés
par ε.

Si A ε = {V ≤ Wε } avec V et Wε , variable aléatoire réelle, on parle de borne P.A.C


pour V . Pour obtenir les majorations ci-dessus, on peut établir des inégalités
P.A.C.

Pour établir les inégalités précédentes, il suffit de préciser que les termes
résiduels ∆n (H ), ∆n (H , δ) qui fournissent des majorations de l’erreur d’esti-
mation. Ces majorations reposent généralement sur le lemme suivant :

Lemme 3.4.1. L’erreur d’estimation de fbn vérifie :

R ( fbn ) − R ( f H ) ≤ 2 sup |R n ( f ) − R ( f )|.


f ∈H

Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la variable


aléatoire
sup |R n ( f ) − R ( f )|.
f ∈H

Démonstration. Soit ε > 0 et soit f ε ∈ H vérifiant R ( f ε ) < R ( f H ) + ε. Puisque


fbn minimise R n ,

R ( fbn ) − R ( f H ) = R ( fbn ) − R n ( fbn ) + R n ( fbn ) − R ( f H )


≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f H )
≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f ε ) + ε
≤ 2 sup |R n ( f ) − R ( f )| + ε.
f ∈H

3.4.3 Cas où H est fini


Cas où H est fini Considérons

H = { f1, . . . , f M }

où f j : X −→ Y sont des règles de prédiction. Dans ce cas :

f H = arg min R ( f j ) ⇐⇒ R ( f H ) = min R ( f j ).


j =1,...,M j =1,...,M
38 CHAPITRE 3. CLASSIFICATION
Théorème 3.4.1. Supposons qu’il existe a, b ∈ R tels que

a ≤ ℓ( y, y′ ) ≤ b. ∀ y, y′ .

Alors, avec une probabilité d’au moins 1 − δ, on a :


s
2 ln( 2M
δ
)
R (c
f n ) ≤ R ( f H ) + ( b − a) .
n
Démonstration. On a

R (c
f n ) − R ( f H ) ≤ 2 sup |R ( f ) − R n ( f )|.
f ∈H

³ ´ ³ t´
P R (c
f n ) − R ( f H ) > t ≤ P sup |R ( f ) − R n ( f )| >
f ∈H 2
³[ M h t i´
=P |R ( f j ) − R n ( f j )| >
j =1 2
M ³ t´
P |R ( f j ) − R n ( f j )| >
X

j =1 2

Lemme 3.4.2 (Inégalité de Hoeffding.). Soient Z1 , . . . , Z n des variables aléa-


toires réelles indépendantes telles que a i ≤ Z i ≤ b i P-p.s (a i < b i ). Alors, ∀,
nous avons ε > 0
n
³¯ X ¯ ´ ³ 2ε2 ´
P ¯ ( Z i − E( Z i ))¯ ≥ ε ≤ 2 exp − Pn .
¯ ¯
2
i =1 i =1 ( b i − a i )

En utilisant l’inégalité de Hoeffding,


2
³ t´ − nt
P |R ( f j ) − R n ( f j )| > ≤ 2 e 2(b−a)2 .
2
Par suite, nous obtenons
2
− nt
³ ´
P R ( fbn ) − inf R ( f ) > t ≤ 2 N e 2(b−a)2 .
f ∈H

Pour tout 0 < δ < 1, on a


s
2
− nt 2 2 ³ 2M ´
Me 2( b−a) = δ ⇐⇒ t = ( b − a) ln
n δ
3.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 39
Lemme 3.4.3. Soit Z une variable aléatoire réelle positive. Supposons qu’il
existe une constante C > 0 telle que, pour tout ε > 0,
2
P( Z ≥ ε) ≤ Ce−2nε .

Alors s
³ ´ ln(Ce)
E Z ≤ .
2n

Corollaire 3.4.1. On suppose que X = Rd , Y = {0, 1} et ℓ( y, f ( x)) = 1 f (x)̸= y .


Pour tout ε > 0, nous avons
nε2
³ ´
f n ) − inf R ( f ) ≥ ε ≤ 2Card(H ) e− 2 .
P R n (c
f ∈H

D’après le Lemme 3.4.3, nous avons


s
³ ´ 2 ln(2Card(H ) e)
E R (c
f n ) − inf R ( f ) ≤ .
f ∈H n
Si Card(H ) < +∞ alors
³ ´ ³ 1 ´
E R (c
f n ) − inf R ( f ) = O p
f ∈H n
Ainsi, pour une classe de cardinal fini, l’erreur d’estimation reste sous contrôle
1
selon la taille (cardinal) et tend vers 0 à la vitesse p lorsque n tend vers
n
l’infini. Lorsque le cardinal de H n’est pas fini, il faut trouver de nouveaux
outils pour appréhender la ”taille” de H : c’est l’objet de la théorie de Vapnik-
Chervonenkis.

3.4.4 Théorie de Vapnik-Chervonenkis


3.4.4.1 Dimension de Vapnik
Soit A une famille de sous-ensembles de Rd de cardinal (pas nécessairement
fini) strictement supérieur à 1.
Définition 3.4.5. Etant donné n points z1 , . . . , z n ∈ Rd , on définit
³nn o o´
NA ( z1 , . . . , z n ) = Card z1 , . . . , z n ∩ A : A ∈ A .
o
NA ( z1 , . . . , z n ) représente le nombre de sous-ensembles de { z1 , . . . , z n que
l’on peut obtenir en intersectant ces n points par les ensembles de A .

Nous avons NA ( z1 , . . . , z n ) ≤ 2n
40 CHAPITRE 3. CLASSIFICATION
n o
Définition 3.4.6. On dit que A pulvérise l’ensemble z1 , . . . , z n si

N A ( z1 , . . . , z n ) = 2 n .

Définition 3.4.7. On appelle coefficient de pulvérisation de n points par la


classe A , la quantité :

SA ( n) = max N A ( z 1 , . . . , z n ).
(z1 ,...,z n )∈Rdn

Définition 3.4.8. La dimension de Vapnik-Chervonenkis (VC) de A est définie


par :

n o
VA = max n ≥ 1 : SA ( n) = 2n .

La dimension de Vapnik-Chervonenkis mesure, en un certain sens, la ”taille”


(la ”dimension”) de la famille A et généralise ainsi la notion de cardinal. C’est
le plus grand nombre de points que la classe de fonction arrive à pulvériser.
3.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 41

Théorème 3.4.1 (Vapnik-Chervonenkis). Soient Z1 , . . . , Z n des variables aléa-


toires indépendantes de même loi P sur Rd , et Pn la mesure empirique corres-
pondante :
1X n
Pn = δZ .
n i=1 i
Alors, pour toute famille borélienne A ⊂ B (Rd ) et pour tout ε > 0, on a
nε2
³ ¯ ¯ ´
P sup ¯Pn ( A ) − P( A )¯ > ε ≤ 8SA ( n) e− 32
¯ ¯
A ∈A

1. La borne est universelle, dans le sens où elle ne dṕend pas de la loi P.
42 CHAPITRE 3. CLASSIFICATION
2. Ce résultat généralise le Théorème 3.4.1

Lemme 3.4.4. Sauer (1972) Soit A une famille d’ensembles admettant une
dimension de Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1,
VA
SA ( n) ≤ C ni .
X
i =1

Corollaire 3.4.1. Soit A une famille d’ensembles admettant une dimension de


Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1

SA ( n) ≤ ( n + 1)VA .

Démonstration. On a
V V
A A ni V A
( n + 1)VA = C Vi A n i ≥ C ni ≥ SA ( n)
X X X

i =0 i =0 i ! i =0

Nous avons
- soit SA (n) = 2n pour tout n ≥ 1 (VA = +∞)
- soit SA (n) ≤ (n + 1)VA (VA < +∞)
D’après l’inégalité de Vapnik-Chervonenkis, nous avons
s
³ ´ ln(8 eSA ( n))
E sup |Pn ( A ) − P( A )| ≤ 8
A ∈A 2n
s
VA ln( n + 1) + 4
≤8
2n
s
³ V ln( n) ´
A
=O
n

D’après l’inégalité de Vapnik-Chervonenkis, nous avons


s
³ V ln( n) ´
A
³ ´
E sup |Pn ( A ) − P( A )| = O
A ∈A n

Corollaire 3.4.2. Si VA < ∞ alors


³ ´
E sup |Pn ( A ) − P( A )| −−−−−→ 0.
A ∈A n→+∞
3.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 43
3.4.4.2 Classement binaire avec la perte 0-1
• X ∈ X = Rd
• Y ∈ Y = {0, 1}
• ℓ( y, f ( x)) = 1 f (x)̸= y .
On a ( X 1 , Y1 ), . . . , ( X n , Yn ) sont i.i.d. de loi P. La mesure empirique est définie
par
1X n
Pn ( A ) = 1(X i ,Yi )∈ A .
n i=1

À une règle de prédiction f ∈ H , nous associons le borélien


n o
A f = ( x, y) ∈ Rd × {0, 1} : f ( x) ̸= y .

Nous avons

R ( f ) = P( f ( X ) ̸= Y ) = P(A f )
1X n
Rn( f ) = 1 f (X i )̸=Yi = Pn (A f )
n i=1

Nous avons donc


¯ ¯
sup |R n ( f ) − R ( f )| = sup ¯Pn ( A ) − P( A )¯
¯ ¯
f ∈H A ∈A

où A = {A f , f ∈ H }. Pour analyser le comportement de sup f ∈H |R n ( f ) − R ( f )|,

il faut comprendre la déviation de la mesure empirique Pn par rapport à la


vraie mesure P sur la classe d’ensembles mesurables A .
n o
Proposition 3.4.1. Soit A¯ = x ∈ Rd , f ( x) = 1 : f ∈ H . Alors, pour tout n ≥ 1,
S A¯( n) = S A ( n). En particulier, VA = VA¯.

Proposition 3.4.2. Nous avons


nε2
³ ´
P R ( f n ) − inf R ( f ) > ε ≤ 8S A¯( n) e− 128 .
c
f ∈H

De plus, s
³ ´ ln( eS A¯( n))
E c
f n ) − inf R ( f ) ≤ 16 .
f ∈H 2n
Si VA¯ < ∞ alors
s
³ ´ ³ VA¯ ln( n) ´
E R (c
f n ) − inf R ( f ) = O .
f ∈H n
44 CHAPITRE 3. CLASSIFICATION
Théorème 3.4.2 (Vapnik-Chervonenkis). Soit X ⊂ Rd un espace vectoriel et
Y = {−1, 1} un espace de sortie et H une classe de fonctions à valeurs dans Y
et de dimension VC VH . Pour tout δ ∈]0, 1], n ≥ VH , avec une probabilité au
moins égale à 1 − δ :
s
8VH ln( 2en
V ) + 8 ln(4/δ)
H
R (c
f n ) ≤ inf R ( f ) + .
f ∈H n
s
8VH ln( 2en
V ) + 8 ln(4/δ)
H
• Si la dimension VC VH de H est finie alors lim =0
n→+∞ n
et le principe de Minimisation du Risque Empirique est consistant
quelque soit la distribution P générant les exemples.
• Vapnik (1999) a démontré pour que le principe MRE soit consistant
pour toute distribution P, il est nécessaire que la dimension VC de la
classe considérée soit finie.
D’après tout ce qui précède, nous avons le résultat suivant
Théorème 3.4.3. Quelque soit la distribution de probabilité générant les exemple,
le principe MRE est consistant si et seulement si la dimension VC de la classe
considérée est finie.
Corollaire 3.4.3 (Vapnik-Chervonenkis (1971)). Pour tout n ≥ VH avec une
probabilité d’au moins 1 − δ, nous avons
s
8VH ln( 2en
V ) + 8 ln(4/δ)
H
∀f ∈ H , R( f ) ≤ Rn( f ) + .
n

3.5 Evaluation du modèle


Recapitulons après l’épisode précédent. Comment mesure-t-on la perfor-
mance d’un algorithme d’apprentissage ?

3.5.1 Erreur de généralisation


Pour un algorithme d’apprentissage fbN , l’erreur de généralisation est définie
par ³ ´ ³ ´
R fbn = E P 1Yi ̸= fbN (x i ) .
Comme P est inconnue, on utlise le risque empirique :
³ ´ 1X n
R fbn = 1 b .
n i=1 Yi ̸= f n (x i )
Généralement, la précision est donnée sous forme de pourcentage ce qui néces-
site de multiplier la précision de l’équation précédente par 100.
3.5. EVALUATION DU MODÈLE 45
3.5.2 Matrice de confusion
La mesure précédente donne le taux d’erreurs commises par le modèle ap-
pris mais ne donne aucune information sur la nature de ces erreurs. Dans la
plus part des cas d’application, il est très important de connaı̂tre la nature des
erreurs commises. Par exemple dans un modèle appris pour des objectifs mé-
dicaux, considérer un échantillon non cancéreux alors qu’il l’est, est beaucoup
plus grave de considérer un échantillon cancéreux alors qu’il ne l’est pas. Dans
le cas de classification binaire, le résultat de test d’un modèle peut être une
possibilité parmi quatre :


 fbn ( x i ) = +1 et yi = +1 vrai positif


 fb ( x ) = +1
n i et yi = −1 faux positif


 f n ( x i ) = −1
b et yi = −1 vrai négatif

f n ( x i ) = −1 et yi = +1 faux négatif
b

Si le modèle donne une classe positive pour un exemple d’une classe positive, on
dit que c’est un exemple vrai positif (VP). Si par contre l’exemple appartient à
la classe négative on dit que c’est un exemple faux positive (FP). Si le modèle
donne une classe négative pour un exemple d’une classe négative, le résultat
est un exemple vrai négative (VN), si, par contre, la classe de l’exemple est
positive le résultat est qualifié de fausse négative (FN). La matrice de confusion
est une matrice qui rassemble en lignes les observations ( y) et en colonnes les
prédictions fb( x). Les éléments de la matrice représentent le nombre d’exemples
correspondants à chaque cas :

hhhh
hhhh Prédictions
hhh
+1 -1
Observations hhh
hhh h
+1 VP FN
-1 FP VN

Un modèle sans erreurs aura ses résultats rassemblés sur la diagonale de sa


matrice de confusion (VP et VN).
Définition 3.5.1. La précision P ou Accuracy du modèle :
VP +V N
P= .
V P + FP + V N + F N
C’est la proportion de bien classés.
Deux autre mesures sont utilisées dans la littérature : la sensitivité S v et
la spécificité S p
46 CHAPITRE 3. CLASSIFICATION
Définition 3.5.2. La sensitivité représente est définie par :
VP
Sv =
VP +FN
C’est la proportion vrais positifs bien classés.
Définition 3.5.3. La spécificité est définie par
VN
Sp = .
V N + FP
C’est la proportion de vrais négatifs bien classés.

3.5.3 Evaluation
Les paramètres optimaux pour un modèle donné sont les paramètres qui
lui permettent de donner une précision de 100%. Cette situation serait idéale
si l’ensemble des exemples représentait parfaitement l’ensemble de tous les
exemples possibles. Le modèle appris peut donner une très grande précision
face aux exemples d’entrainement, mais se comporte très mal avec les nou-
veaux exemples. Cela représente un phénomène très connu en apprentissage
qui est le sur-apprentissage ou l’apprentissage par coeur. Le sur-apprentissage
donne, généralement, des modèles à faible capacité de généralisation. Les mé-
thodes d’évaluation permettent de tirer des conclusion sur le comportement
d’un modèle face à tout l’espace d’exemples en limitant l’influence des exemples
d’entrainement, du bruit qui peut y exister (erreurs d’étiquetage, erreurs d’ac-
quisition, ...) et leur ordre sur le modèle appris.

3.5.3.1 Méthode HoldOut


Elle consiste à diviser l’ensemble des données en deux parties, la première
partie est utilisée pour l’entrainement et la deuxième pour les tests. Le test
du modèle appris sur la partie de test permet de donner une idée sur son
comportement en dehors des exemples d’entrainement et éviter le phénomène
de surapprentissage. Le modèle qui maximise la précision pour tout l’espace
d’exemple est donc celui qui la maximise pour la partie de test du fait que
cette partie représente la majorité de l’espace. Une question importante qui se
pose pour cette méthode est comment choisir les deux parties puisque ce choix
a une grande influence sur la qualité du modèle. La méthode qui suit répond
à cette question.

3.5.3.2 Validation croisée


Pour minimiser l’influence du choix du partitionnement de l’ensemble des
exemples, la validation croisée subdivise l’ensemble d’entrainement initial en
3.5. EVALUATION DU MODÈLE 47
k sous ensemble disjoints D 1 , D 2 , . . . , D k de même taille. L’entrainement et
le test sont effectués k fois. A l’itération i le sous-ensemble D i est réservé
pour le test et le reste des exemples sont utilisés pour entrainer le modèle.
La précision finale du modèle est égale à la moyenne des k précisions de test.
La méthode Leave-One-Out est un cas particulier de la validation croisée où
k = N. A chaque itération, le modèle est entrainé sur N −1 exemples et testé sur
l’exemple exclu de l’entrainement. On obtient à la fin N précisions, la précision
du modèle est égale à leur moyenne.

3.5.3.3 Bootstrap
La méthode de Bootstrap entraı̂ne le modèle sur un ensemble de N exemples
choisis aléatoirement de l’ensemble des exemples, des exemples peuvent être
choisis plus d’une fois et d’autre ne se seront pas choisis du tout. Les exemples
non choisis pour l’entrainement sont utilisés pour le test. Cette opération
peut être répétée plusieurs fois pour obtenir une précision moyenne du mo-
dèle. Parmi les méthodes de Bootstrap les plus utilisées, la méthode Bootstrap
”.632” qui tire son nom du fait que 63.2% des exemples contribuent à l’entrai-
nement et les restants (36.8%) contribuent aux tests. A chaque prélèvement,
un exemple a une probabilité 1/ N d’être choisi et (1 − 1/ N ) de ne pas l’être, et
puisqu’on répète le prélèvement N fois, chaque exemple aura une probabilité
de (1 − 1/ N )N de ne pas être choisi du tout dans un ensemble d’entrainement.
Si N est grand cette probabilité approche de e−1 = 0.368. La méthode répète
le processus k fois et la précision finale P est donnée par
k
X
P= (0.632 × P i test + 0.368 × P i entr )
k=1

où P i test est la précision du modèle entrainé sur les exemples choisis dans
l’itération i, appliqué sur les exemples de test dans la même itération ; P i entr
est la précision du même modèle appliqué sur les données d’entrainement.

3.5.4 Aggrégation de modèles


Pour augmenter la précision des modèles obtenus, certaines méthodes com-
binent plusieurs modèles pour obtenir les décisions. Deux méthodes sont par-
ticulièrement utilisées : Bagging and Boosting.

3.5.4.1 Bagging
Cette méthode se base sur le Bootstrap. Elle subdivise l’ensemble D d’exemples
en n sous-ensembles. A partir de chaque sous-ensemble D i , on apprend un mo-
dèle M i en utilisant la méthode Bootstrap. L’ensemble de ces modèles forme
48 CHAPITRE 3. CLASSIFICATION
un modèle composé M∗ . Pour classifier un nouvel exemple, il est exposé à
chaque modèle M i pour obtenir une classe c M i . Chaque décision est considérée
comme un vote. La classe de décision est prise par vote majoritaire.

3.5.4.2 Bootsting
Dans la méthode boosting, on associe des poids aux exemples. Une série
de k modèles est itérativement apprise. Après qu’un modèle M i est construit,
les poids des exemples sont mis à jour de telle sorte à attirer l’attention du
modèle M i+1 aux exemples mal classées par le modèle M i . Le Modèle final M∗
combine les voltes des k modèles pondérés par leur précisions.

3.6 K plus proches voisins


L’algorithme des k-plus proches voisins est un des algorithmes de classifi-
cation les plus simples. Le seul outil dont on a besoin est une distance entre
les éléments que l’on veut classifier. Si on représente ces éléments par des vec-
teurs de coordonnées, il y a en général pas mal de choix possibles pour ces
distances, partant de la simple distance usuelle (euclidienne) en allant jusqu’à
des mesures plus sophistiquées pour tenir compte si nécessaire de paramètres
non numériques comme la couleur, la nationalité, etc. On considère que l’on
dispose d’une base d’éléments dont on connaı̂t la classe. On parle de base
d’apprentissage, bien que cela soit de l’apprentissage simplifié. Dès que l’on
reçoit un nouvel élément que l’on souhaite classifier, on calcule sa distance à
tous les éléments de la base. Si cette base comporte 100 éléments, alors on
calcule 100 distances et on obtient donc 100 nombres réels. Si k = 25 par
exemple, on cherche alors les 25 plus petits nombres parmi ces 100 nombres.
Ces 25 nombres correspondent donc aux 25 éléments de la base qui sont les
plus proches de l’élément que l’on souhaite classifier. On décide d’attribuer à
l’élément à classifier la classe majoritaire parmi ces 25 éléments. Aussi simple
que cela. Bien sûr, on peut faire varier k selon ce que l’on veut faire, on peut
aussi complexifier la méthode en considérant que les votes des voisins ne sont
pas de même poids, etc. Mais l’idée reste la même.

3.7 Arbres de décision


Les arbres de décision représentent une méthode très efficace d’apprentis-
sage supervisé. Il s’agit de partitionner un ensemble de données en des groupes
les plus homogènes possible du point de vue de la variable à prédire. On prend
en entrée un ensemble de données classées, et on fournit en sortie un arbre
qui ressemble beaucoup à un diagramme d’orientation où chaque nœud final
3.7. ARBRES DE DÉCISION 49
(feuille) représente une décision (une classe) et chaque nœud non final (in-
terne) représente un test. Chaque feuille représente la décision d’appartenance
à une classe des données vérifiant tous les tests du chemin menant de la racine
à cette feuille. Pour construire un arbre, plusieurs algorithmes existent : ID3,
CART, C4.5,etc. On commence généralement par le choix d’un attribut puis le
choix d’un nombre de critères pour son nœud. On crée pour chaque critère un
nœud concernant les données vérifiant ce critère. L’algorithme continue d’une
façon récursive jusqu’à obtenir des nœuds concernant les données de chaque
même classe. En réalité ce n’est pas si simple, plusieurs problèmes doivent être
résolus :
— Comment choisir l’attribut qui sépare le mieux l’ensemble de données ?
On parle souvent de la variable de segmentation.
— Comment choisir les critères de séparation d’un ensemble selon l’at-
tribut choisi, et comment ces critères varient selon que l’attribut soit
numérique ou symbolique ?
— Quel est le nombre optimal du nombre de critères qui minimise la taille
de l’arbre et maximise la précision ?
— Quels sont les critères d’arrêt de ce partitionnement, sachant que sou-
vent l’arbre et d’une taille gigantesque ?

3.7.1 Choix de la variable de segmentation


Il s’agit de choisir parmi les attributs des données, celui qui les sépare le
mieux du point de vue de leurs classes déjà connues. Pour choisir le meilleur
attribut, on calcule pour chacun une valeur appelée ”Gain” qui dépend des
différentes valeurs prises par cet attribut. Cette mesure est basée sur les re-
cherches en théorie d’informations menées par C.Shannon.

3.7.2 Choix de la bonne taille de l’arbre


Une fois l’arbre de décision construit, il peut contenir plusieurs anoma-
lies qui peuvent être dues au bruit ou aux valeurs extrêmes, et qui peuvent
conduire au problème de sur-apprentissage (overfitting). Ce problème est la
déduction d’informations plus que supporte l’ensemble de données d’appren-
tissage. L’arbre peut être aussi d’une taille très importante qui peut épuiser les
ressources de calcul et de stockage. Pour surmonter ce problème, on effectue
des opérations d’élagage qui consistent à éliminer de l’arbre les branches les
moins significatives (qui déduisent d’un nombre réduit d’enregistrements ou de
ceux qui appar- tiennent à diverses classes). L’élagage peut être effectué avant
ou après l’apprentissage, on parle souvent de pré et post-élagage :
— Pré-élagage : effectué lors de la construction de l’arbre, lorsqu’on calcule
les carac- téristiques statistiques d’une partie des données tel que le gain,
50 CHAPITRE 3. CLASSIFICATION
on peut décider de l’importance ou non de sa subdivision, et ainsi on
coupe complètement des branches qui peuvent être générée.
— Post-élagage : effectué après la construction de l’arbre en coupant des
sous arbres entiers et en les remplaçant par des feuilles représentant
la classe la plus fréquente dans l’ensemble des données de cet arbre.
On commence de la racine et on descend, pour chaque nœud interne
(non feuille), on mesure sa complexité avant et après sa coupure (son
remplacement par une feuille), si la différence est peu importante, on
coupe le sous arbre et on le remplace par une feuille.

3.7.3 Algorithmes de construction d’arbres de décision


3.7.3.1 Algorithme ID3
ID3 construit l’arbre de décision récursivement. A chaque étape de la récur-
sion, il calcule parmi les attributs restant pour la branche en cours, celui qui
maximisera le gain d’infor- mation. C’est-à-dire l’attribut qui permettra le plus
facilement de classer les exemples à ce niveau de cette branche de l’arbre. Le
calcul ce fait à base de l’entropie de Shanon déjà présentée. L’algorithme sup-
pose que tous les attributs sont catégoriels ; si des attributs sont numériques,
ils doivent être descritisés pour pouvoir l’appliquer.

3.7.3.2 Algorithme C4.5 (J48)


C’est une amélioration de l’algorithme ID3, il prend en compte les attributs
numé- rique ainsi que les valeurs manquantes. L’algorithme utilise la fonction
du gain d’entropie combiné avec une fonction SplitInfo pour évaluer les attri-
buts à chaque itération.

Attributs discrets
Pour les attributs discrets possédant un grand nombre de valeurs, nous
avons vu que la fonction GainRatio permettait d’éviter de privilégier ces at-
tributs. Il existe, de plus, une option de C4.5 qui permet le regroupement des
valeurs. Par exemple, si on dispose d’un attribut A prenant les valeurs a, b, c
et d, en standard le test considéré serait 4-aire. Si on active l’option regroupe-
ment, seront également considéré des tests de la forme : le test binaire A ∈ {a, b}
et A ∈ { c, d } ; le test ternaire A = a , A = c et A ∈ {b, d } ; ...

Attributs continus
Pour les attributs continus, la discrétisation peut être laissée à un expert
du domaine d’application. Par exemple, en médecine, l’expérience du domaine
3.7. ARBRES DE DÉCISION 51
peut avoir permis la mise en évidence l’existence de valeurs seuil pour un attri-
but correspond à une mesure médicale. Sinon, l’algorithme gère les attributs
continus de la façon suivante : les exemples sont triés dans l’ordre croissant
pour l’attribut continu A considéré, on considère alors tous les tests de la forme
A > a i + a i+1 /2 où a i et a i+1 sont deux valeurs consécutives de l’attribut A.
Par exemple, supposons que A prenne les valeurs 1 ; 3 ; 6 ; 10 ; 12, alors on
considère les tests A > 2 ; A > 4.5 ; A > 8 et A > 11, ces tests participent alors
à la compétition dans la recherche du test apportant le meilleur gain (fonction
Gain ou GainRatio, selon l’option choisie).

Attributs à valeurs manquantes


Dans de nombreux problèmes concrets, il existe certains attributs dont les
valeurs ne sont pas renseignées. Par exemple, si on dispose du descriptif de
patients, il est très probable que toutes les mesures ne soient pas disponibles
car elles n’ont pas pu être faites pour tous les patients. Pour classifier un
exemple possédant des valeurs manquantes à l’aide d’arbres de décision, on
procède comme dans le cas standard, lorsque l’on rencontre un test et que
la valeur de l’attribut est manquante, on considère la branche majoritaire.
Pour la phase d’apprentissage, on suppose que la valeur de cet attribut suit la
distribution des valeurs connues.

Algorithme CART
L’algorithme CART dont l’acronyme signifie ”Classification And Regression
Trees”, construit un arbre de décision d’une manière analogue à l’algorithme
ID3. Contrairement à ce dernier, l’arbre de décision généré par CART est
binaire et le critère de segmentation est l’indice de Gini. À un attribut binaire
correspond un test binaire. À un attribut qualitatif ayant n modalités, on peut
associer autant de tests qu’il y a de partitions en deux classes, soit 2 n − 1
tests binaires possibles. Enfin, dans le cas d’attributs continus, il y a une
infinité de tests envisageables. Dans ce cas, on découpe l’ensemble des valeurs
possibles en segments, ce découpage peut être fait par un expert ou fait de
façon automatique.

Forêts aléatoires
Les forêts aléatoires ont été inventées par Breiman en 2001. Elles sont en
général plus efficaces que les simples arbres de décision mais possède l’incon-
vénient d’être plus diffi- cilement interprétables. Leur construction se base sur
le bootstrap (ou le bagging). On subdivise l’ensemble de données en plusieurs
parties par le bootstrap puis on apprend un arbre de décision à partir de chaque
52 CHAPITRE 3. CLASSIFICATION
partie. Un nouvel exemple est testé par tous les arbres construits et sa classe
est la classe majoritaire.

3.8 Régression logistique

3.9 Machine à vecteurs supports

3.9.1 Principe général

Les SVM sont une famille d’algorithmes dediés à la régression et à la clas-


sification. Dans ce cours, nous nous limitons à la classification binaire. Ainsi,
on dispose de n exemples ( x1 , y1 ), . . . , ( xn , yn )

▷ x i ∈ X = Rd .

▷ yi ∈ Y = {−1, 1}.

L’objectif est de prédire y pour une nouvelle valeur de x. On cherche un clas-


sifieur g : Rd −→ {−1, 1}. On cherche une fonction de décision f : Rd −→ R telle
que

g( x) = si gne( f ( x)).

On suppose que la fonction f est de la forme :

f ( x) = 〈ω, x〉 + b.

L’équation 〈ω, x〉 + b = 0 correspond à un hyperplan dans Rd de vecteur ortho-


gonal ω.

Définition 3.9.1. Une SVM (Support Vector Machine) ou Machine à Vecteurs


Supports est une famille d’algorithmes d’apprentissage supervisé pour des pro-
blèmes de discrimination ou de régression.
3.9. MACHINE À VECTEURS SUPPORTS 53
3.9.2 SVM pour des données linéairement séparables

Définition 3.9.2. Les données ( x1 , y1 ), . . . , ( xn , yn ) sont dites linérairement sépa-


rables s’il existe (w, b) ∈ Rd × R tel que pour tout i ,
- yi = 1 si 〈w, x i 〉 + b > 0
- yi = −1 si 〈w, x i 〉 + b < 0,
c’est à dire ∀ i = 1, . . . , n yi (〈w, x i 〉 + b) > 0.

Moyennant une normalisation des paramètres, on obtient


- yi = 1 si 〈w, x i 〉 + b > 1
54 CHAPITRE 3. CLASSIFICATION
- yi = −1 si 〈w, x i 〉 + b < −1,

c’est à dire ∀ i = 1, . . . , n yi (〈w, x i 〉 + b) > 1. On appelle vecteur supports les


exemples ( x i , yi ) vérifiant

〈w, x i 〉 + b = ±1.

!
3.9. MACHINE À VECTEURS SUPPORTS 55

Proposition 3.9.1. Soit H (w, b) = { z ∈ Rd : f ( z) = 〈w, z〉 + b = 0} un hyperplan et


soit x ∈ Rd . La distance du point x à l’hyperplan H est :
|〈 x, w〉 + b|
d ( x, H ) = .
∥ w∥
Démonstration. En effet, soit x∗ la projection orthogonale de x sur H . on a
x = x∗ + a ∥ w ∗ w
w∥ =⇒ x − x = a ∥w∥ .
On a
w
〈w, a 〉 = a∥w∥ = 〈w, x − x∗ 〉 = 〈w, x〉 − 〈w, x∗ 〉
∥ w∥
= 〈w, x〉 + b.
56 CHAPITRE 3. CLASSIFICATION
〈w,x〉+ b
Ainsi, on obtient : a = ∥ w∥ . Par suite :

w w
r
p
d ( x, H ) = 〈 x − x∗ , x − x∗ 〉 = 〈a ,a 〉 = | a |.
∥ w∥ ∥ w∥

La marge d’un exemple est sa distance à la frontière de séparation :

|〈w, x〉 + b|
d ( x, H ) = .
∥ w∥

La marge d’un classifieur linéaire H sur un ensemble d’apprentissage ( x1 , y1 ), . . . , ( xn , yn )


est définie comme la plus petite valeur de marge des exemples par rapport à
H :
min |〈w, x i 〉 + b|
i ∈{1,...,n}
ρ= .
∥ w∥

Dans les SVM, la frontière de séparation choisie est celle qui maximise la
marge. Un hyperplan est dit canonique par rapport aux données { x1 , . . . , xn } si

min |〈w, x i 〉 + b| = 1.
i ∈{1,...,n}

La marge est définie par


2
M = 2ρ = .
∥ w∥

!
3.9. MACHINE À VECTEURS SUPPORTS 57

Le fait d’avoir une marge plus large procure plus de sécurité lorsque l’on
classe un nouvel exemple. La partie droite nous montre qu’avec un hyperplan
optimal, un nouvel exemple reste bien classé alors qu’il tombe dans la marge.
On constate sur la partie gauche qu’avec une plus petite marge, l’exemple se
voit mal classé.

Trouver un hyperplan séparateur de marge maximale équivaut à trouver le


couple (w, b) tel que :
1
∥w∥2 soit minimal
2
sous la contrainte yi (〈w, x i 〉 + b) ≥ 1, ∀ i = 1, . . . , n.
Le problème est convexe : la fonction objectif est convexe et les points qui
satisfont les contraintes forment aussi un ensemble convexe. il existe un unique
hyperplan séparateur de marge maximale. Le lagrangien est défini par :
1 n
L(w, b, α) = ∥w∥2 −
X
α i ( yi (〈w, x i 〉 + b) − 1) (3.9.1)
2 i =1

Les multiplicateurs de Lagrange α i ≥ 0.


∂L(w, b, α) n
X n
X
= w− α i yi x i = 0 ⇐⇒ w = α i yi x i . (3.9.2)
∂w i =1 i =1
∂L(w, b, α) n
X n
X
=− α i yi = 0 ⇐⇒ α i yi = 0 (3.9.3)
∂b i =1 i =1

En réinjectant (3.9.2) et (3.9.3) dans l’équation (3.9.1), on obtient :


n
X 1X n
θ (α) = αi − α i α j yi y j 〈 x i , x j 〉.
i =1 2 i, j
(
³ ´ α i = 0, ou
∀ i = 1, . . . , n, α i yi (〈w, x i 〉 + b) − 1 = 0, soit
yi (〈w, x i 〉 + b) = 1.
³
Résoudre le problème primal revient à trouver α = α1 , . . . , αn )′ tels que :
n
X 1X n
αi − α i α j yi y j 〈 x i , x j 〉 soit maximal
i =1 2 i, j
58 CHAPITRE 3. CLASSIFICATION
sous les contraintes
n
X
α i yi = 0 et α i ≥ 0 ∀ i.
i =1

La solution α∗ du problème dual est indépendante de la dimension d ; la SVM


ne soufre pas du ”fléau de la dimension”.

• α∗i ≥ 0 ∀ i = 1, . . . , n

• yi (〈w∗ , x i 〉 + b∗ ) ≥ 1 ∀ i = 1, . . . , n.

• α∗i ( yi (〈w∗ , x i 〉 + b∗ ) − 1) = 0 ∀ i = 1, . . . , n .

- Seuls les α∗i > 0 interviennent dans la résolution du problème.

- Les x i tels que α∗i > 0 sont appelés les vecteurs supports. Ils sont situés
sur les frontières définisssant la marge maximale, c’est à dire,

yi (〈w∗ , x i 〉 + b∗ ) = 1

• Calcul de b : b n’apparait pas dans le problème dual et doit donc être


calculé à partir du problème primal. Or, on sait que pour les vecteurs
supports, on a :

yi (〈w, x i 〉 + b) = 1

Faire la moyenne de ces termes pour l’ensemble des vecteurs supports


est plus judicieux afin d’obtenir une valeur numérique stable.

• La marge est

2 ³ X ´1/2
= αi .
∥ w∥ i ∈SV

• La fonction de décision :

X
f ( x) = 〈w, x i 〉 + b = α i yi 〈 x, x i 〉 + b.
i ∈SV
3.9. MACHINE À VECTEURS SUPPORTS 59
3.9.3 SVM pour les données linéairement non séparables

3.9.3.1 Données presque linéairement séparables

Il arrive parfois que des individus soient du mauvais côté de la frontière.


On utlisera alors des variables de relaxation ξ = (ξ1 , . . . , ξn ) :

— ξ i ≥ 0 matérialise l’erreur de classement pour chaque observation


— ξ i = 0 lorsque l’observation est du bon côté de la droite ”marge” associée
à sa classe.
— ξ i < 1, le point est du bon côté de la frontière, mais déborde de la droite
”marge” associée à sa classe (l’individu est dans la région définie par la
marge).
— ξ i > 1, l’individu est mal classé.

Définition 3.9.3. On parle de marge souple ou marge relaxé. Les variables ξ i


sont appelées les variables ressorts (slacks) ou des variables de relaxation.
60 CHAPITRE 3. CLASSIFICATION

Les contraintes relaxées ne peuvent pas être utilisées sans contrepartie sous
peine d’obtenir une marge maximale infinie (en prenant des valeurs de ξ i suf-
fisamment grandes). La solution est de pénaliser les grandes valeurs de ξ i . Il
s’agira de trouver w, b et ξ = (ξ1 , . . . , ξn ) tels que

1 n
∥w∥2 + C
X
ξ i soit minimal
2 i =1

sous contraintes
yi (〈w, x i 〉 + b) ≥ 1 − ξ i , ξ i ≥ 0,

C est une variable de pénalisation des points mal classés et faisant un com-
promis entre la dimension de la marge et les points mal classés ; C > 0 est
un paramètre ; C est un paramètre d’entrée de la SVM à ajuster. Plus C est
grand, plus ³les erreurs sont pénalisées. Résoudre le problème primal revient à
trouver α = α1 , . . . , αn )′ tels que :

n
X 1X n
αi − α i α j yi y j 〈 x i , x j 〉 soit maximal
i =1 2 i, j

sous les contraintes


n
X
α i yi = 0 et 0 ≤ α i ≤ C ∀ i.
i =1

• 0 ≤ α∗i ≤ C ∀ i = 1, . . . , n
• yi (〈w∗ , x i 〉 + b∗ ) ≥ 1 − ξ∗i ∀ i = 1, . . . , n.
• α∗i ( yi (〈w∗ , x i 〉 + b∗ ) + ξ∗i − 1) = 0 ∀ i = 1, . . . , n .
• ξ∗i (α∗i − C ) = 0, ∀ i = 1, . . . , n.
3.9. MACHINE À VECTEURS SUPPORTS 61
Les x i tels que α∗i > 0 sont les vecteurs supports.
Deux types de vecteurs supports :
• Les vecteurs correspondant à des variables ressort nulles. Ils sont situés
sur les frontières de la région définissant la marge.
• Les vecteurs correspondant à des variables ressort non nulles : ξ∗i > 0 et
dans ce cas α∗i = C .
Les vecteurs qui ne sont pas supports vérifient α∗i = 0 et ξ∗i = 0.

3.9.3.2 Cas des données linéairement non séparables


Pour surmonter les inconvénients des cas non linéairement séparable, l’idée
des SVM est de changer l’espace des données. La transformation des données
peut permettre une séparation linéaire des exemples dans un nouvel espace :

On a donc une transformation d’un problème de séparation non linéaire dans


l’espace de représentation en un problème de séparation linéaire dans un de
plus grande dimension. Envoyer les entrées { x i , i = 1, . . . , n} dans un espace de
Hilbert H , de grande dimension, voire de dimension infinie, via une fonction
ϕ, et appliquer une SVM linéaire aux nouvelles données {(ϕ( x i ), yi ), i = 1, . . . , n}.
La sortie attribuée à l’entrée x est celle attribuée à son image ϕ( x). L’espace
H est appelé espace de représentation (feature space).
La règle de discrimination de la SVM non linéaire est définie par :
f ( x) = 1Pni=1 yi α∗ 〈ϕ(x i ),ϕ(x j )〉≥0 − 1Pni=1 yi α∗ 〈ϕ(x i ),ϕ(x j )〉<0
i i

Les α∗i sont solutions du problème dual dans l’espace H :


n
X 1X n
Maximier αi − α i α j yi y j 〈ϕ( x i ), ϕ( x j )〉
i =1 2 i, j

sous les contraintes


n
X
α i yi = 0 et 0 ≤ α i ≤ C ∀ i.
i =1
La connaissance seule de la fonction k définie par k( x, x′ ) = 〈ϕ( x), ϕ( x′ )〉 permet
de lancer la SVM dans H , sans déterminer explicitement H et ϕ.
62 CHAPITRE 3. CLASSIFICATION
Définition 3.9.4. Une fonction k : X × →R telle que k( x, x′ ) = 〈ϕ( x), ϕ( x′ )〉 pour
une fonction ϕ : X → H donnée est appelée noyau.

Exemple 3.9.1. Quelques exemples de noyaux :


— Noyau gaussien
³ ∥ x − y∥2 ´
k( x, y) = exp − .
2σ 2
— Noyau linéaire sur Rd :
k( x, y) = x′ x.
— Noyau polynomial surRd :

k( x, y) = ( x′ x + 1)d .

3.10 Réseaux de neurones


Les réseaux de neurones artificiels (RNA) sont inspirés de la méthode de
travail du cerveau humain qui est totalement différente de celle d’un ordinateur.
Le cerveau humain se base sur un système de traitement d’information parallèle
et non linéaire, très compliqué, ce qui lui permet d’organiser ses composants
pour traiter, d’une façon très performante et très rapide, des problèmes très
compliqués tel que la reconnaissance des formes. Un réseau de neurones est une
structure de réseau constituée d’un nombre de nœuds interconnectés par des
liaisons directionnelles, Chaque nœud représente une unité de traitement et les
liaisons représentent les relations causales entre les nœuds. La figure suivante
représente une schématisation d’un neurone.

La figure montre qu’un neurone k se constitue de trois éléments basiques :


— Un ensemble de connexions avec les différentes entrées xi, pondérée
chacune par un poids wki,
— Un additionneur permettant de calculer une combinaison linéaire des
entrées xi pon- dérées par les coefficients wki,
— Un biais bk qui permet de contrôler l’entrée de la fonction d’activation,
3.10. RÉSEAUX DE NEURONES 63
— Une fonction d’activation f permettant de délimiter la sortie yi du neu-
rone.
Mathématiquement, la sortie yk du neurone peut être exprimée par la fonction
suivante :
yk = f (wk1 x1 + wk2 x2 + . . . + wkn xn + b k )

L’architecture d’un réseau de neurones artificiel est définie par la structure de


ses neurones et leur connectivité. Elle est spécifiée par le nombre d’entrées, de
sorties, de nœuds et la façon selon laquelle sont interconnectés et organisés les
nœuds. Une fameuse architecture des réseaux de neurones est celle basée sur
des couches où les nœuds de chaque couche n’ont aucune connexion entre eux.
Cette architecture est utilisée dans presque 90%. des applications commerciales
et industrielles. La figure suivante représente un réseau de neurone de quatre
couches.

Les couches
1 et 2 s’appellent des couches cachées tandis que la couche 3 est la couche de
sortie. La tâche principale des réseaux de neurones artificiels est l’apprentissage
pour la classification, qui est réalisée par un processus itératif d’adaptation
des poids wi pour arriver à la meilleure fonction permettant d’avoir f ( x i ) =
yi , i = 1, . . . , N. Les valeurs des wi sont initialisées aléatoirement, et corrigées
selon les erreurs entre les yi obtenus et attendus. Dans un réseau de neurones
multicouches, la correction se fait dans le sens inverse du sens de propagation
des données ce qui est appelé la ”backpropagation”. A chaque présentation
d’un exemple d’apprentissage au réseau, on passe par deux étapes :
1. Dans l’étape de propagation, les valeurs du vecteur d’entrée (l’exemple)
sont reçues dans la couche d’entrée et propagées d’une couche à l’autre
jusqu’à la sortie où un vecteur de sortie (les yi ) est obtenu.
2. Dans la phase de backpropagation, les w i sont ajustés de la dernière
couche jusqu’à la première de manière à rapprocher les yi obtenus de
ceux attendus.
64 CHAPITRE 3. CLASSIFICATION
Ces deux étapes sont répétées avec chaque exemple d’apprentissage pour ob-
tenir à la fin un réseau de neurones artificiel entrainé. L’utilisation d’un RNA
entrainé, se fait par l’injection des valeurs du vecteur de l’exemple à classifier,
dans l’entrée et recevoir sa classe à la sortie par propagation. Les réseaux de
neurones sont utilisés pour la classification ou la régression. Pour la régression
les valeurs des yi représentent la réponse de la fonction à estimer. Dans le
cas de classification, si le cas est binaire, une seule sortie (0 ou 1) suffit. Si la
classification est multi-classes, on utilise généralement une sortie pour chaque
classe. Plusieurs types de réseaux de neurones existent, ils se diffèrent dans la
manière selon laquelle sont interconnectés les nœuds. Les réseaux récurrents,
par exemple, consistent à propager les résultats au sens inverse de la propaga-
tion dans le calcul des wi. Un autre type est celui des cartes auto-organisatrices
de Kohonen qui utilise un principe de compétition pour ne prendre que les ré-
sultats des meilleurs nœuds dans les calculs. Ce type de réseaux de neurones
est utilisé généralement dans l’apprentissage non supervisé. Certes, les réseaux
de neurones artificiels permettent de surmonter le problème d’analyse d’un
système donné pour le modéliser. On peut simuler son comportement unique-
ment à partir d’un certain nombre d’exemples observés. Mais, par contre, ils
représentent des problèmes remarquables qui ont limité leur évolution en face
d’autres techniques tel que les SVMs.

— Un réseau de neurones artificiel représente une boı̂te noire, et il est


très difficile voire impossible d’analyser et comprendre son fonctionne-
ment en face d’un problème donné, ce qui empêche de choisir la struc-
ture (type, nombre de nœuds, organisation, connexions,...etc) la mieux
adaptée à ce problème.
— L’ordre de présentation des exemples d’entrainement au réseau influe
directement sur les résultats obtenus. Pour surmonter ce problème, il est
nécessaire de répéter au moins la phase d’entrainement avec des ordres
différents des exemples ce qui augmente considérablement le temps d’ap-
prentissage.
— Dans le cas des bases de données, les réseaux de neurones artificiels ne
permettent pas de traiter des exemples avec des attributs symboliques
(catégoriels) qu’après un encodage adapté, à l’inverse de plusieurs autres
techniques d’apprentissages tel que les SVMs et les arbres de décision.
— Les RNAs représentent un inconvénient majeur qui est leur sensibilité
aux minimas locaux et la possibilité de leur divergence. L’ambiguı̈té de
leur fonctionnement empêche d’éviter de tels cas.

Pour toutes ces raisons beaucoup de travaux récents de comparaison, favorisent


les SVMs par rapport aux RNAs dans plusieurs applications.
3.11. CLASSIFICATION BAYÉSIENNE 65
3.11 Classification bayésienne
Les techniques se basant sur les lois statistiques sont les premières qui ont
été utilisées pour l’analyse de données. Elles consistent à prendre un sous en-
semble d’une population et essayer d’arriver à des conclusions concernant toute
la population. Ce sont des méthodes qui reposent sur la théorie de Bayes repré-
sentant une référence théorique pour les approches statistiques de résolution
des problèmes de classification. Le principe de cette théorie est le suivant :
Soit X un échantillon de données dont la classe est inconnue et qu’on veut la
déterminer, et soit H une hypothèse (X appartient à la classe C par exemple).
On cherche à déterminer P (H / X ) la probabilité de vérification de H après
l’observation de X . P(H / X ) est la probabilité postérieure c’est-à-dire après la
connaissance de X tandis que P(H ) est la probabilité à priori représentant la
probabilité de vérification de H pour n’importe quel exemple de données. Le
théorème de Bayes propose une méthode de calcul de P(H / X ) en utilisant les
probabilités P(H ), P( X ) et P( X /H ) :

P ( H / X ) = [P ( X / H ).P ( H )]/P ( X )

P(H/X) est donc la probabilité d’appartenance de X à la classe C, P(H) la


probabilité d’apparition de la classe C dans la population et qui peut être cal-
culée comme le rapport entre le nombre d’échantillons appartenant à la classe
C et le nombre total d’échantillons. P(X/H) peut être considérée comme la
probabilité d’apparence de chaque valeur des attributs de X dans les attributs
des échantillons appartenant à la classe C :

P( X / H ) = P(a i = v i / H ).
Y

Où ai est le ie‘me attribut de X et vi sa valeur. Cette astuce de calcul de


P(X/H) est basée sur la supposition d’indépendance entre les attributs. Mal-
gré que cette supposition soit rarement vérifiée, sa considération facilite le
calcul et donne une idée approximative sur la probabilité. Finalement P(X)
est constante pour toute la population et indépendante des classes. Il ne reste
donc que considérer la classe de X, celle maximisant le produit P(X/H)•P(H).
Cette application est l’application la plus simple de la théorie de Bayes, elle
s’appelle la classification naı̈ve de Bayes. En pratique, on peut vouloir trouver
la classe d’un enregistrement dont la valeur d’un attribut n’existe pas dans
la table. Dans ce cas, une méthode dite ”Estimateur de Laplace” est utilisée :
on ajoute 1 à tous les numérateurs des probabilités et on ajoute le nombre
de valeurs distinctes de cet attribut au dénominateur. Par exemple au lieu
d’avoir les probabilités 2 , 4 et 3 , on utilise les probabilités 3 , 5 et 4 si l’at-
tribut n’a que 3 valeurs 99 9 1212 12 distinctes. Comme ça on minimise la
probabilité sans l’annuler et par conséquent annuler toute la probabilité. Un
66 CHAPITRE 3. CLASSIFICATION
autre problème que l’algorithme ne prend pas en compte, bien comme il faut,
est celui des valeurs numériques continues, puisqu’il se base uniquement sur
les égalités des valeurs. En effet, on ne peut pas dire que la probabilité qu’une
variable continue soit égale à 12.36 est égale à 0 par exemple, seulement car la
valeur 12.36 n’appartient pas aux valeurs de cet attribut. Pour surmonter le
problème, on suppose que la distribution des valeurs de l’attribut est normale,
et on calcule sa moyenne et sont écart type et la probabilité peut être calculée
selon la loi normale :
La méthode naı̈ve de Bayes est applicable uniquement en cas de vérifica-
tion de l’indé- pendance entre les attributs, ce qui peut être contrôlé par la
matrice de corrélation et ses valeurs propres. Aussi, les valeurs des attributs
numériques doivent avoir une distribution normale. Cette méthode reste une
méthode simple et moins coûteuse en temps de calcul. Elle est aussi incrémen-
tale c’est-à-dire que l’arrivée d’une nouvelle information (classe d’un nouvel
enregistrement) ne nécessite pas de refaire tous les calculs pour la prendre
en consi- dération. Les connaissances apprises peuvent être renforcées sans
avoir besoin de refaire tous les calculs. Les réseaux Bayésiens (ou réseaux de
croyance) prennent en considération les dépen- dances éventuelles entre les
attributs contrairement à la technique précédente. Un réseau Bayésien est re-
présenté sous forme d’un graphe orienté acyclique, où les nœuds représentent
les attributs et les arcs représentent les liaisons entre ces attributs (des pro-
babilités condi- tionnelles). Deux attributs sont reliés par un arc si l’un cause
ou influe sur l’autre : le pré- décesseur est la cause et le successeur est l’effet.
Prenons l’exemple suivant : Un médecin reçoit un patient qui souffre d’un pro-
blème de respiration (symptôme) appelé ”dyspnoea”, et qui a peur d’avoir un
cancer de poumon. Le médecin sait que d’autres causes sont pos- sibles tel que
la tuberculose et les bronchites. Il sait aussi que d’autres informations peuvent
augmenter la probabilité du cancer tel que si le patient est fumeur ou non, et
la pollution de l’air où il vie. Mais une image rayon X positive confirmera le
cancer ou la tuberculose. Le tableau suivant résume les attributs qu’on a avec
leurs valeurs possibles.
Le réseau Bayésien peut être construit à partir de la base de données d’ap-
prentissage en calculant la corrélation entre les attributs. On commence par
ajouter au réseau les nœuds (attributs) indépendants et à chaque fois, on
ajoute des arcs à partir des nœuds existants dans le réseau desquels dépend
le nœud ajouté. Les CPTs peuvent être aussi calculées facilement à partir de
la base de données en se basant sur la fréquence d’apparition des valeurs. Une
fois le réseau Bayésien établi avec les CPTs, il peut être utilisé pour raisonner
dans deux sens :
— Au sens des arcs : appelé ”Prédiction” où on possède des causes et on
cherche les probabilités des différents effets possibles, par exemple, on
connaı̂t qu’un patient est fumeur et on cherche la probabilité d’avoir
3.11. CLASSIFICATION BAYÉSIENNE 67
un cancer, on multiplie simplement les probabilités du chemin entre la
cause et l’effet final.
— Au sens contraire des arcs : appelé ”Diagnostic” où on connaı̂t des ef-
fets et on cherche les probabilités de certaines causes, par exemple, on
connaı̂t qu’un patient a un cancer, et on cherche la probabilité qu’il
soit un fumeur. Dans ce cas, on multiplie aussi les probabilités du che-
min inversé de l’effet à la cause. Les réseaux Bayesiens sont beaucoup
plus précis que d’autres techniques d’apprentis- sage, puisqu’ils, d’un
côté, prennent en considération les dépendances entre les attributs, et
d’un autre côté, peuvent intégrer des connaissances humaines au préa-
lable. On peut par exemple introduire directement la topologie du ré-
seau et le faire entraı̂ner pour construire les CPTs. Ils sont aussi incré-
mentaux puisque les croyances peuvent être modifiées à chaque arrivée
d’une nouvelle information et cela par propagation directe sur le réseau.
Malheureu- sement, ces réseaux sont très coûteux en temps de calcul
pour l’apprentissage surtout pour le calcul des CPts puisqu’il faut cal-
culer une probabilité pour chaque valeur possible d’un fils pour chaque
valeur possible de chacun de ses pères. L’espace nécessaire pour stocker
les CPTs est aussi exhaustif.
La plupart des travaux récents sur les réseaux Bayésiens visent à optimiser la
tâche complexe d’apprentissage en optimisant le temps de calcul tout en gar-
dant la précision. Dans des travaux récents, on essaye d’hybrider les réseaux
Bayésiens avec les machines à vecteurs supports(SVM) pour estimer les pa-
ramètres d’apprentissage. Une combinaison du raisonnement Bayesiaen avec
les méthodes à noyaux a permis selon certaines recherches d’utiliser plusieurs
hyperplans, pour séparer les données, ensuite utiliser ces hyperplans pour pro-
duire un seul critère de classification plus précis.
Chapitre

4 Regression

4.1 Définition
4.2 Régression linéaire simple
4.2.1 Modélisation
Définition 4.2.1. Le modèle de régression linéaire simple est défini par une
équation de la forme
Yi = β0 + β1 X i + ε i 1 ≤ i ≤ n.

Nous faisons les hypothèses suivantes :





 (H 0 ) : les variables X i sont non aléatoires
(H 1 ) : E(ε i ) = 0 ∀ i ∈ {1, . . . , n}



 (
σ2 si i = j
 (H 2 ) : Cov ( ε i , ε j ) =
0 si i ̸= j





(H ) : ε , . . . , ε sont indépendantes et ε ,→ N (0, σ2 ) pour tout i ∈ {1, . . . , n}

3 1 n i

Remarque 4.2.1. - l’hypothèse (H 1 ) signifie que les erreurs ε1 , . . . , εn sont


de moyenne nulle, ou autrement dit, on ne se trompe pas en moyenne ;
- l’hypothèse (H 2 ) signifie que les erreurs ε1 , . . . , εn sont non corrélés
( cov(ε i , ε j ) = 0 ∀ i ̸= j ) et de même variance (Homoscédasticité) (var(ε i ) =
σ2 , ∀ i = 1, . . . , n) ;
- l’hypothèse (H 3 ) que les erreurs ε1 , . . . , εn sont gaussiennes, centrées et
de même variance
- (H 3 ) implique (H 1 ) et (H 2 )

68
4.2. RÉGRESSION LINÉAIRE SIMPLE 69
4.2.2 Démarche de la régression

• Vérifier la possibilté d’une liaison linéaire entre Y et X

- nuage de points : réaliser un graphique cartésien, dont l’abscisse


représente X et l’ordonnée Y . Dans ce repère, chaque individu i
est représenté par un point de coordonnées ( X i , Yi ). L’ensemble des
individus constitue un nuage de points dont la forme révèle la liaison
entre les deux variables.

- le coefficient de corrélation linéaire a pour objet de quantifier l’al-


lure plus ou moins linéaire d’un nuage de points. Il est défini par

n
X
( X i − X n )(Yi − Y n )
i =1
ρ=s s .
n n
( X i − X n )2 (Y i − Y n )2
X X
i =1 i =1

ρ est toujours compris entre −1 et 1, valeurs atteintes lorsque la


liaison linéaire est parfaite ; ρ = 0 ne signifie pas que X et Y sont
indépendantes ; dans ce cas, X et Y sont dites linéairement indépen-
dantes ou non corrélées.

• Estimation des paramètres β0 , β1 et σ2 : on utilisera la méthode des


moindres carrés ordinaires ou la méthode du maximum de vraisem-
blance selon la nature des hypothèses sur les erreurs.

• Validation du modèle : cette étape permet de vérifier la validité des


hypothèses du modèle ; coefficient de détermination, validité marginale
de Student, analyse des résidus.

4.2.3 Estimateurs des moindres carrés

Définition 4.2.2. On appelle estimateurs des moindres carrés de β0 et β1 , les


estimateurs β̂0 et β̂1 obtenus par minimisation de la quantité

n ¡
X ¢2
S (β0 , β1 ) = Yi − β0 − β1 X i .
i =1
7018 CHAPITRE 4.Regression
2 Simple Linear REGRESSION

15

ê6

10

ê5 Line of
best fit
Y ê3
5
ê4

ê1
0
ê2

0 1 2 3 4 5
X

Figure
Le 2.2 (β̂plot
A scatter
vecteur 0 , β̂1 ) qui minimise S (β0 , β1 ) vérifie la condition
of data with a line of best fit and the residuals identified du premier
ordre
n
 ∂S (nβ0 2, β1 )n = −2 2(Y −

X n
 =∑ i (βy0 − −bβ1−Xb ix) =
∑ ∑ 2 0

RSS

∂β0ˆ
ei = ( yi − ˆ
y i ) = i 0 1 i) .
i =1 i =1 i = 1 i =1
∂S (β0 , β1 ) X n
= −2 X i (Yi − β0 − β1 X i ) = 0


∂βwith

For RSS to be a minimum

1 respect to b and
i =1 0
b1 we require

On en déduit alors que∂ RSS n


= −2∑ (yi − b0 − b1 xi ) = 0
n ∂ b0
X i =1 n
X
X i Yi − nX n Y n ( X i − X n )(Yi − Y n )
and i =1 i =1
β̂1 = n
= n
∂ RSS
X 2 n 2
= i−2−∑
2
X
X nX xi (nyi − b0 − b1 xi ) =(0X i − X n )
∂ ib=1 1 i =1 i =1

Rearranging terms in these last two equations gives


β̂0 = Y n − β̂1 X n .

La condition de second ordren permet de vérifiern
aisément que (β̂0 , β̂1 ) minimise
S (β0 , β1 ).
∑i =1
yi = b0 n + b1 ∑ xi
i =1

and

4.3 Régrssion linéaire


∑ x y = b ∑multiple
n
x +b ∑x . i i 0
n

i 1
n
2
i
i =1 i =1 i =1

4.3.1 Modélisation
These last two equations are called the normal equations. Solving these equations
forLe
b0 and b1 gives
modèle dethe so-called least
régression squares
linéaire estimates
multiple estofdéfini
the intercept
par l’équation
ˆ ˆ
Yi = β0 + β1 Xbi10 +
= ·y· −· +
bβ1 xp X i p + ε i , i = 1, . . . , n (2.3)

où
- Yi est la réponse mesurée pour l’individu i
4.3. RÉGRSSION LINÉAIRE MULTIPLE 71
- X i j est la valeur de X j pour l’individu i ;
- β0 , . . . , β p sont des paramètres inconnus
- ε i appelée aléa est une variable aléatoire.
En posant
   
Y1 1 X 11 · · · X1 j ··· X 1p
 ..   .. .. .. .. 

 . 


 . . . . 

Y = Yi  X = 1 X i1 ··· Xij ··· Xip 
..  .. .. .. ..
   
  
 .   . . . . 
Yn 1 X n1 · · · Xnj ··· X np

β0
 
ε1
 
 β1 
.. 
 .. 
  
 . 
 . 
β= ε= εi 
 

 βj 
.. 
 
  
 .  . 
 .. 

εn
βp
on obtient la forme matricielle suivante :

Y = X β + ε. (4.3.1)

Soient les hypothèses suivantes :


(H 0 ) La matrice X n’est pas aléatoire.
(H 1 ) rang( X ) = p + 1.
(H 2 ) E(ε) = 0 et V ar (ε) = σ2 In avec σ2 > 0.
(H 3 ) ε ,→ N (0, σ2 In ) avec σ2 > 0.

Remarque 4.3.1. Les paramètres inconnus du modèle sont : β et σ2 .


Remarque 4.3.2. (H 0 ) implique que l’on choisit les valeurs des variables ex-
plicatives puis on observe Y .
(H 1 ) implique que les colonnes de X forment des vecteurs linéairement indé-
pendants de Rn . Ainsi, nous avons

∀C ∈ R p+1 , X C = 0 ⇒ C = 0;

il existe donc un unique vecteur θ associé au modèle (4.3.1) ; de plus, on a


n ≥ p + 1 ; si l’on avait rang( X ) < p + 1, cela signifierait qu’il existe au moins
une variable explicative qui peut s’écrire comme une combinaison linéaire d’une
ou des autres variables explicatives : cette variable explicative serait donc su-
perflue, elle n’apporterait rien à l’explication de Y déjà fournie par les autres
72 CHAPITRE 4. REGRESSION
variables explicatives.
(H 2 ) implique que les composantes de ε sont centrées, de même variance (ho-
moscédasticité) et non correlées entre elles.
(H 3 ) implique que les erreurs ε1 , . . . , εn sont indépendantes identiquement dis-
tribuées de loi N (0, σ2 ).

4.3.2 Estimateurs des moindres carrés


Proposition 4.3.1. Dérivée matricielle
Pour tout v, a ∈ Rk , pour toute matrice carrée d’ordre k, nous avons
′ ′
∂v a ∂a v
- = =a
∂v ∂v

∂v Mv ′
- = ( M + M )v
∂v
Nous supposons vérifier les hypothèses (H 0 ) et (H 1 ).

Définition 4.3.1. On appelle estimateur des moindres carrés ordinaires β̂, la


valeur de β qui minimise la fonction suivante

S (β) = (Y − X β) (Y − X β)

Comme ε = Y − X β, on a
à !2
n n p

ε2i
X X X
S (β) = ε ε = = Yi − (β0 + β j X i j) .
i =1 i =1 j =1

Théorème 4.3.1. L’estimateur des moindres carrés ordinaires β̂ de β est défini


par
β̂0
 

−1 ′  .. 
β̂ = ( X X ) X Y =  . .
β̂ p

Démonstration. Nous avons



S (β) = (Y − X β) (Y − X β)
′ ′ ′ ′ ′ ′
= Y Y −Y Xβ−β X Y +β X Xβ

∂S (β) ′ ′ ′ ′
= −2 X Y + 2 X X β = 0 ⇒ β = ( X X )−1 X Y
∂β
∂2 S (β) ′
Comme = 2 X X est une matrice définie positive, on obtient le résultat.
∂β2
4.4. SVM POUR LA RÉGRESSION (SVR) 73
4.4 SVM pour la régression (SVR)
Dans leur origine, les SVMs ont été développées pour des problèmes de
classification. Cependant, leur nature leur permet de résoudre également des
problèmes de régression. La régression est un cas particulier de classification où
les classes des exemples ne sont pas dénombrables c’est à dire continues. Pour
résoudre le problème de régression, SVM utilise une astuce semblable a celle
utilisée en classification. On propose de modéliser la fonction de régression par
un hyperplan qui se situe au centre d’un hypertube de largeur 2ε contenant
tous les exemples d’entrainement.

Plusieurs hyperptubes, de largeur 2ε contenant tous les exemples d’en-


trainement, peuvent exister. L’hypertube optimum est celui qui minimise la
distances entre les exemples d’entrainement et ses frontières, autrement dit, qui
maximise la distance des exemples de l’hyperplan du centre. La détermination
de l’hypertube optimum est semblable à la détermination de l’hyperplan de
marge maximale optimum dans le cas de classification. On doit donc recher-
cher un hypertube de marge maximale avec tous les exemples d’entrainement
à l’intérieur. En d’autre terme, ajuster l’hypertube par rotation et décalage
jusqu’à maximiser la distance des exemples de l’hyperplan du centre, tout en
gardant tous les exemples à l’intérieur de l’hypertube. L’équation 4.11 modé-
lise le problème sous forme d’un problème de programmation quadratique. La
fonction objective maximise la marge et les contraintes gardent les exemples
dans l’hypertube de largeur 2ε. En pratique, où il est difficile de garder tous les
exemples dans un hyper-tube de largeur 2ε, on relaxe un peut les contraintes
74 CHAPITRE 4. REGRESSION
comme dans le cas des SVM à marge souple. On admet alors à l’hyper-tube
de laisser des exemples à l’extérieur en introduisant des variables de relaxation
ξ (cf. Figure 4.3). Les variables de relaxation ξ i représentent les erreurs des
exemples au dessus de l’hyper-tube tandis que les ξ′i représentent les erreurs
des exemples au dessous. Toutes ces variables sont nulles pour les exemples
à l’intérieur de l’hyper-tube et égales aux distances de l’hyper-tube pour les
exemples à l’extérieur (équations 4.12,4.13).
Bibliographie

[1] L. Devroye, L. Györfi and G. Lugosi. A probabilistic theory of pattern


recognition, volume 31. Springer Verlag, 1996.
[2] Hastie T., Tibshirani R., Friedman J., The elements of statistical learning,
Springer, 2001.
[3] Tikhonov A. N., On solving ill-posed problem and method of regularization,
Doklady Akademii Nauk, USSR 153, 1963, 501-504.
[4] Vapnik V., The nature of statistical learning theory, New-York, Springer-
Verlag, 1996.

75

Vous aimerez peut-être aussi