Cours_fouilles_donnees_M2_Miage

Fouilles de données
prof. armel yodé

Table des matières
1 Introduction 5
1.1 Définition de la fouille des données ou data mining . . . . . . . . 5
1.2 Processus du data mining . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Méthodes de data mining . . . . . . . . . . . . . . . . . . . . . . . 6
2 Clustering 8
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Mesure déloignement . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Données numériques . . . . . . . . . . . . . . . . . . . . . . 11
2.2.3 Données binaires . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Données qualitatives . . . . . . . . . . . . . . . . . . . . . 12
2.2.5 Distance entre clusters . . . . . . . . . . . . . . . . . . . . 12
2.3 Evaluation de la qualité d’un clustering . . . . . . . . . . . . . . 14
2.3.1 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 Indice de Davis-Bouldin . . . . . . . . . . . . . . . . . . . 15
2.3.3 Coefficient de silhouette . . . . . . . . . . . . . . . . . . . 15
2.3.3.1 Cohésion . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.2 Séparation . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.3 Coefficient de silhouette . . . . . . . . . . . . . . 16
2.3.4 Stabilité d’un cluster . . . . . . . . . . . . . . . . . . . . . 16
2.4 Clusterimg partitionnel . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Algorithme des centres mobiles ou K -means de Lloyd-
Forgy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 K-mean (Mc Queen) . . . . . . . . . . . . . . . . . . . . . 20
2.4.3 Nuée dynamique (Diday) . . . . . . . . . . . . . . . . . . . 20
2.5 Les méthodes hiérarchiques . . . . . . . . . . . . . . . . . . . . . . 21
2.5.1 Classification ascendante hiérachique (Cah) . . . . . . . . 21
2.5.2 Classification descendante hiérachique . . . . . . . . . . . 26
2
TABLE DES MATIÈRES 3
2.6 Clustering basé sur la densité . . . . . . . . . . . . . . . . . . . . . 26
3 Classification 27
3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Règles de prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Algorithmes d’apprentissage . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Qualité d’un algorithme d’apprentissage . . . . . . . . . . 32
3.4 Algorithme par minimisation du risque empirique . . . . . . . . 34
3.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Performance de l’algorithme par minimisation du risque
empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.3 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.4 Théorie de Vapnik-Chervonenkis . . . . . . . . . . . . . . 39
3.4.4.1 Dimension de Vapnik . . . . . . . . . . . . . . . 39
3.4.4.2 Classement binaire avec la perte 0-1 . . . . . . 43
3.5 Evaluation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.1 Erreur de généralisation . . . . . . . . . . . . . . . . . . . 44
3.5.2 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . 45
3.5.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.3.1 Méthode HoldOut . . . . . . . . . . . . . . . . . 46
3.5.3.2 Validation croisée . . . . . . . . . . . . . . . . . . 46
3.5.3.3 Bootstrap . . . . . . . . . . . . . . . . . . . . . . 47
3.5.4 Aggrégation de modèles . . . . . . . . . . . . . . . . . . . 47
3.5.4.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.4.2 Bootsting . . . . . . . . . . . . . . . . . . . . . . 48
3.6 K plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.7.1 Choix de la variable de segmentation . . . . . . . . . . . . 49
3.7.2 Choix de la bonne taille de l’arbre . . . . . . . . . . . . . 49
3.7.3 Algorithmes de construction d’arbres de décision . . . . . 50
3.7.3.1 Algorithme ID3 . . . . . . . . . . . . . . . . . . . 50
3.7.3.2 Algorithme C4.5 (J48) . . . . . . . . . . . . . . . 50
3.8 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9 Machine à vecteurs supports . . . . . . . . . . . . . . . . . . . . . 52
3.9.1 Principe général . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9.2 SVM pour des données linéairement séparables . . . . . . 53
3.9.3 SVM pour les données linéairement non séparables . . . 59
3.9.3.1 Données presque linéairement séparables . . . . 59
3.9.3.2 Cas des données linéairement non séparables . 61
3.10 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.11 Classification bayésienne . . . . . . . . . . . . . . . . . . . . . . . 65
4 TABLE DES MATIÈRES
4 Regression 68
4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.2 Démarche de la régression . . . . . . . . . . . . . . . . . . 69
4.2.3 Estimateurs des moindres carrés . . . . . . . . . . . . . . 69
4.3 Régrssion linéaire multiple . . . . . . . . . . . . . . . . . . . . . . 70
4.3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.2 Estimateurs des moindres carrés . . . . . . . . . . . . . . 72
4.4 SVM pour la régression (SVR) . . . . . . . . . . . . . . . . . . . . 73
Chapitre
1 Introduction
1.1 Définition de la fouille des données ou data mi-

ning
On peut définir la fouille des données ou data mining comme l’ensemble des
méthodes scientifiques destinées à l’exploration et à l’analyse de grandes bases
de données en vue de détecter dans ces données des profils-type, des compor-
tements récurrents, des règles, des liens, des tendances inconnues (non fixées
a priori), des structures particulières restituant de façon concise l’essentiel de
l’information utile pour l’aide à la décision. Elle est utilisée aujourd’hui dans
de nombreux domaines tels que :
— organisme de crédits : accorder un crédit ou non en fonction du profil

du demandeur, de sa demande, des expériences passées de prêts,. . .
— organisation du rayonnage dans les supermarchés : regrouper les pro-
duits qui sont généralement achetés ensembles ;
— organisation des campagnes de publicité, de promotion : ciblage des
offres ;
— diagnostic medical : ”les patients ayant tels et tels symptômes et de-
meurant à Cocody développent couramment telle pathologie”;
— commerce electronique : personnalisation des pages du site web de l’en-
treprise en fonction du profil de chaque internaute (optimisation de la
navigation sur un site web) ;
— grandes distribution : analyse du ticket de caisse ;
— . . .etc.
5
6 CHAPITRE 1. INTRODUCTION
1.2 Processus du data mining
Les spécialistes du data mining obtiennent généralement des résultats fiables
en suivant un processus structuré et réitérable en six étapes :
1. Définir et comprendre le problème.

2. Compréhension des données : déterminer les informations qui seront
nécessaires pour répondre à l’objectif défini, lister les ressources qui
contiennent les données utiles et rassembler ces dernières. Collecte des
données.
3. Préparation des données : préparer les données dans le format appro-
prié pour répondre à l’objectif et corriger les problèmes de qualité tels
que les doublons ou les données manquantes. Pré-traitement.
4. Modélisation : utiliser des algorithmes pour identifier des modèles.
5. Évaluation : déterminer si et dans quelle mesure les résultats obtenus
par un modèle aideront à atteindre l’objectif. Il y a souvent une phase
itérative pour trouver le meilleur algorithme et donc le meilleur résultat.
6. Déploiement : mettre les résultats de l’analyse à la disposition des dé-
cideurs et utiliser les informations finales pour adapter la stratégie.
Tout au long de ce processus, les membres de l’équipe doivent entretenir une

étroite collaboration afin d’interpréter les résultats et répondre à la question
de départ.
1.3 Données
Les données peuvent être numériques ou catégorielles (qualitatives). L’ana-
lyse et le choix des outils dépendent de la nature des données.
1.4 Méthodes de data mining

Il existe en général deux types de méthodes
• Les méthodes descriptives visent à mettre en évidence des informations

présentes mais cachées par le volume des données (recherche profils-
clients, recherche d’associations de produits,. . .)
Il n’y a pas de variable à expliquer (variable de sortie).
1.4. MÉTHODES DE DATA MINING 7
• Les méthodes prédictives à extrapoler de nouvelles informations à partir

des informations présentes, expliquent les données et il y a une variable
à expliquer (variable de sortie)
Chapitre
2 Clustering
2.1 Introduction
2.1.1 Objectifs
L’objectif du clustering ou classification non supervisée est :
• de former des groupes appelés clusters (ou classe ou segments) au sein
d’une population de N individus
⋆ sur la base de l’observation des p variables X 1 , . . . , X p ;
⋆ les classes obtenues ne sont pas prédéfinies ; elles sont découvertes à
l’issu de l’opération.
• d’optimiser un critère visant à regrouper les individus dans des classes,
⋆ chacune la plus homogène possible,
⋆ entre elles, les plus distinctes.
8
2.1. INTRODUCTION 9
2.1.2 Problématiques
1. Nature des observations : données catégorielles, numériques,. . .
2. Mesure d’éloignement : notion de similarité ou de dissimilarité entre
observations
3. Définition d’un cluster
4. Evaluation de la validité d’un cluster.
5. Nombre de clusters pouvant être identifiés dans les données.
6. Quels algorithmes ? Le nombre de Stirling est le nombre de partitions

de N éléments en k classes :
1 n!
σkN =
X
.
k! n1 ! · · · n k !
n1 + · · · + n k = N
n i ∈ N∗
Exemple 2.1.1. σ25 = 15 σ512 = 1323652

10 CHAPITRE 2. CLUSTERING
Le nombre total de partitions est le nombre de Bell :
N
σkn .
X
B( N ) =
k=1
Exemple 2.1.2. Nous avons :
B(9) = 21147 B(10) = 115975 B(12) = 4213597.
En analyse des données, on a généralement à traiter des ensembles de

plusieurs milliers d’individus. Ainsi, même si nous disposons d’un cri-
tère de bonne classification, il est humainement impossible de tester
toutes les partitions. D’où la nécessité de construire des algorithmes
performants convergeant vers une ”bonne” partition.
7. Comparaison de différents résultats de clustering.
2.2 Mesure déloignement

2.2.1 Définitions
Une bonne méthode de clustering est une méthode qui maximise la ressem-
blance entre les données à l’intérieur de chaque cluster (groupe homogène), et
minimise la ressemblance entre les données des clusters différents. C’est pour-
quoi les résultats d’une technique de clustering dépendent fortement de la
mesure d’éloignement choisie. On distingue deux mesures d’éloignement : la
dissimilarité et la similarité.
Soit E l’ensemble des individus.
Définition 2.2.1. Une dissimilarité est une application d : E × E → R+ vérifiant :

⋆ d(xi , xi ) = 0 ∀i ∈ E
⋆ d ( x i , x j ) = d ( x j , x i ), ∀( i, j ) ∈ E × E
Autrement dit, moins les individus i et j se ressemblent, plus d ( x i , x j ) est

élevée. Une mesure de distance est un exemple de dissimilarité. En effet, elle
vérifie :
• d ( x i , x j ) = d ( x j , x i ), ∀( i, j ) ∈ E 2 .
• d ( x i , x j ) = 0 ⇐⇒ x i = x j .
• d ( x i , x j ) ≤ d ( x i , xk ) + d ( xk , x j ), ∀( i, j, k) ∈ E 3 .
A l’inverse, l’on peut mesurer la ressemblance entre observations à l’aide d’une
similarité :
2.2. MESURE DÉLOIGNEMENT 11
Définition 2.2.2. Une similarité est une application s : E × E → R+ vérifiant :
⋆ s( x i , x j ) = s( x j , x i ) pour tout ( i, j ) (symétrie)
⋆ s( x i , x i ) ≥ s( x i , x j )
Plus les unités i et j se ressemblent plus s( x i , x j ) est élevée. On peut transformer

une similarité s en une dissimilarité d . Il suffit de poser :
d ( x i , x j ) = s( x i , x i ) − s( x i , x j ).
On peut transformer une dissimilarité d en une similarité s. Il suffit de poser :
s( x i , x j ) = sup d ( xl , xk ) − d ( x i , x j ).
(l,k)
2.2.2 Données numériques

Pour mesurer la distance entre des données numériques, plusieurs formules
existent :
v
u p
uX
1. Distance euclidienne : D ( x i , x j ) = t ( x ik − x jk )2 .
k=1
p
X
2. D ( x i , x j ) = | x ik − x jk |.
k=1
3. Si M et une matrice symétrique définie-positive :
q
′
D n (xi , x j ) = ( x i − x j ) M ( x i − x j ).
(a) On peut choisir M = I p pour les variables homogènes.

³ ´
(b) On peut choisir M = diag σ12 , . . . , σ12 pour les variables hétérogènes :
1 p
C’est la distance de Mahalanobis. Elle permet d’attenuer la structure
de corrélation.
2.2.3 Données binaires

On considère x1 et x2 deux vecteurs binaires. On note
• a le nombre de fois où x1 j = x2 j = 1.
• b le nombre de fois où x1 j = 0 et x2 j = 1.
• c le nombre de fois où x1 j = 1 et x2 j = 0.
• d le nombre de fois où x1 j = 0 et x2 j = 0.
Dans ce cas, voici quelques exemple de smilarité
a
• s( x1 , x2 ) = .
a+b+c+d
a
• s( x1 , x2 ) = .
a+b+c
2a
• s( x1 , x2 ) = .
2a + b + c
a
• s 1 ( x1 , x2 ) = .
a + 2( b + c)
a+d
• s 1 ( x1 , x2 ) = .
a+b+c+d
2.2.4 Données qualitatives

• Similarité entre individus : Codage disjonctif complet permettant de se
ramener à un tableau de variables binaires.
• Distance de Hamming : mesurer la différence entre deux séquences de
symbole. Soit a = (a 1 , . . . , a d ) et b = (b1 , . . . , b d ). Nous avons h(a, b) =
Card ({ j : a j ̸= b j })
Exemple 2.2.1. • la distance de Hamming entre 1011101 et 1001001
est 2.
• la distance de Hamming entre ramer et cases est 3
• Distance de Livenshtein (d’édition) : mesurer la différence entre deux
chaines de caractères ; nombre d’opérations élémentaires (insérer/supprimer/remplacer)
pour passer d’une chaine source à une chaine destination. ; par exemple
pour passer de ”a” vers ”ab” : distance=1 (insérer ”b”)
2.2.5 Distance entre clusters

• Distance minimum :
n o
D min (C 1 , C 2 ) = min D ( x i , x j ), x i ∈ C 1 , x j ∈ C 2 .
2.2. MESURE DÉLOIGNEMENT 13
• Distance maximum :
n o
D max (C 1 , C 2 ) = max D ( x i , x j ), x i ∈ C 1 , x j ∈ C 2 .
• Distance moyenne :
P P
x i ∈C 1 x i ∈C 2 D ( x i , x j )
D mo y (C 1 , C 2 ) =
n1 n2
où n1 est le nombre d’élémets de C1 et n2 le nombre d’éléments de C2 .
• Distance des centres de gravité :
D c g ( C 1 , C 2 ) = D (µ 1 , µ 2 )
où µ1 et µ2 sont les centres de gravité respectifs de C1 et C2

2.3 Evaluation de la qualité d’un clustering

2.3.1 Inertie
Nous considérons les N individus à classer comme un nuage de points d’un
espace à p dimensions. Chaque point x i est muni d’un poids p i :
n
X
pi > 0 p i = 1.
i =1
Le centre gravité du nuage de points est :

X
G= p i xi .
i
Le centre de gravité du cluster C k est

X
Gk = p i xi .
i ∈C k
• Inertie inter-cluster :
p k D 2 (G k ,G )
X X
I inter = pk = pi;
k i ∈C k
I inter mesure l’éloignement des centres des clusters entre eux. Plus cette
inertie est grande, plus les clusters sont bien séparés.
• Inertie intra-cluster :
Xh X 2
i X
I intra = p i D ( x i ,G k ) = Ik
k i ∈C k k
où I k est l’inertie d’un cluster qui mesure la dispersion des points du
cluster autour du centre de gravité G k . Plus cette inertie est faible, plus
petite est la dispersion des points autour du centre de gravité.
• Pour obtenir une bonne partition, il faut minimiser l’inertie intra-cluster
et donc maximiser l’inertie inter-cluster
2.3. EVALUATION DE LA QUALITÉ D’UN CLUSTERING 15
2.3.2 Indice de Davis-Bouldin
Posons
1 X ³ H +H ´
k l
Hk = D ( x,G k ) DB k = max .
N k x∈C k l ̸= k D (G k ,G l )
L’indice de Davies-Bouldin est défini par
1 XK
DB = DB k .
K k=1
La valeur DB est faible si le numérateur est petit (les clusters sont homogènes)
et le dénominateur est grand (les clusters sont bien séparés). La meilleure
partition est donc celle qui minimise la moyenne de la valeur calculée pour
chaque cluster. En d’autres termes, la meilleure partition est celle qui minimise
la similarité entre les clusters. Minimiser le DB aide aussi à déterminer le
nombre de clusters.
2.3.3 Coefficient de silhouette

Le coefficient de silhouette est une combinaison de la cohésion et de la
séparation.
2.3.3.1 Cohésion
Pour x i ∈ C k , est-il proche des points du cluster auquel il appartient ? Le
coefficient de cohésion est la distance moyenne aux autres points du même
cluster :
1 X
ai = D ( x i , y).
Nk − 1 y∈C k ,y̸= x i
2.3.3.2 Séparation
Pour x i ∈ C k , est-il loin des points des autres clusters ? le coefficient de
séparation est la distance minimale par rapport aux points des clusters C l ,
l ̸= k, c’est à dire au cluster le plus proche :
1 X
b i = min D ( x i , y) H = {1, . . . , K }.
l ∈ H,l ̸= k N l y∈C
l
b i mesure la dissimilarité la plus faible avec tout autre cluster C l avec l ̸= k.

2.3.3.3 Coefficient de silhouette
Le coefficient de silhouette est défini par
bi − ai
Si = .
max(a i , b i
Le coefficient de silhouette varie entre −1 (pire classement) et 1 (meilleur

classement) ; si le point x i est dans le bon cluster alors a i < b i et S i est proche
de 1.
1X
Pour tous les points, nous avons S = S i ; S aide à déterminer le nombre
N
de clusters.
2.3.4 Stabilité d’un cluster
Si on lance l’algorithme plusieurs fois sur les mêmes données avec une
initialisation différente, ou sur des sous-ensembles différents des données, ou
encore sur les mêmes données légèrement bruitées, est-ce que l’on obtient les
mêmes résultats ?
Ce critère est particulièrement pertinent pour choisir le nombre de clusters :
si le nombre de clusters choisi correspond à la structure naturelle des données,
le clustering sera plus stable que si ce n’est pas le cas. Sur l’image ci-dessous, un
algorithme qui cherche à déterminer 3 clusters va raisonnablement retrouver les
trois groupes que l’on voit. Mais si on lui demande de déterminer 2 clusters, la
répartition dans ces 2 clusters sera plus aléatoire et ne sera pas nécessairement
deux fois la même. C’est une façon de déterminer que 3 est un meilleur nombre
de clusters que 2.
2.4. CLUSTERIMG PARTITIONNEL 17
2.4 Clusterimg partitionnel

2.4.1 Algorithme des centres mobiles ou K -means de Lloyd-
Forgy
L’algorithme des centres mobiles ou K -means pour la classification automa-
tique d’un ensemble de données ( x1 , . . . , xN ) minimise le critère d’erreur suivant
par rapport aux centres (C1 , . . . , C k ) et les classes S1 , . . . , S K
K X
J (C 1 , . . . , C K ) = d2(xi , C s )
X
s=1 x i ∈S s
qui correspond à la distance euclidienne totale entre chaque x i et le centre C s

dont elle est la plus proche au sens de la distance euclidienne :
p
d2(xi , C s ) = ( x i j − C s j )2 .
X
j =1
Algorithme de k-means de Lloyd-Forgy

1. Initialisation : on initialise les centres des classes (C1(0) , . . . , C (0)
K
) (au
choix) pour donner le pas de départ de l’algorithme en choisissant aléa-
toirement K données parmi les données à traiter. Il s’agit donc de dé-
marrer à l’itération t = 0 avec des valeurs initiales pour les paramètres
du modèle (C1(0) , . . . , C (0)
k
).
2. Etape d’affectation : chaque donnée est assignée à la classe du centre
dont elle est la plus proche : ∀ i = 1, . . . , N

1 si s = arg min d 2 ( x i , C l )
z(t)
is
= l ∈{1,...,K }
0 sinon
3. Etape de recalage des centres : le centre C de chaque classe l est

recalculé comme étant la moyenne arithmétique de toutes les données
appartement à cette classe (suite à l’étape d’affectation précédente) :
∀ k = 1, . . . , k
PN (t)
i =1 z ik x i
C (t
l
+1)
= P (t)
N
i =1 z ik
Le processus se stabilise nécessairement et l’algorithme s’arrête

- soit lorsque deux itérations successives conduisent à la même partition ;
- soit la valeur relative au niveau de J devient inférieure à un seuil petit
préfixé ;
- soit encore parce qu’un nombre maximal d’itérations a été fixé a priori.
Généralement, la partition obtenue finalement dépend du choix initial des
centres. Quelle est la métrique utilisée pour évaluer la distance entre les points ?
On utilise généralement la distance euclidienne. L’algorithme du kmeans est un
algorithme itératif qui minimise la somme des distances entre chaque individu
et le centre de gravité du cluster, c’est à la variabilité intracluster.
Inconvénients des algorithmes de partitionnement :
- Instabilité : le minimum obtenu est un minimum local : la répartition
en classes dépend du choix initial des centres (faire tourner l’algorithme
plusieurs fois pour identifier des formes fortes)
- Le nombre de classes est fixé par avance (on peut s’aider d’une ACP
pour le déterminer)
> x=c(-2,-2,0,2,-2,3)
> y=c(2,-1,-1,2,3,0)
> don=matrix(c(x,y),nrow = 6,ncol=2)
> ctre = c(-1,2,-1,3)
2.4. CLUSTERIMG PARTITIONNEL 19
> ctre1=matrix(data=ctre,nrow=2, ncol=2)
> cl1=kmeans(don,ctre1,algorithm="Lloyd")
> cl1
K-means clustering with 2 clusters of sizes 4, 2
Cluster means:
[,1] [,2]
1 -1.5 0.75
2 2.5 1.00
Clustering vector:
[1] 1 1 1 2 1 2
Within cluster sum of squares by cluster:

[1] 15.75 2.50
(between_SS / total_SS = 54.0 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"

[6] "betweenss" "size" "iter" "ifault"
> plot(don,col=cl1$cluster)
3
2
don[,2]
1
0
−1
−2 −1 0 1 2 3
don[,1]
2.4.2 K-mean (Mc Queen)

Les barycentres des classes ne sont pas recalculés à la fin des affectations ,
mais à la fin de chaque allocation d’un individu à une classe. L’algorithme est
ainsi plus rapide, mais l’ordre d’apparition des individus dans le fichier n’est
pas neutre.
2.4.3 Nuée dynamique (Diday)

Ce n’est plus un seul point qui représente une classe mais un noyau de
points constitués d’éléments représentatifs de la classe. Cela permet de corriger
l’influence d’éventuelles valeurs extrêmes sur le calcul du barycentre.
1. On sélectionne K sous-ensemble C j0 de q individus parmi les N de tel
sorte que C j0 ∩ C j0′ pour j ̸= j ′ . Les C j0 sont appelés noyaux.
2. On affecte les objets i aux classes j dont la distance d ( i, C j0 ) est mini-
male. On obtient alors une partition
n o
I 10 , . . . , I 0k .
2.5. LES MÉTHODES HIÉRARCHIQUES 21
3. On détermine dans chaque classe I 0j les q individus, notés C j1 .
4. On réitère les étapes 2 et 3 jusqu’à obtenir une partition stable.
2.5 Les méthodes hiérarchiques

Il existe deux grands types de méthodes hiérachiques :
— la méthode ascendante dite agglomérative :
1. Initialement chaque observation est un cluster
2. Fusionner les observations proches : mesure de similarité(ressemblance)
3. Itérer jusqu’à 1 seul cluster.
— la méthode descendante dite divisive.
1. Initialement toutes les observations sont dans le même cluster
2. Le diviser jusqu’à séparer toutes les observations
2.5.1 Classification ascendante hiérachique (Cah)

En considérant l’ensemble des observations x i à classer, la CAH repose sur
la définition d’une distance d ( x i , x i′ ) entre les observations x i et x i′ et sur le
choix d’une stratégie d’aggrégation d C (C l , C k ) déterminant la distance entre
les clusters C l et C k .
Algorithme de classification ascendante hiérachique
Entrée : X = ( x1 , . . . , x N )
1. Initialiser les N classes C k formées chacune d’une observation : C i = { x i }
et poser d C (C i , C i′ ) = d ( x i , x i′ ) ;
2. Fusionner les deux classes C l et C q les plus proches pour former une
nouvelle classe C k = C l ∪ C q tels que
d C (C l , C q ) = min
′
d C (C i , C ′i );
i,i
3. Calculer la distence entre la nouvelle classe C k et les autres : d C (C k , C i )

pour i ̸= l, q ;
4. Itérer : répéter N − 1 fois les étapes 2 et 3 jusqu’à l’obtention d’une
seule classe regroupant tous les objets.
Sortie : Un dendrogramme représentant les étapes de fusion des classes.
Le résultat de la classification hiérarchique est un arbre de classes représentant
les relations d’inclusion entre classes appelé Dendogramme.
La complexité d’un algorithme est la quantité de ressources nécessaires

pour traiter des entrées. On la voit comme une fonction de la taille N de
l’entrée. tous les algorithmes sont au moins en O ( N 2 ). On peut tracer un
graphique représentant la décroissance du rapport de la variance intra-classe
sur la variance totale (R 2 partiel) en fonction du nombre de classes. La présence
d’une rupture importante dans cette décroissance aide au choix du nombre de
classes. On peut voir l’indice DB, le coefficient de silhouette.
> data(iris)
> don=iris[,1:4]
> hc=hclust(dist(don), "ave")
> plot(hc)
Height
0 1 2 3 4
15
16 42
33
34
37
4421
32
24
27
536
2. Etape 2
1. Etape 1
38
50
8
40
28
29
41
181 45
196
17
11
4947
20
2214 23
3943
912
13 25
462 7
26
10
35
30
3143
48
129105
133
104112
117
138
111
148
113
140
142
146
116
137
149
125101
121
144
141
145 109
118 135
110
106132
119
123
108 136
131103
dist(don)
126
130 61
58
94 99
66
76
59
5578
77
87
hclust (*, "average")

51
53 86
52
57
74
79
Cluster Dendrogram
64
92
7572
2.5. LES MÉTHODES HIÉRARCHIQUES
98
69 120
88
122115
102
143114
150
128
139 71
147
124
127 73
84
134
83
9368 63107
95
100 62
89
96
97
67
8556
91805
660
54
90
70
81
82
23
3. Etape 3
4. Etape 4
5. Etape 5
2.5. LES MÉTHODES HIÉRARCHIQUES 25
Les résultats peuvent êtres différents selon la metrique pour les clusters.
Le CAH est une méthode flexible. Le nombre de clusters n’est pas fixé
au départ. On le choisit en fonction du dendogramme. En peut evaluer les
différentes partitions en utilisant les mesures de qualité d’un clustering.
2.5.2 Classification descendante hiérachique

Cette méthode est la moins utilisée. Elle consiste à partir de la classe conte-
nant tous les objets, à partager celle-ci en deux puis, cette opération est répétée
à chaque itération jusqu’à ce que toutes les classes soient réduites à des sin-
gletons.
2.6 Clustering basé sur la densité

Ce type de clustering se base sur l’utilisation de la densité à la place de
la distance. On dit qu’un point est dense si le nombre de ses voisins dépasse
un certain seuil. Un point est voisin d’un autre point s’il est à une distance
inférieure à une valeur fixée. Dans la figure suivante q est dense mais pas p :
L’algorithme DBSCAN (Density-Based Spatial Clustering of Applications

with Noise) est un exemple des algorithmes à base de densité. Il utilise deux
paramètres : la distance ε et le nombre minimum de points MinPts devant se
trouver dans un rayon ε pour que ces points soient considérés comme un cluster.
Les paramètres d’entrées sont donc une estimation de la densité de points
des clusters. L’idée de base de l’algorithme est ensuite, pour un point donné,
de récupérer son ε-voisinage et de vérifier qu’il contient bien MinPts points
ou plus. Ce point est alors considéré comme faisant partie d’un cluster. On
parcourt ensuite l’ε-voisinage de proche en proche afin de trouver l’ensemble
des points du cluster.
Chapitre
3 Classification
3.1 Modélisation
On dispose de n exemples
( x1 , y1 ), . . . , ( xn , yn )
où x i ∈ X ⊂ Rd et yi ∈ Y ⊂ R ; x i est appelée entrée et yi est appelée sortie.

L’ensemble {( x1 , y1 ), . . . , ( xn , yn )} est appelé base d’apprentissage ou encore base
d’entraı̂nement. On suppose dans ce chapitre que Y est fini. On parle alors de
classification ou classement ou discrimination.
Exemple 3.1.1. 1. Diagnostic médical :

— x représente l’ensemble des paramètres observables (âge, taille, ré-
sultats d’examens médicaux...)
— y représente l’étiquette associée au patient.
(
0 si le patient est sain
y=
1 si le patient est malade
2. Mail-spam :
— x représente l’ensemble des paramètres observables
— y représente l’étiquette associée au mail.
(
0 si le mail est un non spam
y=
1 si le mail est un spam
3. Reconnaissance de caractères manuscrits.
27
28 CHAPITRE 3. CLASSIFICATION
Nous disposons d’une image numérisée d’un caractère manuscrit. Cette

image est essentiellement un tableau de nombres réels indiquant l’inten-
sité lumineuse en chacun des pixels. Nous souhaitons trouver la fonction
qui à ce tableau de réels renvoie le caractère présent dans l’image. Ici, x
contient l’ensemble des pixels de l’image et Y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}.
Il s’agit ici d’induire une fonction qui prédise les réponses associées à de
nouvelles observations en commettant une erreur de prédiction la plus faible
possible. Ainsi, on cherche une règle de prédiction ayant une bonne capacité
de généralisation.
Modélisation. On suppose que ( x1 , y1 ), . . . , ( xn , yn ) est une réalisation de va-
3.2. RÈGLES DE PRÉDICTION 29
riables aléatoires ( X 1 , Y1 ), . . . , ( X n , Yn ) i.i.d. de loi de probabilité P inconnue.
3.2 Règles de prédiction

Définition 3.2.1. Une règle de prédiction est une fonction f définie sur X à
valeurs dans Y qui associe la sortie f ( x) à l’entrée x ∈ X .
Le but d’une règle de prédiction est de fournir une étiquette f ( xn+1 ) à xn+1 en
espérant faire coincider la prédicrtion f ( xn+1 ) et la sortie yn+1 . On notera G ,
l’ensemble de toutes les règles de prédiction. Comment mesure-t-on la qualité
d’une règle de prédiction ?
Définition 3.2.2. Toute fonction ℓ : Y ×Y −→ R+ telle que ℓ( y, y) = 0 et ℓ( y, y′ ) >
0 pour y ̸= y′ est appelée fonction de perte ; ℓ(Y , f ( X )) mesure l’erreur entre
la réponse réelle Y et la réponse prédite f ( X ) pour une donne d’entrée X .
Exemple 3.2.1. Fonction de perte classique : ℓ( y, y′ ) = 1 y̸= y′ .
La qualité d’une fonction de prédiction f ∈ G est mesurée par son erreur de
généralisation.
Définition 3.2.3. Etant donnée une fonction de perte ℓ, l’erreur de générali-
sation d’une règle de prédiction f est définie par :
R ( f ) = EP [ℓ(Y , f ( X ))];
l’espérance mathématique EP est prise par rapport à la loi de probabilité P.
Exemple 3.2.2. Fonction de perte classique : ℓ( y, y′ ) = 1 y̸= y′ . Pour une r egle
de prédiction f donnée, l’erreur de généralisation est
³ ´
R ( f ) = EP 1Y ̸= f (X ) = P(Y ̸= f ( X )).
Définition 3.2.4. La ”meilleure” règle de prédiction f ∗ vérifie :

f ∗ ∈ arg min R ( f ).
f ∈G
Remarque 3.2.1. f ∗ est appelée fonction cible ou oracle ; f ∗ dépend de P et

n’est pas utilisable car P inconnue.
Comme d P( x, y) = d P X d P( y | X = x), nous avons
R ( f ) = EP [ℓ(Y , f ( X ))]
Z
= ℓ( y, f ( x)) d P( x, y)
X
Z hZ×Y
i
= ℓ( y, f ( x)) d P( y| X = x) d P X ( x)
ZX h Y i
= E ℓ(Y , f ( X ))| X = x) d P X ( x)
X
Théorème 3.2.1. Supposons que pour tout x ∈ X , l’infimum
h i
inf E ℓ(Y , z)| X = x)
z∈Y
est atteint. Alorsh une fonctionif ∗ : X −→ Y telle que pour tout x ∈ X , f ∗ ( x)

minimise z 7−→ E ℓ(Y , z)| X = x) , est une fonction cible :
h i
∗
∀ x ∈ X , f ( x) := arg min E ℓ(Y , z)| X = x)
z∈Y
∗
⇒ f := arg min R ( f ).
f ∈G
Démonstration. Nous avons

R ( f ) = EP (ℓ(Y , f ( X ))
= EP X EPY | X (ℓ(Y , f ( X ))
£ ¤
· ¸
≥ EP(X ) min EP(Y | X ) ℓ(Y , y)
y∈Y
= EP(X ) EP(Y | X ) (ℓ(Y , f ∗ ( X ))

£ ¤
= EP (ℓ(Y , f ∗ ( X ))
= R( f ∗)
Exemple 3.2.3. Posons ℓ( y, f ( x)) = 1 y̸= f (x) . La fonction cible est la fonction f ∗
satisfaisant
f ∗ ( x) ∈ arg max P(Y = y| X = x) pour tout x ∈ X .
y∈Y
Lorsque Y = {0, 1}, posons η( x) = P (Y = 1| X = x)

(
1 si η( x) > 1/2
f ∗ ( x) =
0 si η( x) ≤ 1/2
est la fonction cible. En effet, en classification, on a |Y | < +∞, l’infimum re-

cherché est donc bien atteint.
f ∗ ( x) = arg min EP(Y | x) (1Y ̸= y )
y∈Y
= arg min P(Y ̸= y| X = x)

y∈Y
= arg max P(Y = y| X = x)

y∈Y
Lorsque Y = {0, 1},

(
∗ 1 si P(Y = 1| X = x) > P(Y = 0| X = x)
f ( x) =
0 si P(Y = 1| X = x) ≤ P(Y = 0| X = x)
3.2. RÈGLES DE PRÉDICTION 31
Remarque 3.2.2. Analyse discriminante de Fisher
De l’exemple ci-dessus, on tire l’algorithme appelé analyse discriminante
de Fisher. Suppons que P X admet une densité p(·) par rapport à la mesure de
Lebesgue sur Rd . Le théorème de Bayes implique
η( x) = P(Y = 1| X = x)
p( x|Y = 1)P (Y = 1)
=
p( x|Y = 1)P (Y = 1) + p( x|Y = 0)P (Y = 0)
π p 1 ( x)
=
π p 1 ( x) + (1 − π) p 0 ( x)
où p 0 ( x) = p( x|Y = 0), p 1 ( x) = p( x|Y = 1) sont les densités conditionnelles de X

sachant Y = 0 et Y = 1, et π = P(Y = 1). Le classifieur de Bayes s’écrit alors :
p 1 ( x) 1 − π

1 si >
∗
f ( x) = p 0 ( x) π
0 sinon

Les probabilités p 0 , p 1 , π0 et π1 sont inconnues. Le principe de l’analyse dis-

criminante est de partir de la formule ci-dessus pour ”imiter” le classifieur de
Bayes. Elle consiste à estimer p 0 ( x) et p 1 ( x). A partir d’un échantillon repré-
sentatif,
— il est facile d’estimer π0 et π1
— on peut estimer p 0 p 1 par la methode à noyau (estimation non para-
métrique)
— on peut imposer une forme à p 0 et p 1 (estimation paramétrique)
On suppose que les densités p 0 et p 1 sont gaussiennes. On estime donc p 0 et
p 1 par la méthode du maximum de vraisemblance. Nous obtenons alors
(
1
1 η
b n ( x) >
f n∗ ( x) = 2
1
0 η
b n ( x) ≤ 2,
où
π
b1 p
b1 ( x)
η
b n ( x) =
π b1 ( x) + π
b1 p b0 p
b0 ( x)
Limites de l’analyse discriminante de Fischer.

— l’hypothèse de normalité
— Connaı̂tre complètement la distribution des données s’avère couteux !
c’est une condition suffisante mais peut ne pas être necessaire pour
construire un bon algorithme : si l’on ne s’interesse qu’au classement
d’un individu, il suffit de savoir si P
b (Y = 1 | X = x) > P
b (Y = 0 | X = x ) ;
ce qui ne revient pas à connaı̂tre les valeurs exactes de chacune de ces
probabilités
3.3 Algorithmes d’apprentissage
3.3.1 Définition
Définition 3.3.1. Un algorithme d’apprentissage est une application fbn qui à
tout ensemble d’apprentissage {( X 1 , Y1 ), . . . , ( X n , Yn )} renvoie une règle de pré-
diction.
fbn : (X × Y )n −→ G
³ ´
( X 1 , Y1 ), . . . , ( X n , Yn ) 7−→ fbn ·, ( X 1 , Y1 ), . . . , ( X n , Yn ) .
Remarque 3.3.1. Les règles de prédiction optimale dépendent de P. Il est donc

nécessaire de construire des algorithmes d’apprentissage.
3.3.2 Qualité d’un algorithme d’apprentissage

La performance d’un algorithme d’apprentissage est caractérisée l’excès de
risque défini par :
R ( fbn ) − R ( f ∗ ).
Puisque cette différence est une variable aléatoire, on introduit d’autres me-
sures de performance déterministes telles que :
- E(R ( fbn )) − R ( f ∗ ); l’espérance est prise par rapport à la loi de l’ensemble
d’apprentissage.
- P(R ( fbn ) − R ( f ∗ ) > ε) pour un ε > 0 quelconque.
Définition 3.3.2. Un algorithme d’apprentissage fbn est dit faiblement consis-

tant par rapport à P si
E(R ( fbn )) −−−−−→ R ( f ∗ ).
n→+∞
La consistance garantit la capacité de généralisation. Si la fonction de perte

ℓ est bornée, alors le risque R ( f ) est bornée et la consistance faible équivaut
à la convergence en probabilité de R ( fbn ) vers R ( f ∗ ). En particulier, lorsque ℓ
est bornée, la consistance forte entraı̂ne la consistance faible.
Définition 3.3.3. Un algorithme d’apprentissage est dit faiblement consistant

par rapport à une famille de lois de probabilité P s’il est consistant par rapport
à tout P ∈ P .
Définition 3.3.4. Un algorithme d’apprentissage est dit faiblement universelle-

ment consistant s’il est consistant par rapport à toute probabilité P sur X ×Y .
3.3. ALGORITHMES D’APPRENTISSAGE 33
Les résultats de consistance universelle ne disent pas le nombre de données
nécessaires pour avoir une garantie du type
E(R ( fbn )) ≤ R ( f ∗ ) + ε ε > 0 fixé.
Pour que ce nombre existe, il faudrait un résultat de consistance uniformement

universelle.
Définition 3.3.5. Un algorithme d’apprentissage est dit uniformement univer-
sellement consistant si
lim sup{E(R ( fbn )) − R ( f ∗ )} = 0.

n→+∞ P
En général, ce nombre n’existe pas.

Théorème 3.3.1. (Devroye, Györfi, Lugosi [1]). On considère la fonction de
perte ℓ( y, f ( x)) = 1 y̸= f (x) en classification binaire et l’on suppose que X est
infini. Alors, pour tout n ∈ N et toute règle d’apprentissage fbn , nous avons
1
sup{E(R ( fbn )) − R ( f ∗ )} ≥ > 0,
P∈P 2
le sup étant pris sur l’ensemble de toutes les lois de probabilité sur X × Y .
En particulier, aucun algorithme d’apprentissage de classification ne peut être
uniformément universellement consistant lorsque X est infini.
Par conséquent, sans faire d’hypothèses sur la classe de distributions P qui
pourrait générer les données, on ne peut obtenir des garanties sur l’erreur
de généralisation de notre règle de classification pour un n fini donné. Ainsi,
l’absence d’algorithme universellement uniformément consistant nous amène à
définir un ”bon” algorithme d’apprentissage comme étant un algorithme uni-
versellement consistant et ayant une propriété de convergence uniforme sur
une classe P de lois de probabilités paraissant pertinente pour le problème à
traiter.
Définition 3.3.6. Soit P une classe de lois de probabilité sur X × Y . On dit
qu’un algorithme d’apprentissage est uniformement consistant sur P si
lim sup{E(R ( fbn )) − R ( f ∗ )} = 0.

n→+∞ P∈P
De plus, il faudra avoir une suite
sup{E(R ( fbn )) − R ( f ∗ )}
P∈P
décroissant le plus vite possible vers 0 pour que peu de données soient néces-
saires à l’algorithme pour prédire efficacement dans le cas où P ∈ P .
Définition 3.3.7. Soit ε > 0. On appelle complexité en quantité de données
de P pour l’algorithme fbn , le plus petit nombre n(P , ε, fbn ) tel que pour tout
n ≥ n(P , ε, fbn ), on a
sup{E(R ( fbn )) − R ( f ∗ )} < ε.
P∈P
En d’autres termes, n(P , ε, fbn ) est la taille minimale necessaire pour garantir
un excès de risque en espérance inferieur à ε pour tout P ∈ P .
Définition 3.3.8. La complexité en données intrinsèque de P est
n(P , ε) = inf n(P , ε, fbn )
fbn
où inf est pris sur l’ensemble de tous les algorithmes d’apprentissage possibles.
3.4 Algorithme par minimisation du risque empi-

rique
3.4.1 Principe
Soit f : X −→ Y une règle de prédiction. L’erreur de généralisation de f
est défini par : ³ ´
R ( f ) = EP 1Y ̸= f (X ) .
La distribution P étant inconnue, R ( f ) est inconnu. Elle peut être estimée par
1X n
Rn( f ) = 1Y ̸= f (X i )
n i=1 i
Définition 3.4.1. Etant donné un sous-ensemble H ⊂ G , l’algorithme de mi-
nimisation du risque empirique sur H est défini par
fbn ∈ arg min R n ( f ).
f ∈H
3.4.2 Performance de l’algorithme par minimisation du risque

empirique
Le choix de H détermine celui de fbn . Prenons H = G . Dans le cas où
Y = {0, 1}, le risque empirique est minimisé par
(
Yi si x = X i , i = 1, . . . , n
fbn ( x) =
0 ou 1 si x ̸∈ { X 1 , . . . , X n }
fbn ( x) reproduit les résultats Yi si x = X i et classifie tous les autres x de façon

arbitraire. Le risque empirique de ce classifieur est 0.
3.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 35
• Prendre H trop grand peut mener à un surapprentissage dans la mesure
où le minimum du risque empirique R n ( fbn ) est inférieur à son erreur de
généralisation R ( fbn ). Concrètement, on parle de surapprentissage quand
un algorithme a trop appris les particularités de chacun des exemples
fournis en exemple. Il présente alors un taux de succès très important
sur les données d’entraı̂nement (pouvant atteindre jusqu’à 100%), au
détriment de ses performances générales réelles.
• Dans la pratique, il faut choisir H suffisamment grand pour pouvoir
raisonnablement approcher la fonction cible par les éléments de H en ne
le prenant pas trop grand pour éviter le phénomène de surapprentissage.
La grandeur de H est appelée la capacité ou la complexité.
Posons
f ∗ ∈ arg min R ( f ) f H ∈ arg min R ( f ).
f ∈G f ∈H
• f H dépend de P ; f H n’est pas utilisable ;

• R ( f H ) ≤ R ( f ) pour tout f ∈ H
• f H est appelé oracle associé à H .
Nous nous intéressons aux questions suivantes :
1. Quelles sont les conditions (nécessaires et suffisantes) de consistance
d’un algorithme d’apprentissage obtenu par le principe de minimisation
du risque empirique ?
2. Quelle est la vitesse de convergence (capacité de généralisation) d’un
algorithme d’apprentissage obtenu par le principe de minimisation du
risque empirique ?
3. Comment contrôle-t-on la vitesse de convergence d’un algorithme d’ap-
prentissage obtenu par le principe de minimisation du risque empirique ?
4. Conmment construire des algorithmes qui peuvent contrôler la vitesse
de convergence ?
Définition 3.4.2. L’algorithme d’apprentissage obtenu par le principe de mini-

misaion du risque empirique est consistant si
P
(i) R n ( fbn ) − R ( fbn ) −−−−−→ 0 ;
n→+∞
P
(ii) R n ( fbn ) −−−−−→ R ( f ∗ ).
n→+∞
Remarque 3.4.1. (i) l’algorithme doit renvoyer une règle de prédiction dont
l’erreur empirique reflète son erreur de généralisation lorsque la taille
de la base d’entraı̂nement tend vers l’infini ;
(ii) l’erreur empirique de l’algorithme doit converger vers l’erreur de géné-
ralisation de la fonction cible.
Nous avons la décomposition suivante
R ( fb ) − R ( f ∗ ) = R( f ) − R( f ∗) + R ( fbn ) − R ( f H ) .
| n {z } | H {z } | {z }
excès de risque erreur d’approximation erreur d’estimation
- R ( f H )−R ( f ∗ ) mesure à quel point l’espace d’hypothèes choisi H permet

d’approcher la cible f ∗ ; ce terme ne dépend pas des données ;
- R ( fbn ) − R ( f H ) est une quantité aléatoire qui mesure combien fbn est
proche de f H .
Lorsque la taille de H croı̂t, l’erreur d’approximation diminue, mais l’erreur
d’estimation devient en moyenne grande. Il y a donc un compromis à trouver
dans le choix de H . Ce compromis est appelé dilemme biais-variance.
• Estimer l’erreur d’approximation est généralement difficile dans la me-
sure où l’on n’a aucune information sur la cible f ∗ .
• Ainsi, en apprentissage statistique, nous nous concentrons sur l’erreur
d’estimation :
R ( fbn ) − R ( f H )
E(R ( fbn )) − R ( f H )
Définition 3.4.3. Vapnik[4]

L’algorithme d’apprentissage obtenu par le principe de minimisaion du
risque empirique est consistant si
P
(i) R n ( fbn ) − R ( fbn ) −−−−−→ 0 ;
n→+∞
P
(ii) R n ( fbn ) −−−−−→ R ( f H ).
n→+∞
Sous certaines hypothèses sur H , fbn imite l’oracle f H , c’est à dire,
E(R ( fbn )) ≤ R ( f H ) + ∆n (H ),
où ∆n (H ) > 0 est un terme résiduel qui tend vers 0 lorsque n → +∞, c’est à
dire, en moyenne, fbn atteint le même risque que l’oracle f H à un petit terme
résiduel ∆n (H ) près. Plus généralement
E(R ( fbn )) − R ( f ∗ ) ≤ R ( f H ) − R ( f ∗ ) + ∆n (H ).
Souvent, il est désirable d’obtenir des inégalités d’oracle avec forte probabilité :
Pour tout 0 < δ < 1, avec probabilité au moins 1 − δ,
R ( fbn ) ≤ R ( f H ) + ∆n (H , δ)
R ( fbn ) − R ( f ∗ ) ≤ R ( f H ) − R ( f ∗ ) + ∆n (H , δ).
Définition 3.4.4. Un résultat probablement approximativement correct (P.A.C.)
est une affirmation du type : ∀0 < ε ≤ 1, avec une probabilité au moins 1 − ε,
l’événement A ε se produit, où ( A ε ) est une famille d’événements paramétrés
par ε.
Si A ε = {V ≤ Wε } avec V et Wε , variable aléatoire réelle, on parle de borne P.A.C

pour V . Pour obtenir les majorations ci-dessus, on peut établir des inégalités
P.A.C.
Pour établir les inégalités précédentes, il suffit de préciser que les termes
résiduels ∆n (H ), ∆n (H , δ) qui fournissent des majorations de l’erreur d’esti-
mation. Ces majorations reposent généralement sur le lemme suivant :
Lemme 3.4.1. L’erreur d’estimation de fbn vérifie :
R ( fbn ) − R ( f H ) ≤ 2 sup |R n ( f ) − R ( f )|.

f ∈H
Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la variable

aléatoire
sup |R n ( f ) − R ( f )|.
f ∈H
Démonstration. Soit ε > 0 et soit f ε ∈ H vérifiant R ( f ε ) < R ( f H ) + ε. Puisque

fbn minimise R n ,
R ( fbn ) − R ( f H ) = R ( fbn ) − R n ( fbn ) + R n ( fbn ) − R ( f H )

≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f H )
≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f ε ) + ε
≤ 2 sup |R n ( f ) − R ( f )| + ε.
f ∈H
3.4.3 Cas où H est fini

Cas où H est fini Considérons
H = { f1, . . . , f M }
où f j : X −→ Y sont des règles de prédiction. Dans ce cas :
f H = arg min R ( f j ) ⇐⇒ R ( f H ) = min R ( f j ).

j =1,...,M j =1,...,M
Théorème 3.4.1. Supposons qu’il existe a, b ∈ R tels que
a ≤ ℓ( y, y′ ) ≤ b. ∀ y, y′ .
Alors, avec une probabilité d’au moins 1 − δ, on a :

s
2 ln( 2M
δ
)
R (c
f n ) ≤ R ( f H ) + ( b − a) .
n
Démonstration. On a
R (c
f n ) − R ( f H ) ≤ 2 sup |R ( f ) − R n ( f )|.
f ∈H
³ ´ ³ t´
P R (c
f n ) − R ( f H ) > t ≤ P sup |R ( f ) − R n ( f )| >
f ∈H 2
³[ M h t i´
=P |R ( f j ) − R n ( f j )| >
j =1 2
M ³ t´
P |R ( f j ) − R n ( f j )| >
X
≤
j =1 2
Lemme 3.4.2 (Inégalité de Hoeffding.). Soient Z1 , . . . , Z n des variables aléa-

toires réelles indépendantes telles que a i ≤ Z i ≤ b i P-p.s (a i < b i ). Alors, ∀,
nous avons ε > 0
n
³¯ X ¯ ´ ³ 2ε2 ´
P ¯ ( Z i − E( Z i ))¯ ≥ ε ≤ 2 exp − Pn .
¯ ¯
2
i =1 i =1 ( b i − a i )
En utilisant l’inégalité de Hoeffding,

2
³ t´ − nt
P |R ( f j ) − R n ( f j )| > ≤ 2 e 2(b−a)2 .
2
Par suite, nous obtenons
2
− nt
³ ´
P R ( fbn ) − inf R ( f ) > t ≤ 2 N e 2(b−a)2 .
f ∈H
Pour tout 0 < δ < 1, on a

s
2
− nt 2 2 ³ 2M ´
Me 2( b−a) = δ ⇐⇒ t = ( b − a) ln
n δ
Lemme 3.4.3. Soit Z une variable aléatoire réelle positive. Supposons qu’il
existe une constante C > 0 telle que, pour tout ε > 0,
2
P( Z ≥ ε) ≤ Ce−2nε .
Alors s
³ ´ ln(Ce)
E Z ≤ .
2n
Corollaire 3.4.1. On suppose que X = Rd , Y = {0, 1} et ℓ( y, f ( x)) = 1 f (x)̸= y .

Pour tout ε > 0, nous avons
nε2
³ ´
f n ) − inf R ( f ) ≥ ε ≤ 2Card(H ) e− 2 .
P R n (c
f ∈H
D’après le Lemme 3.4.3, nous avons

s
³ ´ 2 ln(2Card(H ) e)
E R (c
f n ) − inf R ( f ) ≤ .
f ∈H n
Si Card(H ) < +∞ alors
³ ´ ³ 1 ´
E R (c
f n ) − inf R ( f ) = O p
f ∈H n
Ainsi, pour une classe de cardinal fini, l’erreur d’estimation reste sous contrôle
1
selon la taille (cardinal) et tend vers 0 à la vitesse p lorsque n tend vers
n
l’infini. Lorsque le cardinal de H n’est pas fini, il faut trouver de nouveaux
outils pour appréhender la ”taille” de H : c’est l’objet de la théorie de Vapnik-
Chervonenkis.
3.4.4 Théorie de Vapnik-Chervonenkis

3.4.4.1 Dimension de Vapnik
Soit A une famille de sous-ensembles de Rd de cardinal (pas nécessairement
fini) strictement supérieur à 1.
Définition 3.4.5. Etant donné n points z1 , . . . , z n ∈ Rd , on définit
³nn o o´
NA ( z1 , . . . , z n ) = Card z1 , . . . , z n ∩ A : A ∈ A .
o
NA ( z1 , . . . , z n ) représente le nombre de sous-ensembles de { z1 , . . . , z n que
l’on peut obtenir en intersectant ces n points par les ensembles de A .
Nous avons NA ( z1 , . . . , z n ) ≤ 2n
n o
Définition 3.4.6. On dit que A pulvérise l’ensemble z1 , . . . , z n si
N A ( z1 , . . . , z n ) = 2 n .
Définition 3.4.7. On appelle coefficient de pulvérisation de n points par la

classe A , la quantité :
SA ( n) = max N A ( z 1 , . . . , z n ).
(z1 ,...,z n )∈Rdn
Définition 3.4.8. La dimension de Vapnik-Chervonenkis (VC) de A est définie

par :
n o
VA = max n ≥ 1 : SA ( n) = 2n .
La dimension de Vapnik-Chervonenkis mesure, en un certain sens, la ”taille”

(la ”dimension”) de la famille A et généralise ainsi la notion de cardinal. C’est
le plus grand nombre de points que la classe de fonction arrive à pulvériser.
Théorème 3.4.1 (Vapnik-Chervonenkis). Soient Z1 , . . . , Z n des variables aléa-

toires indépendantes de même loi P sur Rd , et Pn la mesure empirique corres-
pondante :
1X n
Pn = δZ .
n i=1 i
Alors, pour toute famille borélienne A ⊂ B (Rd ) et pour tout ε > 0, on a
nε2
³ ¯ ¯ ´
P sup ¯Pn ( A ) − P( A )¯ > ε ≤ 8SA ( n) e− 32
¯ ¯
A ∈A
1. La borne est universelle, dans le sens où elle ne dṕend pas de la loi P.
2. Ce résultat généralise le Théorème 3.4.1
Lemme 3.4.4. Sauer (1972) Soit A une famille d’ensembles admettant une
dimension de Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1,
VA
SA ( n) ≤ C ni .
X
i =1
Corollaire 3.4.1. Soit A une famille d’ensembles admettant une dimension de

Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1
SA ( n) ≤ ( n + 1)VA .
Démonstration. On a
V V
A A ni V A
( n + 1)VA = C Vi A n i ≥ C ni ≥ SA ( n)
X X X
≥
i =0 i =0 i ! i =0
Nous avons
- soit SA (n) = 2n pour tout n ≥ 1 (VA = +∞)
- soit SA (n) ≤ (n + 1)VA (VA < +∞)
D’après l’inégalité de Vapnik-Chervonenkis, nous avons
s
³ ´ ln(8 eSA ( n))
E sup |Pn ( A ) − P( A )| ≤ 8
A ∈A 2n
s
VA ln( n + 1) + 4
≤8
2n
s
³ V ln( n) ´
A
=O
n
D’après l’inégalité de Vapnik-Chervonenkis, nous avons

s
³ V ln( n) ´
A
³ ´
E sup |Pn ( A ) − P( A )| = O
A ∈A n
Corollaire 3.4.2. Si VA < ∞ alors

³ ´
E sup |Pn ( A ) − P( A )| −−−−−→ 0.
A ∈A n→+∞
3.4.4.2 Classement binaire avec la perte 0-1
• X ∈ X = Rd
• Y ∈ Y = {0, 1}
• ℓ( y, f ( x)) = 1 f (x)̸= y .
On a ( X 1 , Y1 ), . . . , ( X n , Yn ) sont i.i.d. de loi P. La mesure empirique est définie
par
1X n
Pn ( A ) = 1(X i ,Yi )∈ A .
n i=1
À une règle de prédiction f ∈ H , nous associons le borélien

n o
A f = ( x, y) ∈ Rd × {0, 1} : f ( x) ̸= y .
Nous avons
R ( f ) = P( f ( X ) ̸= Y ) = P(A f )
1X n
Rn( f ) = 1 f (X i )̸=Yi = Pn (A f )
n i=1
Nous avons donc

¯ ¯
sup |R n ( f ) − R ( f )| = sup ¯Pn ( A ) − P( A )¯
¯ ¯
f ∈H A ∈A
où A = {A f , f ∈ H }. Pour analyser le comportement de sup f ∈H |R n ( f ) − R ( f )|,
il faut comprendre la déviation de la mesure empirique Pn par rapport à la

vraie mesure P sur la classe d’ensembles mesurables A .
n o
Proposition 3.4.1. Soit A¯ = x ∈ Rd , f ( x) = 1 : f ∈ H . Alors, pour tout n ≥ 1,
S A¯( n) = S A ( n). En particulier, VA = VA¯.
Proposition 3.4.2. Nous avons

nε2
³ ´
P R ( f n ) − inf R ( f ) > ε ≤ 8S A¯( n) e− 128 .
c
f ∈H
De plus, s
³ ´ ln( eS A¯( n))
E c
f n ) − inf R ( f ) ≤ 16 .
f ∈H 2n
Si VA¯ < ∞ alors
s
³ ´ ³ VA¯ ln( n) ´
E R (c
f n ) − inf R ( f ) = O .
f ∈H n
Théorème 3.4.2 (Vapnik-Chervonenkis). Soit X ⊂ Rd un espace vectoriel et
Y = {−1, 1} un espace de sortie et H une classe de fonctions à valeurs dans Y
et de dimension VC VH . Pour tout δ ∈]0, 1], n ≥ VH , avec une probabilité au
moins égale à 1 − δ :
s
8VH ln( 2en
V ) + 8 ln(4/δ)
H
R (c
f n ) ≤ inf R ( f ) + .
f ∈H n
s
8VH ln( 2en
V ) + 8 ln(4/δ)
H
• Si la dimension VC VH de H est finie alors lim =0
n→+∞ n
et le principe de Minimisation du Risque Empirique est consistant
quelque soit la distribution P générant les exemples.
• Vapnik (1999) a démontré pour que le principe MRE soit consistant
pour toute distribution P, il est nécessaire que la dimension VC de la
classe considérée soit finie.
D’après tout ce qui précède, nous avons le résultat suivant
Théorème 3.4.3. Quelque soit la distribution de probabilité générant les exemple,
le principe MRE est consistant si et seulement si la dimension VC de la classe
considérée est finie.
Corollaire 3.4.3 (Vapnik-Chervonenkis (1971)). Pour tout n ≥ VH avec une
probabilité d’au moins 1 − δ, nous avons
s
8VH ln( 2en
V ) + 8 ln(4/δ)
H
∀f ∈ H , R( f ) ≤ Rn( f ) + .
n
3.5 Evaluation du modèle

Recapitulons après l’épisode précédent. Comment mesure-t-on la perfor-
mance d’un algorithme d’apprentissage ?
3.5.1 Erreur de généralisation

Pour un algorithme d’apprentissage fbN , l’erreur de généralisation est définie
par ³ ´ ³ ´
R fbn = E P 1Yi ̸= fbN (x i ) .
Comme P est inconnue, on utlise le risque empirique :
³ ´ 1X n
R fbn = 1 b .
n i=1 Yi ̸= f n (x i )
Généralement, la précision est donnée sous forme de pourcentage ce qui néces-
site de multiplier la précision de l’équation précédente par 100.
3.5. EVALUATION DU MODÈLE 45
3.5.2 Matrice de confusion
La mesure précédente donne le taux d’erreurs commises par le modèle ap-
pris mais ne donne aucune information sur la nature de ces erreurs. Dans la
plus part des cas d’application, il est très important de connaı̂tre la nature des
erreurs commises. Par exemple dans un modèle appris pour des objectifs mé-
dicaux, considérer un échantillon non cancéreux alors qu’il l’est, est beaucoup
plus grave de considérer un échantillon cancéreux alors qu’il ne l’est pas. Dans
le cas de classification binaire, le résultat de test d’un modèle peut être une
possibilité parmi quatre :


 fbn ( x i ) = +1 et yi = +1 vrai positif


 fb ( x ) = +1
n i et yi = −1 faux positif


 f n ( x i ) = −1
b et yi = −1 vrai négatif

f n ( x i ) = −1 et yi = +1 faux négatif
b
Si le modèle donne une classe positive pour un exemple d’une classe positive, on
dit que c’est un exemple vrai positif (VP). Si par contre l’exemple appartient à
la classe négative on dit que c’est un exemple faux positive (FP). Si le modèle
donne une classe négative pour un exemple d’une classe négative, le résultat
est un exemple vrai négative (VN), si, par contre, la classe de l’exemple est
positive le résultat est qualifié de fausse négative (FN). La matrice de confusion
est une matrice qui rassemble en lignes les observations ( y) et en colonnes les
prédictions fb( x). Les éléments de la matrice représentent le nombre d’exemples
correspondants à chaque cas :
hhhh
hhhh Prédictions
hhh
+1 -1
Observations hhh
hhh h
+1 VP FN
-1 FP VN
Un modèle sans erreurs aura ses résultats rassemblés sur la diagonale de sa

matrice de confusion (VP et VN).
Définition 3.5.1. La précision P ou Accuracy du modèle :
VP +V N
P= .
V P + FP + V N + F N
C’est la proportion de bien classés.
Deux autre mesures sont utilisées dans la littérature : la sensitivité S v et
la spécificité S p
Définition 3.5.2. La sensitivité représente est définie par :
VP
Sv =
VP +FN
C’est la proportion vrais positifs bien classés.
Définition 3.5.3. La spécificité est définie par
VN
Sp = .
V N + FP
C’est la proportion de vrais négatifs bien classés.
3.5.3 Evaluation
Les paramètres optimaux pour un modèle donné sont les paramètres qui
lui permettent de donner une précision de 100%. Cette situation serait idéale
si l’ensemble des exemples représentait parfaitement l’ensemble de tous les
exemples possibles. Le modèle appris peut donner une très grande précision
face aux exemples d’entrainement, mais se comporte très mal avec les nou-
veaux exemples. Cela représente un phénomène très connu en apprentissage
qui est le sur-apprentissage ou l’apprentissage par coeur. Le sur-apprentissage
donne, généralement, des modèles à faible capacité de généralisation. Les mé-
thodes d’évaluation permettent de tirer des conclusion sur le comportement
d’un modèle face à tout l’espace d’exemples en limitant l’influence des exemples
d’entrainement, du bruit qui peut y exister (erreurs d’étiquetage, erreurs d’ac-
quisition, ...) et leur ordre sur le modèle appris.
3.5.3.1 Méthode HoldOut

Elle consiste à diviser l’ensemble des données en deux parties, la première
partie est utilisée pour l’entrainement et la deuxième pour les tests. Le test
du modèle appris sur la partie de test permet de donner une idée sur son
comportement en dehors des exemples d’entrainement et éviter le phénomène
de surapprentissage. Le modèle qui maximise la précision pour tout l’espace
d’exemple est donc celui qui la maximise pour la partie de test du fait que
cette partie représente la majorité de l’espace. Une question importante qui se
pose pour cette méthode est comment choisir les deux parties puisque ce choix
a une grande influence sur la qualité du modèle. La méthode qui suit répond
à cette question.
3.5.3.2 Validation croisée

Pour minimiser l’influence du choix du partitionnement de l’ensemble des
exemples, la validation croisée subdivise l’ensemble d’entrainement initial en
3.5. EVALUATION DU MODÈLE 47
k sous ensemble disjoints D 1 , D 2 , . . . , D k de même taille. L’entrainement et
le test sont effectués k fois. A l’itération i le sous-ensemble D i est réservé
pour le test et le reste des exemples sont utilisés pour entrainer le modèle.
La précision finale du modèle est égale à la moyenne des k précisions de test.
La méthode Leave-One-Out est un cas particulier de la validation croisée où
k = N. A chaque itération, le modèle est entrainé sur N −1 exemples et testé sur
l’exemple exclu de l’entrainement. On obtient à la fin N précisions, la précision
du modèle est égale à leur moyenne.
3.5.3.3 Bootstrap
La méthode de Bootstrap entraı̂ne le modèle sur un ensemble de N exemples
choisis aléatoirement de l’ensemble des exemples, des exemples peuvent être
choisis plus d’une fois et d’autre ne se seront pas choisis du tout. Les exemples
non choisis pour l’entrainement sont utilisés pour le test. Cette opération
peut être répétée plusieurs fois pour obtenir une précision moyenne du mo-
dèle. Parmi les méthodes de Bootstrap les plus utilisées, la méthode Bootstrap
”.632” qui tire son nom du fait que 63.2% des exemples contribuent à l’entrai-
nement et les restants (36.8%) contribuent aux tests. A chaque prélèvement,
un exemple a une probabilité 1/ N d’être choisi et (1 − 1/ N ) de ne pas l’être, et
puisqu’on répète le prélèvement N fois, chaque exemple aura une probabilité
de (1 − 1/ N )N de ne pas être choisi du tout dans un ensemble d’entrainement.
Si N est grand cette probabilité approche de e−1 = 0.368. La méthode répète
le processus k fois et la précision finale P est donnée par
k
X
P= (0.632 × P i test + 0.368 × P i entr )
k=1
où P i test est la précision du modèle entrainé sur les exemples choisis dans
l’itération i, appliqué sur les exemples de test dans la même itération ; P i entr
est la précision du même modèle appliqué sur les données d’entrainement.
3.5.4 Aggrégation de modèles

Pour augmenter la précision des modèles obtenus, certaines méthodes com-
binent plusieurs modèles pour obtenir les décisions. Deux méthodes sont par-
ticulièrement utilisées : Bagging and Boosting.
3.5.4.1 Bagging
Cette méthode se base sur le Bootstrap. Elle subdivise l’ensemble D d’exemples
en n sous-ensembles. A partir de chaque sous-ensemble D i , on apprend un mo-
dèle M i en utilisant la méthode Bootstrap. L’ensemble de ces modèles forme
un modèle composé M∗ . Pour classifier un nouvel exemple, il est exposé à
chaque modèle M i pour obtenir une classe c M i . Chaque décision est considérée
comme un vote. La classe de décision est prise par vote majoritaire.
3.5.4.2 Bootsting
Dans la méthode boosting, on associe des poids aux exemples. Une série
de k modèles est itérativement apprise. Après qu’un modèle M i est construit,
les poids des exemples sont mis à jour de telle sorte à attirer l’attention du
modèle M i+1 aux exemples mal classées par le modèle M i . Le Modèle final M∗
combine les voltes des k modèles pondérés par leur précisions.
3.6 K plus proches voisins

L’algorithme des k-plus proches voisins est un des algorithmes de classifi-
cation les plus simples. Le seul outil dont on a besoin est une distance entre
les éléments que l’on veut classifier. Si on représente ces éléments par des vec-
teurs de coordonnées, il y a en général pas mal de choix possibles pour ces
distances, partant de la simple distance usuelle (euclidienne) en allant jusqu’à
des mesures plus sophistiquées pour tenir compte si nécessaire de paramètres
non numériques comme la couleur, la nationalité, etc. On considère que l’on
dispose d’une base d’éléments dont on connaı̂t la classe. On parle de base
d’apprentissage, bien que cela soit de l’apprentissage simplifié. Dès que l’on
reçoit un nouvel élément que l’on souhaite classifier, on calcule sa distance à
tous les éléments de la base. Si cette base comporte 100 éléments, alors on
calcule 100 distances et on obtient donc 100 nombres réels. Si k = 25 par
exemple, on cherche alors les 25 plus petits nombres parmi ces 100 nombres.
Ces 25 nombres correspondent donc aux 25 éléments de la base qui sont les
plus proches de l’élément que l’on souhaite classifier. On décide d’attribuer à
l’élément à classifier la classe majoritaire parmi ces 25 éléments. Aussi simple
que cela. Bien sûr, on peut faire varier k selon ce que l’on veut faire, on peut
aussi complexifier la méthode en considérant que les votes des voisins ne sont
pas de même poids, etc. Mais l’idée reste la même.
3.7 Arbres de décision

Les arbres de décision représentent une méthode très efficace d’apprentis-
sage supervisé. Il s’agit de partitionner un ensemble de données en des groupes
les plus homogènes possible du point de vue de la variable à prédire. On prend
en entrée un ensemble de données classées, et on fournit en sortie un arbre
qui ressemble beaucoup à un diagramme d’orientation où chaque nœud final
3.7. ARBRES DE DÉCISION 49
(feuille) représente une décision (une classe) et chaque nœud non final (in-
terne) représente un test. Chaque feuille représente la décision d’appartenance
à une classe des données vérifiant tous les tests du chemin menant de la racine
à cette feuille. Pour construire un arbre, plusieurs algorithmes existent : ID3,
CART, C4.5,etc. On commence généralement par le choix d’un attribut puis le
choix d’un nombre de critères pour son nœud. On crée pour chaque critère un
nœud concernant les données vérifiant ce critère. L’algorithme continue d’une
façon récursive jusqu’à obtenir des nœuds concernant les données de chaque
même classe. En réalité ce n’est pas si simple, plusieurs problèmes doivent être
résolus :
— Comment choisir l’attribut qui sépare le mieux l’ensemble de données ?
On parle souvent de la variable de segmentation.
— Comment choisir les critères de séparation d’un ensemble selon l’at-
tribut choisi, et comment ces critères varient selon que l’attribut soit
numérique ou symbolique ?
— Quel est le nombre optimal du nombre de critères qui minimise la taille
de l’arbre et maximise la précision ?
— Quels sont les critères d’arrêt de ce partitionnement, sachant que sou-
vent l’arbre et d’une taille gigantesque ?
3.7.1 Choix de la variable de segmentation

Il s’agit de choisir parmi les attributs des données, celui qui les sépare le
mieux du point de vue de leurs classes déjà connues. Pour choisir le meilleur
attribut, on calcule pour chacun une valeur appelée ”Gain” qui dépend des
différentes valeurs prises par cet attribut. Cette mesure est basée sur les re-
cherches en théorie d’informations menées par C.Shannon.
3.7.2 Choix de la bonne taille de l’arbre

Une fois l’arbre de décision construit, il peut contenir plusieurs anoma-
lies qui peuvent être dues au bruit ou aux valeurs extrêmes, et qui peuvent
conduire au problème de sur-apprentissage (overfitting). Ce problème est la
déduction d’informations plus que supporte l’ensemble de données d’appren-
tissage. L’arbre peut être aussi d’une taille très importante qui peut épuiser les
ressources de calcul et de stockage. Pour surmonter ce problème, on effectue
des opérations d’élagage qui consistent à éliminer de l’arbre les branches les
moins significatives (qui déduisent d’un nombre réduit d’enregistrements ou de
ceux qui appar- tiennent à diverses classes). L’élagage peut être effectué avant
ou après l’apprentissage, on parle souvent de pré et post-élagage :
— Pré-élagage : effectué lors de la construction de l’arbre, lorsqu’on calcule
les carac- téristiques statistiques d’une partie des données tel que le gain,
on peut décider de l’importance ou non de sa subdivision, et ainsi on
coupe complètement des branches qui peuvent être générée.
— Post-élagage : effectué après la construction de l’arbre en coupant des
sous arbres entiers et en les remplaçant par des feuilles représentant
la classe la plus fréquente dans l’ensemble des données de cet arbre.
On commence de la racine et on descend, pour chaque nœud interne
(non feuille), on mesure sa complexité avant et après sa coupure (son
remplacement par une feuille), si la différence est peu importante, on
coupe le sous arbre et on le remplace par une feuille.
3.7.3 Algorithmes de construction d’arbres de décision

3.7.3.1 Algorithme ID3
ID3 construit l’arbre de décision récursivement. A chaque étape de la récur-
sion, il calcule parmi les attributs restant pour la branche en cours, celui qui
maximisera le gain d’information. C’est-à-dire l’attribut qui permettra le plus
facilement de classer les exemples à ce niveau de cette branche de l’arbre. Le
calcul ce fait à base de l’entropie de Shanon déjà présentée. L’algorithme sup-
pose que tous les attributs sont catégoriels ; si des attributs sont numériques,
ils doivent être descritisés pour pouvoir l’appliquer.
3.7.3.2 Algorithme C4.5 (J48)

C’est une amélioration de l’algorithme ID3, il prend en compte les attributs
numé- rique ainsi que les valeurs manquantes. L’algorithme utilise la fonction
du gain d’entropie combiné avec une fonction SplitInfo pour évaluer les attri-
buts à chaque itération.
Attributs discrets
Pour les attributs discrets possédant un grand nombre de valeurs, nous
avons vu que la fonction GainRatio permettait d’éviter de privilégier ces at-
tributs. Il existe, de plus, une option de C4.5 qui permet le regroupement des
valeurs. Par exemple, si on dispose d’un attribut A prenant les valeurs a, b, c
et d, en standard le test considéré serait 4-aire. Si on active l’option regroupe-
ment, seront également considéré des tests de la forme : le test binaire A ∈ {a, b}
et A ∈ { c, d } ; le test ternaire A = a , A = c et A ∈ {b, d } ; ...
Attributs continus
Pour les attributs continus, la discrétisation peut être laissée à un expert
du domaine d’application. Par exemple, en médecine, l’expérience du domaine
3.7. ARBRES DE DÉCISION 51
peut avoir permis la mise en évidence l’existence de valeurs seuil pour un attri-
but correspond à une mesure médicale. Sinon, l’algorithme gère les attributs
continus de la façon suivante : les exemples sont triés dans l’ordre croissant
pour l’attribut continu A considéré, on considère alors tous les tests de la forme
A > a i + a i+1 /2 où a i et a i+1 sont deux valeurs consécutives de l’attribut A.
Par exemple, supposons que A prenne les valeurs 1 ; 3 ; 6 ; 10 ; 12, alors on
considère les tests A > 2 ; A > 4.5 ; A > 8 et A > 11, ces tests participent alors
à la compétition dans la recherche du test apportant le meilleur gain (fonction
Gain ou GainRatio, selon l’option choisie).
Attributs à valeurs manquantes

Dans de nombreux problèmes concrets, il existe certains attributs dont les
valeurs ne sont pas renseignées. Par exemple, si on dispose du descriptif de
patients, il est très probable que toutes les mesures ne soient pas disponibles
car elles n’ont pas pu être faites pour tous les patients. Pour classifier un
exemple possédant des valeurs manquantes à l’aide d’arbres de décision, on
procède comme dans le cas standard, lorsque l’on rencontre un test et que
la valeur de l’attribut est manquante, on considère la branche majoritaire.
Pour la phase d’apprentissage, on suppose que la valeur de cet attribut suit la
distribution des valeurs connues.
Algorithme CART
L’algorithme CART dont l’acronyme signifie ”Classification And Regression
Trees”, construit un arbre de décision d’une manière analogue à l’algorithme
ID3. Contrairement à ce dernier, l’arbre de décision généré par CART est
binaire et le critère de segmentation est l’indice de Gini. À un attribut binaire
correspond un test binaire. À un attribut qualitatif ayant n modalités, on peut
associer autant de tests qu’il y a de partitions en deux classes, soit 2 n − 1
tests binaires possibles. Enfin, dans le cas d’attributs continus, il y a une
infinité de tests envisageables. Dans ce cas, on découpe l’ensemble des valeurs
possibles en segments, ce découpage peut être fait par un expert ou fait de
façon automatique.
Forêts aléatoires
Les forêts aléatoires ont été inventées par Breiman en 2001. Elles sont en
général plus efficaces que les simples arbres de décision mais possède l’incon-
vénient d’être plus diffi- cilement interprétables. Leur construction se base sur
le bootstrap (ou le bagging). On subdivise l’ensemble de données en plusieurs
parties par le bootstrap puis on apprend un arbre de décision à partir de chaque
partie. Un nouvel exemple est testé par tous les arbres construits et sa classe
est la classe majoritaire.
3.8 Régression logistique
3.9 Machine à vecteurs supports
3.9.1 Principe général
Les SVM sont une famille d’algorithmes dediés à la régression et à la clas-

sification. Dans ce cours, nous nous limitons à la classification binaire. Ainsi,
on dispose de n exemples ( x1 , y1 ), . . . , ( xn , yn )
▷ x i ∈ X = Rd .
▷ yi ∈ Y = {−1, 1}.
L’objectif est de prédire y pour une nouvelle valeur de x. On cherche un clas-

sifieur g : Rd −→ {−1, 1}. On cherche une fonction de décision f : Rd −→ R telle
que
g( x) = si gne( f ( x)).
On suppose que la fonction f est de la forme :
f ( x) = 〈ω, x〉 + b.
L’équation 〈ω, x〉 + b = 0 correspond à un hyperplan dans Rd de vecteur ortho-

gonal ω.
Définition 3.9.1. Une SVM (Support Vector Machine) ou Machine à Vecteurs

Supports est une famille d’algorithmes d’apprentissage supervisé pour des pro-
blèmes de discrimination ou de régression.
3.9. MACHINE À VECTEURS SUPPORTS 53
3.9.2 SVM pour des données linéairement séparables
Définition 3.9.2. Les données ( x1 , y1 ), . . . , ( xn , yn ) sont dites linérairement sépa-

rables s’il existe (w, b) ∈ Rd × R tel que pour tout i ,
- yi = 1 si 〈w, x i 〉 + b > 0
- yi = −1 si 〈w, x i 〉 + b < 0,
c’est à dire ∀ i = 1, . . . , n yi (〈w, x i 〉 + b) > 0.
Moyennant une normalisation des paramètres, on obtient

- yi = 1 si 〈w, x i 〉 + b > 1
- yi = −1 si 〈w, x i 〉 + b < −1,
c’est à dire ∀ i = 1, . . . , n yi (〈w, x i 〉 + b) > 1. On appelle vecteur supports les

exemples ( x i , yi ) vérifiant
〈w, x i 〉 + b = ±1.
!
Proposition 3.9.1. Soit H (w, b) = { z ∈ Rd : f ( z) = 〈w, z〉 + b = 0} un hyperplan et

soit x ∈ Rd . La distance du point x à l’hyperplan H est :
|〈 x, w〉 + b|
d ( x, H ) = .
∥ w∥
Démonstration. En effet, soit x∗ la projection orthogonale de x sur H . on a
x = x∗ + a ∥ w ∗ w
w∥ =⇒ x − x = a ∥w∥ .
On a
w
〈w, a 〉 = a∥w∥ = 〈w, x − x∗ 〉 = 〈w, x〉 − 〈w, x∗ 〉
∥ w∥
= 〈w, x〉 + b.
〈w,x〉+ b
Ainsi, on obtient : a = ∥ w∥ . Par suite :
w w
r
p
d ( x, H ) = 〈 x − x∗ , x − x∗ 〉 = 〈a ,a 〉 = | a |.
∥ w∥ ∥ w∥
La marge d’un exemple est sa distance à la frontière de séparation :
|〈w, x〉 + b|
d ( x, H ) = .
∥ w∥
La marge d’un classifieur linéaire H sur un ensemble d’apprentissage ( x1 , y1 ), . . . , ( xn , yn )

est définie comme la plus petite valeur de marge des exemples par rapport à
H :
min |〈w, x i 〉 + b|
i ∈{1,...,n}
ρ= .
∥ w∥
Dans les SVM, la frontière de séparation choisie est celle qui maximise la
marge. Un hyperplan est dit canonique par rapport aux données { x1 , . . . , xn } si
min |〈w, x i 〉 + b| = 1.
i ∈{1,...,n}
La marge est définie par

2
M = 2ρ = .
∥ w∥
!
Le fait d’avoir une marge plus large procure plus de sécurité lorsque l’on
classe un nouvel exemple. La partie droite nous montre qu’avec un hyperplan
optimal, un nouvel exemple reste bien classé alors qu’il tombe dans la marge.
On constate sur la partie gauche qu’avec une plus petite marge, l’exemple se
voit mal classé.
Trouver un hyperplan séparateur de marge maximale équivaut à trouver le

couple (w, b) tel que :
1
∥w∥2 soit minimal
2
sous la contrainte yi (〈w, x i 〉 + b) ≥ 1, ∀ i = 1, . . . , n.
Le problème est convexe : la fonction objectif est convexe et les points qui
satisfont les contraintes forment aussi un ensemble convexe. il existe un unique
hyperplan séparateur de marge maximale. Le lagrangien est défini par :
1 n
L(w, b, α) = ∥w∥2 −
X
α i ( yi (〈w, x i 〉 + b) − 1) (3.9.1)
2 i =1
Les multiplicateurs de Lagrange α i ≥ 0.

∂L(w, b, α) n
X n
X
= w− α i yi x i = 0 ⇐⇒ w = α i yi x i . (3.9.2)
∂w i =1 i =1
∂L(w, b, α) n
X n
X
=− α i yi = 0 ⇐⇒ α i yi = 0 (3.9.3)
∂b i =1 i =1
En réinjectant (3.9.2) et (3.9.3) dans l’équation (3.9.1), on obtient :

n
X 1X n
θ (α) = αi − α i α j yi y j 〈 x i , x j 〉.
i =1 2 i, j
(
³ ´ α i = 0, ou
∀ i = 1, . . . , n, α i yi (〈w, x i 〉 + b) − 1 = 0, soit
yi (〈w, x i 〉 + b) = 1.
³
Résoudre le problème primal revient à trouver α = α1 , . . . , αn )′ tels que :
n
X 1X n
αi − α i α j yi y j 〈 x i , x j 〉 soit maximal
i =1 2 i, j
sous les contraintes
n
X
α i yi = 0 et α i ≥ 0 ∀ i.
i =1
La solution α∗ du problème dual est indépendante de la dimension d ; la SVM

ne soufre pas du ”fléau de la dimension”.
• α∗i ≥ 0 ∀ i = 1, . . . , n
• yi (〈w∗ , x i 〉 + b∗ ) ≥ 1 ∀ i = 1, . . . , n.
• α∗i ( yi (〈w∗ , x i 〉 + b∗ ) − 1) = 0 ∀ i = 1, . . . , n .
- Seuls les α∗i > 0 interviennent dans la résolution du problème.
- Les x i tels que α∗i > 0 sont appelés les vecteurs supports. Ils sont situés
sur les frontières définisssant la marge maximale, c’est à dire,
yi (〈w∗ , x i 〉 + b∗ ) = 1
• Calcul de b : b n’apparait pas dans le problème dual et doit donc être

calculé à partir du problème primal. Or, on sait que pour les vecteurs
supports, on a :
yi (〈w, x i 〉 + b) = 1
Faire la moyenne de ces termes pour l’ensemble des vecteurs supports

est plus judicieux afin d’obtenir une valeur numérique stable.
• La marge est
2 ³ X ´1/2
= αi .
∥ w∥ i ∈SV
• La fonction de décision :
X
f ( x) = 〈w, x i 〉 + b = α i yi 〈 x, x i 〉 + b.
i ∈SV
3.9.3 SVM pour les données linéairement non séparables
3.9.3.1 Données presque linéairement séparables
Il arrive parfois que des individus soient du mauvais côté de la frontière.

On utlisera alors des variables de relaxation ξ = (ξ1 , . . . , ξn ) :
— ξ i ≥ 0 matérialise l’erreur de classement pour chaque observation

— ξ i = 0 lorsque l’observation est du bon côté de la droite ”marge” associée
à sa classe.
— ξ i < 1, le point est du bon côté de la frontière, mais déborde de la droite
”marge” associée à sa classe (l’individu est dans la région définie par la
marge).
— ξ i > 1, l’individu est mal classé.
Définition 3.9.3. On parle de marge souple ou marge relaxé. Les variables ξ i

sont appelées les variables ressorts (slacks) ou des variables de relaxation.
Les contraintes relaxées ne peuvent pas être utilisées sans contrepartie sous
peine d’obtenir une marge maximale infinie (en prenant des valeurs de ξ i suf-
fisamment grandes). La solution est de pénaliser les grandes valeurs de ξ i . Il
s’agira de trouver w, b et ξ = (ξ1 , . . . , ξn ) tels que
1 n
∥w∥2 + C
X
ξ i soit minimal
2 i =1
sous contraintes
yi (〈w, x i 〉 + b) ≥ 1 − ξ i , ξ i ≥ 0,
C est une variable de pénalisation des points mal classés et faisant un com-
promis entre la dimension de la marge et les points mal classés ; C > 0 est
un paramètre ; C est un paramètre d’entrée de la SVM à ajuster. Plus C est
grand, plus ³les erreurs sont pénalisées. Résoudre le problème primal revient à
trouver α = α1 , . . . , αn )′ tels que :
n
X 1X n
αi − α i α j yi y j 〈 x i , x j 〉 soit maximal
i =1 2 i, j

n
X
α i yi = 0 et 0 ≤ α i ≤ C ∀ i.
i =1
• 0 ≤ α∗i ≤ C ∀ i = 1, . . . , n
• yi (〈w∗ , x i 〉 + b∗ ) ≥ 1 − ξ∗i ∀ i = 1, . . . , n.
• α∗i ( yi (〈w∗ , x i 〉 + b∗ ) + ξ∗i − 1) = 0 ∀ i = 1, . . . , n .
• ξ∗i (α∗i − C ) = 0, ∀ i = 1, . . . , n.
Les x i tels que α∗i > 0 sont les vecteurs supports.
Deux types de vecteurs supports :
• Les vecteurs correspondant à des variables ressort nulles. Ils sont situés
sur les frontières de la région définissant la marge.
• Les vecteurs correspondant à des variables ressort non nulles : ξ∗i > 0 et
dans ce cas α∗i = C .
Les vecteurs qui ne sont pas supports vérifient α∗i = 0 et ξ∗i = 0.
3.9.3.2 Cas des données linéairement non séparables

Pour surmonter les inconvénients des cas non linéairement séparable, l’idée
des SVM est de changer l’espace des données. La transformation des données
peut permettre une séparation linéaire des exemples dans un nouvel espace :
On a donc une transformation d’un problème de séparation non linéaire dans

l’espace de représentation en un problème de séparation linéaire dans un de
plus grande dimension. Envoyer les entrées { x i , i = 1, . . . , n} dans un espace de
Hilbert H , de grande dimension, voire de dimension infinie, via une fonction
ϕ, et appliquer une SVM linéaire aux nouvelles données {(ϕ( x i ), yi ), i = 1, . . . , n}.
La sortie attribuée à l’entrée x est celle attribuée à son image ϕ( x). L’espace
H est appelé espace de représentation (feature space).
La règle de discrimination de la SVM non linéaire est définie par :
f ( x) = 1Pni=1 yi α∗ 〈ϕ(x i ),ϕ(x j )〉≥0 − 1Pni=1 yi α∗ 〈ϕ(x i ),ϕ(x j )〉<0
i i
Les α∗i sont solutions du problème dual dans l’espace H :

n
X 1X n
Maximier αi − α i α j yi y j 〈ϕ( x i ), ϕ( x j )〉
i =1 2 i, j

n
X
α i yi = 0 et 0 ≤ α i ≤ C ∀ i.
i =1
La connaissance seule de la fonction k définie par k( x, x′ ) = 〈ϕ( x), ϕ( x′ )〉 permet
de lancer la SVM dans H , sans déterminer explicitement H et ϕ.
Définition 3.9.4. Une fonction k : X × →R telle que k( x, x′ ) = 〈ϕ( x), ϕ( x′ )〉 pour
une fonction ϕ : X → H donnée est appelée noyau.
Exemple 3.9.1. Quelques exemples de noyaux :

— Noyau gaussien
³ ∥ x − y∥2 ´
k( x, y) = exp − .
2σ 2
— Noyau linéaire sur Rd :
k( x, y) = x′ x.
— Noyau polynomial surRd :
k( x, y) = ( x′ x + 1)d .
3.10 Réseaux de neurones

Les réseaux de neurones artificiels (RNA) sont inspirés de la méthode de
travail du cerveau humain qui est totalement différente de celle d’un ordinateur.
Le cerveau humain se base sur un système de traitement d’information parallèle
et non linéaire, très compliqué, ce qui lui permet d’organiser ses composants
pour traiter, d’une façon très performante et très rapide, des problèmes très
compliqués tel que la reconnaissance des formes. Un réseau de neurones est une
structure de réseau constituée d’un nombre de nœuds interconnectés par des
liaisons directionnelles, Chaque nœud représente une unité de traitement et les
liaisons représentent les relations causales entre les nœuds. La figure suivante
représente une schématisation d’un neurone.
La figure montre qu’un neurone k se constitue de trois éléments basiques :

— Un ensemble de connexions avec les différentes entrées xi, pondérée
chacune par un poids wki,
— Un additionneur permettant de calculer une combinaison linéaire des
entrées xi pon- dérées par les coefficients wki,
— Un biais bk qui permet de contrôler l’entrée de la fonction d’activation,
3.10. RÉSEAUX DE NEURONES 63
— Une fonction d’activation f permettant de délimiter la sortie yi du neu-
rone.
Mathématiquement, la sortie yk du neurone peut être exprimée par la fonction
suivante :
yk = f (wk1 x1 + wk2 x2 + . . . + wkn xn + b k )
L’architecture d’un réseau de neurones artificiel est définie par la structure de

ses neurones et leur connectivité. Elle est spécifiée par le nombre d’entrées, de
sorties, de nœuds et la façon selon laquelle sont interconnectés et organisés les
nœuds. Une fameuse architecture des réseaux de neurones est celle basée sur
des couches où les nœuds de chaque couche n’ont aucune connexion entre eux.
Cette architecture est utilisée dans presque 90%. des applications commerciales
et industrielles. La figure suivante représente un réseau de neurone de quatre
couches.
Les couches
1 et 2 s’appellent des couches cachées tandis que la couche 3 est la couche de
sortie. La tâche principale des réseaux de neurones artificiels est l’apprentissage
pour la classification, qui est réalisée par un processus itératif d’adaptation
des poids wi pour arriver à la meilleure fonction permettant d’avoir f ( x i ) =
yi , i = 1, . . . , N. Les valeurs des wi sont initialisées aléatoirement, et corrigées
selon les erreurs entre les yi obtenus et attendus. Dans un réseau de neurones
multicouches, la correction se fait dans le sens inverse du sens de propagation
des données ce qui est appelé la ”backpropagation”. A chaque présentation
d’un exemple d’apprentissage au réseau, on passe par deux étapes :
1. Dans l’étape de propagation, les valeurs du vecteur d’entrée (l’exemple)
sont reçues dans la couche d’entrée et propagées d’une couche à l’autre
jusqu’à la sortie où un vecteur de sortie (les yi ) est obtenu.
2. Dans la phase de backpropagation, les w i sont ajustés de la dernière
couche jusqu’à la première de manière à rapprocher les yi obtenus de
ceux attendus.
Ces deux étapes sont répétées avec chaque exemple d’apprentissage pour ob-
tenir à la fin un réseau de neurones artificiel entrainé. L’utilisation d’un RNA
entrainé, se fait par l’injection des valeurs du vecteur de l’exemple à classifier,
dans l’entrée et recevoir sa classe à la sortie par propagation. Les réseaux de
neurones sont utilisés pour la classification ou la régression. Pour la régression
les valeurs des yi représentent la réponse de la fonction à estimer. Dans le
cas de classification, si le cas est binaire, une seule sortie (0 ou 1) suffit. Si la
classification est multi-classes, on utilise généralement une sortie pour chaque
classe. Plusieurs types de réseaux de neurones existent, ils se diffèrent dans la
manière selon laquelle sont interconnectés les nœuds. Les réseaux récurrents,
par exemple, consistent à propager les résultats au sens inverse de la propaga-
tion dans le calcul des wi. Un autre type est celui des cartes auto-organisatrices
de Kohonen qui utilise un principe de compétition pour ne prendre que les ré-
sultats des meilleurs nœuds dans les calculs. Ce type de réseaux de neurones
est utilisé généralement dans l’apprentissage non supervisé. Certes, les réseaux
de neurones artificiels permettent de surmonter le problème d’analyse d’un
système donné pour le modéliser. On peut simuler son comportement unique-
ment à partir d’un certain nombre d’exemples observés. Mais, par contre, ils
représentent des problèmes remarquables qui ont limité leur évolution en face
d’autres techniques tel que les SVMs.
— Un réseau de neurones artificiel représente une boı̂te noire, et il est

très difficile voire impossible d’analyser et comprendre son fonctionne-
ment en face d’un problème donné, ce qui empêche de choisir la struc-
ture (type, nombre de nœuds, organisation, connexions,...etc) la mieux
adaptée à ce problème.
— L’ordre de présentation des exemples d’entrainement au réseau influe
directement sur les résultats obtenus. Pour surmonter ce problème, il est
nécessaire de répéter au moins la phase d’entrainement avec des ordres
différents des exemples ce qui augmente considérablement le temps d’ap-
prentissage.
— Dans le cas des bases de données, les réseaux de neurones artificiels ne
permettent pas de traiter des exemples avec des attributs symboliques
(catégoriels) qu’après un encodage adapté, à l’inverse de plusieurs autres
techniques d’apprentissages tel que les SVMs et les arbres de décision.
— Les RNAs représentent un inconvénient majeur qui est leur sensibilité
aux minimas locaux et la possibilité de leur divergence. L’ambiguı̈té de
leur fonctionnement empêche d’éviter de tels cas.
Pour toutes ces raisons beaucoup de travaux récents de comparaison, favorisent

les SVMs par rapport aux RNAs dans plusieurs applications.
3.11. CLASSIFICATION BAYÉSIENNE 65
3.11 Classification bayésienne
Les techniques se basant sur les lois statistiques sont les premières qui ont
été utilisées pour l’analyse de données. Elles consistent à prendre un sous en-
semble d’une population et essayer d’arriver à des conclusions concernant toute
la population. Ce sont des méthodes qui reposent sur la théorie de Bayes repré-
sentant une référence théorique pour les approches statistiques de résolution
des problèmes de classification. Le principe de cette théorie est le suivant :
Soit X un échantillon de données dont la classe est inconnue et qu’on veut la
déterminer, et soit H une hypothèse (X appartient à la classe C par exemple).
On cherche à déterminer P (H / X ) la probabilité de vérification de H après
l’observation de X . P(H / X ) est la probabilité postérieure c’est-à-dire après la
connaissance de X tandis que P(H ) est la probabilité à priori représentant la
probabilité de vérification de H pour n’importe quel exemple de données. Le
théorème de Bayes propose une méthode de calcul de P(H / X ) en utilisant les
probabilités P(H ), P( X ) et P( X /H ) :
P ( H / X ) = [P ( X / H ).P ( H )]/P ( X )
P(H/X) est donc la probabilité d’appartenance de X à la classe C, P(H) la

probabilité d’apparition de la classe C dans la population et qui peut être cal-
culée comme le rapport entre le nombre d’échantillons appartenant à la classe
C et le nombre total d’échantillons. P(X/H) peut être considérée comme la
probabilité d’apparence de chaque valeur des attributs de X dans les attributs
des échantillons appartenant à la classe C :
P( X / H ) = P(a i = v i / H ).
Y
Où ai est le ie‘me attribut de X et vi sa valeur. Cette astuce de calcul de

P(X/H) est basée sur la supposition d’indépendance entre les attributs. Mal-
gré que cette supposition soit rarement vérifiée, sa considération facilite le
calcul et donne une idée approximative sur la probabilité. Finalement P(X)
est constante pour toute la population et indépendante des classes. Il ne reste
donc que considérer la classe de X, celle maximisant le produit P(X/H)•P(H).
Cette application est l’application la plus simple de la théorie de Bayes, elle
s’appelle la classification naı̈ve de Bayes. En pratique, on peut vouloir trouver
la classe d’un enregistrement dont la valeur d’un attribut n’existe pas dans
la table. Dans ce cas, une méthode dite ”Estimateur de Laplace” est utilisée :
on ajoute 1 à tous les numérateurs des probabilités et on ajoute le nombre
de valeurs distinctes de cet attribut au dénominateur. Par exemple au lieu
d’avoir les probabilités 2 , 4 et 3 , on utilise les probabilités 3 , 5 et 4 si l’at-
tribut n’a que 3 valeurs 99 9 1212 12 distinctes. Comme ça on minimise la
probabilité sans l’annuler et par conséquent annuler toute la probabilité. Un
autre problème que l’algorithme ne prend pas en compte, bien comme il faut,
est celui des valeurs numériques continues, puisqu’il se base uniquement sur
les égalités des valeurs. En effet, on ne peut pas dire que la probabilité qu’une
variable continue soit égale à 12.36 est égale à 0 par exemple, seulement car la
valeur 12.36 n’appartient pas aux valeurs de cet attribut. Pour surmonter le
problème, on suppose que la distribution des valeurs de l’attribut est normale,
et on calcule sa moyenne et sont écart type et la probabilité peut être calculée
selon la loi normale :
La méthode naı̈ve de Bayes est applicable uniquement en cas de vérifica-
tion de l’indé- pendance entre les attributs, ce qui peut être contrôlé par la
matrice de corrélation et ses valeurs propres. Aussi, les valeurs des attributs
numériques doivent avoir une distribution normale. Cette méthode reste une
méthode simple et moins coûteuse en temps de calcul. Elle est aussi incrémen-
tale c’est-à-dire que l’arrivée d’une nouvelle information (classe d’un nouvel
enregistrement) ne nécessite pas de refaire tous les calculs pour la prendre
en consi- dération. Les connaissances apprises peuvent être renforcées sans
avoir besoin de refaire tous les calculs. Les réseaux Bayésiens (ou réseaux de
croyance) prennent en considération les dépen- dances éventuelles entre les
attributs contrairement à la technique précédente. Un réseau Bayésien est re-
présenté sous forme d’un graphe orienté acyclique, où les nœuds représentent
les attributs et les arcs représentent les liaisons entre ces attributs (des pro-
babilités conditionnelles). Deux attributs sont reliés par un arc si l’un cause
ou influe sur l’autre : le pré- décesseur est la cause et le successeur est l’effet.
Prenons l’exemple suivant : Un médecin reçoit un patient qui souffre d’un pro-
blème de respiration (symptôme) appelé ”dyspnoea”, et qui a peur d’avoir un
cancer de poumon. Le médecin sait que d’autres causes sont possibles tel que
la tuberculose et les bronchites. Il sait aussi que d’autres informations peuvent
augmenter la probabilité du cancer tel que si le patient est fumeur ou non, et
la pollution de l’air où il vie. Mais une image rayon X positive confirmera le
cancer ou la tuberculose. Le tableau suivant résume les attributs qu’on a avec
leurs valeurs possibles.
Le réseau Bayésien peut être construit à partir de la base de données d’ap-
prentissage en calculant la corrélation entre les attributs. On commence par
ajouter au réseau les nœuds (attributs) indépendants et à chaque fois, on
ajoute des arcs à partir des nœuds existants dans le réseau desquels dépend
le nœud ajouté. Les CPTs peuvent être aussi calculées facilement à partir de
la base de données en se basant sur la fréquence d’apparition des valeurs. Une
fois le réseau Bayésien établi avec les CPTs, il peut être utilisé pour raisonner
dans deux sens :
— Au sens des arcs : appelé ”Prédiction” où on possède des causes et on
cherche les probabilités des différents effets possibles, par exemple, on
connaı̂t qu’un patient est fumeur et on cherche la probabilité d’avoir
3.11. CLASSIFICATION BAYÉSIENNE 67
un cancer, on multiplie simplement les probabilités du chemin entre la
cause et l’effet final.
— Au sens contraire des arcs : appelé ”Diagnostic” où on connaı̂t des ef-
fets et on cherche les probabilités de certaines causes, par exemple, on
connaı̂t qu’un patient a un cancer, et on cherche la probabilité qu’il
soit un fumeur. Dans ce cas, on multiplie aussi les probabilités du che-
min inversé de l’effet à la cause. Les réseaux Bayesiens sont beaucoup
plus précis que d’autres techniques d’apprentissage, puisqu’ils, d’un
côté, prennent en considération les dépendances entre les attributs, et
d’un autre côté, peuvent intégrer des connaissances humaines au préa-
lable. On peut par exemple introduire directement la topologie du ré-
seau et le faire entraı̂ner pour construire les CPTs. Ils sont aussi incré-
mentaux puisque les croyances peuvent être modifiées à chaque arrivée
d’une nouvelle information et cela par propagation directe sur le réseau.
Malheureu- sement, ces réseaux sont très coûteux en temps de calcul
pour l’apprentissage surtout pour le calcul des CPts puisqu’il faut cal-
culer une probabilité pour chaque valeur possible d’un fils pour chaque
valeur possible de chacun de ses pères. L’espace nécessaire pour stocker
les CPTs est aussi exhaustif.
La plupart des travaux récents sur les réseaux Bayésiens visent à optimiser la
tâche complexe d’apprentissage en optimisant le temps de calcul tout en gar-
dant la précision. Dans des travaux récents, on essaye d’hybrider les réseaux
Bayésiens avec les machines à vecteurs supports(SVM) pour estimer les pa-
ramètres d’apprentissage. Une combinaison du raisonnement Bayesiaen avec
les méthodes à noyaux a permis selon certaines recherches d’utiliser plusieurs
hyperplans, pour séparer les données, ensuite utiliser ces hyperplans pour pro-
duire un seul critère de classification plus précis.
Chapitre
4 Regression
4.1 Définition
4.2 Régression linéaire simple
4.2.1 Modélisation
Définition 4.2.1. Le modèle de régression linéaire simple est défini par une
équation de la forme
Yi = β0 + β1 X i + ε i 1 ≤ i ≤ n.
Nous faisons les hypothèses suivantes :




 (H 0 ) : les variables X i sont non aléatoires
(H 1 ) : E(ε i ) = 0 ∀ i ∈ {1, . . . , n}



 (
σ2 si i = j
 (H 2 ) : Cov ( ε i , ε j ) =
0 si i ̸= j





(H ) : ε , . . . , ε sont indépendantes et ε ,→ N (0, σ2 ) pour tout i ∈ {1, . . . , n}

3 1 n i
Remarque 4.2.1. - l’hypothèse (H 1 ) signifie que les erreurs ε1 , . . . , εn sont

de moyenne nulle, ou autrement dit, on ne se trompe pas en moyenne ;
- l’hypothèse (H 2 ) signifie que les erreurs ε1 , . . . , εn sont non corrélés
( cov(ε i , ε j ) = 0 ∀ i ̸= j ) et de même variance (Homoscédasticité) (var(ε i ) =
σ2 , ∀ i = 1, . . . , n) ;
- l’hypothèse (H 3 ) que les erreurs ε1 , . . . , εn sont gaussiennes, centrées et
de même variance
- (H 3 ) implique (H 1 ) et (H 2 )
68
4.2. RÉGRESSION LINÉAIRE SIMPLE 69
4.2.2 Démarche de la régression
• Vérifier la possibilté d’une liaison linéaire entre Y et X
- nuage de points : réaliser un graphique cartésien, dont l’abscisse

représente X et l’ordonnée Y . Dans ce repère, chaque individu i
est représenté par un point de coordonnées ( X i , Yi ). L’ensemble des
individus constitue un nuage de points dont la forme révèle la liaison
entre les deux variables.
- le coefficient de corrélation linéaire a pour objet de quantifier l’al-

lure plus ou moins linéaire d’un nuage de points. Il est défini par
n
X
( X i − X n )(Yi − Y n )
i =1
ρ=s s .
n n
( X i − X n )2 (Y i − Y n )2
X X
i =1 i =1
ρ est toujours compris entre −1 et 1, valeurs atteintes lorsque la

liaison linéaire est parfaite ; ρ = 0 ne signifie pas que X et Y sont
indépendantes ; dans ce cas, X et Y sont dites linéairement indépen-
dantes ou non corrélées.
• Estimation des paramètres β0 , β1 et σ2 : on utilisera la méthode des

moindres carrés ordinaires ou la méthode du maximum de vraisem-
blance selon la nature des hypothèses sur les erreurs.
• Validation du modèle : cette étape permet de vérifier la validité des

hypothèses du modèle ; coefficient de détermination, validité marginale
de Student, analyse des résidus.
4.2.3 Estimateurs des moindres carrés
Définition 4.2.2. On appelle estimateurs des moindres carrés de β0 et β1 , les

estimateurs β̂0 et β̂1 obtenus par minimisation de la quantité
n ¡
X ¢2
S (β0 , β1 ) = Yi − β0 − β1 X i .
i =1
7018 CHAPITRE 4.Regression
2 Simple Linear REGRESSION
15
ê6
10
ê5 Line of
best fit
Y ê3
5
ê4
ê1
0
ê2
0 1 2 3 4 5
X
′
Figure
Le 2.2 (β̂plot
A scatter
vecteur 0 , β̂1 ) qui minimise S (β0 , β1 ) vérifie la condition
of data with a line of best fit and the residuals identified du premier
ordre
n
 ∂S (nβ0 2, β1 )n = −2 2(Y −

X n
 =∑ i (βy0 − −bβ1−Xb ix) =
∑ ∑ 2 0

RSS

∂β0ˆ
ei = ( yi − ˆ
y i ) = i 0 1 i) .
i =1 i =1 i = 1 i =1
∂S (β0 , β1 ) X n
= −2 X i (Yi − β0 − β1 X i ) = 0


∂βwith

For RSS to be a minimum

1 respect to b and
i =1 0
b1 we require
On en déduit alors que∂ RSS n

= −2∑ (yi − b0 − b1 xi ) = 0
n ∂ b0
X i =1 n
X
X i Yi − nX n Y n ( X i − X n )(Yi − Y n )
and i =1 i =1
β̂1 = n
= n
∂ RSS
X 2 n 2
= i−2−∑
2
X
X nX xi (nyi − b0 − b1 xi ) =(0X i − X n )
∂ ib=1 1 i =1 i =1
Rearranging terms in these last two equations gives

β̂0 = Y n − β̂1 X n .
′
La condition de second ordren permet de vérifiern
aisément que (β̂0 , β̂1 ) minimise
S (β0 , β1 ).
∑i =1
yi = b0 n + b1 ∑ xi
i =1
and
4.3 Régrssion linéaire

∑ x y = b ∑multiple
n
x +b ∑x . i i 0
n
i 1
n
2
i
i =1 i =1 i =1
4.3.1 Modélisation
These last two equations are called the normal equations. Solving these equations
forLe
b0 and b1 gives
modèle dethe so-called least
régression squares
linéaire estimates
multiple estofdéfini
the intercept
par l’équation
ˆ ˆ
Yi = β0 + β1 Xbi10 +
= ·y· −· +
bβ1 xp X i p + ε i , i = 1, . . . , n (2.3)
où
- Yi est la réponse mesurée pour l’individu i
4.3. RÉGRSSION LINÉAIRE MULTIPLE 71
- X i j est la valeur de X j pour l’individu i ;
- β0 , . . . , β p sont des paramètres inconnus
- ε i appelée aléa est une variable aléatoire.
En posant
   
Y1 1 X 11 · · · X1 j ··· X 1p
 ..   .. .. .. .. 

 . 


 . . . . 

Y = Yi  X = 1 X i1 ··· Xij ··· Xip 
..  .. .. .. ..
   
  
 .   . . . . 
Yn 1 X n1 · · · Xnj ··· X np
β0
 
ε1
 
 β1 
.. 
 .. 
  
 . 
 . 
β= ε= εi 
 

 βj 
.. 
 
  
 .  . 
 .. 

εn
βp
on obtient la forme matricielle suivante :
Y = X β + ε. (4.3.1)
Soient les hypothèses suivantes :

(H 0 ) La matrice X n’est pas aléatoire.
(H 1 ) rang( X ) = p + 1.
(H 2 ) E(ε) = 0 et V ar (ε) = σ2 In avec σ2 > 0.
(H 3 ) ε ,→ N (0, σ2 In ) avec σ2 > 0.
Remarque 4.3.1. Les paramètres inconnus du modèle sont : β et σ2 .

Remarque 4.3.2. (H 0 ) implique que l’on choisit les valeurs des variables ex-
plicatives puis on observe Y .
(H 1 ) implique que les colonnes de X forment des vecteurs linéairement indé-
pendants de Rn . Ainsi, nous avons
∀C ∈ R p+1 , X C = 0 ⇒ C = 0;
il existe donc un unique vecteur θ associé au modèle (4.3.1) ; de plus, on a

n ≥ p + 1 ; si l’on avait rang( X ) < p + 1, cela signifierait qu’il existe au moins
une variable explicative qui peut s’écrire comme une combinaison linéaire d’une
ou des autres variables explicatives : cette variable explicative serait donc su-
perflue, elle n’apporterait rien à l’explication de Y déjà fournie par les autres
72 CHAPITRE 4. REGRESSION
variables explicatives.
(H 2 ) implique que les composantes de ε sont centrées, de même variance (ho-
moscédasticité) et non correlées entre elles.
(H 3 ) implique que les erreurs ε1 , . . . , εn sont indépendantes identiquement dis-
tribuées de loi N (0, σ2 ).
4.3.2 Estimateurs des moindres carrés

Proposition 4.3.1. Dérivée matricielle
Pour tout v, a ∈ Rk , pour toute matrice carrée d’ordre k, nous avons
′ ′
∂v a ∂a v
- = =a
∂v ∂v
′
∂v Mv ′
- = ( M + M )v
∂v
Nous supposons vérifier les hypothèses (H 0 ) et (H 1 ).
Définition 4.3.1. On appelle estimateur des moindres carrés ordinaires β̂, la

valeur de β qui minimise la fonction suivante
′
S (β) = (Y − X β) (Y − X β)
Comme ε = Y − X β, on a
Ã !2
n n p
′
ε2i
X X X
S (β) = ε ε = = Yi − (β0 + β j X i j) .
i =1 i =1 j =1
Théorème 4.3.1. L’estimateur des moindres carrés ordinaires β̂ de β est défini

par
β̂0
 
′
−1 ′  .. 
β̂ = ( X X ) X Y =  . .
β̂ p
Démonstration. Nous avons

′
S (β) = (Y − X β) (Y − X β)
′ ′ ′ ′ ′ ′
= Y Y −Y Xβ−β X Y +β X Xβ
∂S (β) ′ ′ ′ ′
= −2 X Y + 2 X X β = 0 ⇒ β = ( X X )−1 X Y
∂β
∂2 S (β) ′
Comme = 2 X X est une matrice définie positive, on obtient le résultat.
∂β2
4.4. SVM POUR LA RÉGRESSION (SVR) 73
4.4 SVM pour la régression (SVR)
Dans leur origine, les SVMs ont été développées pour des problèmes de
classification. Cependant, leur nature leur permet de résoudre également des
problèmes de régression. La régression est un cas particulier de classification où
les classes des exemples ne sont pas dénombrables c’est à dire continues. Pour
résoudre le problème de régression, SVM utilise une astuce semblable a celle
utilisée en classification. On propose de modéliser la fonction de régression par
un hyperplan qui se situe au centre d’un hypertube de largeur 2ε contenant
tous les exemples d’entrainement.
Plusieurs hyperptubes, de largeur 2ε contenant tous les exemples d’en-

trainement, peuvent exister. L’hypertube optimum est celui qui minimise la
distances entre les exemples d’entrainement et ses frontières, autrement dit, qui
maximise la distance des exemples de l’hyperplan du centre. La détermination
de l’hypertube optimum est semblable à la détermination de l’hyperplan de
marge maximale optimum dans le cas de classification. On doit donc recher-
cher un hypertube de marge maximale avec tous les exemples d’entrainement
à l’intérieur. En d’autre terme, ajuster l’hypertube par rotation et décalage
jusqu’à maximiser la distance des exemples de l’hyperplan du centre, tout en
gardant tous les exemples à l’intérieur de l’hypertube. L’équation 4.11 modé-
lise le problème sous forme d’un problème de programmation quadratique. La
fonction objective maximise la marge et les contraintes gardent les exemples
dans l’hypertube de largeur 2ε. En pratique, où il est difficile de garder tous les
exemples dans un hyper-tube de largeur 2ε, on relaxe un peut les contraintes
74 CHAPITRE 4. REGRESSION
comme dans le cas des SVM à marge souple. On admet alors à l’hyper-tube
de laisser des exemples à l’extérieur en introduisant des variables de relaxation
ξ (cf. Figure 4.3). Les variables de relaxation ξ i représentent les erreurs des
exemples au dessus de l’hyper-tube tandis que les ξ′i représentent les erreurs
des exemples au dessous. Toutes ces variables sont nulles pour les exemples
à l’intérieur de l’hyper-tube et égales aux distances de l’hyper-tube pour les
exemples à l’extérieur (équations 4.12,4.13).
Bibliographie
[1] L. Devroye, L. Györfi and G. Lugosi. A probabilistic theory of pattern

recognition, volume 31. Springer Verlag, 1996.
[2] Hastie T., Tibshirani R., Friedman J., The elements of statistical learning,
Springer, 2001.
[3] Tikhonov A. N., On solving ill-posed problem and method of regularization,
Doklady Akademii Nauk, USSR 153, 1963, 501-504.
[4] Vapnik V., The nature of statistical learning theory, New-York, Springer-
Verlag, 1996.
75

Cours_fouilles_donnees_M2_Miage

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours_fouilles_donnees_M2_Miage

Transféré par

Droits d'auteur :

Formats disponibles

Fouilles de données

prof. armel yodé

1.1 Définition de la fouille des données ou data mi-

— organisme de crédits : accorder un crédit ou non en fonction du profil

1. Définir et comprendre le problème.

Tout au long de ce processus, les membres de l’équipe doivent entretenir une

1.4 Méthodes de data mining

• Les méthodes descriptives visent à mettre en évidence des informations

• Les méthodes prédictives à extrapoler de nouvelles informations à partir

6. Quels algorithmes ? Le nombre de Stirling est le nombre de partitions

Exemple 2.1.1. σ25 = 15 σ512 = 1323652

Exemple 2.1.2. Nous avons :

B(9) = 21147 B(10) = 115975 B(12) = 4213597.

En analyse des données, on a généralement à traiter des ensembles de

2.2 Mesure déloignement

Soit E l’ensemble des individus.

Définition 2.2.1. Une dissimilarité est une application d : E × E → R+ vérifiant :

Autrement dit, moins les individus i et j se ressemblent, plus d ( x i , x j ) est

Plus les unités i et j se ressemblent plus s( x i , x j ) est élevée. On peut transformer

On peut transformer une dissimilarité d en une similarité s. Il suffit de poser :

2.2.2 Données numériques

(a) On peut choisir M = I p pour les variables homogènes.

2.2.3 Données binaires

2.2.4 Données qualitatives

2.2.5 Distance entre clusters

où n1 est le nombre d’élémets de C1 et n2 le nombre d’éléments de C2 .

• Distance des centres de gravité :

où µ1 et µ2 sont les centres de gravité respectifs de C1 et C2

2.3 Evaluation de la qualité d’un clustering

Le centre gravité du nuage de points est :

Le centre de gravité du cluster C k est

L’indice de Davies-Bouldin est défini par

2.3.3 Coefficient de silhouette

b i mesure la dissimilarité la plus faible avec tout autre cluster C l avec l ̸= k.

Le coefficient de silhouette est défini par

Le coefficient de silhouette varie entre −1 (pire classement) et 1 (meilleur

2.3.4 Stabilité d’un cluster

2.4 Clusterimg partitionnel

qui correspond à la distance euclidienne totale entre chaque x i et le centre C s

Algorithme de k-means de Lloyd-Forgy

3. Etape de recalage des centres : le centre C de chaque classe l est

Le processus se stabilise nécessairement et l’algorithme s’arrête

K-means clustering with 2 clusters of sizes 4, 2

Within cluster sum of squares by cluster:

[1] "cluster" "centers" "totss" "withinss" "tot.withinss"

2.4.2 K-mean (Mc Queen)

2.4.3 Nuée dynamique (Diday)

2.5 Les méthodes hiérarchiques

2.5.1 Classification ascendante hiérachique (Cah)

Algorithme de classification ascendante hiérachique

3. Calculer la distence entre la nouvelle classe C k et les autres : d C (C k , C i )

La complexité d’un algorithme est la quantité de ressources nécessaires

hclust (*, "average")

2.5.2 Classification descendante hiérachique

2.6 Clustering basé sur la densité

L’algorithme DBSCAN (Density-Based Spatial Clustering of Applications

où x i ∈ X ⊂ Rd et yi ∈ Y ⊂ R ; x i est appelée entrée et yi est appelée sortie.

Exemple 3.1.1. 1. Diagnostic médical :

3. Reconnaissance de caractères manuscrits.

Nous disposons d’une image numérisée d’un caractère manuscrit. Cette

3.2 Règles de prédiction

Définition 3.2.4. La ”meilleure” règle de prédiction f ∗ vérifie :

Remarque 3.2.1. f ∗ est appelée fonction cible ou oracle ; f ∗ dépend de P et

est atteint. Alorsh une fonctionif ∗ : X −→ Y telle que pour tout x ∈ X , f ∗ ( x)