Académique Documents
Professionnel Documents
Culture Documents
1 L'arbre de décision :
C'est une méthode de classication supervisée qui aide à la décision il est composé d'un ensemble des n÷uds
(qui représente les attributs d'un tableau) connecter par des branches (contient une ou un ensemble des valeurs
des variables prédictives, explicative), les feuille de l'arbre (contient des variable à expliquer, cible) ça structures
représenté dans l'image suivante :
1
Remarque
1. Le chemin de racine à la feuille construire une règle de classement.
2. Ensemble des règles construire un modèle.
3. L'élaboration de l'arbre est basé sur le calcule de gain.
Pk
G(S, Q) = E(S) − i=1 Pi E(S, Q)
E(S) : L'entropie de n÷ud père.
E(S, Qi ) : L'entropie des n÷uds ls.
E(S) = −P+ log2 (P+ ) − P− log2 (P− )
Pi : C'est le cardinal de la classe i.
2 Réseau de neurone
C'est une méthode de classication supervisée ou modèle mathématique qui sert à reproduire l'intelligence humaine
par la reproduction des quel que capacités de calcul de cerveau humaines tel que l'acquisition des connaissances et
l'utilisation de ces connaissances.
Le principe de fonctionnement de RN
Le neurone revoie des signaux électrique par les dendrites des autres neurones, après c'est la somme des signaux
dépasse le seuil d'activation alors le neurone transmettre le signal aux le neurone voisin par l'axone.
Tel que :
wi : c'est les poids et il est initialisé aléatoirement avec une valeur entre 0 et 1.
xi : c'est les entrées.
S : c'est le signal somme (l'ensemble des signaux entré).
Y : c'est la sortie.
F : c'est la fonction d'activation
F (S) = Y = F (W )+ P
0
n
i=1 Wi ∗ xi
La fonction d'activation le plus utilisé c'est la fonction sigmoïde :
2
1
F = 1+e−S
L'apprentissage par RN il s'agit de modier les poids initial jusqu'à que la fonction d'activation dépassé le seuil
(puisse eectuer la tache désirer tel que l'erreur entre la sortie désiré et la sortie soit plus petit).
Le changement de poids est eectué comme se suit :
3
Figure 6 Les étapes de l'algorithme génétique
Remarque
La convergence est :
1. Un nombre maximum de croisements sans amélioration de la meilleure solution
2. Coût minimal atteint
3. Un nombre maximum de croisements
4 L'algorithme de KSOM
C'est un algorithme de famille de classication non supervisée , il compose d'une couche de compétition de deux
dimension des neurones (matrice initialisé avec des valeurs aléatoire) chacune de ces neurones est connecter avec
des entrées (gure 7) et chaque connexion ayant une poids Wij (une valeur aléatoire entre 0 et 1).
En dénit une activation pour chaque neurone cet activation représente la distance entre le neurone et le poids de
connexion avec l'entrée.
4
La fonction d'activation est le suivantes :
pP
a(j) = i=1 (e(i) − Wij )2
Pour une entré un neurone ayant une faible activation est dite neurone vainqueur et l'apprentissage ce fait par le
changement de poids de neurone vainqueur ainsi le poids de ces voisin le processus est répété pour tous les entré
et à la n en obtient une couche entrainé selon les entrées.
Pour une entré un neurone ayant une faible activation est dite neurone vainqueur et l'apprentissage ce fait par le
changement de poids de neurone vainqueur ainsi le poids de ces voisin le processus est répété pour tous les entré
et à la n en obtient une couche entrainé selon les entrées.
Le principe de l'algorithme est dans la gure le suivante :
5 L'algorithme SVM
C'est un algorithme de classication binaire (cas où il existe que deux classes) il appartient à la famille des
algorithmes de classication supervisée.
Leur principe consiste à travers d'un exemple qui contient deux catégorie de classes de trouvé l'hyperplan optimal
qui sépare le mieux les éléments de deux classe (cherché une classieur linéaire) de tel façon maximiser la distance
entre les deux classe et minimisé la distance entre l'élément de la classe et l'hyperplan optimal (voir gure 9).
5
Figure 9 L'hyperplan optimal (en rouge) avec la marge maximale. Les échantillons entourés sont des vecteurs
supports
Mais la majorité des problèmes ne sont pas linéaire dans ce cas le SVM change la dimension de problème elle utilise
une fonction noyau (polynomial , sigmoïde . . . ) pour augmenter l'espace an de visualisé les données et le séparé
(gure 10).
Figure 10 Séparation des données non linéaire avec SVM cas non linéaire
6 L'algorithme a priori
C'est un algorithme d'extraction des règles d'association le plus pertinente leur principe est le suivant :
génération de l'ensemble des items.
puis calculer les fréquences des ensembles des items.
on garde l'ensemble des items avec un support minimum (l'ensemble des items fréquents).
Voici un exemple de leur fonctionnement :
6
Figure 11 Un exemple avec l'algorithme a priori
7 L'algorithme de KNN
C'est un algorithme de classication supervisée. La méthode des K plus proches voisins (KNN) a pour but de
classier des points cibles (classe méconnue) en fonction de leurs distances par rapport à des points constituant un
échantillon d'apprentissage (c'est-à-dire dont la classe est connue a priori), l'algorithme choisir a partir les k points
le plus proches, le point cible est aecté à la classe qui contient la majorité de ces éléments.
Figure 12 Exemple de fonctionnement de la méthode des k-plus proches voisins pour des valeurs du paramètre
k = 5. On considère trois classes, w1, w2,w3
7
Les avantages Les inconvénients
C'est un algorithme facile a implémenté et facile
Le choix de K inuence sur le résultat.
a comprendre.
Il n'existe pas une méthode exacte pour
Permet de déterminé bien l'appartenance a un classe pour
le choix de K
une nouvelle donnée.
Table 8 Les avantages et les inconvénients de KNN
8 L'algorithme de k-means
C'est un algorithme de classication non supervisée qui cherche a minimisé une fonction objective (la distance entre
une donnée i et la centre de gravité d'une classe j)
Pc Pn
J= j=1 i=1 kxi − vj k2
leur principe est le suivant :
8
11 La classication hiérarchique
Étant données un ensemble des données comment construire des groupes dissimilaire le plus possible (degré de
séparabilité) et leur données des similaires au sein de groupe (degré de compacité) la solution de ce problèmes
c'est la classication hiérarchique qui appartient à la famille de classieur non supervisée et possède deux méthode
(classication hiérarchique ascendante et classication hiérarchique descendent) basé sur la mesure de distance
(euclidienne , distance de ward ) qui représente un degré de dissimilarité entre les données.
Les degrés de dissimilarité :
Le saut minimum retient le minimum des distances entre individus de C1 et C2 :
Le saut maximum est la dissimilarité entre les individus de C1 et C2 les plus éloignés :
Le lien moyen consiste à calculer la moyenne des distances entre les individus de C1 et C2 :
Avec n1 et n2 les eectifs des deux classes, G1 et G2 leurs centres de gravité respectifs
On distinct aussi deux type de la classication hiarchique :
9
indépendante de l'existence d'autres caractéristiques. Un fruit peut être considéré comme une pomme s'il est rouge,
arrondi, et fait une dizaine de centimètres. Même si ces caractéristiques sont liées dans la réalité, un classieur
bayésien naïf déterminera que le fruit est une pomme en considérant indépendamment ces caractéristiques de cou-
leur, de forme et de taille.
Selon la nature de chaque modèle probabiliste, les classieurs bayésiens naïfs peuvent être entraînés ecacement
dans un contexte d'apprentissage supervisé.
Et enn on peux conclure que le principe de classication bayésienne basé sur les probabilités conditionnel sachant
qu'il y a une indépendance entre les éléments et il prédire a partir des probabilités posteriori (les probabilités des
évènements passé) le future.
P (Xnew /Ck )P (Ck )
P (Ck /Xnew ) = P (Xnew )
N bdeslmentsdeCk
P (Ck ) = N btotaldesinstances
Qn
P (Xnew /Ck ) = i=1 P (xi /Ck )
13 L'algorithme Adaboost
C'est un algorithme de classication supervisée permet d'améliorer la performance de n'importe quel algorithme
d'apprentissage.Le principe de l'algorithme boostring est le suivant :
1. On obtient d'abord une première hypothèse h1 sur un sous-échantillon s1 d'apprentissage de taille m1 < m
(m étant la taille de S l'échantillon d'apprentissage disponible).
2. On apprend alors une deuxième hypothèse h2 sur un échantillon S2 de taille m2 choisi dans S − S1 dont la
moitié des exemples sont mal classés par h1.
3. On apprend nalement une troisième hypothèse h3 sur m3 exemples tirés dans S − S1 − S2 pour lesquels
h1 et h2 sont en désaccord.
L'hypothèse nale est obtenue par un vote majoritaire des trois hypothèses apprises :
10
Figure 13 Un exemple de l'application de Adaboost
11
Choisir un ensemble des données aléatoire S1
Choisir un sous ensemble des attribut de cet sous ensemble
construire un arbre de décision pour ce sous ensemble et prédire les solutions
Retourne a l'étape 1 est répété le processus jusqu'à la convergence.
Finalement voté la meilleur modèle.
Y =b
aX + bb
avec :
C
a = σxy
b 2
x
bb = y − b
ax
La de régression linéaire sert a minimisé les distances verticale des points a la droite.
12
Les avantages Les inconvénients
Problème de dénir la meilleur fonction qui sépare
Simple et facile.
le mieux les deux classes (il y a plusieurs fonction ).
Une bonne méthode dans le cas des deux classes bien
Applicable que dans le cas où il y a deux classes.
séparables.
Sensible aux données bruit
Table 14 Les avantages et les inconvénients de la régression linéaire
17 Analyse Discriminante
Analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des
groupes prédénis (classe) d'un ensemble d'observations (individus, exemples. . . ) à partir d'une série de variables
prédictives.
leur principe de fonctionnement est le suivant :
Étant donné n observation d'un couple (Y, X) pour le ie observation notée (Yi , Xi ), Yi est un label qui dénote
l'appartenance a un groupe j ∈ [1..g] et Xi ∈ RP est un ensemble de variable explicatives de l'appartenance a un
groupe (variable notée Y).
Si une nouvelle observation arrive, nous mesurons les variable explicatives, cette mesure notées x0 ∈ RP est nous
souhaitons connaitre son groupe y0 inconnue, comme nous savons pas avec certitude le groupe y0 , nous modélisons
cette incertitude par des probabilité d'appartenance a tel ou a tel groupe. Le modèle peut être représenté grâce a
la probabilité de théorème de bayes :
f (x0|y=j)P (Y =j)
P (Y = j|X = x0 = Pg f (x0 |y=j 0 )P (Y =j 0 )
∀j ∈ {1..., g} (1.1)
j 0 =1
La probabilité a priori des groupes j, noté P (Y = j) peut être calculé, il reste d'estimé la fonction de densité f.
P
f (x|y = j) ∼ N (uj , j)
13
correspond à un individu i, on aecte 1 à Zj(i,m) . Les autres valeurs de Zj sont nulles. Les p tableaux disjonctifs
sont alors concaténés en un tableau disjonctif complet.
A partir du tableau disjonctif complet sont calculées les coordonnées des modalités des variables qualitatives, ainsi
que les coordonnées des observations dans un espace de représentation optimal pour le critère d'inertie. Dans le
cas de l'analyse des Correspondances Multiples on montre que l'inertie est égale au nombre moyen de modalités
moins un. Elle ne dépend donc pas uniquement de l'association entre les variables.
14