Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
2. Le groupement (Clustering)
2.1. Principe de base
X2
X2
G1 G2 G3
X1
X1
Figure 4.1 Représentation des données selon
deux dimensions.
Figure 4.1 Représentation des groupements des
données.
Dansce cas, il faut savoir que la base de données est composée seulement par le nombre
d’observations (m) qui sont décrite par x1 et x2. Ainsi, la base de données est représentée par la
matrice suivante :
( ) ( ) ( )
𝑥 𝑥 ⋯ 𝑥
B=X= ⋮ ⋱ ⋮ avec dim(X)=[__________ ]
( ) ( ) ( )
𝑥 𝑥 ⋯ 𝑥
Dans cette matrice, on ne remarque aucune présence d’une variable de sortie y caractérisant les m
observations : c’est la principale différence avec l’apprentissage supervisé.
Remarque
Notons que dans le cas du clustering, on n’a pas établi des classes dans lesquelles on peut répartir les
m observations. Dans le cas où les classes sont définies dans la base de données, on parle alors de
classification.
C’est l’algorithme le plus répondu dans le clustering, c’est une technique d’exploration et d’analyse
des données. Elle permet de grouper les vecteurs caractéristiques en se basant sur le calcul des
distances euclidiennes. Ainsi, le groupement se base alors sur le calcul de la distance minimale entre
les vecteurs caractéristiques.
L’application de l’algorithme des K moyennes se résume principalement sur les étapes suivantes :
1- ________________________________________K.
2- ____________________________________________________________________.
3- Répéter les étapes suivantes jusqu’à atteindre la convergence (étape 4) :
Pour tous …………………………………………………. :
- Calculer les ……………………………….
- Trouver ……………………………………………………………….
- Affecter l’observation …………………………………………………………..
Pour tous les groupements j (de 1 jusqu’à K)
- Calculer
……………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………….
Oui
Non
x1 x2
1 1 1
2 1.5 2
3 3 4
4 5 7
5 3.5 5
6 4.5 5
7 3.5 4.5
Dans le cas où k=2, on prend aléatoirement 2 centroides (par exemple : m=1 et m=4).
G1= (1,1)
G2 =(5,7)
Itération 1 :
On calcule la distance de tous les points par rapport aux 2 centroides selon le tableau suivant :
Tableau 4.1 Calcul des distances entre les exemples et les centroides.
x1 x2 Distance par rapport à G1(1,1) Distance par rapport à G2(5,7)
1 1 1
2 1.5 2
3 3 4
4 5 7
5 3.5 5
6 4.5 5
7 3.5 4.5
A partir de ce tableau i, il faut sélectionner les exemples les plus proches à chaque centroide en se
basant sur le calcul de la distance. Les nouveaux centroides G1 et G2 ont les coordonnées suivantes
respectives :
- G1 ( , ) => G1( , )
- G2 ( , ) => G2( , )
Itération 2 :
Tableau 4.2 Calcul des distances entre les exemples et les nouveaux centroides de l’itération 2 .
x1 x2 Distance par rapport à G1( , ) Distance par rapport à G2( , )
1 1 1
2 1.5 2
3 3 4
4 5 7
5 3.5 5
6 4.5 5
7 3.5 4.5
Après calcul des distances, on remarque 2 nouveaux groupes différents des groupes précédents.
G1 ( , ) => G1( , )
G2 ( , ) => G2( , )
Itération 3 :
Tableau 4.3 Calcul des distances entre les exemples et les nouveaux centroides de l’itération 3.
x1 x2 Distance par rapport à G1(1.25 , 1.5) Distance par rapport à G2(3.9 , 5.1)
1 1 1
2 1.5 2
3 3 4
4 5 7
5 3.5 5
6 4.5 5
7 3.5 4.5
Après les calculs des distances, ce tableau montre qu’il n’y a aucun changement dansla composition
de chaque groupement des exemples. En conséquence, les centroides restent les mêmes et on
marque l’arrêt de l’algorithme.
Le principe de base d’un modèle de détection d’anomalies consiste à détecter un ou des échantillons
qui possèdent des caractéristiques différentes ou très éloignée des autres échantillons. Ce principe
permet de détecter les observations qui nuisent à la base de données lorsqu’elle est présentée pour
les modèles de régression ou pour les modèles de classification. Ce principe permet aussi de
développer des applications à des systèmes de sécurité, des systèmes de détection de fraudes
bancaire, des systèmes de détection de défaillances dans un processus de production, etc.
La figure ci-dessous montre un exemple de 2 anomalies détectées dans une base à 2 dimensions avec
15 échantillons.
Anomalie 2
X2
Anomalie 1
Aucune anomalie
X1
Généralement, les méthodes utilisées pour la détection des anomalies sont décrites selon 3
catégories : la première catégorie se base sur le calcul de la densité de probabilité, la deuxième se
base sur la distance entre les échantillons et la 3ème catégorie se base sur des critères mixtes.
Cette méthode se base sur le calcul des paramètres de la loi de Gauss (loi normale) de chaque
variable d’entrée. Ce calcul se base essentiellement sur la moyenne µ et la variance 𝜎 ou encore le
carré de l’écart type.
Cas d’une seule variable x1,
( )
⎡𝑥 ⎤
⎢ 𝑥( ) ⎥
⎢ ( )⎥
𝑋 = 𝑥 = ⎢𝑥 ⎥
⎢ . ⎥
⎢ . ⎥
⎢ ( )⎥
⎣𝑥 ⎦
Caractérisé par sa moyenne noté par 𝜇 et sa variance 𝜎 qui s’écrivent :
𝜇 = ⋯……………………
𝜎 = ⋯…………………
On peut écrire que 𝑥 ≈ 𝑁(𝜇, 𝜎 ) en d’autres termes : 𝑥 est distribuée selon la loi normale de
moyenne 𝜇 et de variance 𝜎 .
P(x1)
0 x1
𝜇
Figure 4.5 Représentation de la variation de la densité de probabilité de x1.
𝑃(𝑥, 𝜇, 𝜎 ) = ⋯ … … … … … … … … … … … … …
Exemple
P(x)
P(x)
𝜀
x
0 𝜇
__________
________________ ________
Figure 4.6 Représentation d’un exemple de dispersion d’échantillons selon une loi normal.
Si on fixe ε qui représente un seuil minimal de densité acceptée, on peut conclure que si :
( )
P(𝑥 ) ≤ ε, alors 𝑥 est considérée comme anomalie.
( ) ( )
Cette figure montre bien que les autres points 𝑥 → 𝑥 possèdent des densités de probabilités
supérieure à ε . Ce qui justifie leur conformité.
Dans le cas à plusieurs variables xi l’estimation de la densité de probabilité reste la même. Dans le cas
d’une base de données à 2 variables, la matrice d’entrée XB s’écrit comme suit :
( ) ( )
⎡𝑥 𝑥 ⎤
⎢ 𝑥( )
𝑥
( )⎥
⎢ ( )
⎥ ( )
XB = ⎢ 𝑥 𝑥 ⎥
⎢ . . ⎥
⎢ . . ⎥⎥
⎢ ( ) ( )
⎣𝑥 𝑥 ⎦
3,5
3
2,5
2
X2
1,5
1
0,5
0
0 0,5 1 1,5 2 2,5
X1
𝑥 ≈ ⋯……………
𝑥 ≈ ⋯…………
𝑥 ~……………
⎧𝑥 ~ … … … … . .
⎪
⎪ .
⎨ .
⎪
⎪ .
⎩ 𝑥 ~ … ……….
𝑃(𝑥) = ___________________________________________
… … … … … … … … … … … … … … … … … … … ..
Avec
∑ 𝑖 = 1 + 2 + 3 + ⋯+ 𝑁 et∏ 𝑖 = 1∗ 2∗ 3∗…∗𝑁
( ) ( ) ( )
𝑥
⎡𝑥 𝑥 ⎤
( )⎥
⎢ 𝑥( )
𝑥
( )
𝑥
⎢ ( ) ( )
⎥
( )
1. Choisir la base de donnée X= ⎢ 𝑥 𝑥 ……. 𝑥 ⎥
⎢ . . . ⎥
⎢ (. . . ⎥⎥
) ( ) ( )
⎣𝑥 𝑥 𝑥 ⎦
2. Calculer les paramètres des densités de distributions 𝝁𝒋 𝒆𝒕 𝝈𝟐 𝒋
Selon les formulations suivantes :
𝜇 =
𝜎 =
𝜇 𝜎
⎡𝜇 ⎤ ⎡ ⎤
⎢ . ⎥ ⎢𝜎 ⎥
.
𝜇=⎢ . ⎥ et 𝜎 = ⎢ ⎥
⎢ ⎥ ⎢ . ⎥
⎢ . ⎥ ⎢ . ⎥
⎣𝜇 ⎦ ⎣𝜎 ⎦
3. Calculer la densité de probabilité du nouveau point :
… … … … … … … … … … … … … … … … ….
………………………………
𝑃 𝑋(𝑛𝑒𝑤) = ⋯ … … … … … … … … … … … … … … … . … … ..
X1 X2
0,9 2,7
1,8 3,1
1,95 1,5
1,9 1,8
1,7 1,7
1,65 2,5
0,95 1,6
1,1 1,8
1,5 2,2
1,4 2,6
1,05 2,6
1,15 2,5
1,6 1,68
1,5 1,48
1,35 1,9
On fixe ε=0.02=2%
D’après ce tableau, les valeurs des moyennes de X1 et X2 ainsi leurs écartypes sont :
X1 X2
Moyenne (𝜇 )
Ecartype (𝜎 )
Pour les nouvelles entrées comme suit :
𝑃(𝑥) = ______________________
On peut conclure que _____________________________ est considéré comme une anomalie dans la
base puisque sa probabilité est inférieure au seuil minimal ε.
Remarque
Dans le cas où les descripteurs des entrées ne sont pas décrit par une loi normale, on utilise des
astuces mathématiques qui se résument principalement sur un changement de variabletel que :
log(x), log(x+1) ou log(x+C) avec C est une constante. On peut aussi utilisé les racines de x comme
x(1/2), x(1/3) ou x(1/α).
𝑃(𝑥 , 𝜇, ∑ ) =
Avec :
𝜇
⎡𝜇 ⎤
⎢ . ⎥
𝜇=⎢ . ⎥ avec : 𝜇 = ⋯ … … ….
⎢ ⎥
⎢ . ⎥
⎣𝜇 ⎦
∑ Matrice de covariance de X
= … … … … … ..
……………………………………..
Sachant que dans le cas général où les variables sont standardisées, la matrice de covariance de Z se
calcule comme suit :
1
𝑐𝑜𝑣(𝑍) = 𝑍 𝑍
𝑚
𝝈𝟐 𝐶1 𝐶2 𝐶3
⎡ 𝟏 𝟐
⎤
⎢ 𝐶1 𝝈 𝟐 𝐷1 𝐷2 ⎥
⎢ 𝐸1 ⎥⎥
⎢𝐶2 𝐷1 𝟐
⎣𝐶3 𝐷2 𝐸1 𝝈𝒏𝑬 ⎦
3.4.2. Algorithme de la méthode :
- La matrice de covariance :
𝑃(𝑥) =
Les deux formulations des deux méthodes étudiées pour la détection d’anomalie sont :
𝑃(𝑥) =
𝑃 𝑥; 𝜇; =
Ces deux modèles sont égaux lorsqu’on n’a pas de corrélation entre les variables 𝑥 .En d’autres
termes, si la matrice de covariance s’écrit comme suit :
⎡ ⎤
𝜎 0 0 0 …. 0
⎢ ⎥
⎢ 0 𝜎 0 . …. 0 ⎥
=⎢ 0 0 𝜎 0….. 0 ⎥
⎢ . . . . . . ⎥
⎢ . . . . . . ⎥
⎣ 0 0 0 0 𝜎 ⎦
Le tableau suivant résume les avantages et les inconvénients du modèle original et le modèle
généralisé.
(+) (+)
(-)___________________________________
4. La réduction de dimensions
4.1. Principe
La réduction de la dimension consiste à diminuer la dimension de la base de données dans le but est
de simplifier la structure de la base tout en gardant les principales informations. La principale
application de cet objectif consiste à simplifier la complexité que présente une base de données ce
qui facilite d’une façon considérable la convergence de l’apprentissage des modèles utilisés dans la
régression ou dans la classification d’une part et d’autres part, de diminuer le risque de sur
apprentissage des modèles (over fitting).
X= devient Xred=
X est de dimension [m, nE ]devient une nouvelle matrice noté par Xred de dimension [m, n’E ]. Avec nE>
n’E.
4.2. Algorithme de l’analyse de la composante principale
L’algorithme le plus utilisé dans la majorité des applications est l’algorithme de l’analyse en
composante principale ACP (ou PCA principal component analysis). Le principe consiste à projeter les
données sur des axes appelés composantes principales en cherchant à minimiser la distance entre les
points et leurs projections.
X2 X2 X2
Axe 3
Axe 2
Axe1
X1 X1 X1
Pour appliquer ce raisonnement et pour trouver les axes de projection optimale il faut :
Généralement cet algorithme est un module classique intégré dans tous les logiciels mathématiques
que ce soit, Python, Matlab ou autres. Toutefois, l’application de la méthode PCA doit tenir en
compte la notion de variabilité ou de la variance conservée. Cette caractéristique est un indicateur
de représentativité de la base initiale.
Généralement la variance à conserver varie entre 95% et 99% : moins la variance conservée est faible
moins le nombre de dimension est réduit. La figure ci-dessous montre l’allure de variation de la
variabilité de la variance en fonction du nombre des composantes.
Variabilité
1
Nbre de composante
Remarques
Il faut savoir que
Cet algorithme utilise que des données standardisées. Il est donc impératif de normaliser la
base de données en fonction de la moyenne et de l’écart type de chaque variable selon
l’expression suivante :
𝑥 −𝜇
𝑥 =
𝜎
Les principaux avantages de la méthode PCA se concentrent sur :
______________________________________
______________________________________.
Les principaux inconvénients de cette méthode sont résumés aux points suivants :
____________________________________________________________
____________________________________________________________________________
___________________________________________________________________________.
X2
X1