Vous êtes sur la page 1sur 65

Chapitre 4: Méthodes

d’apprentissage Non-Supervisées
Machine Learning in Cyber Security
WIEM TRABELSI- AMAL TARIFA
W I E M . T R A B E L S I @ E S P R I T. T N
TECHNOLOGUE EN SYSTÈMES INTELLIGENTS ET DÉCISIONNELS
SEGMENTATION
MÉTHODE DES CENTRES MOBILES
Segmentation – Objectifs
 chercher la présence de sous-groupes homogènes, possédant des caractéristiques semblables.

 construire les sous-ensembles des individus les « plus » semblables.

 obtenir la meilleur façon de découper/partitionner/regrouper les individus.

 mieux expliquer ou synthétiser les données en ajoutant une nouvelle variable qualitative.

 préparer l’analyse prédictive : Classification ou Scoring.


Segmentation – Applications
Segmentation – Sécurité
Profiling
Segmentation – Sécurité
Observations atypiques
K-means – Algorithme
ALGORITHME k-means
Entrée : nombre de groupes cherchés = k
DEBUT

Choisir k centres des groupes aléatoirement


REPETER
Affecter chaque individu au groupe dont il est le plus proche au son centre.

Recalculer les k nouveaux centres des groupes obtenus.


JUSQU’À stabilisation des centres
FIN
Simulation
k-means
- Illustration de l’information
quantitative à segmenter.

- Chaque individu est représenté par


un point dans l’espace
multidimensionnel.
Simulation
k-means
- Illustration de l’information
quantitative à segmenter.

- Chaque individu est représenté par


un point dans l’espace
multidimensionnel.
Simulation
k-means
- Nombre de groupes cherchés = 2.

- Choisir aléatoirement deux


centroïdes.
Simulation
k-means
- Pour chaque individu = point,
calculer la distance qui lui sépare
des 2 centroïdes.

- Selon la valeur de la distance, on


affecte chaque individu au groupe
dont il est le plus proche.
Simulation
k-means
Fin de la première itération.
Simulation
k-means
- Tous les individus sont affectés aux
nouveaux groupes.

- La nouvelle variable qualitative


prend toutes ses valeurs sur la
totalité de l’échantillon de
données.
Simulation
k-means
- On a deux groupes, on recalcule les
nouveaux centroïdes.

- Les centres choisis aléatoirement


ne sont plus utiles.
Simulation
k-means
Deuxième itération :

- Refaire le même travail en prenant en


considération les nouveaux centroïdes
calculés.
Simulation
k-means
Deuxième itération :
Simulation
k-means
Deuxième itération :
Simulation
k-means
K-means – Critère d’évaluation
K-means – Critère d’évaluation
K-means – Critère d’évaluation - Compromis
Inertie totale : somme de l’inertie intraclasse et de l’inertie interclasse

Itot= Iintra + Iinter


Iintra : somme des inerties totales de chaque classe
Iinter : moyenne des carrés des distances des barycentres de chaque classe au barycentre global
K-means – Critère d’évaluation
Stabilisation de l’inertie totale : Itot

Iinter

Iintra
K-means – Points faibles
Le choix du nombre de groupes est subjectif dans le cas où le nombre de classes est

inconnu au sein de l’échantillon.

L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale

correspondant à la fonction objective minimale.

Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des

centres.
d(i, j) = (| xi1  x j1 | + | xi 2  x j 2 | +...+ | xip  x jp | )
2 2 2

Exercice
d’application
Soit le tableau contenant 7 individus

caractérisés par 2 variables.

On souhaite construire deux groupes

homogènes à partir de ces individus.

On propose de commencer
la construction à partir des deux
groupes du tableau 2.

Continuer la construction des groupes


en utilisant la distance euclidienne
pour mesurer la similarité entre
individus.
Correction
première itération
Correction
deuxième itération
SEGMENTATION
CLASSIFICATION ASCENDANTE HIERARCHIQUE
CAH – Principe Algorithmique
i. Créer à chaque étape une partition obtenue en agrégeant 2 à 2 les éléments les plus proches ! -- Eléments : individus

ou groupe d’individus

ii. L’algorithme fournit une hiérarchie de partitions : arbre contenant l’historique de la classification et permettant de

retrouver n-1 partitions.

iii. Nécessité de se munir d’une métrique de distance (distance euclidienne, chi2, Ward…)

iv. Nécessité de fixer une règle pour agréger un individu et un groupe d’individus (ou bien 2 groupes d’individus)
Le dendrogramme
 Durant les étapes d’un algorithme de classification hiérarchique, on est en train de construire un dendrogramme.

 Le dendrogramme indique les objets et classes qui ont été fusionnés à chaque itération.

 Le dendrogramme indique aussi la valeur du critère choisi pour chaque partition rencontrée.

1. Il donne un résumé de la classification hiérarchique

2. Chaque palier correspond à une fusion de classes

3. Le niveau d’un palier donne une indication sur la qualité de la fusion correspondante

4. Toute coupure horizontale correspond à une partition


n individus / n classes

Simulation 1
CAH 3
2
- Illustration de l’information
quantitative à segmenter. 4
- Chaque individu est représenté par
un point dans l’espace
multidimensionnel.

On construit la matrice de distance entre les n éléments


et on regroupe les 2 éléments les plus proches
n -1 classes

3
Simulation 2

CAH 4

- Matrice de distance 2 à 2 déjà


construit.

- Aggréger les deux individus les 5


plus proches.
1

Simulation 3
2
CAH 4
- Comment mesurer la distance
entre une classe et un élément

individuel ? 5
- Critères des centres de gravité, de la C1
distance minimale, maximale,
critère de Ward…
1 2
n -2 classes
1

3
Simulation 2

CAH 4

- Comment mesurer la distance


entre une classe et un élément

individuel ? 5 C2
C1
- Critères des centres de gravité, de la
distance minimale, maximale,
critère de Ward… 1 2 3 4
1

3
2
Simulation
4
CAH
- Comment mesurer la distance
entre une classe et un élément

individuel ? 5
n -3 classes C3
- Critères des centres de gravité, de la
distance minimale, maximale,
critère de Ward… C2
C1

1 2 3 4 5
C4
C3
Simulation
CAH C2
- Comment mesurer la distance C1
entre une classe et une autre
1
classe ? 3
1 2 3 4 5

2
- Critères des centres de gravité, de la
distance minimale, maximale,
critère de Ward… 4

n -4 classes
5
1

3
2
obtention 4
des Classes 2 classes
- Comment choisir le nombre de

classe à retenir ? 5
- Où faut-il faire la coupe?

1 2 3 4 5

classes1 classes2
1

3
2
obtention 4
des Classes 3 classes
- Comment choisir le nombre de

classe à retenir ? 5
- Où faut-il faire la coupe?

1 2 3 4 5

classes1 classes2 classes3


6

Exercice de 5
dendrogramme
4
On considère l’exemple suivant:

3
Proposer les eventuelles
segmentation possibles
2

1
6

À un niveau de 5, il ne reste que 2 classes


Exemple de 5
dendrogramme
4
On « coupe » l'arbre là où les
branches sont les plus longues
3

Maximiser l’inertie inter- 2


classe!

1
la hauteur d’une branche est proportionnelle à la perte d’inertie interclasse

Exercice de 5
dendrogramme
On « coupe » l'arbre là où les 4
branches sont les plus longues

3
Si on fixe un niveau de 3 (si on exige une distance
Maximiser l’inertie inter-
classe! 2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes

1
6

À un niveau de 5, il ne reste que 2 classes


Exercice de 5
dendrogramme
On « coupe » l'arbre là où les 4
branches sont les plus longues

3
Si on fixe un niveau de 3 (si on exige une distance
Maximiser l’inertie inter-
classe! 2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes

1
Des Clusters au Dendrogramme
5
1
3
0.2

5
2 1 0.15

2 3 6 0.1

0.05

4 0
3 6 2 5 4 1
4

Nested Clusters Dendrogram


ASSOCIATIVITE
MÉTHODE APRIORI
Associativité – Objectifs
 Rechercher les associations consiste à rechercher les règles du type :

« SI pour une connexion, la variable A = Xa, la variable B = Xb, etc, ALORS, dans 80% des cas,
la variable Z = Xz, cette configuration se rencontrant pour 30 % des connexions »

 Repérer des règles liant les données avec un bon niveau de probabilité
 découverte de relations intéressantes entre les caractéristiques des connexions.
 généralisation des dépendances fonctionnelles.

 Mettre en évidence les items : les caractéristiques, présents ensembles.

 Transcrire la connaissance sous forme de règles d’association ayant la forme :


< si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] >
Associativité – Applications
Associativité – Sécurité
Associativité – Sécurité
Pertinence des associations – Support
 indicateur de « fiabilité »
Support  probabilité absolue P(X U Y)
 ||X U Y||/ ||BD|| = % de transactions vérifiant l’association

Confiance

LIFT
Pertinence des associations – Confiance
Support
 Indicateur de « précision »
Confiance  probabilité conditionnelle P(Y/X)
 ||X U Y||/||X|| = % de transactions vérifiant l'implication
LIFT
Pertinence des associations – LIFT
Support

Confiance
 Mesure d’intérêt d’une règle.
LIFT
 lift (règle) = confiance (règle) / support (résultat)
 Interprétation du lift :
- Un lift supérieur à 1 : Indique une corrélation positive
- Un lift de 1 indique une corrélation nulle
- Un lift inférieur à 1 : Indique une corrélation négative
Exercice

À partir de ces quatre chariots :


donner pour chaque règle les valeurs
des indicateurs :

- Support
Règle Support Confiance LIFT
- Confiance

- LIFT

&
Réponses

Règle Support Confiance LIFT

2/4 2/3 2/3 / ¾

& 1/4 1/2


½/¾
Méthode « apriori »
Fixer un seuil de l’indicateur support Smin

Chercher l’ensemble des combinaisons d’items les plus fréquentes vérifiant Smin

Construire les sous-ensembles d’items les plus fréquents selon un seuil de l’indicateur confiance Cmin

Déterminer les règles associatives vérifiant Cmin

Extraire les règles associatives les plus pertinentes


(selon la valeur du LIFT)
On commence par chercher la
fréquence de chaque item Item nombre
On ne garde que les items ayant une 206.163.37.95 3
valeur de support strictement plus
grande que le seuil min fixé au début 139 3
Attack = NO 4
160.94.179.223 1
160.94.179.217 1
160.94.179.255 1
192 3
180 1
Item nombre
206.163.37.95 3
139 3
Attack = NO 4
192 3

On cherche les combinaisons de deux


items (Item1, Item2) Nombre
On ne garde que les combinaisons (206.163.37.95, 139) 2
d’items ayant une valeur de support
strictement plus grande que le seuil (206.163.37.95, Attack = NO) 3
min fixé au début
(206.163.37.95, 192) 2
(139, Attack = NO) 3
(139, 192) 2
(192, Attack = NO) 3
(Item1, Item2) Nombre
(206.163.37.95, Attack = NO) 3
(139, Attack = NO) 3
(192, Attack = NO) 3

On cherche les combinaisons de trois


items (Item1, Item2, Item3) Nombre
On ne garde que les combinaisons (206.163.37.95, Attack = NO, 192) 2
d’items ayant une valeur de support
strictement plus grande que le seuil (206.163.37.95, Attack = NO, 139) 2
min fixé au début
(139, Attack = NO, 192) 2
(206.163.37.95, 139, 192) 1

Aucune règle possible avec 3 items


(Item1, Item2) Règles
Construction
des règles (206.163.37.95, Attack = NO) 206.163.37.95 → Attack = NO
Attack = NO → 206.163.37.95
associatives
Pour évaluer les règles construites, il
faut calculer pour chacune la valeur de
la confiance.
(139, Attack = NO) 139 → Attack = NO
Attack = NO → 139

(192, Attack = NO) 192 → Attack = NO


Attack = NO → 192
Règles Confiance
Evaluation
des règles 206.163.37.95 → Attack = NO 1

associatives
Attack = NO → 206.163.37.95
Calcul de la valeur de l’indicateur 0,75
confiance pour chaque règle.
139 → Attack = NO 1

Attack = NO → 139
0,75

192 → Attack = NO 1

Attack = NO → 192
0,75
Règles Confiance LIFT
Extraction
des règles
associatives les 206.163.37.95 → Attack = NO 1 1/1 = 1

plus intéressantes
Attack = NO → 206.163.37.95
- Calculer la valeur de l’indicateur LIFT 0,75 0,75/0,75 = 1
pour les règles sélectionnées selon le
seuil de la confiance.
139 → Attack = NO 1 1/0,75 = 1,33

Attack = NO → 139
0,75 0,75/0,75 = 1

192 → Attack = NO 1 1/1 = 1

Attack = NO → 192
0,75 0,75/0,75 = 1
Exercice d’application
Analyse
du chariot

TICKET 1 TICKET 2 TICKET 3 TICKET 4


On considère les quatre tickets de Farine
caisse : Farine Œuf Œuf
Sucre Sucre Œuf Chocolat
Sachant qu’on décide de retenir un
taux de support de 30% Lait Chocolat Sucre Thé
1. Donner les sous-ensembles Chocolat
d’items les plus fréquents.

2. Construire et évaluer les règles


d’associations possibles (on ne
gardera que celles ayant une
confiance parfaite).

3. Citer les règles intéressantes.


TICKET 1 TICKET 2 TICKET 3 TICKET 4

Correction Farine
Sucre
Œuf
Sucre
Farine
Œuf
Œuf
Chocolat
Analyse Lait Chocolat Sucre Thé
du chariot Chocolat

item1 nombre
Construction de l’ensemble des items Farine 2
les plus fréquents selon la valeur du
support fixée Sucre 3
Lait 1
Œuf 3
Chocolat 3
Thé 1
TICKET 1 TICKET 2 TICKET 3 TICKET 4

Correction Farine
Sucre
Œuf
Sucre
Farine
Œuf
Œuf
Chocolat
Analyse Lait Chocolat Sucre Thé
du chariot Chocolat

item1 item2 nombre


Construction du sous-ensemble des
combinaisons de deux items les plus Farine Sucre 2
fréquents selon la valeur du support
fixée Farine Œuf 1
Farine Chocolat 1
Sucre Œuf 2
Sucre Chocolat 2
Œuf Chocolat 3
TICKET 1 TICKET 2 TICKET 3 TICKET 4

Correction Farine
Sucre
Œuf
Sucre
Farine
Œuf
Œuf
Chocolat
Analyse Lait Chocolat Sucre Thé
du chariot Chocolat

Construction du sous-ensemble des


combinaisons de trois items les plus
fréquents selon la valeur du support item1 item2 item3 nombre
fixée
Farine Sucre Œuf 1
Farine Sucre Chocolat 1
Sucre Œuf Chocolat 2
Correction Sous-ensemble
Farine, Sucre
Règle
Farine → Sucre
Support
2/4
Confiance
2/2
Analyse Sucre → Farine 2/4 2/3
du chariot Sucre, Œuf Sucre → Œuf 2/4 2/3
Œuf → Sucre 2/4 2/3
Sucre, Chocolat Sucre → Chocolat 2/4 2/3
Construction et évaluation des règles Chocolat → Sucre 2/4 2/3
selon la valeur de la confiance. Œuf, Chocolat Œuf → Chocolat 3/4 3/3
Chocolat → Œuf 3/4 3/3
Sucre, Œuf, Chocolat Sucre → Œuf + Chocolat 2/4 2/3
Œuf + Chocolat → Sucre 2/4 2/3
Œuf → Sucre + Chocolat 2/4 2/3
Sucre + Chocolat → Œuf 2/4 2/2
Chocolat → Sucre + Œuf 2/4 2/3
Sucre + Œuf → Chocolat 2/4 2/3
Correction
Analyse
du chariot Sous-ensemble Règle Confiance Lift

Farine, Sucre Farine → Sucre 2/2 4/3

Tableau des règles intéressantes. Œuf, Chocolat Œuf → Chocolat 3/3 4/3

Œuf, Chocolat
Chocolat → Œuf 3/3 4/3

Sucre, Œuf, Chocolat


Sucre + Chocolat → Œuf 2/4 2/2

Vous aimerez peut-être aussi