d’apprentissage Non-Supervisées
Machine Learning in Cyber Security
WIEM TRABELSI- AMAL TARIFA
W I E M . T R A B E L S I @ E S P R I T. T N
TECHNOLOGUE EN SYSTÈMES INTELLIGENTS ET DÉCISIONNELS
SEGMENTATION
MÉTHODE DES CENTRES MOBILES
Segmentation – Objectifs
chercher la présence de sous-groupes homogènes, possédant des caractéristiques semblables.
mieux expliquer ou synthétiser les données en ajoutant une nouvelle variable qualitative.
Iinter
Iintra
K-means – Points faibles
Le choix du nombre de groupes est subjectif dans le cas où le nombre de classes est
centres.
d(i, j) = (| xi1 x j1 | + | xi 2 x j 2 | +...+ | xip x jp | )
2 2 2
Exercice
d’application
Soit le tableau contenant 7 individus
On propose de commencer
la construction à partir des deux
groupes du tableau 2.
ou groupe d’individus
ii. L’algorithme fournit une hiérarchie de partitions : arbre contenant l’historique de la classification et permettant de
iii. Nécessité de se munir d’une métrique de distance (distance euclidienne, chi2, Ward…)
iv. Nécessité de fixer une règle pour agréger un individu et un groupe d’individus (ou bien 2 groupes d’individus)
Le dendrogramme
Durant les étapes d’un algorithme de classification hiérarchique, on est en train de construire un dendrogramme.
Le dendrogramme indique les objets et classes qui ont été fusionnés à chaque itération.
Le dendrogramme indique aussi la valeur du critère choisi pour chaque partition rencontrée.
3. Le niveau d’un palier donne une indication sur la qualité de la fusion correspondante
Simulation 1
CAH 3
2
- Illustration de l’information
quantitative à segmenter. 4
- Chaque individu est représenté par
un point dans l’espace
multidimensionnel.
3
Simulation 2
CAH 4
Simulation 3
2
CAH 4
- Comment mesurer la distance
entre une classe et un élément
individuel ? 5
- Critères des centres de gravité, de la C1
distance minimale, maximale,
critère de Ward…
1 2
n -2 classes
1
3
Simulation 2
CAH 4
individuel ? 5 C2
C1
- Critères des centres de gravité, de la
distance minimale, maximale,
critère de Ward… 1 2 3 4
1
3
2
Simulation
4
CAH
- Comment mesurer la distance
entre une classe et un élément
individuel ? 5
n -3 classes C3
- Critères des centres de gravité, de la
distance minimale, maximale,
critère de Ward… C2
C1
1 2 3 4 5
C4
C3
Simulation
CAH C2
- Comment mesurer la distance C1
entre une classe et une autre
1
classe ? 3
1 2 3 4 5
2
- Critères des centres de gravité, de la
distance minimale, maximale,
critère de Ward… 4
n -4 classes
5
1
3
2
obtention 4
des Classes 2 classes
- Comment choisir le nombre de
classe à retenir ? 5
- Où faut-il faire la coupe?
1 2 3 4 5
classes1 classes2
1
3
2
obtention 4
des Classes 3 classes
- Comment choisir le nombre de
classe à retenir ? 5
- Où faut-il faire la coupe?
1 2 3 4 5
Exercice de 5
dendrogramme
4
On considère l’exemple suivant:
3
Proposer les eventuelles
segmentation possibles
2
1
6
1
la hauteur d’une branche est proportionnelle à la perte d’inertie interclasse
Exercice de 5
dendrogramme
On « coupe » l'arbre là où les 4
branches sont les plus longues
3
Si on fixe un niveau de 3 (si on exige une distance
Maximiser l’inertie inter-
classe! 2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1
6
3
Si on fixe un niveau de 3 (si on exige une distance
Maximiser l’inertie inter-
classe! 2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1
Des Clusters au Dendrogramme
5
1
3
0.2
5
2 1 0.15
2 3 6 0.1
0.05
4 0
3 6 2 5 4 1
4
« SI pour une connexion, la variable A = Xa, la variable B = Xb, etc, ALORS, dans 80% des cas,
la variable Z = Xz, cette configuration se rencontrant pour 30 % des connexions »
Repérer des règles liant les données avec un bon niveau de probabilité
découverte de relations intéressantes entre les caractéristiques des connexions.
généralisation des dépendances fonctionnelles.
Confiance
LIFT
Pertinence des associations – Confiance
Support
Indicateur de « précision »
Confiance probabilité conditionnelle P(Y/X)
||X U Y||/||X|| = % de transactions vérifiant l'implication
LIFT
Pertinence des associations – LIFT
Support
Confiance
Mesure d’intérêt d’une règle.
LIFT
lift (règle) = confiance (règle) / support (résultat)
Interprétation du lift :
- Un lift supérieur à 1 : Indique une corrélation positive
- Un lift de 1 indique une corrélation nulle
- Un lift inférieur à 1 : Indique une corrélation négative
Exercice
- Support
Règle Support Confiance LIFT
- Confiance
- LIFT
&
Réponses
Chercher l’ensemble des combinaisons d’items les plus fréquentes vérifiant Smin
Construire les sous-ensembles d’items les plus fréquents selon un seuil de l’indicateur confiance Cmin
associatives
Attack = NO → 206.163.37.95
Calcul de la valeur de l’indicateur 0,75
confiance pour chaque règle.
139 → Attack = NO 1
Attack = NO → 139
0,75
192 → Attack = NO 1
Attack = NO → 192
0,75
Règles Confiance LIFT
Extraction
des règles
associatives les 206.163.37.95 → Attack = NO 1 1/1 = 1
plus intéressantes
Attack = NO → 206.163.37.95
- Calculer la valeur de l’indicateur LIFT 0,75 0,75/0,75 = 1
pour les règles sélectionnées selon le
seuil de la confiance.
139 → Attack = NO 1 1/0,75 = 1,33
Attack = NO → 139
0,75 0,75/0,75 = 1
Attack = NO → 192
0,75 0,75/0,75 = 1
Exercice d’application
Analyse
du chariot
Correction Farine
Sucre
Œuf
Sucre
Farine
Œuf
Œuf
Chocolat
Analyse Lait Chocolat Sucre Thé
du chariot Chocolat
item1 nombre
Construction de l’ensemble des items Farine 2
les plus fréquents selon la valeur du
support fixée Sucre 3
Lait 1
Œuf 3
Chocolat 3
Thé 1
TICKET 1 TICKET 2 TICKET 3 TICKET 4
Correction Farine
Sucre
Œuf
Sucre
Farine
Œuf
Œuf
Chocolat
Analyse Lait Chocolat Sucre Thé
du chariot Chocolat
Correction Farine
Sucre
Œuf
Sucre
Farine
Œuf
Œuf
Chocolat
Analyse Lait Chocolat Sucre Thé
du chariot Chocolat
Tableau des règles intéressantes. Œuf, Chocolat Œuf → Chocolat 3/3 4/3
Œuf, Chocolat
Chocolat → Œuf 3/3 4/3