Détection Port Scan Tentatives Avec L'analyse Comparative de L'apprentissage Profond Et Vecteur de Soutien

Congrès international sur le Big Data, l'apprentissage en profondeur et la lutte contre le terrorisme Cyber Ankara, Turquie, 3 au 4 déc 2018
Détection Port scan tentatives avec l'analyse comparative de

l'apprentissage profond et vecteur de soutien
Les algorithmes de la machine
Dogukan AKSU M. Ali Aydin

Département d'ingénierie informatique Département d'ingénierie informatique
Istanbul University-Cerrahpasa Istanbul University-Cerrahpasa
Istanbul, Turquie Istanbul, Turquie
d.aksu@istanbul.edu.tr aydinali@istanbul.edu.tr
Abstrait -Par le passé, l'évolution de l'ordinateur une explication des matériaux utilisés et des méthodes. Les résultats
et les technologies de communication ont fourni des changements importants et expérimentaux des algorithmes classi fi cation et la performance surements me-
avancés. L'utilisation des nouvelles technologies offrent de grands béné fi ciaires aux
ont été introduites à l'article 4. L'article 5 fourni conclusion et travaux futurs.
particuliers, aux entreprises et aux gouvernements, cependant, il provoque des
problèmes contre eux. Par exemple, la confidentialité des informations importantes, la
sécurité des plates-formes de données stockées, la disponibilité des connaissances,
II. L ITERATURE R EVISION
etc. En fonction de ces problèmes, le cyber-terrorisme est l'un des problèmes les plus
importants dans le monde d'aujourd'hui. terreur Cyber, ce qui a causé beaucoup de concepts de sécurité de l'information se composent de l'homme, la période, la
problèmes aux particuliers et aux institutions, a atteint un niveau qui pourrait menacer
méthodologie, la connaissance, le système et la technologie comme le montre la
la sécurité publique et le pays par divers groupes tels que organi- sations criminelles,
figure 1. La confidentialité, l'intégrité et l'accessibilité doivent être fournis par un
les personnes professionnelles et cyberactivistes. Ainsi, les systèmes de détection
d'intrusion (IDS) ont été mis au point pour éviter les cyber-attaques. Dans cette étude, système sécurisé. Tout d'abord, la con fi dentiel des moyens d'information permettant
l'accès uniquement à la personne qui a besoin d'accéder à ces informations. En
second lieu, l'intégrité de l'information veille à ce que les informations soient protégées
sans distorsion et la structure d'origine est intact. Enfin, l'accessibilité de l'information
est la possibilité d'accéder et d'utiliser des informations au moment voulu.
Conditions Index -Cyber Terror, IDS, apprentissage en profondeur, SVM, CI-

CIDS2017
I. I NTRODUCTION
Les crimes informatiques continuent d'augmenter au fil des ans. Ils ne sont pas seulement
limités aux actes insigni fi catifs tels que l'estimation des informations de connexion d'un
système, mais ils sont aussi beaucoup plus dangereux.
la sécurité de l'information est le processus de protection des informations des accès

non autorisés, l'utilisation, la divulgation, la destruction, la modi fi cation ou des dommages.
Les termes « sécurité de l'information », « sécurité informatique » et « l'assurance de
l'information » sont souvent utilisés de façon interchangeable. Ces domaines sont liés les Fig. 1. concepts de sécurité de l'information [3].
uns aux autres et ont des objectifs communs pour assurer la disponibilité, con fi dentiel, et
l'intégrité des informations. Des études montrent que l'étape de première d'une attaque est Comme est signi fi é par Staniford et al, il y a eu le travail en plus limité sur
découverte [1]. La reconnaissance est faite afin d'obtenir des informations sur le système étonnement la question de la détection des scans de ports [4]. Robertson et al. utilisé une
dans ce stade. Trouver une liste des ports ouverts dans un système fournit des informations méthode de seuil pour détecter les tentatives de connexion ont échoué [5].
très critique pour un attaquant. Pour cette raison, il y a beaucoup d'outils pour identifier les
ports ouverts [2] tels que les antivirus et IDS. Analyse discriminante linéaire (LDA) et principal Compo- nent l'analyse (PCA)
ont été appliquées par Ibrahimi et Ouaddane pour identifier l'intrusion avec jeu de
données NSL-KDD [6]. conséquences des jeux de données com- comparatives
Dans ce travail, l'apprentissage en profondeur et des algorithmes d'apprentissage machine KDD99 et UNSW-NB15 analyse des comportements du réseau ont été montré par
SVM ont été appliquées pour créer des modèles IDS pour détecter le port scan attempts.The Moustafa et Slay [7]. Liuying et al. détectée et classi fi ed motifs malveillants en tra fi
modèles ont été présentés relativement. c réseau sur la base de l'ensemble de données KDD99 [8]. Naive Bayes et analyse
Nous avons catégorisé les autres parties du document comme suit: un examen a été en composantes principales (ACP) ont été
présenté textes spécialisés dans la section 2. L'article 3 présenté
978-1-7281-0472-0 / 18 / 31,00 $ © 2018 IEEE
IBIGDELFT2018 77
utilisé avec l'ensemble de données KDD99 par Almansob et Lomte [9]. De même, TABLEAU I
UNE EXEMPLE DE RECORDS DE SET DATASET [12]
PCA, SVM et KDD99 ont été utilisés Chithik et Rabbani pour IDS [10]. Dans le
document de Aljawarneh et al., Leur analyse et les expériences ont été réalisées sur Source IP Source Port Durée Débit total Fwd Packets
la base du jeu de données NSL- KDD pour leur modèle IDS [11]. 192.168.10.12 35396 1266342 41
192.168.10.16 60058 1319353 41
192.168.10.12 35396 160 1
Des études montrent que la littérature ensemble de données KDD99 est toujours utilisé 192.168.10.12 35398 1303488 41
192.168.10.50 22 77 1
pour IDS [6] - [10]. Il y a 41 fonctionnalités KDD99 et il a été mis au point en 1999. Pour cette
192.168.10.16 60058 244 1
raison, KDD99 est vieux et ne fournit aucune information sur les nouveaux types d'attaques 192.168.10.16 60060 1307239 41
192.168.10.50 22 ... 82 1
tels que zéro exploits de jour, etc. mise à jour Nous avons donc utilisé une mise To- date et
192.168.10.12 35398 171 1
nouveau jeu de données CICIDS2017 [12] dans notre étude. 192.168.10.16 60060 210 1
192.168.10.50 22 75 1
192.168.10.50 22 77 1
Il existe différentes études mais limitées à partir de l'ensemble de données CI- 192.168.10.14 53235 2 2
CIDS2017. Certains d'entre eux ont été discutés ici. D. Aksu et al. a montré des 192.168.10.14 53235 27701 15
192.168.10.14 53234 152547 19
performances de différents algorithmes d'apprentissage machine détecter les attaques 192.168.10.50 52320 4 3
DDoS basé sur le jeu de données CICIDS2017 dans leurs travaux antérieurs [13]. Ils ne
s'appliquaient pas tous ensemble de données et ont utilisé des données limitées 26.167
DDoS et 26.805 échantillons de l'ensemble de données Benign dans leur étude. De plus, SVM est une méthode d'apprentissage supervisé, car il utilise les données marquées dans
ils ont utilisé l'algorithme de sélection de fonction de score Fisher pour sélectionner les un jeu de données en entrée. Le nombre de classes de sortie change en fonction de
meilleures caractéristiques. Par conséquent, leurs modèles précédents SVM ont atteint l'ensemble de données. Par exemple, deux classes de données de sortie sont générées quand
un très haut résultat de précision. Cependant, ils avaient l'intention d'appliquer un ensemble de données de deux classes est donnée à l'entrée. Par conséquent, les
l'algorithme d'apprentissage en profondeur comme une œuvre caractéristique pour échantillons donnés en entrée sont classés en fonction de ces classes. Au cours du processus
détecter les attaques DDoS. N. Marir et al. proposé une étude distribuée à découvrir une de formation, un modèle est créé en fonction de l'ensemble de données d'entrée et classi fi
activité anormale dans un vaste réseau à grande échelle [14]. Dans une autre étude, cation est effectuée en utilisant le modèle.
Resende et al.
C. profonde apprentissage
algorithmes profonds d'apprentissage permettent d'extraire les caractéristiques d'un

III. M atériel ET M ÉTHODES automati- quement ensemble de données et ils sont constitués d'une architecture de couche
séquentielle. L'application de tions fonc- de transformation non linéaire à la structure de la
L'ensemble de données CICIDS2017 et des algorithmes d'apprentissage et profonds sont
couche séquentielle constituent la base d'algorithmes d'apprentissage en profondeur.
respectivement SVM expliqués dans cette section.
L'augmentation du nombre de couches augmente la complexité des transformations non
linéaires à construire. algorithmes d'apprentissage en profondeur apprennent les propriétés
A. CICIDS2017 Dataset
abstraites cachées des données obtenues dans la dernière couche de ses représentations
L'ensemble de données CICIDS2017 est utilisé dans notre étude. L'ensemble de données
abstraites acquises à des niveaux multiples. Par conséquent, les propriétés abstraites du fi
est mis au point par l'Institut canadien pour la sécurité Cyber et comprend divers types
sortie de la couche finale sont obtenus en introduisant les données dans un haut niveau
d'attaques communes. Dans cette étude, nous nous sommes concentrés sur les tentatives de
fonction non linéaire.
balayage des ports. Il y a 286467 enregistrements consistant 127537 bénins et 158930
tentatives de balayage de port et chaque enregistrement de 85 caractéristiques telles que la
source IP, le port source, port de destination, fl ux durée, le total des paquets fwd, les paquets D. Méthodologie
arrière totaux, etc. Une partie des dossiers est comme indiqué dans Tableau I.
Les algorithmes d'apprentissage SVM et profonds ont été utilisés pour détecter les
tentatives de balayage des ports en fonction de l'ensemble de données CICIDS2017.
L'organigramme de la méthode proposée a été présentée en fi gure 2. Tout d'abord, 286.467

Lors de la création du jeu de données, attaque-réseau et le réseau entre la victime, dossiers qui se composent de 158.930 tentatives de balayage des ports et 127.537
complètement séparés ont été deux réseaux, ont été signés et mis en œuvre de- par comportements bénins sont tirés de l'ensemble de données et ces enregistrements ont été
Sharafaldin H. et al [12]. Ils ont recueilli des données du 3 Juillet 2017 au 7 Juillet, 2017, normalisés. Après des échantillons de normalisation ont été divisés en deux comme données
pour l'ensemble de données. de formation de 67% et 33% des données de test. De plus, les modèles de SVM et IDS
d'apprentissage en profondeur ont été créés à partir des données de formation. Enfin, les
modèles ont été testés avec des données de test et performances indiquées des modèles a été
B. SVM
calculé relativement. En outre, le modèle d'apprentissage IDS profond se composent de 7
l'apprentissage statistique et optimisation convexe, basée sur le principe de couches cachées et chaque couche comprennent le nombre différent de neurones tels que
minimisation du risque structurel, constituent la base de support des algorithmes

Vector Machine (SVM). Vapnik et al développé SVM comme une solution aux
différents problèmes [16]. Par exemple, il peut être utilisé dans de nombreux domaines 100,150,70,40 et 6 respectivement. Le Relu a été sélectionné et utilisé comme une
tels que l'apprentissage, la reconnaissance des formes, la régression, la classi fi cation fonction d'activation dans le modèle. En fonction du nombre de neurones et les
et l'analyse. performances du modèle de couche cachée ont été modifiées. Dans cet article, nous
avons sélectionné un nombre optimal
IBIGDELFT2018 78
basée sur la précision du modèle. D'autre part, nous n'avons pas appliqué tout algorithme de TABLEAU II C
onfusion MATRIX
sélection de fonction pour SVM et nous avons utilisé toutes les fonctionnalités. En tant que
travaux futurs, nous allons utiliser différentes approches de renseignement cielles arti fi dé fi nir Classe réelle \ prédites classe Normal (Bienveillant) Anomaly (Port Scan)
sélectionner ces valeurs optimales. Normal (Bienveillant) TN FP
Anomaly (Port Scan) FN TP
• TP: Actual Port Scan est classée comme Port Scan. Précision, rappel,
précision et f1 score de mesures de performance sont calculés à partir des
statistiques de la matrice de confusion (tableau III).
TABLEAU III
PERFORMANCE MÉTRIQUE [17]
Mesure Formule
Précision (TP + TN) / (TP + FN + FP + TN) Rappel
TP / (TP + FN)
Précision TP / (TP + FP)
Le score F1 2TP / (FP + 2TP + FN)
Le rapport des observations est correctement prédit la précision, alors que des moyens
de précision un rapport d'observations positives correctes. Le rappel est une proportion
d'événements positifs correctement prévus. F1 scores signi fi e la moyenne pondérée de
précision et de rappel.
IV. E Xperimental R ÉSULTATS
L'ordinateur personnel qui a Intel (R) Core (TM) i7- 5700HQ CPU @ 2,70 GHz, a été
utilisé pour des expériences capacité de 16 Go de RAM. Nous avons utilisé le CPU,
cependant, nous envisageons d'appliquer le GPU en tant que travaux futurs.
Fig. 2. Flowchart de la notre méthode.

286.096 dossiers, qui ont été prises à partir de la normalisation
ensemble de données, ont été divisés en deux groupes avec 67% de formation et 33% des rapports
Comme le montre fi gure 2, les principales étapes de l'algorithme sont présentés
de tests tels que 191684 échantillons pour la formation et 94412 échantillons pour les tests. Le modèle
en-dessous.
d'apprentissage en profondeur a été formé dans les 30 époques et la mesure du rendement des SVM
1) Normaliser l'ensemble de données. et des modèles d'apprentissage en profondeur présentés dans le tableau IV.
2) Diviser l'ensemble de données normalisée en deux comme la formation et les tests.
3) Créer des modèles IDS avec l'aide de SVM et des algorithmes d'apprentissage en profondeur. TABLEAU IV
P METROLOGIE DES TECHNIQUES DE PERFORMANCE DE CLASSIFICATION SUR LA BASE UTILISES
ON CICIDS2017 DATASET.
4) Évaluer les performances des modèles.
Dans la normalisation, les caractéristiques de l'étiquette ont été converties en non Méthode Précision La précision de rappel Le score F1
L'apprentissage en profondeur 0,9780 0,99 0,99 0,99

numériques formes numériques. En outre, les caractéristiques non liées telles que Horodatage et
SVM 0,6979 0,80 0,70 0,65
quelques échantillons qui ont NaN, dans nité fi et des valeurs vides ont été retirées. De plus,
nous rééchelonnée toutes les valeurs observées des caractéristiques d'avoir une longueur de 1.
Le tableau IV montre la précision, le rappel, la précision et F1 score de taux des modèles
IDS qui ont été développés en utilisant l'apprentissage en profondeur et SVM. l'apprentissage
Dans un deuxième temps, l'ensemble de données normalisé a été divisé en 67% de formation et
en profondeur a obtenu un succès supérieur à SVM.
33% des tests.
Dans la troisième étape, les modèles IDS ont été formés et ont généré pour détecter les tentatives
de balayage de port en utilisant les données de formation. V. C ONCLUSION ET F FUTURS W ORKS

Par conséquent, les performances des modèles ont été cal- culée. Certes les Dans cet article, les mesures de performance de la machine à vecteurs de support et des
statistiques positives (TP), négative True (TN), faux positifs (FP) et Faux négatif algorithmes d'apprentissage en profondeur à base de jeu de données CICIDS2017 mise à jour ont
(FN) (tableau II) sont utilisés pour l'évaluation des performances du modèle. été présentés relativement. Les résultats montrent que l'algorithme d'apprentissage en profondeur
réalisé de meilleurs résultats signi fi cative que SVM. Nous allons utiliser non seulement les
Le tableau II peut être expliqué dans les articles ci-dessous. tentatives de balayage de ports, mais aussi d'autres types d'attaque avec l'apprentissage de la
• TN: Actual est Bienveillant classée comme Bénigne. machine et des algorithmes d'apprentissage en profondeur, Hadoop apache et technologies
• FP: Réel est Bienveillant classée comme Port Scan. d'allumage ainsi que sur la base de cet ensemble de données à l'avenir.
• FN: Actual Port Scan est classée comme Bénigne.
IBIGDELFT2018 79
UNE EMERCIEMENTS
Ce travail est aussi une partie de la thèse de maîtrise intitulée Analyse des performances
des journaux de détection d'intrusion des systèmes Université d'Istanbul, Institut des
sciences physiques.
R EFERENCES
[1] K. Graves, Ceh: fi certi fi cielle ed guide d'examen hacker éthique: Examen
312-50. John Wiley & Sons, 2007.
[2] R. Christopher, « les techniques de balayage du port et la défense contre eux, »
SANS Institute, 2001.
[3] M. Baykara, R. Dás et ˙I. Karado˘ gan, « Bilgi ¯g uvenli˘ gi sistemlerinde
kullanılan arac¸ların incelenmesi, » dans 1er Symposium international sur Digital Forensics
et sécurité (ISDFS13), 2013, pp. 231-239.
[4] S. Staniford, JA Hoagland, et JM McAlerney, « pratique automatisée
détection de portscans furtifs, » Journal de la sécurité informatique, vol. 10, no. 1-2, pp.
105-136, 2002.
[5] S. Robertson, EV Siegel, M. Miller, et SJ Stolfo, « Surveillance
la détection dans des environnements à bande passante élevée, » dans DARPA information
survivabilité Conférence et Exposition, 2003. Compte rendu, vol. 1. IEEE, 2003, p. 130-138.
[6] K. et M. Ibrahimi Ouaddane, « Gestion des sys- de détection d'intrusion

TEMS à base kdd99: Analyse avec LDA et pca, » en Réseaux sans fil et les communications
mobiles (WINCOM), 2017 Conférence internationale sur.
IEEE, 2017, pp. 1-6.
[7] N. et J. Moustafa Slay, « Les caractéristiques significatives de l'UNSW-NB15
et les ensembles de données kdd99 pour les systèmes de détection d'intrusion réseau, » dans Analyse
et construction datasets Collecte de retour d'expérience pour la sécurité (BADGERS), 2015 4e
Atelier international sur. IEEE,
2015, pp. 25-31.
[8] L. Sun, T. Anthony, HZ Xia, J. Chen, X. Huang et Y. Zhang,
« La détection et la classi fi cation des motifs malveillants dans le tra fi c réseau c en utilisant la loi
de Benford, » dans Asie-Paci fi Signal et de l'Association Traitement de l'information Sommet
annuel et Conférence (APSIPA ASC), 2017.
IEEE, 2017, pp. 864-872.
[9] SM Almansob et SS Lomte, « Relever les défis pour l'intrusion
Système de détection à l'aide de Bayes naïf et algorithme de pca, » dans La convergence des
technologies (I2CT) 2017 2e Conférence internationale pour. IEEE,
2017, pp. 565-568.
[10] MC Raja et MMA Rabbani, « L'analyse combinée de soutien
machine à vecteur et l'analyse des composantes principales pour ids, » en IEEE Conférence
internationale sur les systèmes de communication et de l'électronique,
2016, pp. 1-5.
[11] S. Aljawarneh, M. Aldwairi, et MB Yassein, « à base Anomaly-in-
système de détection de trusion par modèle ef hybride fonction d'analyse de sélection et de
renforcement fi cace, » Journal of Computational Science, vol. 25, pp. 152-160, 2018.
[12] I. Sharafaldin, AH Lashkari et AA Ghorbani, « Vers génération

un nouvel ensemble de données de détection d'intrusion et d'intrusion tra fi c la caractérisation. » dans ICISSP, 2018,
pp. 108-116.
[13] D. Aksu, S. ¨ Ustebay, MA Aydin, et T. Atmaca, « intrusion détec-
VEC analyse comparative des techniques d'apprentissage supervisé et le score fi Sher
fonction algorithme de sélection » dans Symposium international sur les sciences informatiques
et d'information. Springer, 2018, p. 141-149. [14] N. Marir, H. Wang, G. Feng, B. Li et M. Jia, «
Distributed anormale
approche de détection de comportement basé sur le réseau de croyance profonde et svm ensemble en utilisant
étincelle, » IEEE Access, 2018.
[15] AAP Resende et AC Drummond, « à base d'anomalie in- adaptative

Système de détection de trusion en utilisant l'algorithme génétique et pro fi ling, » Sécurité et confidentialité, vol.
1, no. 4, p. E36, 2018. [16] C. Cortes et V. Vapnik, « réseaux de soutien-vecteur, » l'apprentissage de la
machine,
vol. 20, no. 3, pp. 273-297, 1995.
[17] R. Shouval, O. Bondi, H. Mishan, A. Shimoni, R. Unger, et A. Nagler,
« Application des algorithmes d'apprentissage automatique pour la modélisation prédictive clinique: une approche
d'exploration de données dans sct, » Une greffe de moelle osseuse,
vol. 49, no. 3, p. 332, 2014.
IBIGDELFT2018 80

Détection Port Scan Tentatives Avec L'analyse Comparative de L'apprentissage Profond Et Vecteur de Soutien

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Détection Port Scan Tentatives Avec L'analyse Comparative de L'apprentissage Profond Et Vecteur de Soutien

Transféré par

Droits d'auteur :

Formats disponibles

Congrès international sur le Big Data, l'apprentissage en profondeur et la lutte contre le terrorisme Cyber Ankara, Turquie, 3 au 4 déc 2018