Académique Documents
Professionnel Documents
Culture Documents
Abstrait -Par le passé, l'évolution de l'ordinateur une explication des matériaux utilisés et des méthodes. Les résultats
et les technologies de communication ont fourni des changements importants et expérimentaux des algorithmes classi fi cation et la performance surements me-
avancés. L'utilisation des nouvelles technologies offrent de grands béné fi ciaires aux
ont été introduites à l'article 4. L'article 5 fourni conclusion et travaux futurs.
particuliers, aux entreprises et aux gouvernements, cependant, il provoque des
problèmes contre eux. Par exemple, la confidentialité des informations importantes, la
sécurité des plates-formes de données stockées, la disponibilité des connaissances,
II. L ITERATURE R EVISION
etc. En fonction de ces problèmes, le cyber-terrorisme est l'un des problèmes les plus
importants dans le monde d'aujourd'hui. terreur Cyber, ce qui a causé beaucoup de concepts de sécurité de l'information se composent de l'homme, la période, la
problèmes aux particuliers et aux institutions, a atteint un niveau qui pourrait menacer
méthodologie, la connaissance, le système et la technologie comme le montre la
la sécurité publique et le pays par divers groupes tels que organi- sations criminelles,
figure 1. La confidentialité, l'intégrité et l'accessibilité doivent être fournis par un
les personnes professionnelles et cyberactivistes. Ainsi, les systèmes de détection
d'intrusion (IDS) ont été mis au point pour éviter les cyber-attaques. Dans cette étude, système sécurisé. Tout d'abord, la con fi dentiel des moyens d'information permettant
l'accès uniquement à la personne qui a besoin d'accéder à ces informations. En
second lieu, l'intégrité de l'information veille à ce que les informations soient protégées
sans distorsion et la structure d'origine est intact. Enfin, l'accessibilité de l'information
est la possibilité d'accéder et d'utiliser des informations au moment voulu.
I. I NTRODUCTION
Les crimes informatiques continuent d'augmenter au fil des ans. Ils ne sont pas seulement
limités aux actes insigni fi catifs tels que l'estimation des informations de connexion d'un
système, mais ils sont aussi beaucoup plus dangereux.
uns aux autres et ont des objectifs communs pour assurer la disponibilité, con fi dentiel, et
l'intégrité des informations. Des études montrent que l'étape de première d'une attaque est Comme est signi fi é par Staniford et al, il y a eu le travail en plus limité sur
découverte [1]. La reconnaissance est faite afin d'obtenir des informations sur le système étonnement la question de la détection des scans de ports [4]. Robertson et al. utilisé une
dans ce stade. Trouver une liste des ports ouverts dans un système fournit des informations méthode de seuil pour détecter les tentatives de connexion ont échoué [5].
très critique pour un attaquant. Pour cette raison, il y a beaucoup d'outils pour identifier les
ports ouverts [2] tels que les antivirus et IDS. Analyse discriminante linéaire (LDA) et principal Compo- nent l'analyse (PCA)
ont été appliquées par Ibrahimi et Ouaddane pour identifier l'intrusion avec jeu de
données NSL-KDD [6]. conséquences des jeux de données com- comparatives
Dans ce travail, l'apprentissage en profondeur et des algorithmes d'apprentissage machine KDD99 et UNSW-NB15 analyse des comportements du réseau ont été montré par
SVM ont été appliquées pour créer des modèles IDS pour détecter le port scan attempts.The Moustafa et Slay [7]. Liuying et al. détectée et classi fi ed motifs malveillants en tra fi
modèles ont été présentés relativement. c réseau sur la base de l'ensemble de données KDD99 [8]. Naive Bayes et analyse
Nous avons catégorisé les autres parties du document comme suit: un examen a été en composantes principales (ACP) ont été
présenté textes spécialisés dans la section 2. L'article 3 présenté
IBIGDELFT2018 77
Congrès international sur le Big Data, l'apprentissage en profondeur et la lutte contre le terrorisme Cyber Ankara, Turquie, 3 au 4 déc 2018
utilisé avec l'ensemble de données KDD99 par Almansob et Lomte [9]. De même, TABLEAU I
UNE EXEMPLE DE RECORDS DE SET DATASET [12]
PCA, SVM et KDD99 ont été utilisés Chithik et Rabbani pour IDS [10]. Dans le
document de Aljawarneh et al., Leur analyse et les expériences ont été réalisées sur Source IP Source Port Durée Débit total Fwd Packets
la base du jeu de données NSL- KDD pour leur modèle IDS [11]. 192.168.10.12 35396 1266342 41
192.168.10.16 60058 1319353 41
192.168.10.12 35396 160 1
Des études montrent que la littérature ensemble de données KDD99 est toujours utilisé 192.168.10.12 35398 1303488 41
192.168.10.50 22 77 1
pour IDS [6] - [10]. Il y a 41 fonctionnalités KDD99 et il a été mis au point en 1999. Pour cette
192.168.10.16 60058 244 1
raison, KDD99 est vieux et ne fournit aucune information sur les nouveaux types d'attaques 192.168.10.16 60060 1307239 41
192.168.10.50 22 ... 82 1
tels que zéro exploits de jour, etc. mise à jour Nous avons donc utilisé une mise To- date et
192.168.10.12 35398 171 1
nouveau jeu de données CICIDS2017 [12] dans notre étude. 192.168.10.16 60060 210 1
192.168.10.50 22 75 1
192.168.10.50 22 77 1
Il existe différentes études mais limitées à partir de l'ensemble de données CI- 192.168.10.14 53235 2 2
CIDS2017. Certains d'entre eux ont été discutés ici. D. Aksu et al. a montré des 192.168.10.14 53235 27701 15
192.168.10.14 53234 152547 19
performances de différents algorithmes d'apprentissage machine détecter les attaques 192.168.10.50 52320 4 3
DDoS basé sur le jeu de données CICIDS2017 dans leurs travaux antérieurs [13]. Ils ne
s'appliquaient pas tous ensemble de données et ont utilisé des données limitées 26.167
DDoS et 26.805 échantillons de l'ensemble de données Benign dans leur étude. De plus, SVM est une méthode d'apprentissage supervisé, car il utilise les données marquées dans
ils ont utilisé l'algorithme de sélection de fonction de score Fisher pour sélectionner les un jeu de données en entrée. Le nombre de classes de sortie change en fonction de
meilleures caractéristiques. Par conséquent, leurs modèles précédents SVM ont atteint l'ensemble de données. Par exemple, deux classes de données de sortie sont générées quand
un très haut résultat de précision. Cependant, ils avaient l'intention d'appliquer un ensemble de données de deux classes est donnée à l'entrée. Par conséquent, les
l'algorithme d'apprentissage en profondeur comme une œuvre caractéristique pour échantillons donnés en entrée sont classés en fonction de ces classes. Au cours du processus
détecter les attaques DDoS. N. Marir et al. proposé une étude distribuée à découvrir une de formation, un modèle est créé en fonction de l'ensemble de données d'entrée et classi fi
activité anormale dans un vaste réseau à grande échelle [14]. Dans une autre étude, cation est effectuée en utilisant le modèle.
Resende et al.
C. profonde apprentissage
source IP, le port source, port de destination, fl ux durée, le total des paquets fwd, les paquets D. Méthodologie
arrière totaux, etc. Une partie des dossiers est comme indiqué dans Tableau I.
Les algorithmes d'apprentissage SVM et profonds ont été utilisés pour détecter les
d'apprentissage en profondeur ont été créés à partir des données de formation. Enfin, les
modèles ont été testés avec des données de test et performances indiquées des modèles a été
B. SVM
calculé relativement. En outre, le modèle d'apprentissage IDS profond se composent de 7
l'apprentissage statistique et optimisation convexe, basée sur le principe de couches cachées et chaque couche comprennent le nombre différent de neurones tels que
IBIGDELFT2018 78
Congrès international sur le Big Data, l'apprentissage en profondeur et la lutte contre le terrorisme Cyber Ankara, Turquie, 3 au 4 déc 2018
basée sur la précision du modèle. D'autre part, nous n'avons pas appliqué tout algorithme de TABLEAU II C
onfusion MATRIX
sélection de fonction pour SVM et nous avons utilisé toutes les fonctionnalités. En tant que
travaux futurs, nous allons utiliser différentes approches de renseignement cielles arti fi dé fi nir Classe réelle \ prédites classe Normal (Bienveillant) Anomaly (Port Scan)
sélectionner ces valeurs optimales. Normal (Bienveillant) TN FP
Anomaly (Port Scan) FN TP
• TP: Actual Port Scan est classée comme Port Scan. Précision, rappel,
précision et f1 score de mesures de performance sont calculés à partir des
statistiques de la matrice de confusion (tableau III).
TABLEAU III
PERFORMANCE MÉTRIQUE [17]
Mesure Formule
Précision (TP + TN) / (TP + FN + FP + TN) Rappel
TP / (TP + FN)
Précision TP / (TP + FP)
Le score F1 2TP / (FP + 2TP + FN)
Le rapport des observations est correctement prédit la précision, alors que des moyens
de précision un rapport d'observations positives correctes. Le rappel est une proportion
d'événements positifs correctement prévus. F1 scores signi fi e la moyenne pondérée de
précision et de rappel.
L'ordinateur personnel qui a Intel (R) Core (TM) i7- 5700HQ CPU @ 2,70 GHz, a été
utilisé pour des expériences capacité de 16 Go de RAM. Nous avons utilisé le CPU,
cependant, nous envisageons d'appliquer le GPU en tant que travaux futurs.
3) Créer des modèles IDS avec l'aide de SVM et des algorithmes d'apprentissage en profondeur. TABLEAU IV
P METROLOGIE DES TECHNIQUES DE PERFORMANCE DE CLASSIFICATION SUR LA BASE UTILISES
ON CICIDS2017 DATASET.
4) Évaluer les performances des modèles.
Dans la normalisation, les caractéristiques de l'étiquette ont été converties en non Méthode Précision La précision de rappel Le score F1
nous rééchelonnée toutes les valeurs observées des caractéristiques d'avoir une longueur de 1.
Le tableau IV montre la précision, le rappel, la précision et F1 score de taux des modèles
IDS qui ont été développés en utilisant l'apprentissage en profondeur et SVM. l'apprentissage
Dans un deuxième temps, l'ensemble de données normalisé a été divisé en 67% de formation et
en profondeur a obtenu un succès supérieur à SVM.
33% des tests.
Dans la troisième étape, les modèles IDS ont été formés et ont généré pour détecter les tentatives
réalisé de meilleurs résultats signi fi cative que SVM. Nous allons utiliser non seulement les
Le tableau II peut être expliqué dans les articles ci-dessous. tentatives de balayage de ports, mais aussi d'autres types d'attaque avec l'apprentissage de la
• TN: Actual est Bienveillant classée comme Bénigne. machine et des algorithmes d'apprentissage en profondeur, Hadoop apache et technologies
• FP: Réel est Bienveillant classée comme Port Scan. d'allumage ainsi que sur la base de cet ensemble de données à l'avenir.
IBIGDELFT2018 79
Congrès international sur le Big Data, l'apprentissage en profondeur et la lutte contre le terrorisme Cyber Ankara, Turquie, 3 au 4 déc 2018
UNE EMERCIEMENTS
Ce travail est aussi une partie de la thèse de maîtrise intitulée Analyse des performances
des journaux de détection d'intrusion des systèmes Université d'Istanbul, Institut des
sciences physiques.
R EFERENCES
[1] K. Graves, Ceh: fi certi fi cielle ed guide d'examen hacker éthique: Examen
312-50. John Wiley & Sons, 2007.
[2] R. Christopher, « les techniques de balayage du port et la défense contre eux, »
SANS Institute, 2001.
[3] M. Baykara, R. Dás et ˙I. Karado˘ gan, « Bilgi ¯g uvenli˘ gi sistemlerinde
kullanılan arac¸ların incelenmesi, » dans 1er Symposium international sur Digital Forensics
et sécurité (ISDFS13), 2013, pp. 231-239.
[4] S. Staniford, JA Hoagland, et JM McAlerney, « pratique automatisée
détection de portscans furtifs, » Journal de la sécurité informatique, vol. 10, no. 1-2, pp.
105-136, 2002.
[5] S. Robertson, EV Siegel, M. Miller, et SJ Stolfo, « Surveillance
la détection dans des environnements à bande passante élevée, » dans DARPA information
survivabilité Conférence et Exposition, 2003. Compte rendu, vol. 1. IEEE, 2003, p. 130-138.
IBIGDELFT2018 80