Académique Documents
Professionnel Documents
Culture Documents
applications suspicieuses
Introduction
Google Play est la boutique en ligne de Google pour le système d’exploitation
Android. L’application Play Store, préinstallée sur chaque téléphone et tablette Android,
permet de télécharger des applications, des livres numériques, des musiques et de louer des
films. Toute personne ayant remplis les modalités peuvent publier des applications sur Google
Play. Cependant il existe des personnes ayant des intentions malsaines qui publient des
applications malicieuses qui ont l’air à priori normal. Les utilisateurs peuvent évaluer les
applications sur Google Play en lui attribuant un certain nombre d'étoiles et en rédigeant un
avis. Pour dont déterminer si une application est suspicieuse sur Google Play, on peut
effectuer une analyse des avis (commentaires) laissé par les utilisateurs. Cette analyse peut
être réalisée en utilisant le (Natural Language Processing).
Méthodologie
Le Natural Language Processing (NLP) autrement appelé en français “Traitement
automatique du langage naturel est la capacité d’un programme à comprendre le langage
humain, Il fait partie des technologies d'intelligence artificielle. Le traitement du langage
naturel peut être utilisé pour interpréter du texte libre et le rendre analysable.
Exemple d’applications du NLP :
Google Assistant
Google Traduction
Les spams
Pour réaliser l’analyse des commentaires, nous avons utilisé les outils logiciels
suivant :
- Le Natural Language Toolkit (NLTK) est une bibliothèque logicielle en Python
permettant un traitement automatique des langues. En plus de la bibliothèque, NLTK fournit
des démonstrations graphiques, des données-échantillon, des tutoriels, ainsi que la
documentation de l'interface de programmation (API).
- Scikit-learn est une bibliothèque libre Python destinée à l'apprentissage
automatique. Pour l’apprentissage, nous avons utilisé le classificateur naïve bayésienne. La
classification naïve bayésienne est un type de classification bayésienne probabiliste simple
basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle
met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes, appartenant à la famille
des classifieurs linéaires. L'avantage du classifieur bayésien naïf est qu'il requiert relativement
peu de données d'entraînement pour estimer les paramètres nécessaires à la classification, à
savoir moyennes et variances des différentes variables. Le processus d’analyse des
commentaires est le suivant :
1- Collecte des données
Les commentaires (texte brute) sont récupérés et enregistrés dans un fichier. Ce
fichier est organisé en :
- 3 colonnes, la 1ère colonne contient le nom des applications, la
deuxième contient 1 si l’application semble normale, et 0 si l’application semble suspicieuse,
la troisième les commentaires des applications
- Une ligne pour chaque application
Un vocabulaire de mot suspicieux est créé et enregistré dans un fichier. Ce
vocabulaire est obtenu en analysant les caractéristiques des applications suspicieuses
lecture du fichier des commentaires
2- Nettoyage et traitement des données
division des commentaires en mot
retrait de la ponctuation
retrait des mots vide (mots du langage tel que je, un, il….)
identification des mots importants (en comparant les mots du commentaire avec
ceux du vocabulaire)
formatage des données en construisant une matrice où :
- les colonnes représentent les mots importants
- les lignes représentent les applications
- la cellule le nombre de fois qu’un mot apparait dans les commentaires
d’une application
3- Classification des données
Les étapes sont :
Division des données (obtenue après Nettoyage et traitement) en données
d'apprentissage et données de test
Apprentissage à partir des données d’apprentissage en utilisant un classifieur naïf
de Bayes
Prédiction à partir des données de test
Calcul de l’accuracy
Résultat
Au départ nous avons les données suivant :
- Des commentaires (texte brute) sur 20 applications