Vous êtes sur la page 1sur 6

Sujet de data science : Analyse des commentaires sur google play pour l’identification des

applications suspicieuses

Introduction
Google Play est la boutique en ligne de Google pour le système d’exploitation
Android. L’application Play Store, préinstallée sur chaque téléphone et tablette Android,
permet de télécharger des applications, des livres numériques, des musiques et de louer des
films. Toute personne ayant remplis les modalités peuvent publier des applications sur Google
Play. Cependant il existe des personnes ayant des intentions malsaines qui publient des
applications malicieuses qui ont l’air à priori normal. Les utilisateurs peuvent évaluer les
applications sur Google Play en lui attribuant un certain nombre d'étoiles et en rédigeant un
avis. Pour dont déterminer si une application est suspicieuse sur Google Play, on peut
effectuer une analyse des avis (commentaires) laissé par les utilisateurs. Cette analyse peut
être réalisée en utilisant le (Natural Language Processing).
Méthodologie
Le Natural Language Processing (NLP) autrement appelé en français “Traitement
automatique du langage naturel est la capacité d’un programme à comprendre le langage
humain, Il fait partie des technologies d'intelligence artificielle. Le traitement du langage
naturel peut être utilisé pour interpréter du texte libre et le rendre analysable.
Exemple d’applications du NLP :
 Google Assistant
 Google Traduction
 Les spams
Pour réaliser l’analyse des commentaires, nous avons utilisé les outils logiciels
suivant :
- Le Natural Language Toolkit (NLTK) est une bibliothèque logicielle en Python
permettant un traitement automatique des langues. En plus de la bibliothèque, NLTK fournit
des démonstrations graphiques, des données-échantillon, des tutoriels, ainsi que la
documentation de l'interface de programmation (API).
- Scikit-learn est une bibliothèque libre Python destinée à l'apprentissage
automatique. Pour l’apprentissage, nous avons utilisé le classificateur naïve bayésienne. La
classification naïve bayésienne est un type de classification bayésienne probabiliste simple
basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle
met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes, appartenant à la famille
des classifieurs linéaires. L'avantage du classifieur bayésien naïf est qu'il requiert relativement
peu de données d'entraînement pour estimer les paramètres nécessaires à la classification, à
savoir moyennes et variances des différentes variables. Le processus d’analyse des
commentaires est le suivant :
1- Collecte des données
 Les commentaires (texte brute) sont récupérés et enregistrés dans un fichier. Ce
fichier est organisé en :
- 3 colonnes, la 1ère colonne contient le nom des applications, la
deuxième contient 1 si l’application semble normale, et 0 si l’application semble suspicieuse,
la troisième les commentaires des applications
- Une ligne pour chaque application
 Un vocabulaire de mot suspicieux est créé et enregistré dans un fichier. Ce
vocabulaire est obtenu en analysant les caractéristiques des applications suspicieuses
 lecture du fichier des commentaires
2- Nettoyage et traitement des données
 division des commentaires en mot
 retrait de la ponctuation
 retrait des mots vide (mots du langage tel que je, un, il….)
 identification des mots importants (en comparant les mots du commentaire avec
ceux du vocabulaire)
 formatage des données en construisant une matrice où :
- les colonnes représentent les mots importants
- les lignes représentent les applications
- la cellule le nombre de fois qu’un mot apparait dans les commentaires
d’une application
3- Classification des données
Les étapes sont :
 Division des données (obtenue après Nettoyage et traitement) en données
d'apprentissage et données de test
 Apprentissage à partir des données d’apprentissage en utilisant un classifieur naïf
de Bayes
 Prédiction à partir des données de test
 Calcul de l’accuracy
Résultat
 Au départ nous avons les données suivant :
- Des commentaires (texte brute) sur 20 applications

Figure 1 : extrait du fichier des commentaires


- Un vocabulaire de mots

Figure 2 : extrait du fichier de vocabulaire


 Ces commentaires sont nettoyés et traité en utilisant NLTK et on obtient :

Figure 3 : données brutes


Figure 4 : données traitées
 Ces données sont préparées pour l’apprentissage

Figure 5 : extrait des données formatées pour l'apprentissage


 Apres l’apprentissage, on réalise une prédiction à partir d’un ensemble de données ( 5
application ), et obtient un Accuracy de 0.625
Conclusion
L’analyse des commentaires sur google play en utilisant le NLP nous a permis à l’aide
d’un classifieur bayésien naïf, l’identification des applications suspicieuses. Avec un jeu de
données de 20 applications nous avons obtenu un accuracy un peu au-delà de la moyenne.
Pour obtenir donc une meilleure précision l’on doit collecter plus de données pour
l’apprentissage, car l’accuracy augmente avec le nombre de donnés.

Vous aimerez peut-être aussi