Vous êtes sur la page 1sur 8

Community Management

Topic Modeling & LDA


ines.mhaya@esprit.tn ,rania.kallel@esprit.tn, wiem.trabelsi@esprit.tn
Compte rendu de la séance

Lister les objectifs métiers.

Présentation de l’outil technique proposé.

Détails techniques de l’outil.

Résultats et interprétations de chaque objectif.

Wiem Trabelsi © Community Management


Topic Modeling
Définition
En apprentissage automatique et en traitement
automatique du langage naturel, un topic model
(modèle thématique ou « modèle de sujet ») est un
modèle probabiliste permettant de déterminer des
sujets ou thèmes abstraits dans un document.

Wiem Trabelsi © Community Management


Topic Modeling – les étapes (1/3)
1- Collecter les données
2- Prétraiter des données (Idée générale)
2.1 Tokenization: diviser le texte en phrases, et les
phrases en mots,
2.2 transformer les mots en minuscules et enlever la
ponctuation,
2.3 Enlever les stopwords,
2.4 Appliquer la lemmatisation et le stemming,
3- Importer les bibliothèques nécessaires, à savoir gensim
et nltk.
4- Enregistrer le texte après les éventuelles transformations
(« processed_docs »).

Wiem Trabelsi © Community Management


Topic Modeling – les étapes (2/3)
5- BOW sur le jeu de données: créer un dictionnaire à partir de « processed_docs »
contenant le nombre de fois qu’un mot apparaît dans le jeu de données qui servira pour
l’apprentissage.
Idée: Filtrer les tokens qui apparaissent dans:
• Moins de 15 documents (nombre absolu),
• Ne garder que les 100 000 premiers tokens les plus fréquents.
6- Pour chaque document, créer un dictionnaire indiquant combien de mots et combien
de fois ces mots apparaissent. Enregistrez ceci dans « bow_corpus ».
Il s’agit ici d’appliquer la fonction doc2bow de Gensim sur le dictionnaire.
7- TF-IDF : créer un modèle TF-IDF à partir de « bow_corpus » en utilisant la fonction
models.TfidfModel importée de Gensim.

Wiem Trabelsi © Community Management


Topic Modeling – les étapes (3/3)
8- Appliquer une méthode (exemple LDA: Allocation Latente de Dirichlet) sur le BOW: entraîner le
modèle LDA en utilisant gensim.models.LdaMulticore.
• Pour chaque topic, explorer les mots qui y figurent et leur poids relatif.
9- Appliquer LDA en utilisant TF-IDF
 distinguer différents sujets en utilisant les mots de chaque sujet et leurs poids respectifs.
10- Evaluation de la performance du modèle LDA TF-IDF.
11- Test du modèle sur un document non vu

Wiem Trabelsi © Community Management


Atelier Text Mining
Text Text Text

Bag of
Word
Data Source

LSI
LDA
régression Result

Corpus

Wiem Trabelsi © Community Management


https://www.mathworks.com/help/textanalytics/ref/ldamodel.html

https://radimrehurek.com/gensim/corpora/dictionary.html
Bibliographie
https://ece.umd.edu/~smiran/LDA.pdf

https://towardsdatascience.com/topic-modeling-and-latent-
dirichlet-allocation-in-python-9bf156893c24

Wiem Trabelsi © Community Management

Vous aimerez peut-être aussi