Atelier Toppic Modeling PDF

Transféré par

Aymen Hedhli

0% ont trouvé ce document utile (0 vote)

65 vues8 pages

Titre original

Atelier toppic modeling.pdf

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

65 vues8 pages

Atelier Toppic Modeling PDF

Transféré par

Aymen Hedhli

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 8

Rechercher à l'intérieur du document

Community Management

Topic Modeling & LDA

ines.mhaya@esprit.tn ,rania.kallel@esprit.tn, wiem.trabelsi@esprit.tn
Compte rendu de la séance

Lister les objectifs métiers.

Présentation de l’outil technique proposé.

Détails techniques de l’outil.

Résultats et interprétations de chaque objectif.

Wiem Trabelsi © Community Management

Topic Modeling
Définition
En apprentissage automatique et en traitement
automatique du langage naturel, un topic model
(modèle thématique ou « modèle de sujet ») est un
modèle probabiliste permettant de déterminer des
sujets ou thèmes abstraits dans un document.

Topic Modeling – les étapes (1/3)
1- Collecter les données
2- Prétraiter des données (Idée générale)
2.1 Tokenization: diviser le texte en phrases, et les
phrases en mots,
2.2 transformer les mots en minuscules et enlever la
ponctuation,
2.3 Enlever les stopwords,
2.4 Appliquer la lemmatisation et le stemming,
3- Importer les bibliothèques nécessaires, à savoir gensim
et nltk.
4- Enregistrer le texte après les éventuelles transformations
(« processed_docs »).

Topic Modeling – les étapes (2/3)
5- BOW sur le jeu de données: créer un dictionnaire à partir de « processed_docs »
contenant le nombre de fois qu’un mot apparaît dans le jeu de données qui servira pour
l’apprentissage.
Idée: Filtrer les tokens qui apparaissent dans:
• Moins de 15 documents (nombre absolu),
• Ne garder que les 100 000 premiers tokens les plus fréquents.
6- Pour chaque document, créer un dictionnaire indiquant combien de mots et combien
de fois ces mots apparaissent. Enregistrez ceci dans « bow_corpus ».
Il s’agit ici d’appliquer la fonction doc2bow de Gensim sur le dictionnaire.
7- TF-IDF : créer un modèle TF-IDF à partir de « bow_corpus » en utilisant la fonction
models.TfidfModel importée de Gensim.

Topic Modeling – les étapes (3/3)
8- Appliquer une méthode (exemple LDA: Allocation Latente de Dirichlet) sur le BOW: entraîner le
modèle LDA en utilisant gensim.models.LdaMulticore.
• Pour chaque topic, explorer les mots qui y figurent et leur poids relatif.
9- Appliquer LDA en utilisant TF-IDF
 distinguer différents sujets en utilisant les mots de chaque sujet et leurs poids respectifs.
10- Evaluation de la performance du modèle LDA TF-IDF.
11- Test du modèle sur un document non vu

Atelier Text Mining
Text Text Text

Bag of
Word
Data Source

LSI
LDA
régression Result

Corpus

https://www.mathworks.com/help/textanalytics/ref/ldamodel.html

https://radimrehurek.com/gensim/corpora/dictionary.html
Bibliographie
https://ece.umd.edu/~smiran/LDA.pdf

https://towardsdatascience.com/topic-modeling-and-latent-
dirichlet-allocation-in-python-9bf156893c24

Vous aimerez peut-être aussi

Immobilités Laryngées
Document122 pages
Immobilités Laryngées
tadjoura1
Pas encore d'évaluation
CIS - 5.3-1 Gloria, Chant (Choral Setting)
Document3 pages
CIS - 5.3-1 Gloria, Chant (Choral Setting)
Jean-Claude Saulnier
Pas encore d'évaluation
Programme - Linguistique - Textuelle Cours 1
Document4 pages
Programme - Linguistique - Textuelle Cours 1
Azz Izz
100% (1)
La Vie Berbère Par Les Textes, Parlers Du Sud-Ouest Marocain (Tachelhit) PDF
Document119 pages
La Vie Berbère Par Les Textes, Parlers Du Sud-Ouest Marocain (Tachelhit) PDF
Abdu Amenukal
Pas encore d'évaluation
Texto 3 Pédagogique
Document222 pages
Texto 3 Pédagogique
Sebastian Cabrera
67% (3)
RC Agent de Saisie 2014
Document25 pages
RC Agent de Saisie 2014
salihasadik38
Pas encore d'évaluation
OA Analyses Du Discours Et Contextes
Document204 pages
OA Analyses Du Discours Et Contextes
Alef James Fonseca
100% (1)
Balzac La Peau de Chagrin
Document2 pages
Balzac La Peau de Chagrin
Zahir SIDANE
Pas encore d'évaluation
Por Un Cbeza01
Document1 page
Por Un Cbeza01
CORNEL PLUGARU
Pas encore d'évaluation
TP Systèmes Embarqués
Document9 pages
TP Systèmes Embarqués
badis hamhoum
Pas encore d'évaluation
Projet 2
Document66 pages
Projet 2
Khaadija Zahouan
Pas encore d'évaluation
Question Cour Java
Document1 page
Question Cour Java
Omar Lâsri
Pas encore d'évaluation
Code Igniter Training
Document23 pages
Code Igniter Training
Joel Takoulo
Pas encore d'évaluation
Plan Python
Document2 pages
Plan Python
Yosra JABRI
Pas encore d'évaluation
Composition (Le Divorce) 2AS 2ème Trimestre Avec Corrigé Med)
Document4 pages
Composition (Le Divorce) 2AS 2ème Trimestre Avec Corrigé Med)
Nour Elimène
100% (1)
Éducation Thérapeutique Des Parents D'enfants Tsa
Document117 pages
Éducation Thérapeutique Des Parents D'enfants Tsa
judikaelchevalier
Pas encore d'évaluation
Linux Embarque
Document10 pages
Linux Embarque
soufiane yemlahi
Pas encore d'évaluation
Support de Cours LINGSTIQUE PDF
Document36 pages
Support de Cours LINGSTIQUE PDF
Igrane Halima
Pas encore d'évaluation
Zachary Wanlin-Auger - Verbe Monstre 6e Annee
Document25 pages
Zachary Wanlin-Auger - Verbe Monstre 6e Annee
zacharyw0000
Pas encore d'évaluation
2014 - TD 1 - Suites
Document7 pages
2014 - TD 1 - Suites
pape diop
Pas encore d'évaluation
L'école Musulmane Algérienne de Ibn Bâdîs Dans Les Années 1930
Document16 pages
L'école Musulmane Algérienne de Ibn Bâdîs Dans Les Années 1930
Warda Dz
100% (1)
Passif en FLE
Document30 pages
Passif en FLE
Site Commune Langue
100% (1)
Fiche Bible 58 Jésus Agneau de Dieu
Document2 pages
Fiche Bible 58 Jésus Agneau de Dieu
Coco
Pas encore d'évaluation
Lehaut. L'éternité Des Peines de L'enfer Dans Saint Augustin. 1912.
Document226 pages
Lehaut. L'éternité Des Peines de L'enfer Dans Saint Augustin. 1912.
Patrologia Latina, Graeca et Orientalis
100% (1)
Présentation Cours Ensembles de Nombres
Document16 pages
Présentation Cours Ensembles de Nombres
Sofia Freund
Pas encore d'évaluation
Méthode TED 1
Document10 pages
Méthode TED 1
Salma El Khadiri
Pas encore d'évaluation
Chap 2 Typologies Des Virus - Moyens de Prévention Et Méthodes de Lutte
Document6 pages
Chap 2 Typologies Des Virus - Moyens de Prévention Et Méthodes de Lutte
Zacharie Nkanyou
Pas encore d'évaluation
Modélisation Métier UML
Document83 pages
Modélisation Métier UML
poussineauj
100% (1)
TD 1 - STBL
Document2 pages
TD 1 - STBL
Yli
Pas encore d'évaluation
Rene Guenon - La Langue Des Oiseaux
Document3 pages
Rene Guenon - La Langue Des Oiseaux
Odred9
100% (1)