Académique Documents
Professionnel Documents
Culture Documents
• Feldman, R., & Sanger, J. (2007). The text mining handbook: advanced approaches in
analyzing unstructured data. Cambridge university press
• Zhai, C., & Massung, S. (2016). Text data management and analysis: a practical
introduction to information retrieval and text mining. Association for Computing
Machinery and Morgan & Claypool.
• KESELJ, Vlado. Speech and Language Processing Daniel Jurafsky and James H. Martin
(Stanford University and University of Colorado at Boulder) Pearson Prentice Hall, 2009,
xxxi+ 988 pp; hardbound, ISBN 978-0-13-187321-6, $115.00. 2009.
Séance 1: 1. Introduction • Atelier 1: Les tâches de base de la NLP
2. Techniques du NLP • Python (Rappel),
• Présentation des bibliothèques NLTK, Scikitlearn, Spacy
• Tokenization , Stemming , Lemmatization , POS-tagging, Parsing, ..
Séance 2: 3. Vectorisation des documents • Atelier 2: Calcul des similarités syntaxiques et sémantiques entre les documents
• WSD
• Bag of Words ,
• TF-IDF
• LSA/SVD
• Word2vec
• GloVe
Séance 3: • Atelier3: Classification et Clustering de documents texte
4. Classification et Clustering de documents texte • Feature selection
• Modèles de Classification
• Modèles de Clustering
• Evaluation des modèles
Séance 4: 6. Analyse de topics • Atelier 4
• Unigram Language Model
• LSA
• LDA
Applications • Plagiarism detection
• News classification
• Spam detection
• Text summarization
• Question answering
Evaluation
• Réalisation des ateliers 30%
• Examen 70%
Introduction
C’est quoi le Text Mining?
• C’est un processus qui permet la découverte d’informations utiles et
de patterns à partir d’une collection de documents qui comportent
des données textuelles non structurées.
https://towardsdatascience.com/a-text-analytics-primer-key-factors-in-a-text-analytics-strategy-d24dc84a5576
Processus du Text Mining
• Les processus de Text Mining et data Mining sont similaires dans le sens ou ils
partagent les mêmes étapes de:
• Prétraitement,
• Application d’algorithmes pour la découverte de patterns,
• Exploration et visualisation des résultats
• Application des techniques de raffinement
• Ça n’implique pas forcement que ces étapes se font de la même façons ou qu'ils
ont les mêmes objectifs.
Processus du Text Mining
Collection de
NLP Découverte de patterns, navigation, Posttraitement:
documents
Features extractions Analyse des tendances Visualisation • Suppression,
NER, • Ordering,
WSD • Pruning,
Catagorisation, • Generalization
• Clustering
Sources de données
Prétraitement (Objectifs)
• Les prétraitements en text mining possèdent une grande importance et affectent
considérablement les performances des traitements qui vont venir par la suite.
Extraction
Préparation NLP d’information/
Catégorisation