Vous êtes sur la page 1sur 28

30/12/2010

Fouille de Données
Textuelles

Dr. Rim Faiz


Rim.Faiz@ihec.rnu.tn

Contexte
z Quantité de documents électroniques en
croissance permanente
permanente.

z Exploration et récupération des connaissances


manuellement extrêmement ardues ou presque
impossibles.

z Utilisation de la puissance de l’outil informatique


pour en extraire les connaissances.

1
30/12/2010

«Data Mining» et «Text Mining»

z «Data Mining» est en général utilisée quand on travaille sur


d ddonnées
des é structurées
é dans
d des
d bases
b relationnelles.
l i ll

z «Text Mining» lorsqu’il s’agit de données textuelles


(textual data).
z «Text Mining» est ll’extraction
extraction dd’information
information utile à partir
des formes non manifestés (hidden patterns) dans des
grands corpus de textes.
(Feldman et al. 1998)
3

Fouille de données textuelles (1)


z «Text Mining» : domaine de recherche qui essaye de résoudre le
pproblème de la surabondance d’information textuelle

z Utilisant des techniques de :


«data mining», «machine learning», «information retrieval»,
«natural-language understanding», «case-based reasoning»,
«statistics» and «knowledge management»
«statistics»,

z But : aider les personnes à gagner de la connaissance à partir


de grandes quantités de textes semi-structurés ou non-structurés
4

2
30/12/2010

Fouille de données textuelles (2)

La ffouille
L ill de
d données
d é textuelles
ll consiste
i en
l'analyse d'un volume important de documents
textuels pour fournir à l'utilisateur une vision
synthétique et interprétable de leur contenu.

Objectifs initiaux de la fouille de textes

z Objectifs
z Traduction automatique de textes.
z Dialogue homme machine.
z Inaccessibles a court terme
z Implique de comprendre les textes en profondeur.
z Nécessiterait d'avoir
d avoir une bonne connaissance du
monde extérieur.
z Même les humains ne sont souvent pas
d'accord sur l'interprétation d'un texte.
6

3
30/12/2010

Objectifs actuels de la fouille de textes

z Objectifs
z Requêtes sur de grandes masses de textes.
z Catégorisation automatique de textes.

z Accessibles et effectifs
z Des objectifs beaucoup plus raisonnables et liés
aux besoins des entreprises et de leurs clients.

Langage naturel : définition et exemple

z Définition
z Les langages naturels sont utilisés par les
humains par opposition aux langages artificiels
compris par les machines.
z Exemple
z Langages naturels : français, anglais, espagnol,
etc.
z Langages artificiels : langages de programmation,
de modélisation, mathématique, etc.

4
30/12/2010

Complexité du langage naturel

z Cause
z Principale difficulté : l'ambiguïté du langage naturel
naturel.
z La cause de cette ambiguïté vient de l'économie du
langage qui est faite lors de son utilisation.

z Exemple
Les fils tapissent la pièce. Trop de PCs s'y trouvent.
z Polysémie : fils,
fils tapissent,
tapissent pièce.
pièce Pièce de monnaie ou de
maison ?
z Abréviation PCs signifie Personal Computer.
z Référence : «y» réfère à la pièce.

Principe de la fouille de textes

z Les textes sont traités à l'aide de ressources


par des modules inclus dans des chaînes de
traitement pour une tâche ou application
donnée.

10

5
30/12/2010

1. Eléments des textes traités

z Présentation
z Les textes traités sont composés d’éléments que
l'on extrait.
z Les éléments sont présentés par niveau
d'imbrication.
z Un élément de niveau supérieur utilise les
élé
élémentst dde niveaux
i iinférieurs.
fé i
z Reprend la structure du langage naturel.

11

Mot

z Définitions
1. Suite de symboles différents d'une ponctuation séparés
par des ponctuations.
2. Unité minimale de signification appartenant au lexique
appelé lexème.
z Exemple
z Le mot porte dans la phrase : Ceci est une «porte».
z Utilisation
z Le découpage en mot est une première étape nécessaire
a tout traitement ultérieur.

12

6
30/12/2010

Etiquette

z Définition
z Annotation d'un mot qui peut être grammaticale ou
sémantique.
z Exemple
z Nom, Verbe pour un étiquetage grammatical ou Lieu, Date
pour une extraction d'entités nommées.
z Utilisation
z Permet d’étiqueter les mots d'un texte pour trouver des
relations entre eux, extraire des entités nommées, des
termes,
z etc.
13

Relation

z Définition
z Annotation d'une relation entre deux ou plusieurs
mots qui peut être grammaticale ou sémantique.
z Exemple
z sujet-verbe pour une relation grammaticale ou
partie-de, part-of, pour un étiquetage sémantique
utilisable dans une ontologie.
g
z Utilisation
z A partir des étiquettes des mots trouve des
relations entre eux.
14

7
30/12/2010

Entité Nommée

z Définition
z Entité nommée impliquée dans un événement
ou un processus, qui n'est pas commune par
opposition aux noms communs.
z Exemple
z Personne, groupe, lieu, événement, marque.
z Utilisation
z Utilisé dans la plupart des systèmes de fouille
de textes, notamment question réponse.
15

Terme

z Définition
z Expression possédant un sens unique pour un
domaine particulier.
z Exemple
z Pièce dans le domaine monétaire.
z Utilisation
z Peut être utilisé pour catégoriser des textes ou
effectuer une indexation.

16

8
30/12/2010

2. Ressources de traitement

z Présentation
z Les textes sont traités à l'aide de ressources.
z Elaboration manuelle ou automatique à l'aide de
techniques d'apprentissage.
z Application des ressources : locale (mot courant)
ou contextuelle (mots courants et adjacents).

17

Corpus de textes

z Définition
z Ensemble de textes homogènes.
z Exemple
z Ensemble de textes de lois composées d'articles.
z Constitution
z Numérisation regroupement,
Numérisation, regroupement tri
tri, normalisation.
normalisation

18

9
30/12/2010

Lexique de mots

z Définition
z Liste de mots associés à une ou plusieurs
catégories.
z Exemple
z Liste de mots avec leurs étiquettes grammaticales :
Nom, Adjectif, Verbe, etc.
z Constitution
z Utilisation de dictionnaires et de corpus étiquetés.

19

Ensemble de règles

z Définition
z P
Pour l’é
l’étiquetage,
i lles relations
l i syntaxiques
i entre mots.
z Exemple
z Non contextuelle : mot terminé par un s ⇒ étiquette
pluriel.
z Contextuelle : nom suivant un nombre autre que «un»
⇒ étiquette pluriel
pluriel.
z Constitution
z Apprentissage à partir de corpus étiquetés
manuellement.
20

10
30/12/2010

Ontologie de concepts

z Définition
z Ensemble de mots et/ou concepts et de relations
entre eux.
z Exemple
z Salon partie-de Maison.
z Constitution
z Semi-automatique à l'aide d'une terminologie,
d'un classement manuel et d'induction.

21

3. Chaîne de traitement

22

11
30/12/2010

Processus de la Fouille de textes

z Pré-traitements de la collection de documents


z (
(exp. catégorisation
é i i des d textes ou extraction
i ded termes))
z Stockage et Indexation des documents
z Analyse des représentations intermédiaires
z (via exp. analyse de distribution, classification automatique
(clustering), analyse de tendances, découverte de règles
d’association)
z Visualisation des résultats.

23

Pré-traitements du corpus : nettoyage

z Le nettoyage consiste à identifier et nettoyer le bruit.

z L'exploitation des corpus spécialisés au format HTML


et/ou XML, demande une phase de nettoyage importante
afin d'enlever les informations non pertinentes du corpus
(exemple: les balises).

z Cependant les balises XML contiennent des informations


sémantiques lesquelles, si elles sont exploitées, peuvent
aider à la construction d'ontologies spécialisées.

24

12
30/12/2010

Exemples de règles de nettoyage

z Carboxy terminal C-terminal,


Carboxy-terminal, C terminal
COOH-terminal, C02H-terminal Æ C-term

z nombreux noms pour 1e même gène Æ nom


générique
Exemple : ISE1, LIS1, SED6 Î ERG6

25

Pré-traitement du corpus : étiquetage

Etiquetage
grammatical

Corpus nettoyé Corpus nettoyé


et étiqueté

The modulation The/DT modulation/NN


of the of/IN the/DT
biological Biological/JJ
activities of activities/NNS of/IN
mitochondrial/JJ
mitochondrial Etiqueteur de Brill histone/NNP
histone
Abf2-protein … Abf2-protein/NNP …
26

13
30/12/2010

Démarches suivies par le Text Mining


Outils d’ingénierie du document

Collecte de documents
- Formalisation des données textuelles
Documents du domaine
- Etiquetage des textes (date, auteur, ...)

Outils de fouille Traitement linguistique


- Extraction de
connaissances (des règles Outils d’ingénierie du langage
d’association, calcul
statistique) Extraction de - Extraction des termes
connaissances- Filtrage
g des termes
- Indexation des documents
- Création d’une taxonomie
- Regroupement des documents par
les termes qui leur sont associés
Outil de visualisation
et navigation Interprétation
Explorer et analyser les
27
résultats

Etapes de la Fouille de textes

1. Sélection du corpus (data selection)


2 Extraction
2. E t ti terminologique
t i l i
z extraction des termes
z filtrage des termes extraits
3. Classification
z automatique
q ((clustering)
g)
z taxonomie (classement)
4. Visualisation des données : cartographie (graphes, ...)
5. Interprétation des résultats
28

14
30/12/2010

Extraction terminologique

z Extraction des termes


z Filtrage des termes extraits

Extraction de termes
z Fonction : extraction et tri automatiques de
candidats termes
termes.
z Méthodes d’extraction
z statistiques
z segments répétés
z morpho-syntaxiques
z repérage de patrons
z analyse syntaxique partielle
z Critères de tris numériques
z fréquence d’occurrences dans le corpus
30

15
30/12/2010

Lexter, un extracteur de candidats termes


z Explore un corpus étiqueté syntaxiquement
z Analyse robuste de textes techniques ou scientifiques

z Extrait des syntagmes nominaux complexes


z Recherche à l’aide de patrons en négatif (recherche et
rejette les séparateurs de candidats termes)

z Points forts :
z résolution des associations ambiguës d’adjectifs et de
prépositions (ou syntagmes prépositionnels) au sein
des groupes nominaux complexes.
31

Texte brut Lexter, un extracteur


de candidats termes
Etiquettage
syntaxique
Lexter, étape 1 : Découpage : Analyse de surface pour extraire
les Syntagmes Nominaux de Longueur Maximale (SNLM)
Texte étiqueté

système à mémoire de cas en anatomie pathologique


traits de signification pertinents des concepts sémantiques
Découpage
Lexter, étape 2, Parsing : analyse en profondeur pour
décomposer récursivement les SNLM
Syntagmes Nominaux
de Longueur Maximale
(SNLM) [ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ]
[ [ [ traits de signification ] pertinents ] des [ concepts
Parsing
sémantiques ] ]

Réseau de
candidats termes
32

16
30/12/2010

Liste des candidats termes dont


«modèle conceptuel » est en
expansion

33

Classification

z Automatique (clustering)
z Taxonomie (classement)

17
30/12/2010

Classification conceptuelle

Moyens de
M d
classification transports
conceptuelle

bateaux voitures

Ensemble
de connaissances
Classification conceptuelle 35

Définitions 1

z Classification
z Action
A ti ded di
distribuer
t ib par classes,
l par catégories
té i
z Résultat de cette action
z Classe
z ensemble d’individus ou d’objets qui ont des caractères
communs
z Classer
z Di i
Diviser ett répartir
é ti en classes
l
z Classifier
z Répartir selon une classification

36

18
30/12/2010

Définitions 2

z Le terme classification est ambigu ; ne sépare pas


z l’action de création de classes ~= classer
z l’action d’affectation à une classe = classifier

z En anglais : un terme non ambigu


z A clustering = a cluster = un regroupement
z « A grouping of a number of similar things »
z To cluster

37

Classification / Clustering

Classification: Apprentissage supervisé :


Apprendre une méthode pour prédire la classe
d'un élément à partir d'éléments déjà classés

38

19
30/12/2010

Clustering

Apprentissage non supervisé


Trouver les classes naturelles
(implicites) pour rassembler des
données non étiquetées

39

Définitions 3
z Taxinomie, taxonomie
z Étude théorique des bases,
bases lois,
lois règle
règle, principes d’une
classification
z Classification des plantes, animaux, microbes, science
fondatrice de la biologie
z Livre : « L’analyse des données, La taxinomie »,
J.B. Benzécri, 1973, Dunod
z Taxinomie des syntagmes !!!

z Catégorisation (plus spécifique que classe)


z Classement par catégories, notamment en linguistique, en
psychologie sociale

40

20
30/12/2010

Classification supervisée :
classes des documents

z articles scientifiques à regrouper en paquets


homogènes
z thème général (mathématique, physique,
littérature …)
z date de publication, nom des auteurs
z Ceux qui traitent à la fois d’informatique et de
biologie
z Ceux qui se ressemblent
selon un certain critère
z Des critères précis aux critères vagues
41

Qui classe?

z Du travail de documentaliste, supervisée, qui


crée des classes de documents, avec des
critères humains, classes avec des étiquettes.

z Au travail automatique réalisé par une


machine, qui répartit des documents en
classes selon des critères logiques et/ou
mathématiques, à partir d'un classement initial.

42

21
30/12/2010

Création de classes de documents

z De manière supervisée :
z classes étiquetées préalablement (sports et
loisirs, art et culture…)
z classement par des humains (coûteux)
z Google : 20 000 évaluateurs volontaires ODP
(Open Directory Project)

43

Visualisation
des données
z Carthographie (graphes, ...)

22
30/12/2010

Visualisation des résultats de l’analyse Lexter

45

Au niveau inter-document

z Les opérations de «Text mining» ont pour objet la


distribution de concepts au niveau inter-document.

z But : découvrir les concepts et leurs rapports tels


qu’ils se trouvent dans la collection considérée comme
un tout.

46

23
30/12/2010

Relations conceptuelles

z Un instrument central de la fouille de données


textuelles est l’analyse des relations conceptuelles
(concept relationships)
z Une collection d’éléments séparés (documents)
z Chaque document représente un ensemble de concepts
(termes)

47

Analyse des relations conceptuelles

z L’analyse des relations conceptuelles cherche à découvrir


les rapports entre concepts, tels qu’ils peuvent être dégagés
de la totalité du corpus disponible

48

24
30/12/2010

Exemple

z Un nombre croissant de documents (articles


(articles, brevets) à
propos de la société Y et le produit Z peut indiquer un
changement d’orientation concernant les intérêts de la
firme
¾ L’information n’est pas fournie par un seul document isolé,
mais par l’ensemble de la collection

49

Veille Technologique assistée par la FT

z Le domaine de la veille technologique vise à :


z récolter, traiter, et analyser des informations
scientifiques et techniques utiles aux acteurs
économiques.
z L’idée est :
z d utiliser des techniques de fouille de textes pour
d’utiliser
automatiser le processus de traitement des données
issues de bases de textes scientifiques.

50

Fouille de Données Textuelles (Text Mining)

25
30/12/2010

Veille Technologique assistée par la FT

z Toutefois, la veille introduit une difficulté inhabituelle par


rapport aaux domaines d’application classiq
classiqueses des
techniques de FT:
z au lieu de rechercher de la connaissance fréquente cachée dans les
données, il faut rechercher de la connaissance inattendue.

z Exp. Système UnexpectedMiner dans lequel de nouvelles


mesures permettent d’estimer le caractère inattendu d’un
document. Le système est évalué sur une base de résumés
d’articles dans le domaine de l’apprentissage automatique.
51

Fouille de Données Textuelles (Text Mining)

Catégorisation de textes

Objectif : prédire la catégorie d'un document


( ti
(pertinent/
t/ non pertinent)
ti t)
z documents considérés comme des «sacs de mots»

z sélection des descripteurs (mots) pertinents pour la


prédiction
z apprentissage supervisé d'un modèle de prédiction
z n-grammes
n grammes [Jalam et Chauchat,
Cha chat 2002] [Damashek
[Damashek, 1995]
z Latent Semantic Analysis (LSA) [Landauer et al., 98]
[Dumais, 92]
z Support Vector Machines (SVM)

52

26
30/12/2010

Catégorisation de textes (exemple)

z Définition d'un filtre de Spam


z Classer en Spam ou non le courriel.
z Analyse des en-têtes et du corps des messages
z Règles établies manuellement avec pondération
par un réseau de neurone : SpamAssassin
z Utilisation
z Filtrage des courriels indésirables.
z Classement par auteur, par thèmes de textes.

53

Text Mining Solutions

54

27
30/12/2010

Normalisation

z Objectif : diminuer le bruit et améliorer la qualité du


processus global
l b l
z Unification des formats (ISO, : : :)
z Détection et correction des fautes d'orthographe
z Utilisation massive de patrons et de lexiques
Patrons de normalisation de dates :
mm/jj/aa ! jj/mm/aa
jj[-/ ]mm[-/ ]aa ! jj mois(mm) aa
z Suppression d'éléments tels que date, références
bibliographiques, …
55

Normalisation (suite)

z Application d'un «Tokenizer» pour découper le


textes en tokens
k ((mots et ponctuation)
i )
z Découpage en phrases du texte
z Application d'un lemmatiseur (masculin
singulier)
z Application d'un radicaliseur ((stemming)
g)
(suppression des préfixes et suffixes)

56

28

Vous aimerez peut-être aussi