Fouille de Données
Textuelles
Contexte
z Quantité de documents électroniques en
croissance permanente
permanente.
1
30/12/2010
2
30/12/2010
La ffouille
L ill de
d données
d é textuelles
ll consiste
i en
l'analyse d'un volume important de documents
textuels pour fournir à l'utilisateur une vision
synthétique et interprétable de leur contenu.
z Objectifs
z Traduction automatique de textes.
z Dialogue homme machine.
z Inaccessibles a court terme
z Implique de comprendre les textes en profondeur.
z Nécessiterait d'avoir
d avoir une bonne connaissance du
monde extérieur.
z Même les humains ne sont souvent pas
d'accord sur l'interprétation d'un texte.
6
3
30/12/2010
z Objectifs
z Requêtes sur de grandes masses de textes.
z Catégorisation automatique de textes.
z Accessibles et effectifs
z Des objectifs beaucoup plus raisonnables et liés
aux besoins des entreprises et de leurs clients.
z Définition
z Les langages naturels sont utilisés par les
humains par opposition aux langages artificiels
compris par les machines.
z Exemple
z Langages naturels : français, anglais, espagnol,
etc.
z Langages artificiels : langages de programmation,
de modélisation, mathématique, etc.
4
30/12/2010
z Cause
z Principale difficulté : l'ambiguïté du langage naturel
naturel.
z La cause de cette ambiguïté vient de l'économie du
langage qui est faite lors de son utilisation.
z Exemple
Les fils tapissent la pièce. Trop de PCs s'y trouvent.
z Polysémie : fils,
fils tapissent,
tapissent pièce.
pièce Pièce de monnaie ou de
maison ?
z Abréviation PCs signifie Personal Computer.
z Référence : «y» réfère à la pièce.
10
5
30/12/2010
z Présentation
z Les textes traités sont composés d’éléments que
l'on extrait.
z Les éléments sont présentés par niveau
d'imbrication.
z Un élément de niveau supérieur utilise les
élé
élémentst dde niveaux
i iinférieurs.
fé i
z Reprend la structure du langage naturel.
11
Mot
z Définitions
1. Suite de symboles différents d'une ponctuation séparés
par des ponctuations.
2. Unité minimale de signification appartenant au lexique
appelé lexème.
z Exemple
z Le mot porte dans la phrase : Ceci est une «porte».
z Utilisation
z Le découpage en mot est une première étape nécessaire
a tout traitement ultérieur.
12
6
30/12/2010
Etiquette
z Définition
z Annotation d'un mot qui peut être grammaticale ou
sémantique.
z Exemple
z Nom, Verbe pour un étiquetage grammatical ou Lieu, Date
pour une extraction d'entités nommées.
z Utilisation
z Permet d’étiqueter les mots d'un texte pour trouver des
relations entre eux, extraire des entités nommées, des
termes,
z etc.
13
Relation
z Définition
z Annotation d'une relation entre deux ou plusieurs
mots qui peut être grammaticale ou sémantique.
z Exemple
z sujet-verbe pour une relation grammaticale ou
partie-de, part-of, pour un étiquetage sémantique
utilisable dans une ontologie.
g
z Utilisation
z A partir des étiquettes des mots trouve des
relations entre eux.
14
7
30/12/2010
Entité Nommée
z Définition
z Entité nommée impliquée dans un événement
ou un processus, qui n'est pas commune par
opposition aux noms communs.
z Exemple
z Personne, groupe, lieu, événement, marque.
z Utilisation
z Utilisé dans la plupart des systèmes de fouille
de textes, notamment question réponse.
15
Terme
z Définition
z Expression possédant un sens unique pour un
domaine particulier.
z Exemple
z Pièce dans le domaine monétaire.
z Utilisation
z Peut être utilisé pour catégoriser des textes ou
effectuer une indexation.
16
8
30/12/2010
2. Ressources de traitement
z Présentation
z Les textes sont traités à l'aide de ressources.
z Elaboration manuelle ou automatique à l'aide de
techniques d'apprentissage.
z Application des ressources : locale (mot courant)
ou contextuelle (mots courants et adjacents).
17
Corpus de textes
z Définition
z Ensemble de textes homogènes.
z Exemple
z Ensemble de textes de lois composées d'articles.
z Constitution
z Numérisation regroupement,
Numérisation, regroupement tri
tri, normalisation.
normalisation
18
9
30/12/2010
Lexique de mots
z Définition
z Liste de mots associés à une ou plusieurs
catégories.
z Exemple
z Liste de mots avec leurs étiquettes grammaticales :
Nom, Adjectif, Verbe, etc.
z Constitution
z Utilisation de dictionnaires et de corpus étiquetés.
19
Ensemble de règles
z Définition
z P
Pour l’é
l’étiquetage,
i lles relations
l i syntaxiques
i entre mots.
z Exemple
z Non contextuelle : mot terminé par un s ⇒ étiquette
pluriel.
z Contextuelle : nom suivant un nombre autre que «un»
⇒ étiquette pluriel
pluriel.
z Constitution
z Apprentissage à partir de corpus étiquetés
manuellement.
20
10
30/12/2010
Ontologie de concepts
z Définition
z Ensemble de mots et/ou concepts et de relations
entre eux.
z Exemple
z Salon partie-de Maison.
z Constitution
z Semi-automatique à l'aide d'une terminologie,
d'un classement manuel et d'induction.
21
3. Chaîne de traitement
22
11
30/12/2010
23
24
12
30/12/2010
25
Etiquetage
grammatical
13
30/12/2010
Collecte de documents
- Formalisation des données textuelles
Documents du domaine
- Etiquetage des textes (date, auteur, ...)
14
30/12/2010
Extraction terminologique
Extraction de termes
z Fonction : extraction et tri automatiques de
candidats termes
termes.
z Méthodes d’extraction
z statistiques
z segments répétés
z morpho-syntaxiques
z repérage de patrons
z analyse syntaxique partielle
z Critères de tris numériques
z fréquence d’occurrences dans le corpus
30
15
30/12/2010
z Points forts :
z résolution des associations ambiguës d’adjectifs et de
prépositions (ou syntagmes prépositionnels) au sein
des groupes nominaux complexes.
31
Réseau de
candidats termes
32
16
30/12/2010
33
Classification
z Automatique (clustering)
z Taxonomie (classement)
17
30/12/2010
Classification conceptuelle
Moyens de
M d
classification transports
conceptuelle
bateaux voitures
Ensemble
de connaissances
Classification conceptuelle 35
Définitions 1
z Classification
z Action
A ti ded di
distribuer
t ib par classes,
l par catégories
té i
z Résultat de cette action
z Classe
z ensemble d’individus ou d’objets qui ont des caractères
communs
z Classer
z Di i
Diviser ett répartir
é ti en classes
l
z Classifier
z Répartir selon une classification
36
18
30/12/2010
Définitions 2
37
Classification / Clustering
38
19
30/12/2010
Clustering
39
Définitions 3
z Taxinomie, taxonomie
z Étude théorique des bases,
bases lois,
lois règle
règle, principes d’une
classification
z Classification des plantes, animaux, microbes, science
fondatrice de la biologie
z Livre : « L’analyse des données, La taxinomie »,
J.B. Benzécri, 1973, Dunod
z Taxinomie des syntagmes !!!
40
20
30/12/2010
Classification supervisée :
classes des documents
Qui classe?
42
21
30/12/2010
z De manière supervisée :
z classes étiquetées préalablement (sports et
loisirs, art et culture…)
z classement par des humains (coûteux)
z Google : 20 000 évaluateurs volontaires ODP
(Open Directory Project)
43
Visualisation
des données
z Carthographie (graphes, ...)
22
30/12/2010
45
Au niveau inter-document
46
23
30/12/2010
Relations conceptuelles
47
48
24
30/12/2010
Exemple
49
50
25
30/12/2010
Catégorisation de textes
52
26
30/12/2010
53
54
27
30/12/2010
Normalisation
Normalisation (suite)
56
28