Académique Documents
Professionnel Documents
Culture Documents
Juan-Manuel TORRES-MORENO
Laboratoire d’Informatique d’Avignon
2006 TALN
PLAN
Approches de solution
Types de résumés
Architecture
Algorithme CORTEX
Modèle
Métriques
Tests
Textes en français / espagnol
Étude sur les métriques
Étude sur le lexique
Qualité du résumé
Conclusions
Compression
Résumés
Caractéristique
Source
Type Analyse Transformation Synthèse
Media
Juan-Manuel Torres LIA / 5
Langue Avignon
Et maintenant, un système réel...
Fonctions de Fonctions de
transformation d'extraction
3-grammes
3-grammes Mots
Mots
Paragraphes
Pages
…
Juan-Manuel Torres LIA / 10
Avignon
La transformation d’un texte (1)
UNIFS
(Termes) Unités
d'information:
Mots, N-grammes
SEGMENTS
Pages, phrases
2
UNIFS
(Termes)
3
...
j
SEGMENTS P
MATRICE Terme-Segment
1 1 1 1 0 0 0
2 0 1 0 0 0 1
UNIFS
(Termes) 0 0 0 1 1 0
3
...
j
1 1 0 1 0 0
SEGMENTS P 0 0 0 0 1 0
MATRICE Terme-Segment
1 tf tf tf 0 0 0
2 0 tf 0 0 0 tf
UNIFS
(Termes) 0 0 0 tf tf 0
3
....
j
tf tf 0 tf 0 0
SEGMENTS P 0 0 0 0 tf 0
MATRICE Terme-Segment
Binaire ξ
Discours de la Méthode
139 Segments 2922 Termes
3000 Mots
2500
présence du mot i dans le segment j
2000
Termes
1500
1000
500
0
0 20 40 60 80 100 120 140
Segment
17
Détection de styles ?
1,0
0,8
Richesse
Terme (normalisé)
0,6
du lexique
0,4
Descartes
0,2 Coran
INRA
0,0
0 100 200 300 400 500 600
Segment
Juan-Manuel Torres LIA / 18
Avignon
Modèle vectoriel
Terme 1
Phrase P Phrase 3
Phrase 1
Terme N
Phrase 2
Terme 2
Juan-Manuel Torres LIA / 19
Avignon
Modèle vectoriel
Terme 1
Phrase P Phrase 3
Phrase 1
Terme N
α
Phrase 2
Terme 2
Juan-Manuel Torres LIA / 20
Avignon
Modèle vectoriel
Terme 1
Doc 3
Doc P
Doc 1
Terme N
α
Doc 2
Terme 2
Juan-Manuel Torres LIA / 21
Avignon
Démarches technologiques
Condensés de textes
Extraction de phrases importantes
Résumés de textes
CORTEX
Pré-traitement
Dépendant de la langue
Filtrage
Indépendant de la langue
Lémmatisation
Segmentation
Algorithme de décision
23
Cortex : une machine à résumés
Textes
Texte AD Condensé
Conden-
AD sation
original
Métriques
Métriques
Post-traitement
Post-traitement
Pré-traitement
Pré-traitement N linguistique
linguistique
Segmentation
Nettoyage
Filtrage P
Racinisation
(Anaphores) Matrices Terme-
segment γ et ξ
Résumé
Conden-
sation 24
Exemple
• Texte « Puces»
– Invasion de puces et de poux : Puces Bio
Corpus de texte
English
CORTEX
CORTEX
… Lident
Lident
Deutsh
Español
Multilangue 29
Cortex : technologie
Multidocument
Texte
XML
XML Résumé
Résumé
original
CC OO RR TT EE XX
Texte
HTML
original
Texte
Unicode Texte
<Balisé>
original original
30
Cortex : technologie
XML
Texte
C)
HTML AD
AD
original
texte
regexp
Métriques
Métriques
Générateur
Générateur
crunch number surface
surface
regexp parallélisme
Pré-traitement
Pré-traitement B)
A) XML
texte 31
Segmenteur
Pre-
traitement
Générateur
A) Pre-traitement (perl)
• Segmentation
• Identification de titres
• Filtrage
• Lemmatisation/Stemming
• Anaphores
• Synonymes
• Génération des matrices
• Types
– Nb de mots fixe
– Par phrase
– Par paragraphe
• N phrases
• Détection de paragraphe
• Segmentation par phrase
– Delimiteurs <.> <:> <?> <!>
• Eliminer :
– Texte entre paréntheses ( bla blabla bla, bla )
– Nombres / chiffres (facultatif)
– Mots fonctionnels
• Articles, conjonctions,...
– Verbes fonctionnels
• Pas d’action ou d’état
– Expressions
• c’est-a-dire, alors que, peut être, ...
Juan-Manuel Torres LIA / 35
Avignon
Mots fonctionnels
• Mots ôtés du vocabulaire
• Lesquels?
– Mots très fréquents (statistique), mots-outils (linguistique : article,
coordination, pronom …)
– Ex : sur 2 ans de Le Monde les mots les plus fréquents sont:
de, la, l’, le, à, les, et, des, d’, en, un,du, une, …
– Ex: Le Petit Prince : le, de, je, il, et, les, un, la, petit, pas, à,
prince, ne, …
• Les mots-outils sont-ils vraiment inutiles?
– Utiles : typage de textes
– Utiles : reconnaissance de la parole
– Inutiles : indexation de documents
– Inutiles : résumé par extracts
Juan-Manuel Torres LIA / 36
Avignon
Verbes fonctionnels
• Verbe d’action : exprime une action
• donner, recevoir, chanter, courir, tomber…
• Verbe d’état : relation entre un sujet et son
attribut
• demeurer, devenir, être, sembler, paraître, rester
• Dictionnaire (simple)
– Listes de stop-words
• Noms
• Chiffres
• Verbes
• Apprentissage (moins simple)
– Markov
– Réseaux de neurones
– SVM
• Dictionnaire
– Listes de mots
• Apprentissage
– Markov
– Réseaux de neurones
– SVM
Dictionnaire
Dictionnaire
Heuristiques…
Stemming
Stemming
un chasseur
Règles… chanter ses
chanter
local %step2list;
local %step3list;
local ($c, $v, $C, $V, $mgr0, $meq1, $mgr1, $_v);
sub stem
{ my ($stem, $suffix, $firstch);
my $w = shift;
if (length($w) < 3) { return $w; } # length at least 3
# now map initial y to Y so that the patterns never treat it as vowel:
$w =~ /^./; $firstch = $&;
if ($firstch =~ /^y/) { $w = ucfirst $w; }
...
Juan-Manuel Torres LIA / 43
Avignon
Exemple « cognitif »
««Vous
Vousavez
avezreçu
reçuun
ungros
grosmontant
montantd'argent
d'argentpour
pourNoël
Noëletet
songez
songezààfaire
fairel’acquisition
l’acquisitionde
deplusieurs
plusieursordinateurs
ordinateurspour
pour
l’Université
l’Universitéd’Avignon.
d’Avignon.»»
FILTRAGE
FILTRAGE ++ LEMMATISATION
LEMMATISATION
{{ recevoir
recevoir gros
gros monter
monter argent
argent noël
noël songer
songer
acquérir
acquérir ordinateur
ordinateur université_avignon
université_avignon }}
• Décompression de matrices
• Calcul de métriques
• Algorithme de décision
• C/C++
• Java …
i =1
Algorithmede
Algorithme dedécision
décision
basésur
basé surlelevote
vote
OUI
OUI--NON
NON sur surlelechoix
choixd’un
d’un
segmentµµ, ,avec
segment avecune
uneprobabilité
probabilitépp 46
Les métriques
Détails, commentaires,…
Métriques
• Fréquentielles
– Fréquence
– Probabilités
– TF*IDF
• Informationnelles
– Entropie
– Interaction
• Hamming
– Poids, longueur, distances
• Titres
– Titres, sous-titres…
• Position
Juan-Manuel Torres LIA / 48
Avignon
Exemple
TEXTE . x A, x b . b 2 b x B b, a x x ( e x f ) B b B x b b ; b 1000 x x C x ! !
x x ,a x b, x D d ?
Matrice γ Matrice ξ
• Donc…
k éléments ≠ 0
P lignes
k lignes
• Mots bruts
• Fréquences : A=1, B=2, C=3, D=4,…
• Zéros : chiffres
• Type de phrase
* Normale
/ Titre
0 1 0 0 2 0 0 2 0 0 4 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0
11*1A2B2B2D8F8 Compression
Mots bruts
Phrase normale 56
1 Fréquence des mots Fµ
• Mots pertinents de la phrase µ
• Plus une phrase a des mots
importants, plus elle a des
chances d'être retenue
• Plus la phrase est longue, plus
elle peut avoir de mots
pertinents → plus elle a de
chances d'être retenue
• Résumés sont remplis
généralement de longues
phrases
Termes
i=1 i=2 i=3 i=4 F
Segments
µ=1 1 1 2
γ µ=2 1 10 1 12
µ=3 1 1 2 4
Σ = T = 18
lien mot
lien mot
lien mot
Seg 2
Seg 3
• On a la pondération
de cette phrase
Termes
i=1 i=2 i=3 i=4 I
Segments
µ=1 1 1 3
ξ µ=2 1 1 1 4
µ=3 1 1 1 3
Iµ = I 1 + I 2 + I 3 = 2 + 1 + 1 = 4