Académique Documents
Professionnel Documents
Culture Documents
Olivier Ferret
LIC2M
CEA LIST
1
Problème abordé
• Analyse thématique
– Segmentation thématique (axe syntagmatique)
• délimiter des segments de document thématiquement homogènes
– Identification thématique (axe paradigmatique)
• identifier les thèmes des documents et de leurs segments
– Structuration thématique (axe fonctionnel)
• mettre en évidence les relations thématiques entre les segments
• Applications
– segmentation d’un flot textuel continu (transcriptions audio)
• segmentation thématique
– filtrage et classification de documents
• identification thématique
– résumé automatique
• structuration thématique
2
Un exemple
Grève de vingt-quatre heures sur les plates-formes pétrolières
de mer du Nord
Les ouvriers des plates-formes de mer du Nord, qui demandent
depuis plusieurs semaines la reconnaissance officielle de leur
Segment 1 syndicat, l’amélioration des mesures de sécurité et la réintégration
Grève d’employés licenciés pour faits de grève, ont entrepris mercredi 12
Identité thématique
3
Thème 1 : grève ; Thème 2 : marché pétrolier
Différents moyens de segmenter
• Segmentation fondée sur le contenu
– thème : caractérisé par un vocabulaire spécifique
– changement de vocabulaire changement de thème
– plus généralement, ruptures de la cohésion lexicale dans les textes
• cohésion lexicale (Halliday & Hasan) : relations entre les mots d’un texte
rendant compte de son caractère textuel
– réitération (curé – prêtre) et collocation (voleur – policier)
• Repérage des marques de changement de thème
– présence de marques linguistiques explicites marquant un changement
de thème
– oral : temps de pause des locuteurs, prosodie …
– écrit : connecteurs, introducteurs de cadres thématiques …
• cadre (Charolles) : contexte d’un état ou d’une série d’événements
• introducteurs de cadre thématique
– En ce qui concerne la croissance, Au sujet des élections à venir,
4
Problématique (1)
• Base commune des méthodes de segmentation
thématique fondées sur le contenu
– définition d'unités textuelles élémentaires (phrases)
– segment = ensemble d'unités textuelles contiguës jugées
thématiquement proches
– transformation des unités textuelles en vecteurs de mots (modèle
Vector Space)
– évaluation de la proximité thématique de deux unités (ou
regroupements d'unités) grâce à une mesure de similarité entre leurs
vecteurs
• si similarité entre vecteurs > seuil unités jugées thématiquement
proches et réunies dans le même segment
5
Problématique (2)
• Évaluation de la similarité entre unités textuelles
– critère de base : récurrence lexicale (réitération stricte)
• évaluation fondée sur le nombre de mots communs entre unités
6
Approches proposées
• Base commune
– méthode de segmentation fondée sur la récurrence lexicale
• Extension de type endogène
– utilisation du document traité comme « source de connaissances »
• construire une représentation des thèmes du document
• similarité = mots communs + mots appartenant aux mêmes thèmes
• Extension de type exogène
– utilisation des relations d’un réseau de cooccurrences lexicales
• construction du réseau de cooccurrences à partir d’un corpus
• similarité = mots communs + mots liés dans le réseau de cooccurrences
• Combinaison des approches endogène et exogène
– similarité = mots communs + mots mêmes thèmes + mots liés dans
le réseau
7
Segmenter avec la récurrence lexicale
• Principes
– même cadre général que celui adopté par Hearst pour TextTiling +
modifications au niveau de chaque étape
8
Évaluation de la cohésion lexicale (1)
• Fenêtre glissante sur le document
– unité de déplacement : phrase
Phrases
Cohésion
9
Évaluation de la cohésion lexicale (2)
0,3
0,25
0,2
cohésion
0,15
0,1
0,05
0
0 10 20 30 40 50 60 70
position
10
Identification des changements de thème (1)
• Score de probabilité d'un minimum de la courbe de
cohésion de correspondre à un changement de thème
– différence de cohésion entre le minimum et ses maxima environnants
max1
max2
coh(max1 ) coh(max 2 ) 2 coh(min)
score(min)
2
min
11
Identification des changements de thème (2)
0,3
0,25
0,2
cohésion
0,15
0,1
0,05 seuil
0
0 10 20 30 40 50 60 70
position
12
Approche endogène
• Association de tâches généralement séparées
– segmentation et identification thématiques
• Principe général
– comment les résultats de l’identification thématique peuvent aider la
segmentation ?
• 2 étapes
– Découverte des thèmes d’un document
• identification thématique non supervisée
– Intégration des thèmes découverts dans le processus de
segmentation
• évaluation de la cohésion lexicale : relations de récurrence stricte +
relations thématiques
• prise en compte à un niveau local des relations lexicales existant plus
globalement dans un document
13
Identification thématique : principes
• Identification non supervisée
– pas de référence à des thèmes externes
– thème = sous-ensemble du vocabulaire du document
• Hypothèse
– les mots d’un même thème ont tendance à apparaître à proximité les
uns des autres au sein d'un document
• Méthode
– collecter les cooccurrences entre mots au sein du document
– évaluer la proximité des mots suivant leurs cooccurrents
– classifier les mots du document selon leur proximité
• classification non supervisée
• classe = thème
14
Évaluation de la proximité des mots
• Même prétraitement linguistique du document que pour la
segmentation
• Collecte des cooccurrences entre mots
– déplacement d'une fenêtre de taille fixe sur le document prétraité
(unité de déplacement : mot sélectionné)
– enregistrement des cooccurrences entre le premier mot de la
fenêtre et les suivants
– pas de prise en compte de l'ordre des cooccurrents
– résultat = un vecteur de cooccurrents / mot sélectionné
• Proximité thématique des mots du document
– calcul de la matrice de similarité des mots du document
• application de la mesure Cosinus entre leurs vecteurs de
cooccurrents
15
Découverte des thèmes d'un document
• Classification non supervisée des mots du document
– application de l'algorithme Shared Nearest Neighbors (SNN, Ertöz,
Kumar et Steinbach, 2001)
• Algorithme SNN
– Construction d’un graphe de similarité à partir de la matrice de proximité
thématique des mots du document
• nœud : mot sélectionné du document
• arête : lie deux mots de proximité non nulle ; poids de l'arête = proximité
des mots qu'elle relie
– Éclaircissement du graphe de similarité par limitation du nombre de
voisins (seuil sur les valeurs de proximité)
– Transposition des relations : proximité entre 2 mots nombre de
voisins partagés par les 2 mots
– Détection de composantes de forte densité dans le graphe des voisins
partagés
16
Détection des composantes de forte densité (1)
• Graphe des voisins partagés
0
0 0
1 1
2
2
1 1
1
1 1
0 1
1
2
2 2
2
2
2
1 : nombre de voisins partagés
relation dans le graphe de mot du document
similarité
19
Détection des composantes de forte densité (2)
• Sélection des liens forts
– filtrage sur le nombre de voisins partagés
3 0
0
3
3
seuil liens forts = 2
3
2 : nombre de liens forts
20
Détection des composantes de forte densité (3)
• Suppression des mots avec peu de liens forts
• Germes des thèmes : mots avec beaucoup de liens forts
• Rattachement des mots restant au germe le plus proche
(si suffisamment proche)
1 0
0
0 1
2 0
3 0
0
3
3 seuil germe = 2
dernier
22
Segmentation intégrant les thèmes découverts
• Intégration faite au niveau de l'évaluation de la cohésion
– détermination des thèmes représentatifs du contenu de la fenêtre
• mesure Cosinus entre la représentation d'un thème et chaque volet de la
fenêtre
• thème représentatif (TR) = thème suffisamment proche de chacun des 2
volets de la fenêtre
– calcul de la cohésion selon les thèmes découverts
# (volet droit {TRi} – Mréc) + # (volet gauche {TRi} – Mréc)
23
Approche exogène
• Utilisation d’un réseau de cooccurrence lexicales
– facile à construire automatiquement à partir d’un corpus
– source de connaissance privilégiée sur les relations de cohésion lexicale
au sein des textes
associations lexicales les plus significatives observées dans les
textes
24
Réseau de cooccurrences lexicales
• Méthode de construction
– prétraitement des textes : sélection des mots pleins
– comptage des cooccurrences au sein d'une fenêtre glissante
– accent mis sur les relations sémantiques et pragmatiques
• taille : 20 mots (environ 50 mots avant sélection)
• pas d'ordre : m1 - m2 équivalent à m2 - m1
• respect des frontières de texte
– cohésion entre mots : information mutuelle normalisée
– filtrage des cooccurrences les moins significatives
• fréquence < 10 ; cohésion < 0,1
25
Exemples de cooccurrences
26
Exemple : graphe des cooccurrents de organe
27
Utiliser des cooccurrences pour segmenter
• Mêmes principes d’intégration que précédemment
– intégration au niveau de l’évaluation de la cohésion lexicale
– pas de changement au niveau des deux autres étapes
• Évaluation de la cohésion lexicale
– sélection des mots des 2 volets les + fortement liés selon le réseau
• cooccurrences : fréquence 14 ; cohésion 0,14
• mot lié à au moins 2 mots de l’autre volet par le biais du réseau
→ Mcooc(volet {droit, gauche}) : mots sélectionnés du volet {droit, gauche}
– calcul de la cohésion selon les relations de cooccurrence
# (Mcooc(volet droit) – Mréc) + # (Mcooc(volet gauche) – Mréc)
# mots volet droit + # mots volet gauche
• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(cooccurrences)
28
Combinaison des approches endogène et exogène
• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(thèmes) +
cohésion(cooccurrences)
29
Évaluation : principes (1)
• Méthodologie de référence
– retrouver les frontières de documents ou de morceaux de documents
concaténés les uns à la suite des autres (cf. corpus de Choi)
• Problème
– la découverte de thèmes n'a pas de sens sur un assemblage de
morceaux de documents sans relations thématiques
méthodologie inadaptée à l'évaluation de l'intérêt de l'utilisation de
l'identification thématique au niveau de la segmentation
• Adaptation de la méthodologie de référence
– ensemble de couples de documents relatifs à des thèmes différents
• utilisation des documents jugés positivement / topics CLEF
– découpage de chaque document d’un couple en segments de tailles
arbitraires (entre 3 et 11 phrases ; idem Choi)
– concaténation des segments en alternant un segment d'un document et
un segment de l'autre document d'évaluation (10 segments)
30
Évaluation : principes (2)
Document Document
Topic10 Topic 88
Document
d’évaluation
bi-thématique
31
Évaluation : mesure
• Mesure d'erreur probabiliste Pk (Beeferman et al., 1997)
– jugement de couples de mots séparés par K mots
– K : moitié de la taille moyenne des segments de référence
– WindowDiff : variante tenant compte du nombre de frontières séparant
les couples de mots
référence (ref)
segmenteur (hyp) p1 p2 p3 p4 p5 p6 p7
33
Évaluation : résultats globaux
Français
F06C : récurrence Systèmes
Pk WinDiff
lexicale +
C99 (Choi, 2000) 27,57 35,42
cooccurrences
U00 (Utiyama et Isahara, 2001) 25,91 27,42
TextTiling* 21,08 27,43
F06CT : récurrence
LCSeg (Galley et al., 2003) 20,55 28,31
lexicale +
F06 21,58 27,83
thèmes +
cooccurrences F06T 18,46 24,05
F06C 16,48 20,94
F06CT 14,59 18,41
• Intérêt des connaissances externes
– F06C > * de façon significative (sauf pour F06T), alors que significativité des résultats
plus contrastée pour F06T / LCSeg et TextTiling*
• Intérêt de la coopération entre approches endogène et exogène
– F06C > F06T mais pas significatif pour Pk
– F06CT > F06T significativement pour toutes les mesures
– mais différence entre F06C et F06CT pas significative
34
Perspectives
• Méthode
– combiner approches endogène et exogène pour l’identification
thématique
– utiliser les résultats de cette identification « étendue » au niveau de la
segmentation
• Évaluation
– utilisation de documents segmentés manuellement
• difficultés soulevées par (Bestgen et Piérard, TALN 2006)
– accords entre deux juges tout juste significatifs
– mais bon accord général sur une segmentation « moyenne »
– mauvaises performances des segmenteurs automatiques
– critères de segmentation des juges variables (segmentation fine / à
gros grain ; préférence donnée aux marques explicites)
35