Segmentation Thématique de Textes

Segmentation thématique de textes :
au-delà de la récurrence lexicale
Olivier Ferret
LIC2M
CEA LIST
1
Problème abordé
• Analyse thématique
– Segmentation thématique (axe syntagmatique)
• délimiter des segments de document thématiquement homogènes
– Identification thématique (axe paradigmatique)
• identifier les thèmes des documents et de leurs segments
– Structuration thématique (axe fonctionnel)
• mettre en évidence les relations thématiques entre les segments
• Applications
– segmentation d’un flot textuel continu (transcriptions audio)
• segmentation thématique
– filtrage et classification de documents
• identification thématique
– résumé automatique
• structuration thématique
2
Un exemple
Grève de vingt-quatre heures sur les plates-formes pétrolières
de mer du Nord
Les ouvriers des plates-formes de mer du Nord, qui demandent
depuis plusieurs semaines la reconnaissance officielle de leur
Segment 1 syndicat, l’amélioration des mesures de sécurité et la réintégration
Grève d’employés licenciés pour faits de grève, ont entrepris mercredi 12
Identité thématique
septembre une nouvelle grève de vingt-quatre heures.

Cette nouvelle a inquiété le marché pétrolier, sensible aux moindres
Segment 2 menaces pesant sur la production. Le brut brent britannique a
Marché encore progressé mercredi à 30,95 dollars le baril, contre 30,65
pétrolier dollars la veille.
Selon un représentant du syndicat, la grève a été suivie par
plusieurs centaines d’ouvriers. Shell et BP, les deux compagnies
Segment 3 visées, indiquaient toutefois en milieu de journée que la production
Grève n’était pas affectée. Cinq arrêts de travail similaires avaient eu lieu
le mois dernier. (AFP)
Le Monde - 14 septembre 1990
3
Thème 1 : grève ; Thème 2 : marché pétrolier
Différents moyens de segmenter
• Segmentation fondée sur le contenu
– thème : caractérisé par un vocabulaire spécifique
– changement de vocabulaire  changement de thème
– plus généralement, ruptures de la cohésion lexicale dans les textes
• cohésion lexicale (Halliday & Hasan) : relations entre les mots d’un texte
rendant compte de son caractère textuel
– réitération (curé – prêtre) et collocation (voleur – policier)
• Repérage des marques de changement de thème
– présence de marques linguistiques explicites marquant un changement
de thème
– oral : temps de pause des locuteurs, prosodie …
– écrit : connecteurs, introducteurs de cadres thématiques …
• cadre (Charolles) : contexte d’un état ou d’une série d’événements
• introducteurs de cadre thématique
– En ce qui concerne la croissance, Au sujet des élections à venir,
4
Problématique (1)
• Base commune des méthodes de segmentation
thématique fondées sur le contenu
– définition d'unités textuelles élémentaires (phrases)
– segment = ensemble d'unités textuelles contiguës jugées
thématiquement proches
– transformation des unités textuelles en vecteurs de mots (modèle
Vector Space)
– évaluation de la proximité thématique de deux unités (ou
regroupements d'unités) grâce à une mesure de similarité entre leurs
vecteurs
• si similarité entre vecteurs > seuil  unités jugées thématiquement
proches et réunies dans le même segment
• Rôle central de la similarité entre unités textuelles
5
Problématique (2)
• Évaluation de la similarité entre unités textuelles
– critère de base : récurrence lexicale (réitération stricte)
• évaluation fondée sur le nombre de mots communs entre unités
– extensions (réitération et collocation)

• utilisation de connaissances externes pour prendre en compte les
proximités sémantiques entre mots (synonymie, hyperonymie …)
– construites manuellement : WordNet, Roget Thesaurus …
– construites automatiquement : cooccurrences lexicales
• projection dans un espace sémantique construit à partir de corpus
– Analyse Sémantique Latente, Local Context Analysis
6
Approches proposées
• Base commune
– méthode de segmentation fondée sur la récurrence lexicale
• Extension de type endogène
– utilisation du document traité comme « source de connaissances »
• construire une représentation des thèmes du document
• similarité = mots communs + mots appartenant aux mêmes thèmes
• Extension de type exogène
– utilisation des relations d’un réseau de cooccurrences lexicales
• construction du réseau de cooccurrences à partir d’un corpus
• similarité = mots communs + mots liés dans le réseau de cooccurrences
• Combinaison des approches endogène et exogène
– similarité = mots communs + mots  mêmes thèmes + mots liés dans
le réseau
7
Segmenter avec la récurrence lexicale
• Principes
– même cadre général que celui adopté par Hearst pour TextTiling +
modifications au niveau de chaque étape
• Les 3 étapes issues de TextTiling

– prétraitement linguistique du document
• normalisation des mots : analyse morphologique + étiquetage morpho-
syntaxique (TreeTagger)
• sélection des mots pleins (i.e. mots non grammaticaux)
• représentation des phrases sous forme de vecteurs
– évaluation de la cohésion lexicale au sein du document
– identification des changements de thèmes sur la base des ruptures

de la cohésion lexicale
8
Évaluation de la cohésion lexicale (1)
• Fenêtre glissante sur le document
– unité de déplacement : phrase
• Mesure de similarité entre les deux volets de la fenêtre

2 x # mots communs
cœfficient de Dice =
# mots volet droit + # mots volet gauche
Phrases
Cohésion
9
Évaluation de la cohésion lexicale (2)
0,3
0,25
0,2
cohésion
0,15
0,1
0,05
0
0 10 20 30 40 50 60 70
position
10
Identification des changements de thème (1)
• Score de probabilité d'un minimum de la courbe de
cohésion de correspondre à un changement de thème
– différence de cohésion entre le minimum et ses maxima environnants
max1
max2
coh(max1 )  coh(max 2 )  2  coh(min)
score(min) 
2
min
• Suppression des changements de thème trop proches

• Sélection des changements de thème
– minima dont le score dépasse un seuil s'adaptant à la distribution des
scores
• seuil = moyenne(scores) -  . écart-type(scores)
11
Identification des changements de thème (2)
0,3
0,25
0,2
cohésion
0,15
0,1
0,05 seuil
0
0 10 20 30 40 50 60 70
position
12
Approche endogène
• Association de tâches généralement séparées
– segmentation et identification thématiques
• Principe général
– comment les résultats de l’identification thématique peuvent aider la
segmentation ?
• 2 étapes
– Découverte des thèmes d’un document
• identification thématique non supervisée
– Intégration des thèmes découverts dans le processus de
segmentation
• évaluation de la cohésion lexicale : relations de récurrence stricte +
relations thématiques
• prise en compte à un niveau local des relations lexicales existant plus
globalement dans un document
13
Identification thématique : principes
• Identification non supervisée
– pas de référence à des thèmes externes
– thème = sous-ensemble du vocabulaire du document
• Hypothèse
– les mots d’un même thème ont tendance à apparaître à proximité les
uns des autres au sein d'un document
• Méthode
– collecter les cooccurrences entre mots au sein du document
– évaluer la proximité des mots suivant leurs cooccurrents
– classifier les mots du document selon leur proximité
• classification non supervisée
• classe = thème
14
Évaluation de la proximité des mots
• Même prétraitement linguistique du document que pour la
segmentation
• Collecte des cooccurrences entre mots
– déplacement d'une fenêtre de taille fixe sur le document prétraité
(unité de déplacement : mot sélectionné)
– enregistrement des cooccurrences entre le premier mot de la
fenêtre et les suivants
– pas de prise en compte de l'ordre des cooccurrents
– résultat = un vecteur de cooccurrents / mot sélectionné
• Proximité thématique des mots du document
– calcul de la matrice de similarité des mots du document
• application de la mesure Cosinus entre leurs vecteurs de
cooccurrents
15
Découverte des thèmes d'un document
• Classification non supervisée des mots du document
– application de l'algorithme Shared Nearest Neighbors (SNN, Ertöz,
Kumar et Steinbach, 2001)
• Algorithme SNN
– Construction d’un graphe de similarité à partir de la matrice de proximité
thématique des mots du document
• nœud : mot sélectionné du document
• arête : lie deux mots de proximité non nulle ; poids de l'arête = proximité
des mots qu'elle relie
– Éclaircissement du graphe de similarité par limitation du nombre de
voisins (seuil sur les valeurs de proximité)
– Transposition des relations : proximité entre 2 mots  nombre de
voisins partagés par les 2 mots
– Détection de composantes de forte densité dans le graphe des voisins
partagés
16
Détection des composantes de forte densité (1)
• Graphe des voisins partagés
0
0 0
1 1
2
2
1 1
1
1 1
0 1
1
2
2 2
2
2
2
1 : nombre de voisins partagés
relation dans le graphe de mot du document
similarité
19
• Sélection des liens forts
– filtrage sur le nombre de voisins partagés
• Caractérisation des mots par leur nombre de liens forts

1 0 0
0
0 1
2
3 0
0
3
3
seuil liens forts = 2
3
2 : nombre de liens forts
20
• Suppression des mots avec peu de liens forts
• Germes des thèmes : mots avec beaucoup de liens forts
• Rattachement des mots restant au germe le plus proche
(si suffisamment proche)
1 0
0
0 1
2 0
3 0
0
3
3 seuil germe = 2
germe de thème seuil élimination = 0

3
mot supprimé seuil rattachement = 1
21
Illustration de la découverte de thèmes
• « Mélange » de 2 textes sur des thèmes différents
 redécouverte des 2 thèmes
Thème « vache folle » Thème « fabrication de skis »

folle, fédéral, cas, fabricant, Streule, marché,
devenir, vache, bovin, paire, production, ski,
infecter, maladie, ESB, Stöckli, Suisse, indiquer,
humain, déclarer directeur, année, entreprise
dernier
22
Segmentation intégrant les thèmes découverts
• Intégration faite au niveau de l'évaluation de la cohésion
– détermination des thèmes représentatifs du contenu de la fenêtre
• mesure Cosinus entre la représentation d'un thème et chaque volet de la
fenêtre
• thème représentatif (TR) = thème suffisamment proche de chacun des 2
volets de la fenêtre
– calcul de la cohésion selon les thèmes découverts
# (volet droit  {TRi} – Mréc) + # (volet gauche  {TRi} – Mréc)
Mréc = volet droit  volet gauche

• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(thèmes)
• Pas de changement au niveau des deux autres étapes
23
Approche exogène
• Utilisation d’un réseau de cooccurrence lexicales
– facile à construire automatiquement à partir d’un corpus
– source de connaissance privilégiée sur les relations de cohésion lexicale
au sein des textes
 associations lexicales les plus significatives observées dans les
textes
• Exploitation conjointe de 2 sources de cohésion

• récurrence lexicale
• relations issues du réseau de cooccurrences
 toute source de connaissances est nécessairement incomplète (noms

propres, termes spécialisés …)
24
Réseau de cooccurrences lexicales
• Méthode de construction
– prétraitement des textes : sélection des mots pleins
– comptage des cooccurrences au sein d'une fenêtre glissante
– accent mis sur les relations sémantiques et pragmatiques
• taille : 20 mots (environ 50 mots avant sélection)
• pas d'ordre : m1 - m2 équivalent à m2 - m1
• respect des frontières de texte
– cohésion entre mots : information mutuelle normalisée
– filtrage des cooccurrences les moins significatives
• fréquence < 10 ; cohésion < 0,1
• Réseau pour le Français

– 24 mois du journal Le Monde (~ 40 millions de mots)
• ~ 23 000 lemmes et 5 milions de cooccurrences
25
Exemples de cooccurrences
lemme 1 lemme 2 fréquence cohésion « type »
policier cambriolage 13 0,19 thématique
bateau voilier 125 0,22 hyperonymie
prendre racine 120 0,11 collocation
collision franc 7 0,08 « bruit »
livre intranquilité 23 0,20 « bruit »
26
Exemple : graphe des cooccurrents de organe
27
Utiliser des cooccurrences pour segmenter
• Mêmes principes d’intégration que précédemment
– intégration au niveau de l’évaluation de la cohésion lexicale
– pas de changement au niveau des deux autres étapes
• Évaluation de la cohésion lexicale
– sélection des mots des 2 volets les + fortement liés selon le réseau
• cooccurrences : fréquence  14 ; cohésion  0,14
• mot lié à au moins 2 mots de l’autre volet par le biais du réseau
→ Mcooc(volet {droit, gauche}) : mots sélectionnés du volet {droit, gauche}
– calcul de la cohésion selon les relations de cooccurrence
# (Mcooc(volet droit) – Mréc) + # (Mcooc(volet gauche) – Mréc)
– cohésion(récurrence lexicale) + cohésion(cooccurrences)
28
Combinaison des approches endogène et exogène
• Même principe que pour chaque approche

– combinaison au niveau de l’évaluation de la cohésion lexicale
– cohésion(récurrence lexicale) + cohésion(thèmes) +
cohésion(cooccurrences)
29
Évaluation : principes (1)
• Méthodologie de référence
– retrouver les frontières de documents ou de morceaux de documents
concaténés les uns à la suite des autres (cf. corpus de Choi)
• Problème
– la découverte de thèmes n'a pas de sens sur un assemblage de
morceaux de documents sans relations thématiques
 méthodologie inadaptée à l'évaluation de l'intérêt de l'utilisation de
l'identification thématique au niveau de la segmentation
• Adaptation de la méthodologie de référence
– ensemble de couples de documents relatifs à des thèmes différents
• utilisation des documents jugés positivement / topics CLEF
– découpage de chaque document d’un couple en segments de tailles
arbitraires (entre 3 et 11 phrases ; idem Choi)
– concaténation des segments en alternant un segment d'un document et
un segment de l'autre  document d'évaluation (10 segments)
30
Évaluation : principes (2)
Document Document
Topic10 Topic 88
Document
d’évaluation
bi-thématique
31
Évaluation : mesure
• Mesure d'erreur probabiliste Pk (Beeferman et al., 1997)
– jugement de couples de mots séparés par K mots
– K : moitié de la taille moyenne des segments de référence
– WindowDiff : variante tenant compte du nombre de frontières séparant
les couples de mots
référence (ref)
segmenteur (hyp) p1 p2 p3 p4 p5 p6 p7
OK : p4-p5 Fausses alarmes : p2-p3

ref : même segment ref : segments différents
hyp : même segment hyp : même segment
ou
p2-p4 ; p5-p6 Faux négatifs : p3-p4 ; p3-p5 ; p6-p7
ref : segments différents ref : même segment
hyp : segments différents hyp : segments différents
32
Évaluation : résultats de l’approche endogène
Français Anglais
Systèmes
Pk WinDiff Pk WinDiff
C99 (Choi, 2000) 27,57 35,42 21,63 30,64
U00 (Utiyama et Isahara, 2001) 25,91 27,42 19,42 21,22
TextTiling* 21,08 27,43 15,81 19,8
LCSeg (Galley et al., 2003) 20,55 28,31 14,78 19,73
F06 21,58 27,83 16,9 20,93
F06T 18,46 24,05 14,06 18,31
F06 : récurrence lexicale F06T : récurrence lexicale + thèmes
• Intérêt de la prise en compte des thèmes (F06T > *)

• Stabilité des résultats (Français vs Anglais)
• Faibles performances de méthodes telles que C99
• Forte différence du niveau moyen entre Français et Anglais
33
Évaluation : résultats globaux
Français
F06C : récurrence Systèmes
Pk WinDiff
lexicale +
C99 (Choi, 2000) 27,57 35,42
cooccurrences
U00 (Utiyama et Isahara, 2001) 25,91 27,42
TextTiling* 21,08 27,43
F06CT : récurrence
LCSeg (Galley et al., 2003) 20,55 28,31
lexicale +
F06 21,58 27,83
thèmes +
cooccurrences F06T 18,46 24,05
F06C 16,48 20,94
F06CT 14,59 18,41
• Intérêt des connaissances externes
– F06C > * de façon significative (sauf pour F06T), alors que significativité des résultats
plus contrastée pour F06T / LCSeg et TextTiling*
• Intérêt de la coopération entre approches endogène et exogène
– F06C > F06T mais pas significatif pour Pk
– F06CT > F06T significativement pour toutes les mesures
– mais différence entre F06C et F06CT pas significative
34
Perspectives
• Méthode
– combiner approches endogène et exogène pour l’identification
thématique
– utiliser les résultats de cette identification « étendue » au niveau de la
segmentation
• Évaluation
– utilisation de documents segmentés manuellement
• difficultés soulevées par (Bestgen et Piérard, TALN 2006)
– accords entre deux juges tout juste significatifs
– mais bon accord général sur une segmentation « moyenne »
– mauvaises performances des segmenteurs automatiques
– critères de segmentation des juges variables (segmentation fine / à
gros grain ; préférence donnée aux marques explicites)
35

Segmentation Thématique de Textes

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Segmentation Thématique de Textes

Transféré par

Droits d'auteur :

Formats disponibles

Segmentation thématique de textes :

au-delà de la récurrence lexicale

septembre une nouvelle grève de vingt-quatre heures.

• Rôle central de la similarité entre unités textuelles

– extensions (réitération et collocation)

• Les 3 étapes issues de TextTiling

– évaluation de la cohésion lexicale au sein du document

– identification des changements de thèmes sur la base des ruptures

• Mesure de similarité entre les deux volets de la fenêtre

• Suppression des changements de thème trop proches

• Caractérisation des mots par leur nombre de liens forts

germe de thème seuil élimination = 0

Thème « vache folle » Thème « fabrication de skis »

devenir, vache, bovin, paire, production, ski,

infecter, maladie, ESB, Stöckli, Suisse, indiquer,

humain, déclarer directeur, année, entreprise

# mots volet droit + # mots volet gauche

Mréc = volet droit  volet gauche

• Pas de changement au niveau des deux autres étapes

• Exploitation conjointe de 2 sources de cohésion

 toute source de connaissances est nécessairement incomplète (noms

• Réseau pour le Français

lemme 1 lemme 2 fréquence cohésion « type »

policier cambriolage 13 0,19 thématique

bateau voilier 125 0,22 hyperonymie

prendre racine 120 0,11 collocation

collision franc 7 0,08 « bruit »

livre intranquilité 23 0,20 « bruit »

• Même principe que pour chaque approche

OK : p4-p5 Fausses alarmes : p2-p3

• Intérêt de la prise en compte des thèmes (F06T > *)

Vous aimerez peut-être aussi