Vous êtes sur la page 1sur 33

Segmentation thématique de textes :

au-delà de la récurrence lexicale

Olivier Ferret
LIC2M
CEA LIST

1
Problème abordé
• Analyse thématique
– Segmentation thématique (axe syntagmatique)
• délimiter des segments de document thématiquement homogènes
– Identification thématique (axe paradigmatique)
• identifier les thèmes des documents et de leurs segments
– Structuration thématique (axe fonctionnel)
• mettre en évidence les relations thématiques entre les segments

• Applications
– segmentation d’un flot textuel continu (transcriptions audio)
• segmentation thématique
– filtrage et classification de documents
• identification thématique
– résumé automatique
• structuration thématique

2
Un exemple
Grève de vingt-quatre heures sur les plates-formes pétrolières
de mer du Nord
Les ouvriers des plates-formes de mer du Nord, qui demandent
depuis plusieurs semaines la reconnaissance officielle de leur
Segment 1 syndicat, l’amélioration des mesures de sécurité et la réintégration
Grève d’employés licenciés pour faits de grève, ont entrepris mercredi 12
Identité thématique

septembre une nouvelle grève de vingt-quatre heures.


Cette nouvelle a inquiété le marché pétrolier, sensible aux moindres
Segment 2 menaces pesant sur la production. Le brut brent britannique a
Marché encore progressé mercredi à 30,95 dollars le baril, contre 30,65
pétrolier dollars la veille.
Selon un représentant du syndicat, la grève a été suivie par
plusieurs centaines d’ouvriers. Shell et BP, les deux compagnies
Segment 3 visées, indiquaient toutefois en milieu de journée que la production
Grève n’était pas affectée. Cinq arrêts de travail similaires avaient eu lieu
le mois dernier. (AFP)
Le Monde - 14 septembre 1990

3
Thème 1 : grève ; Thème 2 : marché pétrolier
Différents moyens de segmenter
• Segmentation fondée sur le contenu
– thème : caractérisé par un vocabulaire spécifique
– changement de vocabulaire  changement de thème
– plus généralement, ruptures de la cohésion lexicale dans les textes
• cohésion lexicale (Halliday & Hasan) : relations entre les mots d’un texte
rendant compte de son caractère textuel
– réitération (curé – prêtre) et collocation (voleur – policier)
• Repérage des marques de changement de thème
– présence de marques linguistiques explicites marquant un changement
de thème
– oral : temps de pause des locuteurs, prosodie …
– écrit : connecteurs, introducteurs de cadres thématiques …
• cadre (Charolles) : contexte d’un état ou d’une série d’événements
• introducteurs de cadre thématique
– En ce qui concerne la croissance, Au sujet des élections à venir,

4
Problématique (1)
• Base commune des méthodes de segmentation
thématique fondées sur le contenu
– définition d'unités textuelles élémentaires (phrases)
– segment = ensemble d'unités textuelles contiguës jugées
thématiquement proches
– transformation des unités textuelles en vecteurs de mots (modèle
Vector Space)
– évaluation de la proximité thématique de deux unités (ou
regroupements d'unités) grâce à une mesure de similarité entre leurs
vecteurs
• si similarité entre vecteurs > seuil  unités jugées thématiquement
proches et réunies dans le même segment

• Rôle central de la similarité entre unités textuelles

5
Problématique (2)
• Évaluation de la similarité entre unités textuelles
– critère de base : récurrence lexicale (réitération stricte)
• évaluation fondée sur le nombre de mots communs entre unités

– extensions (réitération et collocation)


• utilisation de connaissances externes pour prendre en compte les
proximités sémantiques entre mots (synonymie, hyperonymie …)
– construites manuellement : WordNet, Roget Thesaurus …
– construites automatiquement : cooccurrences lexicales
• projection dans un espace sémantique construit à partir de corpus
– Analyse Sémantique Latente, Local Context Analysis

6
Approches proposées
• Base commune
– méthode de segmentation fondée sur la récurrence lexicale
• Extension de type endogène
– utilisation du document traité comme « source de connaissances »
• construire une représentation des thèmes du document
• similarité = mots communs + mots appartenant aux mêmes thèmes
• Extension de type exogène
– utilisation des relations d’un réseau de cooccurrences lexicales
• construction du réseau de cooccurrences à partir d’un corpus
• similarité = mots communs + mots liés dans le réseau de cooccurrences
• Combinaison des approches endogène et exogène
– similarité = mots communs + mots  mêmes thèmes + mots liés dans
le réseau

7
Segmenter avec la récurrence lexicale
• Principes
– même cadre général que celui adopté par Hearst pour TextTiling +
modifications au niveau de chaque étape

• Les 3 étapes issues de TextTiling


– prétraitement linguistique du document
• normalisation des mots : analyse morphologique + étiquetage morpho-
syntaxique (TreeTagger)
• sélection des mots pleins (i.e. mots non grammaticaux)
• représentation des phrases sous forme de vecteurs

– évaluation de la cohésion lexicale au sein du document

– identification des changements de thèmes sur la base des ruptures


de la cohésion lexicale

8
Évaluation de la cohésion lexicale (1)
• Fenêtre glissante sur le document
– unité de déplacement : phrase

• Mesure de similarité entre les deux volets de la fenêtre


2 x # mots communs
cœfficient de Dice =
# mots volet droit + # mots volet gauche

Phrases

Cohésion

9
Évaluation de la cohésion lexicale (2)

0,3

0,25

0,2
cohésion

0,15

0,1

0,05

0
0 10 20 30 40 50 60 70
position

10
Identification des changements de thème (1)
• Score de probabilité d'un minimum de la courbe de
cohésion de correspondre à un changement de thème
– différence de cohésion entre le minimum et ses maxima environnants
max1
max2
coh(max1 )  coh(max 2 )  2  coh(min)
score(min) 
2
min

• Suppression des changements de thème trop proches


• Sélection des changements de thème
– minima dont le score dépasse un seuil s'adaptant à la distribution des
scores
• seuil = moyenne(scores) -  . écart-type(scores)

11
Identification des changements de thème (2)

0,3

0,25

0,2
cohésion

0,15

0,1

0,05 seuil

0
0 10 20 30 40 50 60 70
position

12
Approche endogène
• Association de tâches généralement séparées
– segmentation et identification thématiques
• Principe général
– comment les résultats de l’identification thématique peuvent aider la
segmentation ?
• 2 étapes
– Découverte des thèmes d’un document
• identification thématique non supervisée
– Intégration des thèmes découverts dans le processus de
segmentation
• évaluation de la cohésion lexicale : relations de récurrence stricte +
relations thématiques
• prise en compte à un niveau local des relations lexicales existant plus
globalement dans un document

13
Identification thématique : principes
• Identification non supervisée
– pas de référence à des thèmes externes
– thème = sous-ensemble du vocabulaire du document

• Hypothèse
– les mots d’un même thème ont tendance à apparaître à proximité les
uns des autres au sein d'un document

• Méthode
– collecter les cooccurrences entre mots au sein du document
– évaluer la proximité des mots suivant leurs cooccurrents
– classifier les mots du document selon leur proximité
• classification non supervisée
• classe = thème

14
Évaluation de la proximité des mots
• Même prétraitement linguistique du document que pour la
segmentation
• Collecte des cooccurrences entre mots
– déplacement d'une fenêtre de taille fixe sur le document prétraité
(unité de déplacement : mot sélectionné)
– enregistrement des cooccurrences entre le premier mot de la
fenêtre et les suivants
– pas de prise en compte de l'ordre des cooccurrents
– résultat = un vecteur de cooccurrents / mot sélectionné
• Proximité thématique des mots du document
– calcul de la matrice de similarité des mots du document
• application de la mesure Cosinus entre leurs vecteurs de
cooccurrents

15
Découverte des thèmes d'un document
• Classification non supervisée des mots du document
– application de l'algorithme Shared Nearest Neighbors (SNN, Ertöz,
Kumar et Steinbach, 2001)

• Algorithme SNN
– Construction d’un graphe de similarité à partir de la matrice de proximité
thématique des mots du document
• nœud : mot sélectionné du document
• arête : lie deux mots de proximité non nulle ; poids de l'arête = proximité
des mots qu'elle relie
– Éclaircissement du graphe de similarité par limitation du nombre de
voisins (seuil sur les valeurs de proximité)
– Transposition des relations : proximité entre 2 mots  nombre de
voisins partagés par les 2 mots
– Détection de composantes de forte densité dans le graphe des voisins
partagés

16
Détection des composantes de forte densité (1)
• Graphe des voisins partagés
0
0 0
1 1
2
2
1 1
1
1 1
0 1
1
2
2 2
2
2
2
1 : nombre de voisins partagés
relation dans le graphe de mot du document
similarité

19
Détection des composantes de forte densité (2)
• Sélection des liens forts
– filtrage sur le nombre de voisins partagés

• Caractérisation des mots par leur nombre de liens forts


1 0 0
0
0 1
2

3 0
0
3
3
seuil liens forts = 2
3
2 : nombre de liens forts

20
Détection des composantes de forte densité (3)
• Suppression des mots avec peu de liens forts
• Germes des thèmes : mots avec beaucoup de liens forts
• Rattachement des mots restant au germe le plus proche
(si suffisamment proche)
1 0
0
0 1
2 0

3 0
0
3
3 seuil germe = 2

germe de thème seuil élimination = 0


3
mot supprimé seuil rattachement = 1
21
Illustration de la découverte de thèmes
• « Mélange » de 2 textes sur des thèmes différents
 redécouverte des 2 thèmes

Thème « vache folle » Thème « fabrication de skis »


folle, fédéral, cas, fabricant, Streule, marché,

devenir, vache, bovin, paire, production, ski,

infecter, maladie, ESB, Stöckli, Suisse, indiquer,

humain, déclarer directeur, année, entreprise

dernier

22
Segmentation intégrant les thèmes découverts
• Intégration faite au niveau de l'évaluation de la cohésion
– détermination des thèmes représentatifs du contenu de la fenêtre
• mesure Cosinus entre la représentation d'un thème et chaque volet de la
fenêtre
• thème représentatif (TR) = thème suffisamment proche de chacun des 2
volets de la fenêtre
– calcul de la cohésion selon les thèmes découverts
# (volet droit  {TRi} – Mréc) + # (volet gauche  {TRi} – Mréc)

# mots volet droit + # mots volet gauche

Mréc = volet droit  volet gauche


• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(thèmes)

• Pas de changement au niveau des deux autres étapes

23
Approche exogène
• Utilisation d’un réseau de cooccurrence lexicales
– facile à construire automatiquement à partir d’un corpus
– source de connaissance privilégiée sur les relations de cohésion lexicale
au sein des textes
 associations lexicales les plus significatives observées dans les
textes

• Exploitation conjointe de 2 sources de cohésion


• récurrence lexicale
• relations issues du réseau de cooccurrences

 toute source de connaissances est nécessairement incomplète (noms


propres, termes spécialisés …)

24
Réseau de cooccurrences lexicales
• Méthode de construction
– prétraitement des textes : sélection des mots pleins
– comptage des cooccurrences au sein d'une fenêtre glissante
– accent mis sur les relations sémantiques et pragmatiques
• taille : 20 mots (environ 50 mots avant sélection)
• pas d'ordre : m1 - m2 équivalent à m2 - m1
• respect des frontières de texte
– cohésion entre mots : information mutuelle normalisée
– filtrage des cooccurrences les moins significatives
• fréquence < 10 ; cohésion < 0,1

• Réseau pour le Français


– 24 mois du journal Le Monde (~ 40 millions de mots)
• ~ 23 000 lemmes et 5 milions de cooccurrences

25
Exemples de cooccurrences

lemme 1 lemme 2 fréquence cohésion « type »

policier cambriolage 13 0,19 thématique

bateau voilier 125 0,22 hyperonymie

prendre racine 120 0,11 collocation

collision franc 7 0,08 « bruit »

livre intranquilité 23 0,20 « bruit »

26
Exemple : graphe des cooccurrents de organe

27
Utiliser des cooccurrences pour segmenter
• Mêmes principes d’intégration que précédemment
– intégration au niveau de l’évaluation de la cohésion lexicale
– pas de changement au niveau des deux autres étapes
• Évaluation de la cohésion lexicale
– sélection des mots des 2 volets les + fortement liés selon le réseau
• cooccurrences : fréquence  14 ; cohésion  0,14
• mot lié à au moins 2 mots de l’autre volet par le biais du réseau
→ Mcooc(volet {droit, gauche}) : mots sélectionnés du volet {droit, gauche}
– calcul de la cohésion selon les relations de cooccurrence
# (Mcooc(volet droit) – Mréc) + # (Mcooc(volet gauche) – Mréc)
# mots volet droit + # mots volet gauche

• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(cooccurrences)

28
Combinaison des approches endogène et exogène

• Même principe que pour chaque approche


– combinaison au niveau de l’évaluation de la cohésion lexicale

• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(thèmes) +
cohésion(cooccurrences)

29
Évaluation : principes (1)
• Méthodologie de référence
– retrouver les frontières de documents ou de morceaux de documents
concaténés les uns à la suite des autres (cf. corpus de Choi)
• Problème
– la découverte de thèmes n'a pas de sens sur un assemblage de
morceaux de documents sans relations thématiques
 méthodologie inadaptée à l'évaluation de l'intérêt de l'utilisation de
l'identification thématique au niveau de la segmentation
• Adaptation de la méthodologie de référence
– ensemble de couples de documents relatifs à des thèmes différents
• utilisation des documents jugés positivement / topics CLEF
– découpage de chaque document d’un couple en segments de tailles
arbitraires (entre 3 et 11 phrases ; idem Choi)
– concaténation des segments en alternant un segment d'un document et
un segment de l'autre  document d'évaluation (10 segments)

30
Évaluation : principes (2)

Document Document
Topic10 Topic 88

Document
d’évaluation
bi-thématique

31
Évaluation : mesure
• Mesure d'erreur probabiliste Pk (Beeferman et al., 1997)
– jugement de couples de mots séparés par K mots
– K : moitié de la taille moyenne des segments de référence
– WindowDiff : variante tenant compte du nombre de frontières séparant
les couples de mots
référence (ref)

segmenteur (hyp) p1 p2 p3 p4 p5 p6 p7

OK : p4-p5 Fausses alarmes : p2-p3


ref : même segment ref : segments différents
hyp : même segment hyp : même segment
ou
p2-p4 ; p5-p6 Faux négatifs : p3-p4 ; p3-p5 ; p6-p7
ref : segments différents ref : même segment
hyp : segments différents hyp : segments différents
32
Évaluation : résultats de l’approche endogène
Français Anglais
Systèmes
Pk WinDiff Pk WinDiff
C99 (Choi, 2000) 27,57 35,42 21,63 30,64
U00 (Utiyama et Isahara, 2001) 25,91 27,42 19,42 21,22
TextTiling* 21,08 27,43 15,81 19,8
LCSeg (Galley et al., 2003) 20,55 28,31 14,78 19,73
F06 21,58 27,83 16,9 20,93
F06T 18,46 24,05 14,06 18,31
F06 : récurrence lexicale F06T : récurrence lexicale + thèmes

• Intérêt de la prise en compte des thèmes (F06T > *)


• Stabilité des résultats (Français vs Anglais)
• Faibles performances de méthodes telles que C99
• Forte différence du niveau moyen entre Français et Anglais

33
Évaluation : résultats globaux
Français
F06C : récurrence Systèmes
Pk WinDiff
lexicale +
C99 (Choi, 2000) 27,57 35,42
cooccurrences
U00 (Utiyama et Isahara, 2001) 25,91 27,42
TextTiling* 21,08 27,43
F06CT : récurrence
LCSeg (Galley et al., 2003) 20,55 28,31
lexicale +
F06 21,58 27,83
thèmes +
cooccurrences F06T 18,46 24,05
F06C 16,48 20,94
F06CT 14,59 18,41
• Intérêt des connaissances externes
– F06C > * de façon significative (sauf pour F06T), alors que significativité des résultats
plus contrastée pour F06T / LCSeg et TextTiling*
• Intérêt de la coopération entre approches endogène et exogène
– F06C > F06T mais pas significatif pour Pk
– F06CT > F06T significativement pour toutes les mesures
– mais différence entre F06C et F06CT pas significative

34
Perspectives
• Méthode
– combiner approches endogène et exogène pour l’identification
thématique
– utiliser les résultats de cette identification « étendue » au niveau de la
segmentation

• Évaluation
– utilisation de documents segmentés manuellement
• difficultés soulevées par (Bestgen et Piérard, TALN 2006)
– accords entre deux juges tout juste significatifs
– mais bon accord général sur une segmentation « moyenne »
– mauvaises performances des segmenteurs automatiques
– critères de segmentation des juges variables (segmentation fine / à
gros grain ; préférence donnée aux marques explicites)

35

Vous aimerez peut-être aussi