Vous êtes sur la page 1sur 197

Thse de doctorat de lUniversit Pierre et Marie Curie Spcialit : Informatique

prsente par

Guillaume Wisniewski
pour obtenir le grade de Docteur de lUniversit Paris VI Pierre-et-Marie-Curie

Apprentissage dans les espaces structurs


Applications ltiquetage de squences et la transformation automatique de documents

soutenue publiquement le 29 novembre 2007 devant le jury compos de Youns Bennani Patrick Gallinari ric Gaussier Marc Sebban Marc Tommasi Franois Yvon Professeur lUniversit de Paris Nord (Paris 13) Professeur lUniversit Pierre et Marie Curie (Paris 6) Professeur lUniversit Joseph Fourier (Grenoble 1) Professeur lUniversit Jean-Monnet, Saint-tienne Matre de Confrences, HDR lUniversit de Lille 3 Professeur lUniversit Paris Sud (Paris 11) examinateur directeur de thse examinateur examinateur rapporteur rapporteur

Remerciements
Longtemps, je me suis imagin le bonheur que jaurais crire ces remerciements, point nal dune longue et dicile rdaction. Maintenant que je me trouve devant une page blanche, je me rends compte que leur rdaction est une tche au moins aussi complique que lcriture dune thse : ce travail est le rsultat de tant de discussions, de conseils et de rencontres qunumrer, sans omission, tous ceux qui y ont pris part est une tche gargantuesque. Je tiens toutefois remercier tout particulirement : Patrick Gallinari pour la conance quil ma accorde en maccueillant dans son quipe puis durant ces trois annes. Je le remercie de la libert quil ma donne dans ce travail et davoir toujours russi me consacrer du temps malgr son emploi du temps lunaire . Marc Tommasi et Franois Yvon pour avoir accept la charge de rapporteur de ce mmoire. Youns Bennani, ric Gaussier et Marc Sebban pour leur participation mon jury de thse. Les participants aux projets ACI MDD et ATASH pour leurs nombreuses discussions qui ont permis de faire merger certaines des problmatiques et des mthodes prsentes dans ce travail. Henry Soldano et Daniel Kayser, respectivement Matre de Confrences et Professeur lUniversit de Paris 13 de mavoir initi une autre facette passionnante du mtier denseignant-chercheur. Jai beaucoup appris leur contact et je tiens les remercier de tout cur de mavoir intgr leur quipe et de mavoir fait conance. Nicolas Usunier pour ses nombreux gratis sur mes dirents articles et sur ce manuscrit, mais aussi pour les discussions qui les ont accompagns. Celles-ci ont jou un rle essentiel dans le dveloppement de ce travail et ce manuscrit nest quun ple reet de tout ce quelles mont apport. Jean-Franois Pessiot qui, nonobstant son dernier d, sest rvel dun soutien fort apprciable pendant cette thse et plus particulirement durant toute la dure de la rdaction. Ludovic Denoyer qui ma lanc sur les premis pistes de recherche dont est issu ce travail. Ghislaine Mary, Jacqueline Le Baquer, Christophe Bouder, Vincent Cuzzin et toute lquipe administrative et technique du LIP6 qui se sont bien souvent mis en quatre pour faciliter ma vie quotidienne au laboratoire. Lensemble de lquipe connex et des autres quipes des dpartements DAPA et DSIR qui ont rendu ces annes deort beaucoup plus agrables : Juliette, Lucie, Jean-Franois, Francis, Vinh, Marc-Ismael, Alexander, Jean-Nol, Antoine, Henri, Massih, Nicolas, Vincent, Julien et Julien et tous les autres... Tous mes amis et lensemble de ma famille qui mont soutenu et support depuis de nombreuses annes.

6 Tous les doctorants que jai rencontrs loccasion de confrences, dcoles dt ou de formations et qui mont introduit des domaines et des problmatiques de recherche dont je naurais jamais souponn lexistance. Leur enthousiasme ma bien souvent rappel les raisons qui mont pouss faire une thse. Ce travail doit aussi beaucoup tout ceux qui, au cours de ces trois dernires annes, mont montr ce quil ne fallait pas faire...

Rsum
De nombreux problmes dapprentissage consistent prdire des squences, des arbres ou des graphes. Contrairement aux problmes de classication usuels, ces sorties sont structures : elles se dcomposent en un ensemble dlments, dont les tiquettes sont interdpendantes. Lapprentissage de fonctions utilisant ces dpendances entre tiquettes durant linfrence, appel apprentissage structur, est un sous-domaine de lapprentissage statistique qui sest rcemment fortement dvelopp. Ltude de ces direntes mthodes dapprentissage structur constitue la premire partie de cette thse. Nous y dcrivons notamment lapplication de ces mthodes sur une tche dtiquetage de squences et sur une tche de prdiction darbres. Cette dernire tche est directement motive par la problmatique gnrale dautomatisation de la transformation de documents structurs qui est, aujourdhui, au cur de plusieurs problmatiques daccs linformation. Dans une deuxime partie de ce travail, nous nous sommes intress deux limites des modles existants qui rendent ceux-ci inapplicables de nombreux problmes pratiques : leur complexit leve et leur expressivit limite qui ne leur permet de ne considrer que des dpendances locales. Nous proposons daborder ce problme sous langle de la slection de caractristiques et dcrivons une mthode dtiquetage de squences reprsentant les dpendances par des contraintes, ce qui lui permet dextraire ecacement les dpendances non locales et de les utiliser en infrence tout en conservant une complexit faible.

Table des matires


1 Introduction 1.1 Problmatiques abordes . . . . . . . . . . . . . . . . . . 1.1.1 Travaux dans le cadre de lapprentissage structur . 1.1.2 Application la transformation de documents . . . 1.2 Organisation du document . . . . . . . . . . . . . . . . . 1.3 Bibliographie personnelle . . . . . . . . . . . . . . . . . . Texte et structure 2.1 Utilisation de la structure pour accder linformation . 2.1.1 Deux paradigmes daccs linformation . . . . 2.1.2 Crossing the structure chasm . . . . . . . . . . . 2.1.3 Exemple dapplications smantiques . . . . . . . 2.2 Reprsentation structure des documents web . . . . . . 2.2.1 Dirents types de structures . . . . . . . . . . . 2.2.2 Limites des formats smantiques . . . . . . . . . 2.3 Problmatique de restructuration . . . . . . . . . . . . . 2.3.1 Besoin de transformer les structures . . . . . . . 2.3.2 Le HTML comme format pivot . . . . . . . . . 2.3.3 Ncessit dautomatiser la restructuration . . . . 2.4 tat de lart . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Sur les technologies smantiques et leurs limites 2.4.2 En base de donnes . . . . . . . . . . . . . . . . 2.4.3 En transformation de documents . . . . . . . . . 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . Apprentissage statistique 3.1 Principe de lapprentissage statistique . . . . 3.1.1 Pourquoi lapprentissage statistique ? 3.1.2 Formalisation . . . . . . . . . . . . . 3.2 Modles de classication supervise . . . . . 3.2.1 Le perceptron . . . . . . . . . . . . . 3.2.2 La rgression logistique . . . . . . . 3.2.3 Les machines vecteurs de support . 3.2.4 Les noyaux . . . . . . . . . . . . . . 3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 20 20 22 24 25 27 28 28 30 33 37 39 41 44 44 46 48 49 49 50 52 53 55 55 55 57 59 63 66 67 70 74

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

10 4

Table des matires Apprentissage statistique dans les espaces structurs 4.1 Dnition de lapprentissage structur . . . . . . . . . . . . . . . 4.1.1 Exemples de tches de prdiction structure . . . . . . . . 4.1.2 Dnition de lapprentissage structur . . . . . . . . . . . 4.1.3 Dnition alternative . . . . . . . . . . . . . . . . . . . . 4.2 Cadre gnral pour lapprentissage structur . . . . . . . . . . . . 4.2.1 Classication multi classes gnralise . . . . . . . . . . 4.2.2 Les direntes problmatiques de lapprentissage structur 4.2.3 Organisation de ltat de lart . . . . . . . . . . . . . . . 4.3 Approches existantes pour lestimation des paramtres . . . . . . 4.3.1 Modles gnratifs . . . . . . . . . . . . . . . . . . . . . 4.3.2 Champs Conditionnels Alatoires . . . . . . . . . . . . . 4.3.3 Perceptron pour les sorties structures . . . . . . . . . . . 4.3.4 Modles maximisant la marge . . . . . . . . . . . . . . . 4.3.5 Performances des direntes mthodes destimation . . . 4.4 Mthode dinfrence : lalgorithme de Viterbi . . . . . . . . . . . 4.4.1 Principe de la programmation dynamique . . . . . . . . . 4.4.2 Algorithme de Viterbi . . . . . . . . . . . . . . . . . . . 4.4.3 Limites de lalgorithme de Viterbi . . . . . . . . . . . . . 4.5 Acclrer linfrence grce des mthodes approches . . . . . . 4.5.1 Mthodes dinfrence gloutonne . . . . . . . . . . . . . . 4.5.2 Les mthodes dapprentissage structur incrmentales . . 4.6 La prise en compte de dpendances non locales . . . . . . . . . . 4.6.1 Utilisation de variables caches . . . . . . . . . . . . . . 4.6.2 Mthodes dinfrence alternatives . . . . . . . . . . . . . 4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 76 77 79 83 85 85 85 87 89 89 90 94 94 98 100 101 102 104 106 107 110 113 114 115 119

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

Modles dapprentissage pour la restructuration 121 5.1 Cadre gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.2 Application de lapprentissage structur la restructuration . . 123 5.1.3 valuation des mthodes de restructuration . . . . . . . . . . 125 5.2 Modle gnratif pour la restructuration . . . . . . . . . . . . . . . . 128 5.2.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.2.2 Modle gnratif de documents . . . . . . . . . . . . . . . . 131 5.2.3 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . 136 5.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.3 R-ordonnancement pour la restructuration . . . . . . . . . . . . . . 140 5.3.1 Premier modle . . . . . . . . . . . . . . . . . . . . . . . . . 141 5.3.2 Caractristiques utilises . . . . . . . . . . . . . . . . . . . . 142 5.3.3 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . 144 5.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4 Prise en compte de la suppression dlments grce au r-ordonnancement145 5.4.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4.2 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . 149 5.4.3 Discussion : apport des mthodes de r-ordonnancement . . . 151 5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Table des matires 6 Modle dtiquetage de squences partir de classieurs locaux 6.1 Analyse des mthodes dtiquetage de squences . . . . . . . 6.1.1 Mthode dtiquetage existantes . . . . . . . . . . . . 6.1.2 Limites des mthodes existantes . . . . . . . . . . . . 6.1.3 Quand linformation de structure est-elle utile ? . . . . 6.2 tiquetage de squences partir de classieurs locaux . . . . . 6.2.1 Combinaison des dcisions locales . . . . . . . . . . . 6.2.2 Slection des dpendances . . . . . . . . . . . . . . . 6.2.3 Avantages . . . . . . . . . . . . . . . . . . . . . . . . 6.2.4 Rsultats exprimentaux . . . . . . . . . . . . . . . . 6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion 7.1 Rsum de notre travail . . . . . . . . . . . . . . . . 7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Dans le domaine de laccs linformation . 7.2.2 Dans le domaine de lapprentissage structur

11 153 154 154 157 160 164 164 167 169 170 173

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

175 . 175 . 176 . 176 . 177 179

Bibliographie

12

Table des matires

Table des gures


1.1 Intrt de linfrence jointe : la prise en compte la lettre prcdente et la lettre suivante facilite la reconnaissance de la deuxime lettre . . . Exemple dun thread de commentaires sur Slashdot . . . . . . . . . . Direntes reprsentations dun document (une version prliminaire du dbut de ce chapitre) . . . . . . . . . . . . . . . . . . . . . . . . . Illustration de lapproche propose par [Buyukkokten et al., 2001] (limage est extraite de larticle) : plutt que dacher la page web dans sa totalit, on ache la structure logique du document en rsumant pour chaque lment le contenu de celui-ci . . . . . . . . . . . . Dcoupage dune page web selon sa structure pour faciliter la navigation sur un tlphone portable : il est possible dagrandir sparement chaque zone dlimite (image extraite de [Baluja, 2006]) . . . . . . . Ngotation de rendez-vous entre plusieurs agents du web smantique (exemple repris de [Berners-Lee et al., 2001]) . . . . . . . . . . . . . Extrait de documents HTML et XML : des balises (en bleu) sont mlangs avec le contenu textuel du document (en noir) . . . . . . . . . Arbre DOM associ au document dcrit Figure 2.6 : les lments sont constitus par les nuds rectangulaires et les relations par les nuds ellipsodaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Illustre la dicult de prvoir, priori, un modle de donnes universel : le systme de classication de Dewey . . . . . . . . . . . . . . . Direntes scnes de la vie quotidienne montrant que notre monde est fondamentalement htrogne et surprenant (illustrations reprises de [Girardin, 2007]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentation graphique de direntes fonctions de cot. Toutes ces fonctions sont des approximations convexes de la fonction de cot 0/1 (courbe bleue) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Principe de la classe de classieur tudie : une fonction de score F mesure la compatibilit entre une observation (ici, limage dun poisson) et lensemble des tiquettes possibles (ici, une liste danimaux) ; ltiquette la plus compatible est choisie . . . . . . . . . . . . . . . . Reprsentation dun ensemble dobservations et de deux hyperplans correspondant deux fonctions de score F direntes . . . . . . . . . Illustration de la notion de marge dun ensemble de donnes () et de marge fonctionnelle dun exemple (i ) . . . . . . . . . . . . . . . . . 20 32 34

2.1 2.2 2.3

36

2.4

36 38 39

2.5 2.6 2.7

40 43

2.8 2.9

45

3.1

60

3.2

60 62 64

3.3 3.4

14 3.5 3.6 3.7 3.8

Table des gures Illustration des dirents lments utiliss dans une SVM : la marge et les vecteurs supports reprsents par les points entours de rouge . Dnition de la marge dun exemple pour la SVM multi classes . . . Principe de la transformation eectue, de manire implicite, par un noyau pour simplier la tche de classication . . . . . . . . . . . . . Un arbre et lensemble de ses fragments (larbre complet est considr comme un fragment) . . . . . . . . . . . . . . . . . . . . . . . . . . Reconnaissance de lcriture : une squence dimages reprsentant des lettres, on associe un mot (exemple repris de [Taskar, 2004]) . . . Analyse syntaxique de surface : la squence de mots en entre, on associe une squence de triplets (tiquette, position de dbut, position de n) (exemple est repris de [Wallach, 2002]) . . . . . . . . . . . . . Analyse syntaxique : lentre est une phrase (squence de mots), la sortie un arbre dcrivant les dirents constituants de la phrase . . . . Alignement mot mot de phrases dans une tche de traduction automatique : lobjectif est de mettre en correspondance les mots anglais et les mots franais ayant le mme sens (exemple repris de [Taskar et al., 2005]) . . . . . . . . . . . . . . . . . . . . . . . . . . Dcomposition dun arbre en un vecteur . . . . . . . . . . . . . . . . Typologie des dirents travaux existants en prdiction structure (les lments marqus dune astrisque sont ceux apparaissant dans plusieurs catgories) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace de recherche considr par lalgorithme de Viterbi dans le cas de la chane de Markov de la Figure 4.8 . . . . . . . . . . . . . . . . Chane de Markov utilise dans les exemples de la Section 4.4.2 . . . Treillis de Viterbi correspondant une squence de quatre lments gnre par la chane de Markov de la Figure 4.8 . . . . . . . . . . . Simulation de lalgorithme de Viterbi. Les transitions noires indiquent les transitions testes , les transitions rouges, les transitions de plus grand score qui sont retenues . . . . . . . . . . . . . . . . . . . . . . Premires tapes dun exemple dinfrence gloutonne : une pile maintient lensemble des dcisions possibles et, chaque tape, la solution aboutissant le plus probablement la solution optimale est eectue . Espace de recherche considr lors de ltiquetage dune squence de deux lments dans un ordre alatoire . . . . . . . . . . . . . . . . . Deux manires direntes de modliser linteraction entre des lments voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Description des dpendances non locales par une hirarche de variables caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple de dpendances du type label consistency : on ajoute une dpendance entre les observations identiques pour imposer que celle-ci ait la mme tiquette . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de contraintes utilises dans [Roth et tau Yih, 2005] . . . .

68 69 71 73

4.1 4.2

76

78 78

4.3 4.4

4.5 4.6

79 80

88 102 102 103

4.7 4.8 4.9 4.10

105

4.11

109 113 114 115

4.12 4.13 4.14 4.15

4.16 5.1 5.2

116 118

Reprsentation dun document XML par un arbre . . . . . . . . . . . 123 Transformation dun fragment de page HTML en XML : lobjectif est didentier les noms dacteur et les noms de personnage, puis de dterminer le rle jou par chaque acteur . . . . . . . . . . . . . . . . . . 124

Table des gures 5.3 valuation de la restructuration : comparaison entre la sortie attendue dout et la sortie prdite d ; les tiquettes en rouge sont celles qui sont considres comme des erreurs . . . . . . . . . . . . . . . . . . . . . Le rseau baysien modlisant le processus de gnration dun document dans le cas de la restructuration : les documents d et din sont gnrs partir de la reprsentation abstraite h en appliquant respectivement les modles de document pout et pin . . . . . . . . . . . . . . Productions dune grammaire hors-contexte simple . . . . . . . . . . Les deux arbres de drivation possible pour la phrase a a a a . . . . Productions dune grammaire hors-contexte probabiliste simple . . . Deux caractrisations des documents produits par une source de documents : un schma (DTD) et une PCFG (dont le modle de contenu est illustr sur lexemple dune squence de trois feuilles (c1 , c2 , c3 )) . . . Document XML dont le score est donn par lquation 5.4 ; le contenu des feuilles nest pas explicit . . . . . . . . . . . . . . . . . . . . . Traduction dun schma en grammaire . . . . . . . . . . . . . . . . . Code python de lalgorithme CYK . . . . . . . . . . . . . . . . . . . PCFG utilise pour gnrer les documents de la Figure 5.13 . . . . . . Exemple (jouet) de restructuration : le document (a) peut tre transform soit en (b), soit en (c). La similarit entre le document dentre et le document de sortie permet de choisir la bonne solution ; la PCFG dcrivant la source de ces documents est donne la Figure 5.12 . . . Principe de lapproche de r-ordonnancement . . . . . . . . . . . . . Application motivant la transformation du corpus News : visualisation des threads de commentaires dun site de news de manire plus lisible

15

128

5.4

5.5 5.6 5.7 5.8

130 132 132 133

134 134 135 137 143

5.9 5.10 5.11 5.12 5.13

5.14 5.15

144 148 149

6.1

6.2 6.3 6.4

Probabilit conditionnelle p(yi |yi1 ) sur le corpus Handwritten-large : chaque ligne et chaque colonne correspondent une lettre de lalphabet, et la taille du carr est proportionnelle la probabilit p(yi |yi1 ) . 158 Direntes manires de prendre en compte la structure dans le cas de ltiquetage dune squence de trois lments . . . . . . . . . . . . . 160 Codage BIO pour la dtection des groupes nominaux . . . . . . . . . 170 Extrait dun document du corpus Courses . . . . . . . . . . . . . . . 172

16

Table des gures

Liste des tableaux


2.1 Synthse des direntes caractristiques de donnes structures et non structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1 4.2 4.3 4.4

4.5 4.6

Exemple de caractristiques dcrivant lentre utilises dans un CRF (tableau repris de [Sutton et McCallum, 2006]) . . . . . . . . . . . . 91 valuation des direntes approches dapprentissage structur (tableau repris de [Nguyen et Guo, 2007]) . . . . . . . . . . . . . . . . . . . . 99 Rsultats obtenus par deux implmentations direntes des CRF : Mallet et FlexCRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 valuation de quatre mthodes sur dirents corpus. Un tiret () indique que la complexit de lapprentissage ne permet pas de raliser lexprience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Temps dapprentissage des dirents algorithmes dtiquetage de squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Synthse des dirents travaux proposant proposant une mthode alternative pour parcourir lespace de recherche . . . . . . . . . . . . . 110 Caractristiques des dirents corpus utiliss. La premire partie du tableau correspond aux corpus dvelopps dans le cadre de ce travail, la deuxime aux corpus mis disposition par dautres chercheurs . . . Rsultats du modle gnratif (les tirets indiquent que lexprience ne peut tre ralise) ; ces expriences ont t ralise par Francis Maes . Exemples des trois types de caractristiques utilises pour dcrire les nuds de contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rsultat de reconstruction sur les deux corpus . . . . . . . . . . . . . Rsultats de nos expriences : la mesure dvaluation est celle prsente au Paragraphe 5.1.3 et les tirets longs indiquent que la mesure nest pas pertinente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1

125 139 142 146

5.2 5.3 5.4 5.5

151

6.1 6.2 6.3

valuation de quatre mthodes sur direntes tches dtiquetage de squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 valuation de [Nguyen et Guo, 2007] sur une tche danalyse syntaxique de surface . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Rsultats des direntes expriences dtiquetage de squences sur diffrentes tches ; le modle Grammar na pas pu tre utilis pour la tche de chunking dans la mesure o nous ne disposons pas dune grammaire de la langue anglaise . . . . . . . . . . . . . . . . . . . . 171

18

Liste des tableaux

1
Introduction

Sommaire
1.1 Problmatiques abordes . . . . . . . . . . . . . . . . . 1.1.1 Travaux dans le cadre de lapprentissage structur . 1.1.2 Application la transformation de documents . . . Organisation du document . . . . . . . . . . . . . . . . Bibliographie personnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 22 24 25

1.2 1.3

Je naime pas les discussions. Elles me font parfois changer davis. Oscar Wilde a thorie de lapprentissage statistique supervis repose sur lhypothse fondamentale que les donnes sont gnres de manire indpendante. Les mthodes dveloppes dans ce cadre sont parfaitement adaptes pour traiter des problmes de prdiction simple dont la sortie est constitue par une unique tiquette choisie dans un ensemble de petite taille comme cest le cas pour la classication binaire ou la classication multi classes. Pourtant, de nombreux problmes rels consistent prdire plus quun simple oui/non ou quune rponse une question choix multiples. En eet, dans de nombreuses applications, les sorties sont des squences, des arbres ou des graphes. Contrairement aux problmes de classication usuels, ces sorties sont structures : elles se dcomposent en un ensemble dlments tiquets interdpendants. cause de ces dpendances ou relations entre lments, seules certaines combinaisons dtiquettes sont possibles et certaines combinaisons dtiquettes sont plus frquentes que dautres. La prdiction dune sortie structure revient choisir une tiquette pour chacun des lments la composant. Il est naturel, dans ce choix, dutiliser les dpendances entre lments pour amliorer les performances en prdiction en choisissant les tiquettes de tous les lments simultanment plutt quindividuellement. Ainsi, dans le cas de la reconnaissance de lcriture, illustr Figure 1.1, il est ncessaire de prdire ltiquette de chaque lettre pour prdire ltiquette dun mot et les dpendances entre les direntes lettres dun mot facilitent la prdiction : dans le cas de la reconnaissance du franais, on sait, par exemple, quil est impossible que trois lettres conscutives soient tiquetes d et que, si lon a reconnu un q, il est fort probable que la lettre suivante soit un u. Toutefois, cette infrence jointe des tiquettes remet en cause lhypothse fondamentale de lapprentissage statistique qui suppose que les donnes sont gnres de

20

Introduction

Figure 1.1 Intrt de linfrence jointe : la prise en compte la lettre prcdente et la lettre suivante facilite la reconnaissance de la deuxime lettre manire indpendante. La prise en compte des dpendances entre lments ncessite donc ltablissement de nouveaux cadres formels et de nouveaux algorithmes dapprentissage. Lapprentissage dans les espaces structurs que nous appellerons, par commodit, apprentissage structur, est un formalisme propos rcemment pour rpondre ces besoins : il a pour objectif de dvelopper des mthodes capables dexploiter les dpendances entre tiquettes pour amliorer les performances de prdiction. Ltude des dirents cadres et mthodes dapprentissage structur constitue la premire problmatique de cette thse. Nous nous sommes plus particulirement intress deux limites des modles existants qui rendent ceux-ci inapplicables de nombreux problmes pratiques : leur complexit leve et leur expressivit limite qui ne leur permet de ne considrer que certains types de dpendances. Nous avons propos des solutions originales ces deux problmes. Nous nous sommes galement intress, dans ce travail, la problmatique gnrale dautomatisation de la transformation de documents et plus particulirement lapplication des techniques dapprentissage structur la transformation de documents HTML en documents XML respectant un schma donn. Cette tche est, aujourdhui, au cur de plusieurs problmatiques daccs linformation. Cette transformation peut tre vue comme une tche de prdiction darbres et permet dillustrer les dirents problmes rencontrs par les mthodes dapprentissage structur ainsi que leurs solutions. Cette application a servi de l conducteur et de motivation une grande partie de nos travaux et constitue la deuxime problmatique de cette thse.

1.1
1.1.1

Problmatiques abordes
Travaux dans le cadre de lapprentissage structur

Pour la clart de la prsentation, nous nous concentrerons, dans la suite de ce paragraphe, sur lexemple de la tche dtiquetage de squences. Mais, comme nous le verrons tout au long de ce travail, les remarques que nous allons faire et les problmatiques que nous allons dgager peuvent tre directement gnralises aux autres tches de lapprentissage structur. Ltiquetage de squences consiste attribuer une tiquette chaque lment dune squence dobservations. Les squences dtiquettes prsentent gnralement des dpendances qui facilitent la prdiction soit en rduisant lensemble des tiquettes quun lment peut prendre, soit en indiquant des combinaisons dtiquettes plus frquentes. La reconnaissance de lcriture est une application typique de ltiquetage de squences.

1.1 Problmatiques abordes

21

Contexte De nombreux modles dapprentissage structur ont t proposs pour exploiter au mieux linformation apporte par la structure des tiquettes cest-dire lensemble des dpendances entre tiquettes lors de la prdiction. Ces modles adoptent tous la mme approche et considrent lapprentissage structur comme une gnralisation de la classication multi classes : ils cherchent apprendre une fonction mesurant ladquation entre une squence dobservations et chacune des squences dtiquettes possibles. Une fois apprise, cette fonction permet, lors de la prdiction, de discriminer la meilleure solution parmi toutes les solutions possibles. Lapprentissage structur prsente toutefois une dirence majeure avec la classication multi classes : le nombre de sorties que lon peut associer avec une squence dobservations donne est gnralement trs grand : il y a mn direntes faons dtiqueter une squence de n observations si lensemble des tiquettes possibles comporte m lments. Cette dirence est la cause de la premire dicult rencontre par les mthodes dapprentissage structur : la complexit (calculatoire) de linfrence. En eet, choisir une tiquette pour chacun des lments composant la sortie est un problme combinatoire cest--dire un problme qui ncessite de regrouper, dordonner ou dtiqueter un ensemble discret de composants en respectant un certain nombre de contraintes. Les problmes combinatoires sont notoirement diciles rsoudre : il nest, notamment, pas possible dvaluer directement le score de toutes les sorties possibles pour dterminer la meilleure, comme on le fait dans le cas de la classication multi classes. Les mthodes dapprentissage structur doivent galement faire face une deuxime dicult lie au nombre de paramtres quelles doivent estimer : les dpendances entre tiquettes sont gnralement dcrites par des caractristiques et il y aura donc dautant plus de paramtres estimer quil y aura de dpendances considrer. Pour rsoudre ces deux problmes, les approches dapprentissage structur ont traditionnellement fait une hypothse de Markov en ne considrant que les dpendances entre deux lments conscutifs. Cette hypothse permet de limiter le nombre de paramtres estimer et de dterminer ecacement la meilleure solution grce un algorithme de programmation dynamique. La programmation dynamique ore une alternative lvaluation du score de toutes les sorties en construisant directement la meilleure sortie partir des tiquettes de chacune des observations. Lhypothse de Markov est toutefois lorigine de deux problmes : i) la complexit de linfrence reste, dans de nombreux cas, leve ; ii) les modles faisant une hypothse de Markov imposent de ne prendre en compte que les dpendances locales entre tiquettes voisines et ne permettent pas de considrer dautres dpendances, mme si celles-ci sont juges pertinentes. Contributions Nous introduisons et formalisons, au Chapitre 4, la problmatique dapprentissage structur. Cette formalisation nous permet de prsenter dans un cadre uni les direntes mthodes dapprentissage structur de ltat de lart. Nous proposons galement aux Chapitres 4 et 5 une tude exprimentale des direntes approches existantes en apprentissage structur : nous dcrivons leur mise en uvre sur une tche dtiquetage de squences et sur une tche de prdiction darbres et valuons les performances des direntes mthodes sur plusieurs corpus. Cette prsentation et ces tudes exprimentales nous permettent de mettre en vidence les causes des problmes des mthodes dapprentissage structur que nous avons esquisses au paragraphe prcdent.

22

Introduction

Plusieurs mthodes ont t proposes pour traiter lun ou lautre de ces problmes. Il nexiste toutefois pas encore dapproche capable de considrer des dpendances non locales tout en maintenant une complexit faible. Nous proposons daborder ce problme sous un angle original, celui de la slection de caractristiques. Plus prcisement, nous considrerons que la structure nest quune caractristique parmi dautres et que, comme toutes les caractristiques, la prise en compte de celle-ci a un cot (infrence plus longue et dicult de lestimation des paramtres). Il est donc ncessaire quun modle dapprentissage structur puisse slectionner automatiquement les dpendances pertinentes qui amliorent les performances de prdiction et nutiliser que celles-ci. La mise en uvre de cette ide se heurte deux dicuts. La premire est due limpossibilit dutiliser les mthodes dinfrence habituelles : comme nous lavons mentionn au paragraphe prcdent, ces mthodes ne peuvent prendre en compte que les dpendances entre deux lments conscutifs. La seconde est due la dicult dvaluer les dpendances pertinentes : les mthodes de slection de caractristiques usuelles reposent sur lutilisation de critres issus de la thorie de linformation dont lvaluation repose sur lestimation de lois de probabilit jointes. Il est donc ncessaire de disposer dun grand nombre de donnes tiquetes pour pouvoir valuer ceux-ci, ce qui nest gnralement pas le cas. Pour contourner ces dicults, nous proposons de considrer la prdiction de squences comme une tche dtiquetage sous contrainte : lobjectif est dattribuer chaque lment composant une sortie structure une tiquette, tout en assurant la cohrence globale de la sortie. Les dpendances entre lments ne sont alors plus reprsentes par des dpendances statistiques sexprimant par une factorisation dune loi de probabilit jointe ou dune fonction de score, mais par des contraintes, cest--dire des relations logiques entre plusieurs lments et leur valeur respective. Il est alors possible dutiliser des techniques de programmation par contraintes pour raliser une infrence ecace. Le principal avantage de cette formulation est dorir une modlisation plus souple des dpendances qui ne modlise que les relations pertinentes et vite davoir estimer des distributions de probabilit compltes, permettant ainsi une slection automatique des dpendances pertinentes. Ce principe et sa mise en uvre sont dtaills au Chapitre 6.

1.1.2

Application la transformation de documents

Contexte applicatif : les technologies smantiques Les technologies smantiques ont pour objectif de faciliter laccs linformation en reprsentant les documents par une structure smantiquement riche et non par leur reprsentation traditionnelle en sac de mots . Cette structure, qui prend gnralement la forme dun graphe ou dun arbre, permet de distinguer et de nommer, lintrieur dun document, un ensemble dlments et des relations entre ceux-ci. Grce cette reprsentation du contenu, de nombreuses applications sont envisageables comme, par exemple, des comparateurs de prix ou des moteurs de recherche plus ecaces, capables deectuer des requtes complexes du type trouver tous les articles parlant dapprentissage statistique publis par une quipe franaise entre 2000 et 2005 . Pour exploiter cette reprsentation des documents, les applications ont besoin de connatre, priori, la structure utilise et sont donc incapables de traiter les documents ne respectant pas strictement un schma. Lexistence de ce schma, qui dnit de manire ad hoc les structures que peuvent avoir les documents, est indispensable pour permettre la manipulation et linterprtation des donnes structures. Les technologies

1.1 Problmatiques abordes

23

smantiques ne sont donc pas compatibles avec la libert actuelle de cration de documents et ne peuvent pas exploiter la structure de la majorit des donnes existantes. En eet, celle-ci, exprime par exemple par les balises HTML ou wikitext, ne dcrit gnralement que la mise en page des documents et ne comporte aucune information smantique. Cest pourquoi, pour permettre le dveloppement de ces technologies, plusieurs mthodes ont t proposes pour annoter automatiquement les donnes existantes et les transformer ainsi en donnes smantiquement riches. Nos travaux sinscrivent dans cette problmatique gnrale dautomatisation de la transformation de documents dont la structure dcrit la mise en page vers des formats smantiquement riches en vue de leur utilisation par des applications smantiques. Nous nous sommes plus particulirement intress la tche de restructuration qui consiste transformer des documents HTML en documents XML respectant un schma donn. Cette problmatique spcique tire son intrt de la masse dinformation prsente sur le web sous un format HTML. Linformation ontenue dans la mise en page des documents web fournit une information qui est exploite quotidiennement par de nombreux utilisateurs, notamment pour faciliter leur navigation ou la recherche dinformation. Cest pourquoi, nous pensons que celle-ci est susante pour infrer une structure smantiquement riche. Il faut toutefois que les mthodes de transformation soient capables dexploiter ces informations. Cette observation est une ide centrale de notre travail qui ouvre la voie de nombreuses applications et gnralise la problmatique : le HTML peut tre considr comme un format pivot dans lequel tous les documents sont produits, chaque application extrayant ensuite la reprsentation smantique qui correspond exactement ses besoins. Ces arguments justiant lintrt et la faisabilit de la transformation de documents HTML en XML sont dtaills au Chapitre 2. Contributions Plusieurs mthodes sont proposes dans la littrature pour la transformation de documents HTML vers des formats smantiquement riches. Ces mthodes reposent soit sur un ensemble dheuristiques (mesures de similarit entre les tiquettes des lments ou leur contenu par exemple), soit sur une combinaison, plus ou moins ecace, de techniques dapprentissage dveloppes pour lextraction dinformation, la reconnaissance des entits nommes ou lanalyse de dpendances. Ces mthodes ne sont gnralement capables de considrer quun ensemble rduit de caractristiques (il nest, par exemple, pas toujours possible dinclure des caractristiques sur la structure du document dentre ou du document de sortie) et, comme ces heuristiques sont construites manuellement, il nest pas toujours facile dy inclure un nouveau type dinformation. Nous proposons, au Chapitre 5, un cadre formel pour la tche de transformation de documents qui permet dexprimer cette tche comme une tche dextraction dinformation : transformer un document HTML revient identier dans celui-ci les lments pertinents devant apparatre dans le document XML et dterminer, rcursivement, les relations entre ces lments. Cette formulation permet de traiter la transformation de documents dans le cadre de lapprentissage structur, et donc de considrer des caractristiques riches dcrivant, notamment, le contenu du document ainsi que les dpendances entre la structure du document dentre (larbre HTML) et la structure du document de sortie (larbre XML). La mise en uvre des mthodes dapprentissage structur pose toutefois plusieurs dicults. La premire est lie la complexit : les sorties que nous cherchons prdire (les documents XML) sont plus grandes que la plupart des sorties gnralement

24

Introduction

considres par les mthodes dapprentissage structur. La deuxime dicult est lie la ncessit de prendre en compte des caractristiques et des dpendances riches alors que la plupart des mthodes existantes ncessitent de faire des hypothses dindpendance forte du type hypothse de Markov. Nous prsenterons, au Chapitre 5, plusieurs mthodes de transformation apportant une solution ces dicults. Nous nous sommes, dans un premier temps, intress au problme de la complexit et avons propos une mthode fonde sur un modle gnratif et sur LaSO, une mthode dinfrence approche qui permet de transformer de grands corpus de documents avec une complexit faible. Nous avons ensuite abord le problme des dpendances non locales. Pour pouvoir utiliser des caractristiques plus riches, nous avons propos deux modles discriminants base de r-ordonnancement. Le r-ordonnancement est une mthodes gnrale permettant dintroduire simplement des dpendances arbitraires dans un problme dapprentissage structur.

1.2

Organisation du document

Cette thse est organise en deux parties principales. La premire partie (Chapitre 2, 3 et 4) prsente le contexte de notre travail, aussi bien dans le domaine de laccs linformation que dans le domaine de lapprentissage statistique. Cest essentiellement une partie de synthse, mais la prsentation des arguments qui est choisie est originale. La deuxime partie (Chapitre 5 et 6) regroupe nos contributions plus directes : nous y dcrivons les modles proposs, leurs motivations ainsi que les tudes exprimentales menes. Voici, plus prcisement, lorganisation de ce document : Chapitre 2 : ce chapitre prsente laspect accs linformation de notre travail. Nous y dcrivons les problmatiques du domaines et le contexte dans lequel notre thse sinscrit. Le principal objectif du chapitre est de dnir et de justier lintrt de la tche qui a servi de l conducteur nos travaux : la restructuration. Chapitre 3 : ce chapitre est une introduction gnrale lapprentissage statistique. Nous y justions lintrt de ces techniques pour la problmatique de restructuration et prsentons plusieurs formalismes et techniques qui constituent les fondations des mthodes dapprentissage structur. Nous dtaillons galement les direntes mthodes dapprentissage que nous avons utilises : le perceptron, la regression logistique, les machines vecteurs de support (SVM) et les noyaux. Chapitre 4 : nous introduisons, dans ce chapitre, le domaine de lapprentissage structur et prsentons un cadre formel uniant la prsentation des direntes mthodes existantes. Nous dtaillons les dirents travaux et techniques du domaine : les mthodes destimation (modles gnratifs, CRF, SVMISO, M3 N, perceptron), les algorithmes de programmation dynamique pour linfrence (algorithme de Viterbi), les algorithmes permettant dacclrer linfrence (LaSO, SEARN, infrence gloutonne, ...) et de prendre en compte les dpendances non locales (r-ordonnancement, mthode dinfrence alternative, ...). Ce chapitre a galement pour objectif de mettre en vidence les limites des modles existants, an de motiver la mthode que nous proposerons au Chapitre 6. Chapitre 5 : ce chapitre dcrit les direntes mthodes dapprentissage structur que nous avons mises en uvre pour rsoudre la tche de restructuration : un modle gnratif bas sur les grammaires probabilistes hors-contexte, une mthode dinfrence fonde sur LaSO et deux modles utilisant le r-ordonnancement. Il

1.3 Bibliographie personnelle

25

nous permet ainsi dvaluer, exprimentalement, un certain nombre de mthodes existantes et de vrier la validit de la premire thse de ce travail. Chapitre 6 : nous y prsentons une mthode dtiquetage de squences capable dextraire ecacement les dpendances non locales et de les utiliser en infrence tout en conservant une complexit faible. Le principe de cette approche est motiv par une tude des limites des modles existants. Nous faisons galement un rapide tat de lart des mthodes permettant dapprendre la structure et de la slection de caractristiques an de mettre en vidence nos contributions.

1.3

Bibliographie personnelle

Les travaux raliss au cours de cette thse ont donn lieu aux publications suivantes : Travaux concernant les limites des modles dapprentissage structur et prsentant notre modle dtiquetage de squences (Chapitre 6) : 1. G. Wisniewski et P. Gallinari, Relaxation Labeling for Selecting and Exploiting Eciently Non-Local Dependencies in Sequence Labeling , Actes de la confrence PKDD07, 2007. Travaux concernant la dnition de la problmatique de restructuration et le modle gnratif (Section 5.2 et Chapitre 2) 2. G. Wisniewski, F. Maes, L. Denoyer et P. Gallinari, Probabilistic Model for Structured Document Mapping , Actes de la confrence MLDM07, 2007. 3. P. Gallinari, G. Wisniewski, F. Maes et L. Denoyer, Stochastic Models for Document Restructuration , Actes de la confrence ECML05 Workshop on Relational Machine Learning, 2005. 4. G. Wisniewski, F. Maes, L. Denoyer et P. Gallinari, Modle probabiliste pour lextraction de structure dans les documents web , Documents Numrique, 2007. 5. G. Wisniewski, L. Denoyer, F. Maes et P. Gallinari, Modle probabiliste pour lextraction de structures : application aux documents web , Actes de la confrence CORIA05, 2005. Travaux concernant les modles de r-ordonnancement (Section 5.3 et 5.4) : 6. G. Wisniewski et P. Gallinari, From Layout to Semantic : A Reranking Model for Mapping Structured Documents to Mediated XML Representation , Actes de la confrence RIAO07, 2007. 7. G. Wisniewski et P. Gallinari, R-ordonnancement pour lapprentissage de transformation de documents HTML , Actes de la confrence EGC07, 2007. Jai travaill, pendant mon stage de DEA, sur une sous-tche de la restructuration : ltiquetage darbres. Bien que je naborde pas ces travaux dans ma thse (ils nentrent pas dans le formalisme que nous proposons au Chapitre 5), ils ont donn lieu deux publications : 8. G. Wisniewski, L. Denoyer et P. Gallinari, Restructuration automatique de documents dans les corpus semi structurs htrognes , Acte de la confrence EGC05, 2005.

26

Introduction 9. L. Denoyer, G. Wisniewski et P. Gallinari, Document Structure Matching for Heterogeneous Corpora , Actes de la confrence SIGIR04 Workshop on Integration of Information Retrieval and Databases, 2004.

Jai galement publi deux articles sur des travaux connexes mon travail de thse : lapplication du modle de document que nous prsenterons la Section 5.2.2 la tche de classication non supervise (clustering). 10. G. Wisniewski, L. Denoyer et P. Gallinari, Classication automatique de documents structurs. Application au corpus darbres tiquets de type XML , Actes de la confrence CORIA05, 2005. 11. L. Denoyer, G. Wisniewski et P. Gallinari, Classication automatique de structures arborescentes laide de noyaux de Fischer : Application aux documents XML , Actes du 6me Congrs Europen de Systmique, 2005.

2
Texte et structure

Sommaire
2.1 Utilisation de la structure pour accder linformation 2.1.1 Deux paradigmes daccs linformation . . . . . 2.1.2 Crossing the structure chasm . . . . . . . . . . . . 2.1.3 Exemple dapplications smantiques . . . . . . . . Reprsentation structure des documents web . . . . . 2.2.1 Dirents types de structures . . . . . . . . . . . . 2.2.2 Limites des formats smantiques . . . . . . . . . . Problmatique de restructuration . . . . . . . . . . . . 2.3.1 Besoin de transformer les structures . . . . . . . . 2.3.2 Le HTML comme format pivot . . . . . . . . . . 2.3.3 Ncessit dautomatiser la restructuration . . . . . tat de lart . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Sur les technologies smantiques et leurs limites . 2.4.2 En base de donnes . . . . . . . . . . . . . . . . . 2.4.3 En transformation de documents . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 30 33 37 39 41 44 44 46 48 49 49 50 52 53

2.2

2.3

2.4

2.5

The Web without a search engine is like the night without Edison. Anonyme One Ring to rule them all, One Ring to nd them, One Ring to bring them all and in the darkness bind them. J.R.R. Tolkien e chapitre prsente le contexte de ce travail et dnit la tche qui la motiv : la restructuration qui consiste transformer un document dentre en un document de sortie conforme un schma donn. Cette tche sinscrit dans la problmatique gnrale daccs linformation, qui fournit des mthodes permettant de grer, consulter et rechercher les documents, et plus particulirement dans le cadre des technologies dites smantiques . Les technologies smantiques ont pour objectif de faciliter laccs linformation en reprsentant les documents par une structure smantiquement riche et non par un traditionnel sac de mots . Cette reprsentation enrichie permet de prendre en compte

28

Texte et structure

la signication des documents et pourrait apporter une solution aux problmes soulevs par les volutions rcentes du web telles la multiplication des contenus, le dveloppement du web participatif, ... Nous dtaillons, dans la Section 2.1, les dirents paradigmes daccs linformation ainsi que leurs limites et montrons comment lutilisation dune reprsentation structure peut rsoudre certains de ces problmes. Toutefois, malgr leur ranement technique, les technologies smantiques ne suscitent pas les progrs attendus et de nombreux freins leur dploiement ont t identis. Lun deux est lhtrognit des structures des documents web. En eet, sil est possible de dnir une reprsentation structure pour la plupart des documents du web, celle-ci ne peut tre exploite directement par les applications smantiques : ces dernires ont toutes besoin de connatre priori la structure utilise et ne sont donc capables de ne traiter que les documents respectant strictement un schma qui leur est spcique. Nous dtaillons cet argument dans la Section 2.2. Pour rpondre ce problme dhtrognit et faciliter le dploiement des technologies smantiques, nous proposons de considrer le HTML comme un format pivot partir duquel chaque application va extraire une reprsentation structure rpondant ses besoins. Nous dnissons plus prcisement cette tche de restructuration au Paragraphe 2.3 et nous y justions son intrt et sa faisabilit. Finalement, nous prsentons dans la Section 2.4 les dirents travaux sur lesquels nous nous sommes appuy dans ce chapitre ainsi quun tat de lart des problmatiques similaires.

2.1
2.1.1

Utilisation de la structure pour accder linformation


Deux paradigmes daccs linformation

Donnes structures et donnes non structures Il existe aujourdhui deux types de donnes : les donnes non structures qui correspondent aux grands corpus de documents, dimages ou de vidos accessibles notamment sur le web et les donnes structures qui sont stockes et gres par des bases de donnes [Gardarin, 1999]. La principale caractristique des donnes structures est que celles-ci respectent un modle de donnes qui structure et organise la reprsentation des donnes manipules : la premire tape de la cration dune base de donnes consiste spcier un modle, cest--dire un ensemble de concepts et de liens entre ceux-ci, dcrivant les donnes. Ce modle de donnes, aussi appel schma conceptuel sera spcique aux besoins de lapplication considre : comme tout modle, le schma conceptuel nest quune traduction de la ralit qui est toujours lie ce que lon veut en faire ; il nexiste pas de modle unique et totalement reprsentatif. Le modle de donnes est ensuite objectiv en un schma logique ou simplement schma. Ce dernier traduit le modle de donnes dans une technologie particulire permettant de stocker et daccder aux donnes. Il existe ainsi des schmas logiques qui dcrivent des donnes stockes dans une base de donnes relationnelle ou des schmas XML utiliss pour dcrire des donnes stockes dans des documents XML. Une base de donnes comporte donc deux lments distincts : un ensemble de donnes manipules par un programme et une description de ces donnes, faite par le concepteur de la base de donnes, qui dnit la smantique de leur organisation. Cette sparation entre donnes et modle de donnes est une ide centrale en base de donnes [Gardarin, 1999].

2.1 Utilisation de la structure pour accder linformation

29

Paradigmes daccs linformation Les donnes structures et non structures dirent par la manire dont elles sont cres, partages, interroges et mises jour. On peut donc dire quelles dnissent chacune un paradigme daccs linformation, dont voici les principales caractristiques : production des donnes : la cration de donnes non structures (pages web, rapport, CV , ...) est conceptuellement simple et ne demande aucune connaissance informatique particulire. Cette absence de barrire lentre permet de produire facilement des documents. Par exemple, grce la simplicit du HTML et sa permissivit (une page web ne respectant pas la syntaxe comme lenchssement des balises peut quand mme tre ache), des personnes sans comptence en informatique ont pu crer facilement leur site web et contribuer ainsi au dveloppement dInternet. Au contraire, la cration dune base de donnes est une opration complexe qui demande de nombreuses comptences techniques. Par exemple, la cration dun schma ncessite une expertise dans le domaine (pour arriver choisir la modlisation la plus pertinente) et une expertise en base de donnes (connaissance du langage pour implmenter la modlisation). De plus, il est ncessaire pour ajouter des donnes de connatre la fois le schma (pour savoir comment formater les donnes) et un langage spcique (typiquement le SQL). mthode dinterrogation : les donnes non structures sont gnralement interroges par lintermdiaire de mots-cls : un moteur de recherche est capable de retrouver les documents dont le contenu se rapporte un ensemble de termes que lutilisateur fourni pour dcrire sa requte. Le rsultat dune recherche est constitu par une liste de documents ordonns par pertinence. Diverses techniques (recherche de la racine, utilisation de dictionnaire de synonymes ou dontologies comme WordNet, ...) permettent aux moteurs de recherche de retrouver des documents mme si les mots de la requte ny apparaissent pas directement : cest le principe du trouve ce que je veux dire (nd what I mean). Cependant aucune garantie nest fournie sur la qualit de la rponse : il est possible que certains documents renvoys ne soient pas pertinents, cest--dire quils ne rpondent pas exactement aux critres noncs par la requte (il ny a pas de garantie de lexactitude de la rponse) et que certains documents pertinents ne soient pas retourns (il ny a pas de garantie de la compltude de la requte). Par contre, linterrogation de donnes structures garantit lexactitude et la compltude des rponses : toutes les rponses renvoyes sont pertinentes et toutes les rponses pertinentes sont renvoyes. Il est toutefois ncessaire, pour interroger des donnes structures, dapprendre un langage de requtes spcique (typiquement le SQL ou XQuery) ainsi que de formuler trs prcisement son besoin en information. Ce dernier point ncessite de connatre et comprendre la structure des donnes, ce qui est gnralement dicile surtout si la personne interrogeant les donnes nest pas celle qui a choisi la structure [Li et Clifton, 2000]. Un autre avantage des donnes structures est de permettre linterrogation par des requtes complexes qui permettent, laide de jointures de combiner plusieurs critres et ainsi de croiser les informations provenant de plusieurs sources. partage des donnes : les donnes non structures sont facilement reproductibles et transfrables : rien nest plus facile que dajouter un document un corpus ou de composer un nouveau document partir de morceaux de documents existants.

30

Texte et structure Par contre, il est dicile (voire impossible) de manipuler des donnes structures sans avoir une connaissance exhaustive du modle de donnes sous-jacent. Lintgration des donnes provenant de plusieurs sources (par exemple lors de la fusion des systmes dinformation de deux entreprises) est un problme dicile [Doan et Halevy, 2005]. La communaut base de donnes a dni plusieurs problmatiques autour des ces problmes dhtrognit des modles de donnes et de nombreux travaux ont essay dy apporter une solution (cf. Paragraphe 2.4.2).

volution des donnes : une modication de donnes non structures (ajout dune phrase lintrieur dun document ou dun document lintrieur dun corpus) na pas dimpact sur les programmes manipulant celles-ci. Dans le cas des donnes structures, lors de chaque ajout il faudra sassurer que lensemble des contraintes dnies par le modle de donnes est respect. Ainsi, si dans la modlisation retenue, un livre est dcrit par un auteur, un titre et une anne de publication, il sera impossible dajouter un ouvrage dont la date est inconnue 1 . De plus, une modication de la structure de la base (corriger le nom dun champ ou en ajouter un nouveau) ncessite gnralement de rcrire lensemble des requtes existantes pour y rpercuter le changement. De manire gnrale, le principal intrt des donnes structures rside dans leur capacit dinterrogation, et celui des donnes non structures dans la facilit de leur cration et de leur manipulation. La Table 2.1 synthtise les dirences entre ces deux paradigmes.

2.1.2

Crossing the structure chasm 2

Limites des deux paradigmes actuels Les deux paradigmes que nous avons prsents au dbut de cette section ont longtemps t dvelopps et tudis sparment par deux communauts distinctes et les divergences entre ceux-ci nont cess de saccentuer. Pourtant aujourdhui, les limites de chacun de ces paradigmes semblent avoir t atteintes et de plus en plus de travaux expliquent comment et pourquoi certaines mthodes dveloppes pour un paradigme permettraient de rsoudre les problmes rencontrs par lautre. Dans le cas des donnes structures, les dicults rencontres (entre autres) lors du dveloppement de sytmes pairs pairs [Koloniari et Pitoura, 2005] ou de bases de donnes distribues [Rahm et Bernstein, 2001] (htrognit des schmas, prsence de schmas inconnus, ...) ont mis en vidence certaines limites des donnes structures. Plusieurs solutions proposes sinspirent des mthodes utilises pour accder aux donnes non structures : relcher des contraintes du schma [Dong et Halevy, 2005, Amer-Yahia et al., 2002], retourner les n meilleures rponses [Marian et al., 2005], ... Ces travaux sont dtaills la Section 2.4.2. Dans le cas des donnes non structures, les volutions rcentes du web, et notamment le dveloppement du web participatif ou web 2.0 , ncessitent de nouveaux moyens daccs linformation. Les blogs et les sites de nouvelles fournissent un bon exemple des nouveaux ds soulevs par ces volutions. Une caractristique essentielle de ces deux types de sites est de permettre aux visiteurs de commenter linformation intialement publie ou de rpondre aux commentaires des autres utilisa1. sauf si cette possibilit a t envisage lors de la cration de la table 2. Le titre de ce paragraphe est repris de [Halevy et al., 2003a].

2.1 Utilisation de la structure pour accder linformation

31

donnes non structures production des donnes facile aucune contrainte aucune comptence requise

donnes structures complexe ncessite une modlisation du domaine cration par un expert du domaine contrainte forte lors de lajout dun nouvel lment rsultats exacts et complets requtes complexes ncessit de connatre un langage de requte spcique et le schma modier la structure ncessite souvent de rcrire les applications. tout lment ajout doit respecter de nombreuses contraintes toute manipulation de donnes ncessite une connaissance prcise du schma sensible lhtrognit capacit tion dinterroga-

mthodes dinterrogation

recherche approximative partir de mots cls pas de compltude pas dexactitude

volution des donnes

peu sensible une modication des donnes facilit pour crer de nouveaux documents

partage des donnes

les donnes sont facilements reproductibles, transfrables possibilit de faire du copier-coller

caractristique principale

facilit de cration et de manipulation

Table 2.1 Synthse des diffrentes caractristiques de donnes structures et non structures

32

Texte et structure

teurs. Par exemple, sur des sites francophones comme LinuxFr 3 ou Agoravox 4 , chaque nouvelle entrane rgulirement plusieurs centaines de commentaires 5 . La Figure 2.1 donne un exemple de conversation sur un site de nouvelles. Par consquent, les pages

Figure 2.1 Exemple dun thread de commentaires sur Slashdot de ces sites sont gnralement trs longues (tous les commentaires sont achs sur une mme page) et elles abordent souvent plusieurs sujets (il nest pas rare, quau cours de la conversation, le sujet des commentaires change). Par consquent, au del de lidentication des documents pertinents, il est devenu important pour un systme de recherche dinformation de retrouver les lments pertinents lintrieur du document. Le dveloppement du web cach (hidden web) constitue une autre source de nouveaux ds [He et al., 2007, Chang et al., 2004, Raghavan et Garcia-Molina, 2001]. Le web cach regroupe lensemble des documents qui ne sont pas indexs par les outils de recherche traditionnels, notamment, les sites construits autour de bases de donnes (interrogeables uniquement par un moteur de recherche interne) et les pages accessibles par un formulaire de recherche. Les donnes du web cach sont une source importante dinformation 6 et celles-ci sont gnralement riches, trs structures et ncessitent des mthodes dinterrogation spciques. On y trouve, par exemple, les annonces immobilires, les ores demploi, de voyages, ... Pour exploiter, au mieux, toutes ces ressources, de nouvelles mthodes sont ncessaires an, notamment, de rechercher une information plus ecacement (par exemple en retournant les parties pertinentes dun document plutt que lensemble du document), ltrer les nouvelles informations produites, les regrouper (par exemple pour comparer les prix), ... Ces mthodes reposent sur la possibilit daccder linformation une granularit plus ne que le niveau du document. Plusieurs travaux [Chaudhuri et al., 2005, Halevy et al., 2003a] ont montr la pertinence de certains concepts du paradigme des bases de donnes pour raliser ces tches. Ils proposent notamment de remplacer la reprsentation des documents en sac de mots qui est gnralement utilise aujourdhui dans les direntes tches daccs linformation par une rprsentation structure plus proche de la reprsentation utilise par les bases de donnes. Cette reprsentation structure des documents
3. site de nouvelles sur le monde du logiciel libre (linuxfr.org) 4. un mdia citoyen (www.agoravox.fr/) 5. le nombre de commentaires est encore plus important sur les sites anglophones 6. En novembre 2006, certaines tudes (BrightPlanet et Cyveillance) arment quil serait 260 fois plus vaste que le web visible .

2.1 Utilisation de la structure pour accder linformation

33

permettrait galement denvisager (ou de faciliter le dveloppement) de nombreuses applications facilitant laccs linformation. Vers une reprsentation structure des documents Cette reprsentation structure des documents permet de distinguer et de nommer, lintrieur dun document, des lments (un titre, un commentaire, une date, ...) et des relations entre ces lments (ce commentaire a t crit par telle personne telle date, cest une rponse ce commentaire, ...). Nous proposons dadopter, dans la suite de ce travail, la dnition suivante : Dnition 2.1 Un document est structur lorsque les informations quil contient permettent de dcomposer celui-ci en un ensemble dlments tiquets et de relations entre ceux-ci. Il est alors possible dassocier au document une reprsentation structure. La dnition dune reprsentation structure est donc lie la connaissance du format du chier, cest--dire la connaissance de la manire dont les informations sont stockes. Remarquons que cette dnition ne mentionne pas le caractre smantique ou non dune reprsentation structure. Plus prcisement, le caractre structur dun document ne dpend que du format de ce document et nest pas li lexistence dun modle de donnes. La Figure 2.2 illustre les direntes reprsentations (structure ou non) dun document. Une reprsentation structure permet donc dannoter le contenu dun document en ajoutant des informations sur le sens de celui-ci : le contenu dun document est ainsi enrichi de mtadonnes (des donnes sur les donnes) qui dcrivent la nature des informations prsentes dans le document et les liens entre celles-ci. Toutefois, comme nous le verrons dans la section suivante, cette notion de sens doit tre fortement relativise. Le principal intrt de cette representation enrichie est de faciliter le traitement automatique des documents en rendant ceux-ci comprhensibles non seulement par un humain mais aussi par une machine. Cest pourquoi, les applications mettant en uvre ce principe sont gnralement appeles applications smantiques et les technologies sous-jacentes, technologies smantiques [Berners-Lee et al., 2001, Krtzsch et al., 2005]. Il existe aujourdhui de nombreux prototypes montrant comment lutilisation dune reprsentation structure des documents peut faciliter direntes tches daccs linformation. Dans la suite de cette section, nous allons prsenter certaines des applications existantes an de montrer comment on peut tirer prot de cette reprsentation structure.

2.1.3

Exemple dapplications smantiques

Recherche dinformation structure La recherche dinformation structure (RIS) a pour objectif de gnraliser les techniques de la recherche dinformation classique an de tirer avantage de la reprsentation structure des documents. Il existe, depuis 2002, une initiative internationale INEX (INitiative for the Evaluation of XML Retrieval) [Fuhr et al., 2002] visant valuer les performances des moteurs de RIS. Dans le cadre de cette initiative, deux types de tches ont t proposes : la tche CO (Content Only) dans laquelle les requtes sont formules laide de motscls, comme celles que lon utilise aujourdhui. Lobjectif de cette tche est dutiliser linformation apporte par la structure pour cibler linformation pertinente

34

Texte et structure

(a) Extrait du document

1 Texte et structure Sommaire 1.1 Utilisation de la structure pour accder linformation

2 1 1 2 1 1 1 1 1 1 1 1 1 1

numro chapitre : 1 titre chapitre : texte et structure titre 1me section : Utilisation de la structure pour accder linformation (c) reprsentation structure

(b) reprsentation en sac de mot

Figure 2.2 Diffrentes reprsentations dun document (une version prliminaire du dbut de ce chapitre)

2.1 Utilisation de la structure pour accder linformation

35

lintrieur dun document : le moteur de recherche ne doit plus retrouver les documents pertinents, mais les parties de documents les plus concises qui sont pertinentes. La recherche dinformation cible (focused information retrieval) est un thme de recherche prsent depuis plusieurs annes en recherche dinformation [Wilkinson, 1994, Callan, 1994], mais lutilisation de la structure pour identier les parties de documents facilite cette tche et permet eecivement de cibler linformation pertinente lintrieur dun document [Ali et al., 2007]. Ainsi, lors dune recherche sur un site de nouvelles, on peut identier les commentaires pertinents et ne renvoyer que ceux-ci, plutt que de laisser lutilisateur les retrouver. la tches CAS (Content And Structure) qui propose de ltrer les rsultats dune recherche par mot-cls en utilisant des critres portant sur la structure. Un exemple typique de requte CAS est : je voudrais tous les articles de JMLR publis entre 2000 et 2007 parlant dapprentissage dans les espaces structurs . Une telle requte mlange des critres de slection de type base de donnes (la limite sur la date et le nom du journal) et des critres ous (le sujet des articles) comme ceux que lon utilise lors dune recherche par mot cls. Dans ces deux tches, lutilisation dune reprsentation structure des documents permet de distinguer les direntes parties du document (ce qui permet de mieux cibler linformation) et de les nommer (ce qui permet lapplication de critres de ltrage). plus long terme, il est possible denvisager dautres manires dutiliser linformation apporte par la structure des documents pour amliorer la prcision de la recherche dinformation. Ainsi, lors dune recherche par mot-cl portant sur le prsident Kennedy, une reprsentation structure permettrait de distinguer les documents dans lesquels prsident Kennedy se rfre au 35me prsident des tats-Unis, des documents mentionnant une adresse situe avenue du prsident Kennedy 7 . Navigation sur un portable Lachage des pages web sur un tlphone portable et la navigation lintrieur de celles-ci constitue un deuxime exemple dapplication tirant prot dune reprsentation structure des documents. La taille de lcran ncessite en eet de dvelopper de nouveaux moyens de visualiser les pages web. Plusieurs travaux ont propos dutiliser la structure de la page web soit pour identier les lments cls et prsenter une vue hirarchique de ces lments lutilisateur [Buyukkokten et al., 2001] (Figure 2.3), soit pour segmenter une page et permettre lutilisateur dagrandir la zone quil juge la plus pertinente [Baluja, 2006] (Figure 2.4). Dans ces deux applications, la reprsentation structure du document permet didentier des sous-parties de celui-ci et de limiter lachage du document celles-ci. Les promesses du web smantique Le web dit smantique est lapplication phare des technologies smantiques. Il est dicile de trouver une dnition consensuelle de ce concept : certains y voit laboutissement des recherches en intelligence articielle, certains pensent quil concerne essentiellement lexploitation des mtadonnes, alors que dautres prtendent que cest essentiellement un problme de reprsentation des connaissances. Pourtant, tout le monde saccorde dire que nous serons tous incroyablement plus productifs, plus ecaces et tout simplement plus heureux lorsque le web smantique sera devenu une ralit [Berners-Lee et al., 2001].
7. par exemple dans le 16me arrondissement de Paris

36

Texte et structure

Figure 2.3 Illustration de lapproche propose par [Buyukkokten et al., 2001] (limage est extraite de larticle) : plutt que dafcher la page web dans sa totalit, on afche la structure logique du document en rsumant pour chaque lment le contenu de celui-ci

Figure 2.4 Dcoupage dune page web selon sa structure pour faciliter la navigation sur un tlphone portable : il est possible dagrandir sparement chaque zone dlimite (image extraite de [Baluja, 2006])

2.2 Reprsentation structure des documents web

37

Il est galement possible dadopter une dnition plus restrictive du web smantique en considrant que lobjectif de celui-ci est dexploiter linformation contenue dans les mtadonnes et dadapter certains aspects des techniques des bases de donnes au web. Toutefois, cette dnition ne rend pas compte de lambition de Tim Berners Lee [Berners-Lee et al., 2001, Berners-Lee et Fischetti, 1999] ansi que dune grande partie des travaux de ce domaine. Une composante essentielle du web smantique est la cration dun mdium universel dchange de donnes permettant linteroprabilit, cest--dire lchange et la rutilisation du contenu, des direntes sources dinformation. La cration de ce mdium repose sur notre capacit utiliser des reprsentations structures des documents an davoir un accs plus n aux donnes et de pouvoir leur ajouter des mtadonnes. Les programmes pourraient alors prendre en compte la signication des documents et des donnes, plutt que dtre de simples automates manipulateurs de symboles, et lon pourrait passer dun web lisible par les machines un web quelles pourraient comprendre. Le web smantique ouvre la voie de nombreuses applications : les sites de comparaisons de prix (qui supposent quil est possible didentier les dirents produits et leur prix sur le site de chaque vendeur) ; le transfert des informations dun mail annonant un sminaire vers lagenda an de bloquer la plage horaire correspondante et de renseigner certaines informations (orateur, salle, ...) ; la mise au point de vritables agents capables, comme le montre la Figure 2.5, de collecter les contenus du web partir de sources diverses, de traiter ces informations et dchanger les rsultats obtenus avec dautres programmes ou personnes ; ... Malgr lintrt du concept et son ranement technique, le web smantique ne suscite pas les progrs attendus [Hendler, 2005, Shadbolt et al., 2006]. Sil existe une littrature abondante sur le sujet 8 , les eets du lancement du web smantique (il y a plus de dix ans) ne sont toujours pas perceptibles : la manire dont le web smantique sera conu et dploy est actuellement le sujet dun dbat houleux aussi bien dans la communaut scientique quindustrielle. Nous donnerons un aperu de ce dbat au Paragraphe 2.4.1 et dtaillerons, au paragraphe suivant, plusieurs limites des technologies smantiques qui amnent directement la problmatique de restructuration.

2.2

Reprsentation structure des documents web

Les exemples du paragraphe prcdent montrent lintrt dune reprsentation structure. Nous navons toutefois pas encore prcis comment cette reprsentation tait construite et exploite par les applications smantiques. Lexplication de ces deux points va nous permettre dintroduire la distinction entre format de prsentation et format smantique qui va justier lintrt de la problmatique de restructuration et donner quelques lments de rexion sur les dicults rencontres lors du dploiement du web smantique.
8. le W3C tient jour un rsum des dveloppement du web smantique http://www.w3.org/2001/ sw/

38

Texte et structure

La sono hurlait la chanson des Beatles We Can Work It Out quand le tlphone sonna. Quand Pete rpondit, son tlphone baissa le son en envoyant un message aux autres appareils locaux a possdant un contrleur de volume. Sa sur Lucie lappelait depuis le cabinet du mdecin : Maman a besoin de voir un spcialiste et de suivre des sances de thrapie, deux ou trois fois par semaine. Je vais demander mon agent de nous arranger les rendez-vous. Pete accepta tout de suite la responsabilit de la conduire en voiture tour de rle. Depuis le cabinet du mdecin, Lucie donna des instructions son agent du web smantique par le biais de son navigateur. Lagent trouva rapidement linformation concernant le traitement prescrit Maman partir de lagent du mdecin, parcourut plusieurs listes de fournisseurs de services, vria la couverture dassurance pour la mre pour trouver un thrapeute dans un rayon de 20 miles autour de son domicile et prit en considration les taux de satisfaction excellent ou trs bon attribus par des services dvaluation ables. Il fallut ensuite essayer de faire concider les heures de rendez-vous possibles (fournies par les agents de fournisseurs individuels travers leur site web) avec les emplois du temps chargs de Pete et Lucy. Lagent leur fournit un plan en quelques minutes. Pete ne fut pas daccord : lhpital de luniversit se trouvait de lautre ct de la ville par rapport au domicile de sa mre, et il lui faudrait la ramener lheure de pointe. Il t refaire la recherche par son propre agent en ajoutant des critres de choix plus prcis comme le lieu et lhoraire. Lagent de Lucy, qui a une conance totale dans lagent de Pete dans le contexte particulier de cette tche lui a apport automatiquement de laide en lui fournissant des codes daccs et des raccourcis partir des donnes quil avait dj tries. Un nouveau plan fut prsent instantanment : il y avait une clinique beaucoup plus proche avec des horaires plus matinaux, mais il y avait aussi deux avertissements. Dabord, Pete devrait reprogrammer deux de ses rendez-vous (parmi les moins importants). Il vria de quoi il sagissait : ce ntait pas un problme. Lautre remarque concernait la liste des compagnies dassurance qui nincluait pas cette clinique dans la liste des thrapeutes mdicaux. Le type de service ainsi que le statut du plan dassurance ont t vris de manire sre par dautres moyens le rassura lagent. Dtails ? . Lucy enregistra son accord au moment mme o Pete grommelait pargne-moi les dtails et tout fut rgl. (Bien sr, Pete na pu sempcher de vouloir connatre ces dtails : plus tard ce soir-l, son agent lui expliqua comment il avait dcouvert ce fournisseur bien quil ne ft pas sur la liste.)
a. Les expressions en italiques sont celles dont le sens doit tre explicit.

Figure 2.5 Ngotation de rendez-vous entre plusieurs agents du web smantique (exemple repris de [Berners-Lee et al., 2001])

2.2 Reprsentation structure des documents web

39

2.2.1

Dirents types de structures

Comme nous lavons mentionn au Paragraphe 2.1.2, une reprsentation structure dun document permet de distinguer, lintrieur de ce document, un ensemble de parties et des relations entre celles-ci. Aujourdhui, il est facile de dnir une reprsentation structure pour la plupart des documents que lon trouve sur le web. En eet, le format de ces documents (gnralement HTML, XML, wikitext ou PDF) mlange le contenu (le texte du document) avec des balises 9 . La Figure 2.6 prsente un exemple de chier HTML et un exemple de chier XML dcrivant, tous deux, la distribution dun lm. <table> <tr> <td>Korben </td> <td> ... </td> <td><a>Bruce Willis</a></td> </tr> <tr> <td>Leelo </td> <td> ... </td> <td><a>Milla Jovovich</a></td> </tr> </table> <cast> <caracter> <act>Bruce Wilis<act> <name>Korben</name> </caractere> <caractere> <act>Milla Jovovich</act> <name>Leelo</name> </caractere> </cast>

Figure 2.6 Extrait de documents HTML et XML : des balises (en bleu) sont mlangs avec le contenu textuel du document (en noir) Ces balises, gnralement constitues dune tiquette entre une paire de chevrons, permettent didentier (par leur enchssement) et de nommer (par leur tiquette) des sous-parties du document : comme le montre la Figure 2.7, une interprtation directe de lenchssement des balises permet de reprsenter le document sous forme dun arbre ordonn tiquet [Neven, 2002], larbre DOM [W3C, 2005]. Il faut toutefois noter que linterprtation du HTML sous forme darbre nest possible que si le document HTML est bien form , cest--dire sil respecte les rgles syntaxiques du XML dictes par le W3C 10 . Il existe des outils, comme HTMLTidy 11 capables de convertir facilement et ecacement des documents HTML de manire ce que ces rgles soient respectes. Cest pourquoi, dans le suite de ce travail, nous considrerons que tous les documents HTML sont reprsentables par un arbre. Cet arbre peut tre vu comme une reprsentation structure du document dans laquelle les lments sont constitus par les feuilles et les relations par les nuds. Les tiquettes des balises permettent de nommer les lments et les relations. Ainsi, dans lexemple de la Figure 2.6, la structure permet didentier un certain nombre dlments (des noms dacteurs comme Bruce Willis, de personnage ou des lments de mise en forme) et des relations entre ceux-ci qui indiquent le rle jou par chaque acteur. On distingue gnralement deux types de formats et, par consquent, deux types de structures [Bosak et Bray, 1999, Chidlovskii et Fuselier, 2004, Fuselier, 2006] :
9. Selon les formats, laccs la reprsentation des documents sous la forme contenu + balises est plus ou moins ais. Il existe toutefois de nombreux utilitaires permettant de convertir un document en HTML. 10. Le WWW Consortium (W3C) est un organisme international dont lobjectif est de promouvoir la compatibilit des technologies du web (HTML, XHTML, XML, RDF, CSS, ...). 11. tidy.sourceforge.net

40

Texte et structure

table

tr

tr

td

td

td

td

td

td

Milla Jovovich

...

Leelo

Bruce Willis

...

Korben

Figure 2.7 Arbre DOM associ au document dcrit Figure 2.6 : les lments sont constitus par les nuds rectangulaires et les relations par les nuds ellipsodaux les formats de prsentation dont la structure dcrit la manire dont un document doit tre ache. Le HTML est lexemple typique dun format de prsentation : la plupart des balises de ce langage dcrivent des informations de mise en forme (graisse, taille de la police, ...) et il est quasiment impossible de sparer la forme du fond. Ce type de format regroupe la plupart des formats de documents courants : HTML, PDF, wikitext, MS-Word c , ... les formats smantiques dont lexemple caractristique est le XML. Le XML permet chacun de crer ses propres balises en insrant tout simplement dans le contenu du document des balises telles <code_postal> ou <universite>. Le XML donne donc une grande libert lutilisateur lors de lannotation des donnes. Aussi bien les formats smantiques que les formats de prsentation permettent de dnir une reprsentation structure des documents. Leur principale dirence rside dans la possibilit quorent les langages smantiques de choisir ltiquette des balises de manire indiquer le but de celle-ci. En eet, les formats de prsentation sont des formats dit WYSIWYG 12 qui permettent de spcier directement le rsultat nal que lutilisateur verra lcran ou imprimera. Il est toutefois dicile daccder aux donnes pour en faire autre chose que les acher : comme la not Brian Kernighan 13 : the problem with What You See Is What You Get is that what you see is all youve got. Au contraire, les balises dun langage smantique permettent de dire ce que reprsente un lment et non pas ce quoi il ressemble. Les formats smantiques facilitent donc laccs aux donnes en nommant, de manire explicite, les lments en plus de les identier. Ainsi, dans lexemple de la Figure 2.7 on peut slectionner tous les acteurs par lexpression XPath //actor dans le document XML et /table/tr/td[first()] dans le document HTML, cette dernire expression tant nettement moins pratique crire et beaucoup plus sensible une modication de la structure que la premire. Toutefois, cette capacit de nommer les lments nest pas susante pour permettre la mise en uvre des applications prsentes au Paragraphe 2.1.3 et, plus gnralement, lchange et la r-utilisation du contenu qui constitue les fondations du web sman12. acronyme de la locution anglaise What you see is what you get, signiant littralement ce que vous voyez est ce que vous obtenez 13. linventeur du C

2.2 Reprsentation structure des documents web

41

tique : bien des gards, ladjectif smantique utilis pour dcrire ces langages doit tre modr. Nous allons expliquer pourquoi dans la section suivante.

2.2.2

Limites des formats smantiques

Bien quelles soient souvent oublies, les formats smantiques ont plusieurs limites. Certaines de ces limites sont inhrentes lutilisation dune reprsentation structure [Santini, 2007, Brggemann-Klein et Wood, 2004] et traduisent, en grande partie, les limites du paradigme des donnes structures (Paragraphe 2.1.1). Dautres limites sont directement lies la manire dont on ambitionne dutiliser les formats smantiques comme moyen dchange de donnes entre applications. Pour mmoire, nous rappelons (cf. Paragraphe 2.1.3 pour les dtails) que lun des principaux objectifs du web smantique est de dveloppper un mdium universel dchange, permettant toutes les applications daccder lensemble des informations, de les recombiner, les traiter, ... Les objectifs du web smantique dirent ainsi de ceux des bases de donnes dont la seule ambition est de rpondre un besoin prcis et identi priori. Dans la suite de ce paragraphe, nous allons dcrire les principales limites des formats smantiques et montrer comment celles-ci reduisent les possibilits dchanges et de rutilisation dinformations, compliquant ainsi le dploiement des applications smantiques. Accs la smantique des balises dun document structur Contrairement lopinion couramment rpandue, le XML nest pas un format smantique, ou alors pas dans le sens gnralement entendu : si, pour un humain, une balise XML telle vendeur apporte une information immdiatement comprhensible et exploitable, pour un ordinateur elle contient aussi peu dinformation quune balise HTML. En eet, le sens dun lment, cest--dire la manire dont il doit tre interprt, nest pas dni par ltiquette de la balise, mais par le modle de donnes qui lui est associ. Comme pour les bases de donnes, les donnes et le modle de donnes sont deux lments distincts qui ne sont pas conus et manipuls par les mmes personnes ou programmes. Pour rsoudre ce problme, le W3C a dni plusieurs langages (notamment les langages RDF et OWL [Berners-Lee et al., 2001]) qui permettent de dcrire le sens dune tiquette XML dans un cadre mathmatique rigoureusement dni. Toutefois, dans la mesure o il est possible de donner plusieurs dnitions quivalentes dun mme concept, ces langages ne font que repousser le problme de la smantique : au lieu de comprendre le sens dune balise, il faut comprendre le sens dune dnition. En pratique, ce problme dalignement dontologies [Kalfoglou et Schorlemmer, 2003] nest pas ncessairement plus simple rsoudre. Cest pourquoi, les critiques que nous formulerons dans les paragraphes suivants restent valables. Ainsi, pour quune application puisse exploiter une reprsentation structure, il ne sut pas que les documents soient dans un format smantique, mais il faut quils soient dans le bon format smantique, cest--dire celui qui correspond au modle de donnes utilis par lapplication. Si ce nest pas le cas, la structure du document napporte pas plus dinformation quune structure de prsentation : il est dicile dutiliser un schma qui na pas t conu spciquement pour lapplication envisage. Cet argument constitue le sujet du prochain paragraphe.

42

Texte et structure

Limites des schmas pour dcrire la smantique La smantique de la structure dun document est dcrite par le modle de donnes correspondant et, par consquent, seul le schma peut fournir des informations sur le sens des balises utilises. Or un schma est un modle conu pour rpondre un besoin spcique et il est exprim dans un langage particulier. Cest pourquoi il est dicile darriver dterminer la smantique prcise et r-utiliser une reprsentation structure conue pour une autre application. En eet, il nexiste pas, lheure actuelle, de moyen de dcrire prcisement avec des mots, des quations ou des diagrammes le comportement dun programme et plus particulirement la manire dont il accde et interprte les donnes manipules : le seul moyen de spcier exactement ce quun programme doit faire est de donner le code source complet de celui-ci. Ainsi, la spcication dOpenXML, le modle de donnes utilis par Microsoft Oce c , fait plus de 5 000 pages 14 et de nombreux observateurs jugent celle-ci incomplte et inutilisable 15 . De plus, un schma comporte de nombreux choix de conception et des conventions arbitraires qui ne sont connus que par son crateur et qui compliquent la comprhension du modle de donnes sous-jacent par un tiers. Ainsi, dans la classication dcimale de Dewey, dont lobjectif est de classer lensemble du savoir humain lintrieur dune bibliothque, le choix des catgories successives a t guid par les contraintes physiques imposes par le stockage des livres sur une tagre (Figure 2.8). Il ne faut galement pas oublier quun schma traduit les besoins spciques dune application. Il nest donc pas vident que la structure quil dnit corresponde aux besoins dune autre application. Par exemple, une base de donnes bibliographiques (typiquement un chier BibTEX) ne dcrit ni la taille des auteurs (renseignement inutile pour modliser un chercheur dans une bibliographie) ni leur aliation (information qui aurait par contre de nombreuses applications). Ainsi, il est dicile de pouvoir r-utiliser des donnes produites dans un schma inconnu aussi bien parce que celle-ci ne rpond pas ncessairement aux besoins de lapplications envisage que parce quil est dicile de comprendre et dutiliser une reprsentation arbitraire. Impossiblit de dnir un schma universel Une solution aux problmes voqus au paragraphe prcdent serait de dnir un schma universel 16 qui rpondrait aux besoins de toutes les applications imaginables et que tous les producteurs dinformation respecteraient. La dnition dun tel schma est dailleurs une des ambitions du web smantique et un prrequis ncessaire linteroprabilit des applications. De nombreuses initiatives ont t cres pour normaliser les schmas de certrains domaines. Par exemple, le projet OBO 17 propose des schmas dcrivant certains domaines de la biologie (taxonomie des mouches, interactions protine-protine, ...). Toutefois, cette approche nest possible que dans certains contextes prcis, typiquement lorsque lon cherche modliser un domaine ferm (une entreprise, une certaines catgorie dchanges entre les entreprises dun mme secteur, une catgorie dobjets tels que les livres ou les lms) mettant en jeu un petit nombre dentits bien dnies et ne changeant pas au cours du temps. Et encore ! Mme dans ces domaines, il est traditionnellement dicile dobtenir des acteurs, pris par les tches quotidiennes,
14. http://www.ecma-international.org/publications/standards/Ecma-376.htm 15. Une liste de ces problmes est faite par linitiative NO OOXML (www.noooxml.org/ local--files/arguments/TheCaseAgainstOOXML-fr.pdf) et a nalement motiv le refus par lISO de normaliser ce format. 16. un schma pour les gouverner tous... (cf. la citation de Tolkien au dbut de ce chapitre) 17. obo.sourceforge.net

2.2 Reprsentation structure des documents web

43

Lorganisation des livres dans une bibliothque est un exemple de modle de donnes particulirement rchi (il a bnci du travail de plusieurs gnrations de bibliothcaires) et mise en pratique grande chelle. Un exemple typique dorganisation de livres est la classication dcimale de Dewey qui a t dveloppe pour pouvoir raliser une typologie exhaustive de lensemble du savoir humain et permettre de retrouver rapidement un livre traitant dun sujet donn. Dans cette classication les ouvrages sont rpartis dans une hirarchie de classes, chaque classe ayant dix sous-classes plus spcialises. Bien quelle soit, aujourdhui encore, trs rpandues, cette classication prsente des imperfections. La mise en place dun systme de classication rpondait au besoin (urgent) dorganiser les livres prsents (physiquement) dans la bibliothque et cest donc tout naturellement que les catgories ont t choisies en fonction de la production ditoriale de lpoque (Dewey est un bibliothcaire amricain qui conut le systme de classication qui porte son nom en 1876). Cest pourquoi, malgr des rvisions successives, la classication rete toujours lorganisation gnrale du savoir telle quon la concevait aux tatsUnis la n du 19me sicle, ce qui, comme lillustre lextrait suivant peut se se montrer problmatique : 200 Religion 210 Religion naturelle 220 Bible 230 Thologie doctrinale chrtienne 240 Thologie morale et spirituelle chrtienne 250 glises locales, congrgations religieuses 260 Thologie et socit, ecclsiologie 270 Histoire et gographie de lglise 280 Confessions et sectes chrtiennes 290 Autres religions Cette catgorie montre quel point il est dicile de raliser une organisation exhaustive : les religions non chrtiennes noccupent quun dixime de lespace consacr aux religions et toutes les classes indiques sont places au mme niveau. La classication dcimale de Dewey repose galement sur lhypothse que chaque livre appartient une unique catgorie. Ces deux critres sont directement lis aux contraintes physiques du stockage des livres sur une tagre. De plus, lexprience a montr que la volont de prcision souhaite lorigine entrane une multiplication des sous-catgories qui ne facilite pas la recherche documentaire et rend le travail dorganisation et de maintien de la cohrence trs dicile. Figure 2.8 Illustre la difcult de prvoir, priori, un modle de donnes universel : le systme de classication de Dewey

44

Texte et structure

quils accomplissent linvestissement ncessaire pour dcrire correctement et de manire cohrente leurs propres productions, comme le montre [Ames et Naaman, 2007]. Cet article analyse les motivations du tagging, cest--dire de lannotation libre des donnes et non pas dans un cadre formel strict comme dans le cas du web smantique ; les arguments prsents restent toutefois valable. Dans la plupart des cas, il nest pas concevable dimaginer une description normative du monde qui pourrait permettre de dnir un schma, puis de forcer les gens respecter ce schma lorsquils souhaitent publier des informations. En eet, le monde qui nous entoure est fondamentalement dsordonn, surprenant et htrogne : Fabien Girardin parle mme de la ralit bordlique du monde (the real world messiness) et y voit un problme fondamental au dploiement des technologies smantiques et de linformatique ambiante 18 [Girardin, 2007] : il y aura toujours un dcalage entre les donnes cres (aussi bien au niveau de leur format quau niveau de leur contenu) et les donnes attendues. La Figure 2.9 montre direntes situations illustrant cette observation. Il est donc ncessaire que les schmas puissent voluer au cours du temps et soient dnis posteriori en fonction des besoins des applications et non plus priori, lors de la cration des donnes. Ces deux lments constituent un des principaux avantages des schmas XML qui sont descriptifs et non prescriptifs, ne dnissent pas un typage fort et peuvent changer rgulirement en fonction des besoins [Abiteboul, 1997]. Toutes ces observations nous amnent penser, avec de nombreux autres chercheurs comme [Santini, 2007], [Hendler, 2005] ou [Shirky, 2005], que le web smantique, tel quil a t initialement envisag [Berners-Lee et al., 2001] est une utopie. En eet, cette vision repose sur lhypothse quil est possible de formaliser au moins certaines parties de la connaissance et que lensemble des donnes sera explicitement annot de manire cohrente. Cest pourquoi des solutions alternatives utilisant des techniques de recherche dinformation ou fonde sur lapprentissage statistique doivent tre dveloppes. Ces solutions adoptent une approche ascendante (bottom-up) dans laquelle les applications smantiques essayent de tirer partie de la forme actuelle des documents, plutt quune approche descendante (top-down) dans laquelle les applications reposent sur une annotation de lensemble des donnes par les producteurs dinformations. [Etzioni et al., 2006] ralise la premire mise en uvre concrte et complte de ces observations. La problmatique de restructuration et la justication que nous y donnons sinscrivent galement dans ce mouvement.

2.3
2.3.1

Problmatique de restructuration
Besoin de transformer les structures

Comme nous lavons vu dans la section prcdente, il est possible de reprsenter la plupart des documents web de manire structure. Les applications smantiques ne peuvent toutefois pas tirer directement prot de cette reprsentation : pour savoir comment accder aux lments qui les intressent et manipuler ceux-ci, ces applications ont toutes besoin de connatre, priori, la structure utilise et ne sont donc capables de ne traiter que les documents respectant strictement un schma qui traduit leur besoin en information et qui leur est gnralement spcique (cf. Paragraphe 2.2.2).
18. ou ubiquitaire, ou omniprsente, ou pervasive [Greeneld, 2006]

2.3 Problmatique de restructuration

45

Figure 2.9 Diffrentes scnes de la vie quotidienne montrant que notre monde est fondamentalement htrogne et surprenant (illustrations reprises de [Girardin, 2007])

46

Texte et structure

Il est donc fort peu probable que la reprsentation structure construite partir de larbre DOM dun document web quelconque corresponde la structure quattend une application smantique. Deux cas de gure sont envisageables : le document est dans un format de prsentation et sa structure ne peut donc pas tre exploite directement ; le document est dans un format smantique, mais sa structure ne correspond pas celle attendue par lapplication. Dans ces deux cas, il est ncessaire de transformer la structure des documents en une structure conforme au schma de lapplication, si lon veut pouvoir exploiter celle-ci. Cest lobjet de la tche de restructuration que nous proposons de dnir de la manire suivante : Dnition 2.2 tant donn un schma arbitraire, lobjectif de la tche de restructuration est de transformer un document dentre en un document de sortie conforme ce schma et comportant les mmes informations que le document dentre. Le schma permettant de dnir la sortie est, bien entendu, spci par lapplication que lon veut mettre en uvre. La restructuration peut tre vue comme une gnralisation de lextraction dinformation [McCallum, 2005] : la construction du document de sortie peut tre dcrite par lextraction dun certain nombre dlments et de relations entre ces lments. Cest dailleurs la mthode que nous adopterons (cf. Chapitre 5). Toutefois dautres mthodes sont envisageables : il est, par exemple, possible dapprendre directement la transformation [Maes et al., 2007a] ou dutiliser une mthode dtiquetage darbre [Breuel, 2003]. Dans la suite de ce travail, nous nous intressons, plus spciquement, la restructuration de document HTML vers un document XML. Lintrt de cette restriction de la problmatique rside dans les deux observations suivantes : i) la plupart des applications smantiques manipulent des documents XML ; ii) le HTML joue un rle central sur le web, et nous pensons quil peut continuer avoir ce rle, malgr le dveloppement des technologies smantiques. Nous allons dtailler pourquoi dans le paragraphe suivant.

2.3.2

Le HTML comme format pivot

Comme nous lavons expliqu dans le paragraphe prcdent, une application smantique, telle celles que nous avons voques au Paragraphe 2.1.3, ncessitera toujours une transformation pralable de la structure du document vers une structure spcique lapplication considre. Dans ce travail, nous nous sommes concentr sur la transformation de documents HTML : un de nos objectifs principal est de montrer quil est possible de considrer le HTML comme un format pivot partir duquel chaque application peut extraire la reprsentation structure dont elle a besoin. Dans la suite de cette section, nous allons expliquer lintrt de cette thse puis dtailler les raisons qui nous amnent penser que le HTML contient susament dinformations pour permettre dinfrer direntes structures smantiques. Notons, toutefois, que nous ne prtendons pas quil est possible dinfrer toutes les structures smantiques partir dun document HTML, mais quun document HTML et quun document XML dont le schma est inconnu contiennent, dans de nombreux cas, la mme information smantique.

2.3 Problmatique de restructuration

47

Intrt dune transformation partir du HTML Considrer le HTML comme un format pivot prsente plusieurs avantages : le web est constitu, de manire quasi exclusive, de documents produits dans des formats de prsentation et la conversion de ceux-ci vers un format exploitable automatiquement par une application smantique est un prrequis ncessaire au dveloppement des technologies smantiques. Cest le problme de la transformation de ces legacy documents [Chidlovskii et Fuselier, 2004] qui a motiv la quasi totalit des travaux en conversion automatique de documents (cf. Paragraphe 2.4.3). La majorit de ces documents sont des documents HTML ou pouvant tre facilement convertis en HTML. Mais nous pensons que cette problmatique de transformation des documents nest pas uniquement une problmatique transitoire qui perdra son intrt lorsque tous les documents seront produits directement dans un format smantique : dans la mesure o mme les donnes publies dans un format smantique devront tre transformes et o lon devra toujours produire une version lisible par les humains (c.--d. une version dans un format de prsentation), il serait plus pratique de navoir produire et publier que celle-ci, surtout, si comme nous lexpliquerons au paragraphe suivant, la transformation partir du HTML est aussi ecace que la conversion partir dun document XML suivant un schma inconnu. De plus, il nest pas vident, lheure actuelle, que le HTML disparaisse au prot de formats smantiques. En eet, lutilisation de ces formats ncessite une expertise technique quil est dicile dacqurir [Shadbolt et al., 2006, Hendler, 2005]. Ainsi, lors de la prsentation de Tim Berners-Lee la confrence AAAI07, Peter Norvig, responsable du dpartement moteur de recherche de Google (Google director of search) a expliqu que le web smantique ne pouvait pas fonctionner cause de l incomptence des utilisateurs 19 . Par ailleurs, mme si les comptences techniques sont disponibles, la production de documents dans des formats smantiques ncessite de remplacer toute la chane de production de documents, le tout sans gain apparent [Breuel, 2003]. Il faut aussi noter quil y a eu dernirement un certain nombre de signes montrant que le HTML allait continuer jouer un rle important dans le dveloppement du web. Ainsi, en octobre 2006, le W3C a dcid darrter le dveloppement et la normalisation du XHTML 20 , alors que le passage du HTML au XHTML constituait la premire tape du dveloppement du web smantique. Faisabilit dune transformation partir du HTML Nous pensons et cest une des thses principales de ce travail que le HTML contient susament dinformations pour permettre dinfrer les reprsentations structures correspondant aux besoins des direntes applications smantiques. Cette hypothse est une des principales raisons qui nous pousse considrer le HTML comme un format pivot. Cette hypothse repose sur lobservation suivante : la mise en page dun document, telle quelle est dcrite par le HTML, fournit une information supplmentaire qui est exploite quotidiennement par de nombreux utilisateurs. Celle-ci dcrit en eet une structure (un agencement dlments) soigneusement tudie pour mettre en valeur un certain nombre dlments et, ainsi, faciliter la navigation des utilisateurs ou leur permettre dextraire certaines informations pertinentes (un prix sur un site de vente en ligne). Par exemple, dans la Figure 2.1, la mise en page nous permet didentier facilement chaque commentaire ainsi que les relations entre commentaires. Des mta19. voir, par exemple, http://news.zdnet.com/2100-9588_22-6095705.html 20. http://dig.csail.mit.edu/breadcrumbs/node/166

48

Texte et structure

informations comme le nom de lauteur ou la date du commentaire sont galement immdiatement accessibles. La structure de la mise en page est une traduction directe de larbre DOM du document HTML ach. Larbre DOM fournit donc une information facilitant lextraction des lments et des relations entre ceux-ci. En particulier, il permet de segmenter le contenu et ainsi didentier directement les lments pertinents. Par exemple, dans une page dun site de vente en ligne, le prix de lobjet sera trs certainement dans une police ou une couleur spciale qui permettra un visiteur de lidentier rapidement, ce qui ncessite que cette information soit stocke dans une feuille de larbre DOM. Ce rle de la mise en page a t renforc avec le dveloppement, ces dernires annes, des sites bass sur des systmes de gestion de contenu. De plus en plus de pages sont cres automatiquement en appliquant des informations stockes dans une base de donnes un modle de document (template) et linformation est transmise aussi bien par le contenu du document (texte, image, ...) que par sa prsentation : ds lors que celle-ci prsente certaines rgularits, la mise en page permet didentier des lments dans un document et des relations entre ces lments. Intuitivement, la structure du HTML, qui dcrit la mise en page du document, contient donc des informations facilitant la transformation de celui-ci vers une structure smantique. Il faut cependant tre capable dexploiter ces informations. Ce point sera au cur de nos proccupations lorsque nous discuterons de lapplication des techniques dapprentissage statistique la tche de restructuration (Chapitre 5).

2.3.3

Ncessit dautomatiser la restructuration

Langage de transformation de documents Comme nous lavons expliqu dans les paragraphes prcdents, le dveloppement des technologies smantiques repose sur notre capacit restructurer les documents, cest--dire transformer la structure dun document en une structure conforme un schma arbitraire. La restructuration peut tre vue comme une transformation darbres. Ltude de ces transformations a donn lieu un grand nombre de travaux thoriques (formalisation des documents XML [Neven, 2002], des transformations [Martens et Neven, 2004], ...) et appliqus. Ces travaux ont permis la cration dun certain nombre de langages de transformation qui sont des langages de programmation conus spciquement pour crer toute forme de document en sortie partir dun document XML en entre. Il existe aujourdhui de nombreux langages de transformation (Wikipdia en recense une vingtaine [Wikipdia, 2007]), le plus populaire tant le XSLT (eXtensible Stylesheet Language Transformations) [W3C, 1999] qui est un langage dvelopp et normalis par le W3C : cest un dialecte XML (un programme XSLT est avant tout un document XML) qui dnit un langage fonctionnel capable de crer, partir dun document existant, un nouveau document structur (gnralement XML ou HTML) respectant un schma arbitraire (le XSLT est Turing-complet). Ncessit de lautomatisation Le XSLT semble donc tre un outils de choix pour la tche de restructuration. Pourtant lutilisation de ce langage pose un certain nombre de dicults : lcriture manuelle dun programme XSLT capable de transformer les donnes issues dune source vers un schma arbitraire est une tche dicile et coteuse (selon tous les critres) qui ne peut tre ralise que par un expert du domaine et qui prsente un fort risque derreur [Zhang et Dyreson, 2006]. De plus, lcriture manuelle dun programme de transformation spcique chaque source nest pas adapt la

2.4 tat de lart

49

nature dynamique, aussi bien cause du grand nombre de sources que parce que le programme doit tre r-crit chaque fois quune source change la structure des donnes quelle produit. Ces dicults ont motiv ltude de mthodes permettant dautomatiser ces transformations et plus particulirement ltude de mthodes utilisant lapprentissage articiel pour apprendre dterminer automatiquement le document correspondant un document dentre donn, aprs avoir observ un ensemble de documents exprims la fois dans leur structure dorigne et dans la structure cible. Nous donnerons un aperu de ces mthodes dans la Section 2.4.3. Les mthodes dveloppes devront avoir trois caractristiques principales : elles devront tre capables de traiter de gros corpus de documents de grande taille (lobjectif est dtre capable de traiter des donnes issues du web), elles devront tre robustes (c.--d. peu sensibles une petite variation de lentre) et ncessiter le moins de travail possible de la part de lutilisateur. Toutes ces contraintes nous ont amen nous intresser aux mthodes dveloppes dans le cadre de lapprentissage statistique, un domaine que nous allons prsenter dans le chapitre suivant.

2.4
2.4.1

tat de lart
Sur les technologies smantiques et leurs limites

Les dirents types de donnes La prsentation des dirents types de donnes que nous avons faite la Section 2.1.1 sinspire de [Halevy et al., 2003a]. Les auteurs y dtaillent les dirences entre les deux paradigmes daccs linformation et expliquent lintrt que lon peut avoir mlanger les principes des mondes structur et non structur. Plusieurs travaux ont appliqu ce principe. Lun des premiers est [Florescu et al., 1998] qui montre comment lapplication des techniques de base de donnes la gestion des documents web permettrait de faciliter laccs linformation. Ds 1993, [Fuhr, 1993] proposait un modle de RI capable dutiliser linformation de structure en RI et justiait lintrt dincorporer cette information supplmentaire pour amliorer les performances des moteurs de recherche. Pourtant aujourdhui encore, les langages dinterrogation de XML, comme le XQuery, ne permettent pas de faire des requtes textuelles [Rys, 2003]. Le web smantique La notion de web smantique a t introduite par par Tim Berners-Lee dans [Berners-Lee et Fischetti, 1999] et dans [Berners-Lee et al., 2001]. Ces deux articles dcrivent plusieurs applications montrant comment le fait de rendre les documents comprhensibles pouvait amliorer laccs linformation et tait une solution laccroissement de la taille du web. Depuis, de nombreux ouvrages et tutoriaux 21 ont repris ces arguments et ont prsent les direntes technologies mettant en uvre les concepts du web smantique. Plusieurs articles de vulgarisation, tel [Marko, 2006], ont mme t publis dans la presse grand public. Le web smantique repose sur lajout organis de mtadonnes et sur lutilisation de reprsentations structures respectant dirents schmas ou ontologies. Cet ajout de mtadonnes savre dicile mettre en uvre grande chelle et dans des domaines ouverts, comme le montre les dicults rencontres lors de lapplication des technologies smantiques Wikipdia. Wikipdia constitue un exemple typique de site
21. voir semanticweb.org pour une liste des direntes ressources prsente sur le web.

50

Texte et structure

pour lequel les technologies smantiques permettraient de faciliter laccs linformation : [Vlkel et al., 2006, Krtzsch et al., 2005] proposent une modication du moteur de Wikipdia 22 qui ore la possibilit aux utilisateurs dannoter des lments lintrieur des pages ainsi que les liens entre les pages et les lments. Les deux articles signalent la dicult dassurer la cohrence du vocabulaire utilis dans les annotations lorsque lon est dans un domaine ouvert comme Wikipdia, mais ne proposent pas de solution. Critique des fondements du web smantique Cest pourquoi, le web smantique na pas encore russi sortir des centres de recherche [Hendler, 2005] et les amliorations quil avait promis se font attendre. Les concepts mme du Web smantique sont de plus en plus souvent critiqus. Ainsi, [Shadbolt et al., 2006] dtaille les dicults rencontres dans la mise en uvre du web smantique et propose de nouveaux objectifs, moins ambitieux. Une critique des fondements du web smantique est faite dans [Santini, 2007] dont le titre de larticle, Summa Contra Ontologiam indique la porte que lauteur souhaite donner son propos. Les arguments quil apporte sont aussi bien techniques (limites de lutilisation dun langage bas sur la logique pour structurer les donnes) que philosophiques (limites inhrentes la notion de sens ) 23 . Une autre critique des ontologies est faites dans [Shirky, 2005]. Lchec de labandon du HTML au prot de formats smantiques que nous avons signal au Paragraphe 2.3.2 a motiv le dveloppement de techniques capables dextraire linformation smantique se trouvant dj sur le web tel que nous le connaissons aujourdhui [Hendler, 2005]. Par exemple, [Bouquet et al., 2006] observe quil y a dj beaucoup dinformations de structure prsentes sur le web, mais que ces informations ne sont accessibles quaux humains. Par exemple, un utilisateur comprendra immdiatement en voyant une URL comportant PICTURES/TRENTINO/LAKES/ que les photos quil est en train de regarder sont des photos des lacs de Trentino. Larticle propose direntes approches capables dextraire cette information et de lexprimer dans des formats plus facilement manipulables automatiquement.

2.4.2

En base de donnes

Base de donnes et htrognit Les donnes structures tant au cur du paradigme mis en uvre par les bases de donnes, une grande partie des problmes lis lhtrognit des schmas et des modles de donnes a t souleve depuis plusieurs annes dans la commaut BD. Si lessentiel de ces travaux porte sur des donnes relationnelles, de plus en plus dentre eux abordent le problme des donnes XML et des ontologies. Deux solutions au problme de lhtrognit ont t proposes : la premire consiste modier les requtes soit pour prendre en compte lhtrognit des schmas [Halevy et al., 2003b] soit pour relcher les contraintes imposes par le schma [Amer-Yahia et al., 2002]. Dans le premier cas, les rgles de conversion des requtes sont spcies manuellement. la deuxime consiste intgrer toutes les donnes dans une mme base, cest-dire les transformer de manire les rendre conformes un mme schma
22. MdiaWiki 23. comme le dit Simone Santini : the semantic web makes claim that are unavoidably and unapologetically semantics, and that concern the process of signication. These are quintessentially philosophical problems and, if the web semanticians want to make claims in this area, they have to be prepared to defend themself on philosophical ground.

2.4 tat de lart

51

cible. Cest la tche dintgration de schma (schema matching) qui repose sur la mise en correspondance de deux schmas quelconques. Les travaux de la communaut BD ont port aussi bien sur la formalisation et la manipulation des transformations [Gal et al., 2005, Bernstein et Melnik, 2007] que sur la mise au point de mthodes dintgration des donnes. Dans la suite de cette section, nous allons dtailler les travaux raliss en intgration de donnes qui est une problmatique proche de la notre. Mthode dintgration de donnes Le problme de lintgration de donnes a t tudi depuis longtemps par la communaut base de donnes. [Doan et Halevy, 2005] et [Rahm et Bernstein, 2001] prsentent une synthse des travaux eectus et des problmes rencontrs. Un autre tat de lart plus ancien, [Batini et al., 1986], dtaille de manire plus prcise la problmatique. [Zamboulis, 2003] et [Do et al., 2003] prsentent les dveloppements les plus rcents ainsi que les nouvelles problmatiques proches qui sont apparues avec le dveloppement du web smantique et la gnralisation de lutilisation dontologies. Lapproche dAnHai Doan ([Doan et al., 2003], [Doan et al., 2002], ...) est particulirement intressante. Elle repose sur une combinaison de dirents systmes dapprentissage. Chacun de ces systmes permet de dcrire un type dinformation : un algorithme Nave Bayes dcrit le contenu des nuds, un autre algorithme le nom des balises, ... Les rsultats obtenus sont remarquables (au moins sur les corpus considrs !) et, surtout, lapproche dveloppe est la fois gnrale (aucune hypothse nest faite sur le type des donnes manipules) et volutive (on peut facilement prendre en considration de nouvelles caractristiques). Lapproche a dailleurs t applique sur plusieurs types de donnes (SQL, XML et ontologies). Elle a t tendue par [Sayyadian et al., 2005] qui propose dapprendre la fois la combinaison des systmes et les paramtres de ceux-ci. Les techniques utilisant lapprentissage sont relativement rares. Hormis les travaux de AnHai Doan, on peut citer une approche utilisant la programmation logique inductive [Kurgan et al., 2002] et [Li et Clifton, 2000] qui utilise des rseaux de neurones. De nombreuses autres techniques ont t utilises : mthodes base dheurisitiques ou de rgles, techniques fondes sur les marches alatoires, ... Une des techniques les plus populaires ([Yi et al., 2005] ou [Melnik et al., 2002] par exemple) utilise des mesures de similarits entre lments et des mthodes de diusion pour propager les mises en correspondances des lments. Ces mthodes reposent sur lintuition que deux lments relis dans le schma dentre (le nom et le prnom dune personne par exemple) seront probablement lis dans le schma de sortie. Dans un domaine proche de lintgration de donnes, certains travaux, motivs par le dveloppement du web cach, se sont rcemment attaqus au problme de lintgration des bases de donnes accessibles depuis une page web [He et Chang, 2003, Zhang et al., 2004]. Lien avec la restructuration Bien que les problmatiques dintgration de schma et de restructuration puissent paratre proches, il est important de noter quelles considrent deux types de donnes direntes : dans le premier cas, les corpus sont essentiellement consistitus de donnes et dans le second de documents. Mme si les corpus de BD sont exprims en XML, leur structure reste trs proche des tables SQL. Elle est donc relativement plate (la profondeur des arbres est faible) et le nombre de nuds reste faible. Dautre part, la smantique des tiquettes est trs forte

52

Texte et structure

et celles-ci sont susamment explicites pour apporter une information smantique pertinente. Par ailleurs, de par leur conception mme, les bases de donnes cherchent liminer toute redondance et il y a un donc gnralement unicit des noms des balises. Cest pourquoi, la quasi totalit des algorithmes existants adopte une approche du type classication dans laquelle il sut dtiqueter un nud pour savoir o le placer dans le document de sortie. Aucune de ces caractristiques napparat dans le cas des corpus de documents : il y a gnralement un plus grand nombre de donnes ; celles-ci sont nettement plus grandes et une mme balise est gnralement employe plusieurs fois, parfois avec une smantique dirente. cause de ces dirences, il est gnralement impossible dutiliser directement les mthodes dveloppes en intgration de donnes pour la tche de restructuration.

2.4.3

En transformation de documents

Historiquement, la communaut documents sest depuis longtemps intresse une problmatique proche de la restructuration, lanalyse de la structure des documents (layout analysis), qui consiste extraire, dune image dun document une reprsentation structure dcrivant lorganisation logique de celui-ci. Cette organisation dcrit, par exemple, quun ensemble de textes donn forme un paragraphe qui constitue la lgende dune illustration. Une revue de ces travaux est faite dans [Mao et al., 2003]. [Shilman et al., 2005] propose une mthode base de grammaires probabilistes, similaire la mthode que nous proposerons la Section 5.2.2. Plus rcemment, plusieurs travaux se sont attaqus la problmatique de la transformation de documents HTML et proposent des mthodes capables dextraire une reprsentation logique partir dune page HTML. Cest une tche plus simple que lanalyse de documents non seulement parce quil est possible daccder directement au texte (il ny a plus dtape de reconnaissance de lcriture) mais surtout parce que, comme nous lavons indiqu au Paragraphe 2.3.2, la structure du document HTML fournit une information pertinente et accessible directement. Ces travaux ont toujours t motivs par la ncessit de transformer les legacy documents. Le premier article aborder ce problme est [Breuel, 2003]. Cet article fournit plusieurs arguments justiant la ncessit de dvelopper des mthodes de transformation et prsente les dicults que posent le remplacement du HTML par des formats smantiques. De nombreuses approches dveloppes utilisent des techniques dapprentissage statistique pour automatiser la transformation. On peut notamment citer lapproche de Boris Chidlovskii [Chidlovskii et Fuselier, 2004, Chidlovskii et Fuselier, 2005] qui a inspir une partie de nos travaux. Cette approche sera prsente plus en dtail au Chapitre 5. Deux autres approches de la littrature sont [Semeraro et al., 2001] qui propose une mthode pour tiqueter les direntes parties dun document en fonction de la classe de celui-ci et permet ainsi lextraction de la structure logique du document et [Mukherjee et al., 2003] qui insiste sur le fait que les lments ayant la mme smantique ont une prsentation identique dans la page HTML. [Chung et al., 2002] est une approche lgrement dirente qui propose dextraire un schma commun une collection de pages web et de convertir celles-ci vers ce schma. Dautres travaux, comme [Ishitani, 2003] proposent une approche purement manuelle la transformation.

2.5 Conclusion

53

2.5

Conclusion

Nous avons introduit, dans ce chapitre, la tche de restructuration qui sert de l directeur toute une partie de ce travail et prsent le contexte dans lequel celle-ci sinscrit. Nous avons, dans la premire partie de ce chapitre, expliqu comment les applications smantiques pouvaient faciliter laccs linformation et rpondre certains problmes soulevs par des dveloppements rcents du web. Les applications smantiques reposent sur lexploitation dune reprsentation structure des documents web qui permet didentier lintrieur de ceux des lments et des relations entre ces lments. Nous avons discut, dans une deuxime partie, des direntes manires de construire une reprsentation structure dun document. Cette discussion nous a permis didentier un certain nombre de freins au dploiement et ladoption des applications smantiques. Ces limites nous amnent considrer la tche de restructuration qui consiste transformer des documents dont la structure dcrit la mise en page vers des formats smantiques. Nous nous sommes plus particulirement concentr sur la transformation de documents HTML en documents XML. Comme nous lavons expliqu dans la troisime partie de ce chapitre, cette tche revt une importance toute particulire puisquelle permet de considrer le HTML comme un format pivot partir duquel chaque application peut extraire la reprsentation structure dont elle a besoin. La restructuration pourrait ainsi orir une approche alternative au dploiement des applications smantiques qui ne repose pas sur lhypothse que les donnes seront toutes annotes de manire explicite et cohrente. Une deuxime raison nous pousse nous intresser la restructuration : intuitivement, la structure des documents HTML fournit, de manire implicite, de nombreuses informations facilitant la transformation de celui-ci vers une structure smantique : une des thses de ce travail est que le HTML est un format susament riche pour permettre dinfrer automatiquement une structure smantiquement riche. Lautomatisation de la transformation de documents HTML en XML est donc possible si nous pouvons dvelopper des mthodes dapprentissage automatique capables de prendre en compte ces informations et, plus particulirement, dinclure des caractristiques dcrivant la structure des documents dentre et de sortie. Cest pourquoi, nous allons nous intresser, dans la suite de ce travail, la problmatique gnrale dapprentissage structur.

54

Texte et structure

3
Apprentissage statistique

Sommaire
3.1 Principe de lapprentissage statistique . . . 3.1.1 Pourquoi lapprentissage statistique ? 3.1.2 Formalisation . . . . . . . . . . . . . Modles de classication supervise . . . . 3.2.1 Le perceptron . . . . . . . . . . . . . 3.2.2 La rgression logistique . . . . . . . 3.2.3 Les machines vecteurs de support . 3.2.4 Les noyaux . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 57 59 63 66 67 70 74

3.2

3.3

If the only tool you have is a hammer, you will see every problem as a nail. Anonyme

C vail, lapprentissage statistique. Il dnit les direntes notions de lapprentissage statistique que nous utiliserons. Il sorganise autour de deux grands axes. Le premier
(Section 3.1) dcrit lintrt de lapprentissage statistique et une formalisation de ce domaine. Le second (Section 3.2) prsente les dirents algorithmes et techniques classiques du domaine : le perceptron, la rgression logistique, la machine vecteurs de support et les noyaux.

e chapitre a pour objectif de prsenter le contexte dun des aspects de notre tra-

3.1
3.1.1

Principe de lapprentissage statistique


Pourquoi lapprentissage statistique ?

Le terme apprentissage tout comme le terme structure regroupe tellement de concepts dirents et varis quil est dicile den donner une dnition prcise. Il est toutefois plus facile de dnir lapprentissage articiel, au moins de manire fonctionnelle : lapprentissage articiel a pour objectif la mise au point de programmes capables dapprendre partir de leur exprience, cest--dire de changer leur structure interne ou la valeur de leurs paramtres en fonction de leur exprience de manire amliorer leurs performances futures. Un programme apprenant est donc un programme

56

Apprentissage statistique

qui samliore partir dune structure initiale (on napprend pas partir de rien !) et de son exprience. Plus formellement, Tom Mitchell propose la dnition suivante [Mitchell, 2006, Mitchell, 1997, Bousquet, 1999] : Dnition 3.1 Un programme apprend partir dune base dapprentissage E par rapport une classe de tche T et une mesure de performance P, si sa performance lexcution de tches de T , mesure par P, samliore au fur et mesure que E lui est prsente. 1 Par exemple, dans le cas dun programme apprenant reconnatre des lettres manuscrites (Optical Caracter Recognition), les dirents lments du problme dapprentissage sont : T : reconnatre et classer des lettres manuscrites dcrites par des images (cette image reprsente un a , celle-la un b , ...) ; P : la proportion de lettres correctement reconnues ; E : une base de donnes contenant des lettres (sous forme dimages) avec leur classe (cest--dire, la lettre de lalphabet que reprsente chaque image). Dans le cas dun programme apprenant transformer des documents, on a : T : transformer des documents HTML en documents XML correspondant ; P : la proportion de documents correctement transforms ; E : une base de donnes contenant des documents exprims la fois en HTML et en XML. Lutilisation de programmes apprenant de leur exprience est une mthode de dveloppement de logiciels particulirement adapte dans deux cas : 1. Les applications sont trop complexes pour tre programmes manuellement. Cest notamment le cas des programmes traitant les informations remontes par des capteurs comme les systmes de reconnaissance des formes ou des sons : nous pouvons tous reconnatre le visage de notre mre sur une photo, mais il nous est impossible dexpliquer comment, et donc de raliser le programme effectuant cette tche. Un autre cas typique concerne la mise au point de programmes ayant de nombreux paramtres rgler, comme, par exemple, les moteurs de recherche. Un moteur de recherche repose sur la dnition dune fonction dordonnancement F(d, r) mesurant quel point un document d rpond une requte r. Cette fonction dpend dun certain nombre de caractristiques (termes apparaissant dans la requte et dans le document, nombre de liens pointant sur le document, ...) et dun certains nombres de paramtres indiquant, par exemple, le poids relatif des direntes caractristiques. La valeur de ces paramtres doit tre xe par le dveloppeur. Ce choix dtermine directement les performances du moteur (sa capacit retrouver les bons documents). Cest pourquoi une grande partie du temps de dveloppement est consacr lexploration de lespace de toutes les combinaisons de paramtres possibles pour trouver la bonne combinaison. Rcemment plusieurs travaux [Robertson et al., 2004, Taylor et al., 2006] ont montr comment lapprentissage facilitait cette recherche et permettait de trouver automatiquement la combinaison de paramtres ayant des performances optimales.
1. A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T , as measured by P, improves with experience E.

3.1 Principe de lapprentissage statistique

57

2. Les applications doivent sadapter lutilisateur ou voluer au cours du temps. Des exemples caractristiques de telles applications sont les systmes de reconnaissance de la parole qui doivent sadapter au locuteur et les agrgateurs sadaptant lutilisateur (self-customizing aggregator) dont lobjectif est de slectionner les nouvelles en fonction des centres dintrt de lutilisateur et des sujets dactualit. En eet, classiquement, le dveloppement dun programme ncessite dexpliciter les direntes tapes permettant de construire la sortie attendue partir de lentre et donc de dtailler de manire exhaustive la relation qui existe entre les entres et les sorties. Dans les dirents cas numrs ci-dessus, lcriture dun algorithme est impossible soit parce quil est dicile de caractriser la relation entre les entres et les sorties, soit parce que toutes les donnes ncessaires ne sont pas disponibles lors du dveloppement du programme. Les techniques dapprentissage automatique orent une mthode de dveloppement alternative : plutt que dcrire une spcication formelle du comportement du programme, le programmeur fournit une base dapprentissage compose dexemples dentre et de leur sortie attendue. Lalgorithme dapprentissage est alors capable dinduire un programme capable de gnraliser en infrant la sortie associe une entre napparaissant pas dans la base dapprentissage. Dirents paradigmes dapprentissage ont t proposs pour apprendre direntes catgories dobjets et notamment : des fonctions qui associent une entre x gnralement appele observation une sortie y (cest--dire qui apprennent la fonction f telle que f (x) = y) des rgles logiques, comme par exemple la rgle daughter(X, Y) femal(X) parent(Y, X) qui indique que X est une lle de Y si X est une femme et Y un parent de X ; cest lobjectif principal de la programmation logique inductive [Lavrac et Dzeroski, 1994] des grammaires formelles [Dupont et Miclet, 1998] ; cest la tche dinfrence grammaticale. des machines tats nis [Vidal et al., 2005a, Vidal et al., 2005b] ... Dans la suite de ce chapitre, nous allons nous intresser plus particulirement lapprentissage statistique supervis qui est la technique que nous avons utilise pour traiter la problmatique de restructuration.

3.1.2

Formalisation

Un algorithme dapprentissage supervis a pour objectif dinduire, partir dun ensemble dexemples, une fonction de prdiction ou un classieur f : X Y qui associe une entre ou observation x de X une sortie ou tiquette f (x) = y de Y. Les dirents travaux en apprentissage statistique se sont focaliss sur trois types de problmes : la classication binaire qui correspond au cas o deux tiquettes sont possibles. Ces tiquettes sont arbitrairement dsignes par 1 et 1 (Y = {1, +1}). Une observation est dite positive si son tiquette est 1 et ngative dans le cas contraire. Un tel classieur permet, par exemple, de prdire sil fera beau demain ou non partir de lobservation dun certain nombre de caractristiques du temps daujourdhui (temprature, vitesse des vents, ...) . la classication multi classes qui correspond au cas o Y est un espace discret comportant un petit nombre dlments : Y = {1, 2, ..., K}. Un tel classieur

58

Apprentissage statistique est plus gnral quun classieur binaire : il permet de qualier le temps quil fera demain en choisissant parmi un ensemble de temps prdnis (beau, pluvieux, nuageux, ...)

la rgression qui correspond au cas o Y est lensemble des rels R. Un tel classieur permet de prdire la temprature quil fera demain. Lespace dentre X est une reprsentation numrique de lobservation qui prend gnralement la forme dun vecteur de rels (X Rd ). Chaque coordonne xi de ce vecteur dcrit une caractristique (feature), une proprit de lobservation qui est juge pertinente pour la tche de prdiction. Un algorithme dapprentissage prend comme entre : n un ensemble dapprentissage S = x(i) , y(i) . Chaque exemple est un couple x(i) , y(i) dcrivant une observation et la rponse attendue. On suppose que les exemples sont construits de la manire suivante [Vapnik, 1995] : 1. un gnrateur choisit les observations x(i) de manire indpendante suivant une loi de probabilit D(x) xe, mais inconnue ; 2. un superviseur associe alors une tiquette y(i) chacune des observations x(i) selon une distribution de probabilit D(y|x) galement xe et inconnue. Les exemples sont donc gnrs indpendamment par une distribution de probabilits xe mais inconnue D(x, y) = D(x) D(y|x). (y , y), une fonction de cot ou fonction derreur qui mesure le cot de prdire y la place de y ou, de manire quivalente, ladquation entre la sortie prdite et la sortie attendue. Formellement, une fonction de cot est simplement une fonction de Y Y dans R tel que (y, y) = 0. On utilise gnralement la fonction de cot 0/1 que nous noterons 0/1 :
0/1 i=1

(y , y) = 1 {y

y }

(3.1)

o 1 {} est la fonction indicatrice qui vaut 1 si est vrai et 0 dans le cas contraire. une classe de fonctions F . Plusieurs classes de fonctions direntes ont t proposes [Duda et al., 2000] (arbre de dcision, plus proches voisins, ...). Cette classe dnit priori la structure du programme apprenant. tant donn ces trois lments, un algorithme dapprentissage va permettre de slectionner la fonction f de F qui va avoir la meilleure capacit de gnralisation, cest-dire, celle qui va permettre dapproximer D le mieux possible (tel que mesur par la fonction de cot). Plusieurs critres ont t proposs pour raliser cette slection : minimisation du risque empirique, maximum de vraisemblance, ... Nous allons maintenant dcrire rapidement un de ces critres, le critre de minimisation du risque empirique, et sa justication thorique par Vapnik [Vapnik, 1995] qui ore un cadre gnral permettant de regrouper, de comparer et de lgitimer les direntes mthodes prsentes dans la Section 3.2. La performance dun classieur f peut tre value de manire naturelle par le risque (functional risk) qui reprsente lerreur moyenne que fera le classieur f sur les donnes gnres par D : R[ f ] =
XY

( f (x), y)dD(x, y)

= E(x,y)D ( f ((x), y)

3.2 Modles de classication supervise

59

Le risque permet dvaluer directement la capacit gnraliser dun classieur. Il est alors naturel de choisir, parmi toutes les fonctions de F , la fonction minimisant le risque : f opt = argmin R[ f ]
f F

(3.2)

Le risque ne peut toutefois pas tre valu directement puisque le calcul de celui-ci ncessite la connaissance de D, la distribution gnrant les donnes. Il est toutefois possible de lestimer en considrant le risque empirique dni par : Remp [ f ] = 1 n
n

f (x(i) ), y(i)
i=1

(3.3)

En eet, les donnes tant gnres indpendamment, le risque empirique Remp est un estimateur non biais du risque R. Le critre de slection dni par lquation 3.2, peut alors se rcrire : f opt = argmin Remp [ f ]
f F

(3.4)

Ce critre est appel minimisation du risque empirique. Il est lgitime de se demander si la minimisation du risque empirique garantit toujours que le classieur ait une bonne capacit de gnralisation, cest--dire si le minimum du risque empirique et du risque concident. Cette question de la consistance du principe ERM est au cur de la thorie de lapprentissage de Vapnik [Vapnik, 1995]. Les dtails de cette thorie dpassent le cadre de ce travail, mais on peut montrer que lensemble des mthodes dapprentissage prsentes dans ce document sont consistantes et quelles permettent donc dassurer une bonne gnralisation. La construction dun classieur est donc directement lie notre capacit rsoudre le problme doptimisation (3.4) et donc au choix de la fonction de cot. Loptimisation du cot 0/1 est gnralement impossible pour la plupart des classes de fonctions [Hgen et Simon, 1992, Collins et al., 2002]. Cest pourquoi, comme nous le montrerons la Section 3.2, les algorithmes optimisent gnralement des approximations convexes du cot 0/1. Les direntes fonctions de cot utilises sont rsumes dans la Figure 3.1

3.2

Modles de classication supervise

Nous allons maintenant tudier trois mthodes dapprentissage dun classieur linaire. Cette classe de classieurs regroupe lensemble des modles que nous utiliserons dans ce travail et, comme nous le verrons au chapitre suivant, joue un role central en apprentissage structur. Un classieur linaire est dni par : f (x) = argmax F(x, y; w)
yY

(3.5)

o F est une fonction de score paramtre par w Rd . Cette fonction de score mesure la compatibilit entre une observation x et une tiquette y. Le classieur dni par lquation 3.5 retourne simplement ltiquette la plus compatible avec une observation donne. La Figure 3.2 illustre ce principe. Lutilisation de ce type de classieur est au

60

Apprentissage statistique

6 5 4 3 2 1 0 4

0/1 log hinge

Figure 3.1 Reprsentation graphique de diffrentes fonctions de cot. Toutes ces fonctions sont des approximations convexes de la fonction de cot 0/1 (courbe bleue)

chat chien poisson F(x, y; w)

Y
chat chien poisson

Figure 3.2 Principe de la classe de classieur tudie : une fonction de score F mesure la compatibilit entre une observation (ici, limage dun poisson) et lensemble des tiquettes possibles (ici, une liste danimaux) ; ltiquette la plus compatible est choisie

3.2 Modles de classication supervise

61

cur de la prsentation de lapprentissage partir dnergie (energy based learning) [LeCun et al., 2006]. La fonction de score gnralement choisie est : F(x, y; w) = w, (x, y) + b o , est le produit scalaire usuel, (x, y) Rd une reprsentation jointe de lentre et de la sortie, w le vecteur de paramtres aussi appel vecteur de poids et b le biais. Chaque lment de la reprsentation jointe (x, y) est une caractristique dcrivant lentre et la sortie. Voici un exemple dune caractristique pouvant tre utilise pour prdire le temps : j (x, y) = 1 {xi = 100 y = beau} qui vaut 1 si ltiquette est beau et la ime composante de lobservation, dcrivant par exemple la vitesse du vent, vaut 100. Le biais est un paramtre spcial qui est, suivant les algorithmes, soit distingu (comme cest la cas ici), soit directement intgr dans le vecteur de paramtres w (le vecteur (x, y) est alors augment dune coordonne spciale xe 1). Dans le cas de la classication binaire, si les tiquettes des classes sont 1 et 1, la classe de fonctions considre est gnralement dirente : ltiquette dune observation x est dtermine par la fonction : f (x) = sign F(x, y; w) 1 si F(x, y; w) 0 = 1 sinon (3.6)

Lutilisation de cette classe de fonctions ne change pas fondamentalement les direntes mthodes mais elle permet de simplier les notations des algorithmes. Il est possible de donner une interprtation gomtrique ce type de fonction de classieur : lespace dentre X est divis en deux parties par lhyperplan dquation w, (x, y) + b = 0, chacun de ses sous-espaces correspond une tiquette. La Figure 3.3 illustre cette interprtation dans le cas de la classication binaire. Nous dirons dun ensemble dobservations S quil est linairement sparable sil existe (au moins) un classieur paramtr par lquation 3.5 ayant une erreur empirique nulle. Graphiquement cela revient dire que lon arrive trouver un hyperplan tel que lensemble des donnes dune mme classe se trouve dans le mme sous-espace. Importance des classieurs linaires Il peut sembler priori rducteur de limiter les fonctions de score la classe des fonctions linaires. Mais les travaux de Vapnik [Vapnik, 1995, Cristianini et Shawe-Taylor, 2000] ont montr que lutilisation de noyaux permettait facilement dtendre ce type de classieur pour traiter des donnes non linairement sparables ou qui ne sont pas directement reprsentables par des vecteurs. Les noyaux sont prsents la Section 3.2.4. Les classieurs linaires sont aujourdhui extrmement populaires et ils sont utiliss par de nombreuses applications. En eet, comme le dtaille [Cumby et Roth, 2003] ou Daum dans un billet de son blog 2 , lorsque lon dveloppe un systme dapprentissage, deux alternatives sont envisageables : soit on considre une classe de fonctions complexes (typiquement un rseau de neurones multi-couches) avec des caractristiques simples extraites directement de lentre (n-grams, nombre de mots, ...), soit
2. http://nlpers.blogspot.com/2007/05/non-linear-models-in-nlp.html

62

Apprentissage statistique

Figure 3.3 Reprsentation dun ensemble dobservations et de deux hyperplans correspondant deux fonctions de score F diffrentes on considre une classe de fonctions simples (fonctions linaires) avec des caractristiques complexes dcrites par exemple par des conjonctions de caractristiques voire de vritables rgles logiques [Cumby et Roth, 2000]. Supposons, par exemple, que lon cherche induire partir dun ensemble de mesures la loi de la gravitation de Newton mesurant lintensit de la force de gravit entre deux corps A et B : G mA m B F AB = d2 o G est la constante gravitationnelle, d la distance entre les deux corps et mA et mB leur masse respective. Cette loi sexprime partir de quantits directement observables (masses des corps et distance), mais nest pas linaire par rapport ces observations. Sa modlisation ncessite donc de considrer une classe de fonctions plus complexes que celle que nous venons de prsenter. Pourtant un simple changement de reprsentation : (mA , mB , d) (log mA , log mB , log d) rend la loi induire linaire. Ainsi, en complexiant le vecteur dcrivant les observations (ici, en ltendant par toutes les applications de la fonction logarithme aux observations), on peut se ramener linduction dun classieur linaire. De plus en plus de travaux, notamment en TAL 3 ou en vision par ordinateur, adoptent cette approche. En eet, celle-ci repose sur des algorithmes dapprentissage faciles mettre en uvre et dont le comportement aussi bien thorique que pratique est bien connu, ce qui permet aux chercheurs en TAL ou en vision de se consacrer leur cur de mtier, la recherche des caractristiques pertinentes et non aux rglages longs et dlicats dalgorithmes dapprentissage.
3. Traitement Automatique de Langues Naturelles

3.2 Modles de classication supervise

63

3.2.1

Le perceptron

Cas de la classication binaire Nous prsentons dabord le cas de la classication binaire o la fonction dont on estime les paramtres est dnie par lquation 3.6. Lalgorithme du perceptron [Rosenblatt, 1958, Cristianini et Shawe-Taylor, 2000] permet dapprendre le vecteur de poids w et le biais b. Cest un algorithme en ligne qui considre successivement chaque exemple de la base dapprentissage et mistakedriven : chaque fois quun exemple est mal class, les paramtres sont mis jour de manire corriger la valeur retourne par le classieur pour cet exemple. Le perceptron permet donc de dterminer la valeur des paramtres de sorte que le classieur ne ralise aucune erreur sur les donnes dapprentissage. Lapprentissage des paramtres est dtaill par lAlgorithme 1. Les dirents paramtres estimer sont initialiss 0 (tapes 1 et 2), le processus suivant est alors excut tant quil y a des erreurs de classication : pour chaque exemple, ltape 7 vrie que celui-ci est correctement classi et si ce nest pas le cas, lhyperplan est dplac dans la bonne direction pour viter cette erreur lors de la prochaine itration (tapes 8 et 9). On peut montrer [Collobert et Bengio, 2004] que cet algorithme ralise une descente de gradient stochastique et quil optimise directement le risque empirique lorsque la fonction de cot est le hinge loss :
hinge

(y , y) = max {1 y y , 0}

Comme le montre la Figure 3.1, le hinge loss est un majorant convexe de la fonction de cot 0/1. Algorithme 1 Algorithme du perceptron (forme primale) Require: a linearly separable training set x(i) , y(i) 1: w 0 2: b 0 3: R = maxi 1,n ||x(i) || 4: while there are classication errors do 5: for i = 1 to n do 6: y = sign w, x(i) + b 7: if y y(i) then 8: w w + y(i) x(i) 9: b b + y(i) R2 10: end if 11: end for 12: end while
n i=1

and a learning rate

On peut prouver que lalgorithme du perceptron converge (la boucle while se termine) si les donnes sont linairement sparables. Le nombre ditrations ncessaires pour atteindre la convergence est donn par le thorme de Noviko : Thorme 1 Soit S un ensemble dapprentissage et R le rel dni par : R = max ||x(i) ||
i 1,n

Supposons quil existe un vecteur wopt tel que ||wopt || = 1 et : i 1, n , y(i) wopt , x(i) + b

64

Apprentissage statistique

Alors, le nombre derreur fait par lalgorithme du perceptron est, au plus, de : 2R


2

La quantit que fait intervenir le thorme de Noviko correspond la marge de lensemble dapprentissage. Cest une caractristique dun ensemble dapprentissage qui, comme nous le montrerons la Section 3.2.3, joue aujourdhui un rle important en apprentissage statistique. Elle est dnie partir de la notion de marge fonctionnelle : Dnition 3.2 La marge fonctionnelle dun exemple x(i) , y(i) par rapport lhyperplan caractris par w et b est la distance de cet exemple lhyperplan : i = y(i) w, x(i) + b La marge dun ensemble dapprentissage S correspond alors la plus petite marge fonctionnelle : = min i
i 1,n

La Figure 3.4 illustre les notions de marge et de marge fonctionnelle.

Figure 3.4 Illustration de la notion de marge dun ensemble de donnes () et de marge fonctionnelle dun exemple (i )

Formulation duale On peut remarquer que pour choisir la valeur du vecteur de paramtres, lalgorithme du perceptron ajoute ou soustrait les exemples mal classs suivant la classe de ceuxci (tape 8 et 9 de lAlgorithme 1). Comme le vecteur de paramtres est initialement nul, la fonction nale sera constitue par une combinaison linaire des exemples mal classs :
n

w=
i=1

i y(i) x(i)

(3.7)

3.2 Modles de classication supervise

65

Les i sont des rels positifs proportionnels au nombre de fois o le ime exemple a t mal class : plus i est grand, plus lexemple correspondant aura t mal class. Pour un ensemble dapprentissage donn, la famille (i )n (il y a autant de i que dexemples) i=1 peut tre vue comme une reprsentation alternative du classieur f . En thorie de loptimisation ([Boyd et Vandenberghe, 2004], Chapitre 5), on appelle coordonnes duales les i . Ces coordonnes duales permettent de rcrire la fonction de classication : f (x) = sign ( x, w + b) n j y j x j , x + b = sign j=1 n j y j x j , x + b = sign
j=1

Lalgorithme du perceptron peut sexprimer de manire manipuler directement cette forme duale. Ce processus est dtaill par lAlgorithme 2. Cette formulation a plusieurs avantages, le principal tant, comme nous le dtaillerons la Section 3.2.4, de permettre lutilisation de noyaux. Algorithme 2 Algorithme du perceptron (forme duale) Require: a linearly separable training set x(i) , y(i) 0 b0 R = maxi 1,n xi while there are classication errors do for i = 1 to n do y = n j y( j) x( j) , x(i) + b j=1 if y y(i) then i i + 1 b b + y(i) R2 end if end for end while
n i=1

Gnralisation au cas multi classes Considrons un problme de classication multi classes dont le domaine de sortie est Y = {1, ..., K}. Pour traiter ce problme avec un perceptron, il sut de dnir un perceptron paramtr par le couple (wi , bi ) pour chacune de ces classes et dutiliser la fonction de dcision suivante : f (x) = argmax ( wi , x + bi )
i 1,K

Il est possible de se ramener au cas dcrit par lquation 3.5 en considrant le vecteur w constitu par la concatnation de tous les wi .

66

Apprentissage statistique

3.2.2

La rgression logistique

Paramtrisation et estimation La rgression logistique est une deuxime mthode de classication usuelle. La fonction de score utilise est dnie comme tant la probabilit conditionnelle de ltiquette y connaissant lobservation x : F(x, y; w) = p(y|x; w) Cette probabilit est paramtre de la manire suivante : p(y|x; w) = 1 exp w, (x, y) Zw (x) (3.8)

o (x, y) est la reprsentation jointe de lentre et de ltiquette et Zw (x) est un facteur de normalisation qui permet de maintenir la probabilit dans [0, 1]. Ce facteur est dni par : Zw (x) = exp w, (x, y) (3.9)
yY

Le vecteur de paramtres est dtermin par maximisation de la vraisemblance conditionnelle des donnes dapprentissage. Le maximum de vraisemblance est une technique destimation classique permettant de dterminer les paramtres dune distribution de probabilit partir dun ensemble de donnes gnres de manire indpendante par cette distribution. Cest un estimateur asymptotiquement non biais du vecteur de paramtres[Duda et al., 2000]. Plus prcisment le vecteur de paramtres est choisi comme la solution du problme doptimisation suivant :
n

max log
wRd n i=1

p(y(i) |x(i) ; w) exp w, (x(i) , y(i) )

(3.10)

=
i=1 n

=
i=1

(i) yY exp w, (x , y) w, (x(i) , y(i) ) log exp w, (x(i) , y) yY

log

Par identication avec lquation 3.3, cette dernire quation montre que la recherche du maximum de vraisemblance dans la cas de la rgression logistique correspond la minimisation du risque empirique lorsque la fonction de cot est le log-loss log : log = log (Zw (x)) w, (x, y) . Comme le montre la Figure 3.1, le log-loss est une borne suprieure du loss 0/1. Direntes techniques doptimisation peuvent tre utilises pour dterminer efcacement la valeur de w : iterative scaling [Berger et al., 1996], gradient conjugu, BFGS, ... Une comparaison des direntes mthodes doptimisation employes est faite dans [Malouf, 2002]. Problme dual et principe de lentropie maximale La rgression logistique peut aussi sinterprter selon le principe du maximum dentropie aussi appel rasoir dOccam. Ce principe prconise de ne pas multiplier les entits sans raison ( Entia non sunt

3.2 Modles de classication supervise

67

multiplicanda sine necessitate ) 4 et est une justication classique utilise en fouille de donnes pour privilgier les modles les plus simples [Domingos, 1999]. Dans le cas de la rgression logistique, on peut montrer [Cover et Thomas, 1991, Berger et al., 1996] que la solution du dual du problme doptimisation 3.10 dtermine, parmi toutes les distributions compatibles avec les observations, celle qui fait le moins dhypothse sur les valeurs non observes, cest--dire celle dont lentropie est maximale.

3.2.3

Les machines vecteurs de support

Les machines vecteurs de support (Support Vector Machines) sont actuellement les classieurs linaires les plus populaires, essentiellement car elles sont simples mettre en uvre et ont de meilleures performances que le perceptron et la rgression logistique. Toutefois, cette amlioration des performances se fait au prix dune augmentation de la complexit des algorithmes : lapprentissage dune SVM est gnralement lent, mme si des travaux rcents ont permis dacclrer celui-ci [Shalev-Shwartz et al., 2007]. Les SVM proposent de choisir le vecteur de paramtres w de manire maximiser la marge, cest--dire de manire maximiser la distance entre lhyperplan sparateur et les points les plus proches de chaque classe. Dun point de vue thorique et conformment lintuition, on peut montrer [Vapnik, 1995] que le critre de marge maximale garantit de bonnes proprits de gnralisation. Cas des donnes linairement sparables Nous nous restreignons, pour le moment, au cas de la classication binaire avec des donnes linairement sparables. Dans ce cas, la SVM est souvent qualie de SVM marge dure. Lapplication du critre de la marge maximale permet de formuler lapprentissage des paramtres par le problme doptimisation suivant :
R+ ,wRd ,bR

max

(3.11)

||w|| = 1 sous les contraintes i, y(i) w, x(i) + b Les contraintes de ce problme doptimisation permettent dassurer que la solution vrie 5 : w, x(i) + b , si y(i) = 1 (3.12) w, x(i) + b , si y(i) = 1 cest--dire que chaque exemple est bien class et quil est situ une distance suprieure la marge de lhyperplan sparateur (cf. : Figure 3.5). Soit (, w, b), une solution du problme doptimisation 3.11. Le triplet (1, w/, b/) vrie aussi lquation 3.12 et on peut reformuler ce problme doptimisation en :
wRd ,bR

min

1 ||w||2 2

(3.13)

sous les contraintes i, y(i) w, x(i) + b 1


4. Cette phrase napparat pas comme tel dans les textes de Guillaume dOccam. On y trouve cependant des principes comme Pluralitas non est ponenda sine necessitate (Ne pas postuler de pluralit sans ncessit) Frustra t per plura, quod potest eri per pauciora (il est vain de faire avec beaucoup ce que lon peut faire avec peu) 5. Il ny a, en gnral, pas unicit de la solution, le problme doptimisation 3.11 tant convexe et non pas strictement convexe. Par abus de langage nous parlerons toutefois de la solution dune SVM

68

Apprentissage statistique

Figure 3.5 Illustration des diffrents lments utiliss dans une SVM : la marge et les vecteurs supports reprsents par les points entours de rouge Ce nouveau problme est un problme doptimisation quadratique avec des contraintes linaires. Il existe de nombreuses mthodes pour rsoudre celui-ci. Les mthodes doptimisation les plus ecaces existant aujourdhui reposent sur lalgorithme SMO (Sequential Minimal Optimization) [Platt, 1999] et sur lutilisation dun sous-gradient [Ratli et al., 2006a, Shalev-Shwartz et al., 2007]. La SVM marge molle La formulation du problme doptimisation 3.13 suppose que les donnes soient linairement sparables, ce qui nest gnralement pas le cas pour des donnes relles. Il est possible de relcher cette contrainte en insrant des variables ressorts (slack variables) : il y a une variable ressort i par exemple x(i) , y(i) qui traduit de combien la contrainte de la marge, telle que dnie par lquation 3.12, peut tre viole. Le problme doptimisation correspondant est dni par : 1 min ||w||2 + C wRd 2
n

i
i=1

(3.14)

i, i 0 sous les contraintes : i, y(i) w, x(i) + b 1 i


1 La fonction objectif 2 ||w||2 +C n i est compose de deux termes. Le premier assure i=1 que le vecteur de paramtres trouv a une petite norme (cest--dire quil assure une grande marge et donc de bonnes proprits de gnralisation) ; le second assure que seul un petit nombre de donnes ne respecte pas la contrainte de la marge. Lhyperparamtre C permet de faire un compromis entre ces deux termes : plus C est grand, plus la solution de la SVM marge molle est proche de la solution de la SVM marge dure. On peut montrer [Cristianini et Shawe-Taylor, 2000] que la SVM marge molle minimise le risque empirique lorsque la fonction de cot est le hinge loss.

3.2 Modles de classication supervise

69

Problme dual Comme pour le perceptron, le vecteur de paramtres solution du problme doptimisation 3.13 est une combinaison linaire des vecteurs dentre :
n

w=
i=1

i y(i) x(i)

De plus, on peut montrer que i > 0 si et seulement si y(i) w, x(i) + b = 1. Ainsi le vecteur de paramtres w est une combinaison linaire des observations qui sont la distance minimale de lhyperplan sparateur. Ces exemples sont appels vecteurs supports. Pour la SVM marge dure, le problme doptimisation dual travaillant directement avec les i est dni par :
n (1 ,...,n )Rn

max

i=1

1 i 2

y(i) y( j) i j x(i) , x( j)
i=1 j=1

n y(i) = 0 i sous les contraintes : i=1 i, 0 i Gnralisation la classication multi classes Dans sa formulation originale, la SVM ne pouvait traiter que des problmes de classication binaire. Plusieurs gnralisations la classications multi classes ont t proposes. [Hsu et Lin, 2002] dresse un tat de lart dtaill des direntes mthodes existantes. Il nexiste, aujourdhui, aucune justication thorique ou exprimentale permettant de privilgier une de ces mthodes. Nous allons prsenter la mthode de [Crammer et Singer, 2002] qui est la base de SVMISO, une des principales mthodes dapprentissage structur (Paragraphe 4.3.4). Dans la modlisation de la SVM multi classes de [Crammer et Singer, 2002], la marge de lexemple i mesure de combien le score de ltiquette attendue bat le score de toutes les autres tiquettes. La Figure 3.6 illustre cette dnition de la marge. F(x(i) , y(i) ; w) i F(x , y1 ; w)
(i)

F(x(i) , y2 ; w)

F(x(i) , y3 ; w)

Figure 3.6 Dnition de la marge dun exemple pour la SVM multi classes Cette dnition est fonde sur lobservation du fonctionnement du classieur dni par lquation 3.5 : ce classieur commence par ordonner lensemble des tiquettes possibles (tous les lments de Y) en fonction de leur score F, puis retourne llment dont le score est le plus grand (oprateur argmax). Il est donc intuitif de chercher

70

Apprentissage statistique

maximiser, pour lobservation x(i) la dirence entre le score de ltiquette attendue y(i) et le score de toutes les autres tiquettes possibles. Plus formellement, la marge i du ime exemple est dnie par : i = 1 min F(x(i) , y(i) ; w) F(x(i) , y; w) ||w|| y y(i) 1 = min Fi (y) ||w|| y y(i)

o Fi (y) = F(x(i) , y(i) ; w)F(x(i) , y; w) correspond pour le ime exemple, la dirence entre le score de y(i) , ltiquette attendue et le score de y, une tiquette arbitraire. Cette quantit jouera un rle central lorsque nous gnraliserons cette formulation du SVM au cas des donnes structures. Le problme doptimisation de la SVM scrit alors : 1 min ||w||2 + C wRd 2
n

i
i=1

sous les contraintes :i, y Y w, Fi (y) 1

3.2.4

Les noyaux

Principe Nous avons montr dans les paragraphes prcdents que la plupart des problmes dapprentissage et des fonctions de score ont une forme duale. Une proprit importante de ces reprsentations duales est de ne faire intervenir les observations que sous forme de produits scalaires. La complexit des algorithmes nest donc pas lie la taille des observations cest--dire au nombre de caractristiques utilises, mais la complexit du calcul du produit scalaire. Autrement dit, on peut considrer autant de caractristiques que lon veut tant quil est possible de calculer le produit scalaire de deux observations ecacement. Cette observation permet dintroduire lutilisation de noyaux dans les formes duales pour apprendre des classieurs non linaires. Dnition et exemples Plus formellement, un noyau est une fonction K : XX R tel quil existe un espace de Hilbert H et une fonction : X H, avec K(x, x ) = (x) , (x ) , o , dsigne le produit scalaire sur H. Un noyau permet donc de raliser une projection non-linaire dans un espace de plus grande dimension. Lintrt du noyau est de permettre de raliser cette projection de manire implicite et donc de limiter la complexit algorithmique, puisque le calcul du produit scalaire entre deux vecteurs ne ncessite pas de dterminer cette projection. La Figure 3.7 illustre cette transformation. Considrons, par exemple, le noyau polynomial dni par : K : Rd Rd R (x, x ) x, x + 1
m

(3.15) (3.16)

o m est un entier naturel. En dveloppant le polynme, on remarque que ce noyau travaille dans un espace de caractristiques comportant toutes les conjonctions de caractristique comportant au plus m termes. Par exemple pour un noyau dordre 2 lorsque

3.2 Modles de classication supervise (x8 ) (x3 ) x8 x4 x1 x6 x2 x5 x7 x12 x11 (x1 ) (x4 ) (x11 ) (x2 ) (x6 ) (x12 ) (x7 ) (x9 ) (x10 )

71

x9 x3

x10

(x6 )

Figure 3.7 Principe de la transformation effectue, de manire implicite, par un noyau pour simplier la tche de classication les donnes sont reprsentes en dimension 2 (x = (x1 , x2 )), on a : K(x, x ) = x, x + 1
2

= x1 x1 + x2 x2 + 1 2 2 =x1 x12 + 2 x1 2 x1 + 2 x1 x2 2 x1 x2 2 + 2 x2 2 x2 + x2 x22 + 1 Tout se passe comme si, le produit scalaire tait calcul entre (x) et (x ) o est lapplication dnie par : 2 x1 2 x1 2x x : (x1 , x2 ) 1 2 2 x2 2 x2 1

Cependant la complexit du calcul du noyau tel que dni par lquation 3.16 correspond la complexit dun produit scalaire dans un espace de dimension d, soit O (d), alors quun calcul direct aurait une complexit proportionnelle au nombre de termes de la reprsentation implicite, cest--dire d+m1 m Un autre noyau couramment utilis est le noyau gaussien : K(x, x ) = exp o est un rel non nul. Utilisation des noyaux dans les classieurs linaires Nous illustrerons lutilisation des noyaux dans le cas de la SVM. Cette prsentation est facilement adaptable au cas du perceptron. Soit K un noyau et la projection associe. Le problme doptimisation ||x x ||2 2 2

72 des SVM scrit alors :


wH,bR

Apprentissage statistique

min

1 ||w||2 2

sous les contraintes i, y(i) w, (x(i) ) + b 1 Cest la mme formulation que celle vue au Paragraphe 3.2.3, sauf que les observations x(i) ont dabord t projetes dans un nouvel espace par . Le dual de ce problme scrit alors :
n (1 ,...,n )Rn

max

i
i=1

1 2

y(i) y( j) i j K(x(i) , x( j) )
i=1 j=1

n y(i) = 0 i sous les contraintes : i=1 i, 0 i Le classieur associ est dni par : f (x) = sign
n

i=1

y i K(x , x ) + b
(i) (i) ( j)

Il est donc possible dapprendre les paramtres du classieur et de classier une nouvelle observation sans jamais transformer lobservation (x), en utilisant uniquement le produit scalaire entre deux observations qui peut se calculer ecacement. Noyaux pour les donnes structures Tous les algorithmes que nous avons vus jusqu prsent travaillent sur une reprsentation des observations sous forme dun vecteur de rels. Ils ne sont donc pas capables de traiter directement les donnes structures telles les squences, les arbres ou les graphes. Cependant, les noyaux permettent de gnraliser ces algorithmes pour apprendre des fonctions apprenant associer des tiquettes des entres quelconques (c.--d. X nest pas ncessairement un sous-ensemble de Rd ). Intuitivement, le produit scalaire entre deux vecteurs est une mesure de similarit entre ces vecteurs : plus le produit scalaire est grand, plus les vecteurs sont similaires. Il est alors possible de voir un noyau comme une mesure de similarit arbitraire entre deux objets x et x . De nombreux noyaux [Kashima et Koyanagi, 2002, Yamanishi et al., 2007, Vert, 2007] ont t crs sur ce principe, chaque noyau dnissant une mesure de similarit pertinente pour une tche ou un domaine particuliers. [Grtner, 2003] synthtise les dirents noyaux dvelopps pour les donnes structures. Ces noyaux sont bass sur la notion de noyaux de convolution dnie par [Haussler, 1999]. Lide fondamentale des noyaux de convolution est de reprsenter, de manire rcursive, une observation structure par lensemble de ses parties : on supposera quune observation x est structure si elle peut se dcomposer en un ensemble de sous-parties x = (x1 , x2 , ..., xD ), o chaque sous-partie xd a pour domaine Xd , ce domaine pouvant tre lui-mme structur (c.--d. chaque xd peut se dcomposer en un ensemble (xd1 , ..., xdn )). Notons P la fonctions de X vers X1 ... XD qui, une observation x, associe lensemble de ses parties x1 , ..., xD . tant donn un noyau kd mesurant la similarit entre deux sous-parties de Xd , le noyau de convolution est dni par :
D

kconvol (x, x ) =
pP(x) d=1 p P(x )

kd (pd , pd )

3.2 Modles de classication supervise

73

cest--dire que la similarit entre deux observations structures est dnie comme une combinaison des similarits de ses sous-parties. [Haussler, 1999] montre quil est lgitime de dnir un noyau de cette manire, cest--dire que si tous les kd sont des noyaux, alors kconvol est aussi un noyau. Nous allons maintenant illustrer le principe des noyaux de convolution dans le cas des arbres. Noyau darbre Ce noyau, propos par [Collins et Duy, 2001a], est une application directe du noyau de convolution dcrit ci-dessus. Il propose de dnir la similarit entre deux arbres par le nombre de fragments que ces arbres ont en commun. Un fragment darbre est un sous-graphe connect dun arbre ; cette notion est illustre Figure 3.8. A A A C

Figure 3.8 Un arbre et lensemble de ses fragments (larbre complet est considr comme un fragment) Plus prcisment, on considre les n fragments darbre apparaissant dans le corpus dapprentissage. Soit hi (T ) le nombre doccurrences du ime fragment dans larbre T . Chaque arbre peut alors tre reprsent par un vecteur de n lments : h(T ) = (h1 (T ), ..., hn (T )). Le nombre de fragments darbre est trs lev (il y a dj, pour un arbre donn, un nombre exponentiel de sous-arbres par rapport au nombre de nuds). On peut toutefois calculer le produit scalaire entre h(T 1 ) et h(T 2 ) en remarquant que : k(T 1 , T 2 ) = h(T 1 ), h(T 2 ) =
i

hi (T 1 ) hi (T 2 ) Ii (n1 ) Ii (n2 )
n1 N1 n2 N2 i

= =
i

C(n1 , n2 )

74

Apprentissage statistique

o Ni est lensemble des nuds de larbre i et Ii (n j ) est une fonction indicatrice : Ii (n j ) = 1 si le ime fragment apparat sous le nud n j . C(n1 , n2 ) peut tre calcul en temps polynomial grce aux relations suivantes : 0 si les listes des ls ordonns de n1 et n2 sont direntes C(n1 , n2 ) = 1 si n1 et n2 sont des pr-terminaux identiques n c1 j=1 (1 + C(ch(n1 , j), ch(n2 , j))) sinon o nc est le nombre denfants de n1 et ch(n1 , j) est le ime enfant de n1 .

3.3

Conclusion

Dans une premire partie de ce chapitre, nous avons prsent de manire gnrale lapprentissage statistique et dcrit les notions fondamentales de ce domaine dans le cadre de Vapnik. Dans une seconde partie, nous avons introduit plusieurs mthodes dapprentissage de classieurs binaires et multi classes, ainsi que la notion de noyau. Un certain nombre des mthodes prsentes dans ce chapitre seront utilises dans les dirents modles que nous proposerons dans ce travail : le perceptron (dans sa forme duale) et le noyau darbre seront au cur de nos modles de r-ordonnancement (Section 5.3 et Section 5.4) ; la rgresssion logistique sera utilise pour modliser le contenu des documents (Section 5.2.2) et comme classieur local dans notre mthode dtiquetage de squence (Chapitre 6). Ces mthodes seront aussi la base des direntes mthodes dapprentissage structur que nous prsenterons au Chapitre 4. Ainsi, lextension des SVM au cas multi classes constitue le fondement mme du formalisme dapprentissage structur que nous allons introduire. La prsentation de ce chapitre na pas vocation tre exhaustive : il existe de nombreux ouvrages [Cristianini et Shawe-Taylor, 2000, Schlkopf et Smola, 2002] prsentant le sujet de manire bien plus dtaille. De plus, seul un aspect celui de la thorie de Vapnik de lapprentissage statistique a t prsent et il existe de nombreux autres cadres thoriques de lapprentissage (approche PAC, thorie baysienne de lapprentissage, ...). Toutefois, la thorie de Vapnik est lorigine des SVM qui sont aujourdhui la mthode de classication la plus populaire et la majorit des mthodes dapprentissage structur que nous allons prsenter au chapitre suivant sinscrit dans ce cadre.

4
Apprentissage statistique dans les espaces structurs

Sommaire
4.1 Dnition de lapprentissage structur . . . . . . . . . . . . . . 4.1.1 Exemples de tches de prdiction structure . . . . . . . . 4.1.2 Dnition de lapprentissage structur . . . . . . . . . . . 4.1.3 Dnition alternative . . . . . . . . . . . . . . . . . . . . Cadre gnral pour lapprentissage structur . . . . . . . . . . 4.2.1 Classication multi classes gnralise . . . . . . . . . . 4.2.2 Les direntes problmatiques de lapprentissage structur 4.2.3 Organisation de ltat de lart . . . . . . . . . . . . . . . Approches existantes pour lestimation des paramtres . . . . 4.3.1 Modles gnratifs . . . . . . . . . . . . . . . . . . . . . 4.3.2 Champs Conditionnels Alatoires . . . . . . . . . . . . . 4.3.3 Perceptron pour les sorties structures . . . . . . . . . . . 4.3.4 Modles maximisant la marge . . . . . . . . . . . . . . . 4.3.5 Performances des direntes mthodes destimation . . . Mthode dinfrence : lalgorithme de Viterbi . . . . . . . . . 4.4.1 Principe de la programmation dynamique . . . . . . . . . 4.4.2 Algorithme de Viterbi . . . . . . . . . . . . . . . . . . . 4.4.3 Limites de lalgorithme de Viterbi . . . . . . . . . . . . . Acclrer linfrence grce des mthodes approches . . . . 4.5.1 Mthodes dinfrence gloutonne . . . . . . . . . . . . . . 4.5.2 Les mthodes dapprentissage structur incrmentales . . La prise en compte de dpendances non locales . . . . . . . . . 4.6.1 Utilisation de variables caches . . . . . . . . . . . . . . 4.6.2 Mthodes dinfrence alternatives . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 77 79 83 85 85 85 87 89 89 90 94 94 98 100 101 102 104 106 107 110 113 114 115 119

4.2

4.3

4.4

4.5

4.6

4.7

chapitre prcdent, reL apprentissage statistique, tel que nous lavons prsent augnres de manire inpose sur lhypothse simplicatrice que les donnes sont dpendantes. Ce formalisme est parfaitement adapt pour traiter les problmes de prdiction simples dont la sortie est constitue par une unique tiquette choisie dans un ensemble de petite taille (classication binaire ou classication multi classes).

76

Apprentissage statistique dans les espaces structurs

Cependant, il existe de nombreuses tches dont la sortie est complexe et se dcompose en un ensemble dlments, lobjectif tant alors de prdire ltiquette de chacun de ces lments. Cest notamment le cas, de toutes les tches mettant en jeu la prdiction de squences, darbres ou de graphes. Lapprentissage dans les espaces structurs que nous appellerons, par commodit, apprentissage structur, est un formalisme qui a t dvelopp rcemment pour traiter le problme de la prdiction de donnes complexes. Choisir simultanment ltiquette de tous les lments dune sortie complexe plutt que dtiqueter chacun dentre eux individuellement permet souvent de rduire lerreur de prdiction. En eet, les sorties complexes sont gnralement structures : les diffrents lments composant la sortie prsentent de nombreuses interactions ou dpendances qui limitent les combinaisons dtiquettes possibles. Ainsi, dans lexemple de reconnaissance de lcriture dcrit Figure 4.1, il est dicile dtiqueter la deuxime et la quatrime lettre sans considrer les tiquettes des autres lettres du mot : seule la prise en compte du contexte nous permet darmer que la premire lettre ne peut tre quun r, puisquil ny a pas, en anglais, de mots dans lesquels un c suit un b. Un des principal objectif des modles dapprentissage structur est de dcouvrir et dexploiter ces dpendances entre tiquettes pour amliorer les performances en prdiction.

brace

Figure 4.1 Reconnaissance de lcriture : une squence dimages reprsentant des lettres, on associe un mot (exemple repris de [Taskar, 2004]) Ce chapitre formalise la problmatique de lapprentissage structur et prsente les direntes approches existant dans la littrature. Nous commenons, au Paragraphe 4.1 par dnir la tche dapprentissage structur. Nous dcrivons ensuite au Paragraphe 4.2 un cadre gnral dapprentissage statistique permettant de prdire des donnes structures, ainsi que les limites de celui-ci. Finalement, nous dtaillons les direntes mthodes dapprentissage structur qui ont t proposes dans la littrature (Paragraphe 4.3 4.6).

4.1

Dnition de lapprentissage structur

Le concept dapprentissage structur est dicile dnir. Plutt que dessayer den donner une dnition, la majorit des travaux de ce domaine se contente de dcrire ce concept par des exemples et le sens de notions comme dpendances ou structure est suppos connu. La multiplication des termes employs dans la littrature illustre cette absence de dnition claire. Par exemple, suivant les articles, la tche que nous prsentons ici est appele prdiction structure [Daum III et Marcu, 2005], apprentissage de donnes complexes [Taskar et al., 2004], apprentissage de donnes interdpendantes [Tsochantaridis et al., 2004], ... Un des objectifs de cette section est de clarier ces concepts.

4.1 Dnition de lapprentissage structur

77

La discussion de cette section (voire son intrt) peut sembler un peu abstraite, dconnecte des objectifs dun tat de lart (rsumer les direntes mthodes proposes dans la littrature) et ntre nalement quun divertissement pseudo intellectuel. Pourtant, comme nous le verrons dans la suite de ce travail (notamment au chapitre 6), la recherche dune vritable dnition structurante de lapprentissage structur est une tape ncessaire pour comprendre certains rsultats exprimentaux et dvelopper de nouvelles approches 1 . Le Paragraphe 4.1.1 reprend les exemples de tche de prdiction structure les plus populaires. Les seules dnitions proposes dans la littrature 2 sont celle dHal Daum [Daum III, 2006] (Paragraphe 4.1.3), celle de Dan Roth [Punyakanok et al., 2005] et de James Cussens [Cussens, 2003]. La dnition que nous avons retenue dans ce travail est base sur ces deux derniers articles. Cette dnition est prsente au Paragraphe 4.1.2. Le contenu de cette section sinspire galement de nombreuses discussions et notamment de celles qui ont eu lieu sur le blog dHal Daum 3 et sur celui de John Langford 4 .

4.1.1

Exemples de tches de prdiction structure

La prdiction structure consiste gnralement prdire des squences, des arbres ou des graphes. Ce type de structures apparat dans de nombreuses tches : ltiquetage de squences dont lobjectif est de produire une squence dtiquettes correspondant une squence dobservations de mme taille ( chaque observation est associe une tiquette). Deux exemples typiques dtiquetage de squences sont la reconnaissance de lcriture (Figure 4.1) et ltiquetage syntaxique (part-of-speech tagging). Dans le premier cas, lentre est une suite dimages reprsentant une lettre et la sortie, un mot ; dans le second cas, lentre est une suite de mots, et lobjectif est dtiqueter chacun de ces mots par sa catgorie grammaticale (nom, verbe, prposition, ...). la segmentation de squences qui consiste regrouper et tiqueter certains lments dune squence dobservations. Comme pour ltiquetage de squences, lentre est une squence dobservations, mais la sortie est, cette fois, une squence de triplets dcrivant ltiquette, la position du premier et du dernier lment ayant cette tiquette. La taille de ces deux squences est dirente. Ainsi, dans lexemple de la Figure 4.2, les trois premiers triplets dcrivant la squence de sortie sont (NP, 1, 1), (VP, 2, 2) et (NP, 3, 6). Lanalyse syntaxique de surface dont lobjectif est didentier certains groupes syntaxiques (groupes verbaux, groupes nominaux, ...) est un exemple de segmentation de squences. lanalyse syntaxique qui construit larbre syntaxique dcrivant la nature des constituants dune phrase donne et leur structure hirarchique. Un exemple danalyse syntaxique est donn Figure 4.3. Lentre est une squence de mots et la sortie un arbre dcrivant la syntaxe de la phrase. la classication collective qui peut tre vue comme une gnralisation de ltiquetage de squences des structures de donnes plus complexes : tant donn
1. De manire plus gnrale, on pourra se rfrer [Santini, 2007] qui explique, en dtails, pourquoi il est ncessaire, pour le dveloppement de linformatique, de chercher des dnitions structurantes et de ne pas se contenter de dnitions fonctionnelles. 2. Par soucis dexhaustivit, il nous faut mentionner que [McAllester et al., 2004] propose aussi une dnition de la tche, mais celle-ci est rest trs condentielle. 3. nlpers.blogspot.com 4. hunch.net

78

Apprentissage statistique dans les espaces structurs

He reckons the current account decit will narrow to only $1.8 billion in September.

[NP He] [V P reckons] [NP the current account decit] [V P will narrow] [PP to] [NP only $1.8 billion] [PP in] [NP September.]

Figure 4.2 Analyse syntaxique de surface : la squence de mots en entre, on associe une squence de triplets (tiquette, position de dbut, position de n) (exemple est repris de [Wallach, 2002])

The screen was a sea of red

NP

VP

DT

NN

VBD

NP

The

screen

was

NP

PP

DT

NN

IN

NP

sea

of

NN

red

Figure 4.3 Analyse syntaxique : lentre est une phrase (squence de mots), la sortie un arbre dcrivant les diffrents constituants de la phrase

4.1 Dnition de lapprentissage structur

79

un graphe reprsentant un ensemble dobservations et les relations entre cellesci, lobjectif est dtiqueter les observations. La sortie est donc constitue par le graphe fourni en entre, mais dont chacun des sommets a t tiquet. Le fait de savoir quil existe un lien entre deux lments fournit une information importante lors du choix de ltiquette de ceux-ci : par exemple, lors de la classication de pages web [Taskar et al., 2002], deux pages relies par un lien hypertexte ont de fortes chances davoir la mme tiquette. De nombreuses applications pratiques correspondent cette tche : dtection du web spam [Gyongyi et Garcia-Molina, 2005], dcouverte du rle des membres dun rseau social ou des sujets darticles scientiques [Neville et Jensen, 2003], prdiction de la propagation de maladie contagieuse [Getoor et al., 2004], ... Alignement de structures qui consiste mettre en correspondance les sous-parties de deux lments structurs constituant lentre. Deux exemples classiques de cette tche sont la prdiction de la structure secondaire dune protine et lalignement de mots en traduction automatique (Figure 4.4).
What is the anticipated cost of collecting fees under the new proposal ? En vertu des nouvelles propositions , quel est le cot prvu de perception des droits ?

Figure 4.4 Alignement mot mot de phrases dans une tche de traduction automatique : lobjectif est de mettre en correspondance les mots anglais et les mots franais ayant le mme sens (exemple repris de [Taskar et al., 2005]) Le traitement automatique de langue naturelle (TAL) est le principal domaine dapplication de lapprentissage structur et a motiv le dveloppement de plusieurs des approches prsentes dans ce chapitre. La plupart des tches de TAL sexpriment naturellement dans le cadre que nous allons prsenter la Section 4.2. Cest notamment le cas du rsum automatique, de la traduction automatique, de lextraction dinformation, de lanalyse syntaxique, de ltiquetage syntaxique ou de la rsolution de corfrences.

4.1.2

Dnition de lapprentissage structur

Lobjectif de ce paragraphe est de proposer une dnition de lapprentissage structur. Pour cela, nous allons commencer par nous intresser aux caractristiques des sorties que nous cherchons prdire. Nature des sorties la vue des exemples du paragraphe prcdent, il semblerait que lapprentissage structur ait pour objectif de prdire des lments complexes qui

80

Apprentissage statistique dans les espaces structurs

peuvent se dcomposer en un ensemble, de taille variable, de parties ou de sousN lments. Nous noterons z un lment complexe et (zi )i=1 lensemble de ses souslments. Chaque sous-lment zi est tiquet, le domaine des tiquettes des souslments tant not . La manire de dcomposer un lment en sous-lments dpend de la nature du problme. Dans une tche de prdiction de squence, chaque sous-lment yi pourra, par exemple, correspondre ltiquette du ime lment de la squence. Dans une tche de prdiction darbres, les sous-lments yi pourront, comme le montre la Figure 4.5, correspondre des paires (tiquette, couverture). Une autre dcomposition possible des arbres est celle adopte par les noyaux darbres (Section 3.2.4). A y= D 5 A, 1, 5 B, 1, 3 C, 1, 2 D, 2, 3 B, 3, 5 C, 3, 4 D, 4, 5

1 C

Figure 4.5 Dcomposition dun arbre en un vecteur Cette observation est naturelle et consensuelle, mais elle ne sut pas traduire notre intuition du caractre structur des sorties que nous cherchons prdire. Nous allons montrer pourquoi sur un exemple jouet. Considrons la tche dont lobjectif est de prdire, partir dun certain nombre de caractristiques physiques dun Haliotis, lge de ce mollusque 5 . Cest une tche de prdiction simple, puisque la sortie est un entier born. Il est cependant possible de transformer (articiellement) celle-ci en une tche de prdiction complexe en cherchant prdire, non plus lge dun Haliotis, mais lge dun triplet dHaliotis, cest--dire en considrant les exemples trois par trois plutt que lun aprs lautre. Bien que ce problme mette en jeu la prdiction de donnes complexes, il ne correspond pas notre intuition de lapprentissage structur : il ny a aucune interaction, aucune dpendance entre les tiquettes des sous-parties dun exemple. Une caractristique essentielle dun lment structur est de prsenter des dpendances qui rduisent les combinaisons dtiquettes possibles ou indiquent des combinaisons dtiquettes plus frquentes. Plus prcisment, un lment z compos de N sous-parties devrait, priori, avoir pour domaine N = ... . Cet espace est lensemble des combinaisons de N lments et correspond lensemble des tiquettes possibles dun lment compos de N sous-parties. Mais, comme les lments que nous cherchons prdire sont structurs, seules certaines de ces combinaisons sont autorises et lensemble des combinaisons lgales celles qui sont rellement observes est un sous-ensemble de N . De plus, parmi toutes les combinaisons dtiquettes lgales, certaines sont plus frquentes que dautres. Par exemple, si lon cherche reconnatre un mot franais de cinq lettres, lensemble des tiquettes possibles correspond toutes les combinaisons possibles de cinq
5. Cest la tche dnie pour la base Abalone de lUCI [D.J. Newman et Merz, 1998]

4.1 Dnition de lapprentissage structur

81

lettres de lalphabet, soit plus de 130 millions de combinaisons 6 ; lensemble des tiquettes lgales correspond lensemble des mots de cinq lettres dont la taille est nettement plus petite. Les combinaisons lgales ainsi que les combinaisons plus frquentes sont dnies par des dpendances entre tiquettes 7 . Les dpendances sont une proprit intrinsque des donnes qui traduit leur caractre structur. Suivant les domaines et les tches, elle sont plus ou moins diciles expliciter. Par exemple, la grammaire dune langue dcrit de manire extensive, mais dicilement manipulable, toutes les combinaisons de mots possibles, un schma dcrit toutes les structures possibles dun document XML (cf. Chapitre 2). Dans la suite de ce travail, nous distinguerons trois types de dpendances entre tiquettes : les dpendances locales qui traduisent les relations entre lments proches . La notion de proximit dpend du problme considr et de la mthode dapprentissage retenue. Il sagit, par exemple, des relations entre deux lments adjacents dans une squence, entre un nud et ses enfants dans un arbre. les dpendances longues qui traduisent une relations entre lments loigns (par opposition aux dpendances locales). Cest par exemple le type de dpendance mis en jeu lorsque lon veut dcrire les accords entre les dirents consituants dune phrase 8 . les dpendances globales qui correspondent aux dpendances ne pouvant tre exprimes sous la forme dune relation entre deux groupes de sous-lments. Un exemple typique dune dpendance globale est : parmi toutes les lments composant la sortie, seul un peu avoir ltiquette . La structure dun lment lensemble des dpendances entre ses sous-parties apporte donc une information pertinente au choix des tiquettes des sous-lments et, par consquent, facilite la prdiction de la sortie. Toutefois, lexploitation de cette information remet en cause lhypothse fondamentale de lapprentissage statistique selon laquelle les donnes (ici les sous-lments) sont gnres de manire indpendantes (Section 3.1.2). Apprentissage structur Lapprentissage structur a pour objectif dapprendre associer une observation x X une tiquette y Y. Ltiquette et lobservation sont, toutes deux, des lments structurs. En particulier, lobservation x est une multiobservation et ltiquette y, une multi-tiquette. Le nombre de sous-lments de la sortie y dpend de lobservation x. Dans la suite de ce travail, nous noterons les lments structurs par des lettres en caractre gras (x pour une observation et y pour une sortie) N et les sous-lments les composant par des caractres normaux indics : x = (xi )i=1 et M y = (yi )i=1 . Le nombre de sous-lments composant un lment sera not en majuscule (N et M dans les exemples prcdents). Comme nous lavons vu au Chapitre 3, un algorithme dapprentissage est caractris par une classe de fonctions, un processus de gnration des donnes et une fonction
6. Lalphabet franais est compos de 26 lettres dites fondamentales, de 13 voyelles accentues, du c cdille, ainsi que des deux diagrammes e-dans-la et e-dans-lo . Il y a donc 425 combinaisons de 5 lettres, soit trs exactement 130 691 232 combinaisons. 7. Dans ce chapitre, nous nous concentrons sur les dpendances entre tiquettes et ne considrons pas les dpendances entre observations et entre observations et tiquettes. 8. Par exemple, en franais, le verbe saccorde avec le sujet, ces deux lments pouvant tre nimporte quelle position dune phrase donne.

82

Apprentissage statistique dans les espaces structurs

de cot. Ces deux derniers lments doivent tre adapts pour prendre en compte le caractre structur des sorties prdire. La discussion du paragraphe prcdent va nous permettre de proposer un nouveau modle de gnration des donnes. Les fonctions de cot utilises sont dtailles au paragraphe suivant. Nous adopterons, dans la suite de ce travail, la dnition suivante : Dnition 4.1 Un problme dapprentissage structur consiste prdire des donnes gnres par le processus suivant : un gnrateur choisit une multi-tiquette y dans Y N suivant une distribution de probabilit D(y) un superviseur gnre alors une multi-observation x correspondant la multitiquette y suivant une distribution de probabilit D(x|y) Comme dans la formalisation usuelle, toutes les distributions de probabilit sont xes et inconnues. la dirence du cas classique, ce processus de gnration des exemples commence par choisir une tiquette y suivant une distribution de probabilit D puis dtermine lobservation correspondante x. La distribution de probabilit D permet de modliser la fois le fait que seules certaines multi-tiquettes sont autorises (certaines combinaisons ont une probabilit nulle dtre gnres) et que certaines combinaisons dlments sont plus probables que dautres (cest le cas ds que D nest pas uniforme sur Y). Cest ensuite lalgorithme dapprentissage dtre capable de dcouvrir et dexploiter ces dpendances pour amliorer les performances de prdiction. Fonctions de cots pour la prdiction structure Comme nous lavons vu au Chapitre 3, la fonction de cot qui mesure ladquation entre la sortie prdite et la sortie attendue joue un rle essentiel en apprentissage statistique. Dans le cas de lapprentissage structur, plusieurs fonctions de cot peuvent tre envisages. La premire est une gnralisation du cot 0/1 : dans le cas des donnes structures, le cot 0/1 est nul si lon a retrouv exactement la multi-tiquette complte (cest-dire que lon a tiquet correctement lensemble des lments composant la multitiquette) et 1 dans le cas contraire (cest--dire si lon sest tromp sur au moins un des lments). Dans de nombreux cas pratiques, cette fonction de cot nest pas adapte. Celleci ne prend en eet pas en compte le nombre de sous-parties correctement prdites : prdire une solution dont seule une des sous-parties dire de la solution attendue aura le mme cot que prdire une solution dont chacune des sous-parties sera dirente, mme si, intuitivement, on prfrerait prdire la premire solution plutt que la deuxime. Suivant les applications et le type de donnes prdire, direntes fonctions de cot ont t proposes pour mettre en uvre cette intuition. Dans le cas des squences, on utilise gnralement une distance de Hamming qui correspond au cardinal de lensemble des symboles de la premire squence qui dirent de la deuxime :
N ham

(y , y) =
i=1

1 yi

y i

4.1 Dnition de lapprentissage structur

83

En analyse syntaxique, lexactitude dun arbre syntaxique prdit est gnralement mesure par son score F1 [Johnson, 1998] qui est dni comme la moyenne harmonique 9 de prcision et du rappel calculs partir des nuds communs la sortie prdite et la sortie attendue. Taille de lespace de sortie La prdiction dune multi-tiquette y associe une observation x, revient donc choisir une tiquette pour chacune des sous-parties de y. Cest un problme doptimisation combinatoire [Cook et al., 1997] cest--dire un problme qui ncessite de regrouper, dordonner ou dtiqueter un ensemble discret de composants en respectant un certain nombre de contraintes. Lensemble des solutions possibles est constitu partir de combinaisons de sous-ensembles de ces composants. Les problmes combinatoires sont notoirement diciles rsoudre : en gnral, le nombre de solutions possibles est exponentiel par rapport la taille du problme. Ainsi, dans le cas de ltiquetage de squences, le nombre de multi-tiquette est de # {}N ; dans le cas de lanalyse syntaxique, le nombre darbres syntaxiques pouvant correspondre une phrase donne est lui aussi trs grand. Par exemple, le nombre darbres pouvant correspondre une partie rcursive dune phrase (comme cest, par exemple, le cas lorsque lon veut traiter le problme de lattachement prpositionnel) est donn par le nombre de Catalan [Jurafsky et Martin, 2000] : C(n) = 1 2n n+1 n

Comme nous le dtaillerons au Paragraphe 4.2, la taille de lespace de sortie est une des principales dicults que doivent traiter les mthodes dapprentissage structur.

4.1.3

Dnition alternative

Une deuxime dnition de lapprentissage structur a t donne par Hal Daum [Daum III, 2006]. Elle est motive par lexistence de deux types de problmes qui entrent dans le cadre dcrit au paragraphe prcdent, alors que, selon Hal Daum, ils ne devraient pas tre considrs comme des problmes dapprentissage structur. Ces deux types de problmes sont : 1. la classication multi classes que nous avons prsente au Paragraphe 3.1.2. 2. la classication multi tches [Caruana, 1997] dont lobjectif est damliorer les performances en gnralisation dun classieur en considrant, en plus des donnes de lensemble dapprentissage, des donnes de problmes proches . On peut, comme la montr [Ben David, 2005], chercher prdire si un patient soure dune tumeur au cerveau partir dimages obtenues par direntes techniques dimagerie. Hal Daum propose de dnir lapprentissage structur de la manire suivante [Daum III, 2006] : Dnition 4.2 Un problme dapprentissage structur est un problme vriant les deux conditions suivantes :
9. La moyenne harmonique H de nombres rels positifs a1 , ..., an est dnie comme tant H= n
1 a1

1 a2

+ +

1 an

Cest donc linverse de la moyenne arithmtique de linverse des termes.

84

Apprentissage statistique dans les espaces structurs 1. les entres et les sorties peuvent se dcomposer en un ensemble de souslments. 2. la fonction de cot nest pas dcomposable 10 , cest--dire quelle nest pas invariante par permutation dun certain nombre de ses sous-parties : O(Y), (y , y) ((y ), (y))

o O(Y) est lensemble des permutations du domaine des multi-tiquettes Y. La premire condition traduit le fait que les donnes considres sont complexes. Elle correspond la premire partie de la dnition donne au paragraphe prcdent. La deuxime condition impose que les dirents lments composant la sortie soient prdits simultanment : en plus de la prdiction des tiquettes des lments, on doit aussi prdire les positions relatives des tiquettes, cest--dire, les dpendances entre tiquettes. Cette deuxime condition permet eectivement dexclure de la dnition dapprentissage structur les problmes de classication multi classes et de classication multi tche. Elle dcrit une proprit dun grand nombre de fonctions de cot utilise dans des tches de traitement de la langue : le score Bleu utilis en traduction automatique [Papineni et al., 2001], le score Rouge utilis en rsum automatique [Lin et Hovy, 2003], le score ACE utilis en extraction dinformation 11 , ... Ces fonctions reposent, gnralement, sur des comparaisons de combinaisons dtiquettes : par exemple, le score Bleu compare les sous-squences de 4 tiquettes (4-gram). Cependant, cette dnition exclut aussi un certain nombre de tches que nous (et tous ceux qui adoptent la dnition propose au paragraphe prcdent) considrons comme des tches dapprentissage structur. Cest notamment le cas de la tche dtiquetage de squences lorsque la fonction de cot est la distance de Hamming. En eet, si lon considre la distance entre une squence de deux tiquettes y = (y1 , y2 ) et la squence dtiquettes prdites y = (y , y ), on a de manire triviale : 1 2
ham

(y, y ) = 1 y1 = 1 y2
ham

y + 1 y1 2

y + 1 y2 1

y 2 y 1

(y , y)

La distance de Hamming est donc invariante par permutation de ses sous-parties. Les deux dnitions proposes correspondent deux visions direntes (voire opposes) de lapprentissage structur. Dans la dnition dHal Daum, la structure est une partie inhrente de la tche de prdiction : lvaluation porte autant sur la capacit du systme prdire les bonnes tiquettes que sur sa capacit prdire les dpendances entre celles-ci. Au contraire, dans la dnition que nous avons propose (Dnition 4.1), la structure est une aide qui peut, si elle est bien utilise, amliorer les performances en prdiction. Autrement dit, dans un cas (le notre), la structure est une caractristique comme une autre, et dans lautre cest une partie du problme sur laquelle les performances en prdiction seront values. Nous aurons loccasion de revenir sur cette dirence au Chapitre 6.
10. Le terme dcomposable est gnralement utilis dans un autre sens en apprentissage structur. Malgr le risque de confusion, nous prfrons conserver le terme employ par Hal Daum. 11. http://www.nist.gov/speech/tests/ace/index.htm

4.2 Cadre gnral pour lapprentissage structur

85

4.2
4.2.1

Cadre gnral pour lapprentissage structur


Classication multi classes gnralise

Lapprentissage structur a pour objectif dapprendre associer une observation x de X une tiquette y de Y. Ltiquette et lobservation sont toutes deux des lments structurs au sens dni au paragraphe prcdent. La manire la plus naturelle de traiter ce problme est de considrer lapprentissage structur comme une gnralisation de la classication multi classes avec un grand nombre de classes, lespace de sortie tant un espace combinatoire (Paragraphe 4.1.2). La fonction de prdiction est alors de la forme : y = f (x) = argmax F(x, y; w)
yY

(4.1)

o F : X Y R est une fonction de score paramtre par w et qui mesure la compatibilit entre lentre x et une solution possible y Y. Comme pour la classication multi classes, on choisit gnralement une fonction de score linaire : F(x, y; w) = w, (x, y) o : X Y Rd est une reprsentation jointe de lobservation et dune tiquette y. Intuitivement, dans ce cadre, lapprentissage structur revient ordonner toutes les sorties possibles puis trouver la sortie la plus compatible. Lapprentissage structur se divise donc en deux sous-tches : une tche destimation dont lobjectif est de dterminer le vecteur de paramtres w; une tche dinfrence dont lobjectif est de trouver la meilleure sortie y correspondant une observation x connaissant les paramtres w. La quasi-totalit des approches dapprentissage structur qui ont t proposes sinscrivent dans ce cadre. Malgr sa gnralit, celui-ci prsente certaines limites que nous allons maintenant dtailler.

4.2.2

Les direntes problmatiques de lapprentissage structur

Le formalisme dcrit au paragraphe prcdent permet, priori, de prendre en compte les trois types de dpendance entre tiquettes que nous avons identis au Paragraphe 4.1.2 : il sut de choisir une fonction de score F(x, y; w) dont la valeur est dautant plus leve que le nombre de dpendances vries est grand. Toutefois, en pratique, deux limites empchent la prise en compte des dpendances non locales : la premire est lie au nombre de paramtres estimer, la seconde la dicult de linfrence. Dans ce formalisme les dpendances sont prises en compte par des caractristiques : pour dcrire une dpendance du type il y a exactement une tiquette verbe dans la phrase dans une tche danalyse syntaxique de surface (POS tagging), on dnit un lment de la reprsentation jointe (x, y) comme tant : 1 sil y a un unique i tel que y = verbe i i (x, y) = 0 sinon

86

Apprentissage statistique dans les espaces structurs

De manire similaire, une dpendance locale entre deux tiquettes conscutives est dcrite par une caractristique du type : 1 si y = et y = k k1 j (x, y) = 0 sinon Il y aura donc dautant plus de paramtres estimer quil y aura de dpendances considrer. Or, en premire approximation, le nombre dexemples ncessaires pour estimer les paramtres dun modle dpend linairement du nombre de paramtres de ce modle 12 [Anthony et Bartlett, 1999]. Les corpus de donnes structures sont gnralement de petite taille [Culotta et McCallum, 2005, Sutton et McCallum, 2007] et la prise en compte de trop nombreuses dpendances risque donc dentraner un problme destimation. La deuxime limite est lie la dicult calculatoire de linfrence, cest--dire de la rsolution de lquation 4.1 qui permet de dterminer la sortie optimale associe une observation donne. En eet, comme nous lavons indiqu au Paragraphe 4.1.2, lespace de sortie est un espace combinatoire comportant un trs grand nombre dlments. Pour garantir loptimalit de la solution, il sera donc ncessaire dvaluer un grand nombre de solutions et la complexit de lalgorithme de recherche sera, en consquence, leve. Plus prcisement, comme de nombreux problmes combinatoires, les algorithmes dinfrence sont, dans le cas gnral, NP-diciles [Taskar et al., 2006]. La complexit de linfrence est directement lie la prise en compte de dpendances entre les tiquettes : dans la mesure o les choix des tiquettes de chaque sous-partie ne sont plus indpendants, toute modication dune tiquette dune des sous-parties doit tre rpercute lensemble de la multi-tiquette, ces rpercussions entranant, leur tour, dautres modications. Cette intrication des choix des tiquettes peut rapidement devenir problmatique, notamment lorsquil y a des dpendances circulaires. Cest pourquoi, en pratique, le problme dcrit par lquation 4.1 ne peut tre rsolu que pour certaines reprsentations des exemples (c.--d. pour certains ) et pour certains espaces de solutions lgales (c.--d. pour certains Y). Plus prcisment, ce problme ne peut tre rsolu que si lon suppose que la fonction de score est dcomposable, cest--dire si elle scrit comme un produit 13 de fonctions de score locales ne dcrivant que des dpendances locales. Par exemple, dans le cas dune tche dtiquetage de squences, on considre gnralement que la fonction de score globale F(x, y; w) scrit :
N

F(x, y; w) =
i=1

f (yi , yi1 , x; w)

12. Plus prcisment : un rsultat classique de thorie de lapprentissage PAC [Aslam et Decatur, 1996] est que le nombre minimal dexemples ncessaire un systme dapprentissage pour choisir, avec une conance leve (avec une probabilit dau moins 1 ) un classieur qui a une prcision leve (avec une probabilit derreur dau plus ) est h + log 1 (1 2 )2 o est le bruit dtiquetage et h la dimension VC de la classe de fonctions considre. La dimension VC [Vapnik, 1995] est une caractristique de la complexit dune classe de fonctions qui, dans le cas des fonctions linaires, dpend directement du nombre de paramtres. 13. ou une somme si lon considre le logarithme de la fonction de score, comme cest par exemple le cas pour les Champs Conditionnel Alatoires 4.3.2.

4.2 Cadre gnral pour lapprentissage structur

87

o f est une fonction de score locale qui ne dpend que de deux tiquettes conscutives, mais de la totalit de lobservation x. La contrainte de dcomposabilit permet de limiter leet des dicults que nous avons mentionnes au dbut de ce paragraphe : avec une fonction de score dcomposable, le nombre de paramtres estimer est rduit et il est possible dutiliser des algorithmes dinfrence ecaces reposant sur la programmation dynamique. Toutefois la contrainte de dcomposabilit est une contrainte forte qui limite la fois le type de dpendances et le type de fonctions de cot que lon peut considrer. De plus, dans de nombreux cas, la complexit des algorithmes dinfrence reste quand mme trop leve pour quils soient appliqus des corpus de grandes tailles. Les mthodes dinfrence base de programmation dynamique et les limites de celles-ci sont dtailles au Paragraphe 4.4.

4.2.3

Organisation de ltat de lart

En sappuyant sur les direntes problmatiques que nous avons dgages au paragraphe prcdent, il est possible dorganiser ltat de lart des mthodes dapprentissage structur selon trois axes principaux : lestimation des paramtres Dirents critres ont t proposs pour choisir le vecteur de paramtres w : maximum de vraisemblance (Paragraphe 4.3.1), maximum de vraisemblance conditionnel (Paragraphe 4.3.2) ou maximisation de la marge (Paragraphe 4.3.4). Pour tre utilises en pratique, ces mthodes supposent toutes quil existe une procdure dinfrence ecace et ne donc utilisables que si lon fait une hypothse de type Markov. dveloppement de mthodes dinfrence rapides Une des principales limites des mthodes utilisant la programmation dynamique est leur complexit. Plusieurs travaux ont propos des mthodes dinfrence plus rapides. Ces travaux sont dcrits au Paragraphe 4.5. la prise en compte de dpendances non locales Un certain nombres dapproches ont t proposes pour permettre la prise en compte de dpendances non locales dans la modlisation des problmes structurs. Ces mthodes reposent soit sur lutilisation dune mthode dinfrence alternative soit sur une modlisation des dpendances non locales par des variables caches. Le premier type de modle est dtaill au Paragraphe 4.6.2, le second au Paragraphe 4.6.1. La Figure 4.6 reprend et dtaille cette organisation de ltat de lart que nous allons dcrire dans la n de ce chapitre. Plusieurs autres approches plus thoriques, telles lestimation de dpendance par des noyaux [Weston et al., 2002] (kernel dependency estimation) ou les Case Factor Diagrams [McAllester et al., 2004] ont t proposes, mais elles nont jamais t mises en uvre. Lapprentissage structur partage aussi un certains nombres de similarits avec les modles graphiques [Jordan, 2004]. Les modles graphiques peuvent tre vus comme des bases de donnes capables de stocker ecacement des lois de probabilit jointe et de dterminer la valeur dun certain nombre de variables non observes de cette loi, connaissant un certain nombre dobservations. Les graphes de facteurs (factor graphs) [Kschischang et al., 2001] sont une gnralisation des modles graphiques des fonctions de score qui ne reprsentent pas ncessairement des probabilits. Ils permettent de fournir un cadre formel commun [Aji et McEliece, 2000] plusieurs algorithmes classiques employs dans dirents domaines : algorithme de Viterbi, belief propagation, transforme de Fourrier rapide, ...

Apprentissage statistique dans les espaces structurs

mthodes dapprentissage structur

mthodes destimation

mthodes dinfrence

modles probabilistes

modles non probabilistes

complexit plus faible

prise en compte des dpendances non locales

gnratifs discriminants CRF (4.3.2) labelwise CRF (4.3.2)

perceptron Structured Perceptron (4.3.3)

maximisation de la marge

HMM (4.3.1) PCFG

A -parsing M3 N (4.3.4) SVMISO (4.3.4) (4.5.1) LaSO* (4.5.2) FOM parsing (4.5.1) SEARN* (4.5.2)

modles non modles probabilistes probabilistes Incremental perceptron (4.5.1) LaSO* (4.5.2) Searn* (4.5.2)

Autre mthode Autre modlisation dinfrence ILP (4.6.2) modles variable cache graphiques (4.5.2) (4.6.2) reranking

88

Figure 4.6 Typologie des diffrents travaux existants en prdiction structure (les lments marqus dune astrisque sont ceux apparaissant dans plusieurs catgories)

4.3 Approches existantes pour lestimation des paramtres

89

4.3
4.3.1

Approches existantes pour lestimation des paramtres


Modles gnratifs

Principe Les modles gnratifs apprennent une distribution de probabilit jointe p(x, y) sur lespace X Y qui dcrit la probabilit de gnrer une entre x et sa sortie associe y. Ce sont gnralement des modles paramtriques : on choisit, priori, une famille de distributions qui dcrit, hypothtiquement, la manire dont lobservation x et ltiquette y ont t gnres. Lapprentissage du modle gnratif correspond alors lestimation des paramtres de cette famille. La distribution de probabilit jointe peut tre utilise pour prdire une nouvelle tiquette partir de la probabilit conditionnelle p(y|x) : ltiquette correspondant la squence dobservations est choisie selon le critre : y = argmax p(y|x)
yY

Choisir ltiquette y selon ce critre est optimal au sens de la thorie de la dcision Baysienne [Duda et al., 2000]. La fonction de score F(x, y; w) est donc dnie comme tant la probabilit posteriori p(y|x) qui peut tre calcule directement partir de la probabilit jointe grce la formule de Bayes. Les modles gnratifs ont plusieurs limites. Leur principal dfaut rside dans leur pouvoir de description limit : pour dnir une probabilit jointe des observations et des tiquettes, un modle gnratif doit numrer toutes les squences dobservations possibles, ce qui nest possible que si lont fait des hypothses dindpendance contraignantes ; ces hypothses limitent fortement le type de caractristiques que lon peut considrer dans le modle [Laerty et al., 2001, Wallach, 2002]. De plus, la prise en compte dune dpendance nest possible que si lon peut modliser explicitement celleci dans le processus de gnration de x et y. Il faut aussi noter que les modles gnratifs napportent pas une solution gnrique au problme de lapprentissage structur : le choix dune famille de modles dpend du type de donnes que lon souhaite traiter et il y a donc un modle spcique aux squences, un autre spcique aux arbres, ... Nous allons maintenant dcrire un modle gnratif de squences, les Modles de Markov Cachs. Dans ce travail, nous utiliserons galement les grammaires probabilistes hors-contexte qui sont un modle gnratif darbre. Ces grammaires sont au cur de lun des modles de transformation de documents que nous avons propos. Elles seront dcrites au Chapitre 5. Les Modles de Markov Cachs Un Modle de Markov Cach (Hidden Markov Model) est un modle gnratif permettant de dcrire des squences. Historiquement, cest lun des premiers modles dapprentissage statistique capable de traiter des objets structurs. Il a t employ avec succs dans de nombreuses tches notamment en reconnaissance de lcriture et de la parole [Jurafsky et Martin, 2000]. Une description exhaustive des HMM est faite dans [Rabiner, 1989]. La squence dobservation est gnre par le processus suivant : chaque instant i, on choisit yi un tat 14 vers lequel aller, cette dcision ne dpendant que de ltat yi1
14. En pratique, on tablit gnralement une bijection entre les tiquettes et les tats. Nous emploierons indiremment ces deux termes

90

Apprentissage statistique dans les espaces structurs

dans lequel on se trouve ; puis, connaissant ltat yi , on gnre une observation xi . La probabilit correspondant ce processus est :
N

p(x, y) =
i=1

p(yi |yi1 ) p(xi |yi )

N N o x = (xi )i=1 est une squence dobservations et y = (yi )i=1 une squence dtiquettes ou tats. Les HMM ne dcrivent que des dpendances locales (une tiquette ne dpend que de ltiquette prcdente) et font, en plus, lhypothse que les observations ne dpendent que de ltiquette de linstant courant. Ces hypothses dindpendance sont trs contraignantes : elles limitent fortement le type de caractristiques que lon peut utiliser. Plus prcisement, un des problmes majeurs des HMM est quils modlisent des probabilits dmission p(xi |yi ), alors quil serait prfrable de modliser p(yi |xi ). En eet, les probabilits dmissions reposent sur un processus gnratif dans lequel il est dicile dinclure des caractristiques interdpendantes ou redondantes (overlapping features) : celles-ci ne peuvent tre prises en compte que si le processus de construction de la sortie les fait apparatre explicitement. On distingue trois types de tches dans lutilisation des HMM : 1. calculer p(x) = yY p(x, y), la probabilit dune squence dobservations. Ce problme est rsolu par lalgorithme forward [Rabiner, 1989] ; 2. trouver la squence dtiquettes ayant gnr une squence dobservations. Celle-ci correspond la squence maximisant la probabilit conditionnelle p(y|x). Cette question correspond la tche de prdiction structure telle que nous lavons dnie au Paragraphe 4.2 ; 3. apprendre les paramtres dun HMM partir dun ensemble de donnes. Cet apprentissage seectue en maximisant la vraisemblance des donnes.

4.3.2

Champs Conditionnels Alatoires

Principe Les Champs Conditionnels Alatoires (Conditional Random Fields) sont un formalisme introduit par [Laerty et al., 2001] pour supprimer les limites des modles gnratifs et notamment permettre de considrer des caractristiques plus riches pour dcrire lobservation. [Wallach, 2002] et [Sutton et McCallum, 2006] en font une description exhaustive. Les CRF gnralisent le formalisme de la rgression logistique (Paragraphe 3.2.2) au cas des donnes structures. Ils mettent en uvre la mme dmarche que la rgression logistique : la fonction de score de lquation 4.1 est dnie comme tant la probabilit conditionnelle p(y|x; w), cest--dire la probabilit de gnrer une squence dtiquettes y une fois que lon connat une squence dobservations x ; cette probabilit est paramtre par une distribution de Gibbs : p(y|x; w) = 1 exp w, (x, y) Zw (x) (4.2)

o (x, y) est la reprsentation jointe et Zw (x) est un facteur de normalisation appel fonction de partition : Zw (x) = exp w, (x, y)
yY

Ce facteur de normalisation est de la mme forme que le facteur de normalisation apparaissant dans la rgression logistique multi classes.

4.3 Approches existantes pour lestimation des paramtres

91

Contrairement aux modles gnratifs qui modlisent une probabilit jointe p(x, y), les champs conditionnels alatoires modlisent directement la probabilit conditionnelle permettant de raliser une prdiction. Les CRF considrent donc une tche plus simple : ils ne cherchent pas modliser lentre x comme le font les modles gnratifs, mais juste les dpendances entre lentre et la sortie permettant de discriminer au mieux la meilleure squence dtiquettes. Il ny a donc plus besoin de faire dhypothses et notamment dhypothses dindpendance sur la manire dont lentre est gnre. Cest pourquoi, nous pouvons prendre en compte toutes les caractristiques de lentre que nous jugeons pertinentes, mme celles qui sont interdpendantes. De plus, dans lquation 4.2, la probabilit de la squence dtiquettes y est globalement conditionne par la squence dobservations x, et il est donc possible, lors du choix de la jme tiquette de tenir compte de caractristiques de lensemble de la squence dobservations. La Table 4.1 donne un exemple de caractristiques utilises dans un CRF pour une tche dextraction dinformations. Les modles qui, comme les CRF, modlisent directement une probabilit conditionnelle, sont appels modles discriminants. [Collins, 2004] dresse une liste exhaustive des avantages des modles discriminants sur les modles gnratifs dans le cas de la prdiction structure. x j reconnat le motif [A-Z][a-z]+ caractristiques du contenu du jme nud de la squence x j reconnat le motif [A-Z][A-Z]+ x j reconnat le motif [A-Z] x j reconnat le motif [A-Z]+ x j semble tre une partie dune date (reconnue par une expression rgulire) x j est un lment dun dictionnaire de nom, de prnom, de titre, ... x j semble tre une heure suivie par un tiret x j semble tre une heure prcde dun tiret

caractristiques du contexte du nud

Table 4.1 Exemple de caractristiques dcrivant lentre utilises dans un CRF (tableau repris de [Sutton et McCallum, 2006]) Lquation 4.2 peut, priori, dcrire nimporte quel type de dpendances entre tiquettes, que celles-ci dcrivent une squence, un arbre ou un graphe. Mais, comme nous lavons expliqu la Section 4.2.2, considrer des dpendances arbitraires pose trs vite des problmes calculatoires. En particulier, il devient impossible de trouver la solution optimale et de calculer la fonction de partition Zw (x) si lon nimpose pas de restrictions (x, y). Cest pourquoi, en pratique, les CRF nont gnralement t utiliss que pour ltiquetage de squences et seule la dpendance entre une tiquette yi et ltiquette prcdente yi1 est prise en compte (hypothse de Markov dordre 1) 15 . En eet, la dure
15. Il convient toutefois de noter quune gnralisation des CRF aux arbres a t rcmment propose [Jousse et al., 2006].

92

Apprentissage statistique dans les espaces structurs

dapprentissage et dinfrence ainsi que le nombre de donnes ncessaires en apprentissage deviennent dissuasifs ds que lon essaie de considrer des hypothses de Markov dordre suprieur. Il faut toutefois noter que, contrairement aux HMM, les CRF permettent de prendre en compte des caractristiques dcrivant lensemble de lobservation (x) et non pas un seul lment de lobservation (xi ). Avec cette hypothse, lquation 4.2 scrit : N 1 w , (yi , yi1 , x) exp p(y|x; w) = Zw (x) i=1 = 1 Zw (x)
N

exp w , (yi , yi1 , x)


i=1

o la somme porte sur lensemble des lments de la squence 16 ; w et sont les restrictions du vecteur de paramtres et de caractristiques aux dpendances de Markov. Avec une hypothse de Markov, il est possible de calculer ecacement Z(x) en adaptant lalgorithme forward des HMM [Laerty et al., 2001], et comme nous le verrons au Paragraphe 4.4, de dterminer la solution optimale par lalgorithme de Viterbi. Dans la suite de ce travail, nous ne considrerons plus que des CRF linaires. Apprentissage des paramtres Comme pour la rgression logistique, le vecteur de paramtres w est dtermin en maximisant la vraisemblance conditionnelle, cest-dire en maximisant la fonction objectif suivante :
m

RCCL =
i=1

log p(y(i) |x(i) ; w)


m

=
i=1

w, (y(i) , x(i) ) log Zw (x(i) )


m

o la somme porte sur tous les exemples de la base dapprentissage S = x(i) , y(i) et i=1 . Plusieurs mthodes doptimisation ont t proposes pour dterminer la valeur optimale de w : iterative scaling [Laerty et al., 2001], BFGS [Sha et Pereira, 2003], gradient conjugu [Wallach, 2002], stochastic meta-descent [Schraudolph et Graepel, 2003, Vishwanathan et al., 2006] ou gradient exponentiel [Globerson et al., 2007]. BFGS et la descente de gradient conjugu sont des mthodes doptimisation batch dans lesquelles chaque mise jour du vecteur de poids ncessite au moins un parcours complet de lensemble des donnes dapprentissage. Ces algorithmes convergent gnralement au bout dun grand nombre ditrations (une centaine pour le gradient conjugu) et la procdure doptimisation est donc gnralement longue. Au contraire, la descente de gradient stochastique et le gradient exponentiel sont des algorithmes en ligne qui mettent jour le vecteur de paramtres aprs chaque accs un lment de la base dapprentissage. Cest pourquoi, ces deux mthodes permettent dobtenir les meilleures performances en apprentissage (du point de vue du temps de calcul). Toutes ces mthodes dapprentissage ncessitent de pouvoir calculer ecacement la solution optimale (cest--dire rsoudre lquation 4.1) et le logarithme de la constante de normalisation log Zw (x), ce qui nest possible que si lon ne considre que des dpendances locales.
16. Dans une tche dtiquetage de squence, un sous-lment de lobservation correspond un souslment de ltiquette.

4.3 Approches existantes pour lestimation des paramtres

93

Mthodes dapprentissage alternative Les CRF optimisent la fonction de cot logarithmique pour les squences (sequential log-loss) :
slog

= w, (y(i) |x(i) ) log Zw (x(i) )

Cette fonction de cot est impose par la mthode dapprentissage des CRF et nest pas relie la manire dont les performances de la prdiction seront values. Intuitivement, il serait prfrable doptimiser le risque empirique lorsque la fonction de cot est le cot de Hamming 17 . Cest, en eet, ce cot qui sera utilis, dans de nombreuses applications, pour valuer les performances en prdiction [Gross et al., 2006, Kakade et al., 2002]. Le critre dapprentissage est alors : m N (i) Rham = 1 y j argmax p(y j |x(i) ; w) yj
i=1 j=1

la premire somme porte sur tous les exemples de la base dapprentissage, la deuxime sur tous les lments de chaque squence ; la condition y(i) argmaxy j p(y j |x(i) ; w) vrij e que y(i) , ltiquette du jme lment de la ime squence, correspond bien ltiquette j prdite (argmaxy j p(y j |x(i) ; w)). La minimisation directe du cot de Hamming est toutefois dicile. En eet, un petit changement de la valeur des paramtres ne va pas modier le choix des tiquettes : la fonction de cot est une extension du cot 0/1 et se reprsente par un ensemble discontinu de plateaux. Le gradient de Rham est donc nul partout, sauf aux points de discontinuit de cette fonction, ce qui complique la recherche des optima. Une manire doptimiser Rham , propose par [Gross et al., 2006], est de considrer la fonction objectif suivante : m N (i) (i) (i) Q p(y j |x ; w) max p(y j |x ; w) Rlw = y y(i)
i=1 j=1
i j

o Q(x) est la fonction sigmode de paramtre : Q (x) = 1 1 + exp ( x)

Cette fonction objectif peut tre vue comme une approximation rgulire (smooth) du cot de Hamming. En eet, on a :

lim Rlw = Rham

Ce critre peut facilement tre optimis par une mthode base de gradient. Plus on xe une valeur de leve, plus lapproximation du cot de Hamming sera able, mais, en contrepartie loptimisation sera plus dicile. [Gross et al., 2006] propose une mthode base sur la programmation dynamique permettant de calculer ecacement le gradient de Rlw .
17. Cela reste une ide intuitive : le lien entre la fonction optimise en apprentissage et la fonction utilise en test est sujet controverse, comme le montre par exemple la discussion When is it the right time to insert the loss function ? (http://hunch.net/?p=85) ou le dbat entre modles gnratifs et discriminants.

94

Apprentissage statistique dans les espaces structurs

4.3.3

Perceptron pour les sorties structures

[Collins, 2002] propose une gnralisation du perceptron pour les sorties structures. Cest une des premires approches avoir propos une mthode dapprentissage discriminative qui ne ncessite pas dhypothse dindpendance et permet dutiliser des caractristiques riches . De plus elle montre parfaitement comment il est possible dappliquer la classication multi classes la prdiction structure. Cest aussi la premire mthode qui introduit la notion de marge en apprentissage structur et fournit une borne de gnralisation qui dpend de cette marge 18 . Lapprentissage des paramtres est dcrit par lAlgorithme 3 19 . Il ny a que deux dirences entre cet algorithme et le perceptron pour la classication binaire (Section 3.2.1) : la fonction de score na pas de paramtre dcrivant le biais (on sintresse aux valeurs relatives du score de deux tiquettes) et la meilleure solution est dtermine par la rsolution dun argmax. Le principe dapprentissage est le mme sinon : on incrmente le vecteur de poids chaque fois quune erreur est faite pour sassurer que la solution souhaite ait un score plus grand que la valeur prdite : w w + (x(i) , y(i) ) (x(i) , y ) La principale limite de cette approche (hormis le fait quelle suppose quil est possible de rsoudre largmax facilement) est quelle ne permet de considrer que le cot 0/1. Algorithme 3 Algorithme du perceptron pour les sorties structures Require: a linearly separable training set x(i) , y(i) w0 while there are classication errors do for i = 1 to m do y = argmaxyY w, (x(i) , y) if y y(i) then w w + (x(i) , y(i) ) (x(i) , y ) end if end for end while
m i=1

4.3.4

Modles maximisant la marge

Comme nous lavons vu au Paragraphe 3.2.3, le critre de maximisation de la marge garantit de bonnes performances en gnralisation. Il est donc naturel de chercher adapter les machines vecteurs de support pour prdire des sorties structures. Cette adaptation est une gnralisation directe de la SVM multi classes (Paragraphe 3.2.3). Nous allons rapidement reprendre le raisonnement permettant de formuler le problme doptimisation, puis nous prsenterons deux approches pratiques capables de rsoudre celui-ci. Notons toutefois dj que, comme nous le verrons au Chapitre 5, le cot de ces mthodes en apprentissage et en infrence est prohibitif.
18. Cette approche ne fait que dnir la marge et ne cherche pas la maximiser. 19. Par souci de prcision, il convient de prciser que [Collins, 2002] utilise un perceptron moyenn (averaged perceptron) [Freund et Schapire, 1999] qui ore de meilleures capacit de gnralisation. Cette dirence na pas dimpact sur notre travail.

4.3 Approches existantes pour lestimation des paramtres

95

Dnition du problme doptimisation Lapprentissage des paramtres dune SVM repose sur la dnition dun problme doptimisation cherchant maximiser m la marge, tout en assurant que les exemples de la base dapprentissage S = x(i) , y(i) i=1 sont correctement tiquets. Dans le cas des sorties structures, cette contrainte scrit : i 1, m , max
yY\{y(i) }

w, x(i) , y

< w, x(i) , y(i)

Chacune de ces contraintes exprime le fait que, pour le ime exemple, le score de ltiquette dsire est plus grand que le score de toutes les tiquettes possibles et que cest donc bien celle-ci qui est choisie. Il est possible dexprimer ces m 1 contraintes non linaires par # {Y} (m 1) contraintes linaires : i 1, m , y Y \ {y(i) }, w, i (y) > 0 (4.3)

o i (y) = x(i) , y(i) x(i) , y mesure la dirence entre le score de ltiquette attendue et dune tiquette arbitraire. Le problme doptimisation de la SVM pour les sorties structures scrit alors : 1 min ||w||2 2 sous les contraintes :i 1, m , y Y \ {y(i) } w, i (y) > 1
wRd

On introduit gnralement des variables ressorts pour traiter le cas des donnes non linairement sparables. Le problme doptimisation correspondant est : 1 min ||w||2 + C wRd 2
n

i
i=1

(4.4)

sous les contraintes :i 1, m , y Y \ {y(i) } w, i (y) > 1 i Comme dans le cas de la SVM simple, le paramtre C rgle la sensibilit de la solution au viol des contraintes. Ce problme doptimisation est un problme quadratique similaire celui de la SVM pour les sorties simples. Cependant, le nombre de contraintes est proportionnel la taille de lespace de sortie Y et est donc trs grand. Cest pourquoi, les mthodes doptimisation habituelles (comme celles utilises pour la SVM simple) ne peuvent tre appliques directement et, comme nous le dtaillerons dans les deux paragraphes suivants, des mthodes spciques ont d tre proposes. Cette formulation du problme doptimisation de la SVM prsente un deuxime problme. En eet, elle ne permet de prendre en compte que la fonction de cot 0/1 : toutes les mauvaises sorties (celles qui sont direntes de la sortie attendue) sont pnalises de la mme manire. Comme nous lavons expliqu au Paragraphe 4.1.2, il est souvent prfrable de pouvoir utiliser dautres fonctions de cot. Une solution envisageable pour introduire une fonction de cot arbitraire dans le problme doptimisation 4.4 consiste relcher les contraintes portant sur la distance la marge : une solution y proche de la solution dsire y(i) (c.--d. une solution telle que (y, y(i) ) soit faible) pourra tre plus proche de la marge quune solution plus loigne de y(i) . Plusieurs manires de relcher ces contraintes ont t proposes dans la littrature. M3 N M3 N est la premire approche dveloppe permettant dutiliser un critre de marge maximale dans la prdiction des sorties structures. Pour introduire une fonction

96

Apprentissage statistique dans les espaces structurs

de cot arbitraire, M3 N propose de r-chelonner la marge pour la rendre proportionnelle la fonction de cot : 1 min ||w||2 + C d 2 wR
n

i
i=1

(4.5)

sous les contraintes :i 1, m , y Y \ {y(i) } w, i (y) (y, y(i) ) i cest--dire que la dirence du score de ltiquette attendue y(i) et de nimporte quelle autre tiquette doit tre dau moins (y, y(i) ) (modulo les variables ressort). Pour limiter lexplosion du nombre de contraintes dans lquation 4.5, Ben Taskar propose de reparamtrer le problme en sappuyant sur le modle graphique dcrivant les interactions entre tiquettes. En utilisant ainsi la structure des tiquettes et notamment le fait quil y a gnralement peu dinteractions entre les tiquettes, Ben Taskar arrive remplacer, dans la plupart des cas 20 , le nombre exponentiel de contraintes par un nombre polynomial. De manire plus gnrale, il y a deux manires de voir les M3 N : soit on considre que cest un formalisme permettant dutiliser un critre de la marge dans un modle graphique, soit on le voit comme une astuce permettant dutiliser un critre de la marge dans les espaces structurs. Ce lien entre modles graphiques et M3 N permet dutiliser, pour linfrence dans les M3 N, les algorithmes dvelopps pour les modles graphiques. Ces algorithmes ne sont toutefois ecaces que si lon impose certaines restrictions la reprsentation jointe (x, y) et notamment que si lon ne considre que des dpendances locales [Taskar et al., 2004]. Dans la prsentation originale des M3 N [Taskar et al., 2004], Ben Taskar utilise une adaptation de lalgorithme SMO [Platt, 1999] pour rsoudre le problme doptimisation 4.5. Par la suite, plusieurs mthodes doptimisation plus ecaces ont t utilises : gradient exponentiel [Bartlett et al., 2004], extra-gradient [Taskar et al., 2005], extragradient dual [Taskar et al., 2006], sous-gradient [Ratli et al., 2006a], ... Comme dans le cas des CRF (Paragraphe 4.3.2), ces dirents algorithmes prsentent des proprits, notamment de vitesse de convergence, direntes. SVMISO SVMISO (Support Vector Machines for Interdependent and Structured Output) [Tsochantaridis et al., 2004, Tsochantaridis et al., 2005] est une deuxime mthode permettant dapprendre prdire des sorties structures en utilisant un critre de marge maximale. SVMISO et M3 N dirent la fois par leur manire dintroduire des fonctions de cot arbitraires et leur mthode doptimisation. Dans SVMISO, la fonction de cot est introduite en r-chelonnant les variables ressorts et non la marge. Le problme doptimisation considr est donc : 1 min ||w||2 + C wRd 2
n

i
i=1

(4.6) i (y, y(i) )

sous les contraintes :i 1, m , y Y \ {y(i) } w, i (y) 1

Il ny a, lheure actuelle, aucun argument thorique ou exprimental permettant de privilgier une de ces deux mthodes de r-chelonnage. La seule dirence notable est que la mthode mise en uvre dans M3 N permet dutiliser un noyau 21 . Mais la
20. et notamment dans tous les cas courants : grammaire hors-contexte, graphe de facteurs, ... 21. Il est, thoriquement, possible de modier SVMISO pour utiliser un noyau, mais le surcot est prohibitif et, notre connaissance, cette modication na jamais t ralise.

4.3 Approches existantes pour lestimation des paramtres

97

fonction objectif de M3 N nest pas invariante par changement dchelle : il faut que lordre de grandeur de la fonction cot et du produit scalaire soit identique. Pour rsoudre ce problme malgr le nombre exponentiel de contraintes, les auteurs proposent den dterminer une solution approche en ne considrant quun petit nombre de contraintes signicatives. Intuitivement, si les contraintes retenues, appeles contraintes actives, sont susamment pertinentes, la solution obtenue sera proche de la solution exacte (celle qui considre toutes les contraintes). LAlgorithme 4 dtaille la mthode dapprentissage implmentant ce principe. Pour chaque exemple x(i) , y(i) , lalgorithme maintient S i , une liste de contraintes actives. Cette liste regroupe tous les lments de Y qui doivent tre considrs pour dterminer la marge. Les ensembles de contraintes actives sont initialement vides et le vecteur de paramtres w est nul. Le processus suivant est alors itr jusqu convergence : pour chaque exemple de la base dapprentissage : la solution optimale de la SVM y est dtermine (tape 6) ; on calcule i qui mesure quel point les lments de S i violent la contrainte de la marge (tape 7) ; si la solution actuelle y viole la contrainte de la marge plus de i + , o est un paramtre de lalgorithme la contrainte est ajoute lensemble des contraintes actives pour cet exemple. Cette condition permet de vrier si ltiquette prdite par la SVM viole les contraintes de la marge encore plus que les contraintes actives ; les paramtres de la SVM sont mis jour (tape 10). On peut montrer que cette mthode converge vers la solution optimale prs aprs avoir ajout un nombre polynomial de contraintes. Le paramtre peut donc tre vu comme une mesure de la qualit de la solution recherche. Algorithme 4 Algorithme doptimisation de SVMISO Require: a training set S = x(i) , y(i) i=1 1: w 0 2: S i , i 0, m 3: repeat 4: for i 0, m do 5: F(y) = (1 w, i (y ) (y, y(i) ) 6: compute y = argmaxyY F(y) 7: compute i = maxyS i F(y) 8: if F( ) > i + then y 9: S i S i { } y 10: w optimize SVM over n S i i=1 11: end if 12: end for 13: until no S i has changed during iteration La principale limite de cette mthode rside dans sa complexit : lalgorithme va successivement raliser plusieurs infrences et mises jour de paramtres qui sont deux oprations coteuses. Dailleurs, les expriences nont t menes que sur de petites bases (peu dexemples et des exemples de petite taille). Mme sur ces bases, le temps de convergence de lalgorithme est trs grand (il se compte en jours voire en semaines).
m

98

Apprentissage statistique dans les espaces structurs

Cependant, SVMISO ore un cadre trs gnral permettant de traiter un grand nombre de problmes dapprentissage structur. Il permet dutiliser facilement un critre de marge maximale ds quil existe un algorithme capable de rsoudre largmax de manire ecace et peut donc tre vu comme un meta-algorithme. Les expriences menes sur un vaste panel de tches dapprentissage structur (parsing, tiquetage de squences, classication hirarchique, ...) montrent la gnralit de cette approche et le gain de performances quapporte loptimisation dun critre de marge en apprentissage.

4.3.5

Performances des direntes mthodes destimation

Nous avons prsent, dans la section prcdente, direntes approches destimation des paramtres dune fonction de prdiction de sorties structures. Toutes ces approches (except les HMM) peuvent considrer les mmes caractristiques et utilisent le mme algorithme dinfrence. En fait, elles ne dirent que par la fonction quelles optimisent en apprentissage. Il ny a, notre connaissance, aucun argument thorique permettant de privilgier lune de ces approches et seule une comparaison exprimentale des performances est possible. Ce nest que trs rcemment (juin 2007) quune telle tude a t ralise. Dans [Nguyen et Guo, 2007], les auteurs ont compar, sur une tche dtiquetage de squences, ltiquetage syntaxique 22 , les performances de toutes les approches que nous avons prsentes jusquici et de SEARN que nous introduirons au Paragraphe 4.5.2. Il ne sagit que de rsultats exprimentaux qui sourent donc de certains biais et ne sont pas ncessairement gnralisables (on compare les modles sur une tche et sur un corpus). Leur tude est pourtant intressante. Il faut toutefois noter que, bien que les corpus 23 aient t rendus public, trs peu dinformations sur la manire dont les direntes approches ont t paramtres sont donnes, et nous navons pas russi reproduire les expriences (c.--d. obtenir des scores du mme ordre de grandeur). Chaque classieur a t entran sur des corpus dapprentissage de taille dirente (500, 1 000, 2 000, 4 000 et 8 000 exemples) et test sur un corpus comportant 1680 squences. Les squences comportaient en moyenne 24, 8 lments pouvant avoir 40 tiquettes. Il y a au total 450 000 caractristiques. La mesure dvaluation utilise est le cot moyen (average loss) : m 1 Ni 1 (i) (i) 1 yj yj m i=1 Ni j=1 o y(i) correspond la valeur prdite du jme lment de la ime squence et y(i) la j j valeur attendue. Cette mesure correspond la distance de Hamming moyenne par la longueur des squences (Ni ) et la taille du corpus (m). La Table 4.2 dtaille les performances de prdiction pour les direntes tailles des corpus dapprentissage. Ces rsultats appellent plusieurs commentaires : parmi toutes les mthodes prsentes au paragraphe prcdent, les meilleures performances sont obtenues (quelle que soit la taille du corpus) par SVMISO. Le gain de performance est assez net par rapport aux autres mthodes. les performances dun classieur simple (cest--dire qui ne fait pas dinfrence jointe) sont proches des meilleures performances, ce qui remet en cause lintrt de linfrence jointe et est contraire lintuition qui a motiv le dveloppement
22. Nous dcrirons cette tche en dtail au Chapitre 6 23. http://www.cs.cornell.edu/~nhnguyen/data.rar

4.3 Approches existantes pour lestimation des paramtres Train size SVMISO SVM multi classe M3 N perceptron SEARN CRF HMM 500 8,37% 8,76% 10,19% 10,16% 10,49% 16,53% 23,46% 1 000 6,58% 6,93% 7,26% 7,79% 8,92% 12,51% 19,95% 2 000 5,75% 5,77% 6,34% 6,38% 7,58% 9,84% 17,96% 4 000 4,71% 4,92% 5,26% 5,39% 6,44% 7,76% 17,58% 8 000 4,08% 4,35% 4,19% 4,49% 5,48% 6,38% 15,87%

99

Table 4.2 valuation des diffrentes approches dapprentissage structur (tableau repris de [Nguyen et Guo, 2007]) de toutes les mthodes prsentes dans ce chapitre. Nous aurons loccasion de revenir longuement sur cette question au Chapitre 6. M3 N a des performances plus faibles que SVMISO alors que ces deux mthodes optimisent des critres similaires. Cependant, tant donn sa complexit, le processus dapprentissage a d tre arrt avant de converger. Ce rsultat nest donc pas ncessairement pertinent : il montre juste que lapprentissage des M3 N est trop coteux pour que cette mthode soit utilise en pratique. les CRF ont de (trs) mauvaises performances. Ces rsultats doivent toutefois tre relativiss : lorsque nous avons essay de reproduire les expriences avec une implmentation dirente des CRF, nous avons obtenu (avec les valeurs des paramtres par dfaut) des rsultats sensiblement meilleurs. La Table 4.3 prsente les rsultats obtenus par Mallet 24 [McCallum, 2002], limplmentation des CRF utilise par [Nguyen et Guo, 2007], et FlexCRF [Phan et Nguyen, 2005]. Ces rsultats illustrent bien quel point les performances sont sensibles lalgorithme doptimisation utilis et au paramtrage de celui-ci (condition darrt, initialisation, ...). les carts de performance diminuent lorsque lon augmente le nombre dexemples en apprentissage. Il semblerait donc que toutes les mthodes tendent vers la mme solution optimale (ou au moins vers des solutions ayant des performances proches) et que le principal impact du choix du critre dapprentissage se situe plus au niveau de la vitesse de convergence quau niveau de la qualit de la solution optimale. Implmentation FlexCRF Mallet 500 11, 14% 16, 53% 1 000 8, 00% 12, 51% 2 000 6, 52% 9, 84% 4 000 5, 30% 7, 76% 8 000 4, 39% 6, 38%

Table 4.3 Rsultats obtenus par deux implmentations diffrentes des CRF : Mallet et FlexCRF Une tude similaire a t faite par Yasemin Altun [Altun et al., 2003]. Toutefois, la comparaison porte directement sur les fonctions de cot optimises par les direntes approches, plutt que sur les mthodes : les paramtres ont t dtermins par la mme mthode doptimisation, mais les fonctions objectifs taient celles des direntes mthodes prsentes dans la section prcdente. Les performances obtenues dans cette tude sont sensiblement les mmes quelle que soit la fonction de cot retenue.
24. Les performances de Mallet sont celles reportes par [Nguyen et Guo, 2007]

100

Apprentissage statistique dans les espaces structurs

Dans le cadre de notre travail de thse 25 , nous avons aussi ralis, avec Francis Maes et Antoine Bordes, une comparaison des dirents modles de prdiction structure pour ltiquetage de squences. Cette comparaison a port sur moins de mthodes (CRF, SEARN, SVMISO et SVM multi classes), mais elle a t faite sur trois tches dtiquetage de squences : reconnaissance dentit nomme : cest une tche introduite lors du d CoNLL 2002 [Tjong Kim Sang, 2002]. Lobjectif est de reconnatre dans des textes en espagnol des entits nommes comme les noms de personnes, les noms de lieux et les noms dorganisations. Il y a 9 tiquettes au total. Nous avons utilis des corpus dapprentissage et de test de deux tailles direntes. Le premier NER-large comporte 8 324 squences en apprentissage et 1 517 squences en test ; le second NER-small comporte 300 squences en apprentissage et 9 541 en test. reconnaissance de lcriture : ce corpus est constitu de 6 600 squences de caractres manuscrits. Chaque caractre est une image binaire de 816 pixels. Comme pour le corpus NER, nous avons utilis deux partages en corpus de test / corpus dapprentissage : un premier, Handwritten-small utilise 10% des squences en apprentissage et 90% en test ; le second, Handwritter-large a des proportions inverses (10% en test et 90% en apprentissage). analyse syntaxique de surface : cest une tche introduite par lors du d CoNLL 2000 [Tjong Kim Sang et Buchholz, 2000]. Nous prsenterons cette tche en dtail au Chapitre 6. La Table 4.4 regroupe les rsultats de cette comparaison et la Table 4.5 les temps dapprentissage des mthodes testes. Les scores indiqus correspondent au pourcentage dtiquettes correctement retrouves. Ces expriences montrent que les performances des mthodes sont trs fortement dpendantes des corpus : chaque mthode est la meilleure sur un des corpus ! Cependant, le classieur simple obtient toujours de bonnes performances, mme sil nest jamais le meilleur. Cette observation sera au cur de la mthode dtiquetage de squences que nous proposerons au Chapitre 6. CRF 91, 9% 97, 0% 66, 9% 75, 4% 96,7% SVMISO 93, 5% 76,9% Searn 93,8% 96, 3% 64, 1% 73, 5% 95, 0% SVM multi classe 92, 7% 71, 0% 95, 4%

NER-small NER-large Handwritten-small Handwritten-large Chunk

Table 4.4 valuation de quatre mthodes sur diffrents corpus. Un tiret () indique que la complexit de lapprentissage ne permet pas de raliser lexprience

4.4

Mthode dinfrence : lalgorithme de Viterbi

Toutes les approches que nous avons dcrites dans la section prcdente supposent quil existe un algorithme dinfrence ecace. Comme nous lavons mentionn au
25. Une partie de ces rsultat a t publie dans [Maes et al., 2007b]

4.4 Mthode dinfrence : lalgorithme de Viterbi CRF 8h 2h SVMISO > 3 jours > 3 jours Searn 6h 3h SVM multi classe 3 jours 3 jours

101

NER-small Handwritten-small

Table 4.5 Temps dapprentissage des diffrents algorithmes dtiquetage de squences

Paragraphe 4.2.2, cette hypothse est vrie lorsque la fonction de cot est dcomposable. En eet, linfrence peut alors tre eectue par une mthode reposant sur la programmation dynamique. Nous allons prsenter, dans cette section, les principes de la programmation dynamique (Paragraphe 4.4.1), puis montrer comment la programmation dynamique est utilise en apprentissage structur (Paragraphe 4.4.2). Finalement, nous dtaillerons les principales limites de lutilisation de la programmation dynamique (Paragraphe 4.4.3). Il est important de noter que, bien que nous ne parlerons que de lutilisation de la programmation dynamique en infrence, celle-ci est aussi utilise pour calculer diverses quantits ncessaires lestimation des paramtres.

4.4.1

Principe de la programmation dynamique

La recherche de la solution de plus grand score ncessite, priori, dvaluer le score de lensemble des sorties possibles. Lespace de sortie tant combinatoire (Paragraphe 4.1.2), une mthode dinfrence nave, reposant sur lnumration de toutes les solutions, aura une complexit trop leve pour tre applique des corpus rels. Il est toutefois possible de rduire cette complexit en exploitant la dcomposabilit de la fonction de score. En eet, lorsque lhypothse de dcomposabilit est vrie, le score dune multi-tiquette se calcule partir du score des sous-parties de celle-ci et le problme doptimisation prsente alors deux proprits : la proprit de sous-problmes optimaux : la fonction de score F(y, x; w) est croissante et monotone par rapport ses sous-parties (cest une addition 26 des scores locaux qui sont tous positifs). Chacune des sous-parties de la multi-tiquette optimale est donc optimale : si ce ntait pas le cas, il surait de remplacer la sous-partie en question pour obtenir une multi-tiquette de plus grand score. la proprit de sous-problmes redondants : les scores des sous-parties sont indpendants. Cest pourquoi, si une sous-partie est commune plusieurs multitiquettes, il nest pas ncessaire de recalculer son score chaque fois : il sut de retenir celui-ci la premire fois quil est calcul. Cest le principe de la mmoization [Michie, 1968], une technique doptimisation classique en programmation. La programmation dynamique [Bellman, 1957] est une mthode gnrale permettant de rsoudre les problmes doptimisation prsentant ces deux proprits. Elle est la base de nombreux algorithmes : alignement de squences, recherche du plus court chemin dans un graphe, distance ddition, ... Ces algorithmes construisent une solution de manire incrmentale en combinant des sous-solutions optimales (exploitation de la proprit de sous-problmes optimaux suivant le principe diviser pour rgner ) et limite la complexit en ne construisant chaque sous-solution quune seule fois (exploitation de la proprit de sous-problmes redondants). Nous allons maintenant dtailler
26. ou multiplication suivant que lon considre le score ou le logarithme du score.

102

Apprentissage statistique dans les espaces structurs

ce principe dans le cas particulier de lalgorithme de Viterbi, qui permet de trouver la solution optimale un problme dapprentissage structur.

4.4.2

Algorithme de Viterbi

Lalgorithme de Viterbi permet de rechercher ecacement la solution de plus grand score. Il a t initialement utilis dans le cas o la fonction de score tait une probabilit [Rabiner, 1989], mais son intrt est beaucoup plus gnral et il est aujourdhui au cur de la plupart des mthodes dapprentissage structur. Le principe fondamental de cet algorithme est de considrer un espace de recherche regroupant lensemble des sorties possibles ainsi que lensemble des sous-parties de celles-ci. Cet espace dnit un semi-treillis dont la relation dordre est dnie par la relation de composition (xRy si x est une sous-partie de y). La Figure 4.7 donne un exemple dun tel espace lorsque lon cherche dterminer le plus grand score dune squence de quatre tiquettes gnre par la chane de Markov de la Figure 4.8. 0...

00..

02..

000.

002.

020.

021.

022.

0000 0002

0020 0021 0022 0200 0202

0210 0220 0221 0222

Figure 4.7 Espace de recherche considr par lalgorithme de Viterbi dans le cas de la chane de Markov de la Figure 4.8

1 1 0, 5 0, 2

0, 5

0 start 0, 2

0, 6

Figure 4.8 Chane de Markov utilise dans les exemples de la Section 4.4.2

4.4 Mthode dinfrence : lalgorithme de Viterbi

103

Enrichir ainsi lespace de recherche permet de considrer la recherche de la solution de plus grand score comme un processus de construction : dans le treillis dcrivant lespace de recherche, chaque nud correspond une solution partielle et une arte indique un moyen dtendre cette solution vers une solution complte. Il est ainsi possible de considrer lensemble des artes issues dun nud comme un ensemble dactions ralisables partir de ce nud : le parcours de lespace de recherche peut tre dcrit comme un processus de construction qui va incrmentalement tendre au moins une solution partielle vers des solutions compltes. Linfrence se rsume alors une suite dactions ou de dcisions (quel sous-solution tendre ? comment ltendre ? etc.) Il est possible de dcrire cet espace de recherche de manire plus compact en dnissant un treillis de Viterbi. Celui-ci est construit de la manire suivante : lespace de recherche est un graphe comportant N # {} nuds 27 et au plus N # {}2 artes. Chaque nud ni j reprsente lhypothse ltiquette du ime sous-lment de la sortie est j et une arte entre les nuds ni j et nkl indique quil est possible que ltiquette du kme sous-lment soit l si ltiquette du ime sous-lment est j. La Figure 4.9 montre le treillis de Viterbi correspondant lespace de recherche de la Figure 4.7. Le principe doptimalit permet alors darmer que sil existe plusieurs manires darriver un nud, seul le chemin de plus grand score passant par ce nud peut mener la solution optimale. Il est donc possible dlaguer lespace de recherche en cessant de poursuivre tous les autres chemins. 0 0 0 0

Figure 4.9 Treillis de Viterbi correspondant une squence de quatre lments gnre par la chane de Markov de la Figure 4.8 Lalgorithme de Viterbi peut alors dterminer ecacement la solution de plus grand score en tirant avantage de la structure de lespace de recherche que nous venons de dcrire : il sut de construire, en parallle, toutes les sorties possibles, en arrtant la construction dune sortie ds quon est sr que celle-ci ne peut tre la solution recherche, cest--dire ds quil existe un chemin arrivant au mme nud avec un score plus grand. Dans la suite de cette section, nous allons dtailler la mise en uvre de ce principe dans le cas des squences, mais lalgorithme de Viterbi est galement capable de traiter dautres types de structure : nous prsenterons au Paragraphe 5.2.2, une gnralisation de lalgorithme de Viterbi pour linfrence dans les arbres.
27. Nous rappelons que N est le nombre dlments composant la sortie et le domaine de chacun de ces lments.

104

Apprentissage statistique dans les espaces structurs

Algorithme de Viterbi pour les squences La fonction de score utilise en tiquetage de squences se dcompose de la manire suivante (Paragraphe 4.2.2) :
N

F(x, y; w) =
i=1

f (x, yi , yi+1 ; w)

Nous supposerons que y0 est un symbole spcial, <s>, indiquant le dbut de la squence. Lalgorithme de Viterbi va dterminer la squence dtiquettes de plus grand score en remplissant rcursivement une matrice a de taille (N + 1) # {} dnie de la manire suivante 28 : 0 si = <s> a0, = sinon ai+1, = max ai, + f (x, , )

Dans cette dernire quation, loprateur max permet de slectionner la sous-solution optimale permettant darriver au nud ni+1, . Le score de la meilleure squence dtiquettes est alors donn par : max aN+1,

La Figure 4.10 montre comment lalgorithme de Viterbi tiquette une squence de quatre lments. Elle dtaille notamment les hypothses qui sont testes chaque tape et celles qui sont retenues. Une fois le meilleur score dtermin, il est possible de retrouver la squence dtiquettes correspondant ce score en stockant des pointeurs de chanage arrire (backpointers). On dnit pour cela une matrice auxiliaire de la manire suivante : 0, = 0 i+1, = argmax ai, + f (x, , )

Ces pointeurs permettent de retenir la manire dont un nud donn a t atteint et de reconstruire ainsi le chemin suivi pour obtenir le score maximal. Lalgorithme de Viterbi permet donc de parcourir de manire ecace la totalit de lespace de recherche : la complexit de ce calcul est O N # {}2 , alors que la complexit dune approche nave numrant toutes les solutions est O N #{} .

4.4.3

Limites de lalgorithme de Viterbi

Lutilisation dun algorithme de programmation dynamique en infrence soulve plusieurs dicults : complexit trop leve : bien que les mthodes dinfrence fondes sur la programmation dynamique aient des complexits polynomiales, linfrence est encore trop longue dans de nombreuses applications [Druck et al., 2007] : par exemple dans le cas de linfrence darbres, elle est cubique par rapport au nombre de feuilles ; dans le cas des squences, la complexit quadratique par rapport au
28. Nous supposerons, dans la suite de ce paragraphe, que lon a dnit une bijection entre et 1, # {} et nous utiliserons pour dcrire aussi bien un lment de ou le naturel quivalent, le contexte permettant de choisir la bonne interprtation.

4.4 Mthode dinfrence : lalgorithme de Viterbi

105

0 t=1 t=2

0, 5

0, 5

2 0, 25 0, 125

0 t=3

0 t=4

1 0,

0, 1

.2

1 0, 2 0, 3

.4

.5

solution : 0 0 0

Figure 4.10 Simulation de lalgorithme de Viterbi. Les transitions noires indiquent les transitions testes , les transitions rouges, les transitions de plus grand score qui sont retenues

106

Apprentissage statistique dans les espaces structurs nombre dtiquettes # {} peut galement poser problme dans certaines applications. Cette complexit est principalement due la ncessit de considrer un grand nombre de solutions partielles et dexplorer toutes les suites de dcisions possibles pour garantir loptimalit de la solution trouve.

impossibilit de considrer des dpendances non locales : chaque dcision est prise dans un contexte dcrivant uniquement les dcisions passes (la solution partielle laquelle on a abouti et le chemin qui y a men). Ce contexte ne peut inclure aucune information concernant les solutions que lon peut obtenir partir de cette solution partielle. Cest pourquoi les caractristiques qui doivent considrer les sorties dans leur ensemble pour tre values (comme par exemple les caractristiques dcrivant le nombre doccurrences dune tiquette) ou les caractristiques portant sur des parties qui nont pas encore t construites ne peuvent tre prises en compte. Ces deux limites ont t identies depuis plusieurs annes et de nombreux travaux y ont apport des solutions. Il existe galement une troisime limite voque moins souvent : multiplication du nombres de paramtres estimer : jusqu prsent, linformation apporte par la structure tait introduite dans les modles sous la forme de caractristiques (Paragraphe 4.2.2). Lutilisation de la programmation dynamique en infrence modie la nature de la structure : elle nest plus utilise comme une source dinformation (une caractristique permettant de discriminer la meilleure solution), mais comme un moyen de dcrire la manire de combiner des soussolutions. Ce changement rduit la exibilit que lon a dans la description des dpendances : il nest, par exemple, pas possible dutiliser des dpendances conditionnes par la valeur des tiquettes ou de changer dynamiquement les dpendances en fonction de lobservation. Au contraire, on est oblig dadopter, quel que soit le problme considr, une dcomposition uniforme de la fonction de score. Ainsi, dans une tche dtiquetage de squences, on va toujours modliser une dpendance entre un lment et son successeur, mme si cette dpendance napporte aucune information. Lutilisation de la programmation dynamique va donc ncessiter destimer un grand nombre de paramtres. Ce problme est dautant plus grave quil est particulirement coteux dtiqueter des donnes structures, puisque chaque lment est compos de multiples parties dpendantes les unes des autres qui doivent toutes tre tiquetes [Culotta et McCallum, 2005]. Cette troisime dicult sera dtaille au Chapitre 6. Il est important de noter que ces trois observations sont des limites intrinsques lutilisation de la programmation dynamique et seule lutilisation dun algorithme dinfrence dirent peut y apporter une solution. Ces limites motiveront la mthode dtiquetage de squences que nous proposons au Chapitre 6.

4.5

Acclrer linfrence grce des mthodes approches

La complexit de lalgorithme de Viterbi est trop leve pour de nombreuses applications et limite les tches dans lesquelles lapprentissage structur est utilisable. De nombreuses mthodes ont donc t proposes pour dterminer la solution de lqua-

4.5 Acclrer linfrence grce des mthodes approches

107

tion 4.1 plus ecacement, quitte sacrier la qualit de la solution : comme de nombreux problmes dintelligence articielle, lobjectif nest plus de trouver la meilleure solution, mais de trouver une bonne solution en un temps raisonnable. La grande majorit de ces mthodes sappuie sur lobservation que lalgorithme de Viterbi est une mthode de parcours dun espace de recherche, et propose des mthodes de parcours plus ecaces qui arrivent rapidement une bonne solution. Nous commencerons par dcrire le principe gnral de ces approches (Paragraphe 4.5.1) ; puis nous dtaillerons deux dentre elles, LaSO et SEARN (Paragraphe 4.5.2) qui dnissent une alternative au formalisme de lapprentissage que nous avons prsent au Paragraphe 4.2.

4.5.1

Mthodes dinfrence gloutonne

Comme nous lavons not au Paragraphe 4.4, dans le cadre de la programmation dynamique, linfrence peut tre vue comme la construction dune sortie structure, ce processus pouvant lui-mme tre rduit en une suite de dcisions. La complexit de lalgorithme de Viterbi est principalement due la ncessit dexplorer paralllement toutes les suites de dcisions possibles pour garantir loptimalit de la solution trouve. Une mthode naturelle de rduire cette complexit est de raliser un parcours intelligent de lespace de recherche dans lequel seuls les sous-espaces contenant des solutions intressantes sont explors. Cette stratgie dlagage de lespace de recherche est une technique classique dintelligence articielle [Russell et Norvig, 2002] : de trs nombreux travaux de ce domaine se sont attachs dcouvrir des heuristiques, cest-dire des rgles empiriques, simples et rapides qui permettent de slectionner les soussolutions les plus prometteuses et ainsi de rduire la complexit de problmes diciles (jeu dchec, problme dordonnancement, ...). Certains auteurs argumentent mme que lutilisation dheuristiques est une caractristique essentielle dun comportement intelligent [Gigerenzer et Todd, 1999]. Plus prcisement, lide des mthodes dinfrence gloutonnes consiste dnir, pour chaque nud du treillis de Viterbi, une fonction permettant dordonner les diffrentes dcisions possibles, la dcision de plus haut rang tant celle menant le plus probablement la solution optimale. Il existe alors plusieurs algorithmes de recherche (beam search, best-rst search, A , ...) capables de tirer avantage de cette fonction dordonnancement pour parcourir lespace de recherche plus ecacement. Les solutions trouves ne sont, en gnral, que des solutions approches (il ny a pas de garantie de loptimalit de la solution trouve), mais ces algorithmes permettent de faire un compromis entre la taille de lespace explor (et donc de la complexit de linfrence) et la qualit de la solution trouve (sa proximit avec la solution de plus grand score). Une description gnrique des algorithmes est donne par lAlgorithme 5 : on maintient une pile ordonne (stack) de toutes les dcisions qui peuvent tre prises, la dcision se trouvant au sommet de la pile tant celle qui aboutira, le plus probablement, la solution de plus grand score ; chaque tape, on prend la dcision qui se trouve au sommet de la pile (ligne 3). On dtermine ensuite tous les nouveaux nuds auxquels on peut accder (ligne 7) ; on value la qualit des nouvelles dcisions possibles et on les ajoute la pile de manire ce que celle-ci reste toujours ordonne (ligne 8) ; on itre ce processus jusqu ce que lon obtienne une solution complte. Cette solution est dtermine par la fonction GoatTest (ligne 4).

108

Apprentissage statistique dans les espaces structurs

Les fonctions pop, GoalTest, getChildren et enqueue permettent de spcier dirents algorithmes de recherche. Une description dtaille de ces algorithmes et de leurs proprits est faite dans [Russell et Norvig, 2002]. La Figure 4.11 prsente un exemple dinfrence gloutonne. Algorithme 5 Algorithme gnrique dinfrence gloutonne 1: stack initializes from initial state 2: while stack is not empty do 3: n pop(stack) 4: if GoalTest(n) then 5: return n 6: end if 7: next getChildren(n) 8: stack enqueue(stack, next) 9: end while Dans le meilleur des cas (par exemple pour une recherche de type beam search avec un rayon de 1), la complexit de linfrence est O(N s) o N est le nombre de sous-lments de la multi-tiquette et s le nombre moyen de dcisions pouvant tre prises chaque tape. Linfrence revient alors toujours tendre une mme solution par la dcision de plus grand score. La complexit dune telle approche est faible car on supprime toute forme de retour arrire (backtracking) et de construction de plusieurs solutions en parallle : ces deux lments augmentent la taille de lespace de recherche et donc la complexit mais ils permettent de corriger les erreurs faites au dbut de la construction et de considrer des dpendances non locales. Nous dtaillerons cette limite des algorithmes dinfrence gloutonne dans la Section 4.5.2. La Table 4.6 donne un aperu synthtique des dirents travaux proposant une mthode dinfrence gloutonne. Elle organise ces travaux selon deux critres : le type de parcours de lespace de recherche qui est fait et la manire dont lheuristique qui guide la recherche est construite. En reconnaissance de la parole ; linfrence gloutonne a t utilise ds 1969 [Jelinek, 1969] et na cess dtre amliore depuis [Paul, 1991, Jurafsky et Martin, 2000]. Ce principe a ensuite t repris en analyse syntaxique (par exemple, par [Charniak et al., 1998] et plus rcemment par [Klein et Manning, 2003]). Ces travaux prsentent direntes heuristiques construites manuellement et fondes sur ltude de proprits statistiques dune langue (langlais en loccurrence) et de la technique dinfrence utilise. Ces heuristiques sont donc dpendantes du corpus et de la tche et ne sont donc pas directement utilisables si lon souhaite analyser une autre langue ou prdire un autre type darbres. Une deuxime manire de dterminer lheuristique est dapprendre la meilleure suite de dcisions prendre en observant le droulement de linfrence sur la base dapprentissage. Cest lapproche adopte par [Ratnaparkhi, 1999, Collins et Roark, 2004] dans le cas particulier de lanalyse syntaxique. Cette ide est mise en uvre, dans un cadre plus gnral, par [Druck et al., 2007] et [Felzenszwalb et McAllester, 2007] qui proposent une mthode capable dapprendre des heuristiques quelque soit le problme considr. Elle est galement au cur de LaSO et SEARN qui sont aujourdhui les mthodes les plus performantes, aussi bien du point de vue de la qualit des rsultats que de la gnralit de leur formulation. Nous allons maintenant dtailler ces deux approches.

4.5 Acclrer linfrence grce des mthodes approches

109

t=0

0...

Pile 00.. 02..

t=1

0...

00..

02..

Pile 00.. 020. 021. 022.

t=2

0...

00..

02..

Pile 021. 000. 020. 022. 002.

t=3

0...

00..

02..

Pile 0210 000. 020. 022. 002. 022.

020.

021.

Figure 4.11 Premires tapes dun exemple dinfrence gloutonne : une pile maintient lensemble des dcisions possibles et, chaque tape, la solution aboutissant le plus probablement la solution optimale est effectue

110 Article

Apprentissage statistique dans les espaces structurs

Type de parcours Tche heuristique construite manuellement [Jelinek, 1969] best-rst reconnaissance de la parole A reconnaissance de la parole [Paul, 1991] [Caraballo et Charniak, 1998] best-rst analyse syntaxique best-rst analyse syntaxique [Charniak et al., 1998] [Klein et Manning, 2001] best-rst analyse syntaxique A analyse syntaxique [Klein et Manning, 2002] [Klein et Manning, 2003] A analyse syntaxique A gnrique [Druck et al., 2007] heuristique apprise [Ratnaparkhi, 1999] beam-search analyse syntaxique [Collins et Roark, 2004] beam-search analyse syntaxique A gnrique [Felzenszwalb et McAllester, 2007]

Table 4.6 Synthse des diffrents travaux proposant proposant une mthode alternative pour parcourir lespace de recherche

4.5.2

Les mthodes dapprentissage structur incrmentales

Learning as Search Optimization Principe LaSO (Learning as Search Optimization) [Daum III et Marcu, 2005] est une mthode gnrique dapprentissage structur propose par Hal Daum III qui gnralise les direntes mthodes dinfrence gloutonnes que nous avons prsentes au paragraphe prcdent. Elle est fonde sur lobservation suivante : les travaux dapprentissage structur que nous avons vus jusqu prsent 29 proposent une mthode pour apprendre discriminer la meilleure solution, puis utilisent une autre mthode pour apprendre trouver une approximation de cette solution. On peut alors sinterroger sur lintrt de savoir discriminer la meilleure solution si lon ne sait pas comment la dterminer aprs. Hal Daum III propose donc de fusionner ltape dapprentissage et ltape dinfrence : au lieu de modliser ce quoi ressemble une bonne solution, puis de chercher cette solution (de manire approximative), LaSO modlise directement le processus permettant de construire une bonne solution. Cette approche prsente deux avantages principaux. Premirement, elle ore une mthode gnrique pour prdire dirents types de structures (arbres, squences, ...) dans direntes tches (tiquetage de squences, rsum automatique, ...), mme sil nexiste pas de mthode dinfrence. Deuximement, en formulant le problme dapprentissage structur comme un problme dapprentissage du parcours dun espace de recherche (search optimization), on apprend directement les paramtres qui vont tre utiliss dans la recherche au lieu de combiner, de manire heuristique, des critres issus de deux procdures dapprentissage distinctes (apprentissage de la discrimination de la meilleure solution et apprentissage de lheuristique permettant de la retrouver). En pratique, LaSO permet dacclrer linfrence dans les cas o la programmation dynamique est applicable, mais aussi (et surtout) de considrer des tches pour lesquelles il nexiste pas de mthode dinfrence ecace. Dans le premier cas, les r29. Ces travaux correspondent, plus ou moins, ltat de lart au moment o Hal Daum a publi sa mthode.

4.5 Acclrer linfrence grce des mthodes approches

111

sultats obtenus sont proches des rsultats obtenus par une mthode de rsolution exacte (par exemple par lalgorithme de Viterbi). Algorithme LaSO est une mthode dinfrence gloutonne. Elle utilise donc, pour linfrence, une instanciation de la procdure de recherche gnrique que nous avons dcrite au paragraphe prcdent. Sa particularit rside dans la manire dont elle apprend la fonction heuristique utilise pour guider la recherche. Comme pour les autres mthodes gloutonnes, le parcours de lespace de recherche ncessite la dnition dune fonction permettant dordonner les dirents nuds accessibles. Cette fonction dordonnancement est dnie par une fonction linaire : f (x, n) = w, (x, n) o w est le vecteur de paramtres, un vecteur de caractristiques, x lobservation et n dcrit la solution partielle correspondant un nud donn ainsi que le chemin parcouru pour atteindre ce nud. Le vecteur de paramtres w est appris partir de lobservation du comportement de lalgorithme dinfrence sur la base dapprentissage de manire ce que linfrence permette daboutir rapidement la bonne solution. LaSO propose une procdure dapprentissage inspire de lalgorithme dapprentissage du perceptron : chaque fois quune erreur est commise, le vecteur de paramtres est mis jour pour viter que cette erreur ne se rpte. On considre que linfrence a fait une erreur, ds que lon visite une solution partielle qui ne peut pas mener la bonne solution complte : on qualie dy-good un nud qui permet datteindre la solution optimale y ; ds que la procdure dinfrence arrive un nud qui nest pas y-good, le vecteur de paramtres est donc mis jour de la manire suivante : ww+ avec : = (x, n ) (x, n ) # {sibs(n)} n stack # {stack} n sibs(n)

o sib(n) est lensemble des frres de n (les nuds ayant le mme parent que n) qui sont y-good et stack lensemble des nuds qui sont dans la pile (cf. Algorithme 5). Lalgorithme dapprentissage est dtaill Algorithme 4.5.2. Cette rgle est similaire la mise jour propose par Collins dans [Collins et Roark, 2004]. LaSO suppose que lon sait dterminer si un nud est y-good ou non, ce qui est une hypothse gnralement restrictive. Une mthode destimation du vecteur de paramtres utilisant un critre de maximisation de la marge a galement t propose dans [Daum III et Marcu, 2005]. Limites LaSO apporte une solution gnrique au problme de la complexit inhrente la prdiction de donnes structures. Il a ainsi permis de traiter, avec succs, de nombreuses tches pratiques pour lesquelles il nexistait pas de procdure dinfrence ecace. Cette approche soure toutefois de deux limites. Premirement, comme la plupart des approches dapprentissage structur, LaSO ne permet pas de considrer de fonction de cot arbitraire et optimise, implicitement, un cot 0/1. Ce problme a motiv le dveloppement de SEARN, une gnralisation de LaSO que nous prsenterons la n de cette section.

112

Apprentissage statistique dans les espaces structurs

Algorithme 6 Algorithme dapprentissage de LaSO stack initS tate while stack do n pop(stack) if erreur then sibs getSiblings(n) w update(w, x, sibs, stack {n}) stack sibs else if isGoal(n) then return w stack stack getNext(n) end if rank(stack) end while

Une autre limite, plus fondamentale, est limpossibilit de considrer des caractristiques non-locales : comme la programmation dynamique, LaSO est une approche constructiviste qui parcourt un espace de solutions partielles et ne peut prendre en compte que des dpendances qui dcrivent des solutions partielles. Un nouveau paradigme pour lapprentissage structur Dans les paragraphes prcdents, nous avons prsent LaSO comme un algorithme gnrique permettant de trouver ecacement une bonne solution un problme dapprentissage structur. Plus prcisement, de ce point de vue, LaSO est un algorithme qui permet de rsoudre de manire gnrique, mais approche, largmax de lquation 4.1. Cependant, il est aussi possible de considrer LaSO comme un nouveau paradigme qui dnit la solution dun problme dapprentissage structur non pas comme la solution la plus compatible avec une entre donne, mais comme le rsultat dun processus de construction excutant une suite de dcisions optimales. Ce point de vue permet dutiliser un ensemble dactions plus riches pour construire la sortie. Par exemple, dans la tche dtiquetage de squences, deux utilisations de LaSO sont envisageables : 1. soit on utilise LaSO pour remplacer lalgorithme de Viterbi. LaSO est alors considr comme un algorithme dinfrence glouton gnrique. Les actions mises en jeu sont alors identiques celles utilises dans le parcours du treillis de Viterbi : ce sont des actions du type ltiquette suivante est un qui correspondent aux hypothses de Markov et reproduisent la construction de la solution optimale, telle quelle est faite par lalgorithme de Viterbi. 2. soit on utilise LaSO pour considrer un jeu dactions plus riches permettant de raliser un tiquetage dans un ordre alatoire 30 des squences. La Figure 4.12 dcrit lespace de recherche qui est alors considr. Intuitivement, comme la montr [Daum III et Marcu, 2004], ltiquetage dune squence est plus facile dans ce cas, car il est possible de commencer par choisir les tiquettes des lments les moins ambigus et dutiliser ensuite cette information pour dsambiguser les autres cas. Un tel processus ne peut tre dcrit que trs dicilement dans le cadre que nous avons prsent au Paragraphe 4.2, mais se dcrit
30. alatoire doit tre pris ici dans le sens accs alatoire un chier

4.6 La prise en compte de dpendances non locales

113

naturellement dans le cadre de LaSO par des actions du type tiqueter le ime nud par . La dnition de ce paradigme a ouvert la voie plusieurs travaux [Ratli et al., 2006b, Maes et al., 2007b] et a permis de considrer de nombreux problmes dapprentissage structur sous un angle nouveau. Son tude dpasse toutefois le cadre de notre travail, et nous nutiliserons LaSO que pour remplacer la programmation dynamique dans les cas o celle-ci est trop complexe. .A A. .. B. .B AB BB BA AA

Figure 4.12 Espace de recherche considr lors de ltiquetage dune squence de deux lments dans un ordre alatoire

Searn Searn (search as learn) [Daum III et al., 2006] est une deuxime mthode dapprentissage incrmentale base sur le principe de LaSO. Elle permet notamment dutiliser des fonctions de cot arbitraires et de faire le lien avec lapprentissage par renforcement 31 [Sutton et Barto, 1998]. Elle ore galement un cadre plus formelle aux intuitions qui motivent LaSO. Searn propose de rduire le problme dapprentissage structur un problme de classication multi classes. Cette approche ore donc un moyen gnrique dutiliser nimporte quel classieur simple pour rsoudre un problme de lapprentissage structur et garantie que, si le classieur de base a de bonnes performances, les performances du classieur structur quelle construit seront galement bonnes. Plus prcisment, dans Searn, chaque tape de construction de la solution partielle est vue comme un problme de classication multi classes dont les classes correspondent aux actions de construction disponibles. Linfrence est alors ralise par lalgorithme dinfrence glouton (Algorithme 5), dans lequel laction raliser (tape 3) est choisie par le classieur sous-jacent. Exprimentalement, Searn obtient de bonnes performances dans de nombreuses tches tout en ayant une complexit (en infrence) faible.

4.6

La prise en compte de dpendances non locales

De nombreux travaux ont montr que la prise en compte de dpendances non locales est ncessaire dans de nombreux domaines (Paragraphe 4.1.2). Pourtant, ces dpendances posent des problmes aussi bien en infrence (complexit) quen apprentissage (multiplication du nombre de paramtres estimer) [Bengio et al., 1994,
31. Cet aspect est dtaill dans [Daum III, 2006]

114

Apprentissage statistique dans les espaces structurs

Callut et Dupont, 2005]. Cest pourquoi toutes les mthodes que nous avons vues jusqu prsent doivent les ignorer. Plusieurs travaux ont toutefois propos des solutions ce problme. Deux types dapproches ont t adopts : le premier (Paragraphe 4.6.1) consiste introduire des variables supplmentaires dans la sortie pour dcrire les dpendances non-locales ; le second (Paragraphe 4.6.2) propose des alternatives la programmation dynamique permettant de prendre en compte plus facilement les dpendances non locales.

4.6.1

Utilisation de variables caches

Une premire manire dintroduire des dpendances non locales dans un modle dapprentissage structur repose sur lutilisation de formalismes comme les grammaires hors-contextes. Ces formalismes permettent de modliser les dpendances non locales par une hirarchie de variables caches et permettent ainsi dtudier les observations plusieurs niveaux. Il est dailleurs intressant de noter que les grammaires formelles ont t introduites par Noam Chomsky justement pour supprimer les limites introduites par lutilisation dhypothses de Markov : dans [Chomsky, 1957], Noam Chomsky montre quil est impossible de dcrire les phrases correctes dune langue par un processus markovien, et propose, comme solution, dutiliser la structure syntagmatique qui dcrit, de manire hirarchique, les interactions entre les dirents constituants permettant ainsi dchapper la tyrannie linaire des modles de Markov 32 . Ainsi, dans lexemple de la Figure 4.13, on peut modliser les interactions entre les quatre lments soit en dnissant une fonction de score local qui mesure la compatibilit entre deux tiquettes, soit en introduisant une variable cache reliant les quatre lments. En infrence, cette variable induit des fonctions de score local direntes en fonction de sa valeur. La gnralisation de ce principe, permet de dnir de vritables hirarchie de variables caches (Figure 4.14) dcrivant les dpendances non locales entre les feuilles. Y3 Y4 H

Y1

Y2

Y1

Y2

Y3

Y4

Figure 4.13 Deux manires diffrentes de modliser linteraction entre des lments voisins Plusieurs travaux mettent ce principe en uvre. Par exemple, dans le domaine de la reconnaissance dimage, [Awasthi et al., 2007] et [He et al., 2004] introduisent une hirarchie de variables caches qui leur permet de dcrire les direntes rgions dune image et ainsi dintroduire des caractristiques globales dans les dcisions locales. [Viola et Narasimhan, 2005] suit le mme principe dans une tche dextraction dinformation et [Shilman et al., 2005] dans une tche danalyse de la structure dun document. [Fine et al., 1998] utilise ce principe pour gnraliser les HMM et dnir les Modles de Markov Cachs Hirarchiques (Hierarchical Hidden Markov Models).
32. escape the linear tyranny of [...] HMM tagging models [Manning et Schtze, 1999]

4.6 La prise en compte de dpendances non locales

115

Figure 4.14 Description des dpendances non locales par une hirarche de variables caches Cette approche a de nombreuses limites, les principales tant la multiplication du nombre de paramtres devant tre estims en apprentissage et laugmentation de la complexit de linfrence (il y a plus de valeurs dterminer). De plus, les variables caches doivent gnralement tre choisies manuellement, ce qui ncessite une expertise dans le domaine dapplication et ne permet pas de dvelopper des solutions gnriques.

4.6.2

Mthodes dinfrence alternatives

Trois principaux types de mthodes dinfrence alternatives peuvent tre distingus. Le premier utilise les techniques dinfrence des modles graphiques pour viter les limites de lalgorithme de Viterbi ; le second propose de formuler le problme dinfrence comme un programme linaire en nombres entiers ; et le troisime propose de diviser linfrence en plusieures tapes. Il est important de noter que, dans les trois cas, seule une solution approche est dtermine. Mthode dinfrence des modles graphiques Les modles graphiques [Jordan, 2004] orent un moyen gnrique de dcrire les dpendances probabilistes entre des ensembles de variables et partagent donc de nombreuses similarits avec les problmatiques de lapprentissage structur. Plusieurs mthodes dinfrence dans les modles graphiques existent dans la littrature. Ces mthodes permettent de dterminer la solution exacte du problme dinfrence lorsque la structure du modle graphique est susamment contrainte (lalgorithme de Viterbi est un cas particulier de ces algorithmes lorsque la structure est une chane linaire) ou de manire approche lorsque lon considre des modles graphiques arbitrairement complexes . Une prsentation gnrale des techniques dinfrence dans les modles graphiques est faite dans [Huang et Darwiche, 1996]. Deux de ces algorithmes dinfrence ont t utiliss pour linfrence dans les CRF lorsque lon introduit des dpendances non locales dans ceux-ci : le loopy belief propagation [Murphy et al., 1999] et lchantillonage de Gibbs [Geman et Geman, 1984, Andrieu et al., 2003]. La premire mthode est mise en uvre dans [Lan et al., 2006], ou dans [Sutton et McCallum, 2004], et la seconde dans [Finkel et al., 2005] ou dans [Bunescu et Mooney, 2004]. Ces deux techniques proposent de parcourir un espace de recherche comportant lensemble des solutions possibles : elles vont chercher dterminer la solution de plus grand score, en modiant, itrativement, les tiquettes dune sous-partie de la multi-

116

Apprentissage statistique dans les espaces structurs

tiquette. Nous reviendrons sur les avantages de ce type de mthode de recherche plus longuement au Chapitre 6. Une description complte de ces deux techniques dpasse le cadre de notre travail. Ces approches prsentent plusieurs limites. Premirement, ces mthodes ncessitent gnralement un grand nombre ditrations pour converger. Leur complexit est donc beaucoup plus leve que les approches nutilisant que des dpendances locales, surtout si on met le gain de performances en perspective avec laugmentation du temps dinfrence : ainsi, [Finkel et al., 2005] rapporte que, dans leurs expriences, la prise en compte de dpendances non locales dans les CRF induit une multiplication du temps dinfrence par 30 par rapport un CRF local pour un gain de performances de 0,42 points 33 en moyenne. Deuximement, ces mthodes ne peuvent traiter que des dpendances dnies entre deux variables et il nest donc pas possible dintgrer facilement des dpendances globales. De plus, les dpendances non locales doivent tre spcies la main, ce qui en limite gnralement le nombre : dans la quasi-totalit des travaux que nous avons mentionns dans ce paragraphe, les seules dpendances non locales prises en compte sont celles permettant dassurer la cohrence des tiquettes (label consistency dependencies), cest--dire que deux observations identiques auront la mme tiquette. Intuitivement, lorsque lentre prsente plusieurs sous-parties identiques (ce qui est souvent le cas dans les tches de traitement de la langue), lide est de dterminer ltiquette de cette observation dans le cas le plus simple et de propager cette information aux cas les plus ambigus. La Figure 4.15 illustre ce principe.

Albert

Einstein

proved

on

seeing

Einstein

at

Figure 4.15 Exemple de dpendances du type label consistency : on ajoute une dpendance entre les observations identiques pour imposer que celle-ci ait la mme tiquette Il existe de nombreux travaux similaires ceux que nous avons prsents dans ce paragraphe. Par exemple, [Nakagawa et Matsumoto, 2006] propose dutiliser une distribution de Boltzman pour modliser des liens entre les mots ayant la mme forme lexicale et utilise un algorithme proche de lchantillonnage de Gibbs pour linfrence. Il existe galement dautres techniques dinfrence, comme le relaxation labeling [Pelillo, 1997] ou le stacked learning [Kou et Cohen, 2007] qui adaptent ou gnralisent lchantillonnage de Gibbs. Le relaxation labeling joue un rle particulirement important dans la mthode dtiquetage de squences que nous avons propose et sera donc dtaill au Chapitre 6.
33. Les expriences sont ralises sur une tche dextraction dinformation et sont values par un score F1 .

4.6 La prise en compte de dpendances non locales

117

Le parcours dun espace de solutions en appliquant itrativement une suite de modications locales est une technique classique doptimisation combinatoire. On pourra se rfrer [Hoos et Sttzle, 2005], [Zlochin et al., 2004] ou [Blum et Roli, 2003] pour un aperu des travaux de ce domaine. Il est intressant de noter quil est possible de combiner ces mthodes dinfrence avec des mthodes dinfrence exacte (comme la programmation dynamique) pour augmenter la vitesse dinfrence. Une prsentation des mthodes de combinaison est faite dans [Dumitrescu et Sttzle, 2003]. Infrence par programmation en nombre entiers [Roth et tau Yih, 2005] propose une approche originale base sur lobservation que lalgorithme de Viterbi est, en fait, un algorithme permettant de trouver le plus court chemin dans le treillis de Viterbi 34 . Or il est bien connu [Wolsey, 1998] que la recherche du plus court chemin peut tre rduit en un problme de programmation linaire en nombres entiers 35 . Pour les squences, le programme linaire en nombres entiers correspondant lalgorithme de Viterbi est : max
1iN 1y,y #{}

Mi (y, y ) xi,yy

sous les contraintes i 1, N , y 1, # {} 1y1 #{} xi1,y1 y 1y#{} x1,0y = 1 1y#{} xn,yy0 = 1 i 1, N , y, y x , x , x 1 1,0y i,y1 y N,y0 {0, 1}

1y2 #{}

xi1,yy2 = 0

o Mi (y, y ) est le cot de lhypothse le ime lment a pour tiquette y lorsque lon sait que ltiquette du (i-1)me lment est y et lensemble des xi,yy permet de dcrire le plus court chemin : xi,yy est une variable boolenne qui indique si les tiquettes du (i-1)me et du ime lment de la solution optimale sont, respectivement, y et y . Cette variable permet donc dcire, qu linstant i, le chemin permettant de construire la solution optimale passe par larte reliant y y . Dans le problme doptimisation prcdent, la fonction objectif traduit le fait que lon cherche la solution de plus grand score ; la premire contrainte impose que, lorsque lon entre dans un nud, on en ressorte ; les deux contraintes suivantes assurent que la construction de la solution optimale passe par les nuds start et end ; la dernire contrainte impose que toutes les variables x soient bien des variables boolennes. Lintrt de cette formulation est de pouvoir ajouter facilement des contraintes arbitraires au problme doptimisation an de restreindre les combinaisons dtiquettes autorises. Toutes les contraintes pouvant sexprimer comme une fonction boolenne des tiquettes peuvent tre ajoutes. La Figure 4.16 donne un exemple de contraintes que Dan Roth et Wen-tau Yih ont utilises dans leurs expriences. Il existe de nombreuses mthodes gnriques permettant de rsoudre, de manire approche, les programmes
34. De manire gnrale, tous les problmes rsolus par un algorithme de programmation dynamique peuvent tre formuls comme des problmes de recherche du plus court chemin. 35. La programmation linaire en nombre entier est un type particulier de problme doptimisation dans lequel la fonction objectif et les contraintes sont toutes linaires et les solutions sont des entiers. Pour une introduction ce domaine on pourra se rfrer [Wolsey, 1998]

118

Apprentissage statistique dans les espaces structurs

linaires en nombres entiers qui peuvent tre utilises pour dterminer la solution optimale. ltiquette du ime lment est : xi,y = 1
1y#{}

si ltiquette apparat, alors ltiquette doit aussi apparatre : xi,y


1y#{} 1iN

Figure 4.16 Exemples de contraintes utilises dans [Roth et tau Yih, 2005] Le principal intrt de cette mthode est de pouvoir facilement et lgamment dcrire des caractristiques trs gnrales. Mais, comme dans les travaux prcdents, les dpendances non locales doivent tre spcies la main. De plus, ces dpendances ne peuvent exprimer que des contraintes, cest--dire interdire certaines combinaisons dtiquettes, ce qui revient dire que toutes ces dpendances ont un poids xe gal . Mthode base de r-ordonnancement Les mthodes base de r-ordonnancement constituent une troisime manire dintroduire des caractristiques arbitraires dans un modle dapprentissage structur. Leur principe est de diviser linfrence en deux tapes : une premire tape gnre un ensemble de solutions candidates en ne considrant que des caractristiques locales ; un classieur choisit ensuite la solution nale parmi ces solutions en utilisant des caractristiques arbitraires. Lensemble des solutions candidates correspond gnralement aux solutions ayant le plus grand score calcul partir des caractristiques locales. Il existe des extensions de lalgorithme de Viterbi (voir [Seshadri, 1994] pour lextension dans le cas des squences et [Jimnez et Marzal, 2000] pour lextension dans le cas des arbres) permettant de construire ecacement les N solutions de plus grand score. Dans le cadre de ce travail, nous avons dni un modle de r-ordonnancement pour la restructuration et nous dtaillerons ce principe lors de la prsentation de ce modle (Section 5.3 et Section 5.4). Ces mthodes ont dabord t introduites dans des tches de reconnaissance de la parole et de lcriture [Jurafsky et Martin, 2000] puis dans des tches danalyse syntaxique [Carreras et al., 2005, Collins et Duy, 2001b, Collins et Koo, 2005]. Rcemment, plusieurs travaux ont gnralis ce principe, soit en remplaant la deuxime tape par un processus de reconstruction plus complexe [Krishnan et Manning, 2006, Chang et al., 2006] soit en changeant la manire destimer les paramtres (les paramtres des deux tapes sont appris conjointement) [Kazama et Torisawa, 2007]. Le principal avantage des mthodes base de r-ordonnancement est de pouvoir tester facilement lintrt des dpendances non locales et ces mthodes ont surtout t utilises dans des articles de features engineering discutant de la pertinence des caractristiques pour des tches prcises. Mais elles sourent des mmes problmes de complexit que les mthodes utilisant la programmation dynamique.

4.7 Conclusion

119

4.7

Conclusion

Nous avons, dans ce chapitre, donn un aperu global de lapprentissage statistique et des dirents travaux arents. Nous avons commenc par une prsentation gnrale du domaine qui nous a permis de dnir lapprentissage structur et de proposer un cadre formel permettant de dcrire lensemble des mthodes de prdiction structure existantes. Nous avons alors dcrit les direntes mthodes destimation de paramtres (modle gnratif, CRF, SVMISO, M3 N, perceptron pour les sorties structures) et lalgorithme de Viterbi, qui est un algorithme de programmation dynamique que toutes ces mthodes utilisent aussi bien lors de linfrence que lors de lestimation des paramtres. Nous avons ensuite montr que la plupart des mthodes destimation existantes prsentent un certain nombre de limites : complexit leve, impossibilit de prendre en compte des dpendances non locales, ncessit dun dcoupage uniforme de lentre, ... Ces limites sont directement lies lutilisation dun algorithme de programmation dynamique pour linfrence. Plusieurs mthodes dinfrence alternatives ont t proposes soit pour accler linfrence (LaSO, SEARN, ...), soit pour permettre la prise en compte de dpendances non locales (r-ordonnancement, mthodes dinfrence utilises dans les modles graphiques, ...). Il nexiste, par contre, aucune mthode capable de traiter ces deux problmes simultanment. Au Chapitre 5, nous allons mettre en uvre, dans le cas de la restructuration, la plupart des mthodes que nous avons prsentes : nous proposerons une mthode de restructuration fonde sur un modle gnratif, une autre utilisant un algorithme dinfrence de type LaSO ; nous utiliserons galement un CRF et dcrirons deux mthodes base de r-ordonnancement. Plusieurs expriences remettant en cause lintrt de linfrence jointe ont galement t dcrites. Lanalyse de ces rsultats et les limites que nous avons mentionnes motiveront la mthode dtiquetage de squences que nous proposerons au Chapitre 6 Cest, notre connaissance, la premire fois quun tat de lart des mthodes dapprentissage structur aussi complet est ralis : les seules synthses du domaine existantes sont faites par [Daum III, 2006] et [Memisevic, 2006]. Mais, le premier ne concerne que les mthodes destimation, et le second concerne essentiellement le lien entre apprentissage structur et apprentissage simple. Malgr notre volont dtre le plus complet possible, certains lments du domaine nont pas t abords. La principale lacune concerne les modles graphiques dont les problmatiques partagent de nombreuses similarits avec celles que nous avons abordes. Il aurait aussi fallu mentionner les graphes de facteurs (factor graphs) et le lien entre lalgorithme de Viterbi et le semi-anneau (max, +). Toutefois, ces deux lments ne sont pas directement relis aux aspects et aux problmatiques de lapprentissage structur que nous avons abords au cours de ce travail.

120

Apprentissage statistique dans les espaces structurs

5
Modles dapprentissage pour la restructuration

Sommaire
5.1 Cadre gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Application de lapprentissage structur la restructuration 5.1.3 valuation des mthodes de restructuration . . . . . . . . Modle gnratif pour la restructuration . . . . . . . . . . . . 5.2.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Modle gnratif de documents . . . . . . . . . . . . . . 5.2.3 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . 5.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . R-ordonnancement pour la restructuration . . . . . . . . . . 5.3.1 Premier modle . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Caractristiques utilises . . . . . . . . . . . . . . . . . . 5.3.3 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . 5.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . Prise en compte de la suppression dlments grce au rordonnancement . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.2 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . 5.4.3 Discussion : apport des mthodes de r-ordonnancement . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 122 123 125 128 128 131 136 138 140 141 142 144 145 145 145 149 151 151

5.2

5.3

5.4

5.5

un document dun format prsentation un format sU consiste transformerchapitre dcrit les direntesdetudes que nous avons menes mantique (Chapitre 2). Ce

ne des principales motivations de ce travail est la tche de restructuration qui

pour dvelopper une solution cette tche et a un double objectif : i) vrier une des thses de ce travail, savoir la possibilit de retrouver une structure smantique partir dune structure de prsentation et ii) tudier exprimentalement les principales approches dapprentissage structur que nous avons introduites au Chapitre 4. Nous commenons par dcrire, dans la Section 5.1, un cadre gnral permettant de traiter la restructuration comme un problme dapprentissage structur et justions lintrt de cette approche. Nous prsentons galement, dans cette section, les dirents

122

Modles dapprentissage pour la restructuration

lments permettant dvaluer exprimentalement les performances dun algorithme de restructuration. Nous dcrivons ensuite les dirents modles de restructuration que nous avons proposs et valus. Le premier modle (Section 5.2) est un modle gnratif reposant sur les grammaires probabilistes hors-contexte. Ce modle ne permet de prendre en compte que des dpendances locales, ne peut dcrire quun nombre limit de transformations et, cause de sa complexit, il ne peut pas tre appliqu des corpus de grande taille. Pour rsoudre ce problme de complexit, nous proposons dutiliser une mthode dinfrence fonde sur lapproche LaSO (Section 5.2). Pour pouvoir utiliser des dpendances non locales, nous avons propos deux mthodes de restructuration base de r-ordonnancement (Section 5.3 et Section 5.4). La premire est une gnralisation du modle gnratif prcdent qui permet dinclure des dpendances non locales et notamment des dpendances avec la structure dentre. La seconde permet de raliser des transformations plus riches en supprimant certaines des hypothses des deux modles prcdents. Finalement, la Section 5.5, nous concluons en discutant des avantages et des inconvnients des mthodes dapprentissage structur et en identiant un certain nombre de limites qui motiveront ltude dcrite au chapitre suivant.

5.1
5.1.1

Cadre gnral
Notations

Les documents web, et notamment les documents HTML et XML, peuvent tre reprsents par un arbre tiquet et ordonn [Neven, 2002]. Dans la suite de ce chapitre, nous appellerons document aussi bien le document lui-mme (la squence de symboles stocke sur le disque) que la reprsentation arborescente de celui-ci. Un arbre reprsentant un document est compos dun ensemble de nuds que lon peut rpartir en deux catgories : les nuds de contenu qui correspondent aux feuilles de larbre et les nuds internes qui correspondent tous les autres. Le terme nud dsigne indirement, un nud interne ou un nud de contenu. Nous distinguerons la squence des nuds de contenu qui correspond aux feuilles de larbre et leurs tiquettes, de la squence des feuilles dont les lments nont pas dtiquettes. Chaque nud est associ une tiquette (tag) note ; les nuds de contenu sont, en plus, associs un contenu (une squence de mots) et les nuds internes une squences de nuds ls. Ainsi sur lexemple de la Figure 5.1, le deuxime nud tr (en vert) de larbre correspond un nud interne dont ltiquette est tr et qui a pour ls les trois nuds dcrivant les trois derniers lments td (galement en vert) ; le premier nud de contenu (en bleu) a pour tiquette td et pour contenu Milla Jovovitch. Nous dnissons galement la fonction tag qui renvoie ltiquette dun nud. Nous appelons couverture (span) dun nud la paire constitue de la position, dans la squence des feuilles, de la premire et de la dernire feuille du sous-arbre ayant ce nud comme racine. Ainsi, sur lexemple de la Figure 5.1, le nud table a pour couverture (1, 7), et le nud correspondant au deuxime lment tr, (4, 7).

5.1 Cadre gnral

123

table

tr

tr

td

td

td

td

td

td

1 Milla Jovovich 2 ...

Leelo 4 Bruce Willis

...

Korben 7

Figure 5.1 Reprsentation dun document XML par un arbre

5.1.2

Application de lapprentissage structur la restructuration

Principe Considrons la tche de restructuration introduite au Paragraphe 2.3 : tant donn un schma arbitraire, nous souhaitons transformer un document dentre din en un document de sortie dout conforme ce schma. Cette transformation darbres peut inclure dirents types doprations : rorganisation dlments (une bibliographie peut tre prsente par thmatique ou par anne), regroupement dlments (le nom et le prnom dun auteur peuvent tre stocks dans un lment ou dans deux), ... La formalisation des transformations darbres est une problmatique part entire dont la dicult est bien connue [Bex et al., 2002]. Cest pourquoi nous prferons traiter la tche de restructuration comme un problme dextraction dinformation plutt que de chercher modliser directement la transformation : nous allons considrer, dans la suite de ce travail, que la tche de restructuration revient identier, dans un document, les lments pertinents et dterminer, rcursivement, les relations entre ces lments. Sur lexemple de la Figure 5.2, lobjectif est ainsi didentier les noms dacteurs et les noms de personnages, puis de dterminer le rle de chaque acteur. Les lments et les relations extraire sont, tous deux, dnis par un schma cible. Automatiser la tche de restructuration revient apprendre une fonction f , telle que f (din ) = dout . La mise en correspondance de documents est un problme gnralement sous-dtermin, puisque plusieurs documents exprims dans le schma cible peuvent tre compatibles avec le document dentre. Ainsi, dans lexemple prcdent, nimporte quel acteur peut, priori, jouer nimporte quel rle. Pour dterminer lunique restructuration correspondant din , nous dnissons une fonction paramtre par le vecteur w, F(d, din ; w) qui value la qualit dune solution candidate d. Cette fonction nous permet dordonner les lments de D(din ), lensemble des restructurations potentielles constitu par tous les documents d respectant le schma cible et contenant les informations de din . La tche de restructuration correspond alors la recherche de la restructuration potentielle de plus grand score : dout = argmax F(d, din ; w)
dD(din )

(5.1)

Analyse Dans lquation prcdente, largmax traduit le parcours de lespace de toutes les restructurations potentielles D(din ) pour rechercher la meilleure solution. Cet

124

Modles dapprentissage pour la restructuration

table tr td Korben Dallas nom td Bruce Willis acteur personnage casting td Leelo nom tr td Milla Jovovitch acteur personnage XML

HTML

Figure 5.2 Transformation dun fragment de page HTML en XML : lobjectif est didentier les noms dacteur et les noms de personnage, puis de dterminer le rle jou par chaque acteur ensemble doit inclure lensemble des segmentations et des rorganisations des nuds de contenu (notamment les permutations, fusions et sparations de nuds) et tous les arbres compatibles avec cette nouvelle organisation. La taille de lespace de recherche est donc exponentielle par rapport au nombre de nuds de contenu : en se limitant aux permutations de n nuds, lespace de recherche contient dj n! lments. Pour trouver la meilleure solution en un temps raisonnable, plusieurs sources dinformation doivent tre considres pour laguer lespace de recherche. Il faut notamment prendre en compte le contenu du document source, sa structure, la dnition du schma cible, ... Ainsi, sur lexemple de la Figure 5.2, on peut dire que la restructuration est guide par la structure du document dentre (les deux premires feuilles dcrivent le mme personnage puisquils ont le mme parent) et contrainte par la structure cible (chaque personnage est compos dun acteur et dun nom) : linformation apporte par les structures dentre et de sortie sont essentielles pour la tche de restructuration. Cest pourquoi, il est important que F dpende dune reprsentation jointe, (din , d) du document dentre et de sa restructuration potentielle, an que nous puissions facilement prendre en compte toutes les caractristiques et toutes les dpendances (c.--d. les relations entre tiquettes) qui nous permettent de discriminer la meilleure restructuration potentielle : comme nous lavons indiqu au Paragraphe 2.3.2, la transformation dune structure smantique partir dun format orient prsentation nest possible que si nous sommes capables dintgrer nos modles des informations riches dcrivant la mise en page du document. Nous proposons donc de traiter le problme de restructuration dans le cadre de lapprentissage structur que nous avons introduit au Chaptire 4. Lien avec lextraction dinformation et de relation Lextraction dinformation [McCallum, 2005, Peng et McCallum, 2004, Pinto et al., 2003] ainsi que lextraction

5.1 Cadre gnral

125

de relation [Agichtein et Gravano, 2000, Miller et al., 2000, Zelenko et al., 2003] sont deux tches classiques en traitement automatique de la langue qui ont dj suscit de nombreux travaux. La tche de restructuration se distingue toutefois de ces tches sur deux points : les documents considrs en entre sont structurs et cette structure apporte une information pertinente qui facilite la tche dextraction (Paragraphe 2.3.2). En particulier, le contenu des documents est dj segment et la structure du document dentre fournit, implicitement, une indication sur les relations extraire. la majorit de ces mthodes ne sont capables dextraire quun type dlment ou un type de relation. Les extractions au sein dun mme document de plusieurs lments sont donc ralises de manire indpendantes. Nous proposons dutiliser le cadre de lapprentissage structur an de raliser ces extractions conjointement et ainsi dexploiter les dpendances entre lments et relations extraits. Plusieurs travaux, comme [McCallum et Jensen, 2003], prconisent une telle approche pour faciliter lextraction.

5.1.3

valuation des mthodes de restructuration

Nous allons prsenter, dans cette section, les dirents lments permettant dvaluer exprimentalement la qualit dune mthode de restructuration : les corpus que nous avons utiliss et les mthodes dvalution. Corpus Pour tester les direntes mthodes de transformation de documents, nous avons besoin de corpus prsentant les mmes documents la fois en XML et en HTML. lheure actuelle, trs peu de corpus rpondant ce critre sont disponibles et nous avons d construire plusieurs corpus pour tester nos mthodes 1 . Les caractristiques des dirents corpus utiliss sont synthtises dans le Tableau 5.1. Il faut toutefois noter que ces corpus ont volu au cours de nos travaux en fonction de notre perception de la tche et des possibilits de nos modles. Certaines expriences nont t ralises que sur certaines sous-parties de ces corpus. corpus News Movie INEX Courses source LinuxFr AlloCin IMDb INEX Reed Rice Uwm Washington Wsu # {documents} 2 000 10 000 10 000 12 000 703 1 409 4 252 2 140 3 924 39 # {nuds} 120 70 70 100 11 8 21 17 12 5 000 # {tiquette} 24 16 16 139 23 23 23 23 23 20

Shakespeare

Table 5.1 Caractristiques des diffrents corpus utiliss. La premire partie du tableau correspond aux corpus dvelopps dans le cadre de ce travail, la deuxime aux corpus mis disposition par dautres chercheurs
1. Ces travaux ont t mens dans le cadre de lACI Accs au Contenu Informationnel des Masse de Donnes et de Documents et du projet ANR ATASH.

126

Modles dapprentissage pour la restructuration Corpus News 2 : ce corpus est un ensemble de nouvelles publies sur un site dactualit informatique (LinuxFr 3 ). Les pages du site ont t tlcharges et converties, la main, en XML dans un schma prdni. Chaque page correspond une nouvelle et comporte un en tte regroupant les mtadonnes (auteur, titre, date, ...), le corps de la nouvelle et plusieurs threads de commentaires des visiteurs du site. Le corps de la nouvelle comme les commentaires peuvent utiliser la plupart des tags HTML. La partie dcrivant les commentaires des utilisateurs est trs fortement structure et prsente un d la transformation du document : la structure logique des commentaires (c.--d. la structure dcrivant de quel commentaire un commentaire donn est la rponse) doit tre reconstruite partir de la structure du document dentre. Le corpus comporte 2 000 nouvelles, chaque nouvelle ayant, en moyenne, 70 nuds de contenu et 50 nuds internes. Le plus grand document a 165 nuds de contenu et 114 nuds internes. Le schma cible dnit 13 tiquettes possibles pour les nuds de contenu et 11 pour les nuds internes. Corpus Movies 2 : cest un corpus construit partir de la base de donnes Internet Movie Database 4 (IMDb) qui regroupe des descriptions dtailles de lms ainsi que des ractions et des commentaires de spectateurs. Nous avons gnr plusieurs corpus de documents partir de la base relationnelle : une version XML 5 prsentant les donnes dans un schma prdni et deux versions HTML, la premire suivant la mise en page dAlloCin et la deuxime celle dIMDb. Il peut paratre articiel de considrer des donnes gnres laide dun modle de documents plutt que les donnes disponibles sur le web. Cette solution a pourtant de nombreux avantages pratiques (possibilit de gnrer rapidement autant de documents que ncessaire, pas besoin de prtraitement, pas de problme dencodage, ...) mais elle permet surtout de sassurer que certaines hypothses sont vries : contenu des documents identiques dans les direntes versions des donnes, ordre des feuilles conserves, ... Chacune des versions du corpus comporte 10 000 documents. Le schma de mdiation dnit 16 balises direntes comme actor, director, title, trivia, ... Corpus INEX : ce corpus a t rassembl dans le cadre dINEX, la campagne dvaluation des moteurs de recherche XML [Fuhr et al., 2002]. Il regroupe prs de 12 000 articles scientiques au format XML, ce qui reprsente plus de 7 000 000 nuds. Il existe galement un script XSLT permettant de convertir ces documents en HTML. Le schma de sortie dnit 139 balises XML qui dcrivent la mise en forme du document, un certains nombre de mtadonnes (noms des auteurs, aliation, journal, ...) et les liens bibliographiques. La structure XML ne contient donc que trs peu de smantique et est trs proche de la structure du HTML. Cest pourquoi nous navons utilis ce corpus que dans nos premires expriences. Corpus Courses : cest lun des corpus utiliss par AnHain Doan dans ses expriences de schema matching (Paragraphe 2.4.2). Il contient les descriptions des cours de cinq universits. Les documents sont exprims en XML dans un

2. 3. 4. 5.

corpus que nous avons construits linuxfr.org imdb.com La version XML a t ralise par Marc Tommasi.

5.1 Cadre gnral

127

schma source propre luniversit et dans un schma de mdiation. Ce corpus ne comporte donc pas de documents HTML, mais nous navons pas utilis de caractrisitques spciques aux documents XML. Il y a plus de 12 000 descriptions contenant entre 4 et 552 lments extraire. Le schma de mdiation dnit 23 balises direntes tel que lecturer, title, start_time ou end_time. Cest un corpus caractristique des corpus utiliss en base de donnes dont la structure est trs proche de la structure dune table SQL et dcrit essentiellement des paires (entit, valeur). Lensemble du corpus est disponible partir du Illinois Semantic Integration Archive 6 , qui regroupe galement des corpus permettant de raliser des tches proches (alignement dontologie, ...). Corpus Shakespeare : ce corpus regroupe 37 pices de Shakespeare. Il a t cr par Jon Bosak, lun des principaux acteurs de la mise au point de la spcication XML, pour illustrer les possibilits oertes par ce nouveau format. Ce corpus na quun trs petit nombre de documents (37), mais ceux-ci sont particulirement grands : plus de 4 100 feuilles et 850 nuds internes en moyenne. Il nutilise quun nombre rduit de balises XML (21 balises au total) qui dcrivent essentiellement le dcoupage logique de la pice (actes, scnes, ...) et les indications scniques (personnage, didascalie, ...) Le corpus est disponible ladresse http://metalab.unc.edu/bosak/ xml/eg/shaks200.zip. Larchive comporte les documents XML et les scripts permettant de les convertir en HTML. valuation La restructuration est une tche nouvelle et il nexiste pas encore de mesures dvaluation standard. Nous avons donc d dnir nos propres mesures dvaluation. Lobjectif de la restructuration, tel que nous lavons dfni au paragraphe prcdent, est dextraire des lments et des relations entre ces lments. Lvaluation devra donc porter sur la qualit de ces extractions. Celles-ci tant de nature dirente, elles seront naturellement values sparment : valuation de lextraction des lments : lobjectif est le mme quen extraction dinformation : identier les lments pertinents, tout en vitant une surgnration, (retourner des lments qui ne devraient pas ltre). Cette valuation est donc mene laide des mesures dvaluation dextraction dinformation, le rappel et la prcision [McCallum, 2005] : # # # prcision = # rappel = rponses correctes rponses possibles rponses correctes rponses renvoyes

Toutefois, dans le cas de la restructuration, nous nextrayons pas un unique type dinformation, mais tiquetons lensemble des lments du document dentre. Le nombre de rponses et le nombre de rponses renvoyes seront donc toujours gaux au nombre dlments. Nous avons donc : rappel = prcision =
6. http://anhai.cs.uiuc.edu/archive

# lments correctement tiquets # {lments}

128

Modles dapprentissage pour la restructuration

valuation de lextraction des relations : cette valuation peut tre eectue en comparant larbre obtenu avec larbre attendu. En fonction de lapplication envisage, il existe de nombreuses manires de dnir une distance entre deux arbres. Il est donc important que, une fois le document transform, nous puissions slectionner certains lments de celui-ci. Par exemple, si lapplication envisage est une moteur de recherche darticles scientiques, il est important que la transformation permette de retrouver le contenu des abstracts, mme si lensemble des lments composants ceux-ci ne sont pas parfaitement reconstruits. La mesure dvaluation que nous proposons correspond simplement au nombre de nuds leur place, cest--dire qui ont la bonne tiquette et la bonne position. Pour cela, nous proposons dvaluer la qualit de lextraction en mesurant le pourcentage de constituants correctement reconstruits, un constituant correspondant une paire (tiquette, couverture). Un des avantages de cette mesure est de ne pas propager les erreurs : on nest pas pnalis si lon a retrouv le bon nud mais que lon fait une erreur sur lun de ses enfants. La Figure 5.3 illustre ces deux mesures dvaluation : elle indique, en rouge, les nuds du document prdit sur lesquels on a fait une erreur, cest--dire les relations et les lments qui nont pas t correctement extraits. Sur cet exemple, 50% des nuds internes et 80% des nuds de contenu ont t correctement retrouvs (respectivement, 2 sur 4 et 4 sur 5). A dout B E F A d E B F C G H D I C G H D I

Figure 5.3 valuation de la restructuration : comparaison entre la sortie attendue dout et la sortie prdite d ; les tiquettes en rouge sont celles qui sont considres comme des erreurs

5.2
5.2.1

Modle gnratif pour la restructuration


Modle

Comme nous lavons vu au Paragraphe 4.3.1, dans un modle gnratif, la fonction de cot F(d, din ; w) est choisie comme tant la probabilit conditionnelle de la sortie

5.2 Modle gnratif pour la restructuration connaissant lentre. Lquation 5.1 scrit alors : dout = argmax p(d|din ; w)
dD(din )

129

(5.2)

La paramtrisation de cette probabilit sappuie sur un processus de gnration qui dcrit la manire dont la sortie est construite partir de lentre. Nous allons maintenant dtailler ce processus dans le cas de restructuration. Processus de gnration des documents web Le patron de conception (design pattern) Modle-Vue-Contrleur (MVC) [Reenskaug, 1979] prconise, lors du dveloppement dune application, de sparer le modle de donnes, linterface utilisateur et la logique de contrle. Il est, par exemple, mis en uvre dans les systmes de gestion de contenu utiliss pour crer de nombreux sites web. Ces systmes permettent dautomatiser la chane de publication (workow) des documents et de sparer facilement les oprations de gestion de la forme et du contenu. Par analogie avec le patron MVC, nous supposons que tous les documents dun mme domaine (par exemple, lensemble des articles scientiques ou des recettes de cuisine) sont gnrs partir dune unique source de donnes. Cette source dnit pour chaque document une reprsentation abstraite, note h, qui permet de gnrer toutes les formes possibles dun document, chaque forme tant spcie par un modle de document (template). Il y a autant de modles de documents que de sources de documents. Par exemple, dans le cas des sites de cinma, h reprsente une base de donnes relationnelle partir de laquelle on gnre les pages des dirents sites (AlloCin, IMDb, ...) et des documents dans dirents formats de prsentation (MS-Word c , PDF, ...). Il est possible, en particulier, de gnrer, partir dune reprsentation abstraite, un mme document dans le schma cible et dans le schma de la source dentre. Formellement, ce processus est modlis par le rseau baysien de la Figure 5.4 : en connaissant un modle de document pin et une reprsentation abstraite h, il est possible de gnrer une reprsentation din de cette information. Plus prcisement, dans ce rseau baysien, pin et pout sont des modles de document qui dcrivent les contraintes et les rgularits caractrisant, respectivement, la source de documents dentre et la source de documents cible ; d et din sont des variables alatoires qui reprsentent les documents suivant, respectivement, le schma cible et le schma spci par le modle de document pin et h est une variable alatoire cache dont la nature exacte dpend de lapplication et du type de document considr. Nous verrons, au paragraphe suivant, comment les valeurs de ces variables sont spcies. Application la restructuration rseau baysien de la Figure 5.4 : p(d|din , pin , pout ; w) = Nous pouvons estimer p(d|din , pin ; w) partir du

p(d, din , pin , pout ; w) p(din , pin , pout ; w) p(h; w) p(pin ; w) p(din |h, pin ; w) p(d|h, pout ; w) = h p(din , pin ; w) p(pout ; w)

la somme se faisant sur toutes les reprsentations abstraites possibles. En appliquant la rgle de Bayes, lquation 5.2 se rcrit : dout = argmax
dD(din ) h

p(d|h, pout ; w) p(h|pin , din ; w)


gnration extraction

(5.3)

130

Modles dapprentissage pour la restructuration

Pout

Pin

Din

Figure 5.4 Le rseau baysien modlisant le processus de gnration dun document dans le cas de la restructuration : les documents d et din sont gnrs partir de la reprsentation abstraite h en appliquant respectivement les modles de document pout et pin Le problme de restructuration peut donc se dcomposer, une fois la reprsentation abstraite h choisie, en une tape dextraction permettant de construire la reprsentation abstraite partir dune observation et en une tape de gnration rexprimant les informations extraites dans le schma cible ; ces deux tapes sont intimement lies. Ce processus de restructuration repose ainsi sur la modlisation dune tape dextraction et dune tape de gnration. Dans ce travail, nous nous somme concentr sur cette dernire et nous avons considr un modle dextraction simple qui se contente de conserver la squence des feuilles du document dentre. La reprsentation cache h correspond alors une suite de feuilles. De manire plus formelle, nous supposons que la representation cache h dnit une suite de feuilles ch et que : 0 si ch cin in in p(h|d , p ; w) = 1 sinon o cin est la squence de feuilles du document dentre. Cette modlisation du processus de restructuration introduit deux hypothses fortes : i) les feuilles sont les mmes dans tous les documents gnrs partir dune reprsentation cache ; ii) lordre des feuilles nest pas modi. Il faut toutefois noter que ces hypothses sont gnralement vries dans les corpus de documents textuels dans lesquels le contenu est naturellement ordonn et que la plupart des approches de restructuration actuelles, telles [Chidlovskii et Fuselier, 2005], font des hypothses semblables. Cette modlisation exclut galement la prise en compte de la structure dentre du processus de transformation. Avec ces hypothses, lquation 5.2 se rcrit : dout = argmax
dD(din ) h

p(h|din , pin ; w)

= argmax p(d|cin , pout , w)


dD(din )

Dans ce cadre, la tche de reconstruction se dnit donc comme la construction, partir dune squence de feuilles, dun arbre dont les nuds de contenu et les nuds internes dcrivent, respectivement, les tiquettes des lments correspondant aux feuilles et les relations entre ceux-ci. Le choix de la bonne structure arborescente ncessite de pendre en compte les caractristiques du schma cible (dnition du schma et des rgularits de celui-ci) et

5.2 Modle gnratif pour la restructuration

131

de la squence de feuilles (contenu des feuilles). Nous allons donc introduire, dans la section suivante, un modle gnratif de documents capable de dcrire les rgularits des documents produits par une source donne. Ce modle gnratif sera caractris par pout . Bien que ce modle puisse tre appliqu plusieurs tches daccs linformation (cf. [Wisniewski et al., 2005a] pour lapplication la classication non supervise et [Denoyer et Gallinari, 2004] pour lapplication la classication supervise), nous ne dtaillerons que son emploi dans la tche de restructuration.

5.2.2

Modle gnratif de documents

Nous modlisons le processus de gnration par des grammaires hors-contexte qui sont le formalisme le plus adapt pour raliser cette construction en incorporant toutes les informations ncessaires. Dans cette section, nous prsentons les grammaires hors-contexte, puis montrons comment elles permettent de caractriser une source de documents et, nalement, nous expliquons comment on peut les utiliser dans la tche de restructuration. Les grammaires hors-contexte Les grammaires hors-contexte (Context-Free Grammar) sont un formalisme gnral dcrivant des combinaisons de symboles appels terminaux respectant un certain nombre de contraintes. Une grammaire permet, par exemple, de dcrire les combinaisons de mots constituant les phrases lgales dune langue. Formellement, une CFG est dnie par un quadruplet G = , T, R, S dans lequel : est un ensemble de non-terminaux ; T est un ensemble de terminaux ; S , un lment de , est le symbole initial ; R est un ensemble de productions. Chaque production est une relation de (T ) qui dcrit comment les lments de peuvent tre rcrits en une squence dlements de T . Les non-terminaux sont crits en capitales et les terminaux en minuscules. Les variables prenant leur valeur dans ( T ) seront notes avec les lettres de lalphabet grec. Pour des raisons de lisibilit, les productions sont gnralement dcrites laide dexpressions rgulires. On crira, par exemple, A b c+ pour indiquer quun nonterminal A se rcrit en un terminal b suivit dau moins un terminal c. Il est toutefois ais de transformer cette forme tendue des productions pour rcrire celles-ci de manire conforme la dnition. Une CFG gnre une phrase partir du symbole initial en applicant successivement, autant de fois que ncessaire et sans contrainte dordre, une des productions de R, rcrivant ainsi un non-terminal en une suite de terminaux et de non-terminaux. Cette suite de rcritures se reprsente commodment par un arbre de drivation. Ainsi, dans le deuxime exemple de la Figure 5.6, le non terminal B est rcrit en A A, puis chacun de ces non terminaux A est rcrit en a a. Une grammaire peut donc tre vue comme un processus gnrant un arbre en tendant rcursivement chaque nud en une suite de nuds ls. Des algorithmes dinfrence (algorithme dEarley [Aycock et Horspool, 2002], algorithme de Cocke-Younger-Kasami [Younger, 1967], ...) permettent de dterminer efcacement si une phrase peut tre gnre par une grammaire et, si oui, de construire les arbres de drivation correspondants. En eet, lanalyse est gnralement ambigu et plusieurs arbres de drivation peuvent correspondre une mme phrase. La Figure 5.5

132

Modles dapprentissage pour la restructuration

donne un exemple dune grammaire hors-contexte et la Figure 5.6 montre les deux arbres de drivation possibles pour la phrase a a a a. BAA|AAA Aaa|a Figure 5.5 Productions dune grammaire hors-contexte simple

B A a a A a (a) A a a A

B A a a (b) a

Figure 5.6 Les deux arbres de drivation possible pour la phrase a a a a Les grammaires hors-contexte probabilistes (Probabilistic Context-Free Grammar) [Booth, 1969] sont une gnralisation des grammaires hors-contexte qui a t propose pour pouvoir associer un unique arbre de drivation une phrase en cas dambigut. Les PCFG proposent dassocier chaque production A de G, un rl de lintervalle semi ouvert ]0, 1] dcrivant la probabilit quun non-terminal donn A soit rcrit en . Ces probabilits permettent de dcrire les rgularits des arbres produits : une PCFG (comme une CFG) peut dcrire quun non-terminal A peut se rcrire en A a ou en A a a, mais aussi que cette dernire drivation est plus probable que la premire. Une PCFG permet de dnir la probabilit de gnrer un arbre t par : p(t) =
r

p(r)

o le produit est fait sur toutes les productions utilises pour construire larbre t. Il est alors possible de dsambiguser lanalyse dune phrase donne en choisissant larbre le plus probable : t = argmax p(t)
t(s)

o (s) est lensemble des arbres de drivation que lon peut associer la phrase s. Ainsi, si lon considre la PCFG dcrite Figure 5.7, la probabilit des deux arbres de la Figure 5.6 est : p(a) = s2 s3 s4 s4 = 0, 5 0, 3 0, 7 0, 7 = 0, 073 p(b) = s1 s3 s3 = 0, 5 0, 3 0, 3 = 0, 045 Larbre associ la phrase a a a a sera donc larbre (a).

5.2 Modle gnratif pour la restructuration BAA BAAA Aaa Aa s1 s2 s3 s4 = 0, 5 = 0, 5 = 0, 3 = 0, 7

133

Figure 5.7 Productions dune grammaire hors-contexte probabiliste simple Application la modlisation des documents Les grammaires formelles ont t conues pour modliser les structures syntaxiques apparaissant en traitement de la langue naturelle [Chomsky, 1957]. Elles constituent toutefois une manire naturelle de dcrire des structures arborescentes et les rgularits de celles-ci et ont donc t appliques de nombreuses tches comme lextraction dinformation [Viola et Narasimhan, 2005], la bioinformatique [Durbin et Krogh, 1998] ou encore lanalyse musicale [Bod, 2001]. Plusieurs travaux proposent galement dutiliser des grammaires formelles pour modliser la structure de documents [Shilman et al., 2005, Young-Lai et Tompa, 2000] et, plus particulirement, dans la tche de restructuration [Chidlovskii et Fuselier, 2005]. Dans notre cas, les grammaires hors-contexte vont nous permettre de dcrire les structures arborescentes quune source de documents peut gnrer (c.--d. son schma) et les rgularits de celles-ci. Pour modliser les documents par une grammaire horscontexte, nous devons gnraliser la dnition de celle-ci an de prendre en compte le fait que les terminaux ne sont pas de simples tiquettes mais des feuilles composes dune squence de mots. Nous proposons la dnition suivante : une PCFG dcrivant une source de documents est dnie par un quintuplet G = , T, R, S , pc o : est un ensemble de non-terminaux dcrivant les tiquettes des nuds internes ; T est un ensemble de terminaux dnissant les tiquettes des nuds de contenu ; le symbole initial S dcrit la racine de larbre ; pc est un modle de contenu qui dnit une distribution de probabilit sur T pour chaque nud de contenu. R est un ensemble de productions dont chaque lment est associ une probabilit. Chaque production dcrit les rgles de composition du schma et les scores, les rgularits de la source de documents. Il est ainsi possible de modliser le fait quune section regroupe un ensemble de paragraphes, et que, gnralement, il y a trois paragraphes dans une section. La Figure 5.8 prsente un exemple du schma utilis par une source de documents et la PCFG caractrisant les documents produits par celle-ci. La probabilit de gnrer un document d dont la squence des nuds de contenu est note c = (c1 , ..., cn ) et les tiquettes des feuilles = (1 , ...n ) est alors dnie par : p(d|c) = p(|c) p(t|, c)
n

=
i=1

pc (|ci )
rd pcontenu

p(r)
pstructure

o t est la structure arborescente du document et pc , le modle de contenu. Ce modle de document a dj t utilis par Boris Chidlovskii ([Chidlovskii et Fuselier, 2005]) pour la restructuration et Ludovic Denoyer ([Denoyer et Gallinari, 2004]) pour les tches de classication et de classcation non supervise. Cette quation dcrit le processus de cration dun document suivant : le document est cr en assemblant un

134

Modles dapprentissage pour la restructuration

ensemble de nuds de contenu (compos dun contenu et dune tiquette), puis rcursivement, on va rassembler les nuds voisins pour crer la structure arborescente. La probabilit de gnrer un document comporte une composante dcrivant la structure du document (pstructure ) et une composante dcrivant son contenu (pcontenu ). Par exemple, la probabilit du document de la Figure 5.9 est : p(d; w) = s1 s2 p(title|c1 ) p(author|c2 ) p(text|c3 ) = 1 0, 8 0, 3 0, 1 0, 6 = 0, 014 <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT NEWS (HEADER text) > HEADER (title author) > HEADER (author title) > text (#PCDATA) > title (#PCDATA) > author (#PCDATA) > (5.4)

= {NEWS, HEADER} R: NEWS HEADER text HEADER title author HEADER author title

T= {text, title, author} (s1 = 1) (s2 = 0, 8) (s3 = 0, 2) Pc text author title

S = NEWS c1 0,2 0,5 0,3 c2 0,8 0,1 0,1 c3 0,6 0,3 0,1

Figure 5.8 Deux caractrisations des documents produits par une source de documents : un schma (DTD) et une PCFG (dont le modle de contenu est illustr sur lexemple dune squence de trois feuilles (c1 , c2 , c3 ))

NEWS HEADER title c1 text

author c3 c2

Figure 5.9 Document XML dont le score est donn par lquation 5.4 ; le contenu des feuilles nest pas explicit

Construction dune PCFG caractrisant une source de documents La construction dune PCFG caractrisant une source de document ncessite de spcier la distribution du modle de contenu pc ainsi que les direntes productions et les poids de celles-ci. Ces trois lments sont estims partir dun ensemble de documents produits par cette source.

5.2 Modle gnratif pour la restructuration

135

Les probabilits de contenu sont estimes ici par un classieur maximisant lentropie (Paragraphe 3.2.2). Il est toutefois possible dutiliser nimporte quel autre classieur permettant destimer, pour une observation donne, une distribution de probabilit sur lensemble des tiquettes. On a donc : p(|c; w) = 1 exp w, (c, ) Zw (c)

o Zw (c) est un ccient de normalisation, est le vecteur de caractristiques reprsentant simultanment le nud de contenu c et ltiquette , w est le vecteur de paramtres. Deux mthodes sont envisageables pour construire lensemble des productions de la PCFG : la premire exploite les informations contenues dans le schma utilis par la source de documents pour dterminer les productions et estime les scores de celles-ci partir des donnes dapprentissage ; la seconde apprend 7 la fois les productions et les scores partir des donnes. La premire mthode repose sur lobservation quil est possible de dterminer directement lensemble des productions caractrisant une source de documents partir du schma : lensemble des terminaux correspond lensemble des lments simples du schma (c.--d. ceux qui ne contiennent pas dautres lments) ; lensemble des non-terminaux correspond lensemble des lments complexes du schma ; les productions correspondent aux contraintes imposes par le schma. La Figure 5.10 8 donne un exemple de la traduction dun schma en grammaire. Une <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT thread (comment)* > comment ((body, answers)|body) > answers (comment)+ > body (#PCDATA)> > (a) schema

THREAD COMMENTS* COMMENT body ANSWERS COMMENT body ANSWERS COMMENTS* (b) Grammaire correspondante Figure 5.10 Traduction dun schma en grammaire prsentation plus dtaille de cette mthode est faite dans [Chidlovskii et Fuselier, 2005]. La deuxime mthode construit lensemble des productions en regroupant toutes les productions utilises pour construire les documents du corpus dapprentissage.
7. Le terme apprend est ici inapprori : un rsultat fondamental en infrence grammatical montre quil est ncessaire de pouvoir accder des exemples ngatifs pour infrer une grammaire ; les mthodes prsentes napprennent que certaines des rgularits de la grammaire associe la source de documents. 8. Pour la claret de la prsentation, nous avons reprsent le schma par une DTD, mais, dans nos expriences, nous avons utilis une reprsentation de celui-ci par un XML Schema.

136

Modles dapprentissage pour la restructuration

Les scores des productions sont estims, dans les deux cas, par la mthode du maximum de vraisemblance. Le score dune production A est donn par : scoreA = # {A } AR # {A }

o # {A } correspond au nombre dapparition de cette drivation dans le corpus dapprentissage. Ce score correspond la frquence laquelle A est rcrit en . Construction de la sortie Au nal, notre mthode de restructuration associe un document dentre din le document de sortie qui est solution de 9 :
n

dout = argmax
dD(din ) rd

p(r)
i=1

pc (|ci )

o (ci )n est la squence des nuds de contenu de d qui correspond exactement la i=1 squence des nuds de contenu de din . Un algorithme danalyse syntaxique, comme lalgorithme CYK, permet de rsoudre cette quation et de reconstruire la meilleure restructuration associe une squence de nuds de contenu. Lalgorithme CYK est un algorithme de programmation dynamique. Comme lalgorithme de Viterbi pour les squences, il construit de manire incrmentale tous les arbres possibles en laguant lespace de recherche au fur mesure de la construction. Plus prcisement, lalgorithme CYK considre dabord tous les arbres composs dune feuille, puis tous les arbres composs de deux feuilles et ainsi de suite. Le code python de cet algorithme est dtaill Figure 5.11. Comme lalgorithme de Viterbi, lalgorithme CYK ncessite une numeration exhaustive de toutes les solutions partielles, ce qui entrane une complexit en O n3 # {R} o n est le nombre de nuds de contenu et # {R} est le nombre de productions de la grammaire. Cette complexit est acceptable dans le cas o les squences de feuilles sont courtes, mais devient problmatique dans le cas de la restructuration o les arbres peuvent avoir une centaine de feuilles. Pour rsoudre ce problme de complexit, nous avons utilis, dans nos expriences, une mthode dinfrence approche qui est une mise en uvre directe de LaSO (Paragraphe 4.5.2).

5.2.3

Rsultats exprimentaux 10

Protocole exprimental Le modle de restructuration prsent dans cette section a t test sur trois corpus dirents : Movies, INEX et Shakespeare. Chaque corpus a t spar, alatoirement, en un ensemble de test et un ensemble dapprentissage de mmes tailles. Tous deux comportent les documents sources en HTML et les documents cibles XML correspondants. Lobjectif des expriences est de retrouver les documents cibles du corpus de test aprs avoir observ lensemble dapprentissage. La qualit de la restructuration est value par la mesure prsente au Paragraphe 5.1.3. Nous avons pris en compte, dans le modle de contenu, les caractristiques gnralement utilises dans les tches dextraction : nous avons considr aussi bien des caractristiques dcrivant le contenu des nuds (nombre de majuscules, prsence de chires, ...) et leur contexte (les relations pre-ls).
9. Cette relation ne dpend pas de la manire dont les probabilits sont estimes et peut donc tre utilise quelque soit la mthode destimation la PCFG retenue. 10. Ces expriences ont t ralises en collaboration avec Francis Maes, alors en stage de M2

5.2 Modle gnratif pour la restructuration

137

# nWords : l o n g e u r de l a c h a i n e a n a l y s e e # phrase : phrase a analyser # grammar . b i n a r y P r o d u c t i o n s ( ) : e n s e m b l e d e s p r o d u c t i o n s de # la forme A B C # grammar . u n a r y P r o d u c t i o n s ( ) : e n s e m b l e d e s p r o d u c t i o n s de # la forme A x # c h a r t : t a b l e a u de t a i l l e nWords nWords # i n i t i a l i s a t i o n du t a b l e a u # t r a i t e t o u t e s l e s productions nonTerminal t e r m i n a l f o r i i n r a n g e ( 0 , nWords ) : f o r A, x i n grammar . u n a r y P r o d u c t i o n s ( ) : i f x in phrase : i = phrase . index ( x ) c h a r t [ 1 ] [ i ] . a p p e n d (A) # p o u r t o u t e s l e s l o n g u e u r s de s p a n p o s s i b l e s f o r k i n r a n g e ( 2 , nWords + 1 ) : # p o u r t o u s l e s s p a n s de l o n g u e u r k ( A_ { i : k } ) f o r i i n r a n g e ( 0 , nWords k + 1 ) : # p o u r t o u t e s l e s c o m b i n a i s o n s de s p a n for a in range (1 , k ) : f o r A, B , C i n grammar . b i n a r y P r o d u c t i o n s ( ) : # pour t o u t e s l e s p r o d u c t i o n s # de l a f o r m e A B C i f B i n c h a r t [ a ] [ i ] and C in c h a r t [ k a ] [ a + i ] : c h a r t [ k ] [ i ] . a p p e n d (A)

Figure 5.11 Code python de lalgorithme CYK

138

Modles dapprentissage pour la restructuration

Les expriences ont t menes en utilisant une mthode dinfrence base sur LaSO (note LaSO dans le tableau de rsultat) et une mthode base sur la programmation dynamique (note DP ). cause de sa complexit, cette dernire na t utilise que sur les plus petits documents (moins de 150 nuds de contenu) de chaque collection, ce qui correspond 2 200 documents du corpus INEX et 4 000 documents du corpus Movies. Cette mthode dinfrence nest pas applicable au corpus Shakespeare. Rsultats Le Tableau 5.2 rassemble les rsultats des deux mthodes dinfrence sur les dirents corpus, ainsi quun ordre de grandeur de la dure dapprentissage et de linfrence 11 . Les performances sont encourageantes : on arrive reconstruire plus de 90% des nuds des corpus Movies et Shakespeare et prs de 70% des nuds dINEX, qui est un corpus moins rgulier et dont le schma dnit plus dtiquettes. Il semblerait donc quil y ait susamment dinformation de structure dans les documents HTML pour pouvoir reconstruire les documents XML correspondants. Toutefois, en distinguant la reconstruction des nuds de contenu de celle des nuds internes, il apparat que le score obtenu sur ces derniers est plus faible que le score obtenu sur les nuds de contenu. Ainsi, bien que notre approche permette didentier les lments correctement, lextraction des relations entre ces lments pose encore problme. En revanche, les rsultats sur des bases assez rgulires comme Movies sont bons aussi bien en reconstruction de larbre quen tiquetage de feuilles. Sur lensemble des expriences, la mthode dinfrence fonde sur la programmation dynamique obtient de meilleurs rsultats que la mthode utilisant LaSO. Un parcours exhaustif de lespace de recherche est donc ncessaire pour obtenir de bonnes performances de reconstruction. Toutefois, LaSO permet dappliquer la mthode de transformation des corpus de plus grandes tailles et sans imposer de contraintes sur la taille des documents. Cette amlioration du temps dinfrence a toutefois un cot : elle saccompagne dune baisse de performance et dun temps dapprentissage trs long.

5.2.4

Discussion

Nous avons prsent, dans cette section, une premire mthode de restructuration reposant sur la modlisation suivante du processus de transformation : une premire tape extrait du document dentre un ensemble dinformations pertinentes et une deuxime tape utilise ces informations pour gnrer un nouveau document conforme au schma souhait. Plusieurs expriences utilisant une mthode dinfrence exacte et une mthode approche ont t menes. Les rsultats de ces premires expriences sont encourageants et montrent la pertinence de linformation contenue dans la structure des pages HTML. Ces expriences montrent galement quil est possible dutiliser une mthode dinfrence approche pour transformer de grand corpus sans que la baisse des performances ne soit trop importante. Plusieurs amliorations sont envisageables. Une premire amlioration consiste introduire dans la premire phase un modle permettant dextraire des informations plus riches (dcrivant par exemple certaines relations entre lments) qui pourraient ensuite tre utilises dans la phase de gnration. Plusieurs approches dextraction dinformation (Champs Conditionnels Alatoires [Laerty et al., 2001], grammaires probabilistes [Viola et Narasimhan, 2005], ...) pourraient tre utilises.
11. Les expriences ont t menes sur des Pentium 3,2 GHz.

corpus INEX

5.2 Modle gnratif pour la restructuration

Movies

Shakespeare

mthode DP LaSO DP LaSO DP LaSO

nuds de contenu 79, 6% 75,8% 95, 3% 90,5% 95,3%

nuds internes 51,5% 53, 1% 77,1% 86, 8% 77,0%

arbre complet 70, 5% 67,5% 90, 4% 89,6% 92,2%

dure apprentissage 30 mn > 1 semaine 20 mn > 1 semaine 5 jours

dure reconstruction 4 jours 3h20min 2 jours 1h15min 30min

Table 5.2 Rsultats du modle gnratif (les tirets indiquent que lexprience ne peut tre ralise) ; ces expriences ont t ralise par Francis Maes

139

140

Modles dapprentissage pour la restructuration

Lamlioration des performances de prdiction, notamment sur les nuds internes, ncessite lutilisation de caractristiques plus riches (dpendances non locales, prise en compte de la structure dentre, ...). Ces dpendances sont diciles prendre en compte dans un modle gnratif : leur prise en compte ncessite de les introduire dans la modlisation du processus de transformation. Une solution serait de formuler lextraction de structure dans un cadre discriminatif qui permet de considrer des dpendances arbitraires sans avoir les intgrer dans un processus gnratif. Cest la solution que nous adoptons dans notre deuxime modle de restructuration.

5.3

R-ordonnancement pour la restructuration

Nous allons montrer, dans cette section, comment le r-ordonnancement permet de gnraliser le modle gnratif de restructuration prsent dans la section prcdente pour y inclure des dpendances non locales. Principe Le r-ordonnancement (reranking) [Collins et Koo, 2005] est une mthode gnrale permettant de traiter de nombreux problmes dapprentissage structur. Nous lavons introduite au Paragraphe 4.6.2 et allons maintenant dtailler son principe puis montrer commment elle sapplique la restructuration. Cette mthode repose sur lobservation suivante : lapprentissage structur, tel que nous lavons formalis au Chapitre 4, ncessite de construire un ensemble de structures combinatoires et de retrouver celle de plus grand score. La rsolution de ces deux tapes de manire jointe permet damliorer les performances de prdiction en exploitant les dpendances entre sous-parties. Toutefois, cette amlioration a un cot : la taille de lensemble des sorties possibles entraine une augmentation signicative de la complexit de la prdiction (Paragraphe 4.2.2). Pour rduire cette complexit, les mthodes base de r-ordonnancement proposent de traiter ces deux tapes de manire indpendante. Plus prcisment, les modles base de r-ordonnancement considrent deux tapes distinctes : une tape de gnration qui construit GENN (x) un ensemble de N solutions candidates. Ce processus repose sur des hypothses dindpendance fortes et sur lutilisation dun ensemble restreint de caractristiques. Il est alors possible de construire ecacement les solutions candidates laide dun algorithme de programmation dynamique. Les solutions candidates sont choisies comme tant les N solutions de plus grand score local 12 . une tape de r-ordonnancement qui dtermine la meilleure restructuration parmi les solutions candidates GENN (x) gnres ltape prcdente en considrant des caractristiques arbitraires aussi bien de lobservation x que de la solution candidate. En particulier, puisque lon considre une solution candidate complte, et non pas en cours de construction, il est possible de considrer des caractristiques non locales, ce que ne permet pas la programmation dynamique. Traiter ces deux tapes de manire squentielle permet de conserver les avantages de la programmation dynamique (construction ecace dune sortie structure, mais qui ne considre que des caractristiques locales) tout en considrant des caractristiques globales lors de la seconde tape pour slectionner la meilleure restructuration.
12. Pour mmoire, nous appelons score local, le score calcul partir de caractristiques locales

5.3 R-ordonnancement pour la restructuration

141

Cette approche ne fournit quune solution approche de lquation 5.1, puisque seules les solutions les plus prometteuses de la premire tape sont values (il ny a aucune garantie que la solution attendue soit dans GENN (x)). Le paramtre N permet de contrler le compromis entre la complexit de linfrence et la qualit de la solution : plus N est grand, plus lespace de recherche est grand et la complexit leve, mais plus on a de chances que la solution attendue soit dans GENN (x). Nous allons dtailler, dans le paragraphe suivant, les deux tapes de lapproche de restructuration que nous proposons avant de dcrire les direntes caractristiques que nous considrerons dans notre approche.

5.3.1

Premier modle

Gnration des solutions candidates La mthode des gnration de solutions candidates employe sappuie sur le modle du paragraphe prcdent. Plus prcisment, les solutions candidates sont gnres, dans la premire tape, partir de la squence des nuds de contenu du document source. Comme nous lavons vu au Paragraphe 5.2.2, lutilisation de grammaires hors-contextes probabilistes permet deffectuer cette construction. Nous avons utilis, dans notre modle, une grammaire probabiliste dont les productions ont t apprises directement partir du corpus dapprentissage. Une extension de lalgorithme CYK [Jimnez et Marzal, 2000] permet de construire ecacement les N meilleures solutions candidates. La complexit de cette tape est O n3 + N #{R} n log n3 o N est le nombre de solutions candidates gnres, n le #{} nombre de feuilles du document dentre, # {} le nombre de non-terminaux et # {R} le nombre de productions. Dans nos expriences N est rarement plus grand que n, cette complexit est donc du mme ordre de grandeur que celle de lalgorithme reconstruisant la meilleure solution 13 . tape de r-ordonnancement Lobjectif de cette tape est dapprendre la fonction F(d, din ; w), qui permet de discriminer la meilleure solution parmi toutes les solutions candidates. Il sura pour cela, de calculer, une fois le vecteur de paramtres w connu, le score de toutes les solutions candidates (c.--d. de tous les lments de GENN (din )) et de choisir celle de plus grand score. Nous allons dtailler, dans la suite de ce paragraphe, la mthode destimation de w. Lensemble dapprentissage est constitu par : un ensemble de n documents, chaque document tant exprim la fois dans sa n structure dorigine et dans la structure cible. Nous noterons T = diin , diout cet i=1 ensemble ; N pour chaque lment de T les N solutions candidates, GENN (diin ) = di j , qui j=1 sont construites par la premire tape. Nous supposerons, sans perte de gnrain lit, que di1 est la meilleure restructuration pour d1 . Lapprentissage est eectu par un perceptron noyau (kernelized perceptron) (Paragraphe 3.2.1). Cest une mthode simple mais ecace, qui permet, grce lutilisation dun noyau, de considrer des espaces de grandes dimensions. Le score calcul par le perceptron noyaux pour une solution candidate d associe au document dentre
13. en O n3 , pour mmoire.

142 din est : F(d, din ; w) =


i, j

Modles dapprentissage pour la restructuration

wi j k (di1 , diin ), (d, din ) k (di j , diin ), (d, din )

avec k une fonction noyau qui sera explicite dans le paragraphe suivant, diin un exemple dapprentissage, di1 la meilleure restructuration associe cet exemple parmi les n lments de GENN (din ) et (di j )2 jn les n 1 autres solutions candidates.

5.3.2

Caractristiques utilises

Caractristiques du modle de contenu Le classieur maximisant lentropie que nous utilisons pour tiqueter le contenu des nuds nous permet de prendre en compte facilement toutes les caractristiques que nous jugeons pertinentes sans ncessiter dhypothse dindpendances entre celles-ci. Ces caractristiques peuvent dpendre aussi bien du contenu que de ltiquette (Paragraphe 3.2.2). En pratique, nous utilisons des caractristiques dcrivant le contenu des nuds (nombre de majuscules, prsence de chires, ...), leur contexte (nombre de frres, profondeur dans larbre, ...) et le type de donnes spci par le schma. En eet, les schmas exprims en XML Schema [W3C, 2004] permettent de spcier le type de chaque lment (chane de caractres, date, nombre, ...). Cette information est particulirement pertinente puisquelle nous permet de rduire de manire signicative les tiquettes que peut prendre un lment. Ces caractristiques peuvent toutes tre utilises dans le modle prsent dans la section prcdente. begins-with-number begins-with-capitals contains-number contains-http contains-spaces contains-1-to-5-spaces ... is-only-child has-1-to-3-siblings is-descendant-of-title ... is-xs_string is-xs_duration is-xs_time ...

caractristiques de contenu

caractristiques du contexte

caractristiques sur le type de donnes

Table 5.3 Exemples des trois types de caractristiques utilises pour dcrire les nuds de contenu

Caractristique pour ltape de r-ordonnancement Deux types de caractristiques sont envisageables pour discriminer la meilleure solution candidate lors de ltape de r-ordonnancement. Un premier type de caractristiques dcrit les dpendances longues entre les nuds de larbre de sortie, an de considrer chaque nud dans un contexte plus riche que celui utilis dans ltape de gnration (c.--d. un contexte compos des relations entre un nud et ses enfants).

5.3 R-ordonnancement pour la restructuration

143

Un deuxime type de caractristiques mesure la similarit entre le document dentre et la solution candidate. En eet, les lments proches dans le document dentre sont, intuitivement, proches dans le document de sortie et, par consquent, en cas dambigut, il est prfrable de conserver les groupes dlments existants lors de la transformation. La Figure 5.13 montre un exemple de transformation o la prise en compte de ce principe permet de choisir la solution de sortie. Avec la PCFG de la Figure 5.12, le score du document (b) est : p(b|c) = s1 s3 s5 p(author|c1 ) p(title|c2 ) p(date|c3 ) p(para|c4 ) = 3, 34 104 En suivant le mme principe, on peut dterminer le score du document (c) : 1 103 . Selon ce critre, (a) serait transform en (b), alors que, intuitivement, on prferait choisir (c). Ces deux types de caractristiques ncessitent de pouvoir considrer des dpenNEWS HEADER BODY HEADER author title HEADER author title date BODY para para BODY para (s1 (s2 (s3 (s4 (s5 Pc = 1) = 0, 8) para = 0, 2) author = 0, 3) title = 0, 7) date c1 0,3 0,3 0,3 0,1 c2 0,3 0,2 0,1 0,4 c3 0,5 0,1 0,2 0,2 c4 0,4 0,3 0,1 0,2

Figure 5.12 PCFG utilise pour gnrer les documents de la Figure 5.13 dances entre tiquettes non locales. Elles ne peuvent donc pas tre utilises dans la premire tape. Nous allons utiliser, dans ltape de r-ordonnancement, une combinaison de deux noyaux, chaque noyau dcrivant un type de caractristiques : k (di j , diin ), (d, din ) = ktree (d, di j ) + kfeatures (d, din ), (di j , diin ) j (5.5)

Laddition de deux noyaux traduit la concatnation des deux espaces de caractristiques [Cristianini et Shawe-Taylor, 2000]. Le premier noyau, ktree , est le noyau darbre de [Collins et Duy, 2001a] qui capture les dpendances longues entre les nuds dun arbre. Contrairement une PCFG qui ne considre que les dpendances entre un nud et ses ls, le noyau darbre considre lensemble de larbre pour modliser le contexte dun nud : un arbre sera reprsent par lensemble de ses sous-arbres. Une prsentation dtaille de ce noyau a t faite au Paragraphe 3.2.4. Le second noyau utilis, kfeatures est un noyau RBF (Radial Basis Function). Il permet de combiner des caractristiques globales la fois sur le document dentre et sur la solution candidate. Ces caractristiques incluent : une comparaison entre le nombre de nuds du document dentre et du document de sortie ; les couvertures communes au document dentre et au document de sortie, an de rsoudre des problmes comme ceux prsents Figure 5.13 ; le score de la premire tape ; ... Les deux premires caractristiques mettent en jeu un ensemble dtiquettes du document de sortie. Elles entrent donc dans la catgorie des dpendances non locales.

144 html

Modles dapprentissage pour la restructuration NEWS

NEWS HEADER BODY author titlepara para c1 c2 c3 (c) c4

div a c1

div p p c3 c4 (a)

HEADER

BODY

h3 c2

author title date para c1 c2 c3 (b) c4

Figure 5.13 Exemple (jouet) de restructuration : le document (a) peut tre transform soit en (b), soit en (c). La similarit entre le document dentre et le document de sortie permet de choisir la bonne solution ; la PCFG dcrivant la source de ces documents est donne la Figure 5.12

5.3.3

Rsultats exprimentaux

Protocole exprimental Nous avons test notre modle sur deux corpus dirents : les corpus News et Movies 14 (Paragraphe 5.1.3). Chaque corpus a t spar alatoirement en un ensemble dapprentissage et un ensemble de test. Tous deux comportent les documents dentre en HTML et les documents cible correspondant en XML, toutefois, pour le test seuls les documents dentre sont utiliss. Ces deux ensembles ont la mme taille. Notre modle a alors t utilis pour retrouver la structure cible XML des documents du corpus de test. Direntes valeurs de N (le nombre de solutions candidates gnres par la premire tape) ont t testes. Notre modle de base (N = 1) correspond au cas o seule ltape de gnration entre en jeu : la reconstruction a alors lieu sans tenir compte de la structure du document dentre et est proche du modle que nous avons prsent la Section 5.2.2. Rsultats La Table 5.4 rassemble les rsultats de nos expriences. Dans tous les cas, lutilisation de linformation sur le document dentre lors de ltape de rordonnancement amliore les rsultats du modle de base, pour une complexit globale sensiblement identique. Cette amlioration est signicative lorsque lon ne considre quun petit nombre de solutions candidates. Il faut aussi noter que le fait daugmenter le nombre de solutions candidates entraine une (lgre) baisse de performances. Plusieurs raisons peuvent expliquer ce rsultat contre intuitif (plus on gnre de solutions candidates, plus lespace de recherche est proche de lespace complet et plus la probabilit quil contienne la solution optimale est leve) : la recherche de la solution optimale dans un espace de 100 solutions candidates est plus dicile que dans un espace de sortie plus limit, le perceptron nest pas un algorithme de classication assez puissant pour discriminer la solution optimale parmi un ensemble de grande taille, le nombre de donnes dapprentissage est trop faible, ... Dans la mesure o nous savons quune meilleure solution est prsente dans lensemble des solutions candidates (puisque toutes les dix premires solutions
14. Les expriences nont pas t menes sur les mmes versions du corpus. En particulier, nous avons utiliss des documents provenant des deux sources (AlloCin et ImDB). Les rsultats de nos deux modles ne sont donc pas directement comparables.

5.4 Prise en compte de la suppression dlments grce au r-ordonnancement

145

candidates sont incluses dans les cent premires), il semblerait que lexplication la plus probable de cette baisse de performance soit le bruit ajout par les solutions candidates supplmentaires. Ce phnomne (chute des performances lorsque lon gnre plus de candidats) a t observ dans plusieurs domaines (en RI, dans les systmes de questions-rponses, ...). Une analyse plus dtaille des rsultats montre que les performances de lapproche sont trs bonnes sur les parties les plus rgulires des documents, mais que la qualit de la reconstruction chute dans les parties rcursives des documents. Dans tous les cas, les rsultats de ltape de r-ordonnancement dpendent de la qualit des solutions candidates.

5.3.4

Discussion

Il est donc possible, grce au principe du r-ordonnancement de considrer des dpendances non locales et des caractristiques plus riches dcrivant, notamment, la structure du document dentre. Le modle prsent nest toutefois capable de ne considrer quune classe restrainte de transformation : comme le modle gnratif que nous avons prsent au Paragraphe 5.2.2, il est ncessaire de supposer que tous les nuds de contenu sont conservs dans le mme ordre. Une discussion plus dtaille des avantages et des inconvnients des modles base de r-ordonnancement est faite au Paragraphe 5.4.3, aprs que nous avons prsent une mthode de r-ordonnancement capable de prendre en compte une classe plus large de transformation.

5.4

Prise en compte de la suppression dlments grce au r-ordonnancement

Un des principaux avantages des modles de r-ordonnancement est leur exibilit. Il est, en eet, possible dutiliser, lors de la premire tape, nimporte quel processus gnratif qui cre un ensemble de solutions candidates. Cette observation nous a permis de proposer un deuxime modle de r-ordonnancement qui permet de rsoudre le problme de lexpressivit limite que nous avons soulev au Paragraphe 5.3.4. En particulier, le modle que nous dcrivons dans cette section est capable dextraire les lments pertinents du document dentre, cest-dire de raliser des transformations dans lesquelles le nombre de feuilles du document de sortie est plus petit que le nombre de feuilles du document dentre.

5.4.1

Modle

Principe Pour supprimer lhypothse de conservation du contenu, nous proposons dintroduire une tape supplmentaire dans lapproche de la section prcdente et faisons prcder ltape de gnration des arbres par une tape dannotation qui va slectionner les feuilles pertinentes du document dentre. Notre modle de transformation se dcompose donc en trois tapes : 1. une tape dannotation qui va extraire les lments pertinents du document dentre. Cette tape correspond une tche dtiquetage de squences qui slectionne les nuds du document dentre conservs dans le document de sor-

Modles dapprentissage pour la restructuration

N=1 N = 10 N = 100

Feuilles 39, 6% 56, 6% 41, 3%

News Nuds internes 24, 2% 35, 6% 26, 1%

Arbre 40, 5% 57, 9% 42, 9%

Nuds de contenu 54, 3% 64, 7% 59, 6%

Movie Nuds internes 49, 1% 59, 7% 53, 9%

Arbre 52, 2% 63, 2% 56, 9%

Table 5.4 Rsultat de reconstruction sur les deux corpus

146

5.4 Prise en compte de la suppression dlments grce au r-ordonnancement

147

ties. Elle permet de gnrer plusieurs squences dannotations candidates dont le score local est de plus en plus petit. 2. une tape de gnration darbres qui va construire les structures arborescentes correspondant aux squences gnres ltape prcdente. Cette construction correspond lextraction des relations entre les lments. Elle se divise en deux sous-tapes : (a) on vrie que la squence dannotations respecte le schma cible ; (b) si cest le cas, tous les arbres correspondants sont gnrs ; sinon la squence dannotations suivante est considre. Ces deux premires tapes gnrent, partir de caractristiques locales, lensemble GENN (din ) comportant N solutions candidates. Il est ncessaire dintroduire une boucle de rtroaction (feedback loop) pour assurer que ltape de gnration construira bien au moins N solutions. En eet, il nest pas possible de savoir lavance, combien darbres seront gnrs partir dune squence dannotations et donc combien de squences ltape 1 devra produire. 3. Une tape dordonnancement qui va dterminer la meilleure solution parmi tous les lments de GENN (din ). Comme prcdement, il est possible dutiliser, dans cette tape, des caractristiques non locales et des caractristiques dcrivant les similarits entre le document dentre et la solution candidate. Ce processus est rsum par la Figure 5.14 et les trois tapes sont dtailles dans le paragraphe suivant. Dtails des tapes dle : Voici une description plus dtaille des trois tapes de notre mo-

1. Ltape dannotation (tape 1) a pour but dtiqueter la squence des feuilles du document dentre. Lensemble des tiquettes possibles, est dni par les tiquettes du schma cible, auxquelles on ajoute une tiquette spciale, __DISMISS__, indiquant que llment ne doit pas tre extrait. Les paramtres du modle dannotation sont estims partir dun corpus dapprentissage constitu des squences des feuilles des documents dentre et de leur squence dannotations correspondante. Ces dernires sont construites partir des documents exprims dans le schma cible. Nous avons utilis, dans cette tape, un CRF linaire (Paragraphe 4.3.2). Cest la mthode tradionnellement employe dans les tches dannotation de squences. Les caractristiques utilises par le CRF sont celles du modle de contenu que nous avons prsentes au Paragraphe 5.3.2, ainsi que les dpendances locales entre deux tiquettes successives. Comme dans le cas des PCFG, il existe plusieurs manires [Seshadri, 1994, Yanover et Weiss, 2004] de gnraliser lalgorithme de Viterbi utilis en infrence de manire gnrer non pas la meilleure solution, mais les N meilleures. 2. Ltape de gnration darbres est quasiment identique celle de la mthode prcdente . Il ny a, en fait, quune seule dirence : lentre de cette tape est une squence de feuilles tiquetes partir de laquelle seul un petit 15 nombre darbres conforme avec le schma de sortie peut tre gnr. Nous avons donc considr, dans cette tape, non pas une PCFG (comme dans les deux modles prcdents), mais une grammaire hors-contexte simple dont les productions sont
15. par rapport au nombre darbres gnr par la mthode prcdente.

148

Modles dapprentissage pour la restructuration

document dentre

dtermine la meilleure squence dannotation suivante non est-ce que la squence est compatible avec le schma ? oui gnre les structures arborescentes correspondante non gnration des candidats r-ordonnancement

nombre darbres N ? oui ordonne tous les candidats solution

Figure 5.14 Principe de lapproche de r-ordonnancement

5.4 Prise en compte de la suppression dlments grce au r-ordonnancement

149

dtermines directement partir du schma cible. Il est alors possible de gnrer toutes les structures de sorties compatibles avec les schma cible. 3. Ltape de r-ordonnancement (tape 3) est identique celle de la mthode prcdente.

5.4.2

Rsultats exprimentaux

Protocole exprimental Nous avons test lapproche propose (appele rordonnancement ) sur deux corpus : Movies et News. Chacune des deux collections a t divise, alatoirement, en un ensemble dapprentissage et un ensemble de test de mme taille. Les corpus considrs ont t modis de manire pouvoir tester la capacit dextraction de notre approche. Les modications apportes sont les suivantes : dans le corpus News, seuls certains lments du document HTML apparaissent dans le document XML : il sagit essentiellement des commentaires dcrits par leur date, leur score, leur auteur et leur titre ainsi que des relations entre les dirents commentaires. dans le corpus Movies, les descriptions de lms comportaient des lments textuels de mis en forme ( ralis par , tourn en , ...) qui napparaissent pas dans le document cible. Lobjectif des expriences sur le corpus News est de montrer que notre mthode est capable de transformer un document vers une structure qui nest pas une traduction directe de la structure HTML et qui peut rpondre aux besoins dune application nouvelle. Lapplication ici envisage sinspire des mthodes dachage des pages web sur des tlphones portables que nous avons mentionnes au Paragraphe 2.1.3 : elle consiste acher les threads de commentaires sous la forme de liste arborescente pouvant se replier. La Figure 5.15 illustre la manire dont une page web serait ache par une telle application.

Figure 5.15 Application motivant la transformation du corpus News : visualisation des threads de commentaires dun site de news de manire plus lisible Ce modle utilise les mmes caractristiques que le modle prcdent. Celles-ci sont dtailles au Paragraphe 5.3.2. Comme pour le modle prcdent, nous avons

150

Modles dapprentissage pour la restructuration

ralis les expriences avec direntes valeurs de N (10, 50 ou 100). Nous avons galement ralis les expriences avec deux modles de ltat de lart : un champ conditionnel alatoire (not CRF dans le reste de ce paragraphe) et un modle base de grammaire probabiliste (Paragraphe 5.2.2), que nous noterons PCFG . Le premier modle correspond au CRF que nous utilisons dans ltape dannotation de notre modle et utilise les mmes caractristiques que celui-ci. Le CRF ne peut considrer que des caractristiques locales et ne peut tiqueter que les nuds de contenu (c.--d. quil ny a pas dextraction des relations entre les lments). Le modle PCFG par contre est capable dextraire les relations, mais il suppose que le contenu du document est conserv au cours de la transformation (la squence des feuilles du document HTML est la mme que celle du document XML). Il ne peut donc pas tre appliqu directement. Dans nos expriences, nous avons considr, comme entre de cette mthode, la meilleure squence dtiquettes gnre lors de ltape dannotation (Paragraphe 5.4.1) qui tait conforme au schma cible. Les caractristiques utilises pour dcrire le contenu sont celles de ltape dannotation ; les caractristiques globales, dcrites Paragraphe 5.3.2 ne peuvent pas tre intgres ce modle. Rsultats La Table 5.5 synthtise les rsultats de nos expriences. Plusieurs des conclusions que nous pouvons en tirer sont similaires celles que nous avons prsentes au Paragraphe 5.3.4. Pour lextraction dlments, le CRF ralise dj de bonnes performances en ne considrant que des caractristiques locales (contenu des nuds et relation entre deux tiquettes adjacentes). Toutefois, la prise en compte des relations entre lments extraits par les mthodes PCFG et r-ordonnancement amliore les rsultats de manire signicative. Ces rsultats peuvent sexpliquer par lobservation suivante : comme le montre la comparaison des scores micro et macro 16 , dans le CRF, le choix de ltiquette dun lment est biais en faveur de la classe majoritaire (c.--d. de ltiquette la plus frquente dans le corpus dapprentissage) ; lutilisation des relations entre lments permet de corriger les eets de ce biais. Mais, cause de la rgularisation de la fonction de score faite lors de lapprentissage, les CRF ne sont pas capables de raliser cette correction. Nous aurons loccasion de revenir sur ce point au Chapitre 6. Lajout de ltape de rordonnancement, amliore encore les performances de lextraction, comme le montre le score macro de ltiquetage des feuilles : ltiquetage des feuilles est presque parfait lorsque lon gnre 50 solutions candidates. La performance de ltiquetage des nuds internes permet dvaluer la capacit de lapproche propose extraire des relations entre lments. Les rsultats rapports Table 5.5 montrent que lutilisation des caractristiques non locales est ncessaire lobtention de bonnes performances : lapproche r-ordonnancement obtient, sur les deux corpus, de meilleures performances que le modle PCFG. Lamlioration est de plus de 40 points sur le corpus News dont la structure est plus riche et ne peut tre dtermine qu partir de la structure du document HTML et non des rgularits de la structure de sortie. Comme pour le modle prcdent, on observe que les rsultats sont meilleurs sur les parties rgulires et quune augmentation du nombre de solutions candidates ne conduit pas toujours une amlioration des performances.
16. le score macro est la moyennes des scores de chaque classe ; le score micro est la moyenne des scores des direntes classes pondrs par leur eectif.

5.5 Conclusion corpus Movies feuilles nud macro micro macro 78, 5% 95, 8% 87, 3% 98, 1% 78, 9% 97, 7% 99, 3% 90, 1% 98, 6% 99, 4% 91, 1% 95, 4% 98, 9% 86, 2% corpus News feuille nud macro micro macro 80.2% 98.2% 90.1% 99.3% 24, 2% 98.1% 99.8% 67, 3% 99.7% 99.9% 74, 6% 99.3% 99.4% 64, 1%

151

CRF PCFG 10 candidats 50 candidats 100 candidats

Table 5.5 Rsultats de nos expriences : la mesure dvaluation est celle prsente au Paragraphe 5.1.3 et les tirets longs indiquent que la mesure nest pas pertinente

5.4.3

Discussion : apport des mthodes de r-ordonnancement

Nous avons montr, dans les deux sections prcdentes, comment des modles fonds sur le r-ordonnancement permettaient de considrer des dpendances non locales et de dcrire des transformations plus complexes. Nous avons galement mis en vidence limportance des dpendances non locales pour discriminer la bonne solution. Malgr des rsultats exprimentaux encourageants, ces mthodes prsentent un certain nombre de limites : 1. ce sont des mthodes lourdes mettre en uvre (lextension de lalgorithme CYK pour gnrer les N meilleures solutions nest pas triviale programmer) ; 2. leur complexit est leve (la phase de gnration des candidats repose sur un algorithme de programmation dynamique) et, contrairement la solution que nous avons adopte pour le modle gnratif, cet algorithme dinfrence ne peut tre remplac par une mthode du type LaSO. En eet les mthodes dinfrence incrmentale ne permettent de dterminer que la meilleure solution dun problme dapprentissage structur (la deuxime meilleure solution peut trs bien se trouver dans une partie de lespace de recherche qui a t lague lors de la construction de la meilleure solution). Le principal intrt de ces modles est donc de mettre en vidence limportance des caractristiques non locales pour discriminer la bonne solution.

5.5

Conclusion

Nous avons prsent dans ce chapitre une formalisation de la tche de restructuration dans un cadre dapprentissage structur et dtaill la mise en uvre de plusieurs mthodes permettant, dapprendre la transformation dun document HTML en XML. Le cadre et les modles proposs nous permettent de considrer des caractristiques riches dcrivant la fois le document dentre et la structure de sortie, amliorant ainsi plusieurs approches existantes. Les direntes mthodes proposes ont t values sur plusieurs corpus de documents. Les rsultats des expriences montrent que nos mthodes sont eectivement capables dexploiter les informations apportes par la structure du document HTML. Il est donc possible dextraire (au moins) une structure smantiquement riche des documents HTML. Ces valuations nous ont donn loccasion de tester en pratique les direntes mthodes dapprentissage structur que nous avons prsentes au Chapitre 4. Plus prcise-

152

Modles dapprentissage pour la restructuration

ment, nous avons mis en uvre les modles gnratifs (Paragraphe 4.3.1), LaSO (Paragraphe 4.5.2), les CRF (Paragraphe 4.3.2) et les mthodes base de r-ordonnancement (Paragraphe 4.6.2). Nous avons galement essay dutiliser les mthodes maximisant la marge 17 , mais, cause de leur complexit, celles-ci ne sont pas utilisables pour cette tche. De manire gnrale, ces expriences ont montr limportance des dpendances non locales (leur prise en compte a toujours permis damliorer les performances). Mais elles ont galement mis en vidence certains problmes des mthodes dapprentissage structur existantes. Le principal problme concerne la complexit (calculatoire) des mthodes et la dicult prendre en compte les dpendances non locales. Comme nous lavons expliqu au Paragraphe 4.2.2, il sagit dun problme inhrent la nature combinatoire de lapprentissage structur. Bien que des mthodes aient t dveloppes pour traiter lune ou lautre de ces limites, il nexiste pas, notre connaissance, dapproche permettant de considrer des dpendances non locales tout en ayant une infrence ecace. Cette observation nous a amens proposer des mthodes dapprentissage structur alternatives capables de prendre en compte ecacement des dpendances non locales. Cette tude fait lobjet du prochain chapitre.

17. Des expriences prliminaires avec M3 N ont, par exemple, t faites par Alexander Spengler, lors de son stage de M2 [Spengler, 2005].

6
Modle dtiquetage de squences partir de classieurs locaux

Sommaire
6.1 Analyse des mthodes dtiquetage de squences . . . 6.1.1 Mthode dtiquetage existantes . . . . . . . . . 6.1.2 Limites des mthodes existantes . . . . . . . . . 6.1.3 Quand linformation de structure est-elle utile ? . tiquetage de squences partir de classieurs locaux 6.2.1 Combinaison des dcisions locales . . . . . . . . 6.2.2 Slection des dpendances . . . . . . . . . . . . 6.2.3 Avantages . . . . . . . . . . . . . . . . . . . . . 6.2.4 Rsultats exprimentaux . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 154 157 160 164 164 167 169 170 173

6.2

6.3

It is easy to generate tables of numbers without understanding the issues. But that is not Science Donna Harman considrer des dpendances ayant une C turencapable defaible. La mise au point dunenon locales toutestenncessaire complexit infrence telle mthode lautomatisation de la restructuration (cf. Chapitre 5) et permettrait lutilisation de lapprentissage structur dans de nombreux problmes pratiques. La restructuration tant un problme extrmement complexe, pour dvelopper nos mthodes, nous sommes revenus un problme dapprentissage plus simple qui est ltiquetage de squences. Cest la tche de rfrence pour lvaluation des mthodes dapprentissage structur. Ltiquetage de squences consiste attribuer une tiquette chaque lment dune squence dobservations. Les direntes problmatiques de cette tche et les solutions proposes sont prsentes en dtail par [Dietterich, 2002] et [Sun, 2001]. Ltiquetage de squences a de nombreuses applications en bioinformatique, en traitement de la langue, en modlisation utilisateur et dans bien dautres domaines. Cette tche illustre galement les dirents problmes rencontrs en apprentissage structur (complexit de linfrence, multiplication du nombre de paramtres, ...). La plupart des mthodes dapprentissage structur ont t appliques ltiquetage de squences. Ces mthodes sont capables dexploiter les dpendances pouvant exister e chapitre a pour principal objectif de dcrire une mthode dapprentissages struc-

154

Modle dtiquetage de squences partir de classieurs locaux

entre les tiquettes des lments leur structure en ralisant une infrence jointe, mettant ainsi en uvre lintuition la base de lapprentissage structur : choisir les tiquettes de tous les lments conjointement amliore les performances en prdiction. Nous rappelons rapidement le principe de ces mthodes au Paragraphe 6.1.1. Pourtant, lintrt de linfrence jointe est remise en cause par plusieurs rsultats exprimentaux. Ces rsultats montrent que les mthodes ralisant une infrence jointe nobtiennent pas toujours de meilleurs rsultats que les mthodes choisissant les tiquettes des lments indpendamment. Lanalyse de ces rsultats constitue le deuxime objectif de ce chapitre. Nous montrons, au Paragraphe 6.1.2, quune explication possible de ces rsultats est lie au fait que les modles existants imposent les dpendances considres et ne peuvent prendre en compte que des dpendances locales. Cette analyse fournit ainsi une deuxime motivation au dveloppement de mthodes capables de prendre en compte des dpendances non locales tout en ayant une complexit en infrence faible. Elle nous permet galement, avec les limites des mthodes dapprentissage structur que nous avons identies au Chapitre 5 de formuler et de justier la deuxime ide centrale de ce travail : les mthodes dapprentissage structur doivent tre capables de slectionner les dpendances pertinentes, cest--dire celles qui amliorent les performances de prdiction, et de nutiliser que celles-ci. Nous montrons, au Paragraphe 6.2, comment la mise en uvre de cette ide permet dutiliser ecacement les dpendances non locales. Nous proposons pour cela une nouvelle mthode dtiquetage de squences base sur la combinaison de dcisions locales. La principale originalit de cette approche rside dans sa modlisation des dpendances par des contraintes, cest--dire des relations logiques entre un ensemble dlments et leur tiquette. Cette mthode prsente de nombreux avantages. Elle permet notamment de prendre en compte des dpendances non locales lors de linfrence tout en maintenant une complexit faible et de slectionner automatiquement les dpendances non locales pertinentes, alors que celles-ci sont spcies manuellement dans toutes les approches existantes. Ces avantages sont dtaills au Paragraphe 6.2.3. Un certain nombre darguments et dobservations prsents dans cette section ont dj t exposs au Chapitre 4. Par souci de compltude et pour faciliter sa lecture, nous les avons repris dans ce chapitre.

6.1

Analyse des mthodes dtiquetage de squences

Nous allons, dans cette premire section, rappeler le principe des approches dapprentissage structur et de leurs limites, aussi bien dun point de vue thorique quexprimental. Cette prsentation va nous permettre de formuler, dans la section suivante, la deuxime thse centrale de ce travail.

6.1.1

Mthode dtiquetage existantes

Dnitions et notations La tche dtiquetage de squence a pour objectif dattriN buer chaque lment xi dune squence dobservations x = (xi )i=1 une tiquette yi . N Nous noterons y = (yi )i=1 la multi-tiquette ainsi prdite et le domaine des tiquettes (c.--d. yi ). Les tiquettes seront dsignes par des lettres de lalphabet grec. Les squences dtiquettes prsentent des dpendances qui facilitent la prdiction soit en rduisant lensemble des tiquettes quun lment donn peut prendre (une tiquette nest jamais suivie dune tiquette ), soit en indiquant des combinaisons plus frquentes (une tiquette est suivie par une tiquette dans 75% des cas ou par une

6.1 Analyse des mthodes dtiquetage de squences

155

tiquette dans 25% des cas). Il est possible de distinguer trois types de dpendance : les dpendances locales (entre tiquettes adjacentes), longues (entre tiquettes loignes) et globales (qui prennent en compte toutes les dpendances). Nous parlerons de la structure dune multi-tiquette pour dsigner lensemble des dpendances entre les tiquettes la composant. Mthode de ltat de lart Nous rappelons brivement quelques uns des rsultats et des notations introduits au Chapitre 4. Les mthodes existantes ( lexception de LaSO et SEARN) traitent le problme de prdiction de squences comme une gnralisation de la classication multi classes : leur objectif est de dterminer la squence dtiquettes y la plus compatible avec la squence dobservations x. Ladquation entre lobservation x et la multi-tiquette y est value par une fonction de score F(x, y; w). Dans ce cadre, ltiquetage de squences revient dterminer la squence dtiquettes la plus compatible parmi toutes les squences dtiquettes possibles Y : y = argmax F(x, y; w)
yY

(6.1)

Dans leur formulation gnrale, ces mthodes peuvent prendre en compte aussi bien les dpendances locales que non locales. Mais en pratique, cause de la complexit (calculatoire) de linfrence et de la dicult de lestimation des paramtres, la fonction de score F doit tre dcomposable, cest--dire scrire comme un produit de fonctions de score locales (Section 4.2.2). La dcomposition gnralement utilise pour ltiquetage de squences est :
n

F(x, y; w) =
i=1

f (yi , yi1 , x; w)

o f est une fonction de score locale qui ne dpend que de ltiquette dun lement et de ltiquette de son prdcesseur. Elle ne dcrit donc quune dpendance locale. Cette factorisation de la fonction de cot permet dutiliser lalgorithme de Viterbi pour trouver ecacement la multi-tiquette dune squence dobservations et limite le nombre de paramtres estimer. La contrainte qui impose la dcomposabilit de la fonction de score limite fortement le pouvoir de description des modles dapprentissage structur. Plus prcisement, cette contrainte empche la prise en compte des dpendances non locales, et ce pour deux raisons : elle repose sur lutilisation de lalgorithme de Viterbi en infrence. Or celui-ci ne permet de considrer que les dpendances locales et utilise les dpendances pour dcrire la manire de combiner les sous-solutions, ce qui ncessite une factorisation uniforme de la fonction de cot. Ces deux limites sont dtailles au Paragraphe 4.4.3. elle impose la reprsentation des dpendances par des fonctions de score locales. Par exemple, une dpendance entre trois lments serait dcrite par une fonction de score locale de la forme f (yi , yi1 , yi2 ). Cette fonction de score doit tre dnie pour toutes les valeurs possibles de ses paramtres. Par consquent, pour dcrire une dpendences entre n lments qui peuvent prendre m tiquettes, mn paramtres doivent tre estims. On ne peut donc pas, en pratique, considrer des dpendances entre plus de deux lments sans risquer une explosion du nombre de paramtres estimer.

156

Modle dtiquetage de squences partir de classieurs locaux

Les dicults destimation sont lorigine dun autre problme : pour limiter cellesci, on rgularise gnralement la fonction de score [Schlkopf et Smola, 2002]. En pratique, cette rgularisation revient donner une valeur faible mais non nulle 1 lensemble des valeurs non dnies de la fonction de score [Peng et McCallum, 2004] : f (y , y , x; w) + i i1 si (yi1 , yi ) f (yi , yi1 , x; w) = sinon o est lensemble des transitions, cest--dire des paires (yi1 , yi ) apparaissant dans le corpus dapprentissage, f le score rgularis, utilis en infrence et f le score estim partir du corpus dapprentissage. La fonction rgularise f est alors dnie pour toutes les valeurs possibles de ses paramtres quel que soit le corpus dapprentissage. La rgularisation des paramtres joue un rle central en apprentissage statistique [Schlkopf et Smola, 2002]. Son tude dpasse toutefois le cadre de ce travail. La prise en compte de la structure dans les modles existants est donc biaise car seules les dpendances locales sont prises en compte et le choix des dpendances est impos par le modle et non par les donnes. Nous allons, dans le paragraphe suivant, tudier limpact de ce biais sur les performances de ces mthodes. Performance des mthodes existantes Lapprentissage structur est motiv par lintuition que les dpendances entre tiquettes facilitent la prdiction des lments et quil est donc prfrable dutiliser des mthodes dinfrence jointe. Plusieurs travaux [Punyakanok et al., 2005, Jensen et al., 2004] justient thoriquement cette intuition, mme si leur porte est souvent limite : par exemple, la preuve de [Punyakanok et al., 2005], suppose que les paramtres sont mis jour selon la rgle du perceptron (Paragraphe 4.3.3) et ne discute pas des autres mthodes dapprentissage. Toutefois, un certain nombre dtudes exprimentales rcentes contredisent ces rsultats thoriques ainsi que notre intuition sur lutilit de linfrence jointe. Ces rsultats ont t prsents en dtail au Paragraphe 4.3.5 ; mais ils sont repris Table 6.1 et Table 6.2. NER-small NER-large Handwritten-small Handwritten-large Chunk CRF 91, 9% 97, 0% 66, 9% 75, 4% 96,7% SVMISO 93, 5% 76,9% Searn 93,8% 96, 3% 64, 1% 73, 5% 95, 0% SVM multi classe 92, 7% 71, 0% 95, 4%

Table 6.1 valuation de quatre mthodes sur diffrentes tches dtiquetage de squences La Table 6.1 montre que les performances des mthodes sont trs fortement dpendantes des corpus : chaque mthode est la meilleure sur un des corpus. De plus, dans les deux sries dexpriences, le classieur multi classes qui choisit les tiquettes de chaque lment sans tenir compte du contexte (c.--d. sans raliser dinfrence jointe) obtient toujours de bonnes performances : mme sil nest jamais le meilleur, il obtient
1. Ceci nest vrai que pour la rgularisation par la norme L2 qui est gnralement utilise.

6.1 Analyse des mthodes dtiquetage de squences Train size SVMISO SVM multi classe M3 N perceptron SEARN CRF HMM 500 8,37% 8,76% 10,19% 10,16% 10,49% 16,53% 23,46% 1 000 6,58% 6,93% 7,26% 7,79% 8,92% 12,51% 19,95% 2 000 5,75% 5,77% 6,34% 6,38% 7,58% 9,84% 17,96% 4 000 4,71% 4,92% 5,26% 5,39% 6,44% 7,76% 17,58% 8 000 4,08% 4,35% 4,19% 4,49% 5,48% 6,38% 15,87%

157

Table 6.2 valuation de [Nguyen et Guo, 2007] sur une tche danalyse syntaxique de surface systmatiquement de meilleures performances que certaines approches. Ces deux observations remettent en cause lintrt de linfrence jointe, au moins pour les tches dtiquetage : celle-ci ne permet pas toujours damliorer les performances. Quand bien mme les performances de linfrence jointe seraient meilleures, cette amlioration se fait au dtriment de la complexit et dans la plupart des cas, lamlioration des performances ne justie pas lexplosion de la dure dapprentissage et de test. Il est possible dinterprter ces observations de deux manires direntes : soit linformation apporte par les relations entre tiquettes est inutile ; soit les mthodes existantes ne sont pas capables dexploiter correctement linformation apporte par la structure. La premire interprtation contredit notre intuition et les rsultats thoriques de [Punyakanok et al., 2005] et de [Jensen et al., 2004]. Cest pourquoi, en gardant en tte la deuxime interprtation, nous proposons de nous interroger sur les fondements de ces mthodes, sans toutefois prjuger de leur intrt thorique et sans remettre en cause les bonnes performances quelles ont obtenues sur de nombreuses tches. Cette interrogation est lobjet du prochain paragraphe.

6.1.2

Limites des mthodes existantes

Lobjectif de cette section est danalyser les rsultats stimulants et provocateurs que nous avons prsents au paragraphe prcdent. Cette discussion nous permettra de proposer un nouveau modle dont le principe constitue la deuxime thse de ce travail. Analyse des limites des approches existantes Les rsultats exprimentaux prsents au paragraphe prcdent sembleraient montrer que la structure napporte pas une information facilitant la prdiction. Comme indiqu au Paragraphe 6.1.1, linformation de structure est incorpore dans ces modles sous la forme de dpendances entre tiquettes adjacentes, toutes les dpendances entre deux lments voisins tant prises en compte dans le modle. La question est alors de savoir si celles-ci apportent une information pertinente. Il est ncessaire, pour rpondre cette question, de disposer de mesures permettant dvaluer lintrt dune dpendance. La dnition de telles mesures sera lobjet de la Section 6.1.3. Nous nous contenterons, pour le moment, dobserver, dans les cas des corpus de la Table 6.1 et de la Table 6.2, la probabilit p(yi |yi1 ) qui donne une indication sur la frquence relative de

158

Modle dtiquetage de squences partir de classieurs locaux

deux tiquettes et indique, notamment, quel point la connaissance de ltiquette dun lment rduit le choix de ltiquette de son successeur. La Figure 6.1 reprsente cette probabilit dans le cas du corpus Handwritten-large. Cette gure montre que, dans certains cas, la connaissance de ltiquette prcdente permet de dsambiguser le choix de ltiquette : une fois yi1 connu, la quasi totalit de la probabilit est concentre sur une ou deux valeurs de yi . Mais dans plusieurs cas, aucune valeur ne se distingue : il y a mme des cas, o la probabilit est, visuellement, presque uniforme. Il apparat donc clairement que toutes les dpendances nont pas le mme intrt : suivant sa valeur, la connaissance yi1 facilite plus ou moins le choix de ltiquette de yi . Une conclusion similaire peut tre faite sur les autres corpus utiliss dans les expriences de la Table 6.1 et de la Table 6.2. yi

yi1

Figure 6.1 Probabilit conditionnelle p(yi |yi1 ) sur le corpus Handwritten-large : chaque ligne et chaque colonne correspondent une lettre de lalphabet, et la taille du carr est proportionnelle la probabilit p(yi |yi1 ) Ainsi, en plus de leurs limites intrinsques (notamment leur incapacit prendre en compte des dpendances non locales), les mthodes de ltat de lart sont obliges de prendre en compte des dpendances peu informatives. La prise en compte de ces dpendances a deux consquences. Premirement, elle entrane une augmentation de la complexit de linfrence : laugmentation du nombre de transitions possibles entraine une augmentation de la taille du treillis de Viterbi et donc de lespace de recherche. Deuximement, elle est lorigine de la perte dune partie de linformation apporte par la structure : comme le montrent les expriences de restructuration (Section 5.4.2 ; les expriences prsentes la n de ce chapitre corroboreront ces rsultats) les dpendances entre tiquettes ne permettent plus dinterdire certaines combinaisons dtiquettes. Ces deux observations illustrent une partie des faiblesses des approches existantes et fournissent un lment dexplication aux rsultats exprimentaux rapports au paragraphe prcdent : linformation supplmentaire qui est considre par les modles dapprentissage structur naide pas choisir les tiquettes des lments. La solution la plus immdiate ce problme serait de pouvoir prendre en compte les dpendances non locales dans les modles dapprentissage structur, an de pouvoir

6.1 Analyse des mthodes dtiquetage de squences

159

exploiter de manire plus complte linformation apporte par la structure. En eet, de nombreux travaux ([Sutton et McCallum, 2004],[Mochihashi et Matsumoto, 2005] ou [Collins et Koo, 2005] par exemple) ont montr, dans dirents domaines, quil tait ncessaire de prendre en compte les trois types de dpendances que nous avons introduits au Chapitre 4 pour obtenir de bonnes performances en prdiction. Plusieurs mthodes rpondant ce besoin ont t proposes (Paragraphe 4.6) : rordonnancement, mthodes dinfrence alternatives, hirarchie de variables, ... Mais ces mthodes sont relativement peu utilises. Elles prsentent, en eet, trois limites principales : leur complexit leve (par rapport aux mthodes nutilisant que des dpendances locales), leur mise en uvre plus complique et la ncessit de spcier, la main, les dpendances pertinentes. Cette dernire limite est la plus contraignante, puisquelle empche le dveloppement dapproche gnrique. Lensemble des ces observations a motiv le dveloppement dune nouvelle mthode dtiquetage de squences dont les principales ides sont prsentes dans le paragraphe suivant. Principe de notre approche Nous pensons que les performances des modles existants peuvent sexpliquer par labsence dun consensus sur le rle que la structure doit jouer dans la prdiction de sorties structures 2 . Lobjectif de ltiquetage de squence et, plus gnralement, de lapprentissage structur est bien de dterminer les tiquettes des lments dune multi-observation. Pour choisir ltiquette de chaque lment, plusieurs sources dinformation peuvent tre considres, les principales tant le contenu des lments (comme dans tous les problmes dapprentissage statistique) et la structure, cest--dire les dpendances entre tiquettes qui interdisent certaines combinaisons et indiquent les combinaisons les plus frquentes. Bien quintuitivement la structure apporte une information pertinente dans le choix des tiquettes, il ne faut pas oublier que cest une caractristique comme une autre. En particulier son utilisation a un cot aussi bien lors de lapprentissage que lors de linfrence : la prise en compte de la structure entraine une multiplication des paramtres estimer et ncessite de prendre, lors de linfrence, des dcisions cohrentes avec lensemble des dpendances, entranant ainsi une augmentation de la complexit de linfrence. Pourtant, toutes les approches dtiquetage de squences existantes, lexception des CRF optimisant directement la distance de Hamming (Paragraphe 4.3.2), font jouer un rle particulier la structure : ces approches reposent sur lutilisation dun algorithme de Viterbi en infrence 3 dans laquelle la structure permet essentiellement dindiquer comment combiner des solutions partielles pour construire une solution complte. En consquent, les dpendances qui sont prises en compte sont imposes par le modle et non pas choisies en fonction de leur pertinence. Nous pensons quil faut, au contraire, arriver dterminer les dpendances signicatives qui facilitent eectivement la prdiction des tiquettes des lments, et incorporer celles-ci, et uniquement celles-ci, dans le modle. Il y a, en eet, deux visions extrmes de ltiquetage de squences : dans un premier cas on considre tout les lments indpendamment, dans le second, on considre la multi-tiquette comme une
2. Nous avons dj mentionn cette absence de dnition structurante au Chapitre 4. 3. ou, dans le cas de LaSO et SEARN, dune autre mthode constructive qui construit incrmentalement une solution partir de solution complte

160

Modle dtiquetage de squences partir de classieurs locaux

unique tiquette que lon ne peut (ou veut) pas dcomposer. Le premier cas a lavantage davoir une complexit en infrence faible, mais il nexploite pas linformation apporte par la structure ; le second cas exploite la totalit de linformation apporte par la structure, mais linfrence est plus dicile. Comme le montre la Figure 6.2, tout un spectre de modles sont envisageables entre ces deux extrmes : ces modles considrent plus ou moins de dpendances et leur infrence est ainsi plus ou moins complexe. Nous pensons quun modle dapprentissage structur devrait avoir pour objectif de raliser un compromis entre le surcot caus par la prise en compte des dpendances et lamlioration des performances en prdiction qui en rsulte et ainsi dviter les limites que nous avons mis en vidence au dbut de ce chapitre.

prise en compte de la structure

pas de dpendances

dicult de linfrence

dpendances locales

toutes les dpendances

Figure 6.2 Diffrentes manires de prendre en compte la structure dans le cas de ltiquetage dune squence de trois lments La mise en uvre de lide que nous venons de prsenter ncessite une nouvelle mthode dinfrence (autre que lalgorithme de Viterbi) et dun moyen de dtecter les dpendances pertinentes. Ces deux lments seront dvelopps dans la section suivante. Nous allons dabord prsenter un rapide tat de lart des mthodes permettant dvaluer la pertinence dune dpendance an de pouvoir expliquer lintrt de notre mthode la Section 6.2.3.

6.1.3

Quand linformation de structure est-elle utile ?

Il est ncessaire, pour mettre en uvre notre mhode, de pouvoir dterminer les dpendances apportant une information pertinente. Cest typiquement le genre de question aborde par la slection de caractristiques (features selection) [Cakmakov et Bennani, 2002, Guyon et al., 2006]. Nous allons donner rapidement un aperu des approches de ce domaine et de lapplication de celle-ci la slection des

6.1 Analyse des mthodes dtiquetage de squences

161

dpendances an de pouvoir, au Paragraphe 6.2.3 expliquer loriginalit et lintrt de notre approche. La slection de caractristiques La slection de caractristiques est lun des thmes centraux de lapprentissage. Son objectif est de dterminer, pour une tche de prdiction donne, un ensemble de caractristiques le plus petit et le plus informatif possible, de manire amliorer les performances de la prdiction et les performances calculatoires [Guyon et al., 2006]. En eet, en rduisant le nombre de caractristiques, il est possible de limiter le risque de sur-apprentissage et dacclrer la prdiction. [Guyon et Elissee, 2003] prsente un tat de lart dtaill du domaine et des principales problmatiques qui y apparaissent. On peut distinguer trois types dapproches : les approches de type ltre : ces approches utilisent dirents critres (score de Fisher, information mutuelle, test de Kolmogorov-Smirnov, ...) pour slectionner, dans une tape prliminaire, les variables ou les groupes de variables les plus informatifs. La slection des caractristiques est donc indpendante du classieur appris et de la tche considre. La motivation de ces approches repose sur la dnition de la couverture de Markov (Markov blanket) [Koller et Sahami, 1996] qui dnit les caractristiques pouvant tre supprimes sans rduire les performances du classieur. Mais, comme le soulignent les auteurs, la construction de cette couverture est trop complexe pour tre utilise en pratique. [Fleuret, 2004] propose une mthode de construction ecace dans le cas o les caractristiques sont binaires et [Abbeel et al., 2006] propose dutiliser cette notion pour dterminer les dpendances pertinentes entre les sous-parties dun lment structur. Cette dernire approche ne peut toutefois pas tre mise en uvre cause de sa complexit. les approches de type wrapper : ces mthodes ordonnent les sous-ensembles de caractristiques par rapport leur pouvoir de prdiction, cest--dire aux performances dun classieur nutilisant que ces caractristiques. Cette approche, est plus complexe, puisquelle ncessite dapprendre et de tester un classieur pour tous les sous-ensembles de caractristiques possibles. Les approches proposes, comme [Gadat et Younes, 2005], reposent gnralement sur des mthodes heuristiques permettant de parcourir lespace de tous les sousensembles de caractristiques de manire ecace. Cette approche na, notre connaissance, jamais t applique pour la slection de dpendances. les approches base de rgularisation du risque : ces approches formulent le problme de slection de caractristiques comme un problme destimation de paramtres : on apprend les caractristiques pertinentes, en mme temps que lon choisit les paramtres du classieur lors de lapprentissage de celui-ci. Plus prcisement, on reformule le critre du risque empirique (quation 3.3) de la manire suivante : C(w) = 1 n
n

f (x(i) ; w), y(i) ) + (w)


i=1

o est la fonction de cot considre, f (x; w) le classieur valu et (w) est un terme de rgularisation qui pnalise les fonctions f trop complexes

162

Modle dtiquetage de squences partir de classieurs locaux [MacKay, 2003, Schlkopf et Smola, 2002]. En choisissant la norme 1 du vecteur de paramtres comme rgularisateur (||w||1 = i |wi |), on impose au classieur choisi davoir un petit nombre de paramtres (||w||1 sera minimal et donc de nombreux wi seront nuls) tout en ayant de bonnes performances (le risque usuel n 1 f (x(i) ; w), y(i) sera minimal). i=1 n Cette approche a t initialement propose par [Perkins et al., 2003] qui donne galement une mthode originale permettant doptimiser C(w) : cette fonction faisant intervenir une somme de valeurs absolues, son optimisation est techniquement dicile. [Lee et al., 2007] adapte cette mthode pour permettre lapprentissage des dpendances dun lment structur.

Dans ce travail, nous nous sommes intress aux mthodes de ltrage qui ont lavantage dtre faciles mettre en uvre tout en ayant une complexit faible. Pour utiliser ce type de mthodes, il est ncessaire de pouvoir valuer la pertinence dune dpendance, cest--dire la quantit dinformation quelle apporte. Nous allons maintenant discuter des direntes manires de dnir une telle mesure. Mesures de linformation apporte par la structure La thorie de linformation [Shannon, 1948, Cover et Thomas, 1991] fournit un ensemble de dnitions permettant dvaluer (entre autre) lincertitude lie une variable alatoire (par lentropie), la rduction dincertitude quapporte la connaissance dune variable (par lentropie conditionnelle) et le degr de dpendance dun ensemble de variables (par linformation mutuelle). Un autre outil fondamental de la thorie de linformation est la divergence de Kullback-Leibler qui permet de mesurer la dissimilarit entre deux distributions de probabilit q et p : DKL (p||q)
xX

p(x) log2 = EXp p(X) q(X)

p(x) q(x)

Les notions et les mesures de thorie de linformation sont donc au cur de nombreux critres de slection de caractristiques. Ainsi, comme lont montr [Bozdogan, 2000] et [Studeny et Vejnarova, 1999] une manire naturelle dvaluer linformation apporte par la structure dans une squence dtiquette y consiste considrer la divergence de Kullback-Leibler entre p(y) 4 , la probabilit jointe de la squence y et le produit des probabilits marginales pi (yi ) : Istructure (y) DKL (p(y)||p1 (y1 ) p2 (y2 ) ... pN (yN )) = Exp log2 p(y) p1 (y1 ) p2 (y2 ) ... pN (yN ) (6.2)

Intuitivement, cette quantit mesure la quantit dinformation perdue lorsque les donnes sont gnres indpendamment et non de manire jointe. Istructure (y) est nulle lorsque tous les yi sont indpendants et augmente avec le nombre de dpendances prsentes dans les donnes.
4. Dans ce paragraphe, toutes les probabilits sont conditionnes par lobservation x. Pour amliorer la lisibilit, nous avons omis de le prciser

6.1 Analyse des mthodes dtiquetage de squences

163

Lquation 6.2 peut facilement se gnraliser pour quantier, dans une squence, les interactions entre une variable yi et un ensemble de variables C ne comprenant pas yi C = y j1 , . . . , y j p tel que jk i : Idep (yi , C) = DKL (p(yi , C)||p(yi ) p(C)) Idep (yi , C) mesure la quantit dinformation perdue lorsque les donnes sont gnres avec lhypothse que yi et C sont indpendants : plus Idep (yi , C) est grand, plus la dpendance entre yi et C est informative. Lensemble des lments C (yi ) apportant le plus dinformation sur le choix de la me i tiquette peut donc tre dtermin en cherchant lensemble des lments de la squence maximisant Idep : C (yi ) = argmax Idep (yi , C)
C

Limites de ce critre La mise en uvre de ce critre pose plusieurs problmes. Le premier problme est li la complexit de lapproche. Utiliser Idep pour dterminer les dpendances les plus pertinentes ncessite dvaluer, pour chaque lment de la squence, la pertinence de la dpendance entre cet lment et toutes les combinaisons des autres lments. Par exemple, dans la squence x1 x2 x3 , il faut tester la dpendance entre x1 et x2 , x1 et x3 ainsi quentre x1 et (x2 , x3 ). Il y a donc, au total, n 2n1 dpendances tester, ce qui est bien entendu, irralisable en pratique. Cet aspect combinatoire est dautant plus problmatique quil est ncessaire de raliser une numration exhaustive de toutes les combinaisons possibles : deux lments qui napportent, individuellement pas dinformation, peuvent devenir signicatifs lorsquils sont considrs simultanment [Bell, 2003]. Un deuxime problme est d au fait que lvaluation de Idep ncessite lestimation de nombreuses probabilits jointes. Cest un problme commun de nombreuses mthodes de slection de caractristiques. Mme si plusieurs techniques existent pour rduire le nombre de probabilits jointes devant tre estimes [Boscolo et al., 2004], il est rare de disposer de susament de donnes pour pouvoir valuer le score. Ce problme destimation est trs gnral : dans la thorie de linformation des vnements ayant une probabilit ngligeable de se raliser peuvent avoir une grande entropie [Batu et al., 2001]. Plus prcisement, selon ces critres, une dpendance est informative (au sens de la thorie de linformation) soit si les lments mis en jeu apparaissent ensemble trs frquemment ou trs peu frquemment. Or, il est dicile de dtecter les vnements peu frquents et destimer leur probabilit. De manire gnrale, la dtection des dpendances (et des indpendances) dans un ensemble de variables est un problme dicile [Jakulin et Bratko, 2004] : mme si de nombreux critres existent pour dterminer la structure dun modle ([Akaike, 1973] par exemple), la mise en uvre de ceux-ci sur de grands ensembles de donnes est gnralement impossible. Cest galement cause de ces deux limites que lapproche de [Abbeel et al., 2006] ne peut pas tre mise en uvre et que la plupart des travaux utilisant un critre fond sur la thorie de linformation ne cherche slectionner que des dpendances de petites tailles (typiquement entre deux ou trois lments) [Boscolo et al., 2004]. La modlisation des dpendances par des contraintes que nous proposerons dans la section suivante permet, en pratique, de contourner ces problmes. Nous expliquerons comment au Paragraphe 6.2.3

164

Modle dtiquetage de squences partir de classieurs locaux

6.2

tiquetage de squences partir de classieurs locaux

Les dicults rencontres par les modles existants rsultent, en partie, de la reprsentation des dpendances par des fonctions de score locales. Pour pouvoir viter ce problme, nous proposons de modliser les dpendances entre lments par des contraintes. Une contrainte [Bartak, 1999] est simplement une relation logique entre plusieurs lments et leur tiquette respective. Elle apporte une information partielle en rduisant les valeurs possibles que peuvent prendre les lments. Ainsi, la loi dOhm (U = R I) peut tre vue comme une contrainte reliant trois variables (U, R et I) pouvant prendre toutes les valeurs de R ; elle apporte une information partielle puisque xer la valeur + de U rduit les valeurs que R et I peuvent prendre. Dans le cas de ltiquetage de squences, plusieurs types de contraintes peuvent tre imagins. Voici quelques exemples : ltiquette du ime lment doit tre si ltiquette du (i-2)me lment est ; il doit y avoir au moins une variable tiquete ; le premier lment ou le deuxime lment de la squence a pour tiquette . Comme lillustrent les exemples prcdents, le principal intrt des contraintes est de pouvoir reprsenter des dpendances qui dpendent de la valeur des observations, ce qui ore plus de souplesse dans la description priori des dpendances entre les variables dun modle. Nous allons associer chaque contrainte avec un poids qui peut tre interprt comme une mesure de conance ou de prfrence. Il est alors possible de considrer la tche dtiquetage de squence comme une tche dtiquetage sous contraintes (constrained assignement) : lobjectif est dattribuer une tiquette chaque lment tout en respectant au mieux lensemble des contraintes dnies. Ltiquetage sous contraintes est une tche classique dintelligence articielle, pour laquelle de nombreuses approches ont t proposes. Pour rsoudre le problme dtiquetage sous contraintes, nous utilisons une mthode, inspire de [Punyakanok et Roth, 2000] qui se dcompose en deux tapes : dans une premire tape un classieur local dnit un tiquetage initial sans tenir compte des dpendances (les tiquettes des lments sont choisies indpendamment les unes des autres), puis, dans une deuxime tape, nous utilisons lalgorithme de relaxation labeling pour appliquer les contraintes et propager linformation entre les lments. Au nal, ltiquetage de la squence se fait donc en combinant les dcisions des classieurs locaux (c.--d. les tiquettes quils ont prdites). Nous allons, dans la suite de cette section, dtailler la mthode dtiquetage en dcrivant lalgorithme de relaxation labeling (Section 6.2.1). Puis nous expliquerons comment les contraintes peuvent tre dtermines automatiquement (Section 6.2.2). Finalement nous analyserons les avantages de notre approche et montrerons comment elle rsout certains des problmes des approches existantes (Section 6.2.3).

6.2.1

Combinaison des dcisions locales

Pour trouver ltiquetage respectant le plus de contraintes, nous proposons dutiliser un algorithme base de transformations [Brill, 1995] : lalgorithme de relaxation labeling (RL) [Hummel et Zucker, 1983, Pelillo, 1997]. Comme indiqu prcdemment, dans cette mthode, un classieur local attribue une premire tiquette

6.2 tiquetage de squences partir de classieurs locaux

165

chaque lment sans tenir compte du contexte, cest--dire des tiquettes des autres lments ; les contraintes sont ensuite appliques pour propager linformation et assurer que la solution propose respecte au mieux les contraintes. Nous avons utilis comme classieur local un classieur maximisant lentropie identique celui utilis pour dcrire le modle de contenu au Chapitre 5. Nous allons maintenant dtailler lalgorithme RL. Relaxation Labeling Le relaxation labeling est un algorithme itratif permettant de rsoudre le problme de ltiquetage cohrent. Soit un ensemble dlments E = {e1 , ..., en }, et deux tiquettes et = {1, ..., m} le domaine des tiquettes. Les interactions entre tiquettes sont dcrites par une matrice de compatibilit R = {ri j (, )}. Pour simplier les notations, nous nous limiterons aux cas de relations binaires (c.--d. entre deux lments), mais lalgorithme reste identique pour des relations dordre arbitraire. Chaque ccient ri j (, ) reprsente une dpendance : il mesure quel point lon souhaite attribuer ltiquette llment ei lorsque lon sait que ltiquette de e j est . Nous expliquerons la section suivante comment ces ccients sont dtermins. Lobjectif de la tche dtiquetage cohrent est dattribuer une tiquette chaque lment en essayant de respecter au mieux les contraintes exprimes par R. Pour cela, lalgorithme de relaxation labeling modie itrativement ltiquetage courant pour sassurer quun maximum de contraintes soit respect. Toutes les mises jour se font en parallle partir des dpendances exprimes par la matrice de compatibilit et de la conance que lon a dans chaque hypothse ltiquette de ei est . Plus prcisement, le classieur local dnit pour chaque lment ei E un vecteur T de taille m, p(0) = p(0) (1), ..., p(0) (m) , tel que : i i i i 1, ..., n , p(0) () 0 i i 1, ..., n p(0) () = 1 i Chaque p(0) () dcrit la conance que nous avons dans lhypothse ltiquette de ei i est . En concatnant les dirents vecteurs p(0) , on obtient p(0) , une matrice de taille i n m. Cette matrice dcrit un tiquetage pondr (weighted labeling assignement). Nous noterons K lensemble des tiquetages pondrs (c.--d. lensemble des matrices dont la somme des colonnes est gale 1). Lobjectif est de mettre jour, itrativement, cet tiquetage initial en incorporant les informations du contexte (ltat de lensemble des autres lments), telles quelles sont dcrites par R. Pour cela, nous dnissons, pour chaque lment ei et chaque tiquette , une fonction support. Cette fonction dcrit le degr de compatibilit entre lhypothse est ltiquette de ei et le contexte actuel. Cette mesure est gnralement dnie par :
n m

q(t) (; i

p) =
j=1 =1

ri j (, )p(t) () j

mais dautres relations ont t proposes [Kittler et Illingworth, 1985, Padro, 1995]. En considrant lensemble des qi (; p), on construit une matrice n m que nous noterons q( p). Chacun de ces facteurs supports a une interprtation naturelle : plus les scores des contextes compatibles avec lhypothse ltiquette de ei est sont levs, plus qi (; p) est grand ; les hypothses peu sres (celles pour lesquelles p est faible) ont peu dinuence. Il parat alors naturel daugmenter pi () lorsque qi () est grand et de le

166

Modle dtiquetage de squences partir de classieurs locaux

diminuer dans le cas contraire. La mise jour de p est donc dnie par : pi(t+1) () p(t) () q(t) () i i
m =1

p(t) () q(t) () i i

(6.3)

Le dnominateur permet juste de sassurer que p(t+1) est un lment de K quand p(t) est dans K. Le processus est itr jusqu convergence (c.--d. jusqu ce que p(t+1) = p(t) ). Ltiquette i de chaque lment ei est alors dtermine en choisissant ltiquette la plus vraisemblable : i = argmax pi ()

Commme nous lexpliquerons au paragraphe suivant, lalgorithme de relaxation labeling trouve, sous certaines hypothses, un maximimum local de la cohrence locale moyenne (averaged local consistency) qui correspond au support moyen reu par chaque lment. La cohrence locale moyenne mesure la compatibilit entre chaque hypothse ltiquette de ei est et le contexte nal. La complexit de ce processus est linaire par rapport au nombre de variables et au nombre de contraintes. tude thorique de lalgorithme de relaxation labeling Lalgorithme prcdent a t propos par [Rosenfeld et al., 1976] sur des bases purement heuristiques (cest la manire la plus naturelle de procder). Plusieurs travaux ont, depuis, fourni une base thorique ce processus de relaxation, en sappuyant, par exemple, sur la thorie de la dcision baysienne [Hancock et Kittler, 1990]. lheure actuelle lexplication gnralement retenue est celle de [Hummel et Zucker, 1983] qui permet de formuler la tche de ltiquetage cohrent, comme un problme doptimisation. [Hummel et Zucker, 1983] montre que le processus de RL maximise le support de chaque lment, cest--dire, quil permet de sassurer que, la convergence : i, : qi ( ; p) qi (; p) i o est ltiquette choisie pour llment i. Cela revient maximiser la cohrence i locale moyenne 5 dnie par :
n m

A( p, ) =
i=1 k=1

pi ()qi ()

La cohrence locale moyenne permet de mesurer quel point chaque tiquetage est cohrent avec lensemble de son voisinage. La mthode doptimisation mise en jeu dans le processus de relaxation labeling a t analyse par [Pelillo, 1997]. Cet article montre que le relaxation labeling appartient une classe de transformations de K introduite par Baum et Eagon. Cette classe de transformations permet de dterminer des optimums locaux grce une descente de gradient. La rgle de mise jour dcrite par lquation 6.3 se justie en remarquant que : A( p, ) = 2 qi () pi ()
5. Les premiers rsultats prsents dans [Hummel et Zucker, 1983] imposent un certains nombres de conditions sur la matrice R (symtrie, valeurs positives seulement, ...) pour que les rsultats prsents soient valides. Plusieurs approches ont depuis montr comment il tait possible de relcher ces hypothses [Pelillo, 1997]

6.2 tiquetage de squences partir de classieurs locaux

167

Bien quil soit proche dune descente de gradient, le relaxation labeling prsente plusieurs avantages. Premirement, il garantit la convergence vers un maximum local en nutilisant que des pas de taille xe. Il ny a donc pas besoin de calculer les drives successives de A pour choisir la taille du pas. Deuximement, sa complexit est faible, puisque le calcul du gradient est immdiat. Ces avantages sont directement lis aux proprits de la classe de transformations de Baum-Eagon [Pelillo, 1997]. La formulation de lalgorithme de relaxation labeling comme un problme doptimisation permet dinscrire notre approche dans le cadre dapprentissage structur que nous avons introduit au Chapitre 4 : la fonction de cot mesurant la compatibilit entre lentre x et la sortie y (quation 6.1) sexprime, dans notre approche, par la cohrence locale moyenne, mme si celle-ci ne fait pas intervenir explicitement une reprsentation jointe de lentre et de la sortie.

6.2.2

Slection des dpendances

Principe Pour slectionner automatiquement les contraintes prendre en compte, nous allons exploiter la nature des ccients de compatibilit mis en jeu dans lalgorithme de relaxation labeling. Le ccient ri j (, ) peut scrire sous la forme ei = e j = et signie que, si lon observe ltiquette en ime position, il y a de fortes chances que ltiquette du jme lment soit ; de manire similaire les ccients dordre suprieur peuvent se dcrire par des conjonctions daffectations : par exemple, un ccient de la forme ri jk (, , ) se traduit par la rgle ei = e j = ek = et signie que la prsence dune tiquette la ime position et dune tiquette la jme position imposent, avec une forte probabilit, que ltiquette du kme lment soit . Il y a donc une similarit tant formelle que smantique entre ccients de compatibilit et rgles dassociation. Les rgles dassociation [Agrawal et al., 1996, Cabena et al., 1997] sont un outils classique de fouille de donnes. Elles permettent de dcrire les lments qui co-occurent frquement dans un ensemble de transactions, chaque transaction tant constitue dun ensemble dlments gnralement appel item. Lexemple dapplication typique des rgles dassociation est lanalyse du panier dune mnagre : les item correspondent alors lensemble des produits que lon peut acheter et une transaction lensemble des achats dune personne. Une rgle dassociation est un couple de variables not a b o b est un item et a, un ensemble ditems. Cette rgle indique les transactions qui contiennent les items de a ont de fortes chances de contenir aussi litem b. Ainsi, dans lexemple du panier de la mnagre, les rgles dassociation permettent dextraire de lensemble des ventes des connaissances du type 80% des clients qui achtent des couches pour bb achtent du lait . Il existe des algorithmes, comme lalgorithme APriori [Borgelt, 2003] capable dextraire ecacement dun ensemble de transactions lensemble des rgles dassociation pertinentes, malgr le trs grand nombre de rgles possibles. Il existe de nombreuses mesures permettant dvaluer la pertinence dune rgle [Lallich et al., 2006]. Lalgorithme APriori peut donc tre utilis pour dterminer, lensemble des dpendances pertinentes : nous associons chaque squence dtiquettes, 1 , ..., N , du corpus dapprentissage la transaction constitue des paires (tiquette, position), cest-dire, la transaction (1 , 1) , ..., (N , N). Chacune de ces paires correspond un item. Une rgle dassociation extraite de cet ensemble de transactions aura alors la forme : (i , pi ) j , p j
iI

168

Modle dtiquetage de squences partir de classieurs locaux

o i est une tiquette, pi une position et I un ensemble dindices (un sous-ensemble de 1, N o N est la taille de la plus grande squence dtiquettes). Cette rgle dassociation correspond naturellement la contrainte : e pi = i e p j = j
iI

Nous proposons de dnir les ccients de compatibilit utiliss dans lalgorithme de relaxation labeling par lentropie conditionnelle de la rgle dassociation correspondante. Lentropie conditionnelle dune rgle dassociation est une combinaison du support et de la conance qui sont les deux mesures traditionnellement utilises pour valuer la pertinence dune rgle dassociation [Blanchard et al., 2005]. Pour dterminer lensemble des dpendances pertinentes partir dun ensemble dapprentissage, il sut donc de slectionner lensemble des rgles dassociation dont lentropie conditionnelle est suprieure un certain seuil. Ce seuil est un paramtre de notre algorithme. Utiliser lentropie conditionnelle des rgles dassociation pour dterminer les dpendances pertinentes et la valeur des ccients de compatibilit est intuitivement attrayant puisque lentropie conditionnelle dune rgle est relie au critre Istructure que nous avons introduit au Paragraphe 6.1.3 : ce dernier est dnie entre lments (c.--d. en considrant toutes les tiquettes possibles de ceux-ci), alors que lentropie conditionnelle considre les valeurs des lments. Cest, techniquement, la dirence entre linformation mutuelle et linformation mutuelle ponctuelle (pointwise mutual information) [Cover et Thomas, 1991]. Dailleurs, [Fleuret, 2004] propose de slectionnner les conjonctions de caractristiques pertinentes grce un algorithme identique APriori 6 : en supposant que toutes les caractristiques sont binaires (ce qui est usuellement le cas), linformation mutuelle et linformation mutuelle ponctuelle sont gales, et un critre similaire Istructure peut tre valu exactement. Gnralisation La mthode que nous avons prsente au paragraphe prcdent ne permet de dcrire que des contraintes dpendant de la position absolue des tiquettes. Ce type de contrainte nest toutefois pas assez robuste pour tre utilis concrtement, puisquil impose que les tiquettes apparaissent toujours la mme position. Pour viter ce problme, nous avons gnralis lapproche prsente dans le paragraphe prcdent pour pouvoir prendre en compte les positions relatives des tiquettes. Plus prcisement chaque squence de N lements est associ un ensemble de N transactions, la ime de ces transactions tant compose dun ensemble de couples (tiquette, position relative) dans lequel la position relative est dtermine par rapport au ime lment de la squence. Par exemple la squence dtiquettes , , va tre associe aux trois transactions : (, 0) , (, 1) , (, 2) (, 1) , (, 0) , (, 1) (, 2) , (, 1) , (, 0)

Cette approche entrane une explosion du nombre de transactions, mais lalgorithme APriori a t conu pour traiter de (trs) grands ensembles de transactions [Borgelt, 2003]. Les contraintes extraites de lensemble dapprentissage sont alors de
6. Larticle en fait pas directement le lien entre lalgorithme propos et APriori, mais les deux algorithmes sont similaires.

6.2 tiquetage de squences partir de classieurs locaux

169

la forme ei = ei+2 = ei1 = . Ce type de contrainte peut tre facilement pris en compte dans lalgorithme de relaxation labeling : il sut dinstancier les rgles pour toutes les positions possibles de la squence. Ainsi, dans le cas de lexemple prcdent, on gnrera une contrainte pour tous les lments de la squence dont ltiquette est et dont ltiquette de llment situ deux positions vers lavant est ; cette contrainte inuencera lattribution de ltiquette llment prcdent.

6.2.3

Avantages

Notre approche prsente plusieurs avantages qui lui permettent dviter certaines des limites des modles existants que nous avons mentionnes au Paragraphe 6.1.1 : en infrence : lalgorithme de relaxation labeling est une approche perturbative dans laquelle on va, itrativement, changer ltiquette dune partie de la solution courante, la modication tant conserve si elle amliore le score. Plus prcisement, ltiquette de chaque lment est mise jour en prenant en compte lensemble des tiquettes de tous les autres lments. Lalgorithme de relaxation labeling considre donc un espace constitu de solutions compltes contrairement aux approches constructives, comme lalgorithme de Viterbi, qui parcourent un espace de solutions partielles (Section 4.4). Il est alors possible, lors du choix dune tiquette, de connatre ltiquette de tous les autres lments et, par consquent, de prendre en compte aussi bien les dpendances locales que les dpendances non locales ou globales. Le relaxation labeling ore donc une alternative intressante lalgorithme de Viterbi, capable de prendre en compte des dpendances arbitraires tout en conservant lecacit de linfrence. dans lestimation des paramtres : les contraintes nous permettent de reprsenter les dpendances par des couples (ei , ). Cette reprsentation est plus souple que la reprsentation des dpendances par des fonctions de score local : dans notre modle, les dpendances sont conditionnes par la valeur des tiquettes et peuvent tre choisies dynamiquement en fonction de lobservation. Les problmes destimation sont ainsi rduits : il nest pas ncessaire, pour dcrire une dpendance entre n lments, destimer le score de toutes les aectations lmenttiquette possibles, mais seulement de celles que lon juge pertinentes. dans la slection des dpendances : la reprsentation des dpendances par des contraintes facilite galement la slection des dpendances pertinentes : elle permet de slectionner les dpendances suivant un critre de rgularit des squences dtiquettes. Or, la recherche de ces rgularits correspond la recherche des sous-ensembles frquents qui peut tre eectue plus ecacement que la recherche des lments informatifs en exploitant un critre de monotonie : un ensemble dlments ne peut tre frquent que si tous ses sous-ensembles le sont galement, alors quun ensemble dlments peut tre informatif sans quaucun de ses sous-lments ne le soit [Bell, 2003]. Cest toutefois un critre plus faible que les critres gnralement utiliss que nous avons prsents au Paragraphe 6.1.3 : il ne permet pas de dtecter lindpendance de deux sous-ensembles dlments, ni de prendre en compte les lments co-occurants peu frquemment bien que ceux-ci soient galement informatifs (au sens de la thorie de linformation). Mais il reste intuitivement attrayant : de manire gnrale, plus les donnes sont rgulires, plus la prdicion sera facile. Plusieurs travaux ont dailleurs fait le lien entre rgularit des

170

Modle dtiquetage de squences partir de classieurs locaux donnes et apprenabilit [Nannen, 2003, Bialek et al., 2001] et cette observation est est la base dun principe dinfrence inductive, le principe MDL (Minimum Description Length) [Grnwald, 2005].

6.2.4

Rsultats exprimentaux

Nous avons test notre approche sur deux tches dtiquetage de squences direntes : extraction dinformation partir de donnes structures : lobjectif de cette tche est dextraire de documents web (typiquement des documents HTML) certaines informations (prix, date, ...) [Liu et Chen-Chuan-Chang, 2004]. Elle peut tre vue comme une tche de restructuration limite la transformation des nuds de contenu. Il est possible dexploiter la structure du document dentre pour faciliter la tche dextraction : la segmentation du contenu par les feuilles du document HTML permet gnralement didentier les lments importants que lon cherche extraire. Cet argument est dtaill au Paragraphe 2.3.2. La tche dextraction dinformation partir de donnes structures consiste alors tiqueter la squence des feuilles du document HTML avec des tiquettes prdnies. Nous avons ralis nos expriences sur les corpus Courses et Movies (Paragraphe 5.1.3). Chaque collection a t divise, alatoirement, en un corpus de test et un corpus dapprentissage de mme taille. Les caractristiques du classieur local sont celles dcrites au Paragraphe 5.3.2. Comme nous lavons vu au Chapitre 5, il est ncessaire de prendre en compte des dpendances non locales pour obtenir de bonnes performances. analyse syntaxique de surface : cest la tche all-phrase chunking du d CoNLL00 [Tjong Kim Sang et Buchholz, 2000]. Lanalyse syntaxique de surface a pour objectif didentier certains groupes syntaxiques non rcursifs lintrieur dune phrase. Onze groupes dirents (noun phrase, adjective phrase ou subordinated clause, par exemple) sont dnis. Les groupes sont reprsents par trois types dtiquettes direntes : B-X signie premier lment dun groupe X ; I-X signie lment lintrieur dun groupe X et O signie lment qui nappartient pas un groupe . Ce codage BIO permet de traiter la tche de segmentation comme une tche dtiquetage. La Figure 6.3 en donne un exemple. Condence B-NP NP in O the B-NP NP pounds I-NP is O ... ...

Figure 6.3 Codage BIO pour la dtection des groupes nominaux Comme le signale [Tjong Kim Sang et Buchholz, 2000], les squences dtiquettes qui apparaissent dans cette tche prsentent de nombreuses dpendances puisque le codage BIO interdit naturellement certaines combinaisons dtiquettes. Dans nos expriences, nous avons utilis les caractristiques et les ensembles de test et dapprentissage dnis par [Tjong Kim Sang et Buchholz, 2000].

6.2 tiquetage de squences partir de classieurs locaux

171

Nous avons compar les performances de notre approche avec deux modles nutilisant que des caractristiques locales : un classieur multi classes simple, le classieur utilis dans la premire tape de notre mthode, et un CRF linaire 7 . Ces deux classieurs utilisent les mmes caractristiques que notre classieur local. Nous avons galement considr une approche permettant de prendre en compte les dpendances longues 8 . Cette approche inspire de [Viola et Narasimhan, 2005], est appele grammaire dans le reste de cette section. Elle propose de dcrire les dpendances entre lments par une hirarchie de variables caches et reformule ainsi la tche dtiquetage de squences comme une tche danalyse syntaxique. Dans cette approche, les dpendances doivent tre spcies la main : comme nous lavons vu au Paragraphe 4.6.1, cette approche supppose quil existe une grammaire dcrivant de manire explicite et extensive lensemble des dpendances entre lments. Cette hypothse est vrie dans le cas des tches dextraction dans lesquelles il est possible dutiliser le schma de sortie comme nous lavons montr la Section 5.2.2. Dans le cas de la tche danalyse syntaxique de surface, lcriture des dpendances est plus problmatique : bien quil existe une grammaire (celle de langlais), celle-ci ne permet pas dexpliciter facilement un ensemble de dpendances pertinentes. Lapproche grammaire na donc t applique que sur les corpus Movies et Courses. Rsultats La Table 6.3 prsente les rsultats des direntes expriences. Les scores correspondent une mesure F1 standard. Movies 90, 6% 97,4% 96, 4% 97,5% Course 47, 9% 88.1% 78, 7% 87,4% Chunking 90, 3% 93,2% 94,6%

classieur local approche propose CRF Grammar

Table 6.3 Rsultats des diffrentes expriences dtiquetage de squences sur diffrentes tches ; le modle Grammar na pas pu tre utilis pour la tche de chunking dans la mesure o nous ne disposons pas dune grammaire de la langue anglaise Les rsultats montrent limportance de la prise en compte des dpendances entre tiquettes pour les dirents corpus considrs et notamment pour les corpus dextraction dinformation. Il est en eet ncessaire, dans ces derniers corpus, de considrer la structure pour choisir correctement ltiquette des lments. Par exemple, dans le corpus Courses (Figure 6.4), il faut arriver distinguer les lments indiquant lheure de dbut du cours (tiquette start_time) des lments indiquant la n du cours (tiquette end_time). Ces deux lments ont des contenus qui ont la mme forme et leur position relative est le moyen le plus simple de les distinguer. Cest pourquoi, les scores du classieur local sont toujours les plus mauvais, mme si lcart de performances est plus faible dans la tche danalyse syntaxique de surface. Ces expriences montrent limportance des informations non locales. Celles-ci permettent damliorer de manire signicative les performances sur les corpus dextraction dinformation : notre approche et lapproche grammaire obtiennent de meilleurs
7. dans nos expriences, nous avons utiliss FlexCRF [Phan et Nguyen, 2005] 8. mais pas les dpendances globales

172

Modle dtiquetage de squences partir de classieurs locaux

<?xml version=1.0 ?> <course> <code>MUSI 389</code> <title>COLLABORATIVE PIANO SKILLS</title> <credits>1.00</credits> <comments> A practicum exploring the pianist as an ensemble.</comments> <section> <section_num>001</section_num> <days>F</days> <time> <start_time>04:30PM</start_time> <end_time>06:00PM</end_time> </time> <place> <building>APB</building> <room>1402</room> </place> <instructor>Fischer, Jeanne</instructor> </section> </course>

Figure 6.4 Extrait dun document du corpus Courses rsultats que les CRF qui ne considrent que des dpendances entre tiquettes adjacentes. Dans la tche danalyse syntaxique de surface, les performances des CRF sont lgrement meilleures, mais notre approche est nettement plus rapide 9 . Les rsultats de notre approche sont similaires ceux de lapproche grammaire. Les dpendances selectionnes par notre mthode sont donc aussi pertinentes que celles spcies manuellement dans lapproche grammaire. Leur prise en compte lors de linfrence est, de plus, nettement plus ecace : la complexit de notre approche est linaire par rapport au nombre dlments de la squence alors quil est cubique dans le cas de lapproche grammaire. Il faut galement noter que, les performances du CRF sont particulirement faibles pour la tche dextraction. Ce rsultat est d la rgularisation des fonctions de score locales. cause de la rgularisation, toutes les transitions entre deux tiquettes sont possibles : les CRF ne sont pas capables de prendre en compte le fait que lespace de sortie est fortement contraint et que seules quelques squences dtiquettes sont possibles. Nous avons utilis, dans ces expriences, les valeurs par dfaut des dirents paramtres du CRF (et notamment de son paramtre de rgularisation). Un rglage plus n aurait peut-tre vit ce problme, mais il a permis dobtenir de bonnes performances sur la tche danalyse syntaxique de surface.
9. la dure des expriences est sensiblement la mme, alors que nous avons utilis une implmentation non optimise en python de notre approche et une implmentation C++ des CRF conue spciquement pour traiter de grands corpus. cause des ces dirences dimplmentation, une comparaison plus prcise des temps dinfrence et dapprentissage nest toutefois pas pertinente

6.3 Conclusion

173

6.3

Conclusion

Nous avons, dans ce chapitre, analys les limites des approches dtiquetage de squences existantes. Cette analyse nous a permis dnoncer et de motiver la deuxime ide centrale de ce travail : la structure nest quune source dinformation parmi dautres et il est donc ncessaire quun modle dapprentissage structur soit capable de slectionner les dpendances pertinentes (celles qui amliorent les performances de prdiction) et de nutiliser que celles-ci. Nous avons galement propos une mthode mettant en uvre ce principe. Cette mthode repose sur une modlisation des dpendances par des contraintes, ce qui permet une slection ecace des dpendances par un algorithme de recherche des itemsets frquents et la prise en compte de celles-ci lors de linfrence par un algorithme de relaxation labeling. Nous avons montr exprimentalement la validit de cette approche sur deux tches dtiquetage de squences. Les rsultats de ces expriences posent plusieurs questions, notamment sur lintrt de la structure lors de la prdiction et la manire dont celle-ci doit tre prise en compte. Ces rsultats doivent toutefois tre conrms sur dautres tches. Il serait galement souhaitable de pouvoir apporter une justication thorique notre approche. La mthode de slection des dpendances que nous avons propose repose sur la rgularit de squences dtiquettes que nous avons intuitivement caractrise par la co-occurence des tiquettes. Il est existe toutefois une notion de complexit statistique (statistical complexity) [Nan et Adjeroh, 2004, Feldman et Crutcheld, 1998] qui permet de caractriser de manire plus formelle les rgularits dune squence et qui pourrait tre utilise pour donner une justication plus thorique notre travail. Ce chapitre ouvre galement la voie plusieurs perspectives. Une premire perspective est lapplication des mthodes dapprentissage structur aux graphes. Les mthodes dapprentissage structur existantes supposent quil existe une mthode dinfrence ecace, ce qui nest pas le cas des graphes. La mthode dtiquetage de squences que nous avons propose dans ce chapitre pourrait tre aisment gnralise au cas des graphes. Une deuxime perspective concerne la complexit de linfrence qui, comme nous lavons vu au cours de ce travail, est un problme majeur de la prdiction dans les espaces structurs. Dans ce chapitre, nous avons propos daborder ce problme sous langle de la slection de caractristiques et, plus particulirement, en slectionnant les dpendances pertinentes. Certaines mthodes dinfrence, comme celle que nous avons utilise, permettent destimer la complexit de linfrence en fonction du nombre de dpendances que le modle prend en compte. Il doit alors tre possible dexplorer lespace des caractristiques de faon non pas uniquement minimiser lerreur de gnralisation, mais aussi imposer un compromis entre erreur de gnralisation et complexit de linfrence. Il serait ainsi possible de dvelopper des modles capables de raliser un compromis entre la qualit dune prdiction et son cot.

174

Modle dtiquetage de squences partir de classieurs locaux

7
Conclusion

Sommaire
7.1 7.2 Rsum de notre travail . . . . . . . . . . . . . . . Perspectives . . . . . . . . . . . . . . . . . . . . . 7.2.1 Dans le domaine de laccs linformation . 7.2.2 Dans le domaine de lapprentissage structur . . . . . . . . . . . . . . . . . . . . . . . . . 175 . 176 . 176 . 177

7.1

Rsum de notre travail


e travail porte sur lapprentissage statistique dans les espaces structurs et sur lap-

C plication de ces techniques la restructuration de documents et ltiquetage de squences.


Nous avons prsent, dans une premire partie, le contexte de ce travail aussi bien dans le domaine de laccs linformation (Chapitre 2) que dans le domaine de lapprentissage statistique (Chapitre 3 et 4). Cette partie de prsentation nous a permis dintroduire la problmatique de restructuration et de justier son intrt, ainsi que didentier les dirents ds auxquels les mthodes dapprentissage structur doivent faire face. Nous avons ensuite dcrit, dans une deuxime partie de ce travail, nos contributions : le Chapitre 5 synthtise les dirents modles de restructuration que nous avons proposs et le Chapitre 6 propose une mthode originale permettant de prendre en compte des dpendances riches tout en maintenant une complexit en infrence raisonnable. Nous avons voulu, dans ce travail, prsenter et dfendre deux ides centrales, une qui concerne le domaine de laccs linformation et lautre le domaine de lapprentissage structur : 1. Les documents HTML contiennent susamment dinformations pour permettre dinfrer une structure smantiquement riche. Le HTML peut donc tre considr comme un format pivot partir duquel chaque application extrait la reprsentation smantique dont elle a besoin. 2. La structure nest quune source dinformation parmi dautre. La prise en compte de cette information a un cot (infrence plus longue et dicult de lestimation des paramtres). Il est donc ncessaire quun modle dapprentissage structur soit capable de slectionner les dpendances pertinentes (celles qui amliorent les performances de prdiction) et de nutiliser que celles-ci.

176

Conclusion

Ltude de ces deux thses nous a permis dapporter plusieurs contributions originales : une nouvelle motivation de la tche de la restructuration (Chapitre 2) ; une mthode de restructuration qui, contrairement aux approches existantes, ne ncessite pas dhypothse sur la conservation du nombre de feuilles au cours de la transformation (Chapitre 4) ; une prsentation des travaux dapprentissage structur dans un cadre uniforme et une discussion sur la motivation et les hypothses de ces mthodes (Chapitre 5) ; une tude exprimentale des principales mthodes dapprentissage structur sur deux tches distinctes (restructuration et tiquetage de squences) qui met en vidence les limites de ces mthodes (Chapitres 4, 5 et 6) ; une mthode dtiquetage de squences originale capable de slectionner et dutiliser ecacement les dpendances non locales (Chapitre 6). Les deux premires contributions concernent plutt le domaine de laccs linformation ; les trois dernires, le domaine de lapprentissage statistique.

7.2

Perspectives

Cette thse ouvre plusieurs perspectives dans les deux problmatiques que nous avons abordes.

7.2.1

Dans le domaine de laccs linformation

Nous avons montr, dans ce travail, quil tait possible dextraire une structure smantiquement riche des documents web. La mise en pratique de cette possibilit ncessite toutefois plusieurs amliorations. La rduction de la complexit des mthodes de restructuration proposes constitue une premire amlioration ncessaire : lutilisation de mthodes de restructuration dans des cas rels nest possible que si la transformation dun document est rapide. Lapplication la tche de restructuration de la mthode dtiquetage de squences que nous avons propose peut fournir un premier moyen de raliser cet objectif. Une autre perspective de nos travaux consiste rduire leort dtiquetage ncessaire la mise en uvre des mthodes de restructuration proposes : un de leurs principaux inconvnients est de ncessiter un grand nombre de donnes tiquetes en apprentissage. La cration de ce corpus dapprentissage ncessite de transformer la main un grand nombre de documents vers le schma cible. Cest un inconvnient commun la plupart des approches utilisant lapprentissage statistique. Plusieurs approches peuvent tre imagines pour rsoudre ce problme. La premire consiste sappuyer sur les travaux raliss en apprentissage multi-tches (multitask learning) [Caruana, 1997] ou en transfert inductif (inductive transfer) [Silver et al., 2005]. Les techniques dveloppes dans le cadre de ces deux problmatiques permettent, en eet, dutiliser les informations apprises sur un corpus pour faciliter lapprentissage de la transformation dun autre corpus. Il est alors possible dapprendre partir dun plus petit nombre de donnes. Une autre approche consiste construire des mthodes dapprentissage capables dapprendre directement partir de trs peu de donnes. Le dveloppement de telles mthodes est une problmatique apparue rcemment en apprentissage statistique. Elle est principalement motive par le traitement des donnes biologiques. De premiers rsultats concluants ont t prsents rcmment ([Palatucci et Mitchell, 2007] par

7.2 Perspectives

177

exemple). Ces rsultats fournissent un point de dpart la mise en uvre de cet objectif.

7.2.2

Dans le domaine de lapprentissage structur

Nos travaux en tiquetage de squences posent plusieurs questions. Ils remettent notamment en cause lintrt de linfrence jointe et nous amnent nous interroger sur lutilit de la structure dans la prdiction et sur la manire dont linformation apporte par la structure doit tre prise en compte. Toutefois, les rsultats que nous avons obtenus, doivent tre conrms notamment sur dautres tches dapprentissage structur. La gnralisation aux graphes de la mthode que nous avons propose constitue une premire perspective ce travail. Une deuxime perspective consiste apporter une justication thorique la mthode de slection des dpendances que nous avons propose. Cette mthode repose sur la rgularit de squences dtiquettes. Comme nous lavons indiqu au Chapitre 6, plusieurs mesures de rgularit ont t proposes en physique statistique ou en biologie. Ces mesures pourraient servir de point de dpart pour caractriser de manire plus formelle les rgularits dune squence. Il serait alors possible, en sappuyant sur le lien entre rgularit et prdictibilit mis en vidence par exemple par [Bialek et al., 2001] ou [Grnwald, 2005] de donner une justication plus thorique notre travail. La rduction de la complexit de linfrence constitue une troisime perspective de ce travail. Comme nous lavons montr, cette complexit est un problme majeur de lapprentissage structur : la prise en compte du contexte lors de linfrence jointe a un cot qui se traduit par une augmentation du nombre de paramtres estimer et de la complexit de linfrence. Nous pensons que pour tre utiliss en pratique, les modles dapprentissage structur doivent tre capables de raliser un compromis entre la qualit dune prdiction et son cot. Une manire de dvelopper de tels modles serait de faire le lien entre la complexit de linfrence et le nombre ou le type de dpendances considres. Il serait alors possible, comme nous lavons propos, daborder ce problme sous langle de la slection de caractristiques et dexplorer lespace des caractristiques de faon non pas uniquement minimiser lerreur de gnralisation, mais aussi imposer un compromis entre erreur de gnralisation et complexit de linfrence. On pourrait, par exemple, dvelopper des algorithmes capables de trouver lensemble des dpendances minimisant (une borne sur) lerreur de gnralisation sous la contrainte que le temps dinfrence soit plus petit quune constante.

178

Conclusion

Bibliographie
[Abbeel et al., 2006] Pieter Abbeel, Daphne Koller, et Andrew Y. Ng. Learning factor graphs in polynomial time and sample complexity. JMLR, 7 :17431788, 2006. [Abiteboul, 1997] Serge Abiteboul. Querying semi-structured data. In ICDT, pages 118, 1997. [Agichtein et Gravano, 2000] Eugene Agichtein et Luis Gravano. Snowball : extracting relations from large plain-text collections. In DL 00 : Proceedings of the fth ACM conference on Digital libraries, pages 8594, New York, NY, USA, 2000. ACM Press. [Agrawal et al., 1996] Rakesh Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, et A. Inkeri Verkamo. Fast discovery of association rules. pages 307328, 1996. [Aji et McEliece, 2000] Srinivas M. Aji et Robert J. McEliece. The generalized distributive law. IEEE Transactions on Information Theory, 46 :325343, 2000. [Akaike, 1973] Hirotogu Akaike. Information theory and an extension of the maximum likelihood principle. In Second International Symposium on Information Theory, 1973. [Ali et al., 2007] M.S. Ali, M.P. Consens, et M. Lalmas. Structural relevance in xml retrieval evaluation. In SIGIR 2007 Workshop on Focused Retrieval, 2007. [Altun et al., 2003] Yasemin Altun, Mark Johnson, et Thomas Hofmann. Investigating loss functions and optimization methods for discriminative learning of label sequences. In Proceedings of the 2003 conference on Empirical methods in natural language processing, pages 145152, Morristown, NJ, USA, 2003. Association for Computational Linguistics. [Amer-Yahia et al., 2002] Sihem Amer-Yahia, SungRan Cho, et Divesh Srivastava. Tree pattern relaxation. In EDBT 02 : Proceedings of the 8th International Conference on Extending Database Technology, pages 496513, London, UK, 2002. Springer-Verlag. [Ames et Naaman, 2007] Morgan Ames et Mor Naaman. Why we tag : Motivations for annotation in mobile and online data. In CHI07, 2007. [Andrieu et al., 2003] C. Andrieu, N. de Freitas, A. Doucet, et M. Jordan. An introduction to MCMC for machine learning. Machine Learning, 50 :543, 2003. [Anthony et Bartlett, 1999] M. Anthony et P. Bartlett. Neural Networks Learning :Theoritical Foundations. Cambridge University Press, 1999. [Aslam et Decatur, 1996] Javed A. Aslam et Scott E. Decatur. On the sample complexity of noise-tolerant learning. Inf. Process. Lett., 57(4) :189195, 1996.

180

Bibliographie

[Awasthi et al., 2007] Pranjal Awasthi, Aakanksha Gagrani, et Balaraman Ravindran. Image modeling using tree structured conditional random elds. In IJCAI, 2007. [Aycock et Horspool, 2002] J. Aycock et R.N. Horspool. Practical Earley parsing. The Computer Journal, 45(6) :620630, 2002. [Baluja, 2006] S. Baluja. Browsing on small screens : recasting web-page segmentation into an ecient machine learning framework. In n Proceedings of the 15th International Conference on World Wide Web, pages 3342. ACM Press, May 2006. [Bartak, 1999] R. Bartak. Constraint programming : In pursuit of the holy grail, 1999. [Bartlett et al., 2004] Peter L. Bartlett, Michael Collins, Benjamin Taskar, et David A. McAllester. Exponentiated gradient algorithms for large-margin structured classication. In NIPS, 2004. [Batini et al., 1986] C. Batini, M. Lenzerini, et S. B. Navathe. A comparative analysis of methodologies for database schema integration. ACM Comput. Surv., 18(4) :323 364, 1986. [Batu et al., 2001] T. Batu, L. Fortnow, E. Fischer, R. Kumar, R. Rubinfeld, et P. White. Testing random variables for independence and identity. In FOCS 01 : Proceedings of the 42nd IEEE symposium on Foundations of Computer Science, page 442, Washington, DC, USA, 2001. IEEE Computer Society. [Bell, 2003] A.J. Bell. The co-information lattice. In Proceedings of the Fifth International Workshop on Independent Component Analysis and Blind Signal Separation : ICA, 2003. [Bellman, 1957] Richard Bellman. Dynamic Programming. Princeton University Press, 1957. [Ben David, 2005] Shai Ben David. Formal framework for multi-task learning with provable generalization bounds. In NIPS05 Inductive Transfert Workshop, 2005. [Bengio et al., 1994] Yoshua Bengio, Patrice Simard, et Paolo Frasconi. Learning long-term dependencies with gradient descent is dicult. IEEE Transactions on Neural Networks, 5(2) :157166, March 1994. [Berger et al., 1996] Adam L. Berger, Vincent J. Della Pietra, et Stephen A. Della Pietra. A maximum entropy approach to natural language processing. Comput. Linguist., 22(1) :3971, 1996. [Berners-Lee et al., 2001] Tim Berners-Lee, James Hendler, et Ora Lassila. The semantic web. Scientic American, 2001. [Berners-Lee et Fischetti, 1999] Tim Berners-Lee et Mark Fischetti. Weaving the Web : The Original Design and Ultimate Destiny of the World Wide Web by its Inventor. Weaving the Web : The Original Design and Ultimate Destiny of the World Wide Web by its Inventor, 1999. [Bernstein et Melnik, 2007] Philip A. Bernstein et Sergey Melnik. Model management 2.0 : manipulating richer mappings. In SIGMOD 07 : Proceedings of the 2007 ACM SIGMOD international conference on Management of data, pages 112, New York, NY, USA, 2007. ACM Press. [Bex et al., 2002] Geert Jan Bex, Sebastian Maneth, et Frank Neven. A formal model for an expressive fragment of XSLT. Inf. Syst., 27(1) :2139, 2002. [Bialek et al., 2001] William Bialek, Ilya Nemenman, et Naftali Tishby. Predictability, complexity and learning. Neural Computation, 13 :2409, 2001.

Bibliographie

181

[Blanchard et al., 2005] Julien Blanchard, Fabrice Guillet, Regis Gras, et Henri Briand. Using information-theoretic measures to assess association rule interestingness. In Proceedings of the fth IEEE International Conference on Data Mining ICDM05, pages 6673. IEEE Computer Society, 2005. [Blum et Roli, 2003] Christian Blum et Andrea Roli. Metaheuristics in combinatorial optimization : Overview and conceptual comparison. ACM Comput. Surv., 35(3) :268308, 2003. [Bod, 2001] R. Bod. Using natural language processing techniques for musical parsing. In Proceedings ACH/ALLC2001, 2001. [Booth, 1969] T.L. Booth. Probabilisitic representation of formal languages. Tenth Annual IEEE Symposium on Switching and Automata Theory, pages 7481, 1969. [Borgelt, 2003] Christian Borgelt. Ecient implementations of apriori and eclat. In Workshop of Frequent Item Set Mining Implementations (FIMI), 2003. [Bosak et Bray, 1999] John Bosak et Tim Bray. Xml and the second-generation web. Scientic American, 1999. [Boscolo et al., 2004] Riccardo Boscolo, James C. Liao, et Vwani P. Roychowdhury. An information theoretic exploratory method for learning patterns of conditional co-expression in gene microarray data, 2004. [Bouquet et al., 2006] Paolo Bouquet, Luciano Serani, Stefano Zanobini, et Simone Sceer. Bootstrapping semantics on the web : meaning elicitation from schemas. In WWW 06 : Proceedings of the 15th international conference on World Wide Web, pages 505512, New York, NY, USA, 2006. ACM Press. [Bousquet, 1999] Olivier Bousquet. Apprentissage automatique et simplicit. Masters thesis, ENST, 1999. [Boyd et Vandenberghe, 2004] Stephen Boyd et Lieven Vandenberghe. Convex Optimization. Cambridge University Press, 2004. [Bozdogan, 2000] Hamparsum Bozdogan. Akaikes information criterion and recent developments in information complexity. J. Math. Psychol., 44(1) :6291, 2000. [Breuel, 2003] Thomas M. Breuel. Information extraction from HTML documents by structural matching. In WDA03, 2003. [Brill, 1995] Eric Brill. Transformation-based error-driven learning and natural language processing : a case study in part-of-speech tagging. volume 21, pages 543 565, Cambridge, MA, USA, 1995. MIT Press. [Brggemann-Klein et Wood, 2004] Anne Brggemann-Klein et Derick Wood. A conceptual model for XML. In Digital Documents : Systems and Principles, volume 2023/2004 of Lecture Notes in Computer Science, pages 176189. Springer Berlin / Heidelberg, 2004. [Bunescu et Mooney, 2004] Razvan Bunescu et Raymond J. Mooney. Collective information extraction with relational Markov networks. In ACL 04 : Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, page 438, Morristown, NJ, USA, 2004. Association for Computational Linguistics. [Buyukkokten et al., 2001] Orkut Buyukkokten, Hector Garcia-Molina, et Andreas Paepcke. Seeing the whole in parts : Text summarization for web browsing on handheld devices. In In Proceedings of the Tenth International World-Wide Web Conference, 2001.

182

Bibliographie

[Cabena et al., 1997] Peter Cabena, Pablo Hadjnian, Rolf Stadler, Jaap Verhees, et Allesandro Zanasi. Discovering Data Mining : From Concept to Implementation. Prentice Hall, 1997. [Cakmakov et Bennani, 2002] Dusan Cakmakov et Youns Bennani. Feature Selection for Pattern Recognition. Informa Press, 2002. [Callan, 1994] James P. Callan. Passage-level evidence in document retrieval. In SIGIR 94 : Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pages 302310, New York, NY, USA, 1994. Springer-Verlag New York, Inc. [Callut et Dupont, 2005] Jrme Callut et Pierre Dupont. Learning hidden Markov models to t long-term dependencies. Technical report, Universit catholique de Louvain, 2005. [Caraballo et Charniak, 1998] Sharon A. Caraballo et Eugene Charniak. New gures of merit for best-rst probabilistic chart parsing. Comput. Linguist., 24(2) :275298, 1998. [Carreras et al., 2005] A. Xavier Carreras, B. Llus Mrquez, et C. Jorge Castro. Filtering-ranking perceptron learning for partial parsing. Mach. Learn., 60(1-3) :41 71, 2005. [Caruana, 1997] Rich Caruana. Multitask learning. Machine Learning, 28 :4175, 1997. [Chang et al., 2004] Kevin Chen-Chuan Chang, Bin He, Chengkai Li, Mitesh Patel, et Zhen Zhang. Structured databases on the web : observations and implications. SIGMOD Rec., 33(3) :6170, 2004. [Chang et al., 2006] Ming-Wei Chang, Quang Do, et Dan Roth. A pipeline framework for dependency parsing. In ACL, 2006. [Charniak et al., 1998] E. Charniak, S. Goldwater, et M. Johnson. Edge-based bestrst chart parsing. In In Proceedings of the Fourteenth National Conference on Articial Intelligence, pages 127133, 1998. [Chaudhuri et al., 2005] S. Chaudhuri, R. Ramakrishnan, et G. Weikum. Integrating DB and IR technologies : What is the sound of one hand clapping ? In CIDR, 2005. [Chidlovskii et Fuselier, 2004] Boris Chidlovskii et Jrme Fuselier. Supervised learning for the legacy document conversion. In DocEng 04 : Proceedings of the 2004 ACM symposium on Document engineering, pages 220228, New York, NY, USA, 2004. ACM Press. [Chidlovskii et Fuselier, 2005] Boris Chidlovskii et Jrme Fuselier. A Probabilistic Learning Method for XML Annotation of Documents. In IJCAI, 2005. [Chomsky, 1957] Noam Chomsky. Syntactic Structures. the Hague : Mouton, 1957. [Chung et al., 2002] Christina Yip Chung, Michael Gertz, et Neel Sundaresan. Reverse engineering for web data : From visual to semantic structures. In ICDE, 2002. [Collins et al., 2002] Michael Collins, Robert E. Schapire, et Yoram Singer. Logistic regression, adaboost and bregman distances. Mach. Learn., 48(1-3) :253285, 2002. [Collins et Duy, 2001a] M. Collins et N. Duy. Convolution kernels for natural language. In NIPS, 2001. [Collins et Duy, 2001b] Michael Collins et Nigel Duy. New ranking algorithms for parsing and tagging : kernels over discrete structures, and the voted perceptron.

Bibliographie

183

In ACL 02 : Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 263270, Morristown, NJ, USA, 2001. Association for Computational Linguistics. [Collins et Koo, 2005] Michael Collins et Terry Koo. Discriminative reranking for natural language parsing. Computational Linguistics, 31 :2569, 2005. [Collins et Roark, 2004] Michael Collins et Brian Roark. Incremental parsing with the perceptron algorithm. In ACL, 2004. [Collins, 2002] Michael Collins. Discriminative training methods for hidden Markov models : Theory and experiments with perceptron algorithms. In EMNLP, 2002. [Collins, 2004] Michael Collins. Parameter estimation for statistical parsing models : Theory and practice of distribution-free methods. In Harry Bunt, John Carroll, et Giorgio Satta, editors, New Developments in Parsing Technology. Kluwer, 2004. [Collobert et Bengio, 2004] Ronan Collobert et Samy Bengio. Links between perceptrons, MLPs and SVMs. In ICML 04 : Proceedings of the twenty-rst international conference on Machine learning, page 23, New York, NY, USA, 2004. ACM Press. [Cook et al., 1997] William J. Cook, William H. Cunningham, William R. Pulleyblank, et Alexander Schrijver. Combinatorial Optimization. John Wiley & Sons, 1997. [Cover et Thomas, 1991] Thomas M. Cover et Joy A. Thomas. Elements of information theory. New York : Wiley, 1991. [Crammer et Singer, 2002] Koby Crammer et Yoram Singer. On the algorithmic implementation of multiclass kernel-based vector machines. J. Mach. Learn. Res., 2 :265292, 2002. [Cristianini et Shawe-Taylor, 2000] Nello Cristianini et John Shawe-Taylor. An Introduction to Support Vector Machines. Cambridge University Press, 2000. [Culotta et McCallum, 2005] Aron Culotta et Andrew McCallum. Reducing labeling eort for structured prediction tasks. In AAAI 2005, pages 746751, 2005. [Cumby et Roth, 2000] C. Cumby et D. Roth. Relational representations that facilitate learning. In Proceedings of the International Conference on the Principles of Knowledge Representation and Reasoning, pages 425434, 2000. [Cumby et Roth, 2003] Chad M. Cumby et Dan Roth. On kernel methods for relational learning. In Tom Fawcett et Nina Mishra, editors, Machine Learning, Proceedings of the Twentieth International Conference (ICML 2003), pages 107114. AAAI Press, 2003. [Cussens, 2003] James Cussens. Individuals, relations and structures in probabilistic models. In IJCAI Workshop on Learning Statistical Models from Relational Data, pages 3236, 2003. [Daum III et al., 2006] Hal Daum III, John Langford, et Daniel Marcu. Searchbased structured prediction. Submitted to the Machine Learning Journal, 2006. [Daum III et Marcu, 2004] Hal Daum III et Daniel Marcu. A phrase-based HMM approach to document/abstract alignment. In Proceedings of EMNLP, 2004. [Daum III et Marcu, 2005] Hal Daum III et Daniel Marcu. Learning as search optimization : approximate large margin methods for structured prediction. In ICML 05 : Proceedings of the 22nd international conference on Machine learning, pages 169176, New York, NY, USA, 2005. ACM Press.

184

Bibliographie

[Daum III, 2006] Harold Charles Daum III. Practical Structured Learning Techniques for Natural Language Processing. PhD thesis, University of Southern California, 2006. [Denoyer et al., 2004] Ludovic Denoyer, Guillaume Wisniewski, et Patrick Gallinari. Document structure matching for heterogeneous corpora. In Workshop SIGIR 2004, Workshop on IR and XML, Sheeld, July 2004. [Denoyer et al., 2005] Ludovic Denoyer, Guillaume Wisniewski, et Patrick Gallinari. Classication automatique de structures arborescentes laide de noyaux de scher : Application aux documents xml. In Actes du6me Congrs Europen de Systmique, 2005. [Denoyer et Gallinari, 2004] Ludovic Denoyer et Patrick Gallinari. Bayesian network model for semi-structured document classication. Information Processing and Management, pages 807827, 2004. [Dietterich, 2002] Thomas G. Dietterich. Machine learning for sequential data : A review. In Proceedings of the Joint IAPR International Workshop on Structural, Syntactic, and Statistical Pattern Recognition, pages 1530, London, UK, 2002. Springer-Verlag. [D.J. Newman et Merz, 1998] C.L. Blake D.J. Newman, S. Hettich et C.J. Merz. UCI repository of machine learning databases, 1998. [Do et al., 2003] H. H. Do, S. Melnik, et E. Rahm. Comparison of schema matching evaluations. In Springer, editor, Proceedings of the International Workshop Web and Databases, volume 2593 of Lecture Notes in Computer Science, Berlin, 2003. [Doan et al., 2002] AnHai Doan, Jayant Madhavan, Pedro Domingos, et Alon Halevy. Learning to map between ontologies on the semantic web. In WWW 02 : Proceedings of the 11th international conference on World Wide Web, pages 662673, New York, NY, USA, 2002. ACM Press. [Doan et al., 2003] Anhai Doan, Pedro Domingos, et Alon Halevy. Learning to match the schemas of data sources : A multistrategy approach. Mach. Learn., 50(3) :279 301, 2003. [Doan et Halevy, 2005] A. Doan et A. Halevy. Semantic integration research in the database community : A brief survey. AI Magazine, Special Issue on Semantic Integration, 2005. [Domingos, 1999] Pedro Domingos. The role of Occams razor in knowledge discovery. Data Min. Knowl. Discov., 3(4) :409425, 1999. [Dong et Halevy, 2005] X. Dong et A. Y. Halevy. Malleable schemas a preliminary report. In WebDB, 2005. [Druck et al., 2007] Greg Druck, Mukund Narasimhan, et Paul Viola. Learning A* underestimates : Using inference to guide inference. In AISTATS07, 2007. [Duda et al., 2000] R. O. Duda, P. E. Hart, et D. G. Stork. Pattern Classication. New York : Wiley Interscience, 2000. [Dumitrescu et Sttzle, 2003] I. Dumitrescu et T. Sttzle. A survey of methods that combine local search and exact algorithms. Technical Report AIDA-03-07, FG Intellektik, FB Informatik, TU Darmstadt, Germany, 2003. Submitted to EJOR. [Dupont et Miclet, 1998] Pierre Dupont et Laurent Miclet. Infrence grammaticale rgulire : fondement thorique et principaux algorithmes. Technical report, INRIA, 1998.

Bibliographie

185

[Durbin et Krogh, 1998] Eddy Durbin et Mitchison Krogh. Biological sequence analysis. Cambridge University Press, 1998. [Etzioni et al., 2006] Oren Etzioni, Michele Banko, et Michael J. Cafarella. Machine reading. In AAAI06, 2006. [Feldman et Crutcheld, 1998] D. P. Feldman et J. P. Crutcheld. Measures of statistical complexity : Why ? Physics Letters, A 238(4-5) :244252, 1998. [Felzenszwalb et McAllester, 2007] Pedro F. Felzenszwalb et David McAllester. The generalized A* architecture. Journal of Articial Intelligence Research, 29 :153 190, 2007. [Fine et al., 1998] Shai Fine, Yoram Singer, et Naftali Tishby. The hierarchical hidden Markov model : Analysis and applications. Machine Learning, 32(1) :4162, 1998. [Finkel et al., 2005] Jenny Finkel, Trond Grenager, et Christopher D. Manning. Incorporating non-local information into information extraction systems by Gibbs sampling. In ACL05, 2005. [Fleuret, 2004] Franois Fleuret. Fast binary feature selection with conditional mutual information. J. Mach. Learn. Res., 5 :15311555, 2004. [Florescu et al., 1998] Daniela Florescu, Alon Levy, et Alberto Mendelzon. Database techniques for the world-wide web : a survey. volume 27, pages 5974, New York, NY, USA, 1998. ACM Press. [Freund et Schapire, 1999] Yoav Freund et Robert E. Schapire. Large margin classication using the perceptron algorithm. Mach. Learn., 37(3) :277296, 1999. [Fuhr et al., 2002] Norbert Fuhr, N. Govert, G. Kazai, et M. Lalmas. Inex : Initiative for the evaluation of xml retrieval. In SIGIR02 Workshop on XML and Information Retrieval, 2002. [Fuhr, 1993] Norbert Fuhr. A probabilistic relational model for the integration of ir and databases. In SIGIR 93 : Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pages 309317, New York, NY, USA, 1993. ACM Press. [Fuselier, 2006] Jrme Fuselier. Conversion automatique de documents numriques vers XML. PhD thesis, Universit de Savoie, 2006. [Gadat et Younes, 2005] Sbastien Gadat et Laurent Younes. A stochastic algorithm for feature selection in pattern recognition. Journal of Machine Learning Research., 2005. [Gal et al., 2005] Avigdor Gal, Ateret Anaby-Tavor, Alberto Trombetta, et Danilo Montesi. A framework for modeling and evaluating automatic semantic reconciliation. The VLDB Journal, 14(1) :5067, 2005. [Gallinari et al., 2005] Patrick Gallinari, Guillaume Wisniewski, Maes, et Lud ovic Denoyer. Stochastic models for document restructuration. In ECML Workshop on Relationnal Machine Learning, 2005. [Gardarin, 1999] Georges Gardarin. Bases de donnes : objet et relationnel. Eyrolles, 1999. [Geman et Geman, 1984] Stuart Geman et Donald Geman. Stochastic relaxation, Gibbs distributions, and the bayesian restoration of images. IEEE-PAMI, 6 :721 741, 1984.

186

Bibliographie

[Getoor et al., 2004] L. Getoor, J. Rhee, D. Koller, et P. Small. Understanding tuberculosis epidemiology using probabilistic relational models. Articial Intelligence in Medicine, 30 :233256, 2004. [Gigerenzer et Todd, 1999] Gerd Gigerenzer et Peter M. Todd. Fast and frugal heuristics : The adaptive toolbox. In Gerd Gigerenzer et Peter M. Todd, editors, Simple heuristics that make us smart, pages 334. Oxford University Press, New York, 1999. [Girardin, 2007] Fabien Girardin. Embracing the real worlds messiness. Prsentation LIFT07, 2007. [Globerson et al., 2007] Amir Globerson, Xavier Carreras, Terry Koo, et Michael Collins. Exponentiated gradient algorithms for log-linear structured prediction. In ICML07, 2007. [Greeneld, 2006] Adam Greeneld. Everyware The Dawning Age of Ubiquitous Computing. New Riders, 2006. [Gross et al., 2006] Samuel S. Gross, Olga Russakovsky, Chuong B. Do, et Seram Batzoglou. Training conditional random elds for maximum labelwise accuracy. In Advances in Neural Information Processing Systems, 2006. [Grnwald, 2005] Peter Grnwald. A tutorial introduction to the minimum description length principle. In Advances in Minimum Description Length : Theory and Applications. MIT Press, 2005. [Guyon et al., 2006] Isabelle Guyon, Steve Gunn, Masoud Nikravesh, et Lofti Zadeh. Feature Extraction, Foundations and Applications. Series Studies in Fuzziness and Soft Computing. Springer, 2006. [Guyon et Elissee, 2003] Isabelle Guyon et Andr Elissee. An introduction to variable and feature selection. J. Mach. Learn. Res., 3 :11571182, 2003. [Gyongyi et Garcia-Molina, 2005] Zoltan Gyongyi et Hector Garcia-Molina. Web spam taxonomy. In First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2005), 2005. [Grtner, 2003] Thomas Grtner. A survey of kernels for structured data. SIGKDD Explor. Newsl., 5(1) :4958, 2003. [Halevy et al., 2003a] A. Halevy, O. Etzioni, A. Doan, Z. Ives, J. Madhavan, L. McDowell, et I. Tatarinov. Crossing the structure chasm. In First Biennial Conferenece on Innovative Data Systems Research, 2003. [Halevy et al., 2003b] A. Halevy, Z. Ives, D. Suciu, et I. Tatarinov. Schema mediation in peer data management systems. In Proc. of ICDE, 2003. [Hancock et Kittler, 1990] E.R. Hancock et J. Kittler. dictionnary-based relaxation. In PAMI, 1990. Edge labelling using

[Haussler, 1999] D. Haussler. Convolution kernels on discrete structures. Technical Report UCS-CRL-99-10, UC Santa Cruz, 1999. [He et al., 2004] X. He, R. Zemel, et M. Carreira-Perpinan. Multiscale conditional random elds for image labelling. In IEEE Conference on Computer Vision and Pattern Recognition, 2004. [He et al., 2007] Bin He, Mitesh Patel, Zhen Zhang, et Kevin Chen-Chuan Chang. Accessing the deep Web. Commun. ACM, 50(5) :94101, 2007.

Bibliographie

187

[He et Chang, 2003] Bin He et Kevin Chen-Chuan Chang. Statistical schema matching across Web query interfaces. In SIGMOD 03 : Proceedings of the 2003 ACM SIGMOD international conference on Management of data, pages 217228, New York, NY, USA, 2003. ACM Press. [Hendler, 2005] James Hendler. The web science workshop. Technical report, British Computer Society, 2005. [Hoos et Sttzle, 2005] Holger H. Hoos et Thomas Sttzle. Stochastic local search : foundations and applications. Elsevier/Morgan Kaufmann, 2005. [Hsu et Lin, 2002] C. Hsu et C. Lin. A comparison of methods for multi-class support vector machines. IEEE Transactions on Neural Networks, 13 :415425, 2002. [Huang et Darwiche, 1996] C. Huang et A. Darwiche. Inference in belief networks : A procedural guide. International Journal of Approximate Reasoning, 15(3) :225263, 1996. [Hummel et Zucker, 1983] Robert A. Hummel et Steven W. Zucker. On the foundations of relaxation labeling processes. IEEE PAMI, 5(1) :267287, 1983. [Hgen et Simon, 1992] Klaus-Uwe Hgen et Hans Ulrich Simon. Robust trainability of single neurons. In COLT 92 : Proceedings of the fth annual workshop on Computational learning theory, pages 428439, New York, NY, USA, 1992. ACM Press. [Ishitani, 2003] Yasuto Ishitani. Document transformation system from papers to XML data based on pivot xml document method. In ICDAR 03 : Proceedings of the Seventh International Conference on Document Analysis and Recognition, page 250, Washington, DC, USA, 2003. IEEE Computer Society. [Jakulin et Bratko, 2004] Aleks Jakulin et Ivan Bratko. Testing the signicance of attribute interactions. In ICML 04 : Proceedings of the twenty-rst international conference on Machine learning, page 52, New York, NY, USA, 2004. ACM Press. [Jelinek, 1969] F. Jelinek. Fast sequential decoding algorithm using a stack. IBM Journal of Research and Development, 13(6) :675685, 1969. [Jensen et al., 2004] David Jensen, Jennifer Neville, et Brian Gallagher. Why collective inference improves relational classication. In KDD 04 : Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 593598, New York, NY, USA, 2004. ACM Press. [Jimnez et Marzal, 2000] Vctor M. Jimnez et Andrs Marzal. Computation of the n best parse trees for weighted and stochastic context-free grammars. In Proceedings of the Joint IAPR International Workshops on Advances in Pattern Recognition, pages 183192, London, UK, 2000. Springer-Verlag. [Johnson, 1998] Mark Johnson. PCFG models of linguistic tree representations. Comput. Linguist., 24(4) :613632, 1998. [Jordan, 2004] M. I. Jordan. Graphical models. Statistical Science, 19 :140155, 2004. [Jousse et al., 2006] Florent Jousse, Rmi Gilleron, Isabelle Tellier, et Marc Tommasi. Conditional random elds for xml trees. In ECML Workshop on Mining and Learning in Graphs, 2006. [Jurafsky et Martin, 2000] Daniel Jurafsky et James H. Martin. Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2000.

188

Bibliographie

[Kakade et al., 2002] Sham Kakade, Yee Whye Teh, et Sam T. Roweis. An alternate objective function for markovian elds. In ICML 02 : Proceedings of the Nineteenth International Conference on Machine Learning, pages 275282, San Francisco, CA, USA, 2002. Morgan Kaufmann Publishers Inc. [Kalfoglou et Schorlemmer, 2003] Yannis Kalfoglou et Marco Schorlemmer. Ontology mapping : the state of the art. Knowl. Eng. Rev., 18(1) :131, 2003. [Kashima et Koyanagi, 2002] Hisashi Kashima et Teruo Koyanagi. Kernels for semistructured data. In ICML 02 : Proceedings of the Nineteenth International Conference on Machine Learning, pages 291298, San Francisco, CA, USA, 2002. Morgan Kaufmann Publishers Inc. [Kazama et Torisawa, 2007] Junichi Kazama et Kentaro Torisawa. A new perceptron algorithm for sequence labeling with non-local features. In In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2007) (Poster), pages 315324, Prague, Czech Republic, June 2007. [Kittler et Illingworth, 1985] J. Kittler et J. Illingworth. Relaxation labelling algorithms : a review. Image and Vision Computing, 1985. [Klein et Manning, 2001] Dan Klein et Christopher D. Manning. An O(n3 ) agendabased chart parser for arbitrary probabilistic context-free grammars. Technical Report dbpubs/2001-16, Stanford University, 2001. [Klein et Manning, 2002] Dan Klein et Christopher D. Manning. Fast exact inference with a factored model for natural language parsing. In Advances in Neural Information Processing Systems 15 [Neural Information Processing Systems, NIPS 2002, December 9-14, 2002, Vancouver, British Columbia, Canada], 2002. [Klein et Manning, 2003] Dan Klein et Christopher D. Manning. A parsing : fast exact viterbi parse selection. In NAACL 03 : Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, pages 4047, Morristown, NJ, USA, 2003. Association for Computational Linguistics. [Koller et Sahami, 1996] Daphne Koller et Mehran Sahami. Toward optimal feature selection. In International Conference on Machine Learning, pages 284292, 1996. [Koloniari et Pitoura, 2005] Georgia Koloniari et Evaggelia Pitoura. Peer-to-peer management of xml data : issues and research challenges. SIGMOD Rec., 34(2) :617, 2005. [Kou et Cohen, 2007] Zhenzhen Kou et William W. Cohen. Stacked graphical models for ecient inference in markov random elds. In SIAM International Conference on Data Mining, 2007. [Krishnan et Manning, 2006] Vijay Krishnan et Christopher D. Manning. An eective two-stage model for exploiting non-local dependencies in named entity recognition. In ACL 06 : Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, pages 11211128, Morristown, NJ, USA, 2006. Association for Computational Linguistics. [Krtzsch et al., 2005] Markus Krtzsch, Denny Vrandecic, et Max Vlkel. Wikipedia and the semantic web the missing links. In Wikimania 2005 - The First International Wikimedia Conference. Wikimedia Foundation,, 2005. [Kschischang et al., 2001] Kschischang, Frey, et Loeliger. Factor graphs and the sumproduct algorithm. IEEETIT : IEEE Transactions on Information Theory, 47, 2001.

Bibliographie

189

[Kurgan et al., 2002] Lukasz A. Kurgan, Waldemar Swiercz, et Krzysztof J. Cios. Semantic mapping of xml tags using inductive machine learning. In ICMLA, pages 99109, 2002. [Laerty et al., 2001] John Laerty, Andrew McCallum, et Fernando Pereira. Conditional random elds : Probabilistic models for segmenting and labeling sequence data. In Proc. 18th International Conf. on Machine Learning, pages 282289. Morgan Kaufmann, San Francisco, CA, 2001. [Lallich et al., 2006] S. Lallich, O. Teytaud, et Prudhomme E. Quality Measures in Data Mining, chapter Association rules interestingness : measure and validation. Springer, 2006. [Lan et al., 2006] X. Lan, S. Roth, D. Huttenlocher, et M. J. Black. Ecient belief propagation with learned higher-order markov random elds. In European Conference on Computer Vision (ECCV), volume 2, pages 269282, 2006. [Lavrac et Dzeroski, 1994] N. Lavrac et S. Dzeroski. Inductive Logic Programming : Techniques and Applications. Ellis Horwood, 1994. [LeCun et al., 2006] Y. LeCun, S. Chopra, R. Hadsell, F.-J. Huang, et M.-A. Ranzato. A tutorial on energy-based learning. In Predicting Structured Outputs. MIT Press, 2006. [Lee et al., 2007] Su-In Lee, Varun Ganapathi, et Daphne Koller. Ecient structure learning of markov networks using l1-regularization. In B. Schlkopf, J. Platt, et T. Homan, editors, Advances in Neural Information Processing Systems 19, Cambridge, MA, 2007. MIT Press. [Li et Clifton, 2000] Wen-Syan Li et Chris Clifton. Semint : a tool for identifying attribute correspondences in heterogeneous databases using neural networks. Data Knowl. Eng., 33(1) :4984, 2000. [Lin et Hovy, 2003] Chin-Yew Lin et Eduard Hovy. Automatic evaluation of summaries using n-gram co-occurrence statistics. In NAACL 03 : Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, pages 7178, Morristown, NJ, USA, 2003. Association for Computational Linguistics. [Liu et Chen-Chuan-Chang, 2004] Bing Liu et Kevin Chen-Chuan-Chang. Editorial : special issue on web content mining. SIGKDD Explor. Newsl., 6(2) :14, 2004. [MacKay, 2003] David J.C. MacKay. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003. [Maes et al., 2007a] Francis Maes, Ludovic Denoyer, et Patrick Gallinari. XML structure mapping application to the PASCAL/INEX 2006 XML document mining track. In Fuhr Norbert, Lalmas Mounia, Malik Saadia, et Kazai Gabriella, editors, Advances in XML Information Retrieval and Evaluation : Fifth Workshop of the INitiative for the Evaluation of XML Retrieval (INEX06), Dagstuhl, Germany, 2007. Springer. [Maes et al., 2007b] Francis Maes, Ludovic Denoyer, et Patrick Gallinari. Sequence labeling with reinforcement learning and ranking algorithms. In ECML07, 2007. [Malouf, 2002] Robert Malouf. A comparison of algorithms for maximum entropy parameter estimation. In COLING-02 : proceeding of the 6th conference on Natural language learning, pages 17, Morristown, NJ, USA, 2002. Association for Computational Linguistics.

190

Bibliographie

[Manning et Schtze, 1999] Chris Manning et Hinrich Schtze. Foundations of Statistical Natural Language Processing. The MIT Press, 1999. [Mao et al., 2003] S. Mao, A. Rosenfeld, et T. Kanungo. Document structure analysis algorithms : A litterature survey. In SPIE Electronic Imaging, volume 5010, pages 197207, January 2003. [Marian et al., 2005] Amelie Marian, Sihem Amer-Yahia, Nick Koudas, et Divesh Srivastava. Adaptive processing of top-k queries in XML. In ICDE 05 : Proceedings of the 21st International Conference on Data Engineering (ICDE05), pages 162 173, Washington, DC, USA, 2005. IEEE Computer Society. [Marko, 2006] John Marko. Entrepreneurs see a Web guided by common sens. The New-York Times, November 16th, 2006, 2006. [Martens et Neven, 2004] Wim Martens et Frank Neven. Frontiers of tractability for typechecking simple XML transformations. In PODS 04 : Proceedings of the twenty-third ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, pages 2334, New York, NY, USA, 2004. ACM Press. [McAllester et al., 2004] David McAllester, Michael Collins, et Fernando Pereira. Case-factor diagrams for structured probabilistic modeling. UAI, 2004. [McCallum et Jensen, 2003] Andrew McCallum et David Jensen. A note on the unication of information extraction and data mining using conditional-probability, relational models. In IJCAI03 Workshop on Learning Statistical Models from Relational D ata, 2003. [McCallum, 2002] Andrew Kachites McCallum. Mallet : A machine learning for language toolkit. http ://mallet.cs.umass.edu, 2002. [McCallum, 2005] Andrew McCallum. Information extraction : distilling structured data from unstructured text. Queue, 3(9) :4857, 2005. [Melnik et al., 2002] Sergey Melnik, Hector Garcia-Molina, et Erhard Rahm. Similarity ooding : A versatile graph matching algorithm and its application to schema matching. In ICDE 02 : Proceedings of the 18th International Conference on Data Engineering, page 117, Washington, DC, USA, 2002. IEEE Computer Society. [Memisevic, 2006] Roland Memisevic. An introduction to structured discriminative learningi. Masters thesis, University of Toronto, 2006. [Michie, 1968] Donald Michie. 218 :1922, 1968. Memo functions and machine learning. Nature,

[Miller et al., 2000] Scott Miller, Heidi Fox, Lance Ramshaw, et Ralph Weischedel. A novel use of statistical parsing to extract information from text. In Proceedings of the rst conference on North American chapter of the Association for Computational Linguistics, pages 226233, San Francisco, CA, USA, 2000. Morgan Kaufmann Publishers Inc. [Mitchell, 1997] Tom Mitchell. Machine Learning. McGraw Hill, 1997. [Mitchell, 2006] Tom Mitchell. The discipline of machine learning. Technical report, School of Computer Science, Carnegie Mellon University, 2006. [Mochihashi et Matsumoto, 2005] Daichi Mochihashi et Yuji Matsumoto. Context as ltering. In NIPS05, 2005. [Mukherjee et al., 2003] S. Mukherjee, G. Yang, et I. Ramakrishnan. Automatic annotation of content-rich HTML documents : Structural and semantic analysis. In ISWC03, 2003.

Bibliographie

191

[Murphy et al., 1999] Kevin P. Murphy, Yair Weiss, et Michael I. Jordan. Loopy belief propagation for approximate inference : An empirical study. In Proceedings of Uncertainty in AI, pages 467475, 1999. [Nakagawa et Matsumoto, 2006] Tetsuji Nakagawa et Yuji Matsumoto. Guessing parts-of-speech of unknown words using global information. In ACL 06 : Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, pages 705712, Morristown, NJ, USA, 2006. Association for Computational Linguistics. [Nan et Adjeroh, 2004] Fei Nan et Donald Adjeroh. On complexity measures for biological sequences. In CSB 04 : Proceedings of the 2004 IEEE Computational Systems Bioinformatics Conference (CSB04), pages 522526, Washington, DC, USA, 2004. IEEE Computer Society. [Nannen, 2003] Volker Nannen. A short introduction to model selection, Kolmogorov complexity and minimum description length, 2003. [Neven, 2002] Frank Neven. Automata, logic, and XML. In CSL 02 : Proceedings of the 16th International Workshop and 11th Annual Conference of the EACSL on Computer Science Logic, pages 226, London, UK, 2002. Springer-Verlag. [Neville et Jensen, 2003] J. Neville et D. Jensen. Collective classication with relational dependency networks. In KDD, 2003. [Nguyen et Guo, 2007] Nam Nguyen et Yunsong Guo. Comparisons of sequence labeling algorithms and extensions. In ICML07, 2007. [Padro, 1995] Lluis Padro. POS tagging using relaxation labelling. 1995. [Palatucci et Mitchell, 2007] Mark Palatucci et Tom Mitchell. Classication in very high dimensional problems with handfuls of examples. In Proceedings of PKDD. Springer-Verlag, September 2007. [Papineni et al., 2001] Kishore Papineni, Salim Roukos, Todd Ward, et Wei-Jing Zhu. Bleu : a method for automatic evaluation of machine translation. In ACL 02 : Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 311318, Morristown, NJ, USA, 2001. Association for Computational Linguistics. [Paul, 1991] D. B. Paul. Algorithms for an optimal A* search and linearizing the search in the stack decoder. In ICASSP 91 : Proceedings of the Acoustics, Speech, and Signal Processing, 1991. ICASSP-91., 1991 International Conference on, pages 693696, Washington, DC, USA, 1991. IEEE Computer Society. [Pelillo, 1997] Marcello Pelillo. The dynamics of nonlinear relaxation labeling processes. J. Math. Imaging Vis., 7(4) :309323, 1997. [Peng et McCallum, 2004] Fuchun Peng et Andrew McCallum. Accurate information extraction from research papers using conditional random elds. In HLT-NAACL, pages 329336, 2004. [Perkins et al., 2003] Simon Perkins, Kevin Lacker, et James Theiler. Grafting : fast, incremental feature selection by gradient descent in function space. J. Mach. Learn. Res., 3 :13331356, 2003. [Phan et Nguyen, 2005] Xuan-Hieu Phan et Le-Minh Nguyen. Flexcrfs : Flexible conditional random eld toolkit, 2005. http ://www.jaist.ac.jp/ hieuxuan/excrfs/excrfs.html.

192

Bibliographie

[Pinto et al., 2003] David Pinto, Andrew McCallum, Xing Wei, et W. Bruce Croft. Table extraction using conditional random elds. In SIGIR 03 : Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, pages 235242, New York, NY, USA, 2003. ACM Press. [Platt, 1999] John C. Platt. Fast training of support vector machines using sequential minimal optimization. In Advances in Kernel Methods - Support Vector Learning, pages 185208. MIT Press, Cambridge, MA, USA, 1999. [Punyakanok et al., 2005] Vasin Punyakanok, Dan Roth, Wen tau Yih, et Dav Zimak. Learning and inference over constrained output. In IJCAI-05, Proceedings of the Nineteenth International Joint Conference on Articial Intelligence, pages 1124 1129, 2005. [Punyakanok et Roth, 2000] Vasin Punyakanok et Dan Roth. The use of classiers in sequential inference. In NIPS, pages 9951001, 2000. [Rabiner, 1989] L.R. Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77 :257286, 1989. [Raghavan et Garcia-Molina, 2001] Sriram Raghavan et Hector Garcia-Molina. Crawling the hidden web. In VLDB 01 : Proceedings of the 27th International Conference on Very Large Data Bases, pages 129138, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc. [Rahm et Bernstein, 2001] Erhard Rahm et Philip A. Bernstein. A survey of approaches to automatic schema matching. The VLDB Journal, 10(4) :334350, 2001. [Ratli et al., 2006a] Nathan Ratli, Andrew J. Bagnell, et Martin Zinkevich. Subgradient methods for maximum margin structured learning. In Workshop on Learning in Structured Output Spaces at ICML, 2006. [Ratli et al., 2006b] Nathan D. Ratli, J. Andrew Bagnell, et Martin A. Zinkevich. Maximum margin planning. In ICML 06 : Proceedings of the 23rd international conference on Machine learning, pages 729736, New York, NY, USA, 2006. ACM Press. [Ratnaparkhi, 1999] Adwait Ratnaparkhi. Learning to parse natural language with maximum entropy models. Machine Learning, 34(1-3) :151175, 1999. [Reenskaug, 1979] Trygve Reenskaug. Thing model view editor. Technical report, Xerox PARC, 1979. [Robertson et al., 2004] Stephen Robertson, Hugo Zaragoza, et Michael Taylor. Simple bm25 extension to multiple weighted elds. In CIKM 04 : Proceedings of the thirteenth ACM international conference on Information and knowledge management, pages 4249, New York, NY, USA, 2004. ACM Press. [Rosenblatt, 1958] Frank Rosenblatt. The perceptron : A probabilistic model for information storage and organization in the brain. Psychological Review, 65 :386408, 1958. [Rosenfeld et al., 1976] A. Rosenfeld, R.A. Hummerl, et S.W. Zucker. Scene labeling by relaxation operations. IEEE Trans. Syst. Man Cybern., 1976. [Roth et tau Yih, 2005] Dan Roth et Wen tau Yih. Integer linear programming inference for conditional random elds. In ICML, pages 736743, New York, NY, USA, 2005. ACM Press. [Russell et Norvig, 2002] S. Russell et P. Norvig. Artical Intelligence : A Modern Approach. Prentice-Hall, (second edition) edition, 2002.

Bibliographie

193

[Rys, 2003] Michael Rys. Full-text search with xquery : A status report. In Intelligent Search on XML Data. Springer Berlin / Heidelberg, 2003. [Santini, 2007] Simone Santini. Summa contra ontologiam. International journal on data semantics, submited, 2007. [Sayyadian et al., 2005] Mayssam Sayyadian, Yoonkyong Lee, AnHai Doan, et Arnon S. Rosenthal. Tuning schema matching software using synthetic scenarios. In VLDB 05 : Proceedings of the 31st international conference on Very large data bases, pages 9941005. VLDB Endowment, 2005. [Schraudolph et Graepel, 2003] N. Schraudolph et T. Graepel. Combining conjugate direction methods with stochastic approximation of gradients. In Christopher M. Bishop et Brendan Frey, editors, Proceedings of the Ninth International Workshop on Articial Intelligence and Statistics, AISTATS, 2003. [Schlkopf et Smola, 2002] Bernhard Schlkopf et Alex Smola. Learning with Kernels : Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press, 2002. [Semeraro et al., 2001] Giovanni Semeraro, Stefano Ferilli, Nicola Fanizzi, et Floriana Esposito. Document classication and interpretation through the inference of logicbased models. In ECDL 01 : Proceedings of the 5th European Conference on Research and Advanced Technology for Digital Libraries, pages 5970, London, UK, 2001. Springer-Verlag. [Seshadri, 1994] C.-E.W. Seshadri, N. Sundberg. List Viterbi decoding algorithms with applications. IEEE Transactions on Communications, 42(234) :313323, 1994. [Sha et Pereira, 2003] Fei Sha et Fernando Pereira. Shallow parsing with conditional random elds. In NAACL 03 : Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, pages 134141, Morristown, NJ, USA, 2003. Association for Computational Linguistics. [Shadbolt et al., 2006] Nigel Shadbolt, Tim Berners-Lee, et Wendy Hall. The semantic Web revisited. IEEE Intelligent Systems, 21(3) :96101, 2006. [Shalev-Shwartz et al., 2007] Shai Shalev-Shwartz, Yoram Singer, et Nathan Srebro. Pegasos : Primal estimated sub-gradient solver for SVM. In ICML 07 : Proceedings of the 24th international conference on Machine learning, pages 807814, New York, NY, USA, 2007. ACM Press. [Shannon, 1948] Claude E. Shannon. A mathematical theory of communication. Bell System Technical Journal, 27 :379423, 1948. [Shilman et al., 2005] Michael Shilman, Percy Liang, et Paul Viola. Learning nongenerative grammatical models for document analysis. In ICCV 05, 2005. [Shirky, 2005] Clay Shirky. Ontology is overrated : Categories, links, and tags. OReilly ETech conference, March 2005. [Silver et al., 2005] Danny Silver, Goekhan Bakir, Kristin Bennett, Rich Caruana, Massimiliano Pontil, Stuart Russell, et Prasad Tadepalli. Inductive transfer : 10 years later, 2005. [Spengler, 2005] Alex Spengler. Maximum margin Markov networks for XML tag relabelling. Masters thesis, University of Karlsruhe (TH), Germany, December 2005.

194

Bibliographie

[Studeny et Vejnarova, 1999] M. Studeny et J. Vejnarova. The multiinformation function as a tool for measuring stochastic dependence. pages 261297, 1999. [Sun, 2001] Ron Sun. Introduction to sequence learning. In Sequence Learning - Paradigms, Algorithms, and Applications, pages 110, London, UK, 2001. SpringerVerlag. [Sutton et Barto, 1998] R. Sutton et A.G. Barto. Reinforcement learning : an introduction. MIT Press, 1998. [Sutton et McCallum, 2004] Charles Sutton et Andrew McCallum. Collective segmentation and labeling of distant entities in information extraction. In ICML workshop on Statistical Relational Learning, 2004. [Sutton et McCallum, 2006] Charles Sutton et Andrew McCallum. An introduction to conditional random elds for relational learning. In Lise Getoor et Ben Taskar, editors, Introduction to Statistical Relational Learning. MIT Press, 2006. To appear. [Sutton et McCallum, 2007] Charles Sutton et Andrew McCallum. Piecewise pseudolikelihood for ecient training of conditional random elds. In ICML0, 2007. [Taskar et al., 2002] B. Taskar, P. Abbeel, et D. Koller. Discriminative probabilistic models for relational data. In Eighteenth Conference on Uncertainty in Articial Intelligence (UAI02), Edmonton, Canada, August 2002. [Taskar et al., 2004] Ben Taskar, Carlos Guestrin, et Daphne Koller. Max-margin Markov networks. In Sebastian Thrun, Lawrence Saul, et Bernhard Schlkopf, editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA, 2004. [Taskar et al., 2005] Benjamin Taskar, Simon Lacoste-Julien, et Michael Jordan. Structured prediction via the extragradient method. In Advances in Neural Information Processing Systems 18 [Neural Information Processing Systems, NIPS 2005, 2005. [Taskar et al., 2006] Ben Taskar, Simon Lacoste-Julien, et Michael I. Jordan. Structured prediction, dual extragradient and bregman projections. Journal of Machine Learning Research, 2006. [Taskar, 2004] Ben Taskar. Learning Structured Prediction Models : A Large Margin Approach. PhD thesis, Stanford University, 2004. [Taylor et al., 2006] Michael Taylor, Hugo Zaragoza, Nick Craswell, Stephen Robertson, et Chris Burges. Optimisation methods for ranking functions with multiple parameters. In CIKM 06 : Proceedings of the 15th ACM international conference on Information and knowledge management, pages 585593, New York, NY, USA, 2006. ACM Press. [Tjong Kim Sang et Buchholz, 2000] Erik F. Tjong Kim Sang et Sabine Buchholz. Introduction to the CoNLL-2000 shared task : chunking. In Proceedings of the 2nd workshop on Learning language in logic and the 4th conference on Computational natural language learning, pages 127132, Morristown, NJ, USA, 2000. Association for Computational Linguistics. [Tjong Kim Sang, 2002] Erik F. Tjong Kim Sang. Introduction to the CoNLL-2002 shared task : Language-independent named entity recognition. In Proceedings of CoNLL-2002, pages 155158. Taipei, Taiwan, 2002. [Tsochantaridis et al., 2004] Ioannis Tsochantaridis, Thomas Hofmann, Thorsten Joachims, et Yasemin Altun. Support vector machine learning for interdependent and structured output spaces. In ICML, 2004.

Bibliographie

195

[Tsochantaridis et al., 2005] Ioannis Tsochantaridis, Thorsten Joachims, Thomas Hofmann, et Yasemin Altun. Large margin methods for structured and interdependent output variables. Journal of Machine Learning Research, 6 :14531484, 2005. [Vapnik, 1995] Vladimir Vapnik. The Nature of Statistical Learning. Springer, 1995. [Vert, 2007] Jean-Philippe Vert. Kernel methods in genomics and computational biology. In G. Camps-Valls, J.-L. Rojo-Alvarez, et Martinez-Ramon, editors, Kernel Methods in Bioengineering, Signal and Image Processing. Idea Group, 2007. [Vidal et al., 2005a] E. Vidal, F. Thollard, C. de la Higuera, , F. Casacuberta, et R. C. Carrasco. Probabilistic nite-state machines Part I. IEEE Trans. on Pattern analysis and Machine Intelligence, 2005. [Vidal et al., 2005b] E. Vidal, F. Thollard, C. de la Higuera, , F. Casacuberta, et R. C. Carrasco. Probabilistic nite-state machines Part II. IEEE Trans. on Pattern analysis and Machine Intelligence, 2005. [Viola et Narasimhan, 2005] Paul Viola et Mukund Narasimhan. Learning to extract information from semi-structured text using a discriminative context free grammar. In SIGIR 05, 2005. [Vishwanathan et al., 2006] S. V. N. Vishwanathan, Nicol N. Schraudolph, Mark W. Schmidt, et Kevin P. Murphy. Accelerated training of conditional random elds with stochastic gradient methods. In ICML 06 : Proceedings of the 23rd international conference on Machine learning, pages 969976, New York, NY, USA, 2006. ACM Press. [Vlkel et al., 2006] M. Vlkel, M. Krtzsch, D. Vrandecic, H. Haller, et R. Studer. Semantic wikipedia. In In Proceedings of the 15th International Conference on World Wide Web (WWW06), 2006. [W3C, 1999] W3C. Xsl transformations (xslt), 1999. [W3C, 2004] Technical Comittee W3C. Xml schema recommendation, 2004. [W3C, 2005] W3C. Document object model, 2005. [Wallach, 2002] Hanna M. Wallach. Ecient training of conditional random elds. Masters thesis, Division of Informatics, University of Edinburgh, 2002. [Weston et al., 2002] J. Weston, O. Chapelle, A. Elissee, B. Scholkopf, et V. Vapnik. Kernel dependency estimation. In Advances in Neural Information Processing Systems, 2002. [Wikipdia, 2007] Wikipdia. Langage de transformation xml wikipdia, lencyclopdie libre, 2007. [En ligne ; Page disponible le 9-aot-2007]. [Wilkinson, 1994] Ross Wilkinson. Eective retrieval of structured documents. In SIGIR 94 : Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pages 311317, New York, NY, USA, 1994. Springer-Verlag New York, Inc. [Wisniewski et al., 2005a] Guillaume Wisniewski, Ludovic Denoyer, et Patrick Gallinari. Classication automatique de documents structurs. Application au corpus darbres tiquets de type XML. In CORIA05, 2005. [Wisniewski et al., 2005b] Guillaume Wisniewski, Ludovic Denoyer, et Patrick Gallinari. Restructuration automatique de documents dans les corpus semi structurs htrognes. In EGC2005, 2005.

196

Bibliographie

[Wisniewski et al., 2006] Guillaume Wisniewski, Ludovic Denoyer, Francis Maes, et Patrick Gallinari. Modle probabiliste pour lextraction de structures dans les documents semi-structurs application aux documents web. In CORIA06, pages 169180, Lyon, March 2006. [Wisniewski et al., 2007a] Guillaume Wisniewski, Francis Maes, Ludovic Denoyer, et Patrick Gallinari. Modle probabiliste pour lextraction de structure dans les documents web. Document Numrique, 10 :89107, 2007. [Wisniewski et al., 2007b] Guillaume Wisniewski, Francis Maes, Ludovic Denoyer, et Patrick Gallinari. Probabilistic model for structured document mapping : Application to automatic html to xml conversion. In Springer Berlin / Heidelberg, editor, Machine Learning and Data Mining in Pattern Recognition, volume 4571/2007 of Lecture Notes in Computer Science, pages 854867, 2007. [Wisniewski et Gallinari, 2007a] Guillaume Wisniewski et Patrick Gallinari. From layout to semantic : a reranking model for mapping web documents to mediated xml representations. In Proceedings of the 8th RIAO International Conference on Large-Scale Semantic Access to Content,, 2007. [Wisniewski et Gallinari, 2007b] Guillaume Wisniewski et Patrick Gallinari. Relaxation labeling for selecting and exploiting eciently non-local dependencies in sequence labeling. In Springer Berlin / Heidelberg, editor, Knowledge Discovery in Databases : PKDD 2007, volume 4702/2007 of Lecture Notes in Computer Science, pages 312323, 2007. [Wisniewski et Gallinari, 2007c] Guillaume Wisniewski et Patrick Gallinari. Rordonnancement pour lapprentissage de transformations de documents html. In EGC07, pages 727738, 2007. [Wolsey, 1998] Laurence A. Wolsey. Integer Programming. Wiley-Interscience, 1998. [Yamanishi et al., 2007] Y. Yamanishi, F. Bach, et J.-P. Vert. Glycan classication with tree kernels. Bioinformatics, 23(10) :12111216, 2007. [Yanover et Weiss, 2004] Chen Yanover et Yair Weiss. Finding the M most probable congurations using loopy belief propagation. In Advances in Neural Information Processing Systems 16, 2004. [Yi et al., 2005] Shanzhen Yi, Bo Huang, et Weng Tat Chan. XML application schema matching using similarity measure and relaxation labeling. Inf. Sci., 169(1-2) :27 46, 2005. [Young-Lai et Tompa, 2000] Matthew Young-Lai et Frank Wm. Tompa. Stochastic grammatical inference of text database structure. Machine Learning, 2000. [Younger, 1967] Daniel H. Younger. Recognition and parsing of context-free languages in time n3 . Information and Control, 10 :189208, 1967. [Zamboulis, 2003] Lucas Zamboulis. Xml schema matching & xml data migration & integration : A step towards the semantic web vision. Technical report, 2003. [Zelenko et al., 2003] Dmitry Zelenko, Chinatsu Aone, et Anthony Richardella. Kernel methods for relation extraction. J. Mach. Learn. Res., 3 :10831106, 2003. [Zhang et al., 2004] Zhen Zhang, Bin He, et Kevin Chen-Chuan Chang. Understanding web query interfaces : best-eort parsing with hidden syntax. In SIGMOD 04 : Proceedings of the 2004 ACM SIGMOD international conference on Management of data, pages 107118, New York, NY, USA, 2004. ACM Press.

Bibliographie

197

[Zhang et Dyreson, 2006] Shuohao Zhang et Curtis Dyreson. Polymorphic XML restructuring. In IIWeb06 : Workshop on Information Integration on the Web, 2006. [Zlochin et al., 2004] Mark Zlochin, Mauro Birattari, Nicolas Meuleau, et Marco Dorigo. Model-based search for combinatorial optimization : A critical survey. Annals of Operations Research, 131 :373395, 2004.

Vous aimerez peut-être aussi