Vous êtes sur la page 1sur 70

Les Données Textuelles

•Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de


référence, exemples d’utilisation.
•Exemples de corpus textuels : le British National Corpus
PAROLE Français, Le Monde
•Les corpus étiquetés et analysés
- corpus syntaxiques Penn Treebank www.cis.upenn.edu/~treebank
Corfrans www-rali.iro.umontreal.ca/corfrans
NEGRA corpus
-corpus sémantiques Framenet www.icsi.berkeley.edu/~framenet
PropBank
1
Corpus

•Définition : Une collection quelconque de plus d'un texte


•Propriétés : représentatif, de taille finie, lisible par une machine
•Référence standard
•Utilisations : Lexicographie—établir si un verbe est transitif
•Utilisations : Développement de grammaire—déterminer la
couverture de la grammaire, les erreurs les plus fréquentes.

2
Corpus

Le page suivantes

sur l’écahntillonage et l’utilisations des corpus

sont tiré des ouvrages

Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus, Armand Colin

Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press

3
Corpus équilibrés
•En principe, une collection de plus d'un texte peut être appelée un
corpus. Cependant, le terme corpus possède en général des
connotations plus spécifiques.
•Le corpus doit être représentatif. Afin qu’une collection de textes soit
représentative, elle doit être échantillonnée de façon équilibrée. La
méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on
crée une collection équilibrée de textes distribués uniformément à travers
les genres (roman, journal, discours politique, etc.) et les modalités
(écrite, orale) qui intéressent.
•Le corpus doit être de taille finie définie à l'avance. On parle alors de
corpus fermé. D'habitude, les corpus sont des collections des textes
fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient
respectés.
•Un corpus doit être électronique (machine­readable) pour permettre des
recherches et des manipulations rapides à large échelle. 4
Corpus équilibrés
D'un point de vue statistique, on peut considérer un corpus
comme un échantillon d'une population (d'événements
langagiers).
Comme tout échantillon, un corpus est passible de deux types
d'erreurs statistiques qui menacent la généralité des résultats
l'incertitude (random error)
la déformation (bias error)
•L'incertitude survient quand un échantillon est trop petit pour
représenter avec précision la population réelle.
•Une déformation se produit quand les caractéristiques d'un
échantillon sont systématiquement différentes de celles de la
population que cet échantillon a pour objectif de refléter. 5
Exemples d’erreurs
Incertitude
Un extrait de 2 000 mots d'une interview de George Bush ne
permet pas d'extrapoler et d'en tirer des conclusions sur
l'interaction journaliste-homme politique.

Déformation
Si on utilise que les articles de la seule rubrique Economie du
Monde, quel que soit le volume textuel rassemblé, on risque de
déboucher sur une image déformée du français.

6
Échantillonnage

•Pour atteindre une diversité maximale de situations de communication dans un


corpus de référence on procède souvent à une démarche d'échantillonnage.
•L'échantillonnage touche à la fois
le choix des documents à intégrer et
la partie de ces documents à conserver.
•On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de
2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de
manière à ne pas risquer de sur-représenter des «lieux» du texte aux
caractéristiques particulières (l'introduction par exemple).
•Ce saucissonnage rend par contre impossible l'étude des changements de
corrélations de traits linguistiques au fil des textes (étude longitudinale).

7
Corpus de contrôle (monitor corpus)

•Il existe aussi un autre type de corpus, le corpus de contrôle,


qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure.
•Un corpus de contrôle est un corpus auquel on ajoute tout le
temps des textes. C'est un corpus ouvert. Cela est très utile en
lexicographie pour chercher les néologismes, mais on ne peut
plus garantir que le corpus restera équilibré. La recherche
scientifique courante où l'on utilise le Web en tant que corpus
rentre dans ce cas de figure.

8
Corpus de référence
On parle de corpus de référence lorsque un corpus devient représentatif de la
langue - à un certain moment historique,
- pour une certaine langue,
- dans une certaine modalité.
Un corpus de référence est conçu pour fournir une information en profondeur
sur une langue. Il vise à être suffisamment grand pour représenter toutes les
variétés pertinentes de cette langue et son vocabulaire caractéristique, de
manière à pouvoir servir de base à des grammaires, des dictionnaires et
d'autres usuels fiables. Il s'agit donc d'associer étroitement deux
caractéristiques :
une taille suffisante et la diversité des usages représentés.
•Par exemple, le Brown Corpus est le corpus de référence de l'anglais
Américain écrit, le British National Corpus est le corpus de référence de
l'anglais Britannique écrit et oral.
9
Utilisations en lexicographie

•Les lexicographes ont utilisées des corpus, ou des ensembles de


citations, bien avant que la linguistique de corpus ne se développe
(voir par exemple le célèbre dictionnaire de Samuel Johnson, de
même que l’Oxford English Dictionary).
•À présent, l'existence de larges collections de textes et la
possibilité de les consulter et manipuler très rapidement est en train
de changer la pratique de la lexicographie.
•D'habitude, les lexicographes compilent les entrées d'un
dictionnaire sur la base de leurs propres intuitions et d'une
collection d'exemples qu'ils collectent à la main (ils utilisent des
fiches d'exemples). Un corpus peut ajouter de l'information
supplémentaire.
10
Utilisations en lexicographie

•Par exemple, Atkins and Levin se sont occupés de certaines


verbes dans la même classes que le verbe shake (trembler).
•Elles ont consulté le LDOCE (Oxford's Advanced Learner's
Dictionary) et COBUILD. Les deux dictionnaires indiquaient que
les verbes quake et quiver sont toujours intransitifs (n'ont pas de
COD). Par contre, si on consulte un corpus de 50 millions de
mots, on trouvera que les deux verbes peuvent être utilisés dans
la forme transitive.

11
Utilisations en théorie linguistique

•Les corpus sont important pour la recherche linguistique au


niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent
des informations quantitatives, et, de l'autre côté, ils sont des
réservoirs d'exemples naturels de l'usage de la langue. Ils
peuvent être utilisés comme ressources pour tester une théorie
grammaticale donnée.
•Pour illustrer le deuxième point, voici un exemple.

12
Corpus et théorie linguistique

•Sampson (1987) analysa manuellement un ensemble de


syntagmes nominaux. Il arriva à la conclusion qu'une grammaire
générative ne pouvait pas être utilisée pour analyser des données
textuelles, car il y a trop de constructions différentes.
•Taylor,Grover et Briscoe (1989) contredirent cette hypothèse, à
l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur
analyseur marche correctement dans 96.88 % de cas. Les cas
incorrectes sont facilement analysable comme lacune de
couverture de la grammaire, et ils ne sont pas de cas isolés.
•La conclusion est que une grammaire générative peut, en
principe, rendre compte des phénomènes naturels des données
textuelles.
13
Le British National Corpus

Plusieurs projets de constitution de corpus de référence ont été


menés à bien aux États-Unis : corpus Brown; et en Angleterre :
corpus Lancaster-Oslo/Bergen (LOB).
Rappel : Il s'agit d'associer étroitement deux caractéristiques
une taille suffisante
la diversité des usages représentés.

Le BNC compte 100 millions de mots étiquetés.


Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et
textes «informatifs» à partir de 1975).
14
The British National Corpus : les usages
En ce qui concerne l'écrit, les variables prises en compte sont le domaine
(textes informatifs et textes de fiction), le support (livres, périodiques, discours),
la datation et la diffusion (sélection parmi les listes des meilleures ventes,
celles de prix littéraires, les indications de prêts en bibliothèque, etc.). L'accent
mis sur la diffusion réelle certifie la représentation d'usages majeurs de
l'anglais.

Pour l'oral, des conversations spontanées ont été recueillies à partir d'un
échantillonnage démographique en termes d'âge, de sexe, de groupe social et
de région.
Ont été également intégrées des transcriptions d'interactions orales typiques
dans divers domaines : affaires (réunions, prises de parole syndicales,
consultations médicales ou légales); éducation et information (cours et
conférences, informations radio-télévisées); prises de parole publiques
(sermons, discours politiques, discours parlementaires et légaux); loisirs
(commentaires sportifs, réunions de clubs). 15
The British National Corpus : la taille
Le corpus compte 100’106’008 de mots, et il occupe 1,5 gigaoctets d’espace
disque.
Pour vous donner une perspective, si on imprimait le corpus en petite police sur
papier très fin (comme livre de poche) il occuperait 10 mètres d’étagère. (Un
livre de poche habituel consiste en 250 pages pour chaque centimètre
d’épaisseur, et il a 400 mots par page.)
Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8
heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le
lire entièrement.
Il y a 6 million 250 milles phrase dans le corpus.
La segmentation et l’étiquetage ont été fait automatiquement avec le tagger
stochastique CLAWS développé à l’université de Lancaster. On utilise 65 partie
du discours.

16
The British National Corpus : exemple
<p>
<s n="38"><w VVG-NN1>Raising <w NN1>money <w PRP>for <w DPS>your
<w AJ0-NN1>favourite <w NN1>charity <w VM0>can <w VBI>be <w AJ0>fun<c
PUN>.
<s n="39"><w PNP>You <w VM0>can <w VDI>do <w PNP>it <w PRP-AVP>on
<w DPS>your <w DT0>own <w CJC>or <w PNP>you <w VM0>can <w VVI>get
<w AV0>together <w PRP>with <w NN1>family <w CJC>and <w
NN2>friends<c PUN>.
<s n="40"><w EX0>There <w VBZ>is <w AT0>no <w NN1>limit <w PRP>to <w
AT0>the <w NN1>number <w PRF>of <w NN2>ways <w TO0>to <w VVI>raise
<w NN1>money<c PUN>.
<s n="41"><w CJS>Whether <w AT0>the <w AJ0>final <w NN1>total <w
VBZ>is <w NN0>&pound;5 <w CJC>or <w NN0>&pound;5,000<c PUN>, <w
PNP>it <w VBZ>is <w DT0>all <w AV0>very <w AV0>much <w VVN-
VVD>needed<c PUN>.
</p> 17
Autres Corpus pour l'anglais
The Bank of English
http://titania.cobuild.collins.co.uk/boe_info.html
http://titania.cobuild.collins.co.uk/direct_info.html

The International Corpus of English (ICE)


http://www.ucl.ac.uk/english-usage/ice.htm
  
 

18
Corpus français (projet PAROLE)
•Différemment du BNC, les récents projets de constitution de corpus en France
reposent plutôt sur l'assemblage de données préexistantes.
•Exemple : corpus réalisé dans le cadre du projet européen Parole (1996-1998).

19
Corpus français (projet PAROLE)
•Les 20 093 099 mots obtenus se répartissent à l'issue du projet en
2 025 964 mots de transcriptions de débats au parlement européen,
3 267 409 mots d'une trentaine d'ouvrages de disciplines variées
(en sciences humaines) fournis par CNRS-Éditions,
942 963 mots provenant des notes de vulgarisation de la revue CNRS Info
et d'articles sur la communication de la revue Hermès
13 856 763 mots correspondant à 25 654 articles provenant du choix
aléatoire de numéros entiers parmi ceux des années
1987, 1989, 1991, 1993 et 1995 du journal Le Monde.
• Les données rassemblées sont variées, mais pas représentatives des emplois
principaux du français : un seul journal, quotidien. La presse régionale, les
hebdomadaires, la presse spécialisée sont absents, ainsi que les langages
techniques et scientifiques. Néanmoins, très utile en pratique.
20
Corpus Français

University of Virginia Electronic Text Centre  Corpus


téléchargeables dans plusieurs langues (y compris le français)
http://etext.lib.virginia.edu/uvaonline.html
Corpus lexicaux québécois  (Onze corpus (entre autres, le Trésor
de la langue française au Québec)
http://www.spl.gouv.qc.ca/banque/banque.html
Corpus 56 56 articles de journaux (français, canadiens, suisses)
http://tactweb.chass.utoronto.ca/french/corp_dat.htm
InaLF – Institut National de la Langue Française
http://www.inalf.fr/produits.html
21
Corpus arborés

Une collection de textes permet d'engendrer de multiples corpus


distincts.
Chacun de ces corpus peut donner lieu à des annotations
variées: étiquetage morpho-syntaxique, projection de catégories
sémantiques, lemmatisation, etc.

Description de corpus arborés :


http://www.u-grenoble3.fr/idl/cursus/enseignants/tutin/corpus.htm
http://treebanks/linguist/jussieu/index.html

22
Constitution du Penn Treebank
Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). C’est un
corpus annoté d’environ 4.5 millions de mots d’anglais-américain. L’ensemble de ce
corpus a presque entièrement été analysé par arbres.
http://www.cis.upenn.edu/~treebank/
Composition résumés du Département d’énergie (230'000 mots)
articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré)
bulletins du Département d’agriculture (80'000 mots)
bibliothèque de textes américains (105'000 mots)
messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112K mots)
phrases d’ATIS (phrases spontanées transcrites) (20'000 mots)
phrases prononcées en radio (10'000 mots)
Brown Corpus réétiqueté (1’200’000 mots)
phrases des manuels IBM (90'000 mots) 23
Étiquetage du Penn Treebank

Le Penn Treebank est en fait un corpus semi-automatisé car


l’étiquetage et la parenthétisation sont automatiquement analysés,
mais ensuite corrigés par des annotateurs humains.
L’étiquetage du Penn Treebank est basé sur celui du Brown Corpus
qui comportait 87 étiquettes simples. Le nombre d’étiquettes a été
réduit en éliminant les redondances (c'est-à-dire en tenant compte
des informations lexicales et syntaxiques), on arrive ainsi à 48
étiquettes (36 étiquettes des parties du discours et 12 autres pour la
ponctuation et les symboles monétaires. )
Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont
la possibilité de combiner deux étiquettes. Ainsi, les décisions
arbitraires sont évitées.
24
Étiquetage du Penn Treebank

Exemples
Le nombre d’étiquettes a été réduit. On a éliminé les distinctions que l’on
peut déduire en tenant compte des 1) informations lexicales
2) informations syntaxiques.
(1) Brown PTB
sing/VB am/BE sing/VB am/VB
sang/VBD was/BEDZ sang/VBD was/VBD

(2) conjonctions de subordination et prépositions reçoivent la même


étiquette IN, car les conjonctions précèdent toujours une phrase tandis
que les prépositions précèdent des SN.
25
Étiquetage du Penn Treebank
Le jeu d'étiquette code la fonction grammatical si possible afin de
faciliter une analyse syntaxique ultérieure.

Exemple Brown PTB


the one/CD the one/NN
the ones/NNS the ones/NNS
the fallen/JJ leaf the fallen/VBN leaf

26
Étiquetage du Penn Treebank
1ère phase : l'étiquetage automatique
Cet étiquetage est réalisé par PARTS, un algorithme développé par les
laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du
Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7.9%.
2e phase : la correction manuelle
Cette correction est réalisée simplement avec une souris en positionnant le
curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette
donnée entrée automatiquement est vérifiée afin de voir si elle appartient
bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire mot-
étiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée
afin d'identifier les erreurs produites à l'étiquetage automatique des parties
du discours. (Dans la version de distribution du corpus, les étiquettes
fausses de l'étape automatique sont supprimées.)
27
Parenthétisation du Penn Treebank
3e phase : la parenthétisation automatique (réalisé par Fidditch)
Fidditch est un analyseur développé par Donald Hindle (d'abord à
l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé
pour fournir une analyse initiale.
Cet algorithme laisse beaucoup de constituants non rattachés qui sont
étiquetés "?". Il s'agit des syntagmes prépositionnels, des propositions
relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas
encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres.

4e phase : la parenthétisation simplifiée automatiquement


Les représentations sont simplifiées et aplaties par la suppression des
étiquettes de parties du discours, des nœuds lexicaux non-branchés et de
certains nœuds.
28
Parenthétisation du Penn Treebank
5e phase : La correction du parenthétisation
Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent
tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et
effacent certaines structures. La correction des structures parenthétisées est
plus difficile à réaliser que la correction de l'étiquetage des parties du discours.
Comme on veut que le Penn Treebank contienne seulement des structures
certaines , il y a deux façons d'annoter les structures incertaines : l'étiquette de
constituant X et le "pseudo-attachement".
L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une
séquence de mots est un constituant majeur, mais pas sûr de sa catégorie
syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et
l'étiquette X.
Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés
permanentes prévisibles". L'annotateur indique cela quand une structure est
globalement ambiguë même donnée dans un contexte.
29
Exemple d'arbres du Penn Treebank – phase 3
( (S Battle-tested industrial managers here always buck up
(NP (ADJP Battle-tested industrial)
managers) nervous newcomers with the tale of the first of their
(? here)
(? always) countrymen to visit Mexico a boatload of warriors blown
(VP buck))
(? (PP up ashore 375 years ago
(NP nervous newcomers)))
(? (PP with
(NP the tale
(PP of
(NP the
(ADJP first))))))
(? (PP of
(NP their countrymen)))
(? (S (NP *)
to
(VP visit
(NP Mexico))))
(? ,)
(? (NP a boatload
(PP of
(NP warriors))
(VP blown
(? ashore)
(NP 375 years))))
(? ago) 30
(? .))
Exemple d'arbres du Penn Treebank – phase 5
( (S
(NP Battle-tested industrial managers
here)
always
(VP buck
up
(NP nervous newcomers)
(PP with
(NP the tale
(PP of
(NP (NP the
(ADJP first
(PP of
(NP their countrymen)))
(S (NP *)
to
(VP visit
(NP Mexico))))
,
(NP (NP a boatload
(PP of
(NP (NP warriors)
(VP-1 blown
ashore
(ADVP (NP 375 years)
ago)))))
(VP-1 *pseudo-attach*)))))))) 31
.)
Tests comparatifs et évaluation du Penn Treebank
Au tout début du projet, une expérience a été réalisée concernant deux modes
d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes
entièrement non annotés, à la main
- la "correction" : ils ont vérifié et corrigé la production de PARTS.
Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple
correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de
désaccord (7.2% contre 3.5%) et un taux d'erreurs 50% plus élevé.
En ce qui concerne la structure, les annotateurs peuvent corriger la structure
pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3
semaines et d'environ 475 m/h après 6 semaines. La réduction à une
représentation plus squelettique augmente la productivité de l'annotateur
d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les
annotateurs produisent environ 750, voire même pour certains plus de 1000
mots/heure.
Le taux d'erreurs de la version finale est estimé à environ 1 %. 32
Corfrans : corpus arboré en français
Annotation morpho-syntaxique d’environs 400’000 mots avec plusieurs
variétés de français (présentés dans le Monde, le Hansard, l’hebdo…).
Marquage syntaxique automatique avec l’analyseur Shallow parseur
développé par A. Kinyon qui annote les frontières en minimisant les cas
de rattachement (il se base sur les mots fonctionnels pour déterminer les
frontières de constituants).
Correction manuelle des erreurs commises lors de l’analyse. Un outil
d’aide à la correction pour les annotateurs a été conçu.
Définition d’un standard d’annotation en constituants qui évite les
syntagmes vides, les syntagmes discontinus qui posent problème lors de
la réalisation d’arbres syntaxiques.
Évaluation et enrichissement du corpus, dans le but de faire le point sur
les besoins et les outils des producteurs et utilisateurs de corpus.
33
Corfrans : corpus arboré en français
Comment l’équipe gère-t-elle le problème de la discontinuité de la
négation ?
Ex : Jean ne veut pas venir
ne pas pourrait éventuellement être adverbe continu car il existe des
phrases comme Jean préfère ne pas venir mais pour une discontinuité
avec d’autre mots négatifs je ne veux voir personne on ne peut pas
faire un constituant ne personne car elle ne se trouve jamais dans une
séquence
*je préfère ne personne voir.

Il n’y aura donc pas de syntagmes discontinues.

34
Corfrans : corpus arboré en français
Les solutions
L’adverbe négatif "ne" fait toujours parti du noyau verbal par contre les
forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN
sauf s’ils sont entre l’auxiliaire et le participe passé.
Ex : Je <VN> ne veux </VN> pas <VPinf> <VN> venir </VN> </VPinf>
Jean <VN> n’est pas venu </VN>
Je <VN> n’ai <NP> rien : Pro </NP> vu </VN>

35
Negr@ Corpus

Corpus arborés de l'allemand


http://www.coli.uni-sb.de/sfb378/negra-corpus/negra-corpus.html

355,096 tokens (20,602 phrases) tirés du quotidien allemand Frankfurter


Rundschau (Multilingual Corpus 1 de la European Corpus Initiative).
Le corpus est étiqueté et arboré.

Les arbres peuvent avoir des branches croisées.


Si l'on désire, on peut transformer les branches croisés en trace et obtenir
le même format du Penn Treebank.

36
Negr@ Corpus

Différents types d'information dans le corpus

Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS)


Analyse Morphologique (60,000 tokens)
Catégories syntaxiques et fonction grammaticales

37
Negr@ Corpus exemple
(CS
(S-CJ
(PPER-SB Sie)
(VVFIN-HD gehen)
(CNP-OA
(NP-CJ
(ADJA-NK gewagte)
(NN-NK Verbindungen)
)
(KON-CD und)
(NN-CJ Risiken)
)
(PTKVZ-SVP ein)
)
($, ,)
(S-CJ
(VVFIN-HD versuchen)
(VP-OC
(NP-OA
(PPOSAT-NK ihre)
(NN-NK Möglichkeiten)
)
(VVIZU-HD auszureizen)
)
)
($. .) 38
Canadian Hansards

A bilingual corpus of the proceedings of the Canadian


parliament Contains parallel texts in English and French
which have been used to investigate statistically based
machine translation.

39
<PAIR>
<ENGLISH>
no , it is a falsehood .
</ENGLISH>
<FRENCH>
non , ce est un mensonge .
</FRENCH>
</PAIR>
<PAIR>
<ENGLISH>
Mr. Speaker , the record speaks for itself with regard to what I said
about the price of fertilizer .
</ENGLISH>
<FRENCH>
monsieur le Orateur , ma déclaration sur le prix de les engrais a été
confirmée par les événements .
</FRENCH>
40
</PAIR>
Les corpus étiquetés sémantiques

41
Framenet (from their web page)
The Berkeley FrameNet project is creating an
on-line lexical resource for English,
based on frame semantics and
supported by corpus evidence.
The aim is to document the range of semantic and syntactic
combinatory possibilities (valences) of each word in each of its
senses, through manual annotation of example sentences and
automatic capture and organization of the annotation results.

42
Framenet: basic concepts

A lexical unit is a pairing of a word with a meaning.

Typically, each sense of a polysemous word belongs to a different


semantic frame, a script-like structure of inferences that characterize a
type of situation, object, or event.

Each frame contains a predicates and what are called frame elements
(FEs) - participants and props in the frame whose linguistic expressions
are syntactically connected to the target word.

43
Framenet Annotation: example

Revenge frame Definition


An Avenger performs some Punishment on an Offender as a response
to an earlier action, the Injury, that was inflicted on an Injured_party. The
Avenger need not be identical to the Injured_party but needs to consider
the prior action of the Offender a wrong. Importantly, the punishment of
the Offender by the Avenger is seen as justified by individual or group
opinion rather than by law.
Frame elements in the Revenge frame are Avenger, Punishment,
Offender, Injury, and Injured_party.

44
Framenet Annotation: example
Lexical units in this frame include avenge.v, avenger.n, get even.v,
retaliate.v, retaliation.n, retribution.n, retributive.a, retributory.a, revenge.v,
revenge.n, revengeful.a, revenger.n, vengeance.n, vengeful.a, and
vindictive.a.

Some example sentences with the lexical unit avenge are given here.
[His brothers Avenger] avenged [him Injured_party].
With this, [El Cid Agent] at once avenged [the death of his son Injury].
[Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan
Offender] [by becoming a second and better father Punishment].

45
Framenet Annotation: example
Here goes a screen dump

46
Framenet Annotation: easy cases

Annotation is easiest when all and only the core frame elements (the
conceptually necessary participants of the frame that a syntactic governor
evokes) find syntactic expression in the sentence as separate immediate
syntactic dependents of the governor.

47
Framenet Annotation:not so easy cases

Non-core frame elements are conceptually not necessary in the sense


that they do not uniquely characterize the frame. Thus, for most frames
standing for events or processes, Time and Place frame elements are not
core, and therefore may not always be annotated.
Similarly, actions often have a Purpose that the Agent intends to
accomplish by performing the action indicated by the target word.
However, having a purpose doesn't usually distinguish types of actions
and so Purpose is often a non-core frame element, as in the following
example:
They wake you up [to give you a sleeping pill Purpose].

48
Framenet Annotation:missing frame elements
Sometimes FEs that are conceptually salient do not show up as
lexical or phrasal material in the sentence chosen for annotation.
They are however annotated to indicate omissibility conditions.
Constructional Null Instantiation (CNI):
Constructionally omitted constituents (also called structurally
omitted) have their omission licensed by a grammatical construction
in which the target word appears and are therefore more or less
independent of the LU. Cases of CNI include:
the omitted subject of imperative sentences,
the omitted agent of passive sentences,
the omitted subjects of independent gerunds and infinitives (PRO),
and so on
49
Framenet Annotation:missing frame lements
•Family feuds last for generations, and [slurs on honor Injury] are
avenged [by murder Punishment] . [CNI Avenger]
•Get even [with her Offender] [for this Injury] [CNI Avenger]
•In addition, we use CNI for missing objects in instructional
imperatives such as exemplified below, even though in this case the
omission is not dependent on a particular construction, but rather on
a genre. 
•Cook on low heat until done. [CNI Food]
•Tie together loosely. [CNI Items]

50
Framenet Annotation:missing frame elements

Definite Null Instantiation (DNI):


Cases of definite null (also called anaphoric) instantiation are those
in which the missing element must be something that is already
understood in the linguistic or discourse context. In the following
example, the Offender is not expressed overtly in the syntax, but its
referent has to be known in the context.
[The monkey Avenger] avenged [himself Injured_party] [by growing
to the size of a giant and setting fire to the city Punishment].
[Offender DNI]

51
Framenet Annotation:missing frame elements
Indefinite Null Instantiation (INI):
The indefinite cases (sometimes also referred to as existential) are
illustrated by the missing objects of verbs like eat, sew, bake, drink,
etc., that is, cases in which these ordinarily transitive verbs can be
spoken of as used intransitively.
Molly rarely eats alone;
Granny begins baking about a month before Christmas;
Jo even drinks heavily on weeknights.

There are often special interpretations of the existentially understood


missing objects: for example, with eat the missing entity is likely to
be a meal, with bake it is likely to be flour-based foods, with drink it is
likely to be alcoholic beverages, etc.
52
Framenet Annotation:missing frame elements
Indefinite Null Instantiation (INI) continued
There is no need to retrieve or construct a specific discourse
referent.
For example, in the Revenge frame, all lexical units happen to allow
the frame element Punishment to be omitted under indefinite null
instantiation.
He took it out on Scarlet in the same way as [he Avenger] avenged
[himself Injured_party] [on her Offender] [for the pressures at work
and the demands of his first wife Injury]] . [INI Punishment]
Note that usually verbs in a frame differ in this respect. For instance,
while eat allows its object to be omitted, devour does not, even
though they are both in the Ingestion frame.

53
Framenet Annotation:frame element conflation
In some cases, information about two frame elements is expressed in
a single constituent, a situation we call conflation.
For instance, in the Revenge frame, the Injured_party may be
contained as a possessive in the phrase that realizes the Injury frame
element as seen in the following example:

[He Avenger] avenged [Pedro 's death Injury] [by taking out the
poker-faced Guards Officer Punishment].
In this example, the possessive Pedro's realizes the frame element
Injured_party, the person who suffered the Injury.

Also, We ousted Jones as mayor vs. We ousted the mayor, where the
direct object stands for both the office and the incumbent.
54
Penn
Proposition Bank

all following transparencies on Proposition Bank


from web page of ACE project
http://www.cis.upenn.edu/~mpalmer/project_pages
/ACE.htm

director:Professor Martha Palmer


University of Colorado

55
Proposition Bank
How much can current statistical NLP systems be made more
domain-independent without prohibitive costs, either in terms of
engineering or annotation?
The Proposition Bank is designed as a broad-coverage resource
to facilitate the development of more general systems.
It focuses on the argument structure of verbs, and provides a
complete corpus annotated with semantic roles.
Correctly identifying the semantic roles of the sentence constituents
is a crucial part of interpreting text,
for information extraction
machine translation or
automatic summarization. http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
56
PropBank
The Proposition Bank project takes a practical approach to
semantic representation,
adding a layer of predicate-argument information, or semantic
roles, to the syntactic structures of the Penn Treebank.

The resulting resource can be thought of as shallow, in that it does


not represent coreference, quantification, and many other higher-
order phenomena,

but also broad, in that it covers every verb in the corpus and allows
representative statistics to be calculated.
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
57
Proposition Bank: From Sentences to Propositions
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Powell met Zhu Rongji


battle
wrestle
join
debate
Powell and Zhu Rongji met consult

Powell met with Zhu Rongji


Proposition: meet(Powell, Zhu Rongji)
Powell and Zhu Rongji had
a meeting meet(Somebody1, Somebody2)
...
When Powell met Zhu Rongji on Thursday they discussed the return of the spy plane.
meet(Powell, Zhu) discuss([Powell, Zhu], return(X, plane))
58
Capturing semantic roles*
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

SUBJ
George broke [ ARG1 the laser pointer.]

SUBJ
[ARG1 The windows] were broken by the hurricane.

SUBJ
[ARG1 The vase] broke into pieces when it toppled over.

59
A TreeBanked Sentence
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

S (S (NP-SBJ Analysts)
(VP have
VP (VP been
(VP expecting
have VP (NP (NP a GM-Jaguar pact)
(SBAR (WHNP-1 that)
NP-SBJ been VP (S (NP-SBJ *T*-1)
Analysts (VP would
expectingNP (VP give
SBAR (NP the U.S. car maker)
NP S (NP (NP an eventual (ADJP 30 %) stake)
a GM-Jaguar WHNP-1 VP
(PP-LOC in (NP the British company))))))))))))
pact that NP-SBJ VP
*T*-1 would
NP
give
Analysts have been expecting a GM-Jaguar NP PP-LOC
pact that would give the U.S. car maker an the US car NP
maker an eventual NP
eventual 30% stake in the British company.
30% stake in the British
company
60
The same sentence, PropBanked
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

have been expecting (S Arg0 (NP-SBJ Analysts)


(VP have
(VP been
Arg0 Arg1
(VP expecting
Arg1 (NP (NP a GM-Jaguar pact)
(SBAR (WHNP-1 that)
Analysts a GM-Jaguar (S Arg0 (NP-SBJ *T*-1)
pact (VP would
(VP give
Arg2 (NP the U.S. car maker)
Arg1 (NP (NP an eventual (ADJP 30 %) stake)
Arg0 (PP-LOC in (NP the British company))))))))))))
that would give
Arg1

*T*-1 Arg2 an eventual 30% stake in the


British company
the US car
maker expect(Analysts, GM-J pact)
give(GM-J pact, US car maker, 30% stake)

61
Frames File Example: expect
Roles:
Arg0: expecter
Arg1: thing expected

Example: Transitive, active:

Portfolio managers expect further declines in


interest rates.

Arg0: Portfolio managers


REL: expect
Arg1: further declines in interest rates
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm 62
Frames File example: give
Roles:
Arg0: giver
Arg1: thing given
Arg2: entity given to

Example: double object


The executives gave the chefs a standing ovation.
Arg0: The executives
REL: gave
Arg2: the chefs
Arg1: a standing ovation

http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

63
Word Senses in PropBank
Orders to ignore word sense not feasible for 700+ verbs
Mary left the room
Mary left her daughter-in-law her pearls in her will

Frameset leave.01 "move away from":


Arg0: entity leaving
Arg1: place left

Frameset leave.02 "give":


Arg0: giver
Arg1: thing given
Arg2: beneficiary

http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

64
Annotation procedurehttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

PTB II - Extraction of all sentences with given verb


Create Frame File for that verb
(3100+ lemmas, 4400 framesets,118K predicates)
Over 300 created automatically via VerbNet
First pass: Automatic tagging
http://www.cis.upenn.edu/~josephr/TIDES/index.html#lexicon
Second pass: Double blind hand correction

Tagging tool highlights discrepancies


Third pass: Solomonization (adjudication)

65
Trends in Argument Numbering
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Arg0 = agent
Arg1 = direct object / theme / patient
Arg2 = indirect object / benefactive / instrument / attribute /
end state
Arg3 = start point / benefactive / instrument / attribute
Arg4 = end point
Per word vs frame level – more general?

66
Additional tags http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
(arguments or adjuncts?)
Variety of ArgM’s (Arg#>4):
TMP - when?
LOC - where at?
DIR - where to?
MNR - how?
PRP -why?
REC - himself, themselves, each other
PRD -this argument refers to or modifies
another
ADV –others
67
Inflection http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Verbs also marked for tense/aspect


Passive/Active
Perfect/Progressive
Third singular (is has does was)
Present/Past/Future
Infinitives/Participles/Gerunds/Finites

Modals and negations marked as ArgMs

68
Frames: Multiple Framesetshttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Framesets are not necessarily consistent between different


senses of the same verb

Framesets are consistent between different verbs that share


similar argument structures, (like FrameNet)

69
Résumé du cours
•Corpus collection de plus d’un texte
•Propriétés représentatif, de taille finie, électronique
•Types de corpus équilibré par échantillonnage
de contrôle
référence
Utilisations lexicographie, théorie linguistique
données d’entraînement pour apprentissage automatique
Exemples de corpus
de référence British National Corpus
arboré Penn Treebank, Corfrans, Negr@
sémantique FrameNet PropBank 70