Vous êtes sur la page 1sur 7

Types de corpus

(Bouamor, 2012)

1
Typologie de paraphrases : généralité
(1) Changement de perspective : changement dans la façon dont les éléments de texte sont représentés (remplacement d’un verbe
par un adjectif). Ex : Ce manuscrit peut être lu. ↔ Ce manuscrit est lisible.

(2) Changement d’emphase : changement de la structure syntaxique en modifiant son focus (active->Passive, pseudo-clivée).
Ex : Maman a servi le repas. ↔ Le repas a été servi par maman.
Le chat a bu tout le lait. ↔ Celui qui a bu tout le lait, c’est le chat.

(3) Changement de relation : Changement de connexion entre les propositions.


Ex : Une étude conduite par « Gallup Poll » a indiqué qu’un Américain sur quatre croit aux fantômes. ↔ Une
étude a été conduite par le « Gallup Poll ». Elle a indiqué qu’un Américain sur quatre croit aux fantômes.

(4) Suppression : suppression d’éléments périphériques.


Ex : La situation de guerre a affecté de nombreuses personnes. → La guerre a affecté de nombreuses personnes.

(5) Déplacement de proposition : changement de la position.


Ex : L’étudiant a copié les schémas importants avant de rendre le livre. ↔ Avant de rendre le livre, l’étudiant a
2
copié les schémas importants.
Typologie de paraphrases : granularité (Bouamor, 2012)
(1) Paraphrase lexicale :
- Synonymes (manger ↔ consommer et bouquin ↔ livre)
- Hyperonymes (bâtiment ↔ maison, chien ↔ animal)

(2) Paraphrase sous-phrastique :


Équivalences au niveau du syntagme (il a envie de ↔ il aimerait bien ; x ne doute pas de y ↔ x est sûr de y)

(3) Paraphrase phrastique :


Équivalences au niveau de la phrase ou l’énoncé entier (Elle a grondé son enfant. ↔ Elle s’est fâchée contre son enfant. )

3
Opusparcus
OPen SUbtitleS Paraphrase Corpus for Six Languages

Creutz, M. (2018). Opensubtitles paraphrase corpus for Six Languages. Actes de la conférence
internationale Language Resources and Evaluation, pp. 1-3. https://arxiv.org/pdf/1809.06142.pdf

Récupérez la version française du corpus Opusparcus https://korp.csc.fi/download/opusparcus/

4
Opusparcus
OPen SUbtitleS Paraphrase Corpus for Six Languages

Opusparcus est un corpus de paraphrases pour six langues européennes : allemand, anglais, finnois, français, russe et
suédois.
Les paraphrases sont extraites du corpus OpenSubtitles2016, qui contient des sous-titres de films et d'émissions de
télévision.

Avantage :
Langage familier :

- Aider dans l'apprentissage des langues assistées par ordinateur,


- Aider à trouver des expressions naturelles et idiomatiques dans des situations de la vie réelle .
- Évaluer les systèmes de traduction automatique, car elles fournissent plusieurs traductions correctes pour une
seule phrase source.

5
Opusparcus : Annotation humaine
Catégorie Description Exemples
Good “Green” Les deux phrases ont le même sens It was a last minute thing. ↔
Score = 4 This wasn’t planned.
Mostly good “Light green” Même sens avec des différences de Go to your bedroom. ↔ Just go
Score = 3 style ou bien une phrase est plus to sleep.
spécifique que l'autre
Mostly bad “Yellow” Des éléments communs mais les deux Did you ask him? ↔ Have you
Score = 2 phrases ne portent pas le même sens asked her?
Bad “Red” Les deux phrases sont différentes She’s over there. ↔ Take me to
Score = 1 him.

6
https://qatent.com/jobs/intern-2/

Vous aimerez peut-être aussi