Académique Documents
Professionnel Documents
Culture Documents
LA TRADUCTION AUTOMATIQUE
PLAN
1. Un peu d’histoire
2. Modèles
1. Triangle de Vauquois
2. Systèmes à base de règles
3. Systèmes à base de données
1. Statistiques
2. Neuronaux
4. Encyclopédie
5. Comparaison
3. Usages de la TA
4. Évaluation de la qualité
1. Humaine
2. Automatique 2
3
UN PEU D’HISTOIRE…
6
MODÈLES
7
2.1. TRIANGLE DE VAUQUOIS
Triangle traductif
Triangle de Vauquois
2.2. TA À BASE DE RÈGLES
RULE-BASED MACHINE TRANSLATION (RBMT)
9
FONDÉE SUR DES RÈGLES D'ANALYSE
1. Catégorisation
2. Morphologiques
3. Syntaxiques
4. Sémantiques
RÈGLES LINGUISTIQUES
12
MAIS…
Capacité générative ou insuffisante selon le cas:
D’incolores idées vertes dorment furieusement
14
http://nlp.stanford.edu:8080/parser/index.jsp
RÈGLES DE TRANSFERT
Taum Meteo:
About(+time)=vers
About(+degree)=environ
15
RÈGLES DE GÉNÉRATION
Exemples:
ce | voyelle → cet (cet enfant)
à + le → au
16
DIFFICULTÉS
→ sous-domaines
18
TAUM-METEO: CARACTÉRISTIQUES
19
TAUM-METEO: GRAMMAIRE
20
TAUM-MÉTÉO: LA SÉMANTIQUE
heavy=ADJ((TOMBANT), abondant)
heavy=ADJ((STATIONNAIRE), dense)
heavy=ADJ((SOUFFLANT), fort)
21
2.3. TA À BASE DE DONNÉES
22
2.3.1. TA STATISTIQUE
23
CONTEXTE TECHNICO-HISTORIQUE
24
TAS –2 phases
Training - Decoding -
Entraînement Traduction
Modèle de
Training traduction
Corpus parallèle,
aligné
26
SMT - Modèle de traduction
(mot à mot)
Ma My 0,8
Femme Wife 0,8
A sauté Jumped 0,85
A sauté Skipped 0,15
Un repas A meal 1,0
TRADUCTOLOGIE DE PLEIN-CHAMP, BRUXELLES, 19/10/2019
A sauté un repas Skipped a meal 1,0
27
EXEMPLE (KNIGHT & KOEHN 2003)
28
TA SYNTAGMATIQUE
29
TAS - Modèle de langue
Modèle de
Training langue
Corpus monolingue
(langue cible)
Le grand chat 0,4
Le gros chat 0,5
La gros chat 0,1
30
TAS – traduction (décodage)
31
Noisy-channel Model de Shannn
33
En conclusion…
35
Inversion
36
2.3.2. TA NEURONALE
NEURAL MACHINE TRANSLATION (NMT)
37
CONTEXTE TECHNICO-HISTORIQUE
TAN Apprentissage automatique intelligence artificielle
38
2 phases: encoding / decoding (analyse/génération)
Système à apprentissage (exemple du chat et du chien)
Multidimensionnel: les mots sont représentés par des vecteurs multidimentionnels,
soit un ensemble de nombres (jusque 512) → les mots proches de sens seront
proches dans une matrice
39
WORD2VEC (GOOGLE)
40
41
Source: http://blog.systransoft.com/how-does-neural-machine-translation-work/
© Copyright Omniscient
42
CONSÉQUENCES
Erreurs de terminologie:
I go to Paris -- > je vais à New York
Sous-traduction / surtraduction
Surtout avec les phrases longues
43
NEUROBABBLE
There was no clear correlation between the measured mass density and the measured mass
density, and neither experiment A or B.
The company will pay approximately EUR 600 million in fines, and the U.S. Department of
Justice (SEC) to pay for approximately EUR 600 million, and the U.S. Department of Justice
and the Justice Department of Justice (SEC) to reduce the amount of internal control of the
board of directors of the board of directors of the board of directors...
Source: http://www.ccl.kuleuven.be/scateworkshop/slides/11%20-%20SCATE_EHasler.pdf
44
Voir IA, apprentissage profond et TA
45
3 STADES DE LA TAN
CNTK: Microsoft
Pytorch: Facebook
Tensorflow: Google 46
Sockeye: Amazon
2.4. ENCYCLOPÉDIE
Baidu
Bing Translator
DeepL
eTranslation
Google Translate
Language Weaver
Systran
Yandex
Apertium
47
ModernMT
https://www.nimdzi.com/language-technology-atlas/
TA2.5.
à base de règles
COMPARAISON TA statistique TA neuronale
Traductions prévisibles et homogènes Traductions imprévisibles et hétérogènes idem
Qualité meilleure sur des textes généralistes Peut être entraînée sur des corpus spécialisés Bonne qualité des textes généralistes
Manque de fluidité Certains syntagmes peuvent être corrects, mais pas la phrase dans son Fluidité
ensemble
Précision peut être améliorée par description lexicale Précision peut être améliorée par entraînement sur des corpus spécialisés Manque de précision
48
3. FONCTIONS/USAGES DE LA TA
assimilation
= traduire des documents vers sa langue
veille
diffusion interne
publication
dissemination
= traduire des documents vers une autre langue
communication
= utiliser la TA pour communiquer entre 2 personnes qui ne parlent pas la même langue
Interrogation de bases de données
49
▪ Applications professionnelles
▪ En combinaison avec des MT
50
EXEMPLES
CH FR
乙型肝炎是由乙型肝炎病毒造成的可能威胁生命的肝脏感
染。它是一个重要的全球卫生问题,也是最严重类型的病 L'hépatite B est une infection du foie potentiellement mortelle causée par le virus de
毒性肝炎。它可造成慢性肝病,患者死于肝硬化和肝癌的 l'hépatite B. Il s'agit d'un des problèmes majeurs de santé mondiaux, le type le plus
风险极高。 grave des hépatites virales. Il peut causer une maladie hépatique chronique, les patients
à haut risque est décédé d'une cirrhose du foie et un cancer du foie.
全世界估计有20亿人感染乙型肝炎病毒(HBV),3.5亿 以 Dans le monde, environ 20 millions de personnes infectées par l'hépatite B (VHB), 3,5
上的人患有慢性(长期)肝脏感染疾病。 de plus de 100 millions de personnes souffrent de maladies chroniques (à long terme)
自1982年以来,已有一种乙型肝炎疫苗可获得。乙型肝 炎 du foie infections.
疫苗对预防乙型肝炎病毒感染及其慢性后果的效果达到 Un vaccin contre l'hépatite B est disponible depuis 1982. Vaccin antihépatite B est
95%,是预防一种主要人类癌症的最早疫苗。 efficace à 95% dans la prévention de l'infection à VHB et ses conséquences chroniques,
est le premier vaccin contre un cancer humain majeur.
症状
symptôme
乙型肝炎病毒可造成急性病患,症状可持续数周,包括皮
L'hépatite B peut causer une maladie aiguë, les symptômes pendant plusieurs semaines,
肤和眼睛发黄(黄疸),尿色深,极度疲劳,恶心,呕吐 y compris la peau et des yeux (ictère), urines foncées, fatigue extrême, des nausées, des
和腹痛。患者可能需要数月乃至一年才能痊愈。乙型肝炎 vomissements et des douleurs abdominales. Les patients peuvent avoir besoin de
病毒也会造成慢性肝脏感染,以后可能发展成肝硬化或肝 quelques mois à un an pour guérir. Le VHB peut également provoquer une infection
癌。 chronique du foie qui peut ensuite évoluer vers une cirrhose ou un cancer du 51 foie.
EXEMPLES
CH L'hépatite B est une infection du foie potentiellement mortelle causée par le virus de
l'hépatite B.
C'est un problème de santé mondial important et le type le plus grave d'hépatite toxique.
(2018)
乙型肝炎是由乙型肝炎病毒造成的可能威胁生命的肝脏感 Il s'agit d'un problème de santé mondial majeur et du type le plus grave d'hépatite virale.
染。它是一个重要的全球卫生问题,也是最严重类型的病 (2021)
毒性肝炎。它可造成慢性肝病,患者死于肝硬化和肝癌的 Il peut causer une maladie chronique du foie et le risque de mourir d'une cirrhose et d'un
风险极高。 cancer du foie est extrêmement élevé.
Environ 2 milliards de personnes dans le monde sont infectées par le virus de l'hépatite B
全世界估计有20亿人感染乙型肝炎病毒(HBV),3.5亿 以 (VHB) et plus de 350 millions de personnes souffrent d'infections hépatiques chroniques (à
上的人患有慢性(长期)肝脏感染疾病。 long terme).
Depuis 1982, un vaccin contre l'hépatite B est disponible. Le vaccin contre l'hépatite B est
自1982年以来,已有一种乙型肝炎疫苗可获得。乙型肝 炎 efficace à 95% pour prévenir l'infection par le virus de l'hépatite B et ses conséquences
疫苗对预防乙型肝炎病毒感染及其慢性后果的效果达到 chroniques.Il est le premier vaccin pour prévenir un cancer humain majeur.
95%,是预防一种主要人类癌症的最早疫苗。 Symptômes
Le virus de l'hépatite B peut causer une maladie aiguë Les symptômes peuvent persister
症状 (durer 2021) pendant plusieurs semaines, notamment le jaunissement de la peau et des yeux
(jaunisse), une urine foncée, une fatigue extrême, des nausées, des vomissements et des
乙型肝炎病毒可造成急性病患,症状可持续数周,包括皮
douleurs abdominales.
肤和眼睛发黄(黄疸),尿色深,极度疲劳,恶心,呕吐 Cela peut prendre des mois ou même un an pour que le patient se rétablisse. (2018)
和腹痛。患者可能需要数月乃至一年才能痊愈。乙型肝炎 Le patient peut mettre des mois, voire une année, à se rétablir. (2021)
病毒也会造成慢性肝脏感染,以后可能发展成肝硬化或肝 Le virus de l'hépatite B peut également provoquer des infections hépatiques chroniques qui
癌。 peuvent évoluer vers une cirrhose ou un cancer du foie. 52
The Biologists
Les bombardements des villes pendant la guerre ont entraîné une augmentation
The bombing of cities during the war caused a marked increase in the sensible du nombre de brûlés pour lesquels une autogreffe de peau n'était pas
number of burn victims for whom a skin autograft was not feasible. The envisageable. L'application d'homogreffes de peau (un ancien terme pour allogreffe)
était connue pour son taux d'échec élevé dû au rejet. Le "War Wounds Committee"
application of skin homografts (a old term for allograft) was known for its du British Medical Council a chargé un jeune zoologiste formé à Oxford, Peter
high failure rate due to rejection. The ‘War Wounds Committee' of the Medawar, d'étudier le problème du rejet des homogreffes et les moyens de le
British Medical Council assigned a young, Oxford-educated zoologist named contourner. Medawar a d'abord travaillé dans un cadre clinique avec Thomas Gibson
Peter Medawar to investigate the problem of homograft rejection and how à l'unité des grands brûlés du Glasgow Infirmary. En 1943, ils ont publié un rapport
to circumvent it. Medawar worked first in a clinical setting with Thomas détaillé intitulé "The Fate of Skin Homografts in Man" (Le sort des homogreffes de
peau chez l'homme) sur une seule victime de brûlures ayant subi de multiples
Gibson at the Burn Unit at Glasgow Infirmary. In 1943, they published a "greffes en pince" de peau. Leur analyse complète des biopsies en série a conduit
detailed report “The Fate of Skin Homografts in Man” on a single burn aux conclusions suivantes :
victim with multiple ‘pinch grafts' of skin. Their comprehensive analysis of
1. Les autogreffes réussissent, mais les allogreffes échouent après une prise initiale
serial biopsies led to the following conclusions:
2. Les greffes "de seconde intention" subissent un rejet accéléré.
1. Autografts succeed, but allografts fail after an initial take
3. La dégradation de l'épithélium cutané étranger n'est pas due à "une réaction
2. “Second-set” grafts undergo accelerated rejection. locale" (terme utilisé par Loeb) de la part des lymphocytes ou d'autres cellules du
mésenchyme.
3. The breakdown of foreign skin epithelium is not due to “a local reaction”
(a term used by Loeb) on the part of lymphocytes or other mesenchyme 4. La destruction de l'épiderme étranger est provoquée par un mécanisme
d'immunisation active.Ce rapport montre que Medawar était conscient des
cells. hypothèses d'immunité de Schöne, Holman, Woglom et d'autres pour expliquer le
4. The destruction of the foreign epidermis is brought about by a mechanism rejet de greffe. Il est retourné à l'Université d'Oxford pour étudier le rejet54des
homogreffes chez les animaux de laboratoire et prouver qu'il s'agissait d'un
of active immunization phénomène immunologique. Une série d'expériences soigneusement conçues et
rigoureusement contrôlées avec un modèle de greffe de peau de lapin ont été
This report shows the Medawar's awareness of the immunity hypotheses of
décrites dans deux rapports au War Wounds Committee publiés dans le Journal of
4. EVALUATION
DE LA QUALITÉ
55
DIFFÉRENTS SYSTÈMES
D’ÉVALUATION AUTOMATIQUE
56
ÉVALUATION HUMAINE
57
ÉVALUATION DE L'EFFORT DE POST-ÉDITION
58
5. ACTION DU « BIOTRADUCTEUR »
1. Pré-édition
2. (Description lexicale
3. Description syntaxique)
4. Post-édition
59
PRÉ-ÉDITION TECHNIQUE
60
PRÉ-ÉDITION LINGUISTIQUE /
LANGAGE CONTRÔLÉ
The correspondence that pass between them in their old days was published last autumn.
La correspondance que la passe entre ils dans leurs vieux jours a été publiée l'automne dernier.
(Systran-R)
La correspondance qui passe entre eux dans leurs vieux jours a été publiée l'automne dernier.
The correspondence that passed between them in their old days was published last
autumn.
La correspondance qui est passée entre eux dans leurs vieux jours a été publiée l'automne
dernier (Systran-R)
La correspondance qu'ils échangeaient autrefois a été publiée à l'automne dernier. (DeepL
61
21)
DESCRIPTION TERMINOLOGIQUE
62
DESCRIPTION SYNTAXIQUE
Verb frames
Verbe + particule
Verbe + préposition
Verbe + objet
Keyed rules
Expressions idiomatiques
Expressions verbales complexes
La traduction doit être exacte, transmettre La traduction doit être exacte, transmettre
correctement le sens du message source, mais le style, correctement le sens du message source. En outre, le
la syntaxe et la grammaire peuvent être imparfaits. style, la syntaxe, la grammaire, la typographie et la mise
en forme seront corrects; la qualité devrait être
équivalente à celle fournie par un·e professionnel·le.
Le sens doit être correctement rendu Le texte doit être correct aux niveaux grammatical,
Pas d'omission ni d'ajout d'informations syntaxique et sémantique
Orthographe correcte La terminologie doit être correcte et correspondre aux
Remanier les passages pouvant être jugés comme desiderata du client
offensant ou inappropriés pour la culture cible Pas d'omission ni d'ajout d'informations
Utiliser au maximum la TA brute Utiliser au maximum la TA brute
Pas de correction stylistique ni sur l'organisation Les règles d'orthographe et de ponctuation doivent
64
générale du texte être respectées
La mise en page doit être correcte
QUE DOIT-ON ATTENDRE D'UN POST-ÉDITEUR?
Qualités linguistiques
Langue source
Langue cible
Compétences contrastives / de traduction?
Qualités techniques
OAT
Traitement de texte
Connaissance du domaine
Sémantique
Terminologie
Adaptation à la finalité de la traduction
APPROCHE QUANTITATIVE DE LA POST-ÉDITION
"post-editing effort"
1. Durée
2. Charge technique : modifications apportées
(insertions/suppressions/déplacements/remplacements) (post-editing distance)
translation edit rate (TER)
3. Charge cognitive
➔ Modes de tarification?
SOURCES
Histoire de la TA:
Hutchins (W.J.), Machine translation: past, present, future, Chichester (UK): Ellis Horwood; New York: Wiley, 1986
Hutchins (W.J.), Machine translation: a concise history, http://hutchinsweb.me.uk/CUHK-2006.pdf
King (M.), Traduction et technologie : état de la question, Revue Française de Linguistique Appliquée 2003-VII: 2, pp. 75-89
Merten (P.), “Spring, Summer, Fall, Winter... and Spring. Une histoire de la traduction automatique. » In Ateliers de traduction, Dossier thématique :
«Traduction : la fin de l'histoire ? » Sous la direction de Christian Balliu, Mathilde Fontanet et Nicolas Froeliger, 24 pp.
https://usv.ro/fisiere_utilizator/file/atelierdetraduction/arhive/2022/37/AT_37_%2018_FEB_2022-171-194.pdf
Pulman S. G. & Ritchie G. D., 1985, “Indexed Grammars and Intersecting Dependencies”, in UEA Papers in Linguistics, No 23, 1985, pp
21-38, Norwich, UK, https://www.cs.ox.ac.uk/files/216/indexg.pdf
Kübler, Natalie. 2007. « La traduction automatique : traduction machine? », 14.
TAs:
http://people.csail.mit.edu/koehn/publications/tutorial2003.pdf
http://www.systran.fr/systran/entreprise/technologie/traduction-automatique
Knight, K. & Koehn, Ph., 2003, "What’s New inStatisticalMachineTranslation", https://www.site.uottawa.ca/~diana/csi5180/SMT.pdf
TAn
Hasler (Eva), “Turning NMT research into commercial products”, Scate Workshop, http://www.ccl.kuleuven.be/scateworkshop/slides/11%20-
%20SCATE_EHasler.pdf 67
Koehn, Ph., 2020, Neural Machine Translation, Cambridge-NewYork, Cambridge University Press
Systran 2016, https://www.systransoft.com/blog/how-does-neural-machine-translation-work/
Evaluation
Secară, A., 2005, “Translation Evaluation – a State of the Art Survey”, in eCoLoRe-MeLLANGE Workshop Proceedings
Post-édition:
Aziz (W.), Specia (L.), PET: A Standalone Tool for Assessing Machine Translation through Post-editing, London, ASLIB 2012
Nokerman (A.-C.), Séminaire, Janvier 2002
Péraldi (S.), La post-édition à la portée du traducteur, Paris, Tralogy 2011
Robert (A.-M.), « Vous avez dit post-éditrice ? Quelques éléments d'un parcours personnel », JosTrans n°19, pp. 29-
40, 2013
TAUS https://www.taus.net/academy/best-practices/postedit-best-practices/machine-translation-post-editing-
guidelines
Gene, V., et L. Guerrero. 2022. A Common Machine Translation Post-Editing Training Handbook for Academia, Clients, LSPs
and Post-Editors.. https://gala-global.notion.site/gala-global/A-Common-Machine-Translation-Post-Editing-Training- 68
Handbook-for-Academia-Clients-LSPs-and-Post-Edi-2a137e7abdcb455b8dcc79ef608f1b65.