Vous êtes sur la page 1sur 16

Machine Translated by Google

Actes  de  la  recherche  sur  l'apprentissage  automatique  95:  847­862,  2018 ACML  2018

TVT :  réseau  de  transformateurs  à  deux  vues  pour  le  sous­titrage  vidéo

Ming  Chen FUNKYBLACK@ZJU.EDU.CN
Yingming  Li YINGMING@ZJU.EDU.CN

Zhongfei  Zhang ZHONGFEI@ZJU.EDU.CN

Siyu  Huang SIYUHUANG@ZJU.EDU.CN

Collège  des  sciences  de  l'information  et  du  génie  électronique,  Université  du  Zhejiang,  Hangzhou,  Chine

Éditeurs :  Jun  Zhu  et  Ichiro  Takeuchi

Abstrait
Le  sous­titrage  vidéo  consiste  à  générer  automatiquement  la  description  textuelle  naturelle  d'une  vidéo  donnée.
Il  existe  deux  défis  principaux  dans  le  sous­titrage  vidéo  dans  le  contexte  d'un  cadre  de  travail  encodeur­décodeur :  1)  
Comment  modéliser  les  informations  séquentielles ;  2)  Comment  combiner  les  modalités  incluant  la  vidéo  et  le  texte.  Pour  
le  défi  1),  les  méthodes  basées  sur  les  réseaux  de  neurones  récurrents  (RNN)  sont  actuellement  les  approches  les  plus  
courantes  pour  apprendre  les  représentations  temporelles  des  vidéos,  alors  qu'elles  souffrent  d'un  coût  de  calcul  élevé.  
Pour  le  défi  2),  les  caractéristiques  des  différentes  modalités  sont  souvent  grossièrement  concaténées  sans  discussion  
approfondie.  Dans  cet  article,  nous  introduisons  un  nouveau  cadre  de  sous­titrage  vidéo,  à  savoir,  Two­View  Transformer  
(TVT).  TVT  comprend  une  épine  dorsale  de  réseau  Transformer  pour  la  représentation  séquentielle  et  deux  types  de  blocs  
de  fusion  dans  les  couches  de  décodeur  pour  combiner  efficacement  différentes  modalités.  Une  étude  empirique  montre  
que  notre  modèle  TVT  surpasse  les  méthodes  de  pointe  sur  l'ensemble  de  données  MSVD  et  atteint  une  performance  
compétitive  sur  l'ensemble  de  données  MSR­VTT  sous  quatre  métriques  communes.

Mots­clés :  sous­titrage  vidéo ;  Séquence  à  séquence ;  Multi­modalités

1.  Introduction
La  description  de  vidéos  en  langage  naturel,  à  savoir  le  sous­titrage  vidéo,  a  été  un  sujet  largement  étudié  
dans  les  communautés  de  vision  par  ordinateur  et  de  traitement  du  langage  naturel.  Il  peut  être  appliqué  
dans  diverses  applications  telles  que  la  récupération  vidéo  Song  et  al.  (2018),  question  visuelle  répondant  
à  Antol  et  al.  (2015),  et  l'aide  aux  handicapés  visuels.  Les  difficultés  du  sous­titrage  vidéo  résident  
principalement  dans  la  modélisation  des  dynamiques  temporelles  et  la  fusion  de  multiples  modalités.  
Dans  cet  article,  nous  introduisons  le  modèle  Two­View  Transformer  (TVT)  qui  est  une  variante  du  réseau  
Transformer  Vaswani  et  al.  (2017)  pour  relever  les  défis.
Le  premier  défi  du  sous­titrage  vidéo  est  de  modéliser  la  dynamique  temporelle.  Dans  la  littérature  
existante,  l'architecture  d'encodeur­décodeur  est  couramment  adoptée,  où  la  plupart  des  travaux  
antérieurs  utilisent  des  réseaux  de  neurones  convolutifs  (CNN)  pour  coder  des  contenus  visuels  en  
conjonction  avec  les  réseaux  de  neurones  récurrents  (RNN),  en  particulier  l'unité  de  mémoire  à  long  court  
terme.  (LSTM)  Hochre  iter  et  Schmidhuber  (1997)  et  gated  recurrent  unit  (GRU)  Chung  et  al.  (2014),  pour  
le  traitement  de  données  séquentielles  Venugopalan  et  al.  (2015a);  Yao  et  al.  (2015);  Yu  et  al.  (2016);  Pu  et  al.  (2018).
Dans  les  RNN,  un  état  caché  est  calculé  sur  la  base  de  l'état  caché  précédent  de  sorte  qu'il  interdit  la  
parallélisation.  Le  calcul  séquentiel  introduit  un  coût  élevé  surtout  pour  les  longues  séquences.

auteur  correspondant

c  2018  M.  Chen,  Y.  Li,  Z.  Zhang  et  S.  Huang.
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

Inspirés  par  les  résultats  prometteurs  du  réseau  Transformer  Vaswani  et  al.  (2017)  en  traduction  automatique,  nous  
proposons  d'utiliser  le  réseau  Transformer  comme  réseau  fédérateur  pour  le  sous­titrage  vidéo.
Le  réseau  Transformer  s'appuie  sur  le  mécanisme  d'attention  au  lieu  des  RNN  pour  établir  des  dépendances  entre  les  
données  séquentielles.  Nous  expliquons  comment  adapter  le  réseau  Transformer  à  la  tâche  de  sous­titrage  vidéo  dans  la  
section  3.2.
Un  autre  défi  du  sous­titrage  vidéo  est  de  savoir  comment  fusionner  des  informations  de  différentes  modalités.  
Plusieurs  méthodes  antérieures  concatènent  approximativement  les  caractéristiques  de  différentes  modalités  ensemble  
Yao  et  al.  (2015);  Pan  et  al.  (2016b).  Récemment,  le  mécanisme  d'attention  a  été  utilisé  pour  une  meilleure  fusion  Long  et  al.
(2016);  Hori  et  al.  (2017).  Cependant,  ces  approches  fusionnent  souvent  uniquement  les  modalités  des  données  vidéo,  
telles  que  les  représentations  d'images,  de  mouvements  et  d'audio.  Le  mécanisme  de  fusion  des  données  vidéo  et  
textuelles  n'a  pas  été  suffisamment  étudié.  Dans  ce  travail,  nous  essayons  de  construire  un  décodeur  de  langage  plus  
efficace.  Nous  proposons  de  manière  novatrice  le  bloc  de  fusion  attentif  pour  utiliser  le  mécanisme  d'attention  multi­têtes  
pour  la  fusion  des  modalités  de  la  période  de  données  vidéo  et  texte.
En  résumé,  notre  modèle  proposé  de  transformateur  à  deux  vues  (TVT)  utilise  le  réseau  Transformer
comme  réseau  fédérateur  et  fusionne  les  modalités  des  données  vidéo  et  textuelles  avec  les  mécanismes  d'attention
M.  TVT  présente  les  avantages  suivants :

•  Par  rapport  aux  RNN,  les  couches  d'attention  de  TVT  permettent  un  calcul  parallèle,  conduisant  à  un  processus  de  
formation  beaucoup  plus  efficace  sans  diminution  des  performances.

•  Deux  types  différents  de  blocs  de  fusion  sont  conçus  pour  un  processus  de  décodage  plus  efficace  qu'une  simple  
concaténation.  En  particulier,  le  bloc  de  fusion  attentif  ajuste  le  flux  d'informations  textuelles  pour  générer  des  
phrases  plus  naturelles.

Nous  résumons  les  contributions  de  cet  article  comme  suit :

•  Nous  proposons  un  nouveau  modèle  TVT  pour  le  sous­titrage  vidéo.  TVT  apprend  les  dépendances  à  long  terme  
des  données  séquentielles  basées  sur  le  mécanisme  d'attention  multi­tête  au  lieu  des  unités  RNN  largement  
utilisées.

•  Nous  proposons  deux  types  de  blocs  de  fusion  tardive  pour  fournir  une  nouvelle  façon  d'exploiter  les  informations  
de  trois  modalités  différentes  contenant  des  caractéristiques  de  trames,  de  mouvements  et  de  mots  générés  
précédemment.

•  Une  étude  empirique  montre  que  TVT  atteint  les  performances  de  pointe  sur  l'ensemble  de  données  MSVD  et  des  
performances  compétitives  sur  l'ensemble  de  données  MSR­VTT.  L'étude  d'ablation  révèle  en  outre  l'efficacité  de  
nos  blocs  de  fusion  proposés.

2.  Travaux  connexes

Légende  des  images.  Le  but  du  sous­titrage  d'image  est  de  présenter  une  légende  pour  décrire  une  image  donnée.  De  
nombreuses  approches  de  sous­titrage  d'image  existantes  ont  adopté  le  cadre  d'encodeur­décodeur  pour  générer  des  
sous­titres  d'image.  Vinyls  et  al.  (2015)  ont  proposé  un  modèle  composé  d'un  encodeur  CNN  profond  pour  encoder  les  
informations  visuelles  et  d'un  décodeur  RNN  suivant  pour  générer  des  descriptions.  Xu  et  al.  (2015)  ont  en  outre  utilisé  le  
mécanisme  d'attention  spatiale  pour  améliorer  les  performances  du  décodeur  RNN.  Vous  et  al.  (2016)  et  Gan  et  al.  (2017)  
ont  incorporé  les  caractéristiques  sémantiques  des  images  dans  un  modèle  de  langage.  Lu  et  al.  (2017)  ont  proposé  un  
modèle  d'attention  adaptatif  qui  peut  décider  automatiquement  de  s'appuyer  sur  l'image  lors  de  la  génération  du  mot  
suivant.  Notre  fusion  attentive

848
Machine Translated by Google

TVT

block  s'inspire  du  mécanisme  d'attention  adaptative.  Différent  de  leurs  approches,  dans  ce  travail,  nous  considérons  
plus  de  perspectives  de  contenus  visuels,  qui  aident  mieux  l'apprentissage  du  modèle  de  sous­titrage  vidéo.

Sous­titrage  vidéo.  Le  sous­titrage  vidéo  est  une  tâche  plus  difficile  que  le  sous­titrage  d'images,  principalement  
en  raison  de  la  dynamique  temporelle  sous­jacente  aux  vidéos.  Venugopalan  et  al.  (2015b)  ont  proposé  un  modèle  
qui  fait  la  moyenne  de  toutes  les  caractéristiques  des  images  extraites  par  un  CNN  2D,  puis  transmet  la  
caractéristique  visuelle  moyenne  à  un  décodeur  LSTM  pour  générer  des  descriptions  vidéo.  Cependant,  leur  
modèle  n'a  pas  la  capacité  d'aborder  la  dynamique  temporelle  des  vidéos.  Venugopalan  et  al.  (2015a)  ont  proposé  
le  modèle  S2VT  qui  utilise  LSTM  comme  encodeur  supplémentaire  pour  modéliser  la  dépendance  à  long  terme  
des  trames  et  transmet  la  sortie  de  la  dernière  étape  de  cette  couche  LSTM  à  un  autre  décodeur  LSTM.  Comme  
pour  les  modèles  séquence  à  séquence  utilisés  dans  d'autres  applications,  Yao  et  al.  (2015)  ont  proposé  un  
mécanisme  d'attention  pour  attribuer  à  chaque  image  un  poids  lors  de  la  génération  de  mots.  Comme  les  vidéos  
ont  des  modalités  différentes,  Jin  et  al.  (2016)  ont  proposé  un  encodeur  de  fusion  multimodal  pour  combiner  toutes  
les  modalités  disponibles  avec  une  couche  entièrement  connectée.  Long  et  al.  (2016)  et  Hori  et  al.  (2017)  ont  tous  
deux  utilisé  le  mécanisme  d'attention  dans  les  modèles  de  fusion  multimodale.  Dans  notre  approche,  le  bloc  de  
fusion  attentif  combine  deux  modalités  dont  les  caractéristiques  de  cadre  et  de  mouvement.
Traduction  automatique.  Ces  dernières  années,  les  modèles  séquence  à  séquence  Bahdanau  et  al.  (2014);  
Sutskever  et  al.  (2014);  Cho  et  al.  (2014b,a);  Vaswani  et  al.  (2017)  ont  été  largement  utilisés  dans  les  tâches  de  
traduction  automatique.  Plus  précisément,  un  encodeur  RNN  mappe  la  phrase  source  dans  un  vecteur  de  contexte,  
puis  un  décodeur  RNN  génère  la  phrase  cible  conditionnée  sur  le  vecteur  de  contexte.  Étant  donné  que  le  vecteur  
de  contexte  est  fixe  lors  de  la  génération  de  chaque  mot  pour  la  phrase  cible,  Bahdanau  et  al.  (2014)  ont  proposé  
un  réseau  d'encodeur­décodeur  équipé  d'un  mécanisme  d'attention  douce  pour  apprendre  de  manière  adaptative  
le  vecteur  de  contexte  en  fonction  des  mots  individuels  de  la  phrase  source.  Bien  que  l'encodeur/décodeur  basé  
sur  les  RNN  apprenne  la  dépendance  à  longue  portée  des  séquences,  il  a  un  coût  de  calcul  élevé ;  de  plus,  le  
vecteur  de  contexte  dans  chaque  position  n'est  pas  bien  équilibré  en  raison  de  l'architecture  chaînée  des  RNN.  Au  
lieu  d'utiliser  des  couches  récurrentes,  Vaswani  et  al.  (2017)  ont  proposé  le  réseau  Transformer  pour  accélérer  le  
processus  de  formation  basé  sur  le  mécanisme  d'attention  du  produit  scalaire,  montrant  une  performance  
prometteuse  en  traduction  automatique.  Semblable  à  la  traduction  automatique,  le  sous­titrage  vidéo  est  également  
la  tâche  d'apprentissage  de  séquence  à  séquence  car  son  objectif  est  d'encoder  une  vidéo  en  une  séquence  de  
vecteurs.  Zhu  et  al.  (2018)  ont  proposé  un  modèle  de  transformateur  de  bout  en  bout  pour  à  la  fois  détecter  et  
décrire  les  événements  de  sous­titrage  vidéo  dense.  Ainsi,  inspirés  par  le  réseau  Transformer,  nous  adoptons  le  
mécanisme  d'attention  du  produit  scalaire  Vaswani  et  al.  (2017)  comme  module  principal  de  notre  approche  de  sous­titrage  vidéo.

3.  Méthodologie
Notre  cadre  de  sous­titrage  vidéo  comprend  deux  modules  de  base,  dont  1)  un  CNN  2­D  servant  d'extracteur  de  
caractéristiques  visuelles  et  2)  un  réseau  Transformer  Vaswani  et  al.  (2017)  servant  de  générateur  de  sous­titres.  
La  figure  1  montre  une  architecture  générale  de  notre  framework.  Dans  cette  section,  nous  donnons  d'abord  une  
brève  introduction  au  réseau  Transformer  d'origine  avant  de  décrire  notre  modèle.

3.1.  Réseau  de  transformateur

3.1.1.  ATTENTION  AUX  PRODUITS  DOT

L'attention  du  produit  scalaire  mise  à  l'échelle  est  différente  des  mécanismes  d'attention  conventionnels  car  ses  
poids  d'attention  sont  calculés  par  l'opération  du  produit  scalaire.  Requêtes  données  Q     R  Tq×dk ,  clés  K  

849
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

Nx
Images  vidéo
Position Couche  d'encodeur
Codage
Caractéristiques  visuelles

CNN Soi Alimentation

Saisir Couche
Attention Couche
Avant
Couche
Intégration Norme Norme Norme
Couche Couche

...

Position Nx
Légende   Codage Sortir
<bos> un

un
Masqué
Alimentation

Sortir Couche Soi Couche Attention Couche


Avant Linéaire Softmax l'homme  
Intégration Norme Attention Norme Couche Norme
l'homme   Couche joue  de  
Couche
joue  de   la  guitare  
la  guitare <eos>

Couche  de  décodeur

Figure  1 :  Architecture  du  modèle  de  base

R  Tv×dk  et  les  valeurs  V     R  Tv×dv , la  production  d'attention  est

QKT  √  
Attention(Q,  K,  V )  =  softmax V, (1)
dk

où  Tq  est  la  longueur  de  séquence  des  requêtes  et  Tv  est  la  longueur  de  séquence  des  clés  et  des  valeurs.  dk  est  la  
dimension  vectorielle  des  requêtes  et  des  clés,  et  dv  est  la  dimension  vectorielle  des  valeurs.  √  dk  est  utilisé  ici  pour  la  
mise  à  l'échelle  qui  garantit  la  stabilité  numérique.
L'attention  multi­tête  est  construite  sur  l'attention  du  produit  scalaire  mis  à  l'échelle.  Il  se  compose  de  h  "têtes"  
différentes  de  (requête,  clé,  valeur),  où  chaque  tête  est  indépendamment  et  calculée  en  parallèle.  Pour  la  ième  tête,  la  
production  d'attention  est

headi  =  Attention(QWQ je ,
KWK je , V  WV ). je
(2)

L'attention  multi­tête  concatène  les  têtes  comme

MultiHead(Q,  K,  V )  =  Concati=1...h(headi)WO. (3)

Nous  utilisons  l'attention  multi­têtes  comme  couches  d'attention  dans  notre  cadre.

3.1.2.  RÉSEAU  FEED  FORWARD

Chaque  bloc  de  notre  encodeur  et  décodeur  contient  un  réseau  de  rétroaction  entièrement  connecté  à  deux  couches  
avec  une  activation  ReLU.  Ce  module  est  défini  comme :

FFN(x)  =  ReLU(xW1  +  b1)W2  +  b2, (4)

où  W1     R  dmodel×dh ,  b1     R  dh ,  W2     R  dh×dmodel ,  b2     R  dmodel  sont  des  poids  entraînables.  dh  est  le


taille  de  l'état  caché.

850
Machine Translated by Google

TVT

3.1.3.  CODAGE  POSITIONNEL

Étant  donné  que  le  réseau  d'attention  et  d'anticipation  multi­têtes  ne  contient  pas  de  couches  convolutives  ou  de  
cellules  récurrentes,  le  codage  positionnel  est  essentiel  pour  tirer  parti  des  informations  de  position  relative  en  
séquence.  La  méthode  de  codage  est  définie  comme  suit :

PE(pos,  2i)  =  sin(pos/100002i/dmodèle)
(5)
PE(pos,  2i  +  1)  =  cos(pos/100002i/dmodèle),

où  pos  est  la  position  d'une  image  dans  la  vidéo  côté  encodage  ou  d'un  mot  dans  la  phrase  côté  décodage.  i  désigne  
la  dimension  correspondante  des  encastrements.  Ici,  différentes  dimensions  du  vecteur  positionnel  intégré  représentent  
différentes  fréquences  lors  de  l'utilisation  de  la  fonction  sinusoïdale  ou  cosinusoïdale.  Différentes  positions  représentent  
différentes  phases  dans  ces  fonctions  périodiques.

3.2.  Réseau  de  transformateur  à  deux  vues

3.2.1.  TRANSFORMATEUR  CODEUR

Notre  proposition  de  réseau  de  transformateurs  à  deux  vues  comprend  deux  vues  de  représentations  visuelles  
extraites  par  les  encodeurs,  c'est­à­dire  la  représentation  de  trame  Ef  et  la  représentation  de  mouvement  Em,  respectivement.
T  ×dmodel  
La  représentation  de  trame  Ef     R  T  ×dmodel   est  obtenu  
est  obtenue  par  p
uar  
n  CuNN  
n  CNN  
3­D  2s­D  
sur  des  
équentiel  ctouches  
rames  individuelles  
et  sous  
d'auto­attention.  La  
sur  des  images  consécutives  et  des  couches  d'auto­attention  indépendantes. représentation  du  mouvement  Em     R  

3.2.2.  DÉCODEUR  DE  TRANSFORMATEUR  À  DEUX  VUES

Deux  types  de  blocs  de  fusion  de  notre  décodeur  de  transformateur  à  deux  vues  sont  illustrés  à  la  Fig.  2,  où  la  couche  
d'attention  de  fusion  fournit  un  moyen  spécial  de  calculer  les  poids  d'attention.  Étant  donné  la  représentation  de  la  
phrase  Ds  de  la  couche  d'auto­attention  masquée  précédente  et  les  sorties  de  deux  encodeurs  visuels  Ef  et  Em,  le  
tuple  de  (requête,  clé,  valeur)  est  calculé  comme

Q
Qf  =  LayerNorm(Ds)W  f

Kf  =  EfWK (6)
F
Vf  =  EfWV F

où  W  sont  dQ  
W
es  mK  
WV   p  aramétriques.  
atrices   R  dmodèle×dmodèle  
Un  autre  tuple  pour  la  présentation  du  mouvement  f ,  ff ,  tation  est  calculé  de  la  
même  m mouvement  
anière  avec  
Cdm  
es  
sont  
paramètres  
calculés  dpifférents.  
ar  deux  cE
ouches  
nsuite,  
dle  
'attention  
contexte  
mdulti­têtes  
e  trame  Cindépendantes  
f  et  le  contexte  
comme
de  

Cf  =  MultiTête(Qf ,  Kf ,  Vf )
(7)
Cm  =  MultiHead(Qm,  Km,  Vm).

3.3.  Bloc  fusionné

3.3.1.  ADD­FUSION  BLOCK

Pour  fusionner  le  contexte  de  repère  Cf  et  le  contexte  de  mouvement  Cm,  nous  proposons  d'utiliser  deux  types  de  
blocs  de  fusion.  Le  premier  type  de  blocs  de  fusion  est  le  bloc  add­fusion.  Il  utilise  une  simple  opération  d'ajout  qui

851
Attention mois
Machine Translated by Google Couche Co
Encodeur  de  mouvement

sortir
CHEN  LI  ZHANG  HUANG
Couche  de  décodeur  Add­fusion

Encodeur  de  trame
sortir
Sortie  codeur  de   sortie   Cadre sortie  
Attention Encodeur  de  trame
du  codeur   Couche
Sortie   du  codeur  
trame contextuelle
de  trame Cadre de  trame
Attention Attention
Masqué
Couche Contexte Alimentation Couche
Couche Soi Couche Couche
Couche  précédente Avant
Norme Attention Norme Norme Couche  suivante
Masqué Masqué Couche
Flux  
Couche Soi
Couche  
précédente Couche Couche   Couche
suivante Soiprécédent Couche
Couche  précédente Couche  précédente Avant Couche  suivante Empiler
Norme Bloc  d'attention Norme Norme Norme Attention  
bloc  bloc Norme
Attention Mouvement Couche
Couche Couche
Couche Contexte
Sortie  codeur  de   Encodeur  
de  mouvement
Attention Attention
mouvement Sortie  
encodeur   Couche contextuelle sortie   Couche
Sortie  codeur  de  
de  mouvement codeur  de  
mouvement Couche  de  décodeur  
sortir Add­fusion mouvement

Couche  de  décodeur  Add­fusion Bloc  d'addition­fusion Couche  décodeur  Att­fusion Attention­fusion  b

sortie  du  
Sortie  codeur  de  
codeur  de  
trame
trame
attention Encodeur  de  trame Attention

Couche Contexte
sortir Couche

Attention
Masqué Flux   Couche
La  fusion Alimentation
suivant
Couche Couche Soiprécédent   Couche suivant
Couche
Couche  précédente Avant Couche  suivante Empiler Attention Avant
Couche  suivante
Norme NormeAttention  
bloc  
bloc Norme Bloc  de  
Masqué Couche Fusion  de  couches
norme
Flux  de  calque
Soi
Couche
Couche Couche Couche
Couche  précédente Empiler Attention Avant Couche  suivante
Norme Attention Norme Norme
Couche Couche
attention Encodeur  de  mouvement  Mouvement
Sortie   Attention

Couche Contexte
sortir Couche
d'encodeur  
Sortie  codeur  de   Attention
de  mouvement  
mouvement Couche
de  couche

bloc  d­fusion Couche  décodeur  Att­fusion Bloc  de  fusion  attentive


Couche  décodeur  Att­fusion
Figure  2 :  Deux  types  de  blocs  de  fusion  dans  le  décodeur  de  transformateur  à  deux  vues.

ntion   combine  Cf  et  Cm  avec  un  poids  fixe  α     [0,  1]  pour  équilibrer  les  contributions  des  deux  


yer
représentations  visuelles
Fusion   C  =  αCf  +  (1  −  α)Cm.
Alimentation
(8)
Couche
Empiler Attention   Avant Couche  suivante
Norme
Le  bloc  add­fusion  est  une  méthode  de  fusion  non  paramétrique  telle  qu'elle  ne  modifie  pas  le  mode  de  fusion  Layer  Layer  en  fonction  du  contexte  des  mots.  Il  manque  de  

robustesse  pour  intégrer  les  représentations  complexes  et  diverses  à  deux  vues.
nation
toi

3.3.2.  BLOC  ATTENTIF­FUSION
Nous  proposons  un  autre  type  de  blocs  de  fusion,  appelé  bloc  de  fusion  attentif,  pour  fusionner  les  représentations  à  
deux  vues  de  manière  apprenable.  Pour  chaque  position  dans  une  phrase,  nous  générons  un  nouveau  vecteur  de  
requête  à  partir  de  la  représentation  de  la  position  actuelle  et  empilons  les  vecteurs  de  contexte  de  différentes  modalités  
pour  calculer  de  nouvelles  clés  et  matrices  de  valeurs.

F m  
St  =  Pile(c  qt   c  tt ,  
 , dt)

=  Wqdt
(9)
Kt  =  StWK
Vt  =  StWV ,

852
Machine Translated by Google

TVT

f   m
où  les  matrices  de  poids  Wq  sont   , WK  et  WV  sont  partagés  entre  différents  postes.  c t ,  t c   et  dt
des  vecteurs  de  la  t­ième  colonne  du  contexte  de  trame  Cf ,   contexte  de  mouvement  Cm,  et  contexte  de  phrase  Ds,
respectivement.  Intuitivement,  le  bloc  attentif­fusion  calcule  les  poids  d'attention  en  fonction  de  qt  et  Kt ,  et  effectue  
une  opération  
de  m
adopte   oyenne  pdondérée  
l'attention   ssur  
u  produit   Vt  pour  
calaire   obtenir  
mis   le  vecteur  
à  l'échelle  pour  ddonner  
e  contexte   ct  ecn  
la  sortie   position  courante.  Ensuite,  il  
omme

ct  =  Attention(qt , ,  Vt). Kt (dix)

3.3.3.  DISCUSSION  SUR  LES  MÉTHODES  DE  FUSION

•  Fusion  précoce.  Étant  donné  une  séquence  de  caractéristiques  de  cadre  X  =  (x1,  x2, ...,  xT )  et  une  séquence  de  
caractéristiques  de  mouvement  Z  =  (z1,  z2, ...,  zT ),  une  méthode  de  fusion  précoce  fusionne  xt  et  zt  comme

XT
x  t = (11)
zt

où  x t est  ensuite  introduit  dans  un  décodeur  Transformer.  La  fusion  précoce  manque  de  flexibilité  car  elle  ne  
fonctionne  que  lorsque  les  longueurs  des  différentes  séquences  sont  identiques.  Dans  ce  travail,  nous  utilisons  deux  
encodeurs  Transformer  indépendants  pour  encoder  respectivement  deux  caractéristiques  différentes,  permettant  une  
approche  beaucoup  plus  flexible  pour  la  fusion  dans  le  décodeur.

•  Add­fusion  et  attentive­fusion.  Théoriquement,  un  bloc  de  fusion  attentive  présente  deux  avantages  par  rapport  
à  un  bloc  d'addition­fusion.  Premièrement,  le  poids  de  l'attention  varie  en  fonction  du  contexte  de  la  position  
actuelle.  Deuxièmement,  le  décodeur  peut  adopter  un  contexte  de  phrase  approprié  en  sélectionnant  dt  dans  
Ds,  de  sorte  que  la  représentation  de  trame,  la  représentation  de  mouvement  et  les  mots  générés  
précédemment  soient  capables  de  guider  conjointement  le  processus  de  génération  de  description.

4.  Configuration  expérimentale

4.1.  Jeux  de  données

Nous  évaluons  notre  modèle  sur  deux  ensembles  de  données  de  référence  sur  le  sous­titrage  vidéo :  Microsoft  
Research  Video  Description  (MSVD)  Guadarrama  et  al.  (2013)  et  Microsoft  Research  Video  to  Text  (MSR­VTT)  Xu  
et  al.  (2016).

•  L'  ensemble  de  données  MSVD  se  compose  de  1  970  courts  clips  vidéo  Youtube  d'une  durée  moyenne  
d'environ  9  s.  Chaque  clip  est  étiqueté  avec  environ  40  phrases  en  anglais  fournies  par  les  travailleurs  turcs  
d'Amazon  Mechanical.  Suivant  la  littérature  existante,  Venugopalan  et  al.  (2015a);  Dong  et  al.  (2017),  nous  
avons  divisé  les  jeux  de  données  en  trois  parties :  1 200 vidéos  pour  la  formation,  100 vidéos  pour  la  validation  
et  670 vidéos  pour  les  tests.

•  L'  ensemble  de  données  MSR­VTT  est  un  ensemble  de  données  de  référence  vidéo  à  grande  échelle  qui  
contient  10  000  clips  vidéo,  couvrant  une  grande  variété  de  catégories  vidéo.  Chaque  clip  est  annoté  d'environ  
20  phrases  naturelles.  Ce  jeu  de  données  est  divisé  en  trois  parties :  6 513 vidéos  pour  la  formation,  
497 vidéos  pour  la  validation  et  2 990 vidéos  pour  les  tests.

853
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

4.2.  Métriques  d'évaluation

Nous  évaluons  les  performances  de  génération  de  descriptions  avec  quatre  métriques :  BLEU@4  Papineni  et  al.  (2002),  METEOR  
Denkowski  et  Lavie  (2014),  ROUGE­L  Lin  (2004)  et  CIDEr  Vedantam  et  al.  (2015).  Nous  utilisons  le  protocole  d'évaluation  standard  du  
serveur  d'évaluation  Microsoft  COCO  Chen  et  al.  (2015).

4.3.  Détails  d'implémentation

Prétraitement.  Pour  l'ensemble  de  données  MSVD,  nous  échantillonnons  les  vidéos  à  5  ips  et  définissons  le  nombre  maximal  d'images  
sur  50  pour  extraire  les  caractéristiques  de  l'image.  Pour  les  caractéristiques  de  mouvement,  nous  échantillonnons  les  vidéos  à  25  ips  et  
extrayons  les  caractéristiques  pour  chaque  64  images  consécutives  avec  chevauchement,  en  définissant  l'intervalle  sur  5  images.
Pour  l'ensemble  de  données  MSR­VTT,  nous  échantillonnons  les  vidéos  à  3  ips  et  définissons  le  nombre  maximal  d'images  à  60  
pour  extraire  les  caractéristiques  de  l'image.  Pour  les  caractéristiques  de  mouvement,  nous  échantillonnons  les  vidéos  à  15  ips  et  
extrayons  les  caractéristiques  pour  chaque  64  images  consécutives  avec  chevauchement,  en  définissant  l'intervalle  sur  5  images.
Détails  du  modèle.  Côté  encodeur,  nous  comparons  deux  extracteurs  de  caractéristiques  d'image,  ResNet­152  et  Nas  Net  Zoph  et  al.  
(2017),  qui  sont  tous  deux  préformés  sur  le  jeu  de  données  ImageNet  Krizhevsky  et  al.  (2012).
Les  caractéristiques  d'image  extraites  sont  respectivement  de  dimension  2048  et  de  dimension  4032.  Pour  les  caractéristiques  de  
mouvement,  nous  utilisons  le  réseau  I3D  Carreira  et  Zisserman  (2017)  pré­formé  sur  le  jeu  de  données  Kinetics  Kay  et  al.  (2017)  pour  
obtenir  des  caractéristiques  à  1024  dimensions.  Étant  donné  que  l'ensemble  de  données  MSR­VTT  contient  des  pistes  audio  pour  la  
plupart  des  vidéos,  Vggish  Hershey  et  al.  (2017)  est  utilisé  pour  extraire  des  fonctionnalités  audio  profondes  avec  128  dimensions.  Nos  
modèles  de  fusion  sont  simplement  étendus  de  la  même  manière  dans  deux  blocs  de  fusion  différents  pour  incorporer  des  fonctionnalités  
audio  afin  de  sécuriser  les  améliorations.
Côté  décodeur,  pour  les  descriptions  textuelles,  nous  supprimons  les  ponctuations  dans  chaque  phrase  et  construisons  un  
vocabulaire  contenant  9861  et  10551  mots  en  filtrant  les  mots  dont  le  nombre  est  inférieur  à  1  et  3,  respectivement  dans  deux  jeux  de  
données.  La  longueur  maximale  des  phrases  est  fixée  à  20  pour  deux  ensembles  de  données.
Pour  le  réseau  Transformer,  la  dimension  du  modèle  dmodel  est  définie  sur  512  et  la  taille  de  l'état  caché  de  la  couche  d'anticipation  
est  définie  sur  2048.  Nous  utilisons  8  têtes  dans  la  couche  d'attention  multi­têtes  où  la  dimension  dk  =  dv  =  64.  Nous  définissons  4  
encodeurs  couches  et  4  couches  de  décodeur  pour  construire  l'ensemble  du  réseau  Transformer.  α  dans  le  bloc  d'addition­fusion  est  
fixé  à  0,4.

Paramètres  d'apprentissage.  Pour  le  processus  de  formation,  le  décrochage  Srivastava  et  al.  (2014)  avec  un  taux  de  chute  de  0,3  est  
adopté  pour  la  régularisation.  Nous  arrêtons  l'entraînement  après  avoir  atteint  20  époques  ou  le  score  METEOR  n'est  pas  augmenté  sur  
la  validation  définie  dans  les  10  derniers  points  de  contrôle.  Nous  utilisons  l'optimiseur  Adam  Kingma  et  Ba  (2014)  avec  un  taux  
d'apprentissage  de  0,0001  pour  entraîner  les  réseaux  de  neurones.  La  recherche  de  faisceau  avec  une  taille  de  faisceau  de  5  est  
adoptée  pour  les  tests.

5.  Résultats  et  analyse
5.1.  Comparaison  avec  les  méthodes  de  pointe

Tableau.  1  montre  les  performances  de  notre  modèle  proposé  et  de  plusieurs  méthodes  de  pointe  sur  le  jeu  de  données  MSVD.  Notre  
méthode  fonctionne  nettement  mieux  que  les  méthodes  précédentes  sur  cet  ensemble  de  données.
Il  y  a  une  amélioration  relative  de  7,84  %  par  rapport  au  meilleur  score  CIDEr  précédent.  Les  performances  de  notre  modèle  sous  la  
métrique  BLEU@4  sont  également  supérieures  à  toutes  les  méthodes  précédentes.
Tableau.  2  montre  les  performances  contre  les  3  meilleures  équipes  du  MSR­VTT  Challenge  2017,  v2t  navigator,  Aalto  et  
VideoLAB,  et  les  résultats  de  trois  méthodes  récentes  contenant  CIDEnt­RL,

854
Machine Translated by Google

TVT

Tableau  1 :  Résultats  sur  le  jeu  de  données  MSVD.  Att­TVT  est  notre  modèle  proposé  utilisant  le  transformateur  à  deux  
vues  avec  un  bloc  de  fusion  attentif.  Ici,  notre  score  ROUGE  est  omis  car  les  travaux  précédents  ne  l'ont  pas  
signalé.

Des  modèles BLEU@4  METEOR  CIDEr

33.29 29.07 ­
LSTM­YT  Venugopalan  et  al.  (2015b)
­ 29,80 ­
S2VT  Venugopalan  et  al.  (2015a)
44,60 29.70 ­
LSTM­I  Dong  et  al.  (2017)
SA  Yao  et  al.  (2015) 41,92   29,60   51,67
45,30   31,00   ­
LSTM­E  Pan  et  al.  (2016b)
GRU­RCN  Ballas  et  al.  (2015)   43,26   31,60   68,01  
décodeur  h­RNN  Yu  et  al.  (2016)   49,90 32,60 65,80
46,70 33,90 ­
Encodeur  h­RNN  Pan  et  al.  (2016a)
SCN­LSTM  Gan  et  al.  (2017) 51.10 33,50 77,70
TSA  Pan  et  al.  (2017) 52,80 33,50 74,00
M&M  TGM  Chen  et  al.  (2017)  dualAFR   48,76 34.36 80,45
Pu  et  al.  (2018) 51,77 36.41 72.21

RecNet  Wang  et  al.  (2018a) 52.30 34.10 80.30

Att­TVT 53.21 35.23 86,76

Tableau  2 :  Résultats  sur  le  jeu  de  données  MSR­VTT.
Des  modèles CIDRE  BLEU  METEOR  ROUGE

VideoLAB  Ramanishka  et  al.  (2016) 39.10 27.70 60,60 44.10

Aalto  Shetty  et  Laaksonen  (2016)  navigateur   39,80 26,90 59,80 45,70

v2t  Jin  et  al.  (2016) 40,80 28.20 60,90 44,80

CIDEnt­RL  Pasunuru  et  Bansal  (2017)  40,50  Dense­Cap  Shen   28h40 61,40 51,70  

et  al.  (2017)  41.40  HRL  Wang  et  al.  (2018b) 28h30 61.10 48,90  


41h30 28.70 61,70 48,00

Att­TVT 40.12 27,86   59,63   47,72


Att­TVT(+audio) 42,46 28,24 61,07 48,53

Dense­Cap  et  HRL  sur  le  jeu  de  données  MSR­VTT.  Pour  une  comparaison  équitable,  nous  étendons  simplement  Att­TVT  
à  trois  vues  en  ajoutant  des  fonctionnalités  audio.  Les  résultats  de  notre  méthode  sont  compétitifs  sur  ce  jeu  de  données.

5.2.  Étude  d'ablation

Nous  rapportons  des  études  d'ablation  pour  démontrer  empiriquement  l'efficacité  de  nos  méthodes  de  fusion  proposées.  
Nous  comparons  les  performances  de  nos  modèles  de  base  et  des  modèles  à  deux  vues  avec  différents  types  de  fusion.  
Tableau.  3  et  tableau.  4  montre  les  résultats  de  notre  étude  d'ablation.  Notre  modèle  de  base  atteint  un

855
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

Tableau  3 :  Étude  d'ablation  sur  le  jeu  de  données  MSVD.  Ici,  R,  N,  I  sont  l'abréviation  de  ResNet­152,  NasNet  et  I3D.  TVT  
est  le  transformateur  à  deux  vues  avec  fusion  précoce  et  Add  TVT  est  le  transformateur  à  deux  vues  avec  
décodeur  de  fusion  à  attention  ajoutée.

Des  modèles CIDRE  BLEU  METEOR  ROUGE

Modèle  de  base(R)  50,25   33.41 70.16 72.11


Modèle  de  base(N)  52,55 34.36 70.12 75,94

TVT(R+I)  52,07  Add­ 33.18 69,71 77.02


TVT(R+I)  52,17  Att­TVT(R+I)   34.40 71.11 77,98
52,96 34,73 71,71 80,84

TVT(N+I)  53,04  Add­ 34,52 70,79 77,69


TVT(N+I)  53,94  Att­TVT(N+I)   34,77 71,88 78,95
53,21 35.23 72.01 86,76

Tableau  4 :  Étude  d'ablation  sur  le  jeu  de  données  MSR­VTT.  Ici,  V  est  l'abréviation  de  la  fonction  audio  Vggish.
Des  modèles CIDRE  BLEU  METEOR  ROUGE

Modèle  de  base(R) 38,27   27.23 58,72   44,99


Modèle  de  base(N) 37,96 27.05 58,79 45,60

TVT(N+I)  38,96  Add­TVT(N+I)   27.52 59,33   45,67


40,16  Att­TVT(N+I)  40,12 27,53   59,64   46,87  
27,86 59,63 47,72

Add­TVT(N+I+V)  41.61  Att­ 28.29 60,72 47,89


TVT(N+I+V)  42.46 28.24 61.07 48,53

base  de  référence  solide  avec  uniquement  des  caractéristiques  de  trame  extraites  par  ResNet­152.  Pour  utiliser  de  meilleures  
fonctionnalités  de  cadre  pour  cette  tâche,  nous  sélectionnons  le  NasNet,  qui  atteint  une  plus  grande  précision  sur  le  problème  de  
classification  d'image,  comme  un  autre  extracteur  de  fonctionnalités  à  des  fins  de  comparaison.  Les  résultats  sur  les  deux  ensembles  de  
données  montrent  que  NasNet  fonctionne  légèrement  mieux  pour  générer  des  descriptions  vidéo.
En  comparant  différentes  méthodes  de  fusion,  la  fusion  précoce  avec  une  simple  concaténation  offre  un  petit  gain  de  
performances  par  rapport  à  l'absence  de  fonctions  de  mouvement.  La  fusion  tardive  dans  l'étape  de  décodage  est  une  
meilleure  façon  d'intégrer  les  caractéristiques  de  mouvement  dans  les  caractéristiques  de  trame.  Le  mécanisme  d'attention  
appliqué  dans  le  bloc  de  fusion  permet  au  décodeur  Transformer  à  deux  vues  de  s'adapter  au  contexte  approprié  de  manière  
adaptative.  Par  exemple,  Att­TVT(R+I)  a  obtenu  de  meilleurs  résultats  que  Add­TVT(R+I)  et  TVT(R+I)  avec  une  marge  de  
2,86 %  et  3,82 %  sur  l'ensemble  de  données  MSVD  dans  la  métrique  de  CIDEr,  respectivement.
Les  résultats  de  la  figure  3  montrent  qu'un  poids  de  fusion  fixe  doit  être  remplacé  par  des  poids  d'attention  adaptatifs,  ce  
qui  n'introduit  qu'un  faible  coût  de  calcul.  La  méthode  de  fusion  attentive  apporte  en  fait  une  amélioration  significative  des  
performances,  en  particulier  sur  le  score  CIDEr.

856
Machine Translated by Google

TVT

0,30 Att­TVT 0,44 Att­TVT


Ajouter­TVT Ajouter­TVT
0,29
0,42

0,28
0,40
MÉTÉORE BLEU@4

0,27

0,38
0,26

0,25   0,36  
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
α α

0,64 Att­TVT 0,52 Att­TVT


Ajouter­TVT
Ajouter­TVT
0,50
0,62

Cidre 0,48
ROUGE

0,60
0,46

0,58
0,44

0,56   0,42  
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
α α

Figure  3 :  Résultats  de  Add­TVT  avec  différents  poids  de  fusion  α  et  Att­TVT  sur  l'ensemble  de  données  MSR­VTT.

5.3.  Comparaison  avec  le  modèle  basé  sur  RNN

Tableau  5 :  Performances  des  modèles  basés  sur  le  transformateur  et  le  RNN  sur  l'ensemble  de  données  MSR­VTT.  Tous  les

les  expériences  ont  été  réalisées  à  l'aide  d'un  GPU  GTX  1080Ti.

Des  modèles #Params  Training  Time(sec)  BLEU  METEOR  ROUGE  CIDEr

BiLSTM(R) 26M 2717 38.38 26.72 59.43 43.46


Transformateur(R)  24M 975 38,55 27.07 58,90 44,86

BiLSMC(N) 27M 3055 36,96 26.34 58,71 43.09


Transformateur  (N)  25M 1047 37.26 26,88 58.31 44,57

Tableau.  5  répertorie  le  coût  de  formation  et  les  performances  des  modèles  basés  sur  le  transformateur  et  le  
RNN  dans  le  cadre  de  la  même  stratégie  de  formation.  Le  modèle  BiLSTM  utilise  une  couche  lstm  bidirectionnelle  
comme  encodeur  et  une  couche  lstm  unidirectionnelle  comme  décodeur,  équipée  du  mécanisme  d'attention  
proposé  par  Bahdanau  et  al.  (2014).  Le  modèle  Transformer  est  le  modèle  de  base  avec  2  couches  codeur  et  
décodeur  pour  quasiment  le  même  nombre  de  paramètres  que  le  modèle  BiLSTM.  Le  modèle  Transformer  atteint  
une  vitesse  d'entraînement  d'environ  2,8  ×  par  rapport  au  modèle  BiLSTM  et  de  meilleures  performances  sur  trois  
mesures  d'évaluation.

857
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

5.4.  Résultats  qualitatifs

Modèle  de  base(R) :  les  zèbres  mangent. Modèle  de  base(R) :  un  homme  et  une  femme  chantent.
AddTVT(N+I) :  les  zèbres  sont  debout  dans  un  champ. AddTVT(N+I) :  un  homme  et  une  femme  font  du  vélo.
AttTVT(N+I) :  les  zèbres  jouent  entre  eux. AttTVT(N+I) :  un  homme  et  une  femme  conduisent  une  moto.
GT :  deux  zèbres  jouent  entre  eux. GT :  un  homme  et  une  femme  conduisent  une  moto.

Modèle  de  base(R) :  un  homme  joue  avec  une  arme  à  feu. Modèle  de  base(R) :  un  homme  joue  au  football.
AddTVT(N+I) :  la  personne  joue  la  musique. AddTVT(N+I) :  un  groupe  d'hommes  se  bat.
AttTVT(N+I) :  un  groupe  de  personnes  joue  de  la  batterie. AttTVT(N+I) :  un  homme  fait  des  arts  martiaux.
GT :  quatre  hommes  jouent  des  instruments  de  musique. GT :  un  homme  fait  une  démonstration  d'arts  martiaux.

Figure  4 :  Exemples  sur  l'ensemble  de  test  MSVD.  Ici,  GT  est  l'abréviation  de  vérité  terrain,  où  un  échantillon  de
candidats  s'affiche.

Plusieurs  exemples  d'ensembles  de  tests  MSVD  générés  par  nos  modèles  proposés  sont  illustrés  à  la  Fig.  4.
Nous  constatons  que  sans  les  fonctionnalités  de  mouvement,  notre  modèle  de  base  n'a  pas  la  capacité  de  capturer  
l'action  précise  dans  les  vidéos.  Nos  méthodes  de  fusion,  Add­TVT  et  Att­TVT,  génèrent  toutes  deux  des  descriptions  
correctes  de  ces  échantillons,  tandis  que  Att­TVT  fonctionne  légèrement  mieux  que  Add­TVT  en  raison  du  contexte  plus  
détaillé  des  phrases  capturées  par  le  module  de  fusion  attentive.
Pour  montrer  l'efficacité  du  module  de  fusion  attentive,  la  figure  5  montre  un  exemple  dans  l'ensemble  de  données  
MSVD  et  visualise  les  poids  d'attention  du  bloc  de  fusion  dans  la  première  couche  de  Att­TVT.  Il  est  clair  que  les  noms  
dans  la  phrase,  y  compris  les  mots  « femme »,  « liquide »  et  « verre »,  ont  une  relation  raisonnablement  forte  avec  les  
caractéristiques  visuelles  extraites  de  chaque  image.  Le  verbe  « mélanger »  est  associé  à  un  poids  plus  élevé  des  
caractéristiques  de  mouvement.  Notez  que  les  mots  « est »,  ce  dernier  « a »  et  « eos »  ont  quelques  indices  du  contenu  
visuel,  alors  qu'ils  obtiennent  plus  d'informations  à  partir  du  contexte  des  mots  générés  précédemment.

6.  Discussions
Cet  article  présente  un  nouveau  cadre  de  sous­titrage  vidéo,  c'est­à­dire  le  modèle  de  transformateur  à  deux  vues  (TVT).
Dans  le  cadre,  TVT  apprend  les  dépendances  à  long  terme  des  données  séquentielles  basées  sur  le  mécanisme  
d'attention  multi­tête.  Les  blocs  de  fusion,  y  compris  Add­TVT  et  Att­TVT,  offrent  un  nouveau  moyen  d'exploiter  les  
informations  de  trois  modalités  différentes  contenant  des  caractéristiques  de  trames,  de  mouvements  et  des  mots  
générés  précédemment.  Les  résultats  empiriques  montrent  que  notre  cadre  atteint  les  performances  de  pointe  sur  
l'ensemble  de  données  MSVD  et  des  résultats  compétitifs  sur  l'ensemble  de  données  MSR­VTT  en  utilisant  des  
fonctionnalités  visuelles  et  audio.  Dans  l'étude  d'ablation,  nous  démontrons  de  manière  exhaustive  l'efficacité  de  nos  
modules  de  fusion  proposés.  Un  éclaircissement  supplémentaire  de  ce  travail  est  que  le  transformateur

858
Machine Translated by Google

TVT

un

femme

est

mélange

liquide

dans

un

verre

<eos>

Figure  5 :  Visualisation  des  poids  d'attention  de  la  première  couche  du  décodeur  Att­TVT.  Les  trois  barres  montrent  
respectivement  les  poids  d'attention  de  la  représentation  de  l'image,  de  la  représentation  du  mouvement  
et  des  mots  générés  précédemment.

réseau  est  capable  de  bien  résoudre  le  problème  de  sous­titrage  vidéo  sans  l'aide  des  RNN.  À  l'avenir,  davantage  
d'autres  modalités  pourront  être  incorporées  dans  le  cadre  TVT.  Nous  nous  attendons  également  à  ce  que  ce  travail  
inspire  davantage  d'études  futures  sur  les  approches  de  fusion  pour  le  sous­titrage  vidéo.

Remerciements
Ce  travail  a  été  soutenu  par  NSFC  (n  °  61702448,  61672456)  et  les  fonds  de  recherche  fondamentale  pour  les  
universités  centrales  (n  °  2017QNA5008,  2017FZA5007).  Nous  remercions  tous  les  examinateurs  pour  leurs  précieux  
commentaires.

Les  références

Stanislaw  Antol,  Aishwarya  Agrawal,  Jiasen  Lu,  Margaret  Mitchell,  Dhruv  Batra,  C  Lawrence  Zitnick  et  Devi  Parikh.  
Vqa :  Réponse  visuelle  aux  questions.  Dans  ICCV,  pages  2425–2433,  2015.

Dzmitry  Bahdanau,  Kyunghyun  Cho  et  Yoshua  Bengio.  Traduction  automatique  neuronale  par  conjointement
apprendre  à  aligner  et  à  traduire.  prétirage  arXiv  arXiv:1409.0473,  2014.

Nicolas  Ballas,  Li  Yao,  Chris  Pal  et  Aaron  Courville.  Approfondir  les  réseaux  convolutifs
pour  l'apprentissage  des  représentations  vidéo.  arXiv  preprint  arXiv:1511.06432,  2015.

João  Carreira  et  Andrew  Zisserman.  Quo  vadis,  reconnaissance  de  l'action ?  un  nouveau  modèle  et  le  jeu  de  données  
cinétiques.  Dans  CVPR,  pages  4724–4733,  2017.

Shizhe  Chen,  Jia  Chen,  Qin  Jin  et  Alexander  Hauptmann.  Sous­titrage  vidéo  avec  guidage  des  sujets  latents  
multimodaux.  Dans  ACM  MM,  pages  1838–1846,  2017.

859
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

´
Xinlei  Chen,  Hao  Fang,  Tsung­Yi  Lin,  Ramakrishna  Vedantam,  Saurabh  Gupta,  Piotr  Dollar  et  C  Lawrence  
Zitnick.  Microsoft  coco  captions :  serveur  de  collecte  et  d'évaluation  des  données.  arXiv  preprint  
arXiv:1504.00325,  2015.
¨
Kyunghyun  Cho,  Bart  Van  Merrienboer,  Dzmitry  Bahdanau  et  Yoshua  Bengio.  Sur  les  propriétés  de  la  traduction  
automatique  neuronale :  Approches  encodeur­décodeur.  arXiv  preprint  arXiv:1409.1259,  2014a.

¨
Kyunghyun  Cho,  Bart  Van  Merrienboer,  Caglar  Gulcehre,  Dzmitry  Bahdanau,  Fethi  Bougares,  Holger  Schwenk  
et  Yoshua  Bengio.  Apprentissage  des  représentations  de  phrases  à  l'aide  de  l'encodeur­décodeur  rnn  pour  
la  traduction  automatique  statistique.  arXiv  preprint  arXiv:1406.1078,  2014b.

Junyoung  Chung,  Caglar  Gulcehre,  KyungHyun  Cho  et  Yoshua  Bengio.  Évaluation  empirique  des  réseaux  de  
neurones  récurrents  contrôlés  sur  la  modélisation  de  séquences.  prétirage  arXiv  arXiv:1412.3555,  2014.

Michael  Denkowski  et  Alon  Lavie.  Meteor  universal :  Évaluation  de  la  traduction  spécifique  à  une  langue  pour  
n'importe  quelle  langue  cible.  Dans  Actes  du  neuvième  atelier  sur  la  traduction  automatique  statistique,  
pages  376–380,  2014.

Yinpeng  Dong,  Hang  Su,  Jun  Zhu  et  Bo  Zhang.  Améliorer  l'interprétabilité  du  réseau  neuronal  profond
fonctionne  avec  des  informations  sémantiques.  Dans  CVPR,  pages  4306–4314,  2017.

Zhe  Gan,  Chuang  Gan,  Xiaodong  He,  Yunchen  Pu,  Kenneth  Tran,  Jianfeng  Gao,  Lawrence  Carin  et  Li  Deng.  
Réseaux  compositionnels  sémantiques  pour  le  sous­titrage  visuel.  Dans  CVPR,  2017.

Sergio  Guadarrama,  Niveda  Krishnamoorthy,  Girish  Malkarnenkar,  Subhashini  Venugopalan,  Raymond  
Mooney,  Trevor  Darrell  et  Kate  Saenko.  Youtube2text :  Reconnaître  et  décrire  des  activités  arbitraires  à  
l'aide  de  hiérarchies  sémantiques  et  de  la  reconnaissance  zéro  coup.  Dans  ICCV,  pages  2712–2719,  2013.

Shawn  Hershey,  Sourish  Chaudhuri,  Daniel  PW  Ellis,  Jort  F  Gemmeke,  Aren  Jansen,  R  Channing  Moore,  
Manoj  Plakal,  Devin  Platt,  Rif  A  Saurous,  Bryan  Seybold,  et  al.  Architectures  Cnn  pour  la  classification  audio  
à  grande  échelle.  Dans  ICASSP,  pages  131–135,  2017.
¨
Sepp  Hochreiter  et  Jürgen  Schmidhuber.  Longue  mémoire  à  court  terme. Calcul  neuronal,  9(8) :
1735–1780,  1997.

Chiori  Hori,  Takaaki  Hori,  Teng­Yok  Lee,  Ziming  Zhang,  Bret  Harsham,  John  R  Hershey,  Tim  K  Marks  et  
Kazuhiko  Sumi.  Fusion  multimodale  basée  sur  l'attention  pour  la  description  vidéo.  Dans  ICCV,  pages  4203–
4212,  2017.

Qin  Jin,  Jia  Chen,  Shizhe  Chen,  Yifan  Xiong  et  Alexander  Hauptmann.  Décrire  des  vidéos  à  l'aide  de
fusion  multimodale.  Dans  ACM  MM,  pages  1087–1091.  ACM,  2016.

Will  Kay,  Joao  Carreira,  Karen  Simonyan,  Brian  Zhang,  Chloe  Hillier,  Sudheendra  Vijaya  narasimhan,  Fabio  
Viola,  Tim  Green,  Trevor  Back,  Paul  Natsev,  et  al.  L'ensemble  de  données  vidéo  sur  l'action  humaine  
cinétique.  arXiv  preprint  arXiv:1705.06950,  2017.

Diederik  P  Kingma  et  Jimmy  Ba.  Adam :  Une  méthode  d'optimisation  stochastique.  prépublication  arXiv
arXiv:1412.6980,  2014.

860
Machine Translated by Google

TVT

Alex  Krizhevsky,  Ilya  Sutskever  et  Geoffrey  E  Hinton.  Classification  Imagenet  avec  convo  profond
réseaux  de  neurones  lutionnels.  Dans  NIPS,  pages  1097–1105,  2012.

Chin­Yew  Lin.  Rouge :  Un  package  pour  l'évaluation  automatique  des  résumés.  Résumé  de  texte
Se  ramifie,  2004.

Xiang  Long,  Chuang  Gan  et  Gérard  de  Melo.  Sous­titrage  vidéo  avec  une  attention  aux  multiples  facettes.
arXiv  preprint  arXiv:1612.00234,  2016.

Jiasen  Lu,  Caiming  Xiong,  Devi  Parikh  et  Richard  Socher.  Savoir  quand  regarder :  adaptatif
attention  via  une  sentinelle  visuelle  pour  le  sous­titrage  des  images.  Dans  CVPR,  2017.

Pingbo  Pan,  Zhongwen  Xu,  Yi  Yang,  Fei  Wu  et  Yueting  Zhuang.  Encodeur  neuronal  récurrent  hiérarchique  pour  la  représentation  
vidéo  avec  application  au  sous­titrage.  Dans  CVPR,  pages  1029–1038,  2016a.

Yingwei  Pan,  Tao  Mei,  Ting  Yao,  Houqiang  Li  et  Yong  Rui.  Modélisation  conjointe  de  l'intégration  et
traduction  pour  faire  le  pont  entre  la  vidéo  et  la  langue.  Dans  CVPR,  pages  4594–4602,  2016b.

Yingwei  Pan,  Ting  Yao,  Houqiang  Li  et  Tao  Mei.  Sous­titrage  vidéo  avec  sémantique  transférée
les  attributs.  Dans  CVPR,  2017.

Kishore  Papineni,  Salim  Roukos,  Todd  Ward  et  Wei­Jing  Zhu.  Bleu :  une  méthode  d'évaluation  automatique  de  la  traduction  
automatique.  Dans  Actes  de  la  40e  réunion  annuelle  de  l'association  pour  la  linguistique  computationnelle,  pages  311–318.  
Association  pour  la  linguistique  computationnelle,  2002.

Ramakanth  Pasunuru  et  Mohit  Bansal.  Sous­titrage  vidéo  renforcé  avec  des  récompenses  d'implication.
arXiv  preprint  arXiv:1708.02300,  2017.

Yunchen  Pu,  Martin  Renqiang  Min,  Zhe  Gan  et  Lawrence  Carin.  Abstraction  de  fonctionnalités  adaptative  pour  traduire  la  vidéo  
en  texte.  2018.

Vasili  Ramanishka,  Abir  Das,  Dong  Huk  Park,  Subhashini  Venugopalan,  Lisa  Anne  Hendricks,  Marcus  Rohrbach  et  Kate  
Saenko.  Description  vidéo  multimodale.  Dans  ACM  MM,  pages  1092–1096,  2016.

Zhiqiang  Shen,  Jianguo  Li,  Zhou  Su,  Minjun  Li,  Yurong  Chen,  Yu­Gang  Jiang  et  Xiangyang  Xue.
Sous­titrage  vidéo  dense  faiblement  supervisé.  Dans  CVPR,  2017.

Rakshith  Shetty  et  Jorma  Laaksonen.  Fonctionnalités  au  niveau  de  la  trame  et  du  segment  et  évaluation  du  pool  de  candidats
uation  pour  la  génération  de  sous­titres  vidéo.  Dans  ACM  MM,  pages  1073–1076,  2016.

Jingkuan  Song,  Lianli  Gao,  Li  Liu,  Xiaofeng  Zhu  et  Nicu  Sebe.  Hachage  basé  sur  la  quantification :  un  cadre  général  pour  la  
récupération  évolutive  d'images  et  de  vidéos.  Reconnaissance  de  formes,  75 : 175–187,  2018.

Nitish  Srivastava,  Geoffrey  Hinton,  Alex  Krizhevsky,  Ilya  Sutskever  et  Ruslan  Salakhutdinov.
Abandon :  un  moyen  simple  d'empêcher  les  réseaux  de  neurones  de  se  suradapter.  JMLR,  15(1):1929–1958,  2014.

861
Machine Translated by Google

CHEN  LI  ZHANG  HUANG

Ilya  Sutskever,  Oriol  Vinyals  et  Quoc  V  Le.  Apprentissage  de  séquence  à  séquence  avec  les  réseaux  de  neurones.
Dans  NIPS,  pages  3104–3112,  2014.

Ashish  Vaswani,  Noam  Shazeer,  Niki  Parmar,  Jakob  Uszkoreit,  Llion  Jones,  Aidan  N  Gomez,  Łukasz  Kaiser  et  Illia  
Polosukhin.  L'attention  est  tout  ce  dont  vous  avez  besoin.  Dans  NIPS,  pages  6000–6010,  2017.

Ramakrishna  Vedantam,  C  Lawrence  Zitnick  et  Devi  Parikh.  Cidre :  évaluation  de  la  description  d'image  basée  sur  le  
consensus.  Dans  Actes  de  la  conférence  IEEE  sur  la  vision  par  ordinateur  et  la  reconnaissance  des  formes,  pages  
4566–4575,  2015.

Subhashini  Venugopalan,  Marcus  Rohrbach,  Jeffrey  Donahue,  Raymond  Mooney,  Trevor  Darrell  et  Kate  Saenko.  
Séquence  à  séquence­vidéo  au  texte.  Dans  ICCV,  pages  4534–4542,  2015a.

Subhashini  Venugopalan,  Huijuan  Xu,  Jeff  Donahue,  Marcus  Rohrbach,  Raymond  Mooney  et  Kate  Saenko.  Traduction  
de  vidéos  en  langage  naturel  à  l'aide  de  réseaux  de  neurones  récurrents  profonds.  Dans  NAACL,  pages  1494–1504,  
2015b.

Oriol  Vinyals,  Alexander  Toshev,  Samy  Bengio  et  Dumitru  Erhan.  Montrer  et  raconter :  une  image  neuronale
générateur  de  sous­titres.  Dans  CVPR,  pages  3156–3164,  2015.

Bairui  Wang,  Lin  Ma,  Wei  Zhang  et  Wei  Liu.  Réseau  de  reconstruction  pour  le  sous­titrage  vidéo.  arXiv
prétirage  arXiv:1803.11438,  2018a.

Xin  Wang,  Wenhu  Chen,  Jiawei  Wu,  Yuan­Fang  Wang  et  William  Yang  Wang.  Sous­titrage  vidéo
par  apprentissage  par  renforcement  hiérarchique.  Dans  CVPR,  pages  4213–4222,  2018b.

Jun  Xu,  Tao  Mei,  Ting  Yao  et  Yong  Rui.  Msr­vtt :  un  grand  ensemble  de  données  de  description  vidéo  pour  le  pontage
vidéo  et  langue.  Dans  CVPR,  2016.

Kelvin  Xu,  Jimmy  Ba,  Ryan  Kiros,  Kyunghyun  Cho,  Aaron  Courville,  Ruslan  Salakhudinov,  Rich  Zemel  et  Yoshua  
Bengio.  Montrez,  assistez  et  racontez :  Génération  de  légendes  d'images  neurales  avec  attention  visuelle.  Dans  
ICML,  pages  2048–2057,  2015.

Li  Yao,  Atousa  Torabi,  Kyunghyun  Cho,  Nicolas  Ballas,  Christopher  Pal,  Hugo  Larochelle  et  Aaron  Courville.  Décrire  
des  vidéos  en  exploitant  la  structure  temporelle.  Dans  ICCV,  pages  4507–4515,  2015.

Quanzeng  You,  Hailin  Jin,  Zhaowen  Wang,  Chen  Fang  et  Jiebo  Luo.  Légende  d'image  avec
attention  sémantique.  Dans  CVPR,  pages  4651–4659,  2016.

Haonan  Yu,  Jiang  Wang,  Zhiheng  Huang,  Yi  Yang  et  Wei  Xu.  Sous­titrage  de  paragraphe  vidéo  à  l'aide  de
réseaux  de  neurones  récurrents  hiérarchiques.  Dans  CVPR,  pages  4584–4593,  2016.

Luowei  Zhou,  Yingbo  Zhou,  Jason  J  Corso,  Richard  Socher  et  Caiming  Xiong.  Sous­titrage  vidéo  dense  de  bout  en  bout  
avec  transformateur  masqué.  Dans  Actes  de  la  conférence  IEEE  sur  la  vision  par  ordinateur  et  la  reconnaissance  de  
formes,  pages  8739–8748,  2018.

Barret  Zoph,  Vijay  Vasudevan,  Jonathon  Shlens  et  Quoc  V  Le.  Apprentissage  d'architectures  transférables  pour  une  
reconnaissance  d'image  évolutive.  arXiv  preprint  arXiv:1707.07012,  2017.

862

Vous aimerez peut-être aussi