Académique Documents
Professionnel Documents
Culture Documents
Actes de la recherche sur l'apprentissage automatique 95: 847862, 2018 ACML 2018
TVT : réseau de transformateurs à deux vues pour le soustitrage vidéo
Ming Chen FUNKYBLACK@ZJU.EDU.CN
Yingming Li YINGMING@ZJU.EDU.CN
Zhongfei Zhang ZHONGFEI@ZJU.EDU.CN
Siyu Huang SIYUHUANG@ZJU.EDU.CN
Collège des sciences de l'information et du génie électronique, Université du Zhejiang, Hangzhou, Chine
Éditeurs : Jun Zhu et Ichiro Takeuchi
Abstrait
Le soustitrage vidéo consiste à générer automatiquement la description textuelle naturelle d'une vidéo donnée.
Il existe deux défis principaux dans le soustitrage vidéo dans le contexte d'un cadre de travail encodeurdécodeur : 1)
Comment modéliser les informations séquentielles ; 2) Comment combiner les modalités incluant la vidéo et le texte. Pour
le défi 1), les méthodes basées sur les réseaux de neurones récurrents (RNN) sont actuellement les approches les plus
courantes pour apprendre les représentations temporelles des vidéos, alors qu'elles souffrent d'un coût de calcul élevé.
Pour le défi 2), les caractéristiques des différentes modalités sont souvent grossièrement concaténées sans discussion
approfondie. Dans cet article, nous introduisons un nouveau cadre de soustitrage vidéo, à savoir, TwoView Transformer
(TVT). TVT comprend une épine dorsale de réseau Transformer pour la représentation séquentielle et deux types de blocs
de fusion dans les couches de décodeur pour combiner efficacement différentes modalités. Une étude empirique montre
que notre modèle TVT surpasse les méthodes de pointe sur l'ensemble de données MSVD et atteint une performance
compétitive sur l'ensemble de données MSRVTT sous quatre métriques communes.
Motsclés : soustitrage vidéo ; Séquence à séquence ; Multimodalités
1. Introduction
La description de vidéos en langage naturel, à savoir le soustitrage vidéo, a été un sujet largement étudié
dans les communautés de vision par ordinateur et de traitement du langage naturel. Il peut être appliqué
dans diverses applications telles que la récupération vidéo Song et al. (2018), question visuelle répondant
à Antol et al. (2015), et l'aide aux handicapés visuels. Les difficultés du soustitrage vidéo résident
principalement dans la modélisation des dynamiques temporelles et la fusion de multiples modalités.
Dans cet article, nous introduisons le modèle TwoView Transformer (TVT) qui est une variante du réseau
Transformer Vaswani et al. (2017) pour relever les défis.
Le premier défi du soustitrage vidéo est de modéliser la dynamique temporelle. Dans la littérature
existante, l'architecture d'encodeurdécodeur est couramment adoptée, où la plupart des travaux
antérieurs utilisent des réseaux de neurones convolutifs (CNN) pour coder des contenus visuels en
conjonction avec les réseaux de neurones récurrents (RNN), en particulier l'unité de mémoire à long court
terme. (LSTM) Hochre iter et Schmidhuber (1997) et gated recurrent unit (GRU) Chung et al. (2014), pour
le traitement de données séquentielles Venugopalan et al. (2015a); Yao et al. (2015); Yu et al. (2016); Pu et al. (2018).
Dans les RNN, un état caché est calculé sur la base de l'état caché précédent de sorte qu'il interdit la
parallélisation. Le calcul séquentiel introduit un coût élevé surtout pour les longues séquences.
auteur correspondant
c 2018 M. Chen, Y. Li, Z. Zhang et S. Huang.
Machine Translated by Google
CHEN LI ZHANG HUANG
Inspirés par les résultats prometteurs du réseau Transformer Vaswani et al. (2017) en traduction automatique, nous
proposons d'utiliser le réseau Transformer comme réseau fédérateur pour le soustitrage vidéo.
Le réseau Transformer s'appuie sur le mécanisme d'attention au lieu des RNN pour établir des dépendances entre les
données séquentielles. Nous expliquons comment adapter le réseau Transformer à la tâche de soustitrage vidéo dans la
section 3.2.
Un autre défi du soustitrage vidéo est de savoir comment fusionner des informations de différentes modalités.
Plusieurs méthodes antérieures concatènent approximativement les caractéristiques de différentes modalités ensemble
Yao et al. (2015); Pan et al. (2016b). Récemment, le mécanisme d'attention a été utilisé pour une meilleure fusion Long et al.
(2016); Hori et al. (2017). Cependant, ces approches fusionnent souvent uniquement les modalités des données vidéo,
telles que les représentations d'images, de mouvements et d'audio. Le mécanisme de fusion des données vidéo et
textuelles n'a pas été suffisamment étudié. Dans ce travail, nous essayons de construire un décodeur de langage plus
efficace. Nous proposons de manière novatrice le bloc de fusion attentif pour utiliser le mécanisme d'attention multitêtes
pour la fusion des modalités de la période de données vidéo et texte.
En résumé, notre modèle proposé de transformateur à deux vues (TVT) utilise le réseau Transformer
comme réseau fédérateur et fusionne les modalités des données vidéo et textuelles avec les mécanismes d'attention
M. TVT présente les avantages suivants :
• Par rapport aux RNN, les couches d'attention de TVT permettent un calcul parallèle, conduisant à un processus de
formation beaucoup plus efficace sans diminution des performances.
• Deux types différents de blocs de fusion sont conçus pour un processus de décodage plus efficace qu'une simple
concaténation. En particulier, le bloc de fusion attentif ajuste le flux d'informations textuelles pour générer des
phrases plus naturelles.
Nous résumons les contributions de cet article comme suit :
• Nous proposons un nouveau modèle TVT pour le soustitrage vidéo. TVT apprend les dépendances à long terme
des données séquentielles basées sur le mécanisme d'attention multitête au lieu des unités RNN largement
utilisées.
• Nous proposons deux types de blocs de fusion tardive pour fournir une nouvelle façon d'exploiter les informations
de trois modalités différentes contenant des caractéristiques de trames, de mouvements et de mots générés
précédemment.
• Une étude empirique montre que TVT atteint les performances de pointe sur l'ensemble de données MSVD et des
performances compétitives sur l'ensemble de données MSRVTT. L'étude d'ablation révèle en outre l'efficacité de
nos blocs de fusion proposés.
2. Travaux connexes
Légende des images. Le but du soustitrage d'image est de présenter une légende pour décrire une image donnée. De
nombreuses approches de soustitrage d'image existantes ont adopté le cadre d'encodeurdécodeur pour générer des
soustitres d'image. Vinyls et al. (2015) ont proposé un modèle composé d'un encodeur CNN profond pour encoder les
informations visuelles et d'un décodeur RNN suivant pour générer des descriptions. Xu et al. (2015) ont en outre utilisé le
mécanisme d'attention spatiale pour améliorer les performances du décodeur RNN. Vous et al. (2016) et Gan et al. (2017)
ont incorporé les caractéristiques sémantiques des images dans un modèle de langage. Lu et al. (2017) ont proposé un
modèle d'attention adaptatif qui peut décider automatiquement de s'appuyer sur l'image lors de la génération du mot
suivant. Notre fusion attentive
848
Machine Translated by Google
TVT
block s'inspire du mécanisme d'attention adaptative. Différent de leurs approches, dans ce travail, nous considérons
plus de perspectives de contenus visuels, qui aident mieux l'apprentissage du modèle de soustitrage vidéo.
Soustitrage vidéo. Le soustitrage vidéo est une tâche plus difficile que le soustitrage d'images, principalement
en raison de la dynamique temporelle sousjacente aux vidéos. Venugopalan et al. (2015b) ont proposé un modèle
qui fait la moyenne de toutes les caractéristiques des images extraites par un CNN 2D, puis transmet la
caractéristique visuelle moyenne à un décodeur LSTM pour générer des descriptions vidéo. Cependant, leur
modèle n'a pas la capacité d'aborder la dynamique temporelle des vidéos. Venugopalan et al. (2015a) ont proposé
le modèle S2VT qui utilise LSTM comme encodeur supplémentaire pour modéliser la dépendance à long terme
des trames et transmet la sortie de la dernière étape de cette couche LSTM à un autre décodeur LSTM. Comme
pour les modèles séquence à séquence utilisés dans d'autres applications, Yao et al. (2015) ont proposé un
mécanisme d'attention pour attribuer à chaque image un poids lors de la génération de mots. Comme les vidéos
ont des modalités différentes, Jin et al. (2016) ont proposé un encodeur de fusion multimodal pour combiner toutes
les modalités disponibles avec une couche entièrement connectée. Long et al. (2016) et Hori et al. (2017) ont tous
deux utilisé le mécanisme d'attention dans les modèles de fusion multimodale. Dans notre approche, le bloc de
fusion attentif combine deux modalités dont les caractéristiques de cadre et de mouvement.
Traduction automatique. Ces dernières années, les modèles séquence à séquence Bahdanau et al. (2014);
Sutskever et al. (2014); Cho et al. (2014b,a); Vaswani et al. (2017) ont été largement utilisés dans les tâches de
traduction automatique. Plus précisément, un encodeur RNN mappe la phrase source dans un vecteur de contexte,
puis un décodeur RNN génère la phrase cible conditionnée sur le vecteur de contexte. Étant donné que le vecteur
de contexte est fixe lors de la génération de chaque mot pour la phrase cible, Bahdanau et al. (2014) ont proposé
un réseau d'encodeurdécodeur équipé d'un mécanisme d'attention douce pour apprendre de manière adaptative
le vecteur de contexte en fonction des mots individuels de la phrase source. Bien que l'encodeur/décodeur basé
sur les RNN apprenne la dépendance à longue portée des séquences, il a un coût de calcul élevé ; de plus, le
vecteur de contexte dans chaque position n'est pas bien équilibré en raison de l'architecture chaînée des RNN. Au
lieu d'utiliser des couches récurrentes, Vaswani et al. (2017) ont proposé le réseau Transformer pour accélérer le
processus de formation basé sur le mécanisme d'attention du produit scalaire, montrant une performance
prometteuse en traduction automatique. Semblable à la traduction automatique, le soustitrage vidéo est également
la tâche d'apprentissage de séquence à séquence car son objectif est d'encoder une vidéo en une séquence de
vecteurs. Zhu et al. (2018) ont proposé un modèle de transformateur de bout en bout pour à la fois détecter et
décrire les événements de soustitrage vidéo dense. Ainsi, inspirés par le réseau Transformer, nous adoptons le
mécanisme d'attention du produit scalaire Vaswani et al. (2017) comme module principal de notre approche de soustitrage vidéo.
3. Méthodologie
Notre cadre de soustitrage vidéo comprend deux modules de base, dont 1) un CNN 2D servant d'extracteur de
caractéristiques visuelles et 2) un réseau Transformer Vaswani et al. (2017) servant de générateur de soustitres.
La figure 1 montre une architecture générale de notre framework. Dans cette section, nous donnons d'abord une
brève introduction au réseau Transformer d'origine avant de décrire notre modèle.
3.1. Réseau de transformateur
3.1.1. ATTENTION AUX PRODUITS DOT
L'attention du produit scalaire mise à l'échelle est différente des mécanismes d'attention conventionnels car ses
poids d'attention sont calculés par l'opération du produit scalaire. Requêtes données Q R Tq×dk , clés K
849
Machine Translated by Google
CHEN LI ZHANG HUANG
Nx
Images vidéo
Position Couche d'encodeur
Codage
Caractéristiques visuelles
Saisir Couche
Attention Couche
Avant
Couche
Intégration Norme Norme Norme
Couche Couche
...
Position Nx
Légende Codage Sortir
<bos> un
un
Masqué
Alimentation
Couche de décodeur
Figure 1 : Architecture du modèle de base
QKT √
Attention(Q, K, V ) = softmax V, (1)
dk
où Tq est la longueur de séquence des requêtes et Tv est la longueur de séquence des clés et des valeurs. dk est la
dimension vectorielle des requêtes et des clés, et dv est la dimension vectorielle des valeurs. √ dk est utilisé ici pour la
mise à l'échelle qui garantit la stabilité numérique.
L'attention multitête est construite sur l'attention du produit scalaire mis à l'échelle. Il se compose de h "têtes"
différentes de (requête, clé, valeur), où chaque tête est indépendamment et calculée en parallèle. Pour la ième tête, la
production d'attention est
headi = Attention(QWQ je ,
KWK je , V WV ). je
(2)
L'attention multitête concatène les têtes comme
MultiHead(Q, K, V ) = Concati=1...h(headi)WO. (3)
Nous utilisons l'attention multitêtes comme couches d'attention dans notre cadre.
3.1.2. RÉSEAU FEED FORWARD
Chaque bloc de notre encodeur et décodeur contient un réseau de rétroaction entièrement connecté à deux couches
avec une activation ReLU. Ce module est défini comme :
FFN(x) = ReLU(xW1 + b1)W2 + b2, (4)
850
Machine Translated by Google
TVT
3.1.3. CODAGE POSITIONNEL
Étant donné que le réseau d'attention et d'anticipation multitêtes ne contient pas de couches convolutives ou de
cellules récurrentes, le codage positionnel est essentiel pour tirer parti des informations de position relative en
séquence. La méthode de codage est définie comme suit :
PE(pos, 2i) = sin(pos/100002i/dmodèle)
(5)
PE(pos, 2i + 1) = cos(pos/100002i/dmodèle),
où pos est la position d'une image dans la vidéo côté encodage ou d'un mot dans la phrase côté décodage. i désigne
la dimension correspondante des encastrements. Ici, différentes dimensions du vecteur positionnel intégré représentent
différentes fréquences lors de l'utilisation de la fonction sinusoïdale ou cosinusoïdale. Différentes positions représentent
différentes phases dans ces fonctions périodiques.
3.2. Réseau de transformateur à deux vues
3.2.1. TRANSFORMATEUR CODEUR
Notre proposition de réseau de transformateurs à deux vues comprend deux vues de représentations visuelles
extraites par les encodeurs, c'estàdire la représentation de trame Ef et la représentation de mouvement Em, respectivement.
T ×dmodel
La représentation de trame Ef R T ×dmodel est obtenu
est obtenue par p
uar
n CuNN
n CNN
3D 2sD
sur des
équentiel ctouches
rames individuelles
et sous
d'autoattention. La
sur des images consécutives et des couches d'autoattention indépendantes. représentation du mouvement Em R
3.2.2. DÉCODEUR DE TRANSFORMATEUR À DEUX VUES
Deux types de blocs de fusion de notre décodeur de transformateur à deux vues sont illustrés à la Fig. 2, où la couche
d'attention de fusion fournit un moyen spécial de calculer les poids d'attention. Étant donné la représentation de la
phrase Ds de la couche d'autoattention masquée précédente et les sorties de deux encodeurs visuels Ef et Em, le
tuple de (requête, clé, valeur) est calculé comme
Q
Qf = LayerNorm(Ds)W f
Kf = EfWK (6)
F
Vf = EfWV F
où W sont dQ
W
es mK
WV p aramétriques.
atrices R dmodèle×dmodèle
Un autre tuple pour la présentation du mouvement f , ff , tation est calculé de la
même m mouvement
anière avec
Cdm
es
sont
paramètres
calculés dpifférents.
ar deux cE
ouches
nsuite,
dle
'attention
contexte
mdultitêtes
e trame Cindépendantes
f et le contexte
comme
de
Cf = MultiTête(Qf , Kf , Vf )
(7)
Cm = MultiHead(Qm, Km, Vm).
3.3. Bloc fusionné
3.3.1. ADDFUSION BLOCK
Pour fusionner le contexte de repère Cf et le contexte de mouvement Cm, nous proposons d'utiliser deux types de
blocs de fusion. Le premier type de blocs de fusion est le bloc addfusion. Il utilise une simple opération d'ajout qui
851
Attention mois
Machine Translated by Google Couche Co
Encodeur de mouvement
sortir
CHEN LI ZHANG HUANG
Couche de décodeur Addfusion
Encodeur de trame
sortir
Sortie codeur de sortie Cadre sortie
Attention Encodeur de trame
du codeur Couche
Sortie du codeur
trame contextuelle
de trame Cadre de trame
Attention Attention
Masqué
Couche Contexte Alimentation Couche
Couche Soi Couche Couche
Couche précédente Avant
Norme Attention Norme Norme Couche suivante
Masqué Masqué Couche
Flux
Couche Soi
Couche
précédente Couche Couche Couche
suivante Soiprécédent Couche
Couche précédente Couche précédente Avant Couche suivante Empiler
Norme Bloc d'attention Norme Norme Norme Attention
bloc bloc Norme
Attention Mouvement Couche
Couche Couche
Couche Contexte
Sortie codeur de Encodeur
de mouvement
Attention Attention
mouvement Sortie
encodeur Couche contextuelle sortie Couche
Sortie codeur de
de mouvement codeur de
mouvement Couche de décodeur
sortir Addfusion mouvement
sortie du
Sortie codeur de
codeur de
trame
trame
attention Encodeur de trame Attention
Couche Contexte
sortir Couche
Attention
Masqué Flux Couche
La fusion Alimentation
suivant
Couche Couche Soiprécédent Couche suivant
Couche
Couche précédente Avant Couche suivante Empiler Attention Avant
Couche suivante
Norme NormeAttention
bloc
bloc Norme Bloc de
Masqué Couche Fusion de couches
norme
Flux de calque
Soi
Couche
Couche Couche Couche
Couche précédente Empiler Attention Avant Couche suivante
Norme Attention Norme Norme
Couche Couche
attention Encodeur de mouvement Mouvement
Sortie Attention
Couche Contexte
sortir Couche
d'encodeur
Sortie codeur de Attention
de mouvement
mouvement Couche
de couche
robustesse pour intégrer les représentations complexes et diverses à deux vues.
nation
toi
3.3.2. BLOC ATTENTIFFUSION
Nous proposons un autre type de blocs de fusion, appelé bloc de fusion attentif, pour fusionner les représentations à
deux vues de manière apprenable. Pour chaque position dans une phrase, nous générons un nouveau vecteur de
requête à partir de la représentation de la position actuelle et empilons les vecteurs de contexte de différentes modalités
pour calculer de nouvelles clés et matrices de valeurs.
F m
St = Pile(c qt c tt ,
, dt)
= Wqdt
(9)
Kt = StWK
Vt = StWV ,
852
Machine Translated by Google
TVT
f m
où les matrices de poids Wq sont , WK et WV sont partagés entre différents postes. c t , t c et dt
des vecteurs de la tième colonne du contexte de trame Cf , contexte de mouvement Cm, et contexte de phrase Ds,
respectivement. Intuitivement, le bloc attentiffusion calcule les poids d'attention en fonction de qt et Kt , et effectue
une opération
de m
adopte oyenne pdondérée
l'attention ssur
u produit Vt pour
calaire obtenir
mis le vecteur
à l'échelle pour ddonner
e contexte ct ecn
la sortie position courante. Ensuite, il
omme
ct = Attention(qt , , Vt). Kt (dix)
3.3.3. DISCUSSION SUR LES MÉTHODES DE FUSION
• Fusion précoce. Étant donné une séquence de caractéristiques de cadre X = (x1, x2, ..., xT ) et une séquence de
caractéristiques de mouvement Z = (z1, z2, ..., zT ), une méthode de fusion précoce fusionne xt et zt comme
XT
x t = (11)
zt
où x t est ensuite introduit dans un décodeur Transformer. La fusion précoce manque de flexibilité car elle ne
fonctionne que lorsque les longueurs des différentes séquences sont identiques. Dans ce travail, nous utilisons deux
encodeurs Transformer indépendants pour encoder respectivement deux caractéristiques différentes, permettant une
approche beaucoup plus flexible pour la fusion dans le décodeur.
• Addfusion et attentivefusion. Théoriquement, un bloc de fusion attentive présente deux avantages par rapport
à un bloc d'additionfusion. Premièrement, le poids de l'attention varie en fonction du contexte de la position
actuelle. Deuxièmement, le décodeur peut adopter un contexte de phrase approprié en sélectionnant dt dans
Ds, de sorte que la représentation de trame, la représentation de mouvement et les mots générés
précédemment soient capables de guider conjointement le processus de génération de description.
4. Configuration expérimentale
4.1. Jeux de données
Nous évaluons notre modèle sur deux ensembles de données de référence sur le soustitrage vidéo : Microsoft
Research Video Description (MSVD) Guadarrama et al. (2013) et Microsoft Research Video to Text (MSRVTT) Xu
et al. (2016).
• L' ensemble de données MSVD se compose de 1 970 courts clips vidéo Youtube d'une durée moyenne
d'environ 9 s. Chaque clip est étiqueté avec environ 40 phrases en anglais fournies par les travailleurs turcs
d'Amazon Mechanical. Suivant la littérature existante, Venugopalan et al. (2015a); Dong et al. (2017), nous
avons divisé les jeux de données en trois parties : 1 200 vidéos pour la formation, 100 vidéos pour la validation
et 670 vidéos pour les tests.
• L' ensemble de données MSRVTT est un ensemble de données de référence vidéo à grande échelle qui
contient 10 000 clips vidéo, couvrant une grande variété de catégories vidéo. Chaque clip est annoté d'environ
20 phrases naturelles. Ce jeu de données est divisé en trois parties : 6 513 vidéos pour la formation,
497 vidéos pour la validation et 2 990 vidéos pour les tests.
853
Machine Translated by Google
CHEN LI ZHANG HUANG
4.2. Métriques d'évaluation
Nous évaluons les performances de génération de descriptions avec quatre métriques : BLEU@4 Papineni et al. (2002), METEOR
Denkowski et Lavie (2014), ROUGEL Lin (2004) et CIDEr Vedantam et al. (2015). Nous utilisons le protocole d'évaluation standard du
serveur d'évaluation Microsoft COCO Chen et al. (2015).
4.3. Détails d'implémentation
Prétraitement. Pour l'ensemble de données MSVD, nous échantillonnons les vidéos à 5 ips et définissons le nombre maximal d'images
sur 50 pour extraire les caractéristiques de l'image. Pour les caractéristiques de mouvement, nous échantillonnons les vidéos à 25 ips et
extrayons les caractéristiques pour chaque 64 images consécutives avec chevauchement, en définissant l'intervalle sur 5 images.
Pour l'ensemble de données MSRVTT, nous échantillonnons les vidéos à 3 ips et définissons le nombre maximal d'images à 60
pour extraire les caractéristiques de l'image. Pour les caractéristiques de mouvement, nous échantillonnons les vidéos à 15 ips et
extrayons les caractéristiques pour chaque 64 images consécutives avec chevauchement, en définissant l'intervalle sur 5 images.
Détails du modèle. Côté encodeur, nous comparons deux extracteurs de caractéristiques d'image, ResNet152 et Nas Net Zoph et al.
(2017), qui sont tous deux préformés sur le jeu de données ImageNet Krizhevsky et al. (2012).
Les caractéristiques d'image extraites sont respectivement de dimension 2048 et de dimension 4032. Pour les caractéristiques de
mouvement, nous utilisons le réseau I3D Carreira et Zisserman (2017) préformé sur le jeu de données Kinetics Kay et al. (2017) pour
obtenir des caractéristiques à 1024 dimensions. Étant donné que l'ensemble de données MSRVTT contient des pistes audio pour la
plupart des vidéos, Vggish Hershey et al. (2017) est utilisé pour extraire des fonctionnalités audio profondes avec 128 dimensions. Nos
modèles de fusion sont simplement étendus de la même manière dans deux blocs de fusion différents pour incorporer des fonctionnalités
audio afin de sécuriser les améliorations.
Côté décodeur, pour les descriptions textuelles, nous supprimons les ponctuations dans chaque phrase et construisons un
vocabulaire contenant 9861 et 10551 mots en filtrant les mots dont le nombre est inférieur à 1 et 3, respectivement dans deux jeux de
données. La longueur maximale des phrases est fixée à 20 pour deux ensembles de données.
Pour le réseau Transformer, la dimension du modèle dmodel est définie sur 512 et la taille de l'état caché de la couche d'anticipation
est définie sur 2048. Nous utilisons 8 têtes dans la couche d'attention multitêtes où la dimension dk = dv = 64. Nous définissons 4
encodeurs couches et 4 couches de décodeur pour construire l'ensemble du réseau Transformer. α dans le bloc d'additionfusion est
fixé à 0,4.
Paramètres d'apprentissage. Pour le processus de formation, le décrochage Srivastava et al. (2014) avec un taux de chute de 0,3 est
adopté pour la régularisation. Nous arrêtons l'entraînement après avoir atteint 20 époques ou le score METEOR n'est pas augmenté sur
la validation définie dans les 10 derniers points de contrôle. Nous utilisons l'optimiseur Adam Kingma et Ba (2014) avec un taux
d'apprentissage de 0,0001 pour entraîner les réseaux de neurones. La recherche de faisceau avec une taille de faisceau de 5 est
adoptée pour les tests.
5. Résultats et analyse
5.1. Comparaison avec les méthodes de pointe
Tableau. 1 montre les performances de notre modèle proposé et de plusieurs méthodes de pointe sur le jeu de données MSVD. Notre
méthode fonctionne nettement mieux que les méthodes précédentes sur cet ensemble de données.
Il y a une amélioration relative de 7,84 % par rapport au meilleur score CIDEr précédent. Les performances de notre modèle sous la
métrique BLEU@4 sont également supérieures à toutes les méthodes précédentes.
Tableau. 2 montre les performances contre les 3 meilleures équipes du MSRVTT Challenge 2017, v2t navigator, Aalto et
VideoLAB, et les résultats de trois méthodes récentes contenant CIDEntRL,
854
Machine Translated by Google
TVT
Tableau 1 : Résultats sur le jeu de données MSVD. AttTVT est notre modèle proposé utilisant le transformateur à deux
vues avec un bloc de fusion attentif. Ici, notre score ROUGE est omis car les travaux précédents ne l'ont pas
signalé.
Des modèles BLEU@4 METEOR CIDEr
33.29 29.07
LSTMYT Venugopalan et al. (2015b)
29,80
S2VT Venugopalan et al. (2015a)
44,60 29.70
LSTMI Dong et al. (2017)
SA Yao et al. (2015) 41,92 29,60 51,67
45,30 31,00
LSTME Pan et al. (2016b)
GRURCN Ballas et al. (2015) 43,26 31,60 68,01
décodeur hRNN Yu et al. (2016) 49,90 32,60 65,80
46,70 33,90
Encodeur hRNN Pan et al. (2016a)
SCNLSTM Gan et al. (2017) 51.10 33,50 77,70
TSA Pan et al. (2017) 52,80 33,50 74,00
M&M TGM Chen et al. (2017) dualAFR 48,76 34.36 80,45
Pu et al. (2018) 51,77 36.41 72.21
Tableau 2 : Résultats sur le jeu de données MSRVTT.
Des modèles CIDRE BLEU METEOR ROUGE
DenseCap et HRL sur le jeu de données MSRVTT. Pour une comparaison équitable, nous étendons simplement AttTVT
à trois vues en ajoutant des fonctionnalités audio. Les résultats de notre méthode sont compétitifs sur ce jeu de données.
5.2. Étude d'ablation
Nous rapportons des études d'ablation pour démontrer empiriquement l'efficacité de nos méthodes de fusion proposées.
Nous comparons les performances de nos modèles de base et des modèles à deux vues avec différents types de fusion.
Tableau. 3 et tableau. 4 montre les résultats de notre étude d'ablation. Notre modèle de base atteint un
855
Machine Translated by Google
CHEN LI ZHANG HUANG
Tableau 3 : Étude d'ablation sur le jeu de données MSVD. Ici, R, N, I sont l'abréviation de ResNet152, NasNet et I3D. TVT
est le transformateur à deux vues avec fusion précoce et Add TVT est le transformateur à deux vues avec
décodeur de fusion à attention ajoutée.
Des modèles CIDRE BLEU METEOR ROUGE
Tableau 4 : Étude d'ablation sur le jeu de données MSRVTT. Ici, V est l'abréviation de la fonction audio Vggish.
Des modèles CIDRE BLEU METEOR ROUGE
base de référence solide avec uniquement des caractéristiques de trame extraites par ResNet152. Pour utiliser de meilleures
fonctionnalités de cadre pour cette tâche, nous sélectionnons le NasNet, qui atteint une plus grande précision sur le problème de
classification d'image, comme un autre extracteur de fonctionnalités à des fins de comparaison. Les résultats sur les deux ensembles de
données montrent que NasNet fonctionne légèrement mieux pour générer des descriptions vidéo.
En comparant différentes méthodes de fusion, la fusion précoce avec une simple concaténation offre un petit gain de
performances par rapport à l'absence de fonctions de mouvement. La fusion tardive dans l'étape de décodage est une
meilleure façon d'intégrer les caractéristiques de mouvement dans les caractéristiques de trame. Le mécanisme d'attention
appliqué dans le bloc de fusion permet au décodeur Transformer à deux vues de s'adapter au contexte approprié de manière
adaptative. Par exemple, AttTVT(R+I) a obtenu de meilleurs résultats que AddTVT(R+I) et TVT(R+I) avec une marge de
2,86 % et 3,82 % sur l'ensemble de données MSVD dans la métrique de CIDEr, respectivement.
Les résultats de la figure 3 montrent qu'un poids de fusion fixe doit être remplacé par des poids d'attention adaptatifs, ce
qui n'introduit qu'un faible coût de calcul. La méthode de fusion attentive apporte en fait une amélioration significative des
performances, en particulier sur le score CIDEr.
856
Machine Translated by Google
TVT
0,28
0,40
MÉTÉORE BLEU@4
0,27
0,38
0,26
0,25 0,36
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
α α
Cidre 0,48
ROUGE
0,60
0,46
0,58
0,44
0,56 0,42
0,0 0,2 0,4 0,6 0,8 1.0 0,0 0,2 0,4 0,6 0,8 1.0
α α
Figure 3 : Résultats de AddTVT avec différents poids de fusion α et AttTVT sur l'ensemble de données MSRVTT.
5.3. Comparaison avec le modèle basé sur RNN
Tableau 5 : Performances des modèles basés sur le transformateur et le RNN sur l'ensemble de données MSRVTT. Tous les
les expériences ont été réalisées à l'aide d'un GPU GTX 1080Ti.
Des modèles #Params Training Time(sec) BLEU METEOR ROUGE CIDEr
Tableau. 5 répertorie le coût de formation et les performances des modèles basés sur le transformateur et le
RNN dans le cadre de la même stratégie de formation. Le modèle BiLSTM utilise une couche lstm bidirectionnelle
comme encodeur et une couche lstm unidirectionnelle comme décodeur, équipée du mécanisme d'attention
proposé par Bahdanau et al. (2014). Le modèle Transformer est le modèle de base avec 2 couches codeur et
décodeur pour quasiment le même nombre de paramètres que le modèle BiLSTM. Le modèle Transformer atteint
une vitesse d'entraînement d'environ 2,8 × par rapport au modèle BiLSTM et de meilleures performances sur trois
mesures d'évaluation.
857
Machine Translated by Google
CHEN LI ZHANG HUANG
5.4. Résultats qualitatifs
Modèle de base(R) : les zèbres mangent. Modèle de base(R) : un homme et une femme chantent.
AddTVT(N+I) : les zèbres sont debout dans un champ. AddTVT(N+I) : un homme et une femme font du vélo.
AttTVT(N+I) : les zèbres jouent entre eux. AttTVT(N+I) : un homme et une femme conduisent une moto.
GT : deux zèbres jouent entre eux. GT : un homme et une femme conduisent une moto.
Modèle de base(R) : un homme joue avec une arme à feu. Modèle de base(R) : un homme joue au football.
AddTVT(N+I) : la personne joue la musique. AddTVT(N+I) : un groupe d'hommes se bat.
AttTVT(N+I) : un groupe de personnes joue de la batterie. AttTVT(N+I) : un homme fait des arts martiaux.
GT : quatre hommes jouent des instruments de musique. GT : un homme fait une démonstration d'arts martiaux.
Figure 4 : Exemples sur l'ensemble de test MSVD. Ici, GT est l'abréviation de vérité terrain, où un échantillon de
candidats s'affiche.
Plusieurs exemples d'ensembles de tests MSVD générés par nos modèles proposés sont illustrés à la Fig. 4.
Nous constatons que sans les fonctionnalités de mouvement, notre modèle de base n'a pas la capacité de capturer
l'action précise dans les vidéos. Nos méthodes de fusion, AddTVT et AttTVT, génèrent toutes deux des descriptions
correctes de ces échantillons, tandis que AttTVT fonctionne légèrement mieux que AddTVT en raison du contexte plus
détaillé des phrases capturées par le module de fusion attentive.
Pour montrer l'efficacité du module de fusion attentive, la figure 5 montre un exemple dans l'ensemble de données
MSVD et visualise les poids d'attention du bloc de fusion dans la première couche de AttTVT. Il est clair que les noms
dans la phrase, y compris les mots « femme », « liquide » et « verre », ont une relation raisonnablement forte avec les
caractéristiques visuelles extraites de chaque image. Le verbe « mélanger » est associé à un poids plus élevé des
caractéristiques de mouvement. Notez que les mots « est », ce dernier « a » et « eos » ont quelques indices du contenu
visuel, alors qu'ils obtiennent plus d'informations à partir du contexte des mots générés précédemment.
6. Discussions
Cet article présente un nouveau cadre de soustitrage vidéo, c'estàdire le modèle de transformateur à deux vues (TVT).
Dans le cadre, TVT apprend les dépendances à long terme des données séquentielles basées sur le mécanisme
d'attention multitête. Les blocs de fusion, y compris AddTVT et AttTVT, offrent un nouveau moyen d'exploiter les
informations de trois modalités différentes contenant des caractéristiques de trames, de mouvements et des mots
générés précédemment. Les résultats empiriques montrent que notre cadre atteint les performances de pointe sur
l'ensemble de données MSVD et des résultats compétitifs sur l'ensemble de données MSRVTT en utilisant des
fonctionnalités visuelles et audio. Dans l'étude d'ablation, nous démontrons de manière exhaustive l'efficacité de nos
modules de fusion proposés. Un éclaircissement supplémentaire de ce travail est que le transformateur
858
Machine Translated by Google
TVT
un
femme
est
mélange
liquide
dans
un
verre
<eos>
Figure 5 : Visualisation des poids d'attention de la première couche du décodeur AttTVT. Les trois barres montrent
respectivement les poids d'attention de la représentation de l'image, de la représentation du mouvement
et des mots générés précédemment.
réseau est capable de bien résoudre le problème de soustitrage vidéo sans l'aide des RNN. À l'avenir, davantage
d'autres modalités pourront être incorporées dans le cadre TVT. Nous nous attendons également à ce que ce travail
inspire davantage d'études futures sur les approches de fusion pour le soustitrage vidéo.
Remerciements
Ce travail a été soutenu par NSFC (n ° 61702448, 61672456) et les fonds de recherche fondamentale pour les
universités centrales (n ° 2017QNA5008, 2017FZA5007). Nous remercions tous les examinateurs pour leurs précieux
commentaires.
Les références
Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick et Devi Parikh.
Vqa : Réponse visuelle aux questions. Dans ICCV, pages 2425–2433, 2015.
Dzmitry Bahdanau, Kyunghyun Cho et Yoshua Bengio. Traduction automatique neuronale par conjointement
apprendre à aligner et à traduire. prétirage arXiv arXiv:1409.0473, 2014.
Nicolas Ballas, Li Yao, Chris Pal et Aaron Courville. Approfondir les réseaux convolutifs
pour l'apprentissage des représentations vidéo. arXiv preprint arXiv:1511.06432, 2015.
João Carreira et Andrew Zisserman. Quo vadis, reconnaissance de l'action ? un nouveau modèle et le jeu de données
cinétiques. Dans CVPR, pages 4724–4733, 2017.
Shizhe Chen, Jia Chen, Qin Jin et Alexander Hauptmann. Soustitrage vidéo avec guidage des sujets latents
multimodaux. Dans ACM MM, pages 1838–1846, 2017.
859
Machine Translated by Google
CHEN LI ZHANG HUANG
´
Xinlei Chen, Hao Fang, TsungYi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollar et C Lawrence
Zitnick. Microsoft coco captions : serveur de collecte et d'évaluation des données. arXiv preprint
arXiv:1504.00325, 2015.
¨
Kyunghyun Cho, Bart Van Merrienboer, Dzmitry Bahdanau et Yoshua Bengio. Sur les propriétés de la traduction
automatique neuronale : Approches encodeurdécodeur. arXiv preprint arXiv:1409.1259, 2014a.
¨
Kyunghyun Cho, Bart Van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk
et Yoshua Bengio. Apprentissage des représentations de phrases à l'aide de l'encodeurdécodeur rnn pour
la traduction automatique statistique. arXiv preprint arXiv:1406.1078, 2014b.
Junyoung Chung, Caglar Gulcehre, KyungHyun Cho et Yoshua Bengio. Évaluation empirique des réseaux de
neurones récurrents contrôlés sur la modélisation de séquences. prétirage arXiv arXiv:1412.3555, 2014.
Michael Denkowski et Alon Lavie. Meteor universal : Évaluation de la traduction spécifique à une langue pour
n'importe quelle langue cible. Dans Actes du neuvième atelier sur la traduction automatique statistique,
pages 376–380, 2014.
Yinpeng Dong, Hang Su, Jun Zhu et Bo Zhang. Améliorer l'interprétabilité du réseau neuronal profond
fonctionne avec des informations sémantiques. Dans CVPR, pages 4306–4314, 2017.
Zhe Gan, Chuang Gan, Xiaodong He, Yunchen Pu, Kenneth Tran, Jianfeng Gao, Lawrence Carin et Li Deng.
Réseaux compositionnels sémantiques pour le soustitrage visuel. Dans CVPR, 2017.
Sergio Guadarrama, Niveda Krishnamoorthy, Girish Malkarnenkar, Subhashini Venugopalan, Raymond
Mooney, Trevor Darrell et Kate Saenko. Youtube2text : Reconnaître et décrire des activités arbitraires à
l'aide de hiérarchies sémantiques et de la reconnaissance zéro coup. Dans ICCV, pages 2712–2719, 2013.
Shawn Hershey, Sourish Chaudhuri, Daniel PW Ellis, Jort F Gemmeke, Aren Jansen, R Channing Moore,
Manoj Plakal, Devin Platt, Rif A Saurous, Bryan Seybold, et al. Architectures Cnn pour la classification audio
à grande échelle. Dans ICASSP, pages 131–135, 2017.
¨
Sepp Hochreiter et Jürgen Schmidhuber. Longue mémoire à court terme. Calcul neuronal, 9(8) :
1735–1780, 1997.
Chiori Hori, Takaaki Hori, TengYok Lee, Ziming Zhang, Bret Harsham, John R Hershey, Tim K Marks et
Kazuhiko Sumi. Fusion multimodale basée sur l'attention pour la description vidéo. Dans ICCV, pages 4203–
4212, 2017.
Qin Jin, Jia Chen, Shizhe Chen, Yifan Xiong et Alexander Hauptmann. Décrire des vidéos à l'aide de
fusion multimodale. Dans ACM MM, pages 1087–1091. ACM, 2016.
Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijaya narasimhan, Fabio
Viola, Tim Green, Trevor Back, Paul Natsev, et al. L'ensemble de données vidéo sur l'action humaine
cinétique. arXiv preprint arXiv:1705.06950, 2017.
Diederik P Kingma et Jimmy Ba. Adam : Une méthode d'optimisation stochastique. prépublication arXiv
arXiv:1412.6980, 2014.
860
Machine Translated by Google
TVT
Alex Krizhevsky, Ilya Sutskever et Geoffrey E Hinton. Classification Imagenet avec convo profond
réseaux de neurones lutionnels. Dans NIPS, pages 1097–1105, 2012.
ChinYew Lin. Rouge : Un package pour l'évaluation automatique des résumés. Résumé de texte
Se ramifie, 2004.
Xiang Long, Chuang Gan et Gérard de Melo. Soustitrage vidéo avec une attention aux multiples facettes.
arXiv preprint arXiv:1612.00234, 2016.
Jiasen Lu, Caiming Xiong, Devi Parikh et Richard Socher. Savoir quand regarder : adaptatif
attention via une sentinelle visuelle pour le soustitrage des images. Dans CVPR, 2017.
Pingbo Pan, Zhongwen Xu, Yi Yang, Fei Wu et Yueting Zhuang. Encodeur neuronal récurrent hiérarchique pour la représentation
vidéo avec application au soustitrage. Dans CVPR, pages 1029–1038, 2016a.
Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li et Yong Rui. Modélisation conjointe de l'intégration et
traduction pour faire le pont entre la vidéo et la langue. Dans CVPR, pages 4594–4602, 2016b.
Yingwei Pan, Ting Yao, Houqiang Li et Tao Mei. Soustitrage vidéo avec sémantique transférée
les attributs. Dans CVPR, 2017.
Kishore Papineni, Salim Roukos, Todd Ward et WeiJing Zhu. Bleu : une méthode d'évaluation automatique de la traduction
automatique. Dans Actes de la 40e réunion annuelle de l'association pour la linguistique computationnelle, pages 311–318.
Association pour la linguistique computationnelle, 2002.
Ramakanth Pasunuru et Mohit Bansal. Soustitrage vidéo renforcé avec des récompenses d'implication.
arXiv preprint arXiv:1708.02300, 2017.
Yunchen Pu, Martin Renqiang Min, Zhe Gan et Lawrence Carin. Abstraction de fonctionnalités adaptative pour traduire la vidéo
en texte. 2018.
Vasili Ramanishka, Abir Das, Dong Huk Park, Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach et Kate
Saenko. Description vidéo multimodale. Dans ACM MM, pages 1092–1096, 2016.
Zhiqiang Shen, Jianguo Li, Zhou Su, Minjun Li, Yurong Chen, YuGang Jiang et Xiangyang Xue.
Soustitrage vidéo dense faiblement supervisé. Dans CVPR, 2017.
Rakshith Shetty et Jorma Laaksonen. Fonctionnalités au niveau de la trame et du segment et évaluation du pool de candidats
uation pour la génération de soustitres vidéo. Dans ACM MM, pages 1073–1076, 2016.
Jingkuan Song, Lianli Gao, Li Liu, Xiaofeng Zhu et Nicu Sebe. Hachage basé sur la quantification : un cadre général pour la
récupération évolutive d'images et de vidéos. Reconnaissance de formes, 75 : 175–187, 2018.
Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever et Ruslan Salakhutdinov.
Abandon : un moyen simple d'empêcher les réseaux de neurones de se suradapter. JMLR, 15(1):1929–1958, 2014.
861
Machine Translated by Google
CHEN LI ZHANG HUANG
Ilya Sutskever, Oriol Vinyals et Quoc V Le. Apprentissage de séquence à séquence avec les réseaux de neurones.
Dans NIPS, pages 3104–3112, 2014.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser et Illia
Polosukhin. L'attention est tout ce dont vous avez besoin. Dans NIPS, pages 6000–6010, 2017.
Ramakrishna Vedantam, C Lawrence Zitnick et Devi Parikh. Cidre : évaluation de la description d'image basée sur le
consensus. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance des formes, pages
4566–4575, 2015.
Subhashini Venugopalan, Marcus Rohrbach, Jeffrey Donahue, Raymond Mooney, Trevor Darrell et Kate Saenko.
Séquence à séquencevidéo au texte. Dans ICCV, pages 4534–4542, 2015a.
Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney et Kate Saenko. Traduction
de vidéos en langage naturel à l'aide de réseaux de neurones récurrents profonds. Dans NAACL, pages 1494–1504,
2015b.
Oriol Vinyals, Alexander Toshev, Samy Bengio et Dumitru Erhan. Montrer et raconter : une image neuronale
générateur de soustitres. Dans CVPR, pages 3156–3164, 2015.
Bairui Wang, Lin Ma, Wei Zhang et Wei Liu. Réseau de reconstruction pour le soustitrage vidéo. arXiv
prétirage arXiv:1803.11438, 2018a.
Xin Wang, Wenhu Chen, Jiawei Wu, YuanFang Wang et William Yang Wang. Soustitrage vidéo
par apprentissage par renforcement hiérarchique. Dans CVPR, pages 4213–4222, 2018b.
Jun Xu, Tao Mei, Ting Yao et Yong Rui. Msrvtt : un grand ensemble de données de description vidéo pour le pontage
vidéo et langue. Dans CVPR, 2016.
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel et Yoshua
Bengio. Montrez, assistez et racontez : Génération de légendes d'images neurales avec attention visuelle. Dans
ICML, pages 2048–2057, 2015.
Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle et Aaron Courville. Décrire
des vidéos en exploitant la structure temporelle. Dans ICCV, pages 4507–4515, 2015.
Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang et Jiebo Luo. Légende d'image avec
attention sémantique. Dans CVPR, pages 4651–4659, 2016.
Haonan Yu, Jiang Wang, Zhiheng Huang, Yi Yang et Wei Xu. Soustitrage de paragraphe vidéo à l'aide de
réseaux de neurones récurrents hiérarchiques. Dans CVPR, pages 4584–4593, 2016.
Luowei Zhou, Yingbo Zhou, Jason J Corso, Richard Socher et Caiming Xiong. Soustitrage vidéo dense de bout en bout
avec transformateur masqué. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de
formes, pages 8739–8748, 2018.
Barret Zoph, Vijay Vasudevan, Jonathon Shlens et Quoc V Le. Apprentissage d'architectures transférables pour une
reconnaissance d'image évolutive. arXiv preprint arXiv:1707.07012, 2017.
862