Vous êtes sur la page 1sur 27

Abstrait

Nous proposons un réseau de neurones entièrement convolutif basé sur le mécanisme d'attention pour les
tâches de segmentation d'images médicales 3D. Il peut apprendre de manière adaptative à mettre en évidence
les caractéristiques saillantes des images qui sont utiles pour les tâches de segmentation d'images. Certaines
méthodes antérieures améliorent la précision en utilisant la fusion de caractéristiques à plusieurs échelles ou
la convolution dilatée, qui est fondamentalement artificielle et n'a pas la flexibilité du modèle lui-même. Par
conséquent, certains travaux ont proposé le module de porte d'attention 2D, mais ces travaux traitent des
images de tranches médicales 2D, ignorant la corrélation entre les séquences d'images 3D. En revanche, la
porte d'attention 3D peut utiliser de manière exhaustive les informations des trois dimensions des images
médicales. Dans cet article, nous proposons l'architecture Attention V-Net, qui utilise le module 3D attention
gate, et l'a appliqué au cadre de segmentation de l'oreillette gauche basé sur l'apprentissage semi-
supervisé. La méthode proposée est évaluée sur l'ensemble de données du défi auriculaire gauche de
2018. Les résultats expérimentaux montrent que l'Attention V-Net obtient des performances améliorées sous
des indicateurs d'évaluation, tels que Dice, Jaccard, ASD (distance de surface moyenne) et 95HD (distance
de Hausdorff). Le résultat indique que le modèle de cet article peut améliorer efficacement la précision de la
segmentation auriculaire gauche, jetant ainsi les bases de travaux ultérieurs tels que la reconstruction
auriculaire. Pendant ce temps, notre modèle est d'une grande importance pour aider les médecins à traiter les
maladies cardiovasculaires. Les résultats expérimentaux montrent que l'Attention V-Net obtient des
performances améliorées sous des indicateurs d'évaluation, tels que Dice, Jaccard, ASD (distance de surface
moyenne) et 95HD (distance de Hausdorff). Le résultat indique que le modèle de cet article peut améliorer
efficacement la précision de la segmentation auriculaire gauche, jetant ainsi les bases de travaux ultérieurs
tels que la reconstruction auriculaire. Pendant ce temps, notre modèle est d'une grande importance pour aider
les médecins à traiter les maladies cardiovasculaires. Les résultats expérimentaux montrent que l'Attention
V-Net obtient des performances améliorées sous des indicateurs d'évaluation, tels que Dice, Jaccard, ASD
(distance de surface moyenne) et 95HD (distance de Hausdorff). Le résultat indique que le modèle de cet
article peut améliorer efficacement la précision de la segmentation auriculaire gauche, jetant ainsi les bases
de travaux ultérieurs tels que la reconstruction auriculaire. Pendant ce temps, notre modèle est d'une grande
importance pour aider les médecins à traiter les maladies cardiovasculaires.
Mots clés:
image médicale 3D ; mécanisme attentionnel ; apprentissage semi-supervisé ; segmentation auriculaire
gauche
1. Introduction
Les maladies cardiovasculaires sont devenues un facteur important affectant la vie et la santé humaines
[ 1 , 2 ]. Ces dernières années, la thérapie interventionnelle cardiaque, en tant que méthode avancée de diagnostic et
de traitement entre les procédures internes et chirurgicales, a été largement utilisée pour guérir les maladies
cardiovasculaires [ 3 , 4]. Parmi elles, la chirurgie de localisation de la ponction septale auriculaire est la clé du succès
du traitement interventionnel des maladies cardiovasculaires. Comment localiser avec précision le point de ponction
pour percer rapidement le septum auriculaire est la clé d'une chirurgie réussie. Cependant, en raison du manque de
rétroaction d'imagerie 3D précise et fiable, la localisation de la ponction septale auriculaire reste un processus difficile,
qui nécessite une grande expérience des médecins. La segmentation auriculaire gauche est d'une grande importance
pour les médecins afin de localiser rapidement et avec précision la position de ponction septale auriculaire et de
mieux compléter la chirurgie interventionnelle.
Ces dernières années, les algorithmes basés sur la technologie d'apprentissage en profondeur, en particulier les
réseaux de neurones convolutifs (CNN), ont fait de grandes percées dans les tâches de traitement d'images
auriculaires gauches. Ciresan et al. [ 5 ] a d'abord introduit CNN dans la segmentation d'images médicales, en
utilisant une fenêtre coulissante pour récupérer la zone locale autour du pixel afin de former le réseau. Cependant,
cette stratégie n'utilise que des fonctionnalités de haut niveau et n'utilise pas pleinement les fonctionnalités avec des
informations plus marginales. De plus, il est très lent en raison de la grande quantité de données
d'apprentissage. Plus tard, Shelhamer et al. [ 6] ont proposé le FCN (Full convolutional network), pour la segmentation
sémantique des images, étendant la classification du niveau image au niveau pixel. Cependant, ces méthodes ne
tenaient pas pleinement compte de la relation entre les pixels et ignoraient les étapes de régularisation spatiale
utilisées dans les méthodes de segmentation courantes, ce qui entraînait un manque de cohérence spatiale. Les
résultats obtenus ne sont donc pas suffisamment détaillés. Ensuite, Ronneberger et al. [ 7] a proposé U-Net, qui a à la
fois un chemin de contraction qui capture les informations de contexte et un chemin d'expansion symétrique qui
permet un positionnement précis. Pendant ce temps, il peut être formé sur la base de FCN avec un petit nombre
d'images de bout en bout. Malgré la popularité des approches précédentes, elles ne peuvent généralement traiter que
des images 2D. Malheureusement, la plupart des données de cardiologie appliquées cliniquement consistent en des
volumes 3D. Par conséquent, Milletari et al. [ 8 ] ont récemment proposé V-Net, un FCN basé sur des images 3D. Le
jeu de données utilisé par l'auteur est constitué d'images médicales 3D, ce qui est différent des données 2D
courantes. Des opérations telles que la convolution dans la structure du réseau V-Net utilisent également le mode de
traitement 3D, dans lequel une fonction résiduelle inspirée de [ 9] est également appris, ce qui assure la convergence
en moins de temps d'apprentissage et obtient une bonne précision de segmentation.
De plus, compte tenu de la rareté des données d'image auriculaire gauche étiquetées, de nombreuses
méthodes ont été proposées ces dernières années pour développer des modèles de segmentation auriculaire gauche
performants afin de réduire les données étiquetées. Parmi eux, le cadre d'apprentissage semi-supervisé a obtenu de
nombreux résultats réussis, qui peuvent apprendre directement à partir de données étiquetées limitées et d'une
grande quantité de données non étiquetées pour obtenir des résultats de segmentation de haute qualité. Ces
méthodes peuvent être grossièrement divisées en deux catégories : la régularisation basée sur la perturbation des
données ou la perturbation du modèle [ 10 , 11 ] et les contraintes de cohérence basées sur le niveau multitâche
[ 12 , 13]. La plupart d'entre eux prennent V-Net comme réseau fédérateur de l'algorithme, et la structure de
connexion de saut du modèle V-Net améliore les lacunes de FCN, telles que la non prise en compte des informations
de contexte globales et une segmentation insuffisante. Cependant, la structure de convolution hiérarchique dans un
codeur-décodeur V-Net néglige dans une certaine mesure les caractéristiques de la région locale de la cible de
segmentation, ce qui peut conduire à une mauvaise classification de la cible et d'autres objets. La méthode du
mécanisme d'attention peut permettre au réseau de se concentrer sur la région locale de la carte d'entités. Cela nous
motive à rechercher un cadre approprié pour apprendre de manière adaptative les régions d'intérêt dans l'objet
d'entrée, mettant en évidence les caractéristiques structurelles qui sont significatives pour la tâche, et améliorant ainsi
la précision de la prédiction du modèle.
Basé sur le modèle V-Net et le mécanisme d'attention, cet article conçoit un algorithme de segmentation pour les
images IRM de l'oreillette gauche qui sont principalement des formats de données 3D, différents des algorithmes
classiques tels que FCN, U-Net et d'autres réseaux. La méthode proposée peut utiliser l'interdépendance entre les
mappages de canaux, pour mettre l'accent sur le mappage de caractéristiques interdépendantes et améliorer la
représentation des caractéristiques d'une sémantique spécifique. Par conséquent, le modèle accorde plus d'attention
aux caractéristiques saillantes qui sont significatives pour des tâches spécifiques. Les résultats démontrent que notre
méthode permet d'obtenir des améliorations significatives dans la segmentation auriculaire gauche.
En résumé, cet article apporte principalement les contributions suivantes au problème de la façon de faire en
sorte que le réseau se concentre de manière adaptative sur la région d'intérêt dans la carte des caractéristiques :
(1) Nous proposons un modèle 3D de segmentation de l'oreillette gauche basé sur le mécanisme d'attention,
Attention V-Net, pour simuler l'interdépendance entre les canaux. Contrairement aux modèles de segmentation 2D
précédents, il peut utiliser pleinement les informations entre les séquences 3D d'images médicales. Il peut apprendre
de manière adaptative à mettre en évidence les caractéristiques saillantes qui sont utiles pour les tâches de l'image,
améliorant ainsi efficacement la capacité d'expression des caractéristiques.
(2) L'algorithme proposé est appliqué au cadre semi-supervisé de la segmentation de l'oreillette gauche. Les
résultats expérimentaux montrent que par rapport à la ligne de base, la méthode proposée obtient des performances
améliorées en termes de Dice, Jaccard, ASD et 95HD, et surpasse également les autres méthodes semi-supervisées
de pointe.
Le reste du papier est organisé comme suit. Une brève revue des travaux connexes sur la segmentation
auriculaire gauche et le mécanisme d'attention est donnée dans la section 2 . Les architectures du modèle Attention
V-Net proposé sont présentées dans la section 3 . Nous présentons les paramètres expérimentaux et les résultats
correspondants dans la section 4 . Enfin, nous concluons cet article dans la section 5 .

2. Travaux connexes
2.1. Segmentation auriculaire gauche
2.1.1. Segmentation supervisée
En 2015, un réseau de segmentation sémantique à convolution complète [ 6 ] a obtenu d'excellents résultats de
segmentation, jetant les bases de l'application de l'apprentissage en profondeur dans la segmentation d'images. Ces
dernières années, de nombreuses techniques de segmentation de bout en bout ont été développées dans le domaine
de l'imagerie médicale, et certains algorithmes de segmentation auriculaire précoce [ 14 , 15 , 16 ], basés sur
l'apprentissage supervisé, ont montré de bons résultats. Par exemple, le champion du MICCAI Left Atrium
Segmentation Challenge 2018 a proposé un réseau segmenté avec deux V-Nets [ 14]. Le premier sert à localiser
grossièrement le centre auriculaire, il recadre une zone de taille fixe en fonction des résultats de prédiction, le
deuxième réseau découpe finement les parties recadrées à l'étape précédente. F Isensee et al. [ 15 ] ont proposé un
cadre adaptatif robuste, nnU-Met, basé sur 2D U-Net et 3D U-Net. Il remplace le processus complexe d'optimisation
artificielle en utilisant une approche systématique basée sur des règles heuristiques explicites et interprétables. Il peut
être plug-and-play sur une variété d'ensembles de données et obtenir le même effet que les méthodes de
pointe. Ahmed et al. [ 16] ont proposé une méthode pour segmenter l'oreillette gauche et le ventricule gauche
simultanément sur les données IRM 3D du cœur. Cette méthode utilise la méthode traditionnelle basée sur le
voisinage pour suivre et superposer les tranches supérieure et inférieure. Ensuite, il reconstruit le modèle 3D de
l'oreillette gauche segmentée et du ventricule gauche selon le format 2D. Ces méthodes peuvent améliorer la
précision de segmentation de la structure auriculaire dans une certaine mesure, mais il est encore difficile de résoudre
la situation réelle des données d'images médicales avec peu d'étiquettes et de petits échantillons. Par conséquent, le
développement récent de l'apprentissage semi-supervisé a entraîné des changements dans les algorithmes de
segmentation auriculaire.

2.1.2. Segmentation semi-supervisée


La formation d'un réseau de neurones profonds nécessite une grande quantité de données annotées, qui ne
peuvent être générées que par des médecins expérimentés, et le coût est élevé. Pour résoudre ce problème,
certaines méthodes basées sur un cadre d'apprentissage semi-supervisé [ 10 , 11 , 12 , 13 ] ont récemment obtenu
de bons résultats. Le cadre d'apprentissage semi-supervisé peut apprendre directement à partir d'un nombre limité de
données étiquetées et d'un grand nombre de données non étiquetées pour obtenir des résultats de segmentation de
haute qualité. Ces méthodes peuvent être grossièrement divisées en deux catégories : la régularisation basée sur la
perturbation des données ou la perturbation du modèle [ 10 , 11 ], et les contraintes de cohérence basées sur le cadre
multi-tâches [ 12 ,13 ].

Méthodes basées sur la régularisation


Semblable à [ 17 ], Li et Yu [ 10 ] ont proposé une méthode pour régulariser le modèle en ajoutant une
perturbation aux données d'entrée. Un modèle itératif doit se propager vers l'avant deux fois, l'entrée est l'image
inchangée et l'image modifiée, respectivement. Ensuite, les résultats de l'image modifiée sont inversés transformés
pour construire la perte de cohérence des deux résultats prédits. L'idée est simple, mais ça marche bien. Yu et Wang
[ 11 ] ont conçu la stratégie de perception de l'incertitude sur la base de Mean Teacher [ 18], et ils ont adopté la
fonction de perte de cohérence pour améliorer les performances du modèle étudiant. La régularisation des
perturbations du modèle est réalisée en ajoutant différentes perturbations au modèle de l'enseignant et au modèle de
l'élève, telles que l'ajout de bruit à l'entrée ou l'ajout de décrochage au réseau. Cela ajoute une surcharge de calcul
supplémentaire, mais vous obtenez une amélioration des performances.

Cadres multitâches
Li, Zhang et He [ 12 ] ont adopté une structure de réseau multi-tâches pour segmenter l'image et effectuer la
régression du graphe de distance signé en même temps, et le réseau utilise le discriminateur comme terme de
régularisation. Cette conception peut rendre lisse la distribution de prédiction de l'ensemble de données non
étiquetées. Pendant ce temps, il peut introduire une forme et une position fortes en tant qu'informations préalables
pour assurer la stabilité et la robustesse des résultats de segmentation. L'algorithme de cohérence à double tâche
[ 13] établit la perturbation de prédiction entre différentes tâches. La sortie des différentes branches de tâches doit
être transformée dans le même espace prédéfini, et la régularisation de la cohérence entre les deux mappages de
prédiction est explicitement effectuée. Il établit une régularisation au niveau des tâches qui est complètement
différente de la précédente régularisation au niveau des données. Le modèle est simple et le coût de calcul n'est pas
important.
2.2. Modèle attentionné
Le mécanisme d'attention peut récupérer les caractéristiques clés à travers la couche convolutive du réseau
pour produire des poids pertinents. Généralement, Sigmoid ou SoftMax sont utilisés pour calculer les poids afin
d'identifier les caractéristiques importantes. Il peut être appliqué à n'importe quel modèle de séquence [ 19 , 20 ]. Il
existe deux types de mécanismes d'attention : l'attention douce [ 21 ] et l'attention dure [ 22 ]. L'attention douce
accorde plus d'attention aux régions [ 23 ] ou aux canaux [ 24 ]. Par exemple, réf. [ 23] propose un module appelé
transformateur spatial, qui peut effectuer la transformation spatiale correspondante des informations du domaine
spatial dans les images, afin d'extraire des informations clés. La chose la plus importante est que l'attention douce est
différenciable. Il peut optimiser les paramètres grâce à l'optimisation de la propagation vers l'arrière dans le processus
de formation du modèle, en apprenant à obtenir le poids de l'attention. L'attention dure diffère de l'attention douce en
ce sens qu'elle accorde plus d'attention aux points. Pendant ce temps, l'attention dure est un processus de prédiction
aléatoire, qui n'utilise pas tous les états de couche cachés, mais extrait des informations d'une certaine zone sous la
forme d'un one-hot. L'échantillonnage de Monte Carlo est nécessaire pour estimer le gradient car la propagation vers
l'arrière ne peut pas être effectuée directement de cette manière. Le point clé est que l'attention dure n'est pas
différentiable, et le processus de formation est généralement complété par un apprentissage par renforcement. Ces
dernières années, le mécanisme de l'attention peut être expliqué intuitivement en utilisant le mécanisme visuel
humain. Par exemple, notre système visuel a tendance à prêter attention à une partie des informations qui aident au
jugement dans l'image et à ignorer les informations non pertinentes [25 ]. De même, dans les problèmes impliquant le
langage ou la vision, certaines parties de l'entrée peuvent être plus utiles à la décision que d'autres. Notre objectif est
de pouvoir aider le décodeur à avoir une référence des poids des différentes entrées lors de la génération des cartes
d'entités. Le module d'attention permet au modèle de se concentrer dynamiquement sur certaines parties de l'entrée
qui contribuent à la tâche en cours, c'est un bon choix pour la segmentation sémantique de l'image.

3. Méthodologie
3.1. Le cadre proposé
Dans cette section, nous montrons la structure de notre projet Attention V-Net. Nous utilisons V-net, une
structure d'encodeur-décodeur, comme épine dorsale. La partie codeur est utilisée pour l'extraction de
caractéristiques et la partie décodeur peut restaurer la résolution de l'image. Les caractéristiques sont extraites depuis
les premiers stades de la partie codeur du V-Net jusqu'à la partie décodeur à l'aide de connexions horizontales. De
plus, nous appliquons la porte d'attention 3D que nous avons conçue sur la partie connexion pour utiliser
l'interdépendance entre les canaux pour apprendre les informations de poids spatial combinées avec la carte des
caractéristiques, et obtenir certaines régions structurelles avec une forte corrélation.

La structure principale est illustrée à la figure 1 . Le réseau se compose de quatre blocs codeurs et de quatre
blocs décodeurs, et les blocs codeurs et les blocs décodeurs sont connectés symétriquement par les connexions de
saut. Les paramètres de la couche neurale convolutive sont présentés dans le tableau 1 . L'ensemble du réseau est
divisé en différentes étapes selon différentes résolutions, et chaque étape comprend une à trois couches
convolutionnelles. Les parties d'échantillonnage supérieure et inférieure sont également modifiées de la mise en
commun à la convolution transposée. De plus, la structure d'ajout de connexions résiduelles à chaque étape est
conçue. La dernière couche de convolution est convertie en segmentation probabiliste des régions de premier plan et
d'arrière-plan via SoftMax.
Figure 1. Le cadre proposé.

Tableau 1. Les paramètres des couches neurales convolutionnelles.

De plus, inspiré des travaux antérieurs sur Attention U-Net [ 26], nous concevons un module d'attention
3D. Nous appliquons ce module à la partie saut de connexion basée sur le réseau V-Net standard. De plus, le cadre
modifié peut simuler l'interdépendance entre les canaux. Dans la tâche de segmentation d'image de cet article, tous
les états cachés sont importants, mais pas également importants. Le V-Net approfondit le réseau par des opérations
de convolution et de mutualisation. Enfin, les pixels séparés dans un espace de grande dimension auront des
informations sémantiques plus fortes. Nous avons besoin d'un module pour combiner les informations contextuelles
des couches adjacentes, puis utiliser ces informations pour guider le réseau afin d'apprendre les régions d'intérêt
dans la carte des caractéristiques. Dans ce cas, l'auto-attention est nécessaire pour ajuster dynamiquement
l'importance des différents états cachés. Par rapport à la stratégie robuste de Squeeze-Excitation [ 24] dans lequel
chaque canal de la feature map est multiplié par un coefficient de pondération, notre stratégie d'attention est plus
détaillée. La méthode proposée a un facteur d'ajustement unique pour chaque valeur de chaque canal dans la carte
des caractéristiques. De plus, la porte d'attention conçue peut apprendre les informations de poids spatial combinées
avec des cartes de caractéristiques, de sorte que la sortie ait des informations sémantiques plus fortes et moins
d'interférences sonores. En tant que contribution essentielle de notre article, nous l'expliquerons en détail dans la
section suivante.

3.2. Portes de l'attention


Inspirés par les travaux sur Attention U-Net [ 26 ], nous concevons une porte d'attention 3D pour le traitement de
données 3D, en la combinant avec le réseau V-Net standard. La porte d'attention 3D est appliquée avant chaque
niveau de connexion sautée, ce qui peut amener le réseau à accorder plus de poids aux caractéristiques associées à
la connexion sautée. Comme le montre la figure 2 , la porte d'attention 3D a deux entrées : l'une est la carte de
caractéristiques x transmise depuis la voie étendue via une connexion de saut, et l'autre est la carte de
caractéristiques g sortie par la couche neuronale précédente. x et g _sont envoyés à la convolution 1 × 1 × 1, les
transformant en le même nombre de canaux sans changer la taille. Après l'opération de suréchantillonnage pour
changer le nombre de canaux de la même manière, ils sont accumulés le long de la direction du canal et passés à
travers le ReLU. Ensuite, la sortie passe par une autre convolution 1 × 1 × 1 et une sigmoïde. Enfin, nous obtenons
un score de poids d'attention, des coefficients d'attention, 𝛼𝑖∈ [ 0 , 1 ]��∈0,1, qui peut identifier les éléments saillants
de l'image. La sortie de la porte d'attention 3D est la multiplication élément par élément des cartes de caractéristiques
d'entrée et des coefficients d'attention :𝑥̂ 𝑙𝑖 , 𝑐=𝑥𝑙𝑖 , 𝑐·𝛼𝑙𝑖�^�,��=��,��·���. Dans un paramètre par défaut, une
seule valeur d'attention scalaire est calculée pour chaque vecteur de pixel𝑥𝑙𝑖=𝑅𝐹𝑙���=���où𝐹𝑙��correspond au
nombre de feature-maps dans la couche l . Les informations de pondération peuvent être ajoutées à la carte des
caractéristiques d'entrée de cette couche pour éliminer l'influence d'informations non pertinentes dans la connexion de
saut. Comme le montre la figure 2 , la sortie de la porte d'attention 3D est connectée au codeur suivant via une
opération de concaténation pour intégrer des informations contextuelles,
où𝐶 =𝐶𝑥+𝐶𝑔�=��+��,𝐻=𝐻𝑥=𝐻𝑔�=��=��,𝑊=𝑊𝑥=𝑊𝑔�=��=��,𝐷 =𝐷𝑥=𝐷𝑔�=��=��. Par conséquent,
le module de porte d'attention 3D pourrait aider à obtenir de meilleures performances de segmentation.

Figure 2. Porte d'attention 3D.


Nous utilisons l'attention additive [ 27 ] pour obtenir le coefficient de pondération de l'attention, et l'attention
additive est formulée comme suit :

𝑞𝑙𝑎 𝑡 𝑡=𝜓𝑇(𝜎1(𝑊𝑇𝑥𝑥𝑙𝑖+𝑊𝑇𝑔𝑔𝑖+𝑏𝑔) )+𝑏𝜓𝛼𝑙𝑖=𝜎2(𝑞𝑙𝑎 𝑡 𝑡(𝑥𝑙𝑖,𝑔𝑖;Θ𝑎 𝑡 𝑡)


)�un��je=���1����jeje+����je+��+���jeje=�2�un��je�jeje,�je;�un��

(1)

où𝜎2(𝑥𝑖 , 𝑐) =11 + exp ( -𝑥𝑖 , 𝑐)�2�je,�=11+exp(−�je,�)correspondent à la fonction d'activation sigmoïde. La porte


d'attention 3D est caractérisée par un ensemble de paramètresΘ𝑎 𝑡 𝑡�un��contenant des transformations
linéaires𝑊𝑥∈𝑅𝐹𝑙×𝐹entier,𝑊𝑔∈𝑅𝐹𝑔×𝐹entier, 𝜑 ∈𝑅𝐹entier× 1��∈��je×�entier,��∈���×�entier,�∈��entier×1et termes
de biais𝑏𝜓∈ 𝑅 ,𝑏𝑔∈𝑅𝐹entier��∈�,��∈��entier. Les transformations linéaires sont calculées en utilisant la
convolution par canal pour les tenseurs d'entrée. En outre,𝑞𝑎 𝑡 𝑡�un��défini l'opération de transformation de deux
entrées x et g sous les paramètresΘ𝑎 𝑡 𝑡�un��.

4. Expériences et résultats
4.1. Ensembles de données et prétraitement
Pour évaluer la méthode proposée, nous appliquons notre algorithme sur l'ensemble de données de l'oreillette
gauche [ 28 ], qui se compose de 100 images de volume cardiaque 3D. Ils sont tous obtenus par GE-MRI (imagerie
par résonance magnétique assistée par gadolinium) de patients atteints de fibrillation auriculaire. La résolution
originale des données est625 × 625 × 625625×625×625mm3 . _ Pour comparer équitablement les avantages de la
structure améliorée, nous adoptons la même méthode de traitement des données que l'algorithme d'apprentissage
semi-supervisé DTC : 80 images sont utilisées pour l'apprentissage, dont 64 images étiquetées et 16 images non
étiquetées, et 20 images pour les tests. Pendant ce temps, nous utilisons la même méthode de prétraitement.

4.2. Détails de mise en œuvre et mesures d'évaluation


4.2.1. Détails d'implémentation
Dans cette partie, nous ferons une brève introduction de la mise en œuvre de l'Attention V-Net. Toutes les
expériences sont implémentées par la bibliothèque Pytorch [ 29 ]. De plus, Pytorch est un framework d'apprentissage
automatique open source qui accélère le passage du prototypage de recherche au déploiement de production, qui est
fourni par Facebook AI Research. Plus de détails peuvent être trouvés sur https://pytorch.org/ , (consulté le 20 mars
2021). Les expériences sont réalisées sur un ordinateur de laboratoire. Le système d'exploitation est Ubuntu
16.04. Les principaux packages requis incluent python 3.6.13, CUDA9.0, cudnn7.6.5, Pytorch0.4.1.

Dans ce travail, nous utilisons l'algorithme DTC comme référence, où le réseau V-Net est l'épine dorsale. Le V-
Net à double tâche est réalisé en ajoutant une nouvelle couche de régression à la fin du réseau V-Net d'origine. Le
cadre est formé par un optimiseur SGD pour 6 000 itérations, qui a un taux d'apprentissage initial (lr) de 0,01 diminué
de 0,1 toutes les 2 500 itérations. La taille du lot est de quatre, composé de deux images étiquetées et de deux
images non étiquetées, la valeur de k est fixée à 1500 dans ce travail. Nous recadrons au
hasard112 × 112 × 80112×112×80sous-volume comme entrée réseau. Pour éviter le surajustement, nous utilisons les
méthodes standard d'augmentation de données à la volée pendant la phase d'entraînement. Dans la phase
d'inférence, nous utilisons une stratégie de fenêtre glissante pour obtenir les résultats finaux, qui avec une foulée
de18 × 18 × 418×18×4pour l'oreillette gauche. Au moment de l'inférence, nous utilisons la sortie de la branche de
classification pixel par pixel comme résultat de segmentation.

4.2.2. Métriques d'évaluation


Nous utilisons des mesures de chevauchement et de distance de surface pour évaluer la segmentation, y
compris Dice, Jaccard, la distance de surface moyenne (ASD) et la distance de Hausdorff à 95 % (95HD).

(1) Coefficients de Dice et de Jaccard : étant donné deux masques de segmentation binaires, A et B , les
coefficients de Dice D et de Jaccard J sont définis comme suit :

𝐷 =| 𝐴∩𝐵 || 𝐴 | + | 𝐵 |, 𝐽=| 𝐴∩𝐵 || 𝐴∪𝐵 |�=UN∩�UN+�,�=UN∩�UN∪�

(2)

où| · |·donne la cardinalité (c'est-à-dire le nombre d'éléments non nuls) de chaque ensemble. Les valeurs
maximales et minimales (1,0 et 0,0, respectivement) pour les coefficients Dice et Jaccard se produisent lorsqu'il y a un
chevauchement de 100 % et 0 % entre les deux masques de segmentation binaire, respectivement.

(2) Distance de surface moyenne et distance de Hausdorff à 95 % : Soit,𝑆𝐴�UNet𝑆𝐵��, être des surfaces
(avec𝑁𝐴�UNet𝑁𝐵��points, respectivement) correspondant à deux masques de segmentation binaires,
respectivement A et B . La distance de surface moyenne (ASD) S est définie comme suit :
𝑆 =12(1𝑁𝐴∑𝑝 ∈𝑆𝐴𝑑 ( 𝑝 ,𝑆𝐵) +1𝑁𝐵∑𝑞 ∈𝑆𝐵𝑑 ( 𝑞 ,𝑆𝐴) )�=121�UN∑�∈�UN��,��+1��∑�∈����,�UN

(3)

De même, la distance de Hausdorff (HD) H est définie comme :

𝐻= maximum (maximum𝑝 ∈𝑆𝐴𝑑 ( 𝑝 ,𝑆𝐵) ,maximum𝑞 ∈𝑆𝐵𝑑 ( 𝑞 ,𝑆𝐴) )�=maximummaximum�∈�UN��,��,maximum�∈����,�


UN

(4)

𝑑 ( 𝑝 , 𝑆 ) =min𝑞 ∈ 𝑆𝑑 ( 𝑝 , 𝑞 )��,�=min�∈���,�

(5)

est la distance euclidienne minimale du point p aux points des points𝑞 ∈ 𝑆�∈�. Par conséquent, MSD calcule
la distance moyenne entre les deux surfaces, tandis que HD calcule la plus grande distance entre les deux surfaces
et est sensible aux valeurs aberrantes.

Quatre métriques de segmentation complémentaires sont introduites pour évaluer quantitativement les résultats
de la segmentation. Dice et Jaccard, deux mesures basées sur la région, sont utilisées pour mesurer l'inadéquation
de la région. La distance de surface moyenne (ASD) et la distance de Hausdorff à 95 % (95HD), deux mesures
basées sur les limites, sont utilisées pour évaluer les erreurs de limite entre les résultats de segmentation et la vérité
terrain.

4.3. Résultats et analyse


4.3.1. Comparaison avec d'autres méthodes semi-supervisées
Dans cet article, nous concevons un module d'attention et l'appliquons au réseau V-Net. Il peut utiliser
l'interdépendance entre les canaux pour apprendre les informations de pondération spatiale combinées à la carte des
caractéristiques et pour obtenir certaines régions structurelles avec une forte corrélation. La caractéristique finale de
chaque canal est la somme pondérée des caractéristiques filtrées par les corrélations entre les canaux et les
caractéristiques originales. La corrélation de caractéristiques des canaux simule la dépendance sémantique à
distance entre les caractéristiques. Cela aide à maintenir la relation entre les différentes cartes de caractéristiques de
canal, à élargir l'incohérence entre les catégories et à faire en sorte que les cartes de caractéristiques transmises par
la connexion de saut aient des informations sémantiques plus fortes.

Comme le montre le tableau 2 , sur l'ensemble de données de segmentation de l'oreillette gauche de 2018,
nous remplaçons le réseau fédérateur V-Net de l'algorithme DTC par Attention V-Net, en le comparant aux résultats
récurrents du cadre de base DTC. L'effet d'Attention V-Net est 0,56 % supérieur sur Dice, 0,74 % supérieur sur
Jaccard, 0,16 voxel supérieur sur ASD et 0,32 voxel supérieur sur 95HD. Notre méthode surpasse tous les autres
réseaux semi-supervisés à la fois dans Dice (89,08%) et Jaccard (80,48%), et obtient des résultats compétitifs sur
d'autres métriques. Nous comparons notre cadre avec quatre méthodes de segmentation semi-supervisée, y compris
l'approche de minimisation de l'entropie (Entropy Mini) [ 30 ], le modèle d'enseignant moyen conscient de l'incertitude
(UA-MT) [ 11 ], le réseau accusatoire conscient de la forme (SASSNet) [ 12], et le modèle de cohérence à double
tâche (DTC). Veuillez noter que nous utilisons le code officiel et les résultats d'Entropy Mini et UA-MT, et
réimplémentons le SASSnet et le DTC pour la segmentation de l'oreillette gauche. Le tableau 2 montre la
comparaison quantitative de ces méthodes. On peut constater que notre méthode atteint la meilleure précision que
les autres méthodes de segmentation semi-supervisée sur toutes les métriques d'évaluation. Il montre que notre
structure peut améliorer la similarité régionale des résultats de segmentation cardiaque, et a également une
amélioration significative de la précision de la frontière. Ainsi, nos expériences peuvent prouver que notre mécanisme
d'attention peut améliorer la précision de la segmentation du modèle et contribuer à améliorer les performances de la
segmentation de l'oreillette gauche.

Tableau 2. Comparaison avec d'autres méthodes semi-supervisées.

4.3.2. Visualisation
Le modèle d'attention peut traiter une grande quantité d'informations de données et générer des informations de
probabilité de poids. Les informations de poids peuvent refléter les différents degrés d'importance des régions locales,
afin de permettre au réseau de se concentrer sur les régions qui sont d'une grande importance et plus intéressantes
pour nous. L'Attention V-Net dans cet article peut utiliser l'interdépendance entre les mappages de canaux pour
mettre l'accent sur le mappage de caractéristiques interdépendantes et améliorer la représentation des
caractéristiques d'une sémantique spécifique. Par conséquent, le modèle accorde plus d'attention aux
caractéristiques saillantes qui sont significatives pour des tâches spécifiques, tout en supprimant toutes les parties
insignifiantes. Enfin, l'Attention V-Net joue un rôle dans l'amélioration de la capacité de représentation des
caractéristiques de l'image.

Nous utilisons le modèle Attention V-Net basé sur DTC pour segmenter au hasard quatre données 3D dans
l'ensemble de données de test et reconstruire l'image de l'oreillette gauche. La figure 3 est l'image reconstruite de la
vérité terrain et de la prédiction. Comparaison de la visualisation 2D de la Figure 3 (1) et de la visualisation 3D de
la Figure 3(2), on peut voir que le résultat de prédiction global du modèle Attention V-Net est très proche de
l'annotation manuelle. En revanche, DTC manque souvent la zone interne de l'objet cible, ce qui entraîne des formes
irrégulières, tandis que le modèle avec le mécanisme d'attention supplémentaire peut mieux simuler les résultats de
segmentation de l'oreillette gauche, améliorant la précision de l'intégrité de la zone interne et de la frontière . Par
rapport à d'autres méthodes, nos résultats ont un taux de chevauchement plus élevé avec la vérité terrain, produisent
moins de faux positifs et conservent plus de détails, ce qui indique en outre l'efficacité, la généralisation et la
robustesse de notre méthode proposée. La représentation 3D de notre structure est plus proche du modèle réel de
l'oreillette gauche, mais il existe encore des écarts dans les détails et ne peut pas être complètement cohérent avec la
forme réelle.
Figure 3. Visualisation 2D et 3D de la segmentation par DTC [ 9 ] et notre méthode, où GT désigne la segmentation
vérité terrain.

5. Discussion et conclusions
Dans cet article, nous proposons un réseau de neurones entièrement convolutif basé sur le mécanisme de
l'attention, qui peut être utilisé pour des tâches de segmentation d'images médicales 3D. En comparaison avec
d'autres réseaux de segmentation sémantique de bout en bout, le réseau proposé peut apprendre de manière
adaptative à mettre en évidence les caractéristiques saillantes de l'image qui sont utiles pour la tâche, en concevant
un nouveau module d'attention 3D. Le réseau apprend également les pondérations d'attention et les concatène à
chaque couche de la partie saut de connexion du V-Net, ce qui améliore encore la précision. Pendant ce temps, il
peut également traiter les données d'image 3D, en utilisant les informations entre les séquences 3D d'images
médicales de manière synthétique.

Nous l'appliquons au cadre de segmentation de l'oreillette gauche basé sur l'apprentissage semi-supervisé, et
nous l'évaluons sur l'ensemble de données du défi de l'oreillette gauche de 2018. Les résultats expérimentaux
montrent que, par rapport à l'algorithme original, les indices de performance tels que Dice, Jaccard, ASD et 95HD
sont améliorés. De plus, par rapport à l'algorithme de segmentation semi-supervisée avancé actuel, les résultats
expérimentaux montrent que notre projet Attention V-Net peut améliorer la précision de la segmentation des images
médicales, ce qui est d'une grande importance pour le diagnostic et le traitement cliniques. L'augmentation
substantielle de la précision de la segmentation s'accompagne d'une augmentation négligeable de la complexité du
modèle. Par conséquent, notre module de porte d'attention 3D proposé peut être étendu à d'autres tâches de
segmentation d'organes médicaux 3D (par exemple, structure cérébrale ou segmentation tumorale) pour booster les
performances. Nous pensons que notre modèle peut être un élément crucial pour les réseaux de neurones dans de
nombreuses applications médicales.

Dans les futures recherches liées à l'analyse d'images médicales, nous pourrions accorder plus d'attention à
l'apprentissage adaptatif des caractéristiques et à la fusion des caractéristiques multi-échelles. Il peut obtenir de
meilleurs résultats de fonctionnalités et de meilleures performances expérimentales, fournissant une base fiable pour
le diagnostic clinique et la recherche en pathologie.

Contributions d'auteur
Conceptualisation, XL et JY ; méthodologie, RY; logiciel, XL; validation, XL et RY ; analyse formelle,
JY ; enquête, RY; rédaction—préparation du brouillon original, XL ; rédaction—révision et édition, JY; visualisation,
RY ; administration du projet, JY Tous les auteurs ont lu et accepté la version publiée du manuscrit.

Financement
Ce travail a été soutenu en partie par la National Natural Science Foundation of China (Grant No. 62173045,
61673192), et en partie par les Fundamental Research Funds for the Central Universities (Grant No. 2020XD-A04-2),
et partiellement soutenu par BUPT Excellent doctorat Fondation des étudiants (CX2021314).

Déclaration du comité d'examen institutionnel


N'est pas applicable.

Déclaration de consentement éclairé


Le consentement éclairé a été obtenu de tous les sujets impliqués dans l'étude.

Déclaration de disponibilité des données


Notre méthode est évaluée sur le jeu de données du challenge auriculaire gauche de 2018.

Les conflits d'intérêts


Aucun avantage sous quelque forme que ce soit n'a été ou ne sera reçu d'une partie commerciale liée
directement ou indirectement au sujet de ce manuscrit.

Les références
1. Narayan, SM; Rodrigo, M.; Kowalewski, Californie ; Shenasa, F.; Meckler, GL; Vishwanathan, MN ; Baykaner, T.; Zaman,
JAB ; Paul, J.; Wang, PJ Ablation des impulsions focales et des sources de rotation : ce que l'on peut apprendre des différents
résultats procéduraux. Courant. Cardiovasculaire. Risk Rep. 2017 , 11 , 27. [ Google Scholar ] [ CrossRef ]
2. Hansen, BJ; Zhao, J.; Csepe, TA ; Moore, BT ; Li, N.; Jayne, LA ; Kalyanasundaram, A.; Mous.; Bratasz, A.; Powell, KA; et
coll. Fibrillation auriculaire entraînée par une rentrée intramurale micro-anatomique révélée par une cartographie optique sous-
épicardique et sous-endocardique simultanée dans des cœurs humains explantés. EUR. Heart J. 2015 , 36 , 2390–2401. [ Google
Scholar ] [ CrossRef ] [ PubMed ][ Version verte ]
3. Njoku, A.; Kannabhiran, M.; Arora, R.; Reddy, P.; Gopinathannair, R.; Lakkireddy, D.; Dominic, P. Le volume auriculaire gauche
prédit la récurrence de la fibrillation auriculaire après ablation par radiofréquence : une méta-analyse. PE Eur. 2017 , 20 , 33–
42. [ Google Scholar ] [ CrossRef ] [ PubMed ]
4. Higuchi, K.; Cates, J.; Gardner, G.; Morris, A.; Burgon, N.-É.; Akoum, N.; Marrouche, NF La distribution spatiale du
rehaussement tardif au gadolinium de l'IRM auriculaire gauche chez les patients atteints de fibrillation auriculaire. JACC
Clin. Électrophysiol. 2017 , 4 , 49–58. [ Google Scholar ] [ CrossRef ] [ PubMed ]
5. Ciresan, D.; Giusti, A.; Gambardelle, LM ; Schmidhuber, J. Les réseaux de neurones profonds segmentent les membranes
neuronales dans les images de microscopie électronique. Adv. Information neuronale. Processus. Syst. 2012 , 25 , 1–9. [ Google
Scholar ]
6. Long, J. ; Shelhamer, E.; Darrell, T. Réseaux entièrement convolutionnels pour la segmentation sémantique. Dans Actes de la
conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, Boston, MA, États-Unis, 7-12 juin 2015 ; pages
3431–3440. [ Google Scholar ]
7. Ronneberger, O.; Fischer, P.; Brox, T. U-net : Réseaux convolutifs pour la segmentation d'images biomédicales. Dans Actes de la
Conférence internationale sur l'imagerie médicale et l'intervention assistée par ordinateur, Munich, Allemagne, 5-9 octobre
2015 ; p. 234–241. [ Google Scholar ]
8. Milletari, F.; Navab, N.; Ahmadi, SA V-net : Réseaux de neurones entièrement convolutifs pour la segmentation volumétrique
d'images médicales. Dans Actes de la quatrième conférence internationale 2016 sur la vision 3D (3DV), Stanford, Californie,
États-Unis, 25-28 octobre 2016 ; p. 565–571. [ Google Scholar ]
9. Lui, K.; Zhang, X.; Ren, S.; Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence
IEEE sur la vision par ordinateur et la reconnaissance de formes, Las Vegas, NV, États-Unis, 26 juin-1er juillet 2016 ; pp. 770–
778. [ Google Scholar ]
10. Li, X.; Yu, L.; Chen, H.; Fu, CW ; Heng, PA Segmentation semi-supervisée des lésions cutanées via un modèle d'auto-assemblage
cohérent par transformation. arXiv 2018 , arXiv:1808.03887. [ Google Scholar ]
11. Yu, L.; Wang, S.; Li, X.; Fu, C.-W.; Heng, P.-A. Modèle d'auto-assemblage conscient de l'incertitude pour la segmentation semi-
supervisée de l'oreillette gauche en 3D. Dans Actes de la Conférence internationale sur l'informatique d'imagerie médicale pour
l'intervention assistée par ordinateur, Shenzhen, Chine, 13-17 octobre 2019. [ Google Scholar ]
12. Li, S.; Zhang, C.; He, X. Segmentation sémantique 3D semi-supervisée sensible à la forme pour les images médicales. Dans Actes
de la Conférence internationale sur l'informatique d'imagerie médicale pour l'intervention assistée par ordinateur, Lima, Pérou, 4-8
octobre 2020 ; pages 552–561. [ Google Scholar ]
13. Luo, X.; Chen, J.; Chanson, T. ; Wang, G. Segmentation d'images médicales semi-supervisée grâce à la cohérence de la double
tâche. arXiv 2020 , arXiv:2009.04448. [ Google Scholar ]
14. Xia, Q.; Yao, Y.; Hu, Z.; Hao, A. Segmentation auriculaire 3D automatique à partir d'IRM-GE utilisant des réseaux volumétriques
entièrement convolutifs. Dans Actes de l'atelier international sur les atlas statistiques et les modèles informatiques du cœur,
Grenade, Espagne, 16 septembre 2018 ; p. 211–220. [ Google Scholar ]
15. Isensee, F.; Jäger, PF; Kohl, SA; Petersen, J.; Maier-Hein, KH Conception automatisée de méthodes d'apprentissage profond pour
la segmentation d'images biomédicales. arXiv 2019 , arXiv:1904.08128. [ Google Scholar ]
16. Ahmad, I.; Hussain, F.; Khan, SA ; Akram, U. ; Jeon, G. Segmentation entièrement automatique du ventricule cardiaque gauche et
de l'oreillette gauche basée sur le CPS en IRM 3D. J. Intel. Système flou 2019 , 36 , 4153–4164. [ Google Scholar ] [ CrossRef ]
17. Laine, S.; Aila, T. Assemblage temporel pour l'apprentissage semi-supervisé. arXiv 2016 , arXiv:1610.02242. [ Google Scholar ]
18. Tarvainen, A.; Valpola, H. Les enseignants moyens sont de meilleurs modèles : les objectifs de cohérence pondérés améliorent les
résultats d'apprentissage en profondeur semi-supervisé. Adv. Information neuronale. Processus. Syst. 2017 , 30 , 1–10. [ Google
Scholar ]
19. Anderson, P.; Lui, X. ; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; Zhang, L. Attention ascendante et descendante pour le
sous-titrage des images et la réponse visuelle aux questions. Dans Actes de la conférence IEEE sur la vision par ordinateur et la
reconnaissance de formes, Salt Lake City, UT, États-Unis, 18-22 juin 2018 ; pages 6077–6086. [ Google Scholar ]
20. Banerjee, S.; Lyu, J.; Huang, Z.; Leung, HFF ; Lee, TT-Y. ; Yang, D.; Su, S.; Zheng, Y.; Ling, S.-H. Light-Convolution Dense
Selection U-Net (LDS U-Net) pour la segmentation des caractéristiques osseuses latérales par ultrasons. Appl. Sci. 2021 , 11 ,
180. [ Google Scholar ] [ CrossRef ]
21. Xiao, TJ; Xu, YC; Yang, KY; Zhang, JX; Peng, YX; Zhang, Z. L'application de modèles d'attention à deux niveaux dans un
réseau de neurones à convolution profonde pour la classification d'images à grain fin. Dans Actes de la conférence IEEE 2015 sur
la vision par ordinateur et la reconnaissance de formes, Boston, MA, États-Unis, 7-12 juin 2015 ; pp. 842–850. [ Google Scholar ]
22. Mnih, V.; Heess, N.; Graves, A. Modèles récurrents d'attention visuelle. Adv. Information neuronale. Processus. Syst. 2014 , 27 ,
1–9. [ Google Scholar ]
23. Jaderberg, M.; Simonyan, K.; Zisserman, A.; Kavukcuoglu, K. Réseaux de transformateurs spatiaux. Adv. Information
neuronale. Processus. Syst. 2015 , 28 , 1–9. [ Google Scholar ]
24. Hu, J.; Shen, L.; Sun, G. Réseaux de compression et d'excitation. Dans Actes de la conférence IEEE sur la vision par ordinateur et
la reconnaissance de formes, Salt Lake City, UT, États-Unis, 18-22 juin 2018 ; pages 7132–7141. [ Google Scholar ]
25. Xu, K.; Ba, J.; Kiros, R.; Cho, K.; Courville, A.; Salakhudinov, R.; Zemel, R.; Bengio, Y. Montrer, assister et raconter :
Génération de légendes d'images neurales avec attention visuelle. Dans Actes de la Conférence internationale sur l'apprentissage
automatique, Lille, France, 6-11 juillet 2015 ; pp. 2048–2057. [ Google Scholar ]
26. Oktay, O.; Schlemper, J.; Folgoc, LL; Lee, M.; Heinrich, M.; Misawa, K.; Mori, K.; McDonagh, S.; Hammerla, NY; Kainz, B.; et
coll. Attention u-net : Apprendre où chercher le pancréas. arXiv 2018 , arXiv:1804.03999. [ Google Scholar ]
27. Bahdanau, D.; Cho, K.; Bengio, Y. Traduction automatique neurale en apprenant conjointement à aligner et à
traduire. arXiv 2014 , arXiv:1409.0473. [ Google Scholar ]
28. Xiong, Z.; Xia, Q.; Hu, Z.; Huang, N.; Bian, C.; Zheng, Y.; Vesal, S.; Ravikumar, N.; Maier, A.; Yang, X.; et coll. Une référence
mondiale d'algorithmes pour segmenter l'imagerie par résonance magnétique cardiaque tardive améliorée au
gadolinium. Méd. Image anale. 2020 , 67 , 101832. [ Google Scholar ] [ CrossRef ] [ PubMed ]
29. Paszke, A.; Gross, S.; Massa, F.; Lerer, A.; Bradbury, J.; Chanan, G.; Killeen, T.; Lin, Z.; Gimelshein, N.; Antiga, L.; et
coll. Pytorch : une bibliothèque d'apprentissage en profondeur hautes performances de style impératif. Adv. Information
neuronale. Processus. Syst. 2019 , 32 , 1–12. [ Google Scholar ]
30. Vu, T.-H. ; Jain, H.; Bucher, M.; Cord, M. Advent : Minimisation de l'entropie contradictoire pour l'adaptation de domaine dans la
segmentation sémantique. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes,
Long Beach, Californie, États-Unis, 16-20 juin 2019 ; pp. 2517–2526. [ Google Scholar ]
31. Note de l'éditeur : MDPI reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations
institutionnelles.

© 2022 par les auteurs. Licencié MDPI, Bâle, Suisse. Cet article est un article en libre accès distribué selon les termes
et conditions de la licence Creative Commons Attribution (CC BY) ( https://creativecommons.org/licenses/by/4.0/ ).

Partager et citer
Style MDPI et ACS

Liu, X.; Yin, R.; Yin, J. Attention V-Net : une architecture V-Net modifiée pour la segmentation auriculaire
gauche. Appl. Sci. 2022 , 12 , 3764. https://doi.org/10.3390/app12083764
Style AMA

Liu X, Yin R, Yin J. Attention V-Net : Une architecture V-Net modifiée pour la segmentation auriculaire gauche. Sciences
Appliquées . 2022 ; 12(8):3764. https://doi.org/10.3390/app12083764
Style Chicago/Turabian

Liu, Xiaoli, Ruoqi Yin et Jianqin Yin. 2022. "Attention V-Net : une architecture V-Net modifiée pour la segmentation auriculaire
gauche" Sciences appliquées 12, no. 8 : 3764. https://doi.org/10.3390/app12083764
Abstrait

Nous proposons un réseau de neurones entièrement convolutif basé sur le mécanisme d'attention pour les tâches de
segmentation d'images médicales 3D. Il peut apprendre de manière adaptative à mettre en évidence les
caractéristiques saillantes des images qui sont utiles pour les tâches de segmentation d'images. Certaines méthodes
antérieures améliorent la précision en utilisant la fusion de caractéristiques à plusieurs échelles ou la convolution
dilatée, qui est fondamentalement artificielle et n'a pas la flexibilité du modèle lui-même. Par conséquent, certains
travaux ont proposé le module de porte d'attention 2D, mais ces travaux traitent des images de tranches médicales
2D, ignorant la corrélation entre les séquences d'images 3D. En revanche, la porte d'attention 3D peut utiliser de
manière exhaustive les informations des trois dimensions des images médicales. Dans cet article, nous proposons
l'architecture Attention V-Net, qui utilise le module 3D attention gate, et l'a appliqué au cadre de segmentation de
l'oreillette gauche basé sur l'apprentissage semi-supervisé. La méthode proposée est évaluée sur l'ensemble de
données du défi auriculaire gauche de 2018. Les résultats expérimentaux montrent que l'Attention V-Net obtient des
performances améliorées sous des indicateurs d'évaluation, tels que Dice, Jaccard, ASD (distance de surface
moyenne) et 95HD (distance de Hausdorff). Le résultat indique que le modèle de cet article peut améliorer
efficacement la précision de la segmentation auriculaire gauche, jetant ainsi les bases de travaux ultérieurs tels que
la reconstruction auriculaire. Pendant ce temps, notre modèle est d'une grande importance pour aider les médecins
à traiter les maladies cardiovasculaires. Les résultats expérimentaux montrent que l'Attention V-Net obtient des
performances améliorées sous des indicateurs d'évaluation, tels que Dice, Jaccard, ASD (distance de surface
moyenne) et 95HD (distance de Hausdorff). Le résultat indique que le modèle de cet article peut améliorer
efficacement la précision de la segmentation auriculaire gauche, jetant ainsi les bases de travaux ultérieurs tels que
la reconstruction auriculaire. Pendant ce temps, notre modèle est d'une grande importance pour aider les médecins
à traiter les maladies cardiovasculaires. Les résultats expérimentaux montrent que l'Attention V-Net obtient des
performances améliorées sous des indicateurs d'évaluation, tels que Dice, Jaccard, ASD (distance de surface
moyenne) et 95HD (distance de Hausdorff). Le résultat indique que le modèle de cet article peut améliorer
efficacement la précision de la segmentation auriculaire gauche, jetant ainsi les bases de travaux ultérieurs tels que
la reconstruction auriculaire. Pendant ce temps, notre modèle est d'une grande importance pour aider les médecins
à traiter les maladies cardiovasculaires.
Mots clés:

image médicale 3D ; mécanisme attentionnel ; apprentissage semi-supervisé ; segmentation auriculaire


gauche
Abstract
We propose a fully convolutional neural network based on the attention mechanism for 3D medical image
segmentation tasks. It can adaptively learn to highlight the salient features of images that are useful for image
segmentation tasks. Some prior methods enhance accuracy using multi-scale feature fusion or dilated convolution,
which is basically artificial and lacks the flexibility of the model itself. Therefore, some works proposed the 2D attention
gate module, but these works process 2D medical slice images, ignoring the correlation between 3D image
sequences. In contrast, the 3D attention gate can comprehensively use the information of three dimensions of medical
images. In this paper, we propose the Attention V-Net architecture, which uses the 3D attention gate module, and
applied it to the left atrium segmentation framework based on semi-supervised learning. The proposed method is
evaluated on the dataset of the 2018 left atrial challenge. The experimental results show that the Attention V-Net
obtains improved performance under evaluation indicators, such as Dice, Jaccard, ASD (Average surface distance),
and 95HD (Hausdorff distance). The result indicates that the model in this paper can effectively improve the accuracy
of left atrial segmentation, therefore laying the foundation for subsequent work such as in atrial reconstruction.
Meanwhile, our model is of great significance for assisting doctors in treating cardiovascular diseases.

Keywords:

3D medical image; attention mechanism; semi-supervised learning; left atrial segmentation

1. Introduction
Cardiovascular diseases have become an important factor affecting human life and health [1,2]. In recent years,
cardiac interventional therapy, as an advanced diagnosis and treatment method between internal and surgical
procedures, has been widely used to cure cardiovascular diseases [3,4]. Among them, atrial septal puncture location
surgery is the key to the success of interventional treatment of cardiovascular disease. How to accurately locate the
puncture point to quickly puncture the atrial septum is the key to successful surgery. However, due to the lack of
accurate and reliable 3D imaging feedback, atrial septal puncture location is still a challenging process, which requires
doctors to have a great deal of experience. Left atrial segmentation is of great significance for doctors to quickly and
accurately locate the atrial septal puncture position, and to better complete interventional surgery.

In recent years, algorithms based on deep learning technology, especially convolutional neural networks (CNNs),
have made great breakthroughs in left atrial image processing tasks. Ciresan et al. [5] first introduced CNN into
medical image segmentation, using a sliding window to fetch the local area around the pixel to train the network.
However, this strategy only uses high-level features, and does not make full use of features with more marginal
information. Furthermore, it is very slow because of the great quantity of training data. Later, Shelhamer et al. [6]
proposed FCN (Full convolutional network), for image semantic segmentation, extending the classification from image
level to pixel level. However, these methods did not fully consider the relationship between pixels, and ignored the
spatial regularization steps used in the common segmentation methods, resulting in a lack of spatial consistency.
Therefore, the results obtained are not detailed enough. Then, Ronneberger et al. [7] proposed U-Net, which has both
a contraction path that captures context information and a symmetric expansion path that allows precise positioning.
Meanwhile, it can be trained based on FCN with a small number of images end-to end. Despite the popularity of
previous approaches, they usually can only process 2D images. Unfortunately, most clinically applied cardiology data
consists of 3D volumes. Therefore, Milletari et al. [8] recently proposed V-Net, an FCN based on 3D images. The
dataset used by the author is made up of 3D medical images, which is different from the common 2D data. Operations
such as convolution in the V-Net network structure also use 3D processing mode, in which a residual function inspired
by [9] is also learned, which ensures convergence in less training time and obtains good segmentation accuracy.

In addition, in view of the scarcity of labeled left atrial image data, many methods were proposed in recent years
to develop high-performance left atrial segmentation models to reduce labeled data. Among them, the semi-
supervised learning framework has achieved many successful results, which can directly learn from limited labeled
data and a large amount of unlabeled data to obtain high quality segmentation results. These methods can be roughly
divided into two categories: regularization based on data perturbation or model perturbation [10,11] and consistency
constraints based on multi-task level [12,13]. Most of them take V-Net as the backbone network of the algorithm, and
the skip connection structure of V-Net model improves the shortcomings of FCN, such as not considering global
context information and insufficient segmentation. However, the hierarchical convolution structure in a V-Net encoder-
decoder neglects the local region features of the segmentation target to some extent, which may lead to the
misclassification of the target and other objects. The attention mechanism method can enable the network to focus on
the local region of the feature map. This motivates us to seek a suitable framework to adaptively learn the regions of
interest in the input object, highlighting the structural features that are meaningful to the task, and thus improving the
accuracy of the model prediction.

Based on V-Net model and attention mechanism, this paper designs a segmentation algorithm for left atrial MR
images which are mostly 3D data formats, different from classic algorithms such as FCN, U-Net, and other networks.
The proposed method can use the interdependence between channel mappings, to emphasize the interdependent
feature mapping, and improve the feature representation of specific semantics. Therefore, the model pays more
attention to the salient features that are meaningful for specific tasks. The results demonstrate that our method
achieves significant improvements in left atrial segmentation.

In summary, this paper mainly makes the following contributions to the problem of how to make the network
adaptively focus on the region of interest in the feature map:

(1) We propose a 3D left atrium segmentation model based on the attention mechanism, Attention V-Net, to
simulate the interdependence between channels. In contrast to the previous 2D segmentation models, it can fully use
the information between the 3D sequences of medical images. It can adaptively learn to highlight the salient features
that are useful for tasks in the image, thus effectively enhancing the ability of feature expression.

(2) The proposed algorithm is applied to the semi-supervised framework of left atrium segmentation. The
experimental results show that compared with the baseline, the proposed method obtains improved performance in
terms of Dice, Jaccard, ASD, and 95HD, and also outperforms other state-of-the-art semi-supervised methods.

The rest of the paper is organized as follows. A brief review of the related works in left atrial segmentation and
attention mechanism is given in Section 2. The architectures of the proposed Attention V-Net model is presented
in Section 3. We present the experimental settings and the corresponding results in Section 4. Finally, we conclude
this paper in Section 5.

2. Related Work
2.1. Left Atrial Segmentation
2.1.1. Supervised Segmentation
In 2015, a full convolution semantic segmentation network [6] achieved excellent segmentation results, laying the
foundation for the application of deep learning in image segmentation. In recent years, many end-to-end segmentation
techniques were developed in the field of medical imaging, and some early atrial segmentation algorithms [14,15,16],
based on supervised learning, have shown good results. For example, the champion of the 2018 MICCAI Left Atrium
Segmentation Challenge proposed a segmented network with two V-Nets [14]. The first is used to roughly locate the
atrial center, it crops out a fixed size area according to the prediction results, the second network finely divides the
parts cropped in the previous stage. F Isensee et al. [15] proposed a robust adaptive framework, nnU-Met, based on
2D U-Net and 3D U-Net. It replaces the complex process of artificial optimization using a systematic approach based
on explicit and interpretable heuristic rules. It can perform plug-and-play on a variety of datasets and achieve the
same effect of the state-of-the-art methods. Ahmad et al. [16] proposed a method to segment the left atrium and left
ventricle simultaneously on the 3D MRI data of the heart. This method uses the traditional neighborhood-based
method to track and superimpose the upper and lower slices. Then, it reconstructs the 3D model of the segmented left
atrium and left ventricle according to the 2D format. These methods can improve the segmentation accuracy of atrial
structure to a certain extent, but it is still difficult to solve the actual situation of medical image data with few labels and
small samples. Therefore, the recent development of semi-supervised learning has resulted in changes to atrial
segmentation algorithms.

2.1.2. Semi-Supervised Segmentation


The training of deep neural network needs a large amount of annotated data, which can only be generated by
experienced doctors, and the cost is high. To solve this problem, some methods based on semi-supervised learning
framework [10,11,12,13] recently achieved successful results. The semi-supervised learning framework can directly
learn from a limited number of labeled data and a large number of unlabeled data to obtain high quality segmentation
results. These methods can be roughly divided into two categories: regularization based on data perturbation or model
perturbation [10,11], and consistency constraints based on multi-task framework [12,13].

Regularization Based Methods


Similar to [17], Li and Yu [10] proposed a method to regularize the model by adding perturbation to the input
data. An iterative model needs to propagate forward twice, the input is the unchanged image and the changed image,
respectively. Then the results of the changed image are inverted transformed to build the consistency loss of the two
predicted results. The idea is simple, but it works well. Yu and Wang [11] designed the uncertainty perception strategy
on the basis of Mean Teacher [18], and they adopted the consistency loss function to improve the performance of the
student model. The model perturbation regularization is realized by adding different perturbations to the teacher model
and the student model, such as adding noise to the input or adding dropout to the network. This adds some extra
computing overhead, but you obtain a performance boost.

Multi-Task Frameworks
Li, Zhang, and He [12] adopted a multi-task network structure to segment the image and perform the signed
distance graph regression at the same time, and the network uses the discriminator as the regularization term. This
design can make the prediction distribution of the whole unlabeled data set smooth. Meanwhile, it can introduce
strong shape and position as prior information to ensure the stability and robustness of the segmentation results. The
dual-task consistency algorithm [13] establishes the prediction disturbance between different tasks. The output of
different task branches should be transformed into the same predefined space, and the consistency regularization
between the two prediction mappings is explicitly performed. It establishes a task-level regularization which is
completely different from the previous data-level regularization. The model is simple, and the calculation cost is not
large.

2.2. Attention Model


The Attention mechanism can retrieve the key features through the convolutional layer of the network to output
relevant weights. Generally, Sigmoid or SoftMax are used to calculate weights to identify the important features. It can
be applied to any sequence model [19,20]. There are two types of attention mechanisms: soft attention [21] and hard
attention [22]. Soft attention pays more attention to regions [23] or channels [24]. For example, ref. [23] proposes a
module called spatial transformer, which can carry out corresponding spatial transformation of spatial domain
information in images, so as to extract key information. The most important thing is that soft attention is differentiable.
It can optimize the parameters through backward propagation optimization in the model training process, learning to
obtain the weight of attention. Hard attention differs from soft attention in that it pays more attention to points.
Meanwhile, hard attention is a random prediction process, which does not use all hidden layer states, but extracts
information from a certain area in the form of a one-hot. Monte Carlo sampling is needed to estimate the gradient
because the backward propagation cannot be performed directly in this way. The key point is that hard attention is not
differentiable, and the training process is usually completed through reinforcement learning. In recent years, the
attention mechanism can be explained intuitively by using the human visual mechanism. For example, our visual
system tends to pay attention to part of the information that assists judgment in the image and ignore irrelevant
information [25]. Similarly, in problems involving language or vision, some parts of the input may be more helpful to
the decision than others. Our goal is to be able to help the decoder have a reference of the weights of different inputs
when generating feature maps. The attention module allows the model to dynamically focus on certain parts of the
input that contribute to the current task, it is a good choice for semantic segmentation of image.

3. Methodology
3.1. The Proposed Framework
In this section, we show the structure of our proposed Attention V-Net. We use V-net, an encoder-decoder
structure, as the backbone. The encoder part is used for feature extraction and the decoder part can restore the image
resolution. The features are extracted from the early stages of the encoder part of the V-Net to the decoder part using
horizontal connections. Furthermore, we apply the 3D attention gate we designed on the connection part to use the
interdependence between channels to learn the spatial weight information combined with the feature map, and obtain
some structural regions with strong correlation.

The main structure is shown in Figure 1. The network consists of four encoder blocks and four decoder blocks,
and the encoder blocks and the decoder blocks are connected symmetrically by the skip-connections. The parameters
of the convolutional neural layer are shown in Table 1. The entire network is divided into different stages according to
different resolutions, and each stage includes one to three convolutional layers. The upper and lower sampling parts is
also changed from pooling to transposed convolution. In addition, the structure of adding residual connections at each
stage is designed. The last convolution layer is converted into probabilistic segmentation of foreground and
background regions through SoftMax.
Figure 1. The proposed framework.

Table 1. The parameters of the convolutional neural layers.

In addition, inspired by the previous work on Attention U-Net [26], we design a 3D attention module. We apply
this module to the skip-connection part based on the standard V-Net network. Furthermore, the modified framework
can simulate the interdependence between channels. In the image segmentation task of this paper, all hidden states
are important, but not equally important. The V-Net deepens the network through convolution and pooling operations.
Finally, the separated pixels in high-dimensional space will have stronger semantic information. We need a module to
combine the contextual information of adjacent layers, and then use this information to guide the network to learn the
regions of interest in the feature map. In this case, self-attention is needed to dynamically adjust the importance of
different hidden states. Compared with the rugged strategy of Squeeze-Excitation [24] in which each channel of the
feature map is multiplied by a weight coefficient, our attention strategy is more detailed. The proposed method has a
unique adjustment factor for each value of each channel in the feature map. Furthermore, the designed attention gate
can learn the spatial weight information combined with feature maps, so that the output has stronger semantic
information and less noise interference. As the core contribution of our paper, we will explain it in detail in the next
section.

3.2. Attention Gates


Inspired by the work on Attention U-Net [26], we design a 3D attention gate for 3D data processing, combining it
with the standard V-Net network. The 3D attention gate is applied before each level of skip-connection, which can
make the network to put more weight on the characteristics associated with skip-connection. As shown in Figure 2,
the 3D attention gate has two inputs: one is the feature map x transmitted from the extended pathway through a skip-
connection, and the other is the feature map g output by the previous neural layer. Both x and g are sent to the 1 × 1 ×
1 convolution, turning them into the same number of channels without changing the size. After the upsampling
operation to change the number of channels the same, they are accumulated along the direction of the channel and
passed through the ReLU. Then, the output through another 1 × 1 × 1 convolution and a sigmoid. Finally, we obtain an
attention weight score, attention coefficients, 𝛼𝑖∈[0,1]��∈0,1, which can identify the salient features in the image.
The output of the 3D attention gate is the element-wise multiplication of input feature-maps and attention
coefficients: 𝑥̂ 𝑙𝑖,=𝑥𝑙𝑖,𝑐·𝛼𝑙𝑖�^�,��=��,��·���. In a default setting, a single scalar attention value is computed
for each pixel vector 𝑥𝑙𝑖=𝑅𝐹𝑙���=��� where 𝐹𝑙�� corresponds to the number of feature-maps in layer l. The
weight information can be added to the input feature map of this layer to eliminate the influence of irrelevant
information in the skip-connection. As shown in Figure 2, the output of the 3D attention gate is connected to the next
encoder through concatenate operation to integrate contextual information,
where 𝐶=𝐶𝑥+𝐶𝑔�=��+��, 𝐻=𝐻𝑥=𝐻𝑔�=��=��, 𝑊=𝑊𝑥=𝑊𝑔�=��=��, 𝐷=𝐷𝑥=𝐷𝑔�=��=��. Therefore,
the 3D attention gate module could help to achieve better segmentation performance.
Figure 2. 3D attention gate.

We use additive attention [27] to obtain the attention weight coefficient, and the additive attention is formulated
as follows:

𝑞𝑙𝑎𝑡𝑡=𝜓𝑇(𝜎1(𝑊𝑇𝑥𝑥𝑙𝑖+𝑊𝑇𝑔𝑔𝑖+𝑏𝑔))
+𝑏𝜓𝛼𝑙𝑖=𝜎2(𝑞𝑙𝑎𝑡𝑡(𝑥𝑙𝑖,𝑔𝑖;Θ𝑎𝑡𝑡))�����=���1������+�����+��+�����=�2��������,��;����

(1)

where 𝜎2(𝑥𝑖,𝑐)=11+exp(−𝑥𝑖,𝑐)�2��,�=11+exp(−��,�) correspond to sigmoid activation function. The 3D


attention gate is characterized by a set of parameters Θ𝑎𝑡𝑡���� containing linear
transformations 𝑊𝑥∈𝑅𝐹𝑙×𝐹int,𝑔∈𝑅𝐹𝑔×𝐹int,𝜑∈𝑅𝐹int×1��∈���×�int,��∈���×�int,�∈��int×1 and bias
terms 𝑏𝜓∈𝑅,𝑏𝑔∈𝑅𝐹int��∈�,��∈��int. The linear transformations are computed using channel-wise convolution
for the input tensors. Furthermore, 𝑞𝑎𝑡𝑡���� defined the transformation operation of two inputs x and g under the
parameters Θ𝑎𝑡𝑡����.

4. Experiments and Results


4.1. Datasets and Pre-Processing
To evaluate the proposed method, we apply our algorithm on the left atrium dataset [28], which consists of 100
3D cardiac volume images. They are all obtained by GE-MRI (gadolinium-enhanced magnetic resonance imaging)
from patients with atrial fibrillation. The original resolution of the data is 625×625×625625×625×625 mm3. To fairly
compare the advantages of the improved structure, we adopt the same data processing method as the semi-
supervised learning algorithm DTC: 80 images are used for training, including 64 labeled images and 16 unlabeled
images, and 20 images for testing. Meanwhile, we use the same pretreatment method.

4.2. Implementation Details and Evaluation Metrics


4.2.1. Implementation Details
In this part, we will make a brief introduction of the implementation of the Attention V-Net. All experiments are
implements by Pytorch [29] library. Furthermore, Pytorch is an open source machine learning framework that
accelerates the path from research prototyping to production deployment, which is provided by Facebook AI
Research. More details can be found at https://pytorch.org/, (accessed on 20 March 2021). The experiments are
carried out on a laboratory computer. The operating system is Ubuntu 16.04. The main required packages include
python 3.6.13, CUDA9.0, cudnn7.6.5, Pytorch0.4.1.

In this work, we use the DTC algorithm as the baseline, where the V-Net network is the backbone. The dual-task
V-Net is realized by adding a new regression layer at the end of the original V-Net network. The framework is trained
by an SGD optimizer for 6000 iterations, which has an initial learning rate (lr) of 0.01 decayed by 0.1 every 2500
iterations. The batch size is four, consisting of two labeled images and two unlabeled images, the value of k is set to
1500 in this work. We randomly crop 112×112×80112×112×80 sub-volume as the network input. To avoid overfitting,
we use the standard on-the-fly data augmentation methods during training stage. In the inference phase, we use a
sliding window strategy to obtain the final results, which with a stride of 18×18×418×18×4 for left atrium. At the
inference time, we use the output of pixel-wise classification branch as the segmentation result.

4.2.2. Evaluation Metrics


We use overlap and surface distance measures to evaluate the segmentation, including Dice, Jaccard, the
average surface distance (ASD), and the 95% Hausdorff Distance (95HD).
(1) Dice and Jaccard Coefficients: Given two binary segmentation masks, A and B, the Dice D and Jaccard
coefficient J are defined as:

𝐷=|𝐴∩𝐵||𝐴|+|𝐵|,𝐽=|𝐴∩𝐵||𝐴∪𝐵|�=�∩��+�,�=�∩��∪�

(2)

where |·|· gives the cardinality (i.e., the number of non-zero elements) of each set. Maximum and minimum
values (1.0 and 0.0, repectively) for Dice and Jaccard coefficient occur when there is 100% and 0% overlap between
the two binary segmentation masks, respectively.

(2) Average Surface Distance and 95% Hausdorff Distance: Let, 𝑆𝐴�� and 𝑆𝐵��, be surfaces
(with 𝑁𝐴�� and 𝑁𝐵�� points, respectively) corresponding to two binary segmentation masks, A and B,
respectively. The average surface distance (ASD) S is defined as:

𝑆=12(1𝑁𝐴∑𝑝∈𝑆𝐴𝑑(𝑝,𝑆𝐵)+1𝑁𝐵∑𝑞∈𝑆𝐵𝑑(𝑞,𝑆𝐴))�=121��∑�∈����,��+1��∑�∈����,��

(3)

Similarly, Hausdorff Distance (HD) H is defined as:

𝐻=max(max𝑝∈𝑆𝐴𝑑(𝑝,𝑆𝐵),max𝑞∈𝑆𝐵𝑑(𝑞,𝑆𝐴))�=maxmax�∈����,��,max�∈����,��

(4)

where

𝑑(𝑝,𝑆)=min𝑞∈𝑆𝑑(𝑝,𝑞)��,�=min�∈���,�

(5)

is the minimum Euclidean distance of point p from the points from the points 𝑞∈𝑆�∈�. Hence, MSD computes
the mean distance between the two surfaces, whereas, HD computes the largest distance between the two surfaces,
and is sensitive to outliers.

Four complementary segmentation metrics are introduced to quantitatively evaluate the segmentation results.
Dice and Jaccard, two region-based metrics, are used to measure the region mismatch. Average surface distance
(ASD) and 95% Hausdorff Distance (95HD), two boundary-based metrics, are used to evaluate the boundary errors
between the segmentation results and the ground truth.

4.3. Results and Analysis


4.3.1. Comparison with Other Semi-Supervised Methods
In this paper, we design an attention module and apply it to the V-Net network. It can use the interdependence
between channels to learn the spatial weight information combined with the feature map, and to obtain some structural
regions with strong correlation. The final feature of each channel is the weighted sum of the features filtered by the
correlations between channels and the original features. The feature correlation of the channels simulates the remote
semantic dependence between features. It helps to maintain the relationship between different channel feature maps,
enlarge the inconsistency between categories, and make the feature maps transmitted by the skip-connection have
stronger semantic information.

As shown in Table 2, on the 2018 left atrium segmentation dataset, we replace the backbone network V-Net of
the DTC algorithm with Attention V-Net, comparing it with the recurring results of the basic framework DTC. The effect
of Attention V-Net is 0.56% higher on Dice, 0.74% higher on Jaccard, 0.16 voxel greater on ASD, and 0.32 voxel
greater on 95HD. Our method outperforms all the other semi-supervised networks in both Dice (89.08%) and Jaccard
(80.48%), and achieves competitive results on other metrics. We compare our framework with four semi-supervised
segmentation methods, including entropy minimization approch (Entropy Mini) [30], uncertainty-aware mean teacher
model (UA-MT) [11], shape-aware adversarial network (SASSNet) [12], and dual-task consistency model (DTC).
Please note that we use the official code and results of Entropy Mini and UA-MT, and reimplement the SASSnet and
DTC for left atrium segmentation. Table 2 shows the quantitative comparison of these methods. It can be found that
our method achieved the better accuracy than other semi-supervised segmentation methods on all the evaluation
metrics. It shows that our structure can improve the regional similarity of cardiac segmentation results, and also has a
significant improvement in the accuracy of the boundary. Thus, our experiments can prove that our attention
mechanism can enhance the accuracy of model segmentation, and help to improve the performance of left atrium
segmentation.

Table 2. Comparison with Other Semi-supervised Methods.


4.3.2. Visualization
The attention model can process a large amount of data information and generate weight probability information.
The weight information can reflect the different degrees of importance of local regions, so as to allow the network to
focus on those regions that are of great importance and more interesting to us. The Attention V-Net in this paper can
use the interdependence between channel mappings to emphasize the interdependent feature mapping, and improve
the feature representation of specific semantics. Therefore, the model pays more attention to the salient features that
are meaningful for specific tasks, while suppressing any insignificant parts. Finally, the Attention V-Net plays a role in
enhancing the ability of image feature representation.

We use the Attention V-Net model based on DTC to randomly segment four 3D datas in the test dataset and
reconstruct the left atrium image. Figure 3 is the reconstructed image of ground truth and prediction. Comparing the
2D visualization in Figure 3(1) and the 3D visualization in Figure 3(2), it can be seen that the overall prediction result
of the Attention V-Net model is very close to the manual annotation. In contrast, DTC often misses the internal area of
the target object, resulting in irregular shapes, while the model with the added attention mechanism can better
simulate the segmentation results of the left atrium, improving the accuracy of the integrity of the internal area and
boundary. Compared with other methods, our results have a higher overlap ratio with the ground truth, produce fewer
false positives, and preserve more details, which further indicates the effectiveness, generalization, and robustness of
our proposed method. The 3D representation of our structure is closer to the real left atrium model, but there are still
deviations in the details, and cannot be completely consistent with the real shape.
Figure 3. 2D and 3D Visualization of the segmentation by DTC [9] and our method, where GT denotes ground truth
segmentation.

5. Discussion and Conclusions


In this paper, we propose a fully convolutional neural network based on the attention mechanism, which can be
used for 3D medical image segmentation tasks. In comparison with other end-to-end semantic segmentation
networks, the proposed network can adaptively learn to highlight the salient features of the image that are useful for
the task, by designing a new 3D attention module. The network also learns attention weights and concatenates them
at each layer of the skip-connection part of the V-Net, which further improves accuracy. Meanwhile, it also can
process the 3D image data, using the information between the 3D sequences of medical images synthetically.

We apply it to the left atrium segmentation framework based on semi-supervised learning, and we evaluate it on
the dataset of the 2018 left atrial challenge. The experimental results show that, compared with the original algorithm,
the performance indexes such as Dice, Jaccard, ASD, and 95HD are improved. Moreover, compared with the current
advanced semi-supervised segmentation algorithm, the experimental results show that our proposed Attention V-Net
can improve the accuracy of medical image segmentation, which is of great significance to clinical diagnosis and
treatment. The substantial increase in segmentation accuracy comes with a negligible increase in model complexity.
Hence, our proposed 3D attention gate module can be extended to some other 3D medical organ segmentation tasks
(e.g., brain structure or tumor segmentation) to boost performance. We believe that our model can be a crucial
component for neural networks in many medical applications.

In the future related research of medical image analysis, we could pay more attention to adaptive feature
learning and the multi-scale feature fusion. It may obtain better feature results and experimental performance,
providing a reliable basis for clinical diagnosis and pathology research.

Author Contributions
Conceptualization, X.L. and J.Y.; methodology, R.Y.; software, X.L.; validation, X.L. and R.Y.; formal analysis,
J.Y.; investigation, R.Y.; writing—original draft preparation, X.L.; writing—review and editing, J.Y.; visualization, R.Y.;
project administration, J.Y. All authors have read and agreed to the published version of the manuscript.

Funding
This work was supported partly by the National Natural Science Foundation of China (Grant No. 62173045,
61673192), and partly by the Fundamental Research Funds for the Central Universities(Grant No. 2020XD-A04-2),
and partially supported by BUPT Excellent Ph.D. Students Foundation (CX2021314).

Institutional Review Board Statement


Not applicable.

Informed Consent Statement


Informed consent was obtained from all subjects involved in the study.

Data Availability Statement


Our method is evaluated on the dataset of the 2018 left atrial challenge.

Conflicts of Interest
No benefits in any form have been or will be received from a commercial party related directly or indirectly to the
subject of this manuscript.

References
1. Narayan, S.M.; Rodrigo, M.; Kowalewski, C.A.; Shenasa, F.; Meckler, G.L.; Vishwanathan, M.N.; Baykaner, T.; Zaman, J.A.B.;
Paul, J.; Wang, P.J. Ablation of focal impulses and rotational sources: What can be learned from differing procedural
outcomes. Curr. Cardiovasc. Risk Rep. 2017, 11, 27. [Google Scholar] [CrossRef]
2. Hansen, B.J.; Zhao, J.; Csepe, T.A.; Moore, B.T.; Li, N.; Jayne, L.A.; Kalyanasundaram, A.; Lim, P.; Bratasz, A.; Powell, K.A.; et
al. Atrial fibrillation driven by micro-anatomic intramural re-entry revealed by simultaneous sub-epicardial and sub-endocardial
optical mapping in explanted human hearts. Eur. Heart J. 2015, 36, 2390–2401. [Google Scholar] [CrossRef] [PubMed][Green
Version]
3. Njoku, A.; Kannabhiran, M.; Arora, R.; Reddy, P.; Gopinathannair, R.; Lakkireddy, D.; Dominic, P. Left atrial volume predicts
atrial fibrillation recurrence after radiofrequency ablation: A meta-analysis. EP Eur. 2017, 20, 33–42. [Google Scholar]
[CrossRef] [PubMed]
4. Higuchi, K.; Cates, J.; Gardner, G.; Morris, A.; Burgon, N.S.; Akoum, N.; Marrouche, N.F. The spatial distribution of late
gadolinium enhancement of left atrial mri in patients with atrial fibrillation. JACC Clin. Electrophysiol. 2017, 4, 49–58. [Google
Scholar] [CrossRef] [PubMed]
5. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Deep neural networks segment neuronal membranes in electron
microscopy images. Adv. Neural Inf. Process. Syst. 2012, 25, 1–9. [Google Scholar]
6. Long, J.; Shelhamer, E.; Darrell, T. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 7–12 June 2015; pp. 3431–3440. [Google Scholar]
7. Ronneberger, O.; Fischer, P.; Brox, T. U-net: Convolutional networks for biomedical image segmentation. In Proceedings of the
International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 5–9 October
2015; pp. 234–241. [Google Scholar]
8. Milletari, F.; Navab, N.; Ahmadi, S.A. V-net: Fully convolutional neural networks for volumetric medical image segmentation. In
Proceedings of the 2016 fourth international conference on 3D vision (3DV), Stanford, CA, USA, 25–28 October 2016; pp. 565–
571. [Google Scholar]
9. He, K.; Zhang, X.; Ren, S.; Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 26 June–1 July 2016; pp. 770–778. [Google Scholar]
10. Li, X.; Yu, L.; Chen, H.; Fu, C.W.; Heng, P.A. Semi-supervised skin lesion segmentation via transformation consistent self-
ensembling model. arXiv 2018, arXiv:1808.03887. [Google Scholar]
11. Yu, L.; Wang, S.; Li, X.; Fu, C.-W.; Heng, P.-A. Uncertainty-aware self-ensembling model for semi-supervised 3D left atrium
segmentation. In Proceedings of the International Conference on Medical Imaging Computing for Computer Assisted
Intervention, Shenzhen, China, 13–17 October 2019. [Google Scholar]
12. Li, S.; Zhang, C.; He, X. Shape-aware semi-supervised 3D semantic segmentation for medical images. In Proceedings of the
International Conference on Medical Imaging Computing for Computer Assisted Intervention, Lima, Peru, 4–8 October 2020; pp.
552–561. [Google Scholar]
13. Luo, X.; Chen, J.; Song, T.; Wang, G. Semi-supervised medical image segmentation through dual-task consistency. arXiv 2020,
arXiv:2009.04448. [Google Scholar]
14. Xia, Q.; Yao, Y.; Hu, Z.; Hao, A. Automatic 3D atrial segmentation from GE-MRIs using volumetric fully convolutional
networks. In Proceedings of the International Workshop on Statistical Atlases and Computational Models of the Heart, Granada,
Spain, 16 September 2018; pp. 211–220. [Google Scholar]
15. Isensee, F.; Jäger, P.F.; Kohl, S.A.; Petersen, J.; Maier-Hein, K.H. Automated design of deep learning methods for biomedical
image segmentation. arXiv 2019, arXiv:1904.08128. [Google Scholar]
16. Ahmad, I.; Hussain, F.; Khan, S.A.; Akram, U.; Jeon, G. CPS-based fully automatic cardiac left ventricle and left atrium
segmentation in 3D MRI. J. Intell. Fuzzy Syst. 2019, 36, 4153–4164. [Google Scholar] [CrossRef]
17. Laine, S.; Aila, T. Temporal ensembling for semi-supervised learning. arXiv 2016, arXiv:1610.02242. [Google Scholar]
18. Tarvainen, A.; Valpola, H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised
deep learning results. Adv. Neural Inf. Process. Syst. 2017, 30, 1–10. [Google Scholar]
19. Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; Zhang, L. Bottom-up and top-down attention for image
captioning and visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
Salt Lake City, UT, USA, 18–22 June 2018; pp. 6077–6086. [Google Scholar]
20. Banerjee, S.; Lyu, J.; Huang, Z.; Leung, H.F.F.; Lee, T.T.-Y.; Yang, D.; Su, S.; Zheng, Y.; Ling, S.-H. Light-Convolution Dense
Selection U-Net (LDS U-Net) for Ultrasound Lateral Bony Feature Segmentation. Appl. Sci. 2021, 11, 180. [Google Scholar]
[CrossRef]
21. Xiao, T.J.; Xu, Y.C.; Yang, K.Y.; Zhang, J.X.; Peng, Y.X.; Zhang, Z. The application of two-level attention models in deep
convolutional neural network for fine-grained image classification. In Proceedings of the 2015 IEEE Conference on Computer
Vision and Pattern Recognition, Boston, MA, USA, 7–12 June 2015; pp. 842–850. [Google Scholar]
22. Mnih, V.; Heess, N.; Graves, A. Recurrent models of visual attention. Adv. Neural Inf. Process. Syst. 2014, 27, 1–9. [Google
Scholar]
23. Jaderberg, M.; Simonyan, K.; Zisserman, A.; Kavukcuoglu, K. Spatial transformer networks. Adv. Neural Inf. Process.
Syst. 2015, 28, 1–9. [Google Scholar]
24. Hu, J.; Shen, L.; Sun, G. Squeeze-and-excitation networks. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, Salt Lake City, UT, USA, 18–22 June 2018; pp. 7132–7141. [Google Scholar]
25. Xu, K.; Ba, J.; Kiros, R.; Cho, K.; Courville, A.; Salakhudinov, R.; Zemel, R.; Bengio, Y. Show, attend and tell: Neural image
caption generation with visual attention. In Proceedings of the International Conference on Machine Learning, Lille, France, 6–11
July 2015; pp. 2048–2057. [Google Scholar]
26. Oktay, O.; Schlemper, J.; Folgoc, L.L.; Lee, M.; Heinrich, M.; Misawa, K.; Mori, K.; McDonagh, S.; Hammerla, N.Y.; Kainz, B.;
et al. Attention u-net: Learning where to look for the pancreas. arXiv 2018, arXiv:1804.03999. [Google Scholar]
27. Bahdanau, D.; Cho, K.; Bengio, Y. Neural machine translation by jointly learning to align and translate. arXiv 2014,
arXiv:1409.0473. [Google Scholar]
28. Xiong, Z.; Xia, Q.; Hu, Z.; Huang, N.; Bian, C.; Zheng, Y.; Vesal, S.; Ravikumar, N.; Maier, A.; Yang, X.; et al. A global
benchmark of algorithms for segmenting late gadolinium-enhanced cardiac magnetic resonance imaging. Med. Image
Anal. 2020, 67, 101832. [Google Scholar] [CrossRef] [PubMed]
29. Paszke, A.; Gross, S.; Massa, F.; Lerer, A.; Bradbury, J.; Chanan, G.; Killeen, T.; Lin, Z.; Gimelshein, N.; Antiga, L.; et al.
Pytorch: An imperative style, high-performance deep learning library. Adv. Neural Inf. Process. Syst. 2019, 32, 1–12. [Google
Scholar]
30. Vu, T.-H.; Jain, H.; Bucher, M.; Cord, M. Advent: Adversarial entropy minimization for domain adaptation in semantic
segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA,
16–20 June 2019; pp. 2517–2526. [Google Scholar]
31. Publisher’s Note: MDPI stays neutral with regard to jurisdictional claims in published maps and institutional affiliations.

© 2022 by the authors. Licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the
terms and conditions of the Creative Commons Attribution (CC BY) license
(https://creativecommons.org/licenses/by/4.0/).

Share and Cite

MDPI and ACS Style

Liu, X.; Yin, R.; Yin, J. Attention V-Net: A Modified V-Net Architecture for Left Atrial Segmentation. Appl. Sci. 2022, 12, 3764.
https://doi.org/10.3390/app12083764
AMA Style

Liu X, Yin R, Yin J. Attention V-Net: A Modified V-Net Architecture for Left Atrial Segmentation. Applied Sciences. 2022;
12(8):3764. https://doi.org/10.3390/app12083764
Chicago/Turabian Style

Liu, Xiaoli, Ruoqi Yin, and Jianqin Yin. 2022. "Attention V-Net: A Modified V-Net Architecture for Left Atrial
Segmentation" Applied Sciences 12, no. 8: 3764. https://doi.org/10.3390/app12083764
Find Other Styles

Note that from the first issue of 2016, this journal uses article numbers instead of page numbers. See further
details here.

Vous aimerez peut-être aussi