Académique Documents
Professionnel Documents
Culture Documents
Voir les discussions, les statistiques et les profils des auteurs de cette publication à l'adresse suivante : https://www.researchgate.net/publication/359259927
CITATIONS LIRE
0 89
6 auteurs, dont :
VOIR LE VOIR LE
PROFIL PROFIL
VOIR LE VOIR LE
PROFIL PROFIL
Certains des auteurs de cette publication travaillent également sur ces projets connexes :
HAL Id : hal-03790758
https://hal.science/hal-03790758
Soumis le 28 Sep 2022
HAL est une archive multidisciplinaire en L'archive ouverte pluridisciplinaire HAL, est
libre accès pour le dépôt et la diffusion de destinée au dépôt et à la diffusion de documents
documents de recherche scientifique, qu'ils soient scientifiques de niveau recherche, publiés ou non,
publiés ou non. Les documents peuvent provenir émanant des établissements d'enseignement et de
d'établissements d'enseignement et de recherche en recherche français ou étrangers, des laboratoires
France ou à l'étranger, de centres de recherche publics ou privés.
publics ou privés.
Estimation de la forme d'onde de la pression artérielle à
partir d'une vidéo faciale à l'aide d'un réseau en U
profond et de la représentation en ondelettes des
signaux photopléthysmographiques d'imagerie
Fr d ric Bousefsaf , *,1Th o Desquins1,2 , Djamaleddine Djeldjli1 , Yassine
Ouzar1 , Choubeila Maaoui1 , Alain Pruski1
1. Université de Lorraine, LCOMS, F-57000 Metz, France
2. i-Virtual, F-57000 Metz, France
Résumé
CONTEXTE. La mesure à distance de signaux physiologiques à partir
de vidéos a fait l'objet d'une attention particulière au cours des dernières
années. L'estimation des paramètres cardiovasculaires tels que la saturation
en oxygène et la pression artérielle (PA) fait l'objet d'un nombre limité
d'études et reste un problème très difficile à résoudre. Des tentatives
récentes ont démontré que la pression artérielle pouvait être estimée à
partir d'une vidéo faciale, mais dans des scénarios très contrôlés ou avec
des performances modérées. Les données utilisées dans ces travaux n'ont
pas été rendues publiques ou ont été recueillies dans un contexte clinique.
MÉTHODES : Nous proposons un cadre pour l'estimation de la tension
artérielle à partir de données accessibles au public afin de permettre la
réplication et de faciliter une comparaison équitable. Nous avons
développé et entraîné un réseau neuronal profond en forme de U pour
récupérer la forme d'onde de la pression artérielle à partir de son signal
photopléthysmographique d'imagerie (iPPG). Le modèle prédit la
représentation de la transformée en ondelettes continue (CWT) d'un signal
de pression artérielle à partir de la CWT d'un signal iPPG. La transformée
CWT inverse est ensuite calculée pour récupérer la série temporelle de la
tension artérielle. RÉSULTATS. Le cadre proposé a été évalué sur 57
participants en utilisant les normes internationales développées par
l'AAMI et le BHS. Les résultats montrent un accord étroit avec les valeurs
réelles de la tension artérielle. La méthode satisfait à toutes les normes
pour l'estimation de la PA moyenne et diastolique (grade A) et à presque
toutes les normes pour l'estimation de la PA systolique (grade B).
CONCLUSIONS. Il s'agit, à notre connaissance, de la première méthode
d'estimation de la tension artérielle.
première démonstration d'un cadre orienté vers l'apprentissage profond qui parvient à
Préprint soumis à Biomedical Signal Processing and Control (Traitement et contrôle des signaux biomédicaux)
prédire la forme d'onde de la pression sanguine continue à partir de
l'analyse vidéo du visage. Les codes développés au cours de l'étude
sont accessibles au public (https://github. com/frederic-
bousefsaf/ippg2bp).
Mots-clés : photopléthysmographie d'imagerie, pression artérielle,
transformée en ondelettes continue, apprentissage profond, U-Net.
1. Introduction
3
Deux axes de recherche sont envisagés. Premièrement, la mesure du
temps de transit du pouls (PTT) sur un seul [7] ou plusieurs [8] ROI. Le
PTT est un paramètre considéré comme corrélé à la pression artérielle.
Deuxièmement, l'analyse de la forme d'onde du signal iPPG [6, 9]. À
notre connaissance, les techniques d'apprentissage profond n'ont été prises
en compte que par Schrumpf et al. pour l'estimation de la pression
artérielle à partir des signaux iPPG [10]. Le modèle comprend 5 couches
et présente des performances moyennes, c'est-à-dire une erreur moyenne
élevée et une non-conformité aux normes internationales. Ces tentatives
récentes ont démontré que la pression artérielle peut être estimée à partir
d'une vidéo faciale, mais dans des scénarios très contrôlés ou avec des
performances moyennes. En outre, les données utilisées dans ces travaux
n'ont pas été rendues publiques ou ont été recueillies dans un cadre
clinique. Seuls Schrumpf et al. ont publié une sous-partie des données
utilisées dans leur étude. Au moment de la rédaction du présent document,
ce sous-ensemble comprend de petits extraits de signaux iPPG et des
valeurs discrètes de tension artérielle provenant de plus de 50 participants
(voir https://github.com/ Fabian-Sc85/non-invasive-bp-estimation-using-
deep-learning). Pour conclure sur ce point, l'entraînement d'un réseau
neuronal artificiel permettant d'estimer avec précision la pression artérielle
à partir d'une vidéo est limité par la quantité de données disponibles, car il
existe peu de bases de données publiques.
Dans cet article, nous proposons un cadre pour l'estimation de la BP à partir de données
publiques.
données disponibles. L'ensemble de données, à savoir BP4D+, comprend
des flux vidéo de participants en mouvement. L'analyse vidéo dédiée à la
détection physiologique à distance est donc très difficile. Une méthode
axée sur l'apprentissage profond (voir figure 1) a été spécialement mise au
point pour récupérer la forme d'onde de la pression artérielle à partir de
son signal photopléthysmographique d'imagerie (iPPG). Le modèle
profond en forme de U présenté dans ce travail a déjà été appliqué pour
traduire les signaux iPPG en signaux PPG de contact dans un travail
antérieur [11]. Le pipeline complet comprend plusieurs étapes. Les pixels
de la peau sont d'abord extraits à l'aide d'une technique de segmentation
récente qui repose sur des réseaux entièrement convolutifs. Le signal
iPPG est calculé en faisant la moyenne de tous les pixels de la peau à
partir du canal vert. Nous avons ensuite utilisé la transformée en
ondelettes continue (CWT) des signaux iPPG (et respectivement BP) pour
entraîner l'architecture neuronale susmentionnée. Le modèle prédit donc
4
une représentation CWT d'un signal BP à partir de la CWT d'un signal
iPPG. La transformée CWT inverse est ensuite calculée pour récupérer la
série temporelle BP.
L'article comprend cinq sections supplémentaires. La section 2 présente le back-
et les travaux connexes. La section 3 présente les données utilisées et les
méthodologies développées. Le pipeline de traitement complet est détaillé
dans cette section. Les mesures et les résultats de l'approche proposée sont
présentés et discutés
5
dans les sections 4 et 5, respectivement. Nous présentons les travaux futurs
et un résumé des contributions dans la section 6.
Il s'agit, à notre connaissance, de la première démonstration d'un cadre
axé sur l'apprentissage profond qui parvient à prédire la forme d'onde
continue de la pression artérielle à partir de signaux iPPG calculés à l'aide de
données publiques. Plusieurs pistes d'intérêt sont envisagées pour
améliorer cette recherche qui, dans son état actuel, présente des résultats
très encourageants. Deux des trois mesures estimées (c'est-à-dire la
tension diastolique et la tension moyenne) satisfont déjà aux paramètres
définis par les normes internationales.
2. Travaux connexes
Une étude relative à l'estimation de la pression artérielle à partir de
vidéos a été récemment proposée par Lu et al [12]. Plusieurs études
intéressantes ont néanmoins été proposées depuis sa publication. Nous
proposons donc, dans les deux premières sous-sections, de passer en revue
les études qui exploitent l'iPPG pour l'évaluation de la pression artérielle à
l'aide d'approches conventionnelles et d'apprentissage profond. L'estimation
de la pression artérielle à partir de la PPG de contact est étroitement liée à
ce sujet. Nous consacrons donc la dernière sous-section à cette partie.
2.1. iPPG pour l'estimation de la pression artérielle à partir du temps de propagation
Les pressions artérielles systolique et diastolique ont été estimées en
utilisant le temps de propagation des ondes de pouls de deux zones
cutanées différentes (généralement la main et le visage) dans des
enregistrements vidéo [13, 14, 15, 8]. La position des deux zones cutanées
doit être maintenue pendant la mesure. Cette approche est donc très
restrictive. Dans ce contexte, le délai doit être évalué de manière robuste.
Des techniques dédiées ont été proposées à cette fin ces dernières années.
Shao et al. ont comparé l'emplacement des pics des signaux iPPG mesurés
sur deux sites [16]. Pour améliorer la précision, les pics ont été estimés à
l'aide de deux courbes linéaires tracées sur les bords des parties
ascendante et descendante du signal. Fan et Tjahjadib
[17] a analysé les pics d'ondes à l'aide d'un indice de qualité du signal
personnalisé. Les pics de faible con dence sont supprimés à l'aide d'un
filtre de Kalman pour améliorer les performances. Sugita et al. ont
proposé d'analyser des vidéos de mains humaines enregistrées à des
hauteurs différentes du cœur [18]. Ils analysent la différence d'amplitude
6
des ondes de pouls iPPG pour construire un modèle qui estime la PAS.
2.2. iPPG pour l'estimation de la pression artérielle à partir d'une seule région du visage
L'estimation du TA à partir d'une seule région du visage fait l'objet de
très peu d'études dans la littérature scientifique. L'approche générale,
inspirée de la
7
L'étude de la PPG par contact [19, 20] consiste à calculer les
caractéristiques de la forme d'onde qui sont corrélées à la tension artérielle.
Dans cette direction, Djeldjli et al. ont récemment montré que les
caractéristiques temporelles, dérivées et de surface calculées à partir de la
forme d'onde iPPG et cPPG évoluent de manière similaire [21].
Jain et al. ont mis au point un cadre de régression simple qui analyse
21 caractéristiques de forme d'onde calculées sur le signal iPPG pour
estimer la tension artérielle [22]. Sugita et al. ont proposé de quantifier le
degré de distorsion des signaux iPPG [7]. Ils ont montré que cette quantité
présente une corrélation avec le BP proche des corrélations calculées entre
le BP et les temps de propagation. Viejo et al. ont estimé le TA à partir de
vidéos en utilisant des caractéristiques élaborées à la main et des modèles
d'apprentissage automatique [23]. Ils ont étudié l'évolution du TA à l'aide
d'un réseau neuronal peu profond dans le contexte des réponses
sensorielles alimentaires, mais aucune évaluation directe du TA n'est
présentée dans leur article.
Les travaux fondamentaux de Luo et al. [6] présentent pour la première
fois un pipeline comprenant un modèle d'intelligence artificielle. Un
perceptron multicouche a été alimenté par 30 caractéristiques calculées à
partir des ondes iPPG. Leurs résultats montrent que la forme d'onde iPPG
extraite d'une vidéo présente des informations qui sont liées à la BP. Rong
et Li (9) ont également étudié la possibilité de combiner des
caractéristiques élaborées à la main à partir des signaux iPPG avec une
approche d'apprentissage en profondeur pour estimer la pression artérielle
systolique et diastolique. Les architectures d'apprentissage profond ont été
récemment étudiées par Schrumpf et al [10]. Les auteurs ont mis au point
un réseau qui intègre des couches convolutives, des couches de mémoire à
long terme et des couches denses. Ils concluent que les signaux iPPG
calculés à partir de flux vidéo RVB standard peuvent ne pas convenir pour
estimer de manière fiable la PB. Toutes ces études ont mis en évidence la
faisabilité de la surveillance à distance de la tension artérielle à partir
d'une vidéo du visage, mais ont montré qu'il y avait encore des progrès à
faire et que l'estimation restait un défi de taille. Un aperçu synthétique des
études existantes est présenté dans le tableau 1. Ce tableau fait apparaître
une grande disparité dans le nombre de sujets ainsi que des performances
globalement faibles. En outre, tous les résultats présentés dans ces études
ont été testés sur des données qui n'ont pas été publiées. À notre
connaissance, aucune recherche consacrée à l'estimation de la pression
artérielle à partir de l'iPPG n'a encore été menée avec des ensembles de
8
données publiques.
2.3. Estimation de la pression artérielle à partir d'un PPG de contact
L'estimation des valeurs absolues de PA à partir de la PPG de contact
(cPPG) reste un problème difficile même s'il existe des preuves évidentes
que les fluctuations de la PA sont répercutées dans les signaux de la PPG
de contact [19, 20].
9
Les techniques d'apprentissage en profondeur ont été récemment
étudiées [26] et des développements récents montrent que ces cadres
peuvent être déployés efficacement pour convertir la forme d'onde BP à
partir des signaux cPPG. Différents types d'architectures neuronales
articielles ont été proposés ces dernières années. Elles combinent des
couches entièrement connectées [27] ou convolutives [28] avec une
mémoire à long terme. Ces réseaux assurent l'estimation simultanée de la
tension systolique et diastolique. Des caractéristiques démographiques (par
exemple, le poids et la taille) ont en outre été incluses dans des algorithmes
d'apprentissage automatique pour améliorer l'estimation de la PA à partir
des signaux PPGc [29]. Les caractéristiques de temps, de fréquence et de
temps-fréquence ont été calculées à partir des signaux PPG et de leurs
dérivés. Des techniques de sélection des caractéristiques ont été utilisées
pour réduire la complexité des calculs et diminuer simultanément le risque
de surcharger les algorithmes d'apprentissage automatique.
sélection des
caractéristiques)
CNN-LSTM-Dense
25 32 POS (apprentissage par 13.6‡ 10.3‡ [10]
transfert à l'aide de
MIMIC III)
11
Un cadre similaire mais avec une architecture profonde avec des
connexions résiduelles a été proposé par Slapnicar et al [30]. Une partie
du réseau est dédiée à l'analyse de la représentation spectrale du signal à
l'aide d'unités récurrentes gated. Des réseaux d'apprentissage profond qui
parviennent à prédire la forme d'onde BP continue à partir de signaux PPG
ont été récemment proposés [26]. Un réseau d'approximation apprend une
approximation grossière de la forme d'onde BP, tandis qu'un réseau de
réajustement améliore encore l'estimation préliminaire. Les réseaux
d'approximation et de réajustement sont basés sur une architecture U-Net
[31].
3. Méthodes
1
http://www.cs.binghamton.edu/~lijun/Recherche/3DFE/3DFE_Analysis.html
13
Chaque signal (pour chaque participant et pour chaque tâche) a été
traité à l'aide des différentes techniques décrites à la section 3.2. Chaque
signal complet a été divisé en extraits de 2,56 secondes répartis sur 256
valeurs. Cela constitue un ensemble de données de 4123 portions de
signal. Environ 70 % des données (2887 extraits choisis au hasard) ont été
réservées à la formation, 15 % (618 extraits choisis au hasard) à la
validation et les 15 % restants (618 extraits choisis au hasard) à la phase
de test. Les différents ensembles contiennent un portefeuille équilibré de
participants et de tâches.
Nous avons calculé la tension systolique (SBP) en faisant la moyenne
des intensités des pics maximaux sur l'ensemble de l'extrait. La tension
diastolique (DBP) a été calculée avec une stratégie similaire, mais en
utilisant les intensités minimales des pics au lieu des intensités maximales.
La pression artérielle moyenne (PAM) est la valeur moyenne calculée sur
tous les échantillons de l'extrait. La distribution des valeurs de SBP, DBP
et MAP pour les ensembles de formation, de validation et de test est
présentée à la figure 2. Les distributions présentent des propriétés et des
plages similaires.
15
Le signal iPPG a été calculé en faisant la moyenne de tous les pixels de
peau restants du canal vert. La figure 3a montre un signal iPPG brut calculé
à partir de l'un des flux vidéo BP4D+. Les signaux iPPG bruts sont ensuite
interpolés à une fréquence d'échantillonnage de 100 Hz et détendus à
l'aide d'un filtre passe-bas spécifique.
lter [35] basé sur un prieuré de lissage qui atténue les basses fréquences [36].
iPPG
BP
Figure 3 : Traitement du signal avant le calcul de la CWT. (a) Exemple d'un signal
iPPG brut contenant du bruit et des tendances (illustration du haut) et d'un signal de
tension artérielle enregistré simultanément à l'aide d'un capteur continu non invasif
(illustration du bas). (b) L'élimination des tendances iPPG est assurée par une méthode
[35] qui a déjà été utilisée dans ce domaine [36].
(c) De petits extraits de 2,56 secondes sont extraits pour la suite du traitement. (d) La CWT
(partie réelle) des signaux iPPG et BP est calculée dans la plage de fréquences [0,6, 4,5] Hz.
(e) La valeur moyenne est perdue lors du calcul de la CWT dans la gamme de fréquences
susmentionnée. Cette information est donc directement codée dans la CWT du signal BP en
ajoutant la valeur moyenne à chaque c o e f f i c i e n t CWT. Voir la différence dans les plages
des barres de couleur entre les sous-groupes (d) et (e). (f) La CWT (parties réelle et
16
imaginaire) est utilisée pour l'entraînement de l'architecture neuronale présentée à la section
3.3.
17
La figure 3b montre l'impact de l'opération de détorsion sur le signal
iPPG. Nous extrayons ensuite de petits extraits des signaux iPPG et des
signaux BP de vérité terrain (voir la figure 3c pour un exemple typique).
Un schéma de fenêtres coulissantes se chevauchant a été sélectionné pour
augmenter le volume de données utilisé pendant la formation. La
fréquence d'échantillonnage du signal iPPG interpolé étant fixée à 100 Hz,
2,56 secondes sont nécessaires pour former des représentations temps-
fréquence de 256 pixels de large. La longueur de la fenêtre a donc été
fixée à 2,56 secondes avec un pas empirique de 0,5 seconde (50
échantillons). Tous les extraits iPPG ont été normalisés à l'aide de la
formule du score z (de sorte que µ = 0 et σ = 1). Les ensembles de
formation, de validation et de test ont ensuite été constitués à partir de cet
ensemble d'extraits (voir section 3.1).
Comme dans [11], nous avons utilisé la représentation de la transformée
en ondelettes continue (CWT) pour entraîner l'architecture neuronale
présentée dans la section 3.3. L'approche globale est décrite à la figure 3.
La CWT (équation 1) d'un signal x (t) correspond à une représentation
temps-fréquence calculée à partir d'une fonction de type proto-
communément appelée ondelette mère. Contrairement à la transformée de
Fourier, la transformée en ondelettes peut détecter les changements
brusques de fréquence en utilisant une famille d'ondelettes ψτ,s (équation 2)
calculée à partir de l'ondelette mère ψ.
∞
CWT ψx (τ, s) = x (t) ψτ,s (t)dt (1)
-∞
1 τ
ψτ,s (t) = √|s|ψ t - (2)
s
ψτ,s correspond à l'ondelette mère dilatée par s et translatée par τ . La
dilatation de l'ondelette permet à la transformée d'analyser de plus grandes
portions du signal dans le domaine temporel, couvrant ainsi des
fréquences plus basses. Différentes ondelettes mères ont été développées
et le choix dépend principalement de l'application et des propriétés du
signal. L'ondelette mère de Morlet utilisée dans cette étude a déjà été
utilisée dans des travaux antérieurs relatifs à l'analyse des signaux PPG
par caméra [39, 40, 11].
Le signal original x (t) peut être reconstruit par la transformée inverse :
∞ ∫ ∞ τ
1∫ 1 ψ 1 t-
18
x (t) =
s2 C W T x (τ, s) √|s|ψ dτ ds (3)
Cψ 0 -∞ s
2
∫ ∞ ψ̂ (ζ )
Cψ = dζ < ∞ (4)
0 |ζ|
19
Cψ est la condition d'admissibilité et ψˆ est la transformée de Fourier de ψ.
La transformée en ondelettes continue a été calculée sur chaque signal
iPPG et BP dans la plage de fréquences [0,6, 4,5] Hz, qui correspond à la
plage physio- logique de la fréquence cardiaque humaine [2]. Les signaux
iPPG et BP typiques et leurs représentations en ondelettes respectives
(partie réelle) sont présentés à la figure 4. Comme indiqué précédemment,
les signaux iPPG ont été normalisés (µ = 0 et σ = 1, voir l'illustration en
haut à gauche de la figure 4 pour un exemple typique). Ce type de
processus n'a pas été appliqué aux signaux de tension artérielle car nous
devons recouvrir à la fois les valeurs moyennes, systoliques et diastoliques
(voir l'illustration en haut au milieu de la figure 4). La valeur moyenne
étant perdue lors du calcul de la CWT dans la plage de fréquences [0,6,
4,5] Hz, nous avons choisi d'encoder directement cette information dans la
CWT des signaux de tension artérielle en ajoutant la valeur moyenne à
chaque coecient de la CWT (voir figure 3e) :
1 120 120
110 110
Pression artérielle
Pression artérielle
Pression artérielle
0
100 100
-1 90 90
(mmHg)
(mmHg)
(mmHg)
80 80
-2
0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5
Temps (s) Temps (s) Temps (s)
CWT du signal iPPG CWT du signal BP de vérité au CWT prédit par le réseau U-Net
sol
4 4 4
Fréquence (Hz)
Fréquence (Hz)
Fréquence (Hz)
3 3 3
2 2 2
1 1 1
20
une partie réelle et une partie imaginaire) est calculée dans la plage de fréquences [0,6,
4,5] Hz. Les figures de droite présentent la CWT prédite par le réseau neuronal et le
signal BP reconstruit correspondant, calculé à l'aide de la transformée CWT inverse.
21
CWT correspondant (voir l'illustration du bas et du milieu de la figure 4).
Les représentations en ondelettes produites ont une dimension de 256 ×
256 × 2 pixels. Elles sont utilisées pour former les architectures neuronales
(figure 3f) présentées dans la section suivante.
23
ResNeXt101
ImageNet sortie (256 x 256 x 2)
(pré-entraîné)
l'apprentissage
par transfert
(codeur Bloc ResNeXt
Conv2D uniquement) Conv2D
256-d en
Vidéo 128 x 128 x 64
256 x 256 x 16
signal
Conv2D
256 x 1 maxima
ResNeXt Bloc
x3 128, 1x1, 256
le
Bloc 1 décode
ur 4 +
CWT 64 x 64 x 256
256-d out
64 x 64 x 64
256 x 256 x 2
ResNeXt Bloc
x4 Bloc décodeur
Bloc 2 décode
32 x 32 x 512 ur 3 en
32 x 32 x 128 UpSampling
concat.
ResNeXt Décodeur avec
x 23 codeur
Bloc 3 Bloc 2 Conv2D
16 x 16 x 1024
16 x 16 x 256
Conv2D
ResNeXt Décodeur
x3 sort
Bloc 4 Bloc 1 ir
8 x 8 x 2048
Encode Décodeu
ur r
Figure 5 : Vue d'ensemble du réseau U-Net [31] proposé dans cette étude, qui comprend un
encodeur (échantillonnage descendant) et un décodeur (échantillonnage ascendant). Le
codeur est remplacé par une dorsale ResNeXt101 [43]. Les blocs ResNeXt et décodeur
sont détaillés dans la partie droite de la figure. L'entrée d'un bloc ResNeXt (256
dimensions dans l'exemple illustré dans la figure) est divisée en 32 branches (ou
chemins) de dimensions inférieures qui seront ensuite fusionnées par concaténation.
Cette architecture exploite la stratégie de division-transformation-fusion d'Inception,
mais avec une topologie uniforme. Les paramètres de chaque étape de cet exemple de
bloc ResNeXt sont respectivement le nombre de filtres d'entrée, la taille du filtre et le
nombre de filtres de sortie. Chaque bloc ResNeXt présente des paramètres différents. Ils
sont spécifiés dans [43].
Les dimensions d'entrée d'un réseau U-Net soutenu par un backbone sont les suivantes
xé par les données utilisées pour leur apprentissage (images RVB de 256
× 256 pixels de la base de données ImageNet). Les entrées étant dans notre
cas une représentation en ondelettes à deux canaux, une stratégie
d'adaptation doit être introduite. Nous avons utilisé une couche
convolutive 2D supplémentaire avec un noyau (1, 1) qui a été placée entre
la couche d'entrée et la partie codeur du réseau. Les neurones de cette
couche permettent de convertir l'entrée de N à 3 canaux. Les poids de tous
les réseaux ont été initialisés aléatoirement par la méthode proposée par
Glorot et Bengio [44]. Les biais sont initialisés à zéro. L'erreur
quadratique moyenne (MSE) a été choisie comme perte pour
24
l'entraînement de tous les modèles :
25
1 2
MSE = CWT i,j - C^W T i,j (6)
n
i,j
4. Résultats
L'architecture U-Net proposée transforme un signal iPPG en un signal
BP continu par le biais de sa représentation en ondelettes. La figure 4
illustre un exemple typique d'estimation BP (figure en haut à droite) à
partir d'une onde iPPG (figure en haut à gauche). La forme d'onde prédite
suit de près l'onde de pression artérielle de référence présentée dans la
figure du haut et du milieu. La forme et l'amplitude, qui étaient
initialement différentes, ont été préservées. Nous pouvons remarquer de
petites différences de phase dans les représentations en ondelettes du
signal iPPG (f i g u r e en bas à gauche).
2 2 2 2
0 0 0 0
unité
unité
unité
unité
arb.
arb.
arb.
arb.
0 1 2 0 1 2
-2 60 -2 -2
0 1 2 Temps (s) 0 1 2 Tem
pred Temps (s) Temps (s) ps
GT (s)
Pression artérielle
Pression artérielle
Pression artérielle
80 80
80
(mmHg)
(mmHg)
(mmHg)
60
60
26
-2
0 1 2 0 1 2
Temps (s) Te
mps
110 (s)
Pression artérielle
100
90
(mmHg)
80
0 1 2
Temps (s)
0 1 2
Te
mps
(s)
27
et le signal BP de vérité au sol (en bas au milieu de la figure). Le réseau
neuronal a appris cette spécificité, la représentation en ondelettes
reconstruite (figure en bas à droite) étant en phase avec celle de la vérité
de terrain (figure en bas au milieu). La phase a donc été correctement
récupérée. Ceci est conforme aux observations précédentes que nous
avons faites lorsque nous avons testé ce réseau neuronal pour transformer
les signaux PPG de contact en signaux iPPG [11] et aux observations
d'autres auteurs qui ont utilisé l'apprentissage profond pour convertir les
ondes PPG de contact en ondes BP [26].
La figure 6 illustre plusieurs exemples d'estimation de la pression
artérielle à partir de signaux iPPG. Nous avons évalué les performances de
la technique proposée à l'aide des normes internationales [47, 48] de
l'Association for the Advancement of Medical Instrumentation (AAMI) et
de la British Hypertension Soci- ety (BHS). Nous soulignons toutefois que
BP4D+ contient des vidéos et des données physiologiques qui n'ont pas
été enregistrées dans un contexte clinique. De plus, le sous-ensemble
constitué intègre 57 participants alors que l'AAMI recommande d'évaluer
les techniques d'estimation de la pression artérielle sur un minimum de 85
sujets.
4.1. Mesures générales et diagrammes de Bland-Altman
L'erreur absolue moyenne (MAE, équation 7) et l'erreur quadratique
moyenne (RMSE, équation 8) ont été utilisées pour quantifier le niveau de
concordance entre la ˆ pression artérielle prédite (PA) et la pression
artérielle de référence (PA). Nous avons calculé ces mesures pour la DBP,
la MAP et la SBP sur l'ensemble des tests (voir section 3.1).
n
MAE = 1 Σ |BP - BˆP | (7)
i i
n
i=1
,
u 1 n 2
RMSE = nΣi=1 BPi − Bˆ
Pi (8)
Le tableau 2 présente une analyse comparative des résultats obtenus
dans des travaux similaires. Des représentations de Bland-Altman ont été
calculées pour la DBP, la MAP et la SBP sur toutes les données de test.
La moyenne entre les valeurs de PA estimées et les valeurs de PA réelles
est représentée sur l'axe des x, tandis que les différences entre les valeurs de
PA estimées et les valeurs de PA réelles sont représentées sur l'axe des y.
Les graphiques obtenus sont présentés à la figure 7. Les moyennes sont
28
représentées par des lignes en tirets et les limites d'accord à 95 % (± 1,96
écart-type) par des lignes en pointillés. Les plages de ces limites sont [-
12,3 14,3], [-12,0 11,6] et [-19,6 16,6] pour la DBP, la MAP et la SBP
respectivement.
29
MAE (mmHg) RMSE (mmHg)
DBP 7.59
Rong et Li [9]
SBP 9.97
DBP 10.3
Schrumpf et al [10]
SBP 13.6
DBP 5.1 6.85
iPPG2BP (nos MAP 4.47 6.01
résultats)
SBP 6.73 9.34
Erreur de prédiction
Erreur de prédiction
0 0 0
(mmHg)
(mmHg)
(mmHg)
31
Pourcentage d'erreur cumulée
≤ 5 mmHg ≤ 10 mmHg ≤ 15 mmHg
DBP 55.4% 85.7% 98.2%
Rong et Li [9] SBP 48.2% 78.6% 94.6%
DBP 60.2% 87.1% 95.8%
iPPG2BP (nos MAP 66.8% 90.9% 96.4%
résultats) SBP 50.2% 79.0% 89.6%
grade A 60% 85% 95%
BHS grade B 50% 75% 90%
grade C 40% 65% 85%
Figure 8 : Erreur absolue dans les prédictions de DBP, MAP et SBP. Les lignes pointillées
représentent les seuils de 5, 10 et 15 mmHg recommandés par la BHS.
33
ME (mmHg) SDE (mmHg)
DBP -0.20 6.00
Luo et al [6] SBP 0.39 7.30
DBP 0.79 2.58
Rong et Li [9] SBP 2.1 3.35
DBP -1.001 6.781
iPPG2BP (nos MAP -0.205 6.007
résultats)
SBP 1.51 9.221
Norme AAMI ≤5 ≤8
5. Discussion
La méthode présentée dans cet article correspond à l'une des rares pro-
positions qui s'appuie sur l'apprentissage profond pour estimer la pression
artérielle à partir d'une vidéo du visage. Nous proposons, dans la sous-
section suivante, de discuter et de comparer nos résultats avec des travaux
connexes. La section 5.2 présente les limites de cette étude. Enfin, nous
présentons et discutons les résultats d'une procédure de validation croisée
avec un seul patient (section 5.3).
35
en termes de MAE et de RMSE. Nous soulignons toutefois que les résultats
rapportés par d'autres études ont été calculés à partir de données de nature
différente. À notre connaissance, ces données ne sont pas accessibles au
public.
Les résultats présentés dans les sections 4.2 et 4.3 montrent un niveau
pertinent de concordance entre les valeurs de PA prédites et les valeurs de
PA réelles. On peut toutefois observer que plusieurs prédictions de tension
artérielle dépassent le seuil de 15 mmHg, en par- ticulier pour la SBP (voir
tableau 3). Nous soulignons qu'aucune autre technique axée sur l'analyse de
la pression artérielle à partir d'une seule vidéo du visage n'a obtenu la note B
pour la prédiction de la pression artérielle systolique, en particulier à partir
de données difficiles. Les techniques dédiées à la conversion des signaux
PPG de contact en forme d'onde de PA [26] ou des signaux PPG de
contact en valeurs DBP et SBP [30, 28, 29] produisent également des
estimations de SBP qui sont moins pertinentes que les estimations de
DBP. Nous ne rapportons pas les analyses AAMI et BHS de Schrumpf et
al. car aucun de leurs résultats ne semble satisfaire aux exigences [10].
L'intégration de la représentation en ondelettes des signaux iPPG au
lieu des signaux iPPG bruts dans le réseau est un point clé de la méthode
présentée dans cette étude. Nous tirons ici parti de l'apprentissage par
transfert grâce à un back- bone ResNeXt pré-entraîné sur de grandes bases
de données [11]. Les réseaux en U ont été largement utilisés pour la
segmentation des images médicales et peuvent être formés avec un faible
volume de données [41].
5.2. Limites
La figure 10 présente une prédiction de moindre qualité où la valeur
moyenne de la tension artérielle est approximativement estimée par le
modèle. Hormis l'erreur moyenne, la PAD et la PAS semblent être
correctement estimées. L'ajout de données supplémentaires pendant la
phase d'apprentissage du réseau peut résoudre, ou au moins minimiser,
cette erreur moyenne. L'équilibrage de la distribution des valeurs de la
tension artérielle de référence tout en faisant varier la forme d'onde de
l'iPPG et de la tension artérielle (forme des signaux) peut être une approche
pertinente pour résoudre ce problème.
Tous les résultats présentés sont limités par l'ensemble de données
actuel : un faible pourcentage de sujets (<85) a été utilisé pour obtenir les
résultats présentés dans la section 4. Nous soulignons que la pression
artérielle de référence, recueillie à l'aide d'un capteur continu non invasif,
36
n'a pas été enregistrée dans un contexte clinique. Il pourrait y avoir des
valeurs de vérité de base non pertinentes, conduisant finalement à un
apprentissage incorrect de la PA par le modèle U-Net présenté à la section
3.3. Nous insistons également sur le fait que seules les vidéos présentant
des signaux iPPG clairs ont été incluses dans l'ensemble de données. Les
vidéos comportant des mouvements peuvent produire des signaux iPPG
contenant des artefacts importants. Cette source particulière de bruit peut
avoir un impact négatif sur l'analyse de l'iPPG.
37
2
0
unité
arb.
-2
0 0.5 1 1.5 2 2.5
Temps
prévu
(s)
vérité terrain
120
Pression artérielle
100
80
(mmHg)
60
0 0.5 1 1.5 2 2.5
Temps (s)
39
nous analysons l'impact d'une procédure de validation croisée "leave-one-
patient-out" sur les performances.
Nous avons proposé, dans cet article, une solution axée sur
l'apprentissage profond et dédiée à la récupération de la pression sanguine
à partir d'une vidéo faciale. La reconstruction est effectuée à l'aide d'un
réseau en U soutenu par un backbone ResNeXt à partir de la
40
représentation temps-fréquence du signal iPPG. À notre connaissance,
cette étude présente la première démonstration d'un cadre automatique qui
permet d'estimer la forme d'onde continue de la tension artérielle à partir
d'une vidéo faciale. L'approche correspond à un moyen efficace de prédire
la tension artérielle sans extraction préalable de caractéristiques de forme
d'onde compliquées, élaborées à la main, à partir d'une vidéo du visage.
41
Erreurs BHS AAMI (mmHg)
Plier (mmHg)
MAE RMSE ≤5 ≤ 10 ≤ 15 ME SDE
8.28 11.78 49% 73% 83% 4.23 10.99 DBP
1 7.52 10.66 50% 76% 86% 3.39 10.11 MAP
9.79 12.64 33% 61% 76% 4.56 11.79 SBP
5.83 7.12 48% 85% 97% 0 7.12 DBP
2 8.03 10.24 43% 65% 87% 3.97 9.45 MAP
16.41 21.61 26% 46% 57% 12.99 17.27 SBP
11.43 14.12 28% 51% 68% -4.77 13.29 DBP
3 8.11 10.21 38% 69% 86% -3.81 9.47 MAP
8.87 11.33 38% 62% 81% -4.77 10.28 SBP
Erreur de prédiction
Erreur de prédiction
0 0 0
(mmHg)
(mmHg)
43
L'ondelette Morlet a été utilisée comme fonction prototype pour le
calcul de la CWT. Nous proposons d'évaluer l'impact sur les performances
avec différentes ondelettes mères et d'étudier différentes représentations
temps-fréquence telles que les transformées de Fourier à court terme et les
transformées Q constantes.
La saisie directe du flux vidéo dans une architecture de bout en bout
plutôt que la représentation temps-fréquence du signal iPPG fera l'objet
d'une recherche à long terme. Nous envisageons également d'étendre ces
travaux au contexte de la saturation en oxygène du sang en utilisant une
approche similaire (en introduisant des représentations CWT des signaux
iPPG dans un modèle U-Net profond).
7. Remerciements
Références
45
[6] H. Luo, D. Yang, A. Barszczyk, N. Vempala, J. Wei, S. J. Wu, P. P.
Zheng, G. Fu, K. Lee, Z.-P. Feng, Smartphone-based blood pressure
measurement using transdermal optical imaging technology, Circulation
: Cardiovascular Imaging 12 (2019) e008857.
[7] N. Sugita, M. Yoshizawa, M. Abe, A. Tanaka, N. Homma, T. Yambe,
Contactless Technique for Measuring Blood-Pressure Variability
from One Region in Video Plethysmography, Journal of Medical and
Biolog- ical Engineering (2018) 1 10.
[8] X. Fan, Q. Ye, X. Yang, S. D. Choudhury, Robust blood pressure es-
timation using an RGB camera, Journal of Ambient Intelligence and
Humanized Computing (2018) 1 8.
[9] M. Rong, K. Li, A Blood Pressure Prediction Method Based on
Imaging Photoplethysmography in combination with Machine
Learning, Biomedical Signal Processing and Control 64 (2021)
102328. URL: https://linkinghub.elsevier.com/retrieve/pii/
S1746809420304444. doi:10.1016/j.bspc.2020.102328.
47
(MMSP), 2016 IEEE 18th International Workshop on, IEEE, 2016,
pp. 1 5.
[23] C. G. Viejo, S. Fuentes, D. D. Torrico, F. R. Dunshea, Non-Contact
Heart Rate and Blood Pressure Estimations from Video Analysis and
Machine Learning Modelling Applied to Food Sensory Responses : A
Case Study for Chocolate, Sensors 18 (2018) 1802.
[24] W. Verkruysse, L. O. Svaasand, J. S. Nelson, Remote
plethysmographic imaging using ambient light, Optics express 16
(2008) 21434 21445.
[25] W. Wang, A. C. den Brinker, S. Stuijk, G. de Haan, Algorithmic
Prin- ciples of Remote PPG, IEEE Transactions on Biomedical
Engineering 64 (2017) 1479 1491.
[26] N. Ibtehaz, M. S. Rahman, PPG2ABP : Translating Photoplethysmo-
gram (PPG) Signals to Arterial Blood Pressure (ABP) Waveforms
using Fully Convolutional Neural Networks, arXiv preprint
arXiv:2005.01669 (2020).
[27] M. S. Tanveer, M. K. Hasan, Cu ess blood pressure estimation from
electrocardiogram and photoplethysmogram using waveform based
ANN-LSTM network, Biomedical Signal Processing and Control 51
(2019) 382 392.
[28] M. Panwar, A. Gautam, D. Biswas, A. Acharyya, PP-Net : A Deep
Learning Framework for PPG based Blood Pressure and Heart Rate
Estimation, IEEE Sensors Journal (2020). Éditeur : IEEE.
[29] M. H. Chowdhury, M. N. I. Shuzan, M. E. Chowdhury, Z. B. Mahbub,
M. M. Uddin, A. Khandakar, M. B. I. Reaz, Estimating Blood Pres-
sure from the Photoplethysmogram Signal and Demographic Features
Using Machine Learning Techniques, Sensors 20 (2020) 3127. Éditeur :
Institut de publication numérique multidisciplinaire.
[30] G. Slapni ar, N. Mlakar, M. Lu trek, Blood pressure estimation from
photoplethysmogram using a spectro-temporal deep neural network,
Sensors 19 (2019) 3420. Éditeur : Institut de publication numérique
multidisciplinaire.
48
[31] O. Ronneberger, P. Fischer, T. Brox, U-net : Convolutional networks
for biomedical image segmentation, in : International Conference on
Medical image computing and computer-assisted intervention, Springer,
2015, pp. 234 241.
[32] Z. Zhang, J. M. Girard, Y. Wu, X. Zhang, P. Liu, U. Ciftci, S. Cana-
van, M. Reale, A. Horowitz, H. Yang, others, Multimodal
spontaneous emotion corpus for human behavior analysis, in :
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2016,
pp. 3438 3446.
[33] G. de Haan, V. Jeanne, Robust pulse rate from chrominance-based
rPPG, IEEE Transactions on Biomedical Engineering 60 (2013) 2878
2886.
[34] A. Hammer, M . Scherpf, M . Schmidt, H . Ernst, H . Malberg,
K. Matschke, A. Dragu, J. Martin, O. Bota, Camera-based assessment of
cutaneous perfusion strength in a clinical setting, Physiological
Measure- ment (2022). URL :
http://iopscience.iop.org/article/10.1088/ 1361-6579/ac557d.
49
[39] F. Bousefsaf, C. Maaoui, A. Pruski, Continuous wavelet ltering on
webcam photoplethysmographic signals to remotely assess the instan-
taneous heart rate, Biomedical Signal Processing and Control 8
(2013) 568 574.
[40] F. Bousefsaf, C. Maaoui, A. Pruski, Peripheral vasomotor activity as-
sessment using a continuous wavelet analysis on webcam
photoplethys- mographic signals, Bio-medical materials and
engineering 27 (2016) 527 538.
[41] S. Leclerc, E. Smistad, J. Pedrosa, A. stvik, F. Cervenansky, F. Es-
pinosa, T. Espeland, E. A. R. Berg, P.-M. Jodoin, T. Grenier, others,
Deep learning for segmentation using an open large-scale dataset in
2d echocardiography, IEEE transactions on medical imaging (2019).
[42] E. C. Too, L. Yujian, S. Njuki, L. Yingchun, A comparative study of
ne- tuning deep learning models for plant disease identi cation,
Computers and Electronics in Agriculture 161 (2019) 272 279. Éditeur
: Elsevier.
[43] S. Xie, R. Girshick, P. Doll r, Z. Tu, K. He, Aggregated residual
trans- formations for deep neural networks, in : Proceedings of the IEEE
confer- ence on computer vision and pattern recognition, 2017, pp.
1492 1500.
[44] X. Glorot, Y. Bengio, Understanding the di culty of training deep
feed- forward neural networks, in : Proceedings of the thirteenth
international conference on arti cial intelligence and statistics, 2010,
pp. 249 256.
[45] P. Yakubovskiy, Modèles de segmentation, GitHub, 2019.
URL : https://github.com/qubvel/segmentation_models, titre de
la publication : Dépôt GitHub.
[46] D. P. Kingma, J. Ba, Adam : A method for stochastic optimization,
arXiv preprint arXiv:1412.6980 (2014).
[47] E. O'Brien, J. Petrie, W. Littler, M. de Swiet, P. L. Pad eld,
K. O'Malley, M. Jamieson, D. Altman, M. Bland, N. Atkins, The
british hypertension society protocol for the evaluation of automated
and semi-automatic blood pressure measuring devices with special
50
reference to ambulatory systems, Journal of hypertension 8 (1990)
607 619.
51
[48] G. S. Stergiou, B. Alpert, S. Mieke, R. Asmar, N. Atkins, S. Eckert,
G. Frick, B. Friedman, T. Gra l, T. Ichikawa, autres, Une norme
universelle pour la validation des appareils de mesure de la pression
artérielle : As- sociation for the Advancement of Medical
Instrumentation/European Society of Hypertension/International
Organization for Standardization (AAMI/ESH/ISO) Collaboration
Statement, Hypertension 71 (2018) 368 374. Éditeur : Am Heart
Assoc.
[49] Z. Yu, X. Li, X. Niu, J. Shi, G. Zhao, AutoHR : A Strong End- to-
End Baseline for Remote Heart Rate Measurement With Neural
Searching, IEEE Signal Processing Letters 27 (2020) 1245 1249.
URL : https://ieeexplore.ieee.org/document/9133501/. doi:10.
1109/LSP.2020.3007086.
29
Voir les statistiques de publication