Vous êtes sur la page 1sur 57

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

Voir les discussions, les statistiques et les profils des auteurs de cette publication à l'adresse suivante : https://www.researchgate.net/publication/359259927

Estimation de la forme d'onde de la pression artérielle à partir d'une vidéo faciale à


l'aide d'un réseau profond en forme de U et de la représentation en ondelettes
des signaux photopléthysmographiques d'imagerie

Article dans le journal électronique SSRN - Septembre 2022


DOI : 10.2139/ssrn.4032424

CITATIONS LIRE

0 89

6 auteurs, dont :

Djamaleddine Djeldjli Yassine Ouzar


Abou Bakr Belkaid Université de Tlemcen Université de Lorraine
16 PUBLICATIONS 58 CITATIONS 11 PUBLICATIONS 19 CITATIONS

VOIR LE VOIR LE
PROFIL PROFIL

Choubeila Maaoui Alain Pruski


Université de Lorraine Université de Lorraine
83 PUBLICATIONS 1 078 CITATIONS 108 PUBLICATIONS 1 258 CITATIONS

VOIR LE VOIR LE
PROFIL PROFIL

Certains des auteurs de cette publication travaillent également sur ces projets connexes :

Reconnaissance des émotions Voir le projet

Mesure des signaux physiologiques par vidéo Voir le projet


Tout le contenu de cette page a été mis en ligne par Yassine Ouzar le 16 janvier 2023.

L'utilisateur a demandé l'amélioration du fichier téléchargé.


Estimation de la forme d'onde de la pression artérielle à
partir d'une vidéo faciale à l'aide d'un réseau en U
profond et de la représentation en ondelettes des signaux
photopléthysmographiques Frédéric Bousefsaf, Théo Desquins,
Djamaleddine Djeldjli, Choubeila Maaoui, Alain Pruski

Pour citer cette version :


Frédéric Bousefsaf, Théo Desquins, Djamaleddine Djeldjli, Choubeila Maaoui, Alain Pruski.
Estimation de la forme d'onde de la pression artérielle à partir d'une vidéo faciale à l'aide d'un réseau en
U profond et de la représentation en ondelettes des signaux photopléthysmographiques d'imagerie.
Biomedical Signal Processing and Control, 2022, 78, pp.103895. 10.1016/j.bspc.2022.103895 . hal-
03790758

HAL Id : hal-03790758
https://hal.science/hal-03790758
Soumis le 28 Sep 2022

HAL est une archive multidisciplinaire en L'archive ouverte pluridisciplinaire HAL, est
libre accès pour le dépôt et la diffusion de destinée au dépôt et à la diffusion de documents
documents de recherche scientifique, qu'ils soient scientifiques de niveau recherche, publiés ou non,
publiés ou non. Les documents peuvent provenir émanant des établissements d'enseignement et de
d'établissements d'enseignement et de recherche en recherche français ou étrangers, des laboratoires
France ou à l'étranger, de centres de recherche publics ou privés.
publics ou privés.
Estimation de la forme d'onde de la pression artérielle à
partir d'une vidéo faciale à l'aide d'un réseau en U
profond et de la représentation en ondelettes des
signaux photopléthysmographiques d'imagerie
Fr d ric Bousefsaf , *,1Th o Desquins1,2 , Djamaleddine Djeldjli1 , Yassine
Ouzar1 , Choubeila Maaoui1 , Alain Pruski1
1. Université de Lorraine, LCOMS, F-57000 Metz, France
2. i-Virtual, F-57000 Metz, France

Résumé
CONTEXTE. La mesure à distance de signaux physiologiques à partir
de vidéos a fait l'objet d'une attention particulière au cours des dernières
années. L'estimation des paramètres cardiovasculaires tels que la saturation
en oxygène et la pression artérielle (PA) fait l'objet d'un nombre limité
d'études et reste un problème très difficile à résoudre. Des tentatives
récentes ont démontré que la pression artérielle pouvait être estimée à
partir d'une vidéo faciale, mais dans des scénarios très contrôlés ou avec
des performances modérées. Les données utilisées dans ces travaux n'ont
pas été rendues publiques ou ont été recueillies dans un contexte clinique.
MÉTHODES : Nous proposons un cadre pour l'estimation de la tension
artérielle à partir de données accessibles au public afin de permettre la
réplication et de faciliter une comparaison équitable. Nous avons
développé et entraîné un réseau neuronal profond en forme de U pour
récupérer la forme d'onde de la pression artérielle à partir de son signal
photopléthysmographique d'imagerie (iPPG). Le modèle prédit la
représentation de la transformée en ondelettes continue (CWT) d'un signal
de pression artérielle à partir de la CWT d'un signal iPPG. La transformée
CWT inverse est ensuite calculée pour récupérer la série temporelle de la
tension artérielle. RÉSULTATS. Le cadre proposé a été évalué sur 57
participants en utilisant les normes internationales développées par
l'AAMI et le BHS. Les résultats montrent un accord étroit avec les valeurs
réelles de la tension artérielle. La méthode satisfait à toutes les normes
pour l'estimation de la PA moyenne et diastolique (grade A) et à presque
toutes les normes pour l'estimation de la PA systolique (grade B).
CONCLUSIONS. Il s'agit, à notre connaissance, de la première méthode
d'estimation de la tension artérielle.
première démonstration d'un cadre orienté vers l'apprentissage profond qui parvient à
Préprint soumis à Biomedical Signal Processing and Control (Traitement et contrôle des signaux biomédicaux)
prédire la forme d'onde de la pression sanguine continue à partir de
l'analyse vidéo du visage. Les codes développés au cours de l'étude
sont accessibles au public (https://github. com/frederic-
bousefsaf/ippg2bp).
Mots-clés : photopléthysmographie d'imagerie, pression artérielle,
transformée en ondelettes continue, apprentissage profond, U-Net.

1. Introduction

La recherche sur la mesure à distance des signaux physiologiques et des


paramètres cardio-vasculaires à partir de la vidéo du visage a fait des
progrès significatifs ces dernières années. Ce domaine est en plein essor et
s'appuie sur plusieurs études significatives [1]. Le principe, appelé
photopléthysmographie d'imagerie (ou à distance) (iPPG), consiste à
mesurer les variations subtiles de la couleur de la peau. Ces
Les fluctuations sont le résultat d'interactions complexes entre la lumière
et les tissus. Les caméras les plus simples (webcams) comme les plus
avancées (caméras professionnelles, de laboratoire ou industrielles)
peuvent être utilisées pour récupérer de manière fiable les signaux iPPG.
Différentes régions d'intérêt (ROI) ont été étudiées au fil du temps, mais le
visage reste la zone la plus fréquemment observée [2]. Plusieurs études
ont démontré que la fréquence du pouls et sa variabilité peuvent être
estimées de manière robuste et précise à l'aide de techniques
conventionnelles de traitement d'images et, plus récemment, de solutions
d'apprentissage profond (deep learning) [3, 4].
La recherche actuelle dans ce domaine est maintenant orientée vers la
mesure de nouveaux paramètres physiologiques tels que la saturation en
oxygène [5] et la pression artérielle [6]. L'estimation de la pression
artérielle (PA) à partir de la vidéo fait l'objet d'un nombre limité d'études
et reste un problème très difficile à résoudre.

Signal iPPG signal BP reconstruit

CWT U-Net avec CWT reconstruite


(parties réelle et
imaginaire)
2
backbones pré-
entraînés
(parties réelle et
imaginaire)
Figure 1 : Aperçu général de la méthode.

3
Deux axes de recherche sont envisagés. Premièrement, la mesure du
temps de transit du pouls (PTT) sur un seul [7] ou plusieurs [8] ROI. Le
PTT est un paramètre considéré comme corrélé à la pression artérielle.
Deuxièmement, l'analyse de la forme d'onde du signal iPPG [6, 9]. À
notre connaissance, les techniques d'apprentissage profond n'ont été prises
en compte que par Schrumpf et al. pour l'estimation de la pression
artérielle à partir des signaux iPPG [10]. Le modèle comprend 5 couches
et présente des performances moyennes, c'est-à-dire une erreur moyenne
élevée et une non-conformité aux normes internationales. Ces tentatives
récentes ont démontré que la pression artérielle peut être estimée à partir
d'une vidéo faciale, mais dans des scénarios très contrôlés ou avec des
performances moyennes. En outre, les données utilisées dans ces travaux
n'ont pas été rendues publiques ou ont été recueillies dans un cadre
clinique. Seuls Schrumpf et al. ont publié une sous-partie des données
utilisées dans leur étude. Au moment de la rédaction du présent document,
ce sous-ensemble comprend de petits extraits de signaux iPPG et des
valeurs discrètes de tension artérielle provenant de plus de 50 participants
(voir https://github.com/ Fabian-Sc85/non-invasive-bp-estimation-using-
deep-learning). Pour conclure sur ce point, l'entraînement d'un réseau
neuronal artificiel permettant d'estimer avec précision la pression artérielle
à partir d'une vidéo est limité par la quantité de données disponibles, car il
existe peu de bases de données publiques.
Dans cet article, nous proposons un cadre pour l'estimation de la BP à partir de données
publiques.
données disponibles. L'ensemble de données, à savoir BP4D+, comprend
des flux vidéo de participants en mouvement. L'analyse vidéo dédiée à la
détection physiologique à distance est donc très difficile. Une méthode
axée sur l'apprentissage profond (voir figure 1) a été spécialement mise au
point pour récupérer la forme d'onde de la pression artérielle à partir de
son signal photopléthysmographique d'imagerie (iPPG). Le modèle
profond en forme de U présenté dans ce travail a déjà été appliqué pour
traduire les signaux iPPG en signaux PPG de contact dans un travail
antérieur [11]. Le pipeline complet comprend plusieurs étapes. Les pixels
de la peau sont d'abord extraits à l'aide d'une technique de segmentation
récente qui repose sur des réseaux entièrement convolutifs. Le signal
iPPG est calculé en faisant la moyenne de tous les pixels de la peau à
partir du canal vert. Nous avons ensuite utilisé la transformée en
ondelettes continue (CWT) des signaux iPPG (et respectivement BP) pour
entraîner l'architecture neuronale susmentionnée. Le modèle prédit donc
4
une représentation CWT d'un signal BP à partir de la CWT d'un signal
iPPG. La transformée CWT inverse est ensuite calculée pour récupérer la
série temporelle BP.
L'article comprend cinq sections supplémentaires. La section 2 présente le back-
et les travaux connexes. La section 3 présente les données utilisées et les
méthodologies développées. Le pipeline de traitement complet est détaillé
dans cette section. Les mesures et les résultats de l'approche proposée sont
présentés et discutés

5
dans les sections 4 et 5, respectivement. Nous présentons les travaux futurs
et un résumé des contributions dans la section 6.
Il s'agit, à notre connaissance, de la première démonstration d'un cadre
axé sur l'apprentissage profond qui parvient à prédire la forme d'onde
continue de la pression artérielle à partir de signaux iPPG calculés à l'aide de
données publiques. Plusieurs pistes d'intérêt sont envisagées pour
améliorer cette recherche qui, dans son état actuel, présente des résultats
très encourageants. Deux des trois mesures estimées (c'est-à-dire la
tension diastolique et la tension moyenne) satisfont déjà aux paramètres
définis par les normes internationales.

2. Travaux connexes
Une étude relative à l'estimation de la pression artérielle à partir de
vidéos a été récemment proposée par Lu et al [12]. Plusieurs études
intéressantes ont néanmoins été proposées depuis sa publication. Nous
proposons donc, dans les deux premières sous-sections, de passer en revue
les études qui exploitent l'iPPG pour l'évaluation de la pression artérielle à
l'aide d'approches conventionnelles et d'apprentissage profond. L'estimation
de la pression artérielle à partir de la PPG de contact est étroitement liée à
ce sujet. Nous consacrons donc la dernière sous-section à cette partie.
2.1. iPPG pour l'estimation de la pression artérielle à partir du temps de propagation
Les pressions artérielles systolique et diastolique ont été estimées en
utilisant le temps de propagation des ondes de pouls de deux zones
cutanées différentes (généralement la main et le visage) dans des
enregistrements vidéo [13, 14, 15, 8]. La position des deux zones cutanées
doit être maintenue pendant la mesure. Cette approche est donc très
restrictive. Dans ce contexte, le délai doit être évalué de manière robuste.
Des techniques dédiées ont été proposées à cette fin ces dernières années.
Shao et al. ont comparé l'emplacement des pics des signaux iPPG mesurés
sur deux sites [16]. Pour améliorer la précision, les pics ont été estimés à
l'aide de deux courbes linéaires tracées sur les bords des parties
ascendante et descendante du signal. Fan et Tjahjadib
[17] a analysé les pics d'ondes à l'aide d'un indice de qualité du signal
personnalisé. Les pics de faible con dence sont supprimés à l'aide d'un
filtre de Kalman pour améliorer les performances. Sugita et al. ont
proposé d'analyser des vidéos de mains humaines enregistrées à des
hauteurs différentes du cœur [18]. Ils analysent la différence d'amplitude

6
des ondes de pouls iPPG pour construire un modèle qui estime la PAS.
2.2. iPPG pour l'estimation de la pression artérielle à partir d'une seule région du visage
L'estimation du TA à partir d'une seule région du visage fait l'objet de
très peu d'études dans la littérature scientifique. L'approche générale,
inspirée de la

7
L'étude de la PPG par contact [19, 20] consiste à calculer les
caractéristiques de la forme d'onde qui sont corrélées à la tension artérielle.
Dans cette direction, Djeldjli et al. ont récemment montré que les
caractéristiques temporelles, dérivées et de surface calculées à partir de la
forme d'onde iPPG et cPPG évoluent de manière similaire [21].
Jain et al. ont mis au point un cadre de régression simple qui analyse
21 caractéristiques de forme d'onde calculées sur le signal iPPG pour
estimer la tension artérielle [22]. Sugita et al. ont proposé de quantifier le
degré de distorsion des signaux iPPG [7]. Ils ont montré que cette quantité
présente une corrélation avec le BP proche des corrélations calculées entre
le BP et les temps de propagation. Viejo et al. ont estimé le TA à partir de
vidéos en utilisant des caractéristiques élaborées à la main et des modèles
d'apprentissage automatique [23]. Ils ont étudié l'évolution du TA à l'aide
d'un réseau neuronal peu profond dans le contexte des réponses
sensorielles alimentaires, mais aucune évaluation directe du TA n'est
présentée dans leur article.
Les travaux fondamentaux de Luo et al. [6] présentent pour la première
fois un pipeline comprenant un modèle d'intelligence artificielle. Un
perceptron multicouche a été alimenté par 30 caractéristiques calculées à
partir des ondes iPPG. Leurs résultats montrent que la forme d'onde iPPG
extraite d'une vidéo présente des informations qui sont liées à la BP. Rong
et Li (9) ont également étudié la possibilité de combiner des
caractéristiques élaborées à la main à partir des signaux iPPG avec une
approche d'apprentissage en profondeur pour estimer la pression artérielle
systolique et diastolique. Les architectures d'apprentissage profond ont été
récemment étudiées par Schrumpf et al [10]. Les auteurs ont mis au point
un réseau qui intègre des couches convolutives, des couches de mémoire à
long terme et des couches denses. Ils concluent que les signaux iPPG
calculés à partir de flux vidéo RVB standard peuvent ne pas convenir pour
estimer de manière fiable la PB. Toutes ces études ont mis en évidence la
faisabilité de la surveillance à distance de la tension artérielle à partir
d'une vidéo du visage, mais ont montré qu'il y avait encore des progrès à
faire et que l'estimation restait un défi de taille. Un aperçu synthétique des
études existantes est présenté dans le tableau 1. Ce tableau fait apparaître
une grande disparité dans le nombre de sujets ainsi que des performances
globalement faibles. En outre, tous les résultats présentés dans ces études
ont été testés sur des données qui n'ont pas été publiées. À notre
connaissance, aucune recherche consacrée à l'estimation de la pression
artérielle à partir de l'iPPG n'a encore été menée avec des ensembles de
8
données publiques.
2.3. Estimation de la pression artérielle à partir d'un PPG de contact
L'estimation des valeurs absolues de PA à partir de la PPG de contact
(cPPG) reste un problème difficile même s'il existe des preuves évidentes
que les fluctuations de la PA sont répercutées dans les signaux de la PPG
de contact [19, 20].

9
Les techniques d'apprentissage en profondeur ont été récemment
étudiées [26] et des développements récents montrent que ces cadres
peuvent être déployés efficacement pour convertir la forme d'onde BP à
partir des signaux cPPG. Différents types d'architectures neuronales
articielles ont été proposés ces dernières années. Elles combinent des
couches entièrement connectées [27] ou convolutives [28] avec une
mémoire à long terme. Ces réseaux assurent l'estimation simultanée de la
tension systolique et diastolique. Des caractéristiques démographiques (par
exemple, le poids et la taille) ont en outre été incluses dans des algorithmes
d'apprentissage automatique pour améliorer l'estimation de la PA à partir
des signaux PPGc [29]. Les caractéristiques de temps, de fréquence et de
temps-fréquence ont été calculées à partir des signaux PPG et de leurs
dérivés. Des techniques de sélection des caractéristiques ont été utilisées
pour réduire la complexité des calculs et diminuer simultanément le risque
de surcharger les algorithmes d'apprentissage automatique.

Nombre de Échantillon Signal iPPG Performances


nage Caractéristiqu Modèle Réf.
sujets Fréquenc extraction es SBP DBP
e (fps)
17 140 Vert TBH indice -0.6† [7]
21 temps et
45 50 APC régression 3,90‡ ± 5,37 3,72‡ ± 5,08 [22]
caractéristiques de
fréquence
amplitude,
45 15 Vert fréquence peu profond [23]
et le pouls) ANN
155 caractéristiques 0.67† 0.63†
1328 30 TOI ANN (MLP) [6]
(30 après l'APC) 0,39 ± 7,30 -0,2∗ ± 6,00

26 caractéristiques 9.97‡ 7.59‡


189 30 Vert (16 après SVR [9]
2,1 ± 3,35 0,79∗ ± 2,58

sélection des
caractéristiques)
CNN-LSTM-Dense
25 32 POS (apprentissage par 13.6‡ 10.3‡ [10]
transfert à l'aide de
MIMIC III)

Tableau 1 : Aperçu des études existantes dans le domaine de l'estimation du PB à partir


d'une seule région du visage dans des flux vidéo.
∗ : biais

: coefficient de corrélation
‡ : Erreur absolue moyenne
(MAE) ANN : Réseau
neuronal artificiel
10
CNN : Réseau neuronal convolutif
Vert : signal iPPG formé en utilisant uniquement le canal vert [24]
LSTM : Long Short-Term Memory (mémoire à long terme)
MLP : Perceptron multicouche
ACP : Analyse en composantes principales
POS : Méthode plan-orthogonal-peau [25] SVR :
Support Vector Regression (Régression
vectorielle de soutien)
TOI : Transdermal Optical Imaging (imagerie optique transdermique) [6].

11
Un cadre similaire mais avec une architecture profonde avec des
connexions résiduelles a été proposé par Slapnicar et al [30]. Une partie
du réseau est dédiée à l'analyse de la représentation spectrale du signal à
l'aide d'unités récurrentes gated. Des réseaux d'apprentissage profond qui
parviennent à prédire la forme d'onde BP continue à partir de signaux PPG
ont été récemment proposés [26]. Un réseau d'approximation apprend une
approximation grossière de la forme d'onde BP, tandis qu'un réseau de
réajustement améliore encore l'estimation préliminaire. Les réseaux
d'approximation et de réajustement sont basés sur une architecture U-Net
[31].

3. Méthodes

3.1. Base de données


BP4D+ est un ensemble de données multimodales mis à la disposition de
la communauté des chercheurs.1. La base de données comprend
initialement les métadonnées et les annotations physiologiques,
thermiques, vidéo 2D, 3D et diverses de 140 participants [32]. Dix tâches
ont été proposées pour susciter différentes émotions dans un
environnement de laboratoire.
En raison de la nature des tâches, de forts artefacts de mouvement sont
présents dans un ensemble de vidéos, ce qui entraîne une mauvaise
extraction du signal iPPG. L'analyse vidéo pour la télédétection
physiologique est donc très difficile. Nous avons procédé à une première
sélection en ne conservant que les vidéos présentant des signaux iPPG
clairs. La procédure repose sur un rapport signal-bruit (RSB)
conventionnel. L'indice est défini à l'aide de la transformée de Fourier du
signal iPPG par intervalles de 15 secondes avec fenêtre, de sorte que des
sous-parties de vidéos partiellement touchées peuvent être sélectionnées.
Le rapport signal-bruit a déjà été utilisé dans l'étude
de l'iPPG [33, 34]. Toutes les parties de la vidéo sélectionnées ont été
contrôlées manuellement après cette première présélection automatique.
Un sous-ensemble de 57 sujets (21 femmes, 36 hommes), soit un total de
157 vidéos, a été constitué. Nous avons également supprimé les
échantillons dans lesquels le signal de référence de la pression artérielle
continue était mal constitué ou affaibli (valeurs négatives). Les détails
concernant les participants sélectionnés et les tâches sont disponibles sur
une page dédiée du site web hébergeant le projet
(https://github.com/frederic-bousefsaf/ ippg2bp). Ce sous-ensemble a été
12
utilisé pour entraîner et tester l'architecture neuronale présentée dans cette
étude.

1
http://www.cs.binghamton.edu/~lijun/Recherche/3DFE/3DFE_Analysis.html

13
Chaque signal (pour chaque participant et pour chaque tâche) a été
traité à l'aide des différentes techniques décrites à la section 3.2. Chaque
signal complet a été divisé en extraits de 2,56 secondes répartis sur 256
valeurs. Cela constitue un ensemble de données de 4123 portions de
signal. Environ 70 % des données (2887 extraits choisis au hasard) ont été
réservées à la formation, 15 % (618 extraits choisis au hasard) à la
validation et les 15 % restants (618 extraits choisis au hasard) à la phase
de test. Les différents ensembles contiennent un portefeuille équilibré de
participants et de tâches.
Nous avons calculé la tension systolique (SBP) en faisant la moyenne
des intensités des pics maximaux sur l'ensemble de l'extrait. La tension
diastolique (DBP) a été calculée avec une stratégie similaire, mais en
utilisant les intensités minimales des pics au lieu des intensités maximales.
La pression artérielle moyenne (PAM) est la valeur moyenne calculée sur
tous les échantillons de l'extrait. La distribution des valeurs de SBP, DBP
et MAP pour les ensembles de formation, de validation et de test est
présentée à la figure 2. Les distributions présentent des propriétés et des
plages similaires.

Figure 2 : Distribution de la DBP, de la MAP et de la SBP pour les différents


ensembles. Tous les échantillons ont été extraits de l'ensemble de données BP4D+.

3.2. Constitution du signal iPPG


La chaîne de traitement globale est assez similaire à celle présentée
dans [11]. Cette méthode (appelée iPPG 2 cPPG) consiste à utiliser la
représentation en ondelettes continue (parties réelles et imaginaires) d'un
signal iPPG pour reconstruire la représentation en ondelettes d'un signal
PPG de contact (cPPG). La transformée inverse est ensuite calculée pour
récupérer la série temporelle cPPG.
Tout d'abord, nous avons utilisé une technique récente de segmentation
des visages qui repose sur des réseaux entièrement convolutifs [37]. Cette
14
approche a permis d'éliminer de manière robuste les zones de fond et les
zones non cutanées. Cette méthode a été récemment employée dans le
de la photopléthysmographie par imagerie [38].

15
Le signal iPPG a été calculé en faisant la moyenne de tous les pixels de
peau restants du canal vert. La figure 3a montre un signal iPPG brut calculé
à partir de l'un des flux vidéo BP4D+. Les signaux iPPG bruts sont ensuite
interpolés à une fréquence d'échantillonnage de 100 Hz et détendus à
l'aide d'un filtre passe-bas spécifique.
lter [35] basé sur un prieuré de lissage qui atténue les basses fréquences [36].

iPPG
BP

(a) Signal brut (b) Détourage (iPPG) (c) Le


fenêtrage

(f) (e) Décalage (d) CWT


Formation (BP)

Figure 3 : Traitement du signal avant le calcul de la CWT. (a) Exemple d'un signal
iPPG brut contenant du bruit et des tendances (illustration du haut) et d'un signal de
tension artérielle enregistré simultanément à l'aide d'un capteur continu non invasif
(illustration du bas). (b) L'élimination des tendances iPPG est assurée par une méthode
[35] qui a déjà été utilisée dans ce domaine [36].
(c) De petits extraits de 2,56 secondes sont extraits pour la suite du traitement. (d) La CWT
(partie réelle) des signaux iPPG et BP est calculée dans la plage de fréquences [0,6, 4,5] Hz.
(e) La valeur moyenne est perdue lors du calcul de la CWT dans la gamme de fréquences
susmentionnée. Cette information est donc directement codée dans la CWT du signal BP en
ajoutant la valeur moyenne à chaque c o e f f i c i e n t CWT. Voir la différence dans les plages
des barres de couleur entre les sous-groupes (d) et (e). (f) La CWT (parties réelle et
16
imaginaire) est utilisée pour l'entraînement de l'architecture neuronale présentée à la section
3.3.

17
La figure 3b montre l'impact de l'opération de détorsion sur le signal
iPPG. Nous extrayons ensuite de petits extraits des signaux iPPG et des
signaux BP de vérité terrain (voir la figure 3c pour un exemple typique).
Un schéma de fenêtres coulissantes se chevauchant a été sélectionné pour
augmenter le volume de données utilisé pendant la formation. La
fréquence d'échantillonnage du signal iPPG interpolé étant fixée à 100 Hz,
2,56 secondes sont nécessaires pour former des représentations temps-
fréquence de 256 pixels de large. La longueur de la fenêtre a donc été
fixée à 2,56 secondes avec un pas empirique de 0,5 seconde (50
échantillons). Tous les extraits iPPG ont été normalisés à l'aide de la
formule du score z (de sorte que µ = 0 et σ = 1). Les ensembles de
formation, de validation et de test ont ensuite été constitués à partir de cet
ensemble d'extraits (voir section 3.1).
Comme dans [11], nous avons utilisé la représentation de la transformée
en ondelettes continue (CWT) pour entraîner l'architecture neuronale
présentée dans la section 3.3. L'approche globale est décrite à la figure 3.
La CWT (équation 1) d'un signal x (t) correspond à une représentation
temps-fréquence calculée à partir d'une fonction de type proto-
communément appelée ondelette mère. Contrairement à la transformée de
Fourier, la transformée en ondelettes peut détecter les changements
brusques de fréquence en utilisant une famille d'ondelettes ψτ,s (équation 2)
calculée à partir de l'ondelette mère ψ.

CWT ψx (τ, s) = x (t) ψτ,s (t)dt (1)
-∞

1 τ
ψτ,s (t) = √|s|ψ t - (2)
s
ψτ,s correspond à l'ondelette mère dilatée par s et translatée par τ . La
dilatation de l'ondelette permet à la transformée d'analyser de plus grandes
portions du signal dans le domaine temporel, couvrant ainsi des
fréquences plus basses. Différentes ondelettes mères ont été développées
et le choix dépend principalement de l'application et des propriétés du
signal. L'ondelette mère de Morlet utilisée dans cette étude a déjà été
utilisée dans des travaux antérieurs relatifs à l'analyse des signaux PPG
par caméra [39, 40, 11].
Le signal original x (t) peut être reconstruit par la transformée inverse :
∞ ∫ ∞ τ
1∫ 1 ψ 1 t-
18
x (t) =
s2 C W T x (τ, s) √|s|ψ dτ ds (3)
Cψ 0 -∞ s
2
∫ ∞ ψ̂ (ζ )
Cψ = dζ < ∞ (4)
0 |ζ|

19
Cψ est la condition d'admissibilité et ψˆ est la transformée de Fourier de ψ.
La transformée en ondelettes continue a été calculée sur chaque signal
iPPG et BP dans la plage de fréquences [0,6, 4,5] Hz, qui correspond à la
plage physio- logique de la fréquence cardiaque humaine [2]. Les signaux
iPPG et BP typiques et leurs représentations en ondelettes respectives
(partie réelle) sont présentés à la figure 4. Comme indiqué précédemment,
les signaux iPPG ont été normalisés (µ = 0 et σ = 1, voir l'illustration en
haut à gauche de la figure 4 pour un exemple typique). Ce type de
processus n'a pas été appliqué aux signaux de tension artérielle car nous
devons recouvrir à la fois les valeurs moyennes, systoliques et diastoliques
(voir l'illustration en haut au milieu de la figure 4). La valeur moyenne
étant perdue lors du calcul de la CWT dans la plage de fréquences [0,6,
4,5] Hz, nous avons choisi d'encoder directement cette information dans la
CWT des signaux de tension artérielle en ajoutant la valeur moyenne à
chaque coecient de la CWT (voir figure 3e) :

CWT BP = CWT BP + µBP (5)


Ici, µBP correspond à la valeur moyenne d'un signal BP (illustration en
haut et au milieu de la figure 4 pour un exemple de signal BP typique) et
CWT BP à sa valeur moyenne.

Signal iPPG Vérité de base Signal BP Signal BP reconstruit

1 120 120

110 110
Pression artérielle

Pression artérielle

Pression artérielle

0
100 100

-1 90 90
(mmHg)

(mmHg)

(mmHg)

80 80
-2
0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5
Temps (s) Temps (s) Temps (s)
CWT du signal iPPG CWT du signal BP de vérité au CWT prédit par le réseau U-Net
sol

4 4 4
Fréquence (Hz)

Fréquence (Hz)

Fréquence (Hz)

3 3 3

2 2 2

1 1 1

0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5


Temps (s) Temps (s) Temps (s)

Figure 4 : Un iPPG et sa BP de vérité au sol correspondante sont respectivement


présentés en bas à gauche et en bas au milieu de la figure. Leurs CWT correspondantes
(partie réelle) sont présentées ci-dessous. La transformée (une image complexe avec

20
une partie réelle et une partie imaginaire) est calculée dans la plage de fréquences [0,6,
4,5] Hz. Les figures de droite présentent la CWT prédite par le réseau neuronal et le
signal BP reconstruit correspondant, calculé à l'aide de la transformée CWT inverse.

21
CWT correspondant (voir l'illustration du bas et du milieu de la figure 4).
Les représentations en ondelettes produites ont une dimension de 256 ×
256 × 2 pixels. Elles sont utilisées pour former les architectures neuronales
(figure 3f) présentées dans la section suivante.

3.3. Architectures neuronales


L'architecture neuronale a déjà été développée et testée dans des
travaux antérieurs [11]. En bref, il s'agit d'une architecture U-Net,
initialement proposée par Ronneberger et al [31], améliorée par un
backbone. Ce type de réseau a été largement utilisé pour la segmentation
d'images médicales [41]. Son architecture consiste en une branche
descendante (codeur) complétée par une branche ascendante (décodeur),
ce qui donne une forme de U au réseau. La branche descendante contient
un ensemble de couches de convolution et de mise en commun. La branche
ascendante intègre des couches de suréchantillonnage connectées aux
convolutions de la branche descendante. Les connexions permettent de
restituer l'information spatiale. Une représentation schématique du réseau
est fournie à la figure 5. Chaque couche con- volutionnelle est couplée à
une fonction d'activation ReLU (Recti ed Linear Unit).
Un Backbone (par exemple VGG16) peut être intégré dans la partie
codeur du réseau U-Net. Ses paramètres internes peuvent être bloqués
pendant l'entraînement, ce qui signifie que les poids du réseau restent les
mêmes. En pratique, un backbone correspond à une sous-partie de modèle
pré-entraînée sur ImageNet, une base de données déployée pour des
tâches de reconnaissance d'objets dans des images [42]. L'entraînement
d'un réseau U-Net supporté par un backbone consiste, dans ce cas, à
optimiser les paramètres internes de la partie décodeur. Cette approche
peut être associée à une stratégie d'apprentissage par transfert. Dans ce
travail, nous avons initialisé l'architecture U-Net avec un backbone
ResNeXt101 [43]. Les paramètres de l'encodeur n'ont pas été bloqués
pendant l'apprentissage, ce qui signifie qu'ils ont été optimisés pendant la
phase d'apprentissage. Le nombre de variables à entraîner (poids et biais)
est de 52 millions. Nous avons choisi ResNeXt101 parce qu'il a obtenu de
meilleurs résultats que d'autres dorsales standard dans la reconstruction de
signaux PPG de contact à partir de signaux de non-contact grâce à leur
représentation en ondelettes continues, un problème qui est en fait assez
similaire [11].
Les techniques de régularisation conventionnelles (par exemple le dropout) n'ont pas été
in-
22
La fonction d'activation linéaire a été spécifiée parce que la tâche ciblée
correspond à une régression sous la forme d'une reconstruction pixel à
pixel d'une représentation en ondelettes à deux canaux. La fonction
d'activation linéaire a été spécifiée parce que la tâche ciblée correspond à
une régression sous la forme d'une reconstruction pixel à pixel d'une
représentation en ondelettes à deux canaux.

23
ResNeXt101
ImageNet sortie (256 x 256 x 2)
(pré-entraîné)
l'apprentissage
par transfert
(codeur Bloc ResNeXt
Conv2D uniquement) Conv2D
256-d en
Vidéo 128 x 128 x 64
256 x 256 x 16

Mise Bloc 256, 1x1, 4 256, 1x1, 4 256, 1x1, 4

256 x 256 x 3 en décode ...


iPPG 4, 3x3, 4 4, 3x3, 4 32 chemins 4, 3x3, 4
commu64 x 64 x 64 ur 5
adaptation

signal
Conv2D

n 128 x 128 x 32 concaténer


canal

256 x 1 maxima
ResNeXt Bloc
x3 128, 1x1, 256
le
Bloc 1 décode
ur 4 +
CWT 64 x 64 x 256
256-d out
64 x 64 x 64
256 x 256 x 2
ResNeXt Bloc
x4 Bloc décodeur
Bloc 2 décode
32 x 32 x 512 ur 3 en
32 x 32 x 128 UpSampling
concat.
ResNeXt Décodeur avec
x 23 codeur
Bloc 3 Bloc 2 Conv2D
16 x 16 x 1024
16 x 16 x 256
Conv2D
ResNeXt Décodeur
x3 sort
Bloc 4 Bloc 1 ir
8 x 8 x 2048
Encode Décodeu
ur r
Figure 5 : Vue d'ensemble du réseau U-Net [31] proposé dans cette étude, qui comprend un
encodeur (échantillonnage descendant) et un décodeur (échantillonnage ascendant). Le
codeur est remplacé par une dorsale ResNeXt101 [43]. Les blocs ResNeXt et décodeur
sont détaillés dans la partie droite de la figure. L'entrée d'un bloc ResNeXt (256
dimensions dans l'exemple illustré dans la figure) est divisée en 32 branches (ou
chemins) de dimensions inférieures qui seront ensuite fusionnées par concaténation.
Cette architecture exploite la stratégie de division-transformation-fusion d'Inception,
mais avec une topologie uniforme. Les paramètres de chaque étape de cet exemple de
bloc ResNeXt sont respectivement le nombre de filtres d'entrée, la taille du filtre et le
nombre de filtres de sortie. Chaque bloc ResNeXt présente des paramètres différents. Ils
sont spécifiés dans [43].

Les dimensions d'entrée d'un réseau U-Net soutenu par un backbone sont les suivantes
xé par les données utilisées pour leur apprentissage (images RVB de 256
× 256 pixels de la base de données ImageNet). Les entrées étant dans notre
cas une représentation en ondelettes à deux canaux, une stratégie
d'adaptation doit être introduite. Nous avons utilisé une couche
convolutive 2D supplémentaire avec un noyau (1, 1) qui a été placée entre
la couche d'entrée et la partie codeur du réseau. Les neurones de cette
couche permettent de convertir l'entrée de N à 3 canaux. Les poids de tous
les réseaux ont été initialisés aléatoirement par la méthode proposée par
Glorot et Bengio [44]. Les biais sont initialisés à zéro. L'erreur
quadratique moyenne (MSE) a été choisie comme perte pour
24
l'entraînement de tous les modèles :

25
1 2
MSE = CWT i,j - C^W T i,j (6)
n
i,j

La CWT correspond à la transformée en ondelettes (voir figure 3) du sol.


vérité signal C^WT est la représentation en ondelettes prédite par le système neuronal.
BP.
à partir de la représentation en ondelettes du signal iPPG.
La mise en œuvre de l'architecture a été réalisée sous Python à l'aide de
l'API Keras et de la bibliothèque Tensor ow. La bibliothèque
Segmentation Models [45] proposée par P. Yakubovskiy a été utilisée
pour développer le réseau neuronal. Les sessions d'entraînement ont été
lancées sur 500 époques à travers des lots de 16 images. Nous avons utilisé,
dans cette étude, l'algorithme d'optimisation d'Adam [46] avec un taux
d'apprentissage de 0,001. Un ordinateur dédié équipé d'un double Intel
Xeon Silver 4114 et de deux Nvidia Quadro P6000 a été utilisé pour
effectuer l'apprentissage du réseau.

4. Résultats
L'architecture U-Net proposée transforme un signal iPPG en un signal
BP continu par le biais de sa représentation en ondelettes. La figure 4
illustre un exemple typique d'estimation BP (figure en haut à droite) à
partir d'une onde iPPG (figure en haut à gauche). La forme d'onde prédite
suit de près l'onde de pression artérielle de référence présentée dans la
figure du haut et du milieu. La forme et l'amplitude, qui étaient
initialement différentes, ont été préservées. Nous pouvons remarquer de
petites différences de phase dans les représentations en ondelettes du
signal iPPG (f i g u r e en bas à gauche).

2 2 2 2

0 0 0 0
unité

unité

unité

unité
arb.

arb.

arb.

arb.

0 1 2 0 1 2
-2 60 -2 -2
0 1 2 Temps (s) 0 1 2 Tem
pred Temps (s) Temps (s) ps
GT (s)
Pression artérielle

Pression artérielle

Pression artérielle

100 100 100

80 80
80
(mmHg)

(mmHg)

(mmHg)

60
60
26
-2
0 1 2 0 1 2
Temps (s) Te
mps
110 (s)

Pression artérielle
100

90

(mmHg)
80
0 1 2
Temps (s)
0 1 2
Te
mps
(s)

Figure 6 : Reconstruction de signaux de tension artérielle typiques pour plusieurs


valeurs de fréquence de pouls. F i g u r e s du haut : signaux iPPG. Figures du bas :
tension prédite et tension de référence (GT).

27
et le signal BP de vérité au sol (en bas au milieu de la figure). Le réseau
neuronal a appris cette spécificité, la représentation en ondelettes
reconstruite (figure en bas à droite) étant en phase avec celle de la vérité
de terrain (figure en bas au milieu). La phase a donc été correctement
récupérée. Ceci est conforme aux observations précédentes que nous
avons faites lorsque nous avons testé ce réseau neuronal pour transformer
les signaux PPG de contact en signaux iPPG [11] et aux observations
d'autres auteurs qui ont utilisé l'apprentissage profond pour convertir les
ondes PPG de contact en ondes BP [26].
La figure 6 illustre plusieurs exemples d'estimation de la pression
artérielle à partir de signaux iPPG. Nous avons évalué les performances de
la technique proposée à l'aide des normes internationales [47, 48] de
l'Association for the Advancement of Medical Instrumentation (AAMI) et
de la British Hypertension Soci- ety (BHS). Nous soulignons toutefois que
BP4D+ contient des vidéos et des données physiologiques qui n'ont pas
été enregistrées dans un contexte clinique. De plus, le sous-ensemble
constitué intègre 57 participants alors que l'AAMI recommande d'évaluer
les techniques d'estimation de la pression artérielle sur un minimum de 85
sujets.
4.1. Mesures générales et diagrammes de Bland-Altman
L'erreur absolue moyenne (MAE, équation 7) et l'erreur quadratique
moyenne (RMSE, équation 8) ont été utilisées pour quantifier le niveau de
concordance entre la ˆ pression artérielle prédite (PA) et la pression
artérielle de référence (PA). Nous avons calculé ces mesures pour la DBP,
la MAP et la SBP sur l'ensemble des tests (voir section 3.1).
n
MAE = 1 Σ |BP - BˆP | (7)
i i
n
i=1
,
u 1 n 2
RMSE = nΣi=1 BPi − Bˆ
Pi (8)
Le tableau 2 présente une analyse comparative des résultats obtenus
dans des travaux similaires. Des représentations de Bland-Altman ont été
calculées pour la DBP, la MAP et la SBP sur toutes les données de test.
La moyenne entre les valeurs de PA estimées et les valeurs de PA réelles
est représentée sur l'axe des x, tandis que les différences entre les valeurs de
PA estimées et les valeurs de PA réelles sont représentées sur l'axe des y.
Les graphiques obtenus sont présentés à la figure 7. Les moyennes sont
28
représentées par des lignes en tirets et les limites d'accord à 95 % (± 1,96
écart-type) par des lignes en pointillés. Les plages de ces limites sont [-
12,3 14,3], [-12,0 11,6] et [-19,6 16,6] pour la DBP, la MAP et la SBP
respectivement.

29
MAE (mmHg) RMSE (mmHg)
DBP 7.59
Rong et Li [9]
SBP 9.97
DBP 10.3
Schrumpf et al [10]
SBP 13.6
DBP 5.1 6.85
iPPG2BP (nos MAP 4.47 6.01
résultats)
SBP 6.73 9.34

Tableau 2 : Erreurs d'estimation de la pression artérielle. L'erreur absolue moyenne


(MAE) et l'erreur quadratique moyenne (RMSE) ont été calculées entre la DBP, la
MAP et la SBP estimées et la vérité de terrain. Les résultats d'études similaires sont
également rapportés.

DBP MAP SBP


50 50 50
Erreur de prédiction

Erreur de prédiction
Erreur de prédiction

0 0 0
(mmHg)

(mmHg)
(mmHg)

-50 -50 -50


50 60 70 80 90 70 80 90 100 110 100 120 140
Moyenne de GT et de la Moyenne de GT et de la Moyenne de GT et de la prédiction (mmHg)
prédiction (mmHg) prédiction (mmHg)

Figure 7 : Diagrammes de Bland-Altman pour la prédiction de la DBP, de la MAP et de


la SBP. Les moyennes sont représentées par des lignes en tirets et les limites d'accord à
95 % (± 1,96 SD) par des lignes en pointillés.

4.2. Normes BHS


Le BHS évalue les techniques d'estimation de la pression artérielle en
fonction de leur pourcentage cumulatif d'erreurs [47]. Différents grades
sont fournis (voir tableau 3) en fonction du pourcentage des prédictions
sur les échantillons de test qui se situent sous trois seuils empiriques, à
savoir 5, 10 et 15 mmHg.
Le tableau 3 présente une analyse comparative de l'évaluation BHS sur
nos résultats. Nous avons reporté les valeurs fournies par Rong et Li [9],
car il semble que ce soit la seule étude qui ait calculé les métriques BHS.
Nos résultats montrent de bonnes performances globales avec plus de 60%,
87% et 95% des échantillons testés ayant des erreurs d'estimation
inférieures, respectivement, à 5, 10 et 15 mmHg pour la DBP et la MAP
(grade A). Plus de 50 % et 79 % des prédictions de PAS sont inférieures à
5 et 10 mmHg respectivement (catégorie B), tandis que 89,6 % des
prédictions de PAS sont inférieures à 15 mmHg, ce qui est légèrement
30
inférieur au seuil de 90 %.
Les conclusions tirées de l'analyse des résultats présentés dans le
tableau 3 sont présentées graphiquement dans la figure 8.

31
Pourcentage d'erreur cumulée
≤ 5 mmHg ≤ 10 mmHg ≤ 15 mmHg
DBP 55.4% 85.7% 98.2%
Rong et Li [9] SBP 48.2% 78.6% 94.6%
DBP 60.2% 87.1% 95.8%
iPPG2BP (nos MAP 66.8% 90.9% 96.4%
résultats) SBP 50.2% 79.0% 89.6%
grade A 60% 85% 95%
BHS grade B 50% 75% 90%
grade C 40% 65% 85%

Tableau 3 : Mesures BHS pour la prédiction de la DBP, de la MAP et de la SBP.

Figure 8 : Erreur absolue dans les prédictions de DBP, MAP et SBP. Les lignes pointillées
représentent les seuils de 5, 10 et 15 mmHg recommandés par la BHS.

4.3. Normes AAMI


L'AAMI propose d'évaluer les techniques d'estimation de la pression
artérielle en analysant l'erreur moyenne (ME) et l'écart-type des erreurs
(SDE) sur l'ensemble des tests [48]. La première doit être inférieure à 5
mmHg tandis que la seconde doit être inférieure à 8 mmHg pour respecter
pleinement la recommandation.
Le tableau 4 présente une analyse comparative de l'évaluation de
l'AAMI et de nos résultats. Nous avons également rapporté les valeurs
fournies par Luo et al [6] et Rong et Li [9]. Nos résultats présentent de
bonnes performances globales. Le DBP et le MAP satisfont tous deux aux
normes de l'AAMI. Elles présentent un faible ME et un SDE inférieur à 8
mmHg. En ce qui concerne les estimations de la SBP, la condition ME est
remplie mais la SDE est un peu plus élevée (1,2 mmHg au-dessus du seuil
de 8 mmHg défini par l'AAMI).
Les histogrammes des erreurs de prédiction pour la DBP, la MAP et la
SBP sont présentés à la figure 9. L'étendue de ces histogrammes donne une
image graphique des différents SDE présentés dans 4 (plus étroit pour la
32
MAP, plus large pour la SBP).

33
ME (mmHg) SDE (mmHg)
DBP -0.20 6.00
Luo et al [6] SBP 0.39 7.30
DBP 0.79 2.58
Rong et Li [9] SBP 2.1 3.35
DBP -1.001 6.781
iPPG2BP (nos MAP -0.205 6.007
résultats)
SBP 1.51 9.221
Norme AAMI ≤5 ≤8

Tableau 4 : Mesures AAMI pour la prédiction de la DBP, de la MAP et de la SBP. ME :


Erreur moyenne ; SDE : Déviation standard des erreurs.

Figure 9 : Erreur dans les prédictions DBP, MAP et DBP.

5. Discussion

La méthode présentée dans cet article correspond à l'une des rares pro-
positions qui s'appuie sur l'apprentissage profond pour estimer la pression
artérielle à partir d'une vidéo du visage. Nous proposons, dans la sous-
section suivante, de discuter et de comparer nos résultats avec des travaux
connexes. La section 5.2 présente les limites de cette étude. Enfin, nous
présentons et discutons les résultats d'une procédure de validation croisée
avec un seul patient (section 5.3).

5.1. A propos des résultats présentés dans cette étude


En ce qui concerne les travaux antérieurs, et à notre connaissance,
seuls Rong et Li ont présenté des représentations de Bland-Altman pour
évaluer leurs résultats. La technique proposée par les auteurs semble sous-
estimer les faibles valeurs de PA et surestimer les valeurs élevées de PA,
tant pour la PAD que pour la PAS [9]. Nos résultats décrivent une
tendance similaire mais avec un impact moindre, les diagrammes de
Bland-Altman présentés dans la figure 7 étant assez cohérents pour toute
34
la gamme de PA. Le tableau 2 présente une analyse comparative des
résultats obtenus dans des travaux similaires. La technique proposée dans
cette étude est plus performante que les autres méthodes dans les domaines
suivants

35
en termes de MAE et de RMSE. Nous soulignons toutefois que les résultats
rapportés par d'autres études ont été calculés à partir de données de nature
différente. À notre connaissance, ces données ne sont pas accessibles au
public.
Les résultats présentés dans les sections 4.2 et 4.3 montrent un niveau
pertinent de concordance entre les valeurs de PA prédites et les valeurs de
PA réelles. On peut toutefois observer que plusieurs prédictions de tension
artérielle dépassent le seuil de 15 mmHg, en par- ticulier pour la SBP (voir
tableau 3). Nous soulignons qu'aucune autre technique axée sur l'analyse de
la pression artérielle à partir d'une seule vidéo du visage n'a obtenu la note B
pour la prédiction de la pression artérielle systolique, en particulier à partir
de données difficiles. Les techniques dédiées à la conversion des signaux
PPG de contact en forme d'onde de PA [26] ou des signaux PPG de
contact en valeurs DBP et SBP [30, 28, 29] produisent également des
estimations de SBP qui sont moins pertinentes que les estimations de
DBP. Nous ne rapportons pas les analyses AAMI et BHS de Schrumpf et
al. car aucun de leurs résultats ne semble satisfaire aux exigences [10].
L'intégration de la représentation en ondelettes des signaux iPPG au
lieu des signaux iPPG bruts dans le réseau est un point clé de la méthode
présentée dans cette étude. Nous tirons ici parti de l'apprentissage par
transfert grâce à un back- bone ResNeXt pré-entraîné sur de grandes bases
de données [11]. Les réseaux en U ont été largement utilisés pour la
segmentation des images médicales et peuvent être formés avec un faible
volume de données [41].
5.2. Limites
La figure 10 présente une prédiction de moindre qualité où la valeur
moyenne de la tension artérielle est approximativement estimée par le
modèle. Hormis l'erreur moyenne, la PAD et la PAS semblent être
correctement estimées. L'ajout de données supplémentaires pendant la
phase d'apprentissage du réseau peut résoudre, ou au moins minimiser,
cette erreur moyenne. L'équilibrage de la distribution des valeurs de la
tension artérielle de référence tout en faisant varier la forme d'onde de
l'iPPG et de la tension artérielle (forme des signaux) peut être une approche
pertinente pour résoudre ce problème.
Tous les résultats présentés sont limités par l'ensemble de données
actuel : un faible pourcentage de sujets (<85) a été utilisé pour obtenir les
résultats présentés dans la section 4. Nous soulignons que la pression
artérielle de référence, recueillie à l'aide d'un capteur continu non invasif,
36
n'a pas été enregistrée dans un contexte clinique. Il pourrait y avoir des
valeurs de vérité de base non pertinentes, conduisant finalement à un
apprentissage incorrect de la PA par le modèle U-Net présenté à la section
3.3. Nous insistons également sur le fait que seules les vidéos présentant
des signaux iPPG clairs ont été incluses dans l'ensemble de données. Les
vidéos comportant des mouvements peuvent produire des signaux iPPG
contenant des artefacts importants. Cette source particulière de bruit peut
avoir un impact négatif sur l'analyse de l'iPPG.

37
2

0
unité
arb.
-2
0 0.5 1 1.5 2 2.5
Temps
prévu
(s)
vérité terrain
120
Pression artérielle

100

80
(mmHg)

60
0 0.5 1 1.5 2 2.5
Temps (s)

Figure 10 : Prédictions de moindre qualité. Figure du haut : signal iPPG. F i g u r e d u


bas : prédiction et vérité de terrain BP.

Coefficients CWT. L'inclusion de signaux iPPG bruyants dans l'ensemble


de données sera l'objectif de travaux futurs. Il est nécessaire d'élargir
l'ensemble de données actuellement limité afin que tous les types de bruit
soient représentés.
Les distributions de données présentées dans la figure 2 ne sont pas
bien équilibrées sur l'ensemble de la plage de tension artérielle. Cela peut
avoir un impact considérable sur la formation, notamment en réduisant le
pouvoir de généralisation du modèle (voir la sous-section suivante). Pour
résoudre ce problème, le développement d'une sélection intelligente des
chevauchements pourrait être une approche potentielle. Elle consisterait à
augmenter automatiquement le chevauchement afin de produire davantage
de signaux dans les plages BP sous-représentées. Nous soulignons
également que des stratégies d'augmentation des données ont été
récemment proposées dans le domaine de l'estimation de la fréquence du
pouls à partir de la vidéo pour améliorer les performances des modèles
[49]. Ces approches ne sont toutefois pas concevables dans le cas de
l'estimation de la tension artérielle car la suppression d'images ou
l'augmentation des vidéos avec des trans- formations conventionnelles peut
avoir un impact direct sur la forme des formes d'ondes iPPG. Le
développement d'une stratégie d'augmentation des représentations en
38
ondelettes, par exemple en ajoutant un bruit aléatoire aux coefficients
CWT, peut être une approche intéressante.
Les distributions des ensembles de formation, de validation et de test présentées dans le
document
La figure 2 contient un mélange des données de tous les participants. Dans la sous-section
suivante,

39
nous analysons l'impact d'une procédure de validation croisée "leave-one-
patient-out" sur les performances.

5.3. Validation croisée avec abandon d'un patient


Le tableau 5 présente l'évaluation de la PA à l'aide de la méthode
proposée dans cette étude (section 3), mais dans le cadre d'une procédure
de validation croisée " leave-one-patient-out " (trois plis). Nous pouvons
observer une diminution des performances sur l'ensemble des plis, même
si certaines valeurs sont proches des recom- mandations des standards
internationaux. Les représentations de Bland-Altman pour la DBP, la
MAP et la SBP sur toutes les données du premier pli sont présentées à la
figure 11. Elles présentent des nuages de points plus larges que ceux
calculés à partir des sous-ensembles distribués de manière aléatoire (voir
les diagrammes de Bland-Altman présentés à la figure 7) où chaque
ensemble comprend un portefeuille équilibré de participants et de tâches
(détails dans la section 3.1). Nous pouvons également observer que les
prédictions de SBP présentées dans la figure 11 suivent une tendance
inverse de celles présentées dans la figure 7. Ici, le modèle entraîné
surestime la tension artérielle lorsque celle-ci est basse et la sous-estime
lorsqu'elle est élevée. Tous ces résultats montrent une limitation du
pouvoir de généralisation du réseau mais sont, en revanche, encourageants
car le modèle a été entraîné avec des données limitées.
Le tableau 5 montre également que les performances du modèle sont médiocres
pour les estimations de la tension artérielle du pli 2. Après avoir examiné
de plus près les signaux iPPG et la tension artérielle de référence, nous
avons remarqué que cette baisse de performance était due à un patient qui
présentait les valeurs de tension artérielle les plus élevées. Tous les signaux
de ces patients ont été inclus dans le test et étaient donc totalement absents
de l'ensemble d'apprentissage. Nous pensons donc que le réseau n'a pas
appris les caractéristiques relatives à ces échantillons spécifiques. Comme
indiqué dans la sous-section précédente, l'élargissement de l'ensemble de
données est une étape nécessaire pour améliorer la généralisation.

6. Conclusion et travaux futurs

Nous avons proposé, dans cet article, une solution axée sur
l'apprentissage profond et dédiée à la récupération de la pression sanguine
à partir d'une vidéo faciale. La reconstruction est effectuée à l'aide d'un
réseau en U soutenu par un backbone ResNeXt à partir de la
40
représentation temps-fréquence du signal iPPG. À notre connaissance,
cette étude présente la première démonstration d'un cadre automatique qui
permet d'estimer la forme d'onde continue de la tension artérielle à partir
d'une vidéo faciale. L'approche correspond à un moyen efficace de prédire
la tension artérielle sans extraction préalable de caractéristiques de forme
d'onde compliquées, élaborées à la main, à partir d'une vidéo du visage.

41
Erreurs BHS AAMI (mmHg)
Plier (mmHg)
MAE RMSE ≤5 ≤ 10 ≤ 15 ME SDE
8.28 11.78 49% 73% 83% 4.23 10.99 DBP
1 7.52 10.66 50% 76% 86% 3.39 10.11 MAP
9.79 12.64 33% 61% 76% 4.56 11.79 SBP
5.83 7.12 48% 85% 97% 0 7.12 DBP
2 8.03 10.24 43% 65% 87% 3.97 9.45 MAP
16.41 21.61 26% 46% 57% 12.99 17.27 SBP
11.43 14.12 28% 51% 68% -4.77 13.29 DBP
3 8.11 10.21 38% 69% 86% -3.81 9.47 MAP
8.87 11.33 38% 62% 81% -4.77 10.28 SBP

Tableau 5 : Évaluation de la solution proposée dans le cadre d'une procédure de validation


croisée "leave-one-patient-out".

DBP MAP SBP


50 50 50
Erreur de prédiction

Erreur de prédiction
Erreur de prédiction

0 0 0
(mmHg)

(mmHg)

-50 (mmHg) -50


-50
60 70 80 90 70 80 90 100 110 100 110 120 130
Moyenne de GT et de la Moyenne de GT et de la Moyenne de GT et de la prédiction (mmHg)
prédiction (mmHg) prédiction (mmHg)

Figure 11 : Diagrammes de Bland-Altman pour la prédiction de la DBP, de la MAP et


de la SBP dans le cadre d'une procédure de validation croisée à trois niveaux (seuls les
résultats du premier niveau sont présentés ici).

le signal iPPG. Nos expériences approfondies ont montré l'efficacité de la


méthode proposée, qui atteint une grande précision et satisfait à toutes les
normes internationales pour l'estimation de la tension moyenne et
diastolique (grade A) et à presque toutes les normes internationales pour
l'estimation de la tension systolique (grade B).
Plusieurs possibilités d'amélioration de ce travail sont envisagées.
Nous proposons tout d'abord d'élargir le volume actuellement limité de
données en augmentant le nombre d'enregistrements et de participants
inclus. Dans cette étude, nous avons procédé à une sélection manuelle des
vidéos qui présentaient des signaux iPPG bien définis. Cette étape peut
être automatisée à l'aide d'un indice de qualité [17]. En outre, il a
récemment été démontré que les stratégies d'augmentation des données
peuvent améliorer considérablement les performances des modèles
d'apprentissage profond dédiés à l'estimation du pouls à partir de vidéos
42
[49]. La production d'un plus grand nombre de signaux superposés dans la
plage des valeurs de PA faiblement représentées pourrait être une première
approche envisagée pour rééquilibrer la distribution de l'ensemble de
données.

43
L'ondelette Morlet a été utilisée comme fonction prototype pour le
calcul de la CWT. Nous proposons d'évaluer l'impact sur les performances
avec différentes ondelettes mères et d'étudier différentes représentations
temps-fréquence telles que les transformées de Fourier à court terme et les
transformées Q constantes.
La saisie directe du flux vidéo dans une architecture de bout en bout
plutôt que la représentation temps-fréquence du signal iPPG fera l'objet
d'une recherche à long terme. Nous envisageons également d'étendre ces
travaux au contexte de la saturation en oxygène du sang en utilisant une
approche similaire (en introduisant des représentations CWT des signaux
iPPG dans un modèle U-Net profond).

7. Remerciements

Ce travail a été partiellement financé par le Contrat Plan tat R gion


(CPER) Innovations Technologiques, Mod lisation et M decine Personnal-
is e (IT2MP) et le Fonds Europ en de D veloppement R gional (FEDER).

Références

[1] D. McDu , Camera measurement of physiological vital signs, arXiv


preprint arXiv:2111.11547 (2021).
[2] S. Zaunseder, A. Trumpp, D. Wedekind, H. Malberg, Cardiovascu-
lar assessment by imaging photoplethysmography a review,
Biomedical Engineering/Biomedizinische Technik (2018).
[3] A. Ni, A. Azarang, N. Kehtarnavaz, A Review of Deep Learning-
Based Contactless Heart Rate Measurement Methods, Sensors 21
(2021) 3719. URL: https://www.mdpi.com/1424-8220/21/11/3719.
doi:10.3390/s21113719.
[4] C.-H. Cheng, K.-L. Wong, J.-W. Chin, T.-T. Chan, R. H. Y. So, Deep
Méthodes d'apprentissage pour la mesure à distance de la fréquence
cardiaque : A Review and Future Research Agenda, Sensors 21
(2021) 6296. URL : https://www. mdpi.com/1424-8220/21/18/6296.
doi:10.3390/s21186296.
[5] A. Al-Naji, G. A. Khalid, J. F. Mahdi, J. Chahl, Non-Contact
SpO2 Prediction System Based on a Digital Camera, Applied
44
Sciences 11 (2021) 4255. URL: https://www.mdpi.com/2076-
3417/11/9/4255. doi:10.3390/app11094255.

45
[6] H. Luo, D. Yang, A. Barszczyk, N. Vempala, J. Wei, S. J. Wu, P. P.
Zheng, G. Fu, K. Lee, Z.-P. Feng, Smartphone-based blood pressure
measurement using transdermal optical imaging technology, Circulation
: Cardiovascular Imaging 12 (2019) e008857.
[7] N. Sugita, M. Yoshizawa, M. Abe, A. Tanaka, N. Homma, T. Yambe,
Contactless Technique for Measuring Blood-Pressure Variability
from One Region in Video Plethysmography, Journal of Medical and
Biolog- ical Engineering (2018) 1 10.
[8] X. Fan, Q. Ye, X. Yang, S. D. Choudhury, Robust blood pressure es-
timation using an RGB camera, Journal of Ambient Intelligence and
Humanized Computing (2018) 1 8.
[9] M. Rong, K. Li, A Blood Pressure Prediction Method Based on
Imaging Photoplethysmography in combination with Machine
Learning, Biomedical Signal Processing and Control 64 (2021)
102328. URL: https://linkinghub.elsevier.com/retrieve/pii/
S1746809420304444. doi:10.1016/j.bspc.2020.102328.

[10] F. Schrumpf, P. Frenzel, C. Aust, G. Osterho , M. Fuchs, Assessment


of Non-Invasive Blood Pressure Prediction from PPG and rPPG
Signals Using Deep Learning, Sensors 21 (2021) 6022. URL :
https://www. mdpi.com/1424-8220/21/18/6022. doi:10.3390/s21186022.

[11] F. Bousefsaf, D. Djeldjli, Y. Ouzar, C. Maaoui, A. Pruski, iPPG 2


cPPG : reconstructing contact from imaging photoplethysmographic sig-
nals using U-Net architectures, Computers in Biology and Medicine 138
(2021) 104860. URL: https://linkinghub.elsevier.com/retrieve/
pii/S0010482521006545. doi:10.1016/j.compbiomed.2021.104860.

[12] Y. Lu, C. Wang, M. Q.-H. Meng, Video-based Contactless Blood


Pres- sure Estimation : A Review, in : 2020 IEEE International
Conference on Real-time Computing and Robotics (RCAR), IEEE,
Asahikawa, Japon, 2020, pp. 62 67. URL :
https://ieeexplore.ieee.org/document/ 9303040/.
doi:10.1109/RCAR49640.2020.9303040.
[13] N. Sugita, K. Obara, M. Yoshizawa, M. Abe, A. Tanaka, N. Homma,
Techniques for estimating blood pressure variation using video images,
in : Engineering in Medicine and Biology Society (EMBC), 2015 37th
46
Annual International Conference of the IEEE, IEEE, 2015, pp. 4218
4221.
[14] I. C. Jeong, J. Finkelstein, Introducing contactless blood pressure as-
sessment using a high speed video camera, Journal of medical
systems 40 (2016) 77.
[15] P.-W. Huang, C.-H. Lin, M.-L. Chung, T.-M. Lin, B.-F. Wu, Image
based contactless blood pressure assessment using Pulse Transit
Time, in : Automatic Control Conference (CACS), 2017
International, IEEE, 2017, pp. 1 6.
[16] D. Shao, Y. Yang, C. Liu, F. Tsow, H. Yu, N. Tao, Noncontact mon-
itoring breathing pattern, exhalation ow rate and pulse transit time,
IEEE Transactions on Biomedical Engineering 61 (2014) 2760 2767.
[17] X. Fan, T. Tjahjadi, Robust contactless pulse transit time estimation
based on signal quality metric, Pattern Recognition Letters 137
(2020) 12 16.
[18] N. Sugita, T. Noro, M. Yoshizawa, K. Ichiji, S. Yamaki, N. Homma,
Estimation of Absolute Blood Pressure Using Video Images Captured
at Di erent Heights from the Heart, in : 2019 41st Annual
International Conference of the IEEE Engineering in Medicine and
Biology Society (EMBC), IEEE, 2019, pp. 4458 4461.
[19] M. Elgendi, On the analysis of ngertip photoplethysmogram signals,
Current cardiology reviews 8 (2012) 14 25.
[20] E. von Wowern, G. stling, P. M. Nilsson, P. Olofsson, Digital photo-
plethysmography for assessment of arterial sti ness : repeatability and
comparison with applanation tonometry, PloS one 10 (2015)
e0135659.
[21] D. Djeldjli, F. Bousefsaf, C. Maaoui, F. Bereksi-Reguig, A. Pruski,
Re- mote estimation of pulse wave features related to arterial sti ness
and blood pressure using a camera, Biomedical Signal Processing and
Con- trol 64 (2021) 102242.
[22] M. Jain, S. Deb, A. Subramanyam, Face video based touchless blood
pressure and heart rate estimation, in : Multimedia Signal Processing

47
(MMSP), 2016 IEEE 18th International Workshop on, IEEE, 2016,
pp. 1 5.
[23] C. G. Viejo, S. Fuentes, D. D. Torrico, F. R. Dunshea, Non-Contact
Heart Rate and Blood Pressure Estimations from Video Analysis and
Machine Learning Modelling Applied to Food Sensory Responses : A
Case Study for Chocolate, Sensors 18 (2018) 1802.
[24] W. Verkruysse, L. O. Svaasand, J. S. Nelson, Remote
plethysmographic imaging using ambient light, Optics express 16
(2008) 21434 21445.
[25] W. Wang, A. C. den Brinker, S. Stuijk, G. de Haan, Algorithmic
Prin- ciples of Remote PPG, IEEE Transactions on Biomedical
Engineering 64 (2017) 1479 1491.
[26] N. Ibtehaz, M. S. Rahman, PPG2ABP : Translating Photoplethysmo-
gram (PPG) Signals to Arterial Blood Pressure (ABP) Waveforms
using Fully Convolutional Neural Networks, arXiv preprint
arXiv:2005.01669 (2020).
[27] M. S. Tanveer, M. K. Hasan, Cu ess blood pressure estimation from
electrocardiogram and photoplethysmogram using waveform based
ANN-LSTM network, Biomedical Signal Processing and Control 51
(2019) 382 392.
[28] M. Panwar, A. Gautam, D. Biswas, A. Acharyya, PP-Net : A Deep
Learning Framework for PPG based Blood Pressure and Heart Rate
Estimation, IEEE Sensors Journal (2020). Éditeur : IEEE.
[29] M. H. Chowdhury, M. N. I. Shuzan, M. E. Chowdhury, Z. B. Mahbub,
M. M. Uddin, A. Khandakar, M. B. I. Reaz, Estimating Blood Pres-
sure from the Photoplethysmogram Signal and Demographic Features
Using Machine Learning Techniques, Sensors 20 (2020) 3127. Éditeur :
Institut de publication numérique multidisciplinaire.
[30] G. Slapni ar, N. Mlakar, M. Lu trek, Blood pressure estimation from
photoplethysmogram using a spectro-temporal deep neural network,
Sensors 19 (2019) 3420. Éditeur : Institut de publication numérique
multidisciplinaire.

48
[31] O. Ronneberger, P. Fischer, T. Brox, U-net : Convolutional networks
for biomedical image segmentation, in : International Conference on
Medical image computing and computer-assisted intervention, Springer,
2015, pp. 234 241.
[32] Z. Zhang, J. M. Girard, Y. Wu, X. Zhang, P. Liu, U. Ciftci, S. Cana-
van, M. Reale, A. Horowitz, H. Yang, others, Multimodal
spontaneous emotion corpus for human behavior analysis, in :
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2016,
pp. 3438 3446.
[33] G. de Haan, V. Jeanne, Robust pulse rate from chrominance-based
rPPG, IEEE Transactions on Biomedical Engineering 60 (2013) 2878
2886.
[34] A. Hammer, M . Scherpf, M . Schmidt, H . Ernst, H . Malberg,
K. Matschke, A. Dragu, J. Martin, O. Bota, Camera-based assessment of
cutaneous perfusion strength in a clinical setting, Physiological
Measure- ment (2022). URL :
http://iopscience.iop.org/article/10.1088/ 1361-6579/ac557d.

[35] M. P. Tarvainen, P. O. Ranta-Aho, P. A. Karjalainen, An advanced


detrending method with application to HRV analysis, IEEE
transactions on biomedical engineering 49 (2002) 172 175. Éditeur :
IEEE.
[36] M.-Z. Poh, D. J. McDu , R. W. Picard, Advancements in noncon-
tact, multiparameter physiological measurements using a webcam, IEEE
transactions on biomedical engineering 58 (2011) 7 11.
[37] Y. Nirkin, I. Masi, A. T. Tuan, T. Hassner, G. Medioni, On face seg-
mentation, face swapping, and face perception, in : 2018 13th IEEE
In- ternational Conference on Automatic Face & Gesture Recognition
(FG 2018), IEEE, 2018, pp. 98 105.
[38] Y. Ouzar, D. Djeldjli, F. Bousefsaf, C. Maaoui, LCOMS Lab's Ap-
proach to the Vision for Vitals (V4V) Challenge, in : Proceedings of
the IEEE/CVF International Conference on Computer Vision, 2021,
pp. 2750 2754.

49
[39] F. Bousefsaf, C. Maaoui, A. Pruski, Continuous wavelet ltering on
webcam photoplethysmographic signals to remotely assess the instan-
taneous heart rate, Biomedical Signal Processing and Control 8
(2013) 568 574.
[40] F. Bousefsaf, C. Maaoui, A. Pruski, Peripheral vasomotor activity as-
sessment using a continuous wavelet analysis on webcam
photoplethys- mographic signals, Bio-medical materials and
engineering 27 (2016) 527 538.
[41] S. Leclerc, E. Smistad, J. Pedrosa, A. stvik, F. Cervenansky, F. Es-
pinosa, T. Espeland, E. A. R. Berg, P.-M. Jodoin, T. Grenier, others,
Deep learning for segmentation using an open large-scale dataset in
2d echocardiography, IEEE transactions on medical imaging (2019).
[42] E. C. Too, L. Yujian, S. Njuki, L. Yingchun, A comparative study of
ne- tuning deep learning models for plant disease identi cation,
Computers and Electronics in Agriculture 161 (2019) 272 279. Éditeur
: Elsevier.
[43] S. Xie, R. Girshick, P. Doll r, Z. Tu, K. He, Aggregated residual
trans- formations for deep neural networks, in : Proceedings of the IEEE
confer- ence on computer vision and pattern recognition, 2017, pp.
1492 1500.
[44] X. Glorot, Y. Bengio, Understanding the di culty of training deep
feed- forward neural networks, in : Proceedings of the thirteenth
international conference on arti cial intelligence and statistics, 2010,
pp. 249 256.
[45] P. Yakubovskiy, Modèles de segmentation, GitHub, 2019.
URL : https://github.com/qubvel/segmentation_models, titre de
la publication : Dépôt GitHub.
[46] D. P. Kingma, J. Ba, Adam : A method for stochastic optimization,
arXiv preprint arXiv:1412.6980 (2014).
[47] E. O'Brien, J. Petrie, W. Littler, M. de Swiet, P. L. Pad eld,
K. O'Malley, M. Jamieson, D. Altman, M. Bland, N. Atkins, The
british hypertension society protocol for the evaluation of automated
and semi-automatic blood pressure measuring devices with special
50
reference to ambulatory systems, Journal of hypertension 8 (1990)
607 619.

51
[48] G. S. Stergiou, B. Alpert, S. Mieke, R. Asmar, N. Atkins, S. Eckert,
G. Frick, B. Friedman, T. Gra l, T. Ichikawa, autres, Une norme
universelle pour la validation des appareils de mesure de la pression
artérielle : As- sociation for the Advancement of Medical
Instrumentation/European Society of Hypertension/International
Organization for Standardization (AAMI/ESH/ISO) Collaboration
Statement, Hypertension 71 (2018) 368 374. Éditeur : Am Heart
Assoc.
[49] Z. Yu, X. Li, X. Niu, J. Shi, G. Zhao, AutoHR : A Strong End- to-
End Baseline for Remote Heart Rate Measurement With Neural
Searching, IEEE Signal Processing Letters 27 (2020) 1245 1249.
URL : https://ieeexplore.ieee.org/document/9133501/. doi:10.
1109/LSP.2020.3007086.

29
Voir les statistiques de publication

Vous aimerez peut-être aussi