Validation-And-Interpretation-Of-A-Multimodal-Drow - 2024 - Computer-Methods-and FR

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.
Visitez www.DeepL.com/pro pour en savoir plus.
Méthodes et programmes informatiques en biomédecine 243 (2024) 107925
Listes des contenus disponibles sur ScienceDirect
Méthodes et programmes informatiques en biomédecine

Page d'accueil du journal : www.elsevier.com/locate/cmpb
Validation et interprétation d'un système multimodal de détection de la
somnolence
à l'aide de l'apprentissage automatique explicable
Md Mahmudul Hasan a,b,*Christopher N. Watling b,c,d, Gr'e goire S. Larue b,e
a École d'informatique et d'ingénierie, Université de Nouvelle-Galles du Sud (UNSW), Australie
b Centre de recherche sur les accidents et la sécurité routière - Queensland (CARRS-Q), Université de technologie du Queensland (QUT), Australie
c École de psychologie et de bien-être, Université de Southern Queensland (USQ), Australie
d École des sciences de l'exercice et de la nutrition, Université de technologie du Queensland (QUT), Australie
e Road Safety Research Collaboration, School of Law and Society, University of the Sunshine Coast (USC), Australie
A R T I C L E EN F A B S T R A C T
O
Contexte et objectif : La somnolence au volant est un problème majeur de sécurité routière et les efforts se
Mots-clés : concentrent sur le développement de systèmes de détection de la somnolence au volant. Cependant, la plupart des
Caractéristiques
études sur la détection de la somnolence au volant à l'aide de signaux physiologiques se sont concentrées sur le
Signaux
développement d'un classificateur d'apprentissage automatique "boîte noire", en accordant beaucoup moins
physiologiques
Validation
d'importance à la "robustesse" et à l'"explicabilité", deux propriétés cruciales d'un modèle d'apprentissage
Interprétabilité automatique digne de confiance. C'est pourquoi cette étude s'est concentrée sur l'utilisation de techniques de
Analyse SHAP validation multiples pour évaluer la performance globale d'un tel système à l'aide de plusieurs classificateurs
Analyse de dépendance supervisés basés sur l'apprentissage automatique, puis pour débrider le modèle de la boîte noire à l'aide de
partielle l'apprentissage automatique explicable.
Méthodes : La conduite a été simulée par une tâche de vigilance psychomotrice de 30 minutes pendant que les
participants signalaient leur niveau de somnolence subjective et que leurs signaux physiologiques
(électroencéphalogramme (EEG), électrooculogramme (EOG) et électrocardiogramme (ECG)) étaient
enregistrés. Six techniques différentes, comprenant des techniques dépendantes du sujet et des techniques
indépendantes, ont été appliquées pour la validation du modèle et le test de robustesse avec trois classificateurs
d'apprentissage automatique supervisés, à savoir les K-voisins les plus proches (KNN), les machines à vecteurs de
support (SVM) et la forêt aléatoire (RF), et deux méthodes explicatives, à savoir l'analyse SHapley Additive
exPlanation (SHAP) et l'analyse de dépendance partielle (PDA), ont été exploitées pour l'interprétation du
modèle.
Résultats : L'étude a identifié la technique de validation indépendante du sujet (leave one participant out) comme
étant la plus utile, avec une sensibilité de 70,3 %, une spécificité de 82,2 % et une précision de 80,1 % en
utilisant le classificateur de la forêt aléatoire pour résoudre le problème d'autocorrélation dû aux différences
interindividuelles dans les signaux physiologiques. En outre, les résultats explicables suggèrent les
caractéristiques physiologiques les plus importantes pour la détection de la somnolence, avec un seuil clair
dans la limite de décision.
Conclusions : L'implication de l'étude garantira une validation rigoureuse des tests de robustesse et une
approche d'apprentissage automatique explicable pour développer un système de détection de la somnolence
digne de confiance et améliorer la sécurité routière. Les résultats de l'apprentissage automatique explicable
sont prometteurs pour le déploiement en situation réelle du système de détection de la somnolence basé sur les
signaux physiologiques dans les véhicules, avec une fiabilité et une explicabilité accrues, ainsi qu'un coût de
système plus faible.
nationale australienne de sécurité routière) [1]. Dans le

1. Introduction
La somnolence est un problème de sécurité critique dans le

transport routier qui mérite une attention particulière pour atténuer son
impact sur les accidents de la circulation. La somnolence au volant est
l'un des principaux facteurs contribuant aux accidents mortels,
représentant 20 à 30 % de ces incidents entre 2011 et 2020, comme
l'indique l'Australian National Road Safety Strategy (stratégie
développement d'un modèle précis de détection de la somnolence
Afin de réduire le nombre d'accidents mortels et d'améliorer la
nécessite la résolution de plusieurs problèmes, notamment le
sécurité, les chercheurs développent la détection de la somnolence à
prétraitement des données, l'extraction et la sélection des
l'aide de mesures véhiculaires, comportementales ou physiologiques.
caractéristiques, le choix de la méthode appropriée de détection de la
La détection de la somnolence à l'aide de signaux physiologiques est
somnolence.
plus fiable, mais elle pose un problème important. En effet, le
* Auteur correspondant à : School of Computer Science & Engineering (CSE), Building K17, UNSW, Sydney 2052, Australie.
Adresse électronique : md_mahmudul.hasan@unsw.edu.au (M.M. Hasan).
https://doi.org/10.1016/j.cmpb.2023.107925
Reçu le 3 septembre 2023 ; Reçu sous forme révisée le 28 octobre 2023 ; Accepté le 7 novembre 2023.
Disponible en ligne le 8 novembre 2023
0169-2607/© 2023 Les auteurs. Publié par Elsevier B.V. Il s'agit d'un article en libre accès sous licence CC BY (http://creativecommons.org/licenses/by/4.0/).
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
automatique à l'aide de ces signaux. Dans le cadre de l'exploration du
les approches et les combinaisons de signaux, la sélection et la
domaine multimodal, quelques études ont travaillé sur des combinaisons
conception de modèles de classification appropriés, la validation et
hybrides de signaux physiologiques pour la détection de la somnolence.
l'interprétation des modèles.
Oliveira et ses collègues [19] ont effectué une analyse multimodale
Les travaux antérieurs sur la détection de la somnolence à l'aide de
basée sur l'apprentissage automatique et ont conclu que la performance
signaux physiologiques se sont concentrés sur les méthodes
était améliorée pour la méthode combinée (électrooculogramme (EOG)
d'extraction de caractéristiques, ont utilisé une validation singulière et
+ électrocardiogramme (ECG)) pour la détection de la somnolence (CV
ont surtout eu recours à des approches unimodales avec des
multiplié par 10). Amin et al. ont également réalisé une étude multimodale
classificateurs d'apprentissage mécanique traditionnels. Par exemple,
[20] combinant l'EEG et l'EOG pour un système de détection de la
Taran et Bajaj [2] ont utilisé la décomposition basée sur les fonctions
somnolence en temps réel et ont rapporté une précision de 81
d'Hermite pour l'extraction des caractéristiques de
Toutefois, ils n'ont utilisé que trois participants dans leur étude afin
l'électroencéphalogramme (EEG), ont utilisé six classificateurs d'évaluer la qualité de leur travail.
différents et ont obtenu la meilleure précision de 95,45 % en utilisant évaluer les performances (pas de rapport sur la validation). Hasan et al [21]
un système d'apprentissage extrême (ELM) avec une validation croisée ont réalisé une étude comparative approfondie des signaux physiologiques
(CV) 10 fois [2]. Sharma et al. se sont également concentrés sur l'extraction unimodaux et multimodaux pour la détection de la somnolence, qui
de caractéristiques à l'aide de la transformée en ondelettes des signaux comprend sept combinaisons différentes d'EEG, d'EOG et d'ECG (unimodal
EEG et ont obtenu une précision de 95,6 % dans leur étude (en : EEG, EOG, ECG ; multimodal : EEG + EOG, EEG+ ECG, EOG + ECG et
utilisant une validation croisée 10 fois) [3]. Khare et al [4] ont utilisé EEG + EOG).
une nouvelle méthode d'extraction de caractéristiques "variational non-
linear chirp mode decomposition" et ont rapporté une précision de 92,4
% à l'aide d'un classificateur de type Boosting Tree. Lee et al. [5] ont
proposé un diagramme de récurrence (ReLU-RP), qui présente une
précision supérieure de 4 à 17 % pour les signaux d'ECG et de
photopléthysmogramme (PPG). Babaeian et Mozumdar [6] ont utilisé
l'ondelette (WT) et la transformée de Fourier courte (STFT) pour
extraire les caractéristiques de l'électrocardiogramme (ECG), ont
utilisé des machines à vecteurs de support (SVM) et les k plus proches
voisins (KNN) comme classificateurs et ont obtenu la meilleure
performance de 87,5 % en utilisant le classificateur SVM (rando split). De
même, Chui et al [7] ont utilisé le signal EEG et mis au point une
machine à vecteur de support basée sur un algorithme génétique pour
l'électrocardiogramme (ECG GA-SVM), qui leur a p e r m i s d'obtenir
une précision de 97,01 % (en utilisant 10 fois le CV).
La validation est une approche essentielle pour unifier les
performances du modèle et tester la robustesse du système basé sur
l'apprentissage automatique. Parmi les méthodes de validation
utilisées, la validation croisée K-fold [2,4] dans les études
susmentionnées permet de surmonter les limites de la validation
holdout (ou approche train-test-split) en validant de manière répétée
avec différentes graines aléatoires. Toutefois, elle présente certaines limites
pour les ensembles de données déséquilibrés, et la validation k-fold
stratifiée est utilisée pour y remédier (résultats de précision allant de
91,8 à 92,13 % [par exemple, 8,9]). Étant donné que les validations
mentionnées précédemment ne traitent pas le problème de
l'autocorrélation pour les signaux physiologiques, la validation croisée
fractionnée des séries temporelles est utilisée pour y remédier [10].
Néanmoins, aucune des validations mentionnées ci-dessus ne tient
compte des différences interindividuelles dans les données
physiologiques. Les techniques d'exclusion, notamment l'exclusion
d'un essai ( LOTO) et l'exclusion d'un participant (LOPO), traitent à la
fois de l'autocorrélation [11] et des différences interindividuelles [12].
La méthode LOPO a été couramment utilisée pour la détection de la
somnolence chez les conducteurs dans le cadre de plusieurs essais et
sur plusieurs sujets, avec des résultats de sensibilité et de spécificité
allant de 58,0 à 98,8 %.
% et 98,3-98,2 %, respectivement [par exemple, 13,14,15]. Cependant,
Watling et al [16] ont indiqué que les résultats de l'étude, en particulier
les mesures liées à la performance globale du modèle, ne peuvent pas
être comparés en raison des différentes méthodes de validation
employées.
Alors que les études susmentionnées travaillaient principalement
sur l'extraction de caractéristiques et les signaux unimodaux, un
examen critique récent de Yaacob et al [17] a suggéré la nécessité
d'utiliser la fusion multimodale et l'explicabilité pour la détection de la
somnolence. Outre la détection de la somnolence, une étude
systématique réalisée par Khare et al [18] dans le domaine médical à
l'aide de signaux physiologiques a également mis en évidence la
nécessité de fusionner les données et d'expliquer l'apprentissage
2
M.M. Hasan et al. qu'ils n'aient pas de troubles
Méthodes du sommeil
et programmes et qu'ils
informatiques ne prennent
en biomédecine pas de
243 (2024)
+ ECG). Leurs résultats indiquent que la fusion multimodale de 107925
médicaments affectant la somnolence ou l'éveil.
l'EEG, de l'EOG et de l'ECG donne une précision supérieure de 7,5
% (en moyenne) à celle des signaux unimodaux et contribue en outre
2.2. Conception de l'étude
à réduire la disparité entre la sensibilité et la spécificité (8,0 %).
L'étude a révélé que parmi les combinaisons multimodales, la fusion
Il s'agit d'une étude expérimentale, menée spécifiquement en
de l'EEG, de l'EOG et de l'ECG donne les meilleures performances,
laboratoire. Comme stimulus pour mesurer la vigilance
avec une précision de 83,5 % à l'aide de réseaux neuronaux artificiels
comportementale, une tâche de vigilance psychomotrice (PVT)
(ANN) ; toutefois, l'étude a utilisé une validation croisée 10 fois sur
personnalisée d'une durée de 30 minutes a été mise au point à l'aide
quatre classificateurs différents, utilise une approche d'apprentissage
d'un logiciel expérimental pour la conception d'études psychologiques
automatique en boîte à outils et manque d'explicabilité.
(PEBL). Les participants ont reçu un
D'après l'examen des études précédentes, il est évident que
l'explication des caractéristiques identifiées et l'interprétation des
modèles d'apprentissage automatique ont reçu moins d'attention que
les mesures de performance [16-18], ce qui empêche les parties
prenantes de comprendre les raisons de leurs décisions et entrave la
mise en œuvre des solutions de recherche sur le marché [16].
Cependant, l'explicabilité est un élément essentiel d'un apprentissage
automatique digne de confiance [22]. En tant que tel, il est important
de sortir le modèle de la boîte noire pour les questions de sécurité, de
comprendre et d'expliquer comment le système fait ses prédictions et
d'aider à établir la confiance dans le système et à augmenter sa
fiabilité [23], sa transparence et sa responsabilité, ce qui est
particulièrement important dans les applications critiques pour la
sécurité telles que la détection de la somnolence chez les conducteurs
[24]. Il est également important de s'assurer que les prédictions qu'il
fait sont justes et impartiales, car cela permet aux parties prenantes
de comprendre les facteurs qui sont pris en compte dans le processus
de prise de décision. Deuxièmement, il n'est pas clair quelle méthode
de validation est prometteuse pour l'évaluation du classificateur de
détection de la somnolence, d'autant plus que très peu d'études ont
comparé plusieurs méthodes de validation en utilisant la même
source de données, ce qui soulève la question de la robustesse du
système. Selon Raja et ses collègues [22], l'"explicabilité" et la
"robustesse" sont deux éléments essentiels d'un modèle
d'apprentissage automatique "digne de confiance", la
vérification/validation étant un élément indissociable de la
robustesse. Par conséquent, ces deux questions ne sont pas
suffisamment prises en compte dans la détection de la somnolence à
l'aide de signaux physiologiques et de l'apprentissage automatique, ce
qui soulève des inquiétudes quant à la fiabilité du système.
Prise en compte du besoin d'explicabilité dans les modèles
d'apprentissage automatique
et la nécessité de tester plusieurs méthodes de validation pour
garantir la "fiabilité", cette étude se concentre spécifiquement sur
l'apprentissage automatique explicable pour la détection de la
somnolence à l'aide de signaux physiologiques multimodaux, en
décomposant le modèle d'apprentissage automatique "boîte noire"
pour un système de détection de la somnolence dans le monde réel. À
notre connaissance, aucune analyse explicable utilisant les
exPlanations additives de SHapley (SHAP) et l'analyse de
dépendance partielle (PDA) n'a encore été réalisée en termes d'études
de détection de la somnolence à partir de signaux physiologiques, en
particulier pour un système multimodal utilisant
l'électroencéphalographie (EEG), l'électrocardiographie (ECG) et
l'électrooculographie (EOG), qui utilise la PVT comme stimulus de
somnolence par rapport à la KSS comme mesure de la somnolence. L'étude
actuelle visait donc à évaluer la fiabilité d'un système multimodal de
détection automatique de la somnolence basé sur des signaux
physiologiques, en mettant l'accent sur l'"explicabilité" et la
"robustesse".
2. Méthode
2.1. Les participants
Au total, 35 personnes âgées de 17 à 25 ans ont participé à cette

étude. Les critères d'inclusion de l'étude exigeaient également que les
participants aient une durée habituelle de sommeil de plus de 7
heures, une heure habituelle de coucher ne dépassant pas 12 heures,
3
107925
L'expérience de recherche a été menée sur des sujets humains, avec
Toutes les cinq minutes, ils étaient invités à évaluer leur degré de
l'approbation éthique du comité d'éthique de la recherche humaine de
somnolence à l'aide de l'échelle de somnolence de Karolinska (KSS),
l'université de technologie du Queensland (QUT). La participation à
qui était enregistrée par le logiciel [21].
l'étude s'est déroulée en deux sessions : une session de sélection et une
session de test. Au cours de la
2.3. Instruments
2.3.1. Somnolence subjective

L'échelle KSS est largement utilisée pour mesurer la somnolence
subjective. Dans ce système de mesure, les participants évaluent leur
degré actuel de somnolence subjective sur une échelle de Likert à 9 niveaux,
les niveaux les plus élevés indiquant un degré de somnolence plus
élevé [25]. Il s'agit d'une mesure valide et fiable pour détecter la
somnolence subjective [26] et, à ce titre, elle a été utilisée comme
vérité de base dans la présente étude.
2.3.2. Acquisition de signaux physiologiques

Plusieurs mesures physiologiques peuvent révéler des variations de
la somnolence [12], un grand nombre de recherches indiquant que
diverses mesures de signaux biomédicaux multimodaux (EEG, EOG et
ECG) révèlent des altérations de la somnolence, qui ont été utilisées
dans cette étude. Les sites d'électrodes EEG étaient le centre gauche
(C3-A2) et l'occipital gauche (O1-A2), le signal étant enregistré à
l'aide d'électrodes à cupule d'or. Les électrodes pour l'acquisition des
données EOG ont été positionnées directement sous la pupille de l'œil
gauche dans une orientation verticale. Pour l'acquisition des signaux
ECG, un système modifié de dérivation thoracique a été utilisé,
contenant une paire d'électrodes, l'une étant placée à environ 3-5 cm
sous la clavicule et l'autre sur la partie inférieure de la cage thoracique
gauche. L'électrode de masse du participant était située sous la
clavicule gauche. Pour respecter les normes d'enregistrement
électrophysiologique, l'impédance minimale de toutes les électrodes ne
dépassait pas 5 kilo-Ohm (kΩ).
Les données électrophysiologiques ont été recueillies à l'aide d'un
dispositif d'acquisition de signaux électrophysiologiques sans fil appelé
BioRadio 150 et d'un logiciel intégré appelé BioCapture [27]. La
fréquence de collecte des données électrophysiologiques était de 600
Hz. Il convient de noter qu'un filtre Notch en ligne à 50 Hz a été
appliqué pendant la collecte des données pour atténuer l'impact de la
fréquence de la ligne. Un filtre passe-bande (0,3-35 Hz pour l'EEG et
l'EOG, et 0,3-70 Hz pour l'ECG) a été appliqué dans le cadre du
prétraitement du signal.
2.3.3. Tâche de vigilance psychomotrice (PVT)

La tâche de vigilance psychomotrice (PVT) est une méthode largement
reconnue pour évaluer les niveaux de vigilance sur la base
d'observations comportementales. Au cours de cette tâche, les
participants doivent maintenir leur attention sur une petite fixation
(symbole de la croix), qui est affichée à l'écran pendant 400
millisecondes. Ensuite, un point rouge apparaît à intervalles aléatoires
(ISI : 1-10 secondes). Les participants doivent répondre au stimulus le
plus rapidement possible en appuyant sur une touche. Le PVT mesure
la vigilance comportementale à l'aide de différents paramètres,
notamment le temps de réaction aux stimuli et le nombre
d'interruptions de réponse (c'est-à-dire les temps de réponse supérieurs
à 500 millisecondes). Cette tâche est exempte d'effets d'apprentissage
et de pratique, ce qui en fait un outil idéal pour les sessions de test
prolongées. En règle générale, le test PVT standard dure 10 minutes,
mais des versions de 5 et 3 minutes ont été utilisées, ainsi que des durées plus
longues (par exemple, 30 minutes) [28]. Toutes ces méthodes ont
démontré leur utilité pour détecter les changements de vigilance, le
PVT étant particulièrement fiable et valide pour mesurer la vigilance
comportementale [29]. Une version étendue du PVT d'une durée de 30
minutes a été utilisée dans l'expérience de la présente étude, en
utilisant le logiciel PEBL pour l'administration de la tâche.
2.4. Procédure expérimentale
4
M.M. Hasan et al. des niveaux faiblesMéthodes
de l'ECG s'est avérée
et programmes être laenplus
informatiques efficace
biomédecine 243 pour
(2024) la
Lors de la première session, les sujets ont signé un formulaire de 107925
détection de la somnolence.
consentement à la collecte de leurs données physiologiques et ont
reçu une montre actigraphique, qu'ils ont portée afin d'observer leurs
Tableau 1
habitudes de sommeil pendant au moins cinq jours et de s'assurer
La fréquence de coupure inférieure et supérieure pour le prétraitement et le filtrage
qu'ils respectent les protocoles de l'étude. Un agenda du sommeil leur des données.
a également été fourni afin d'enregistrer les heures de sommeil et
Chaîne Filtre basse Filtre haute fréquence Filtre à
d'éveil. fréquence encoche
Les sujets ont participé à la deuxième session au laboratoire à 14 EEG 0,3 Hz 35 Hz 50 Hz
heures. EOG 0,3 Hz 35 Hz 50 Hz
m. dans le cadre de la session de test. Avant de commencer la session de ECG 0,3 Hz 70 Hz 50 Hz
test, ils devaient avoir dormi la quantité habituelle de sommeil au
cours des nuits précédant l'expérience. À leur arrivée au laboratoire,
leurs données actigraphiques ont été examinées pour confirmer le
respect de leur rythme normal de sommeil et d'éveil au cours des
trois jours précédant l'expérience finale. En cas d'écart significatif par
rapport à leur rythme de sommeil habituel, la session de test était
reportée à une date ultérieure. En cas de problèmes techniques avec
l'actigraphe, l'agenda du sommeil du participant a été utilisé pour
évaluer ses habitudes de sommeil.
Une fois qu'il a été établi que le participant avait suivi le pro-
tocole de l'étude, il a reçu une explication sur les évaluations KSS,
qui mesurent les niveaux subjectifs de somnolence, et a bénéficié
d'une brève introduction à la tâche PVT qui a duré une minute.
Ensuite, le participant a été soumis à la session principale, au cours
de laquelle des électrodes EEG, EOG et ECG ont été fixées pendant
qu'il effectuait la tâche PVT sur un écran d'ordinateur pendant une
période de 30 minutes dans le cadre de l'expérience. Pendant
l'exécution de la tâche PVT, les niveaux de somnolence subjective des
participants ont été mesurés toutes les cinq minutes, à l'aide de
l'échelle KSS. Le logiciel PEBL contrôlait le PVT et l'échelle KSS. Une
webcam a été installée pour observer les participants pendant qu'ils
effectuaient la tâche. Il a été noté que certains participants n'étaient
pas totalement engagés dans la tâche, ce qui a été confirmé par un
nombre élevé d'échecs (>25) et ces participants ont donc été retirés
de l'étude. Ainsi, les données de 26 participants ont été utilisées pour
la suite de l'analyse.
2.5. Prétraitement des données, extraction et sélection des caractéristiques
Les données recueillies sur les biosignaux ont été prétraitées et

filtrées avant l'extraction des caractéristiques dans les domaines
temporel et fréquentiel. Un filtre passe-bande à réponse
impulsionnelle finie (FIR) (LF : 0,3 Hz, HF : 35 Hz (EEG/EOG), 70
Hz (ECG)) avec une "fenêtre de Hanning" a été utilisé pour le
filtrage. La raison de l'utilisation de la fenêtre de Hanning basée sur
le FIR est que la fenêtre de Hanning donne le meilleur rapport
signal/bruit (SNR) [30].
Parmi toutes les mesures EEG, les bandes EEG fondamentales, EEG-
α, EEG-
Les spectres de puissance θ et EEG-β, ainsi que le rapport entre les bandes
EEG, c'est-à-dire (thêta + alpha)/bêta, (thêta + alpha)/(alpha + bêta)
et bêta/ alpha bêta/ alpha dans le canal central et occipital se sont
révélés être les indices les plus sensibles pour la détection de la
somnolence chez les conducteurs non professionnels et
professionnels [16,21]. Il est important de noter que les données EEG
ont été recueillies à partir de deux positions d'électrodes (Ch1 :
région centrale, C3), Ch2 (région occipitale - O1) ; la position A2 a
été utilisée comme référence et les sous-bandes EEG trouvées à partir
de l'analyse spectrale sont divisées en cinq catégories : delta (0,50-
4,00 Hz), thêta (4,01-7,00 Hz), alpha (8,00-15,00 Hz), bêta
(16,00-32,00 Hz) et gamma (36,00-44,00 Hz) [21]. Parmi tous les
paramètres de l'EOG, la durée, la fréquence et l'amplitude des
clignements, la vitesse de fermeture maximale (PCV) et le rapport
amplitude/vitesse des clignements (AVR ou A/PCV) se sont avérés
être les indices les plus sensibles que les autres caractéristiques pour
la détection de la somnolence, comme l'a montré la littérature
[16,21]. Parmi toutes les mesures de l'ECG, la fréquence cardiaque
(FC) et l'intervalle R-R (RRI) se sont avérés être les caractéristiques
les plus utiles dans le domaine temporel, et la puissance du signal à
5
107925
La fréquence cardiaque (FC), la haute fréquence (HF) et le rapport a principalement utilisé des méthodes de sélection des caractéristiques
FC/HF sont les caractéristiques les plus importantes pour la détection basées sur des filtres qui classent un sous-ensemble de caractéristiques
de la somnolence dans le domaine des fréquences, comme l'indique la indépendamment de tout algorithme d'apprentissage. Plus précisément,
littérature [16,21]. Il est important de noter que la FC et l'IRR se deux méthodes de sélection de caractéristiques univariées basées sur
situent dans le domaine temporel, tandis que la FC, l'HF et l'HF/FL se des filtres : le test F de l'analyse de variance (ANOVA) et le
situent dans le domaine fréquentiel, c'est-à-dire dans les mesures de la classement basé sur le coefficient de corrélation ont été appliqués à
variabilité de la fréquence cardiaque (VFC). l'ensemble de données, puis les sous-ensembles de caractéristiques ont
Toutes les caractéristiques de l'EEG ont été extraites à l'aide du été agrégés à l'aide d'une technique de sélection des caractéristiques de
logiciel Acqknowledge®-4.2, qui utilise la méthode du stabilité [21].
périodogramme de Welch [31] pour calculer la densité spectrale de
puissance (DSP) des bandes de fréquence de l'EEG. La méthode Welch 2.6. Distribution des données et des KSS
calcule la densité spectrale de puissance d'un signal en le divisant en
segments qui se chevauchent, en appliquant une fenêtre à chaque Au total, 35 participants ont pris part à l'expérience. Les données de
segment pour réduire les fuites spectrales, puis en faisant la moyenne neuf participants ont été exclues pour diverses raisons, telles qu'un
des résultats pour obtenir une représentation plus précise du contenu nombre plus élevé d'interruptions du PVT, des mouvements posturaux
fréquentiel du signal [31]. Bien qu'Acqknowledge®-4.2 propose fréquents ou des hochements de tête, et les données des 26 participants
des options de fenêtrage telles que Hanning, Hamming ou Blackman restants ont été utilisées pour l'analyse ultérieure. À partir de ces
pour le calcul de la DSP, nous avons spécifiquement calculé en données, après avoir éliminé les artefacts de mouvement inattendus par
utilisant la "fenêtre de Hanning" pour obtenir un meilleur rapport filtrage et sélection manuelle, un total de 22 caractéristiques ont été
signal/bruit (RSB) [30]. Il convient de noter que toutes les extraites des signaux EEG, EOG et ECG sur la base de la littérature
caractéristiques EOG ont été extraites à l'aide de notre code
existante (décrite à la section 2.5). Toutes les caractéristiques
MATLAB®-2018 développé et personnalisé. Pour trouver les
proposées ont été extraites de chaque signal physiologique en utilisant
clignements d'yeux basés sur l'EOG, nous avons réglé un " seuil " pour une période de 5 secondes, à l'exception de la vitesse de clignotement
identifier les maxima locaux, c'est-à-dire les clignements d'yeux dans
de l'EOG et de la fréquence cardiaque de l'ECG, qui ont été calculées
l'EOG, qui ont ensuite été utilisés pour l'" analyse dérivée " afin de
par minute. Au total, 9360 observations ont été prises pour 26
calculer la PCV et l'AVR [32]. Cette méthode consiste à prendre la
participants, avec la taille d'époque donnée. Les valeurs moyennes de
dérivée du signal EOG par rapport au temps, où la vitesse de fermeture
tous les attributs ont ensuite été calculées pour chaque session de 5
maximale correspond au point de la dérivée où le signal change le plus
minutes à l'aide de l'analyse pivot, en tenant compte d'une fenêtre de
rapidement [32]. Ce point a été détecté en trouvant la valeur maximale
prédiction de 5 minutes. Les données ont été comprimées à 156
ou minimale de la dérivée. En considérant les indices de la dérivée
observations pour 26 participants. Parmi les
passant du négatif au positif et vice-versa, l'amplitude, la durée des
156 observations, 79 observations ont été obtenues pour les états de
clignements, la vitesse de clignement et le RVA ont été calculés [32].
somnolence (classe positive) et 77 observations pour les états d'éveil
Toutes les caractéristiques de l'ECG ont été calculées à l'aide du
(classe négative) (tableau 3 et figure 1). Un total de sept valeurs KSS a été
logiciel Acqknowledge®- 4.2, qui utilise un "détecteur de QRS" intégré pour
obtenu pour chaque sujet au cours de chaque session de test de 30
l'analyse de la variabilité de la fréquence cardiaque (VFC), sur la base
minutes, étant donné que le score KSS a été considéré comme
d'un algorithme de Pan-Tompkins modifié [33]. La densité spectrale de
s'appliquant aux cinq minutes précédant chaque évaluation rapportée.
puissance en BF et HF a également été calculée à l'aide de la méthode
du périodogramme de Welch [31] avec une "fenêtre de Hanning" [30].
Sur la base de la littérature, 22 caractéristiques au total ont été 2.7. Classification et détection du niveau de somnolence
dérivées des trois données électrophysiologiques [21] (tableau 2).
Compte tenu de la nature de l'ensemble de données et des études Plusieurs études ont utilisé divers modèles d'apprentissage
antérieures [34,35], nous avons automatique pour détecter la somnolence à partir des signaux
biologiques, et il n'existe pas de règle établie sur le modèle de
classification à utiliser pour des applications ou des groupes de
Tableau 2 participants spécifiques [14]. Compte tenu des variations évidentes des
Caractéristiques extraites des signaux physiologiques.
coûts de calcul et de la complexité signalées dans les études
Sl EEG Sl EOG Sl ECG ont été utiliséset
précédentes, à des fins de classification.
conformément Ces modèles
à la littérature englobent existante,
scientifique les
1 Alpha Central 1 Durée du 1 Puissance moyenne à trois modèles
k-voisins les plus d'apprentissage supervisé
proches (KNN), machines ont été
à vecteurs retenus(SVM)
de support pouret la
(α-EEG C3) clignement des basse fréquence (P- LF machines àde
détection vecteurs aléatoires.
la somnolence.
yeux ( BD) moyenne) le classificateur forestier (RF), qui sont les modèles les plus populaires
(secondes) utilisés par de nombreuses entreprises.
(μV2 /Hz) (μV2 /Hz) Les études sur la détection de la somnolence à l'aide de signaux
2 Thêta central 2 Rapport 2 Puissance moyenne
physiologiques [21,36]. La mise à l'échelle des caractéristiques a été
(θ-EEG C3) amplitude- à haute fréquence
(μV2 /Hz) vélocité (Mean P- HF) (μV2 effectuée en termes de normalisation (mise à l'échelle Min-Max) et de
3 Beta Central (AVR) /Hz) standardisation avant d'appliquer KNN et SVM, respectivement. Tous
(β-EEG C3) 3 Vitesse de 3 Intervalle R-R les classificateurs ont été utilisés pour examiner l'utilité des différentes
(μV2 /Hz) fermeture (RRI)
techniques de validation dans l'étude en cours ; toutefois, la forêt
maximale millisecondes
(PCV) (ms) aléatoire a été utilisée comme base pour l'évaluation de l'efficacité des
(degrés/s) classificateurs.
a été utilisé pour des raisons d'interprétabilité, car il ne nécessite pas de
caractéristiques.
4 Thêta occipital (μV2 /Hz) 4 Taux de clignotement (BR) 4 Fréquence cardiaque (FC) (battements
(θ-EEG O1) 7 β /α Central (C3) par minute (bpm)
(μV2 /Hz) 8 (θ + α) / β
5 Bêta occipital Centrale (C3) 5 Amplitude (Amp) 5 Rapport LF/HF
(β-EEG O1) 9 (θ + α) / (α+ β) Central (C3)
(μV2 /Hz)
6 Alpha Occipital
(α-EEG O1)
6
M.M. Hasan et al.
l'échelonnement deux classes pour un ensemble de scores processus itératif Méthodes
afin d'obtenir l'ac-
et programmes curité en
informatiques la biomédecine
plus élevée après
243 (2024)
et l'explicabilité KSS : somnolent et éveillé. Étant donné validation croisée. 107925
Dans le cas des classificateurs KNN, les
des installations. que le risque d'accident est fortement
Une associé aux scores KSS 7-9 [37], cette Tableau 3
classification plage a été utilisée comme état de Distribution des scores dans l'ensemble des données pour tous les participants
binaire a été somnolence et les scores KSS 2-6 comme éligibles.
effectuée en état d'éveil. Les hyperparamètres de ID du participant État d'éveil État de somnolence
considérant chaque classificateur ont été affinés par un
10 β /α Occipital
(O1) Score KSS KSS- KSS- KSS- KSS- KSS- KSS- KSS- KSS-
11 (θ + α) / β 2 3 4 5 6 7 8 9
Occipital (O1) Compte KSS 4 6 19 10 38 35 25 19
12 (θ + α) / (α+ KSS Nombre 77 79
β) Occipital dans chaque
(O1) classe
Note : EEG, électroencéphalographie ; Total KSS 156
EOG, l'électro-oculographie ECG,
électrocardiographie. compter
;
7
107925
Fig. 1. Nombre de scores KSS pour tous les échantillons de l'ensemble des données (a) Nombre catégorique KSS sur les scores 2-9 (b) Nombre total KSS (états de
somnolence et d'éveil).
KNN - Nombre de voisins (k)

La valeur optimale de "k" a été déterminée pendant l'apprentissage du SVM - Valeur "C
modèle, en sélectionnant la valeur de "k" associée à la précision • Gamma (γ avec 'rbf' karnel)
d'apprentissage la plus élevée. Pour le SVM gaussien, le "noyau à base RF - Nombre d'arbres dans la forêt (n_estimate)
• La profondeur maximale de l'arbre (max_depth)
radiale" a été utilisé et une "recherche en grille" a été effectuée pour
optimiser les paramètres "C" et "γ" à l'aide de l'algorithme de "recherche en
grille", en sélectionnant finalement les valeurs des paramètres qui ont
donné la meilleure précision après validation croisée. Le nombre
d'arbres, appelé "estimation n", et la profondeur maximale de chaque
arbre, appelée "profondeur max", ont été ajustés à l'aide de l'approche
"recherche en grille" de la bibliothèque scikit-learn, tout en
déterminant les hyperparamètres optimaux pour le modèle de forêt
aléatoire (tableau 4). Python 3.6.7 a été utilisé pour mettre en œuvre,
former et tester tous les modèles sur la plateforme Google Colab.
2.8. Mesures de performance
L'efficacité d'un modèle d'apprentissage automatique est évaluée

sur la base de différentes mesures, notamment la sensibilité, la
spécificité et la précision [38]. La sensibilité mesure la proportion
d'échantillons positifs correctement identifiés, tandis que la spécificité
mesure la même chose pour les échantillons négatifs [21]. En outre, la
précision signifie le ratio d'échantillons correctement détectés dans
l'ensemble, qu'ils soient positifs ou négatifs [21]. Ces trois mesures
(sensibilité, spécificité et précision) ont été utilisées dans cette étude
pour valider le modèle de détection de la somnolence (figure 2).
2.9. Validation
Six techniques différentes de validation croisée (CV) ont été

appliquées aux données expérimentales. Les détails de ces techniques
sont donnés ci-dessous.
2.9.1. Validation en fonction des participants

Dans cette étude, les validations dépendantes des participants ont
englobé diverses techniques. La validation par maintien implique un
partitionnement aléatoire en ensembles de données de formation (70-
80 %) et de test (20-30 %), en utilisant une division 80:20. La
validation croisée K-fold a divisé l'ensemble de données en k sous-plis,
en utilisant itérativement (k-1) plis pour la formation et un pour la
validation. K-fold stratifié
Tableau 4
Paramètres pris en compte pour le réglage de l'hyperparamètre pour les
différents classificateurs.
Classificateurs Paramètre ajusté
8
M.M. Hasan et al. SHapley Additive exPlanations,
Méthodes abrégé
et programmes en SHAP,
informatiques est une243méthode
en biomédecine (2024)
a permis de garantir une distribution égale des étiquettes des classes 107925
permettant d'expliquer les résultats des modèles d'apprentissage
cibles (somnolent et éveillé) dans les données d'apprentissage et de
automatique en attribuant la prédiction aux caractéristiques qui y ont
test. La validation croisée des séries temporelles a été appliquée aux
contribué [39]. Pour ce faire, elle utilise le concept des valeurs de
ensembles de données comportant des points de données de séries
Shapley, une méthode issue de la théorie des jeux, pour répartir
temporelles corrélées, empêchant l'inclusion de points de données
équitablement le "crédit" d'une prédiction entre les caractéristiques qui
voisins dans les ensembles de formation et de test, ce qui permet de
y ont contribué. Les valeurs SHAP sont utiles pour calculer
résoudre les problèmes d'autocorrélation [10].
l'importance de chaque caractéristique dans la prédiction d'un modèle,
ce qui permet d'expliquer comment le modèle est parvenu à sa
2.9.2. Validation indépendante du participant
prédiction en montrant quelles caractéristiques ont eu la plus grande
Les techniques de validation indépendantes des participants
influence sur le résultat final.
utilisées dans cette étude comprenaient la validation croisée avec un
Les valeurs de Shapley représentent l'importance des caractéristiques
seul participant (LOO CV) et la validation croisée avec un seul
dans les modèles d'apprentissage automatique avec multicollinéarité. Cette
participant (LOPO CV). LOO CV implique N itérations, où N représente
approche implique de réentraîner le modèle sur différents sous-ensembles
le nombre d'instances, en utilisant (N-1) instances pour la formation
de caractéristiques (S ⊆ F, F étant la collection de toutes les
et une pour la validation à chaque itération. Pour cette étude avec N
caractéristiques), en attribuant des valeurs d'importance à chaque
= 156 instances, 155 instances ont été utilisées pour la formation à
caractéristique afin d'évaluer son influence sur les prédictions du modèle.
chaque itération. LOPO CV a regroupé les données sur la base des
Le calcul consiste à former un modèle d'apprentissage automatique (f(x), x
identifiants des participants, créant 26 groupes pour les 26
étant les ensembles de caractéristiques) avec et sans une caractéristique
participants. La validation croisée a été effectuée 26 fois, les données
particulière, et à comparer leurs prédictions (fS∪{i} (xS∪{i} ) - fS (xS )).
d'un participant étant utilisées pour la validation et les données des
Comme cet impact dépend d'autres caractéristiques, ces différences sont
autres participants pour la formation à chaque itération.
calculées pour tous les sous-ensembles possibles S⊆F\{i}. Les valeurs de
2.10. Interprétation Shapley (φi ) sont ensuite dérivées de ces calculs et servent d'attributions
de caractéristiques, représentant une moyenne pondérée de toutes les
différences potentielles [39] (Eq. (1)). ) )]
2.10.1. Analyse additive de Shapley (SHAP) ∑ |S| !(|F| - |S| - 1) ! [
φ= fS i xS i - fS (xS
Note:KNN : K-nearest neighbours, SVM : support vector machines et RF : i
|F|
∪{ } ∪{ } (1)
S⊆F\{i}
random forest. !
9
107925
Fig. 2. Méthodologie proposée pour la validation et l'interprétation d'un système de détection de la somnolence basé sur des signaux physiologiques multimodaux. Note
: EEG : é l e c t r o e n c é p h a l o g r a m m e , EOG : électrooculographie, ECG : électrocardiographie, GT : vérité de terrain, PVT : tâche de vigilance psychomotrice,
CV : validation croisée, KNN : K-nearest neighbours, SVM : support vector machine et RF : random forest, SHAP : K-nearest neighbours, SVM : support vector
machine et RF : random forest : K-nearest neighbours, SVM:support vector machine et RF : random forest, SHAP : SHapley Additive exPlanation.
2.10.2. Analyse de dépendance partielle 3. Résultats

L'analyse des dépendances partielles est une technique
normalement utilisée pour interpréter et expliquer les résultats des 3.1. Sélection des caractéristiques et performance de la classification
modèles d'apprentissage automatique [40]. L'analyse des dépendances
partielles permet de comprendre la relation entre une caractéristique Deux techniques de sélection des caractéristiques ont été appliquées
unique et les résultats du modèle, toutes les autres caractéristiques aux 22
restant constantes. Le graphique résultant de l'analyse des composantes
dépendantes présentant la corrélation entre les valeurs des attributs ou
des caractéristiques et les résultats du modèle entraîné est appelé
graphique de pendance partielle (PDP), qui permet d'identifier les
caractéristiques importantes dans la prédiction du modèle et de
comprendre comment le modèle les utilise. L'analyse des composantes
dépendantes (ICA) est une technique statistique du cadre PDA, qui
permet généralement d'interpréter et d'identifier les composantes
indépendantes non sous-jacentes de la dépendance.
La dépendance partielle (DP) de la sortie d'un algorithme
d'apprentissage automatique (g(x)) sur un ensemble spécifique de
variables xS est définie comme PD(xS ). Elle est mesurée par la valeur
attendue de la sortie (g) compte tenu de la distribution marginale de
toutes les variables à l'exception de celles de xS . Elle représente donc
la manière dont la sortie (g) dépend du sous-ensemble de variables
choisi (xS )- xC étant l'ensemble des variables non incluses dans xS , ExC
étant l'espérance (c'est-à-dire la moyenne par rapport à la distribution
de l'ensemble des variables) de la sortie (x ), la moyenne par rapport à
la distribution de l'ensemble complémentaire xC ), g(xS , xC ) étant la
sortie du modèle pour le sous-ensemble donné x Sand com-
L'ensemble de complément xC, PxC étant la distribution de probabilité des variables
de l'ensemble de complément xC , peut être exprimé par l'équation
∫
suivante (2) [41]. PD(xS ) = Ex C [g(xS , xC )] = g(xS , xC )dP(xC ) (2)
Il convient de souligner que les techniques d'analyse de dépendance

partielle et de Shapely sont toutes deux applicables à n'importe quel
classificateur d'apprentissage automatique. Toutefois, en raison de la
nécessité de mettre à l'échelle les caractéristiques pour les K-Nearest
Neigh- bours (KNN) et les Support Vector Machines (SVM) utilisés
dans cette étude, nous avons exclusivement employé Random Forest
pour l'analyse explicative. Random Forest peut fonctionner
efficacement avec des caractéristiques originales ou non mises à
l'échelle, ce qui améliore l'interprétabilité des explications du modèle.
10
caractéristiques des signaux électrophysiologiques (voir section 2.5). 107925
Après avoir appliqué les méthodes de sélection des caractéristiques
(test F ANOVA et coefficient de corrélation), 13 caractéristiques au
total ont finalement été sélectionnées sur la base des techniques de
sélection des caractéristiques de stabilité [21,36] (tableau 5). Ainsi,
deux ensembles de caractéristiques ont été obtenus à partir de trois
des signaux avec des valeurs cibles associées, qui ont été fournies
aux classificateurs d'apprentissage automatique comme données
d'entraînement et de test. Les performances du système proposé avec
différentes techniques de validation (distributions d'étiquettes
positives et négatives pour la validation de maintien : Tableau 6, pour
10 fois, 10 fois stratifié et série temporelle divisée CV : Tableau 7,
pour les CV LOO et LOPO : tableau 3) avec deux ensembles de
caractéristiques sont résumées dans le tableau 8. Il est important de
noter que la validation de maintien a été appliquée en divisant les
données une seule fois ; par conséquent, aucun écart-type n'est
indiqué pour la validation de maintien. Pour les autres méthodes de
validation, les moyennes et les écarts types ont été indiqués.
La validation de retenue a été effectuée de deux manières avec la
même répartition aléatoire - l'une avec 80:20 tandis que l'autre utilise
70:30 pour représenter les données de formation et de test. En
utilisant 80 % des instances de formation pour former le modèle et en
conservant le reste pour les tests, la sensibilité, la spécificité et la
précision varient de 61,5 à 78,9 % pour le KNN,
63,2-76,9 % pour SVM, et 76,9-78,9 % pour RF en utilisant 22
caractéristiques. Lorsque les 13 caractéristiques sélectionnées ont été
utilisées, les performances ont augmenté et se sont situées entre 78,9
et 84,6 % pour KNN, entre 68,4 et 84,6 % pour SVM.
76,9-78,9 % et 78,9-84,6 % pour RF. En utilisant une technique de
validation croisée 10 fois avec 22 caractéristiques, la sensibilité, la
spécificité et la précision varient de 56,1 à 68,2 % pour KNN, de 54,1 à
76,4 % pour SVM, de 76,9 à 78,9 %, et de 63,9 à 66,6 % pour RF.
Lorsque les 13 caractéristiques sélectionnées ont été utilisées, les
performances de toutes les mesures ont été améliorées, allant de 58,9
à
70,2 % pour KNN, 60,5-76,4 % pour SVM 76,9-78,9 %, et 67,7-70,5 %
pour KNN.
RF. La validation croisée 10 fois stratifiée donne des résultats comparables
à la validation croisée 10 fois standard. Cela pourrait s'expliquer par
le fait que les données collectées comportaient un nombre presque
égal d'échantillons/instances positifs et négatifs.
La validation croisée des séries temporelles a été effectuée en
utilisant k = 10 divisions. En utilisant 22 caractéristiques, les
performances moyennes étaient comprises entre 49,3 et 66,0 % pour
KNN, 43,1-87,8 % pour SVM et 38,60-76,5 %.
pour RF. Lorsque les 13 caractéristiques ont été utilisées après la
sélection des caractéristiques, la spécificité et la précision se sont
améliorées pour KNN de 3,6 à 23,2 %, avec une baisse considérable
de la sensibilité (25 %) ; la sensibilité et la spécificité se sont
améliorées pour SVM de 17,4 à 24,6 %, avec une légère baisse de la
précision (1,5 %) et de l'exactitude (1,5 %).
11
107925
Tablea
u5
Agrégation des classements des caractéristiques (les caractéristiques ombrées signifient les caractéristiques exclues ; critères d'exclusion, ANOVA valeur F<2,0,
coefficient de corrélation <0,10).
Note : α-C3, Alpha Central ; θ-C3, Thêta Central ; β-C3, Bêta Central ; α-O1, Alpha Occipital ; θ-O1, Thêta Occipital ; β-O1, Bêta Occipital ; BD, Blink Duration ;
AVR, Amplitude Velocity ratio ; PCV, Peak Closing Velocity ; BR, Blinking Rate ; Amp, Amplitude ; LF/Mean P-LF, Mean Power at Low Frequency ; HF/Mean P-HF, Mean Power
at High Frequency.
Tableau 6
Répartition des étiquettes obtenues entre les systèmes de validation de la rétention.
Holdout (données d'essai : 20 %, RS =1), Trai-test split (RS=1) Holdout (données d'essai : 30 %, RS =1), Trai-test split (RS=1)
Données sur les Données d'essai Former + Données sur les Données d'essai Former +
trains tester trains tester
Compte éveillé Compte de la Compte éveillé Compte de la Nombre Compte éveillé Compte de la Compte éveillé Compte de la Nombre
somnolence somnolence total somnolence somnolence total
64 60 13 19 156 56 53 21 26 156
rapport à la technique de validation CV 10 fois et à la technique de

La sensibilité et la précision se sont légèrement améliorées de 1,5 à 3 % pour
validation LOO (leave one instance out). Dans cette approche,
RF, bien que la spécificité ait légèrement diminué (0,7 %). Les résultats
l'utilisation de 22
de la validation croisée des séries temporelles indiquent une grande
variance entre les différentes expériences utilisant k (=10) plis.
Lorsque la validation LOPO a été effectuée dans une approche groupée
en laissant des échantillons de chaque participant comme groupe de test
et des échantillons du reste des participants comme groupe
d'entraînement, les performances ont considérablement varié par
12
la sensibilité, la spécificité et la précision variaient de 66,4 à 107925
70,3 %, 50,4-66,3 % et 59,2-60,3 %, respectivement pour KNN, SVM
Tablea
u 5RF. En utilisant les 13 caractéristiques sélectionnées, la sensibilité,
et
la spécificité et la précision se sont considérablement améliorées,
allant de 68,1 à 70,3 %, de 76,2 à 84,8 % et de 50 à 60,3 %
respectivement pour KNN, SVM et RF.
%, 67.3-80.1 %, respectivement pour KNN, SVM et RF.
13
107925
Tableau 7
Distribution des étiquettes obtenues dans le cadre des systèmes de validation croisée 10 fois, 10 fois stratifiée et série temporelle (split=10).
Pliage CV 10 fois plus élevé CV stratifié 10 fois CV fractionné de la série temporelle (fractionnement=10)
Données sur les trains Données d'essai Train Données sur les trains Données d'essai Train Données sur les trains Données Train
+ + d'essai +
Test Test Test
Réveil Somnolenc Réveil Somnolenc Total Réveil Somnolenc Réveil Somnolenc Total Réveil Somnolenc Réveil Somnolen Total
e e e e e ce
Compter Compter Compter Compter compt Compter Compter Compter Compter compt Compter Compter Compter Compter compter
er er
1 69 71 8 8 156 69 71 8 8 156 8 8 7 7 30
2 65 75 10 6 156 69 71 8 8 156 19 11 6 8 44
3 69 71 8 8 156 69 71 8 8 156 25 19 8 6 58
4 67 73 12 4 156 69 71 8 8 156 33 25 7 7 72
5 66 74 11 5 156 69 71 8 8 156 46 26 5 9 86
6 74 66 6 10 156 69 71 8 8 156 51 35 8 6 100
7 69 72 8 7 156 69 72 8 7 156 52 48 6 8 114
8 69 72 8 7 156 70 71 7 8 156 60 54 7 7 128
9 70 71 7 8 156 70 71 7 8 156 70 58 8 6 142
10 75 66 6 9 156 70 71 7 8 156 75 67 7 7 156
EEG thêta et alpha de la région centrale gauche (C3) et de la région

3.2. Validation dépendante ou indépendante du participant
occipitale gauche (O1) a la plus grande importance parmi les
caractéristiques EEG, où une puissance thêta et alpha plus élevée
Pour visualiser les résultats obtenus en utilisant plusieurs
augmente la probabilité que les échantillons soient classés comme
classificateurs et méthodes de validation, la performance moyenne a
somnolents.
été calculée à partir de trois classificateurs. Après avoir pris la
performance moyenne de chaque classificateur, la performance de la
Diagramme de dépendance SHAP. Pour comprendre la contribution de
validation croisée 10 fois et de la validation croisée LOPO (moyenne
chaque caractéristique, de chaque échantillon de données à la prédiction
et erreur standard) a été comparée dans la figure 3. Les graphiques
du modèle correspondant à leur ampleur, un diagramme de dépendance
montrent que les performances des deux techniques de validation se
SHAP a été réalisé pour les échantillons de données les mieux classés.
sont améliorées lors de l'utilisation des caractéristiques sélectionnées, à
l'exception de la sensibilité dans la validation croisée 10 fois. Il est
intéressant de noter que l'amélioration des performances est plus
importante dans le cas de l'approche LOPO. Il est important de noter
que même si les performances ont été représentées individuellement
pour chaque classificateur, elles ont montré une tendance similaire.
3.3. Interprétation
Pour l'interprétation du classifieur de forêt aléatoire développé,

deux méthodes ont été appliquées, à savoir l'analyse SHAP et l'analyse
de dépendance partielle. Ces deux méthodes sont décrites ci-dessous.
3.3.1. Analyse SHAP
Importance des caractéristiques basée sur la SHAP. Une analyse SHAP a été
réalisée sur l'ensemble de données comportant les caractéristiques
incluses afin de générer un classement des caractéristiques (figure 4
(a)). Physiquement, le classement des caractéristiques de la figure 4
fournit un classement clair des caractéristiques basé sur la moyenne
des valeurs absolues de Shapley par caractéristique correspondant aux
échantillons totaux de chaque classe, et trié dans un ordre décroissant
qui quantifie leur impact sur les prédictions du modèle. D'après la
figure 4(b), la valeur positive de Shapley signifie que la valeur de la
caractéristique correspondante pousse la sortie du modèle à être plus
élevée que la prédiction moyenne (c'est-à-dire l'état de somnolence) et
vice versa pour les valeurs négatives (c'est-à-dire l'état d'éveil). Le
codage couleur (bleu pour les valeurs faibles et rouge pour les valeurs
élevées) dans la figure représente visuellement la force de l'influence
de la caractéristique sur les différents échantillons.
D'un point de vue scientifique, l'analyse des figures 4(a) et (b)
suggère que les caractéristiques de l'EOG, telles que la durée du
clignement (BD) et le rapport de vélocité de l'amplitude (AVR), sont
considérées comme les deux caractéristiques les plus importantes par
le concept de forme. La figure 4(b) montre que plus la durée de
clignement est longue et plus le rapport AVR est élevé, plus
l'échantillon a de chances d'être classé dans la catégorie des états de
somnolence. Outre les caractéristiques EOG, la puissance des signaux
14
du signal EOG (Fig. 5(a,b)). Physiquement, les diagrammes de 107925
dépendance SHAP interprètent l'impact des valeurs de
caractéristiques spécifiques sur la probabilité prédite de somnolence.
Par exemple, dans la figure 5(a), il est physiquement évident que
lorsque la durée du clignement (BD) est inférieure à 0,15 s, le modèle
diminue systématiquement la probabilité prédite d'être classé comme
somnolent, mais une BD de plus de 0,15 s augmente
systématiquement la probabilité prédite de somnolence. De même, le
diagramme de dépendance SHAP de l'AVR dans la figure 5(b)
montre qu'en dessous du ratio de 0,075, le modèle classe les
échantillons comme étant en état d'éveil, alors qu'il augmente la
probabilité d'être classé comme somnolent dans l'AVR est supérieur
ou égal à 0,075.
La figure 5(c,d) donne un aperçu nuancé et scientifiquement
significatif des interactions entre les caractéristiques de l'EOG et de
l'EEG et une compréhension détaillée de la manière dont les
différentes caractéristiques interagissent et influencent les prédictions
du modèle. Elle montre une visualisation des puissances des bandes thêta
(canal C3) et alpha (canal O1) de l'EEG correspondant aux
caractéristiques de l'EOG qui interagissent fortement, c'est-à-dire BD et
AVR. La figure 5(c) montre que dans les cas où la puissance du canal C3
de l'EEG thêta est supérieure à 0,00023 μV2 /Hz, la présence de
durées de clignement plus longues (points de couleur rouge)
augmente les chances de se sentir somnolent. Inversement, pour des
durées de clignement plus courtes (points de couleur bleue) réduit les
chances des instances d'être classées comme somnolentes. De même,
la figure 5(d) montre que la puissance de la bande alpha O1 de l'EEG
supérieure à 0,0002 μV2 /Hz augmente les risques de somnolence,
avec un rapport amplitude-vitesse plus élevé (couleur rouge).
3.3.2. Analyse de dépendance partielle
Diagrammes de dépendance partielle et d'espérance de composante

individuelle. Pour comprendre l'effet marginal des valeurs des
caractéristiques sur la sortie prédite du modèle de classification, les
tracés de l'espérance des composantes individuelles (ICE) et de la
dépendance partielle (PDP) ont été réalisés ensemble, comme le
montrent les figures 6 et 7. Physiquement, les deux figures révèlent
comment les valeurs de caractéristiques spécifiques influencent la
probabilité prédite de somnolence. Dans les deux cas, l'axe des y
représente la probabilité prédite par un modèle d'apprentissage
automatique et l'axe des x présente l'ampleur des valeurs des
caractéristiques. Les courbes fines séparées montrent la dépendance
de la prédiction par rapport à la caractéristique (dépendance des
composantes individuelles de chaque échantillon) et les courbes
épaisses représentent l'effet moyen de celles-ci (dépendance partielle
moyenne.
D'après l'ICE et le PDP de la figure 6(a), on peut observer que
plus la durée du clignement des yeux est longue, plus la probabilité
de somnolence augmente. Lorsque la durée du clignement est
comprise entre 0,125 et 0,150 s, une transition notable se produit, et
au-delà de 0,15 s, les participants sont systématiquement classés
comme somnolents. De même, dans la figure 6(b), un effet physiquement
observable est qu'un rapport amplitude-vitesse (AVR) plus élevé est lié à
une probabilité accrue de somnolence. Dans ce cas, la transition se
produit lorsque le rapport AVR se situe entre 0,07 et 0,08, valeur au-
delà de laquelle les participants sont systématiquement classés
comme somnolents.
D'un point de vue scientifique, la figure 6(c,d) facilite l'estimation d'un
seuil (BD
15
107925
65.5 ± 11.1
69.3 ± 19.8
65.5 ± 11.1
69.3 ± 19.8
57.1 ± 17.8
58.6 ± 18.9
69.9 ± 22.3
71.2 ± 11.2
60.3 ± 20.1
Moyenne ±
22 Cross-Validation ; LOO CV : SD : Standard Deviation ; Leave One Out Cross-Validation ; LOPO CV : LOPO CV : Leave One Participant Out Cross-Validation ; RS : Random Split ; k :
80.1 ± 8.2
Précision
SD (%)
78.1
81.3
74.5
76.6
Performance de classification pour différentes techniques de validation, chiffres indiqués : moyenne ± écart-type ; les chiffres surlignés représentent la meilleure performance en utilisant la technique de
63.9 ± 25.8
67.7 ± 26.4
63.9 ± 25.8
67.7 ± 26.4
76.5 ± 36.7
75.8 ± 36.9
68.8 ± 24.3
72.7 ± 10.7
50.4 ± 26.4
Moyenne ±
82.2 ± 9.8
Spécificité
SD (%)
76.9
84.6
66.7
66.7
Sensibilité Moyenne
Forêt aléatoire (RF)
66.6 ± 16.9
70.5 ± 29.4
66.6 ± 16.9
70.5 ± 29.4
38.6 ± 32.1
41.6 ± 35.2
70.9 ± 15.4
69.6 ± 13.9
70.3 ± 29.3
70.3 ± 29.4
SD (%)
78.9
78.9
80.8
84.6
±
ques dans la technique de validation par élimination car les données n'ont été transmises qu'une seule fois dans cette approche.
65.0 ± 22.3
68.7 ± 13.1
58.5 ± 14.5
68.7 ± 09.1
64.3 ± 20.7
62.8 ± 21.1
72.4 ± 44.7
77.5 ± 09.1
65.8 ± 22.4
73.3 ± 28.4
Moyenne ±
Précision
SD (%)
68.7
75.0
68.1
74.4
54.1 ± 27.3
76.4 ± 16.6
76.4 ± 16.1
43.1 ± 33.3
67.7 ± 33.6
57.5 ± 28.9
72.4 ± 24.1
66.3 ± 26.4
84.8 ± 16.5
Moyenne ±
63.6 ± 18.6
Spécificité
Machines à vecteurs de support
SD (%)
76.9
84.6
66.6
61.9
Fig. 3. Comparaison des méthodes de validation croisée 10 fois et LOPO (Leave

One Participant Out) à l'aide des résultats moyens des classificateurs KNN, SVM
et RF, 22 F : toutes les 22 caractéristiques incluses, 13F : les caractéristiques
76.4 ± 28.1
60.5 ± 17.1
52.8 ± 20.3
60.5 ± 15.9
70.4 ± 30.6
87.8 ± 17.8
57.2 ± 38.3
62.1 ± 28.8
66.4 ± 31.1
68.1 ± 27.5
sélectionnées 13 incluses.
SD (%)
(SVM)
63.2
68.4
69.2
84.6
±
seuil = 0,14 s et seuil AVR = 0,078) lorsque le classificateur

d'apprentissage automatique prend une décision basée sur le BD et l'AVR.
56.8 ± 15.2
64.7 ± 13.7
62.2 ± 14.3
64.7 ± 12.8
57.8 ± 15.5
61.4 ± 14.4
68.4 ± 15.5
71.2 ± 45.3
59.2 ± 16.2
67.3 ± 36.9
Moyenne ±
La dépendance combinée du BD et du RVA est présentée dans la figure

Précision
SD (%)
6(e), qui met en évidence l'effet dans un graphique en 3D. L'analyse

71.8
81.2
76.6
72.3
similaire a été présentée pour les caractéristiques basées sur l'EEG

dans les figures 7(a)-(e), qui montrent physiquement que des
puissances plus élevées des bandes thêta et alpha de l'EEG sont
56.1 ± 33.2
70.2 ± 23.8
54.6 ± 21.6
70.2 ± 22.4
66.0 ± 28.5
89.2 ± 18.2
53.9 ± 27.3
54.9 ± 13.9
52.4 ± 18.2
76.2 ± 30.8
Moyenne ±
Spécificité
associées à une probabilité accrue de somnolence. Pour la puissance de

SD (%)
la bande thêta (centrale), la transition se produit après que la puissance

61.5
84.6
61.9
80.1
K-Voisins les plus proches
de la bande atteint 0,00025 μV2 /Hz, ce qui suggère un seuil

scientifique pour l'apparition de la somnolence. De même, pour la
puissance de la bande alpha (occipital), elle déclenche la somnolence

avant même d'atteindre le seuil de 0,00025 μV2 /Hz, ce qui donne un
68.2 ± 32.9
58.9 ± 24.3
69.3 ± 15.1
58.9 ± 17.3
49.3 ± 38.3
24.3 ± 26.5
59.1 ± 28.8
60.3 ± 29.3
68.9 ± 25.3
68.4 ± 37.6
aperçu scientifique de la nature prédictive de la puissance de la bande

SD (%)
alpha de l'EEG dans la région occipitale.

(KNN)
Diagramme d'interaction des caractéristiques à deux voies. Un

diagramme d'interaction à deux voies a été réalisé pour comprendre la
78.9
78.9
88.4
65.3
dépendance du résultat prédit par rapport à plusieurs caractéristiques

classées en tête de liste et à l'interaction entre elles, c'est-à-dire les
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
caractéristiques de l'EOG et de l'EEG. Physiquement, ce graphique

caractéri
Nombre
identifie un seuil spécifique où les deux caractéristiques interagissent

nombre de splits ; aucun écart-type n'a été rapporté
stiques
Note : A : éveillé ; D : Drowsy;10-Fold CV : 10-Fold

ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
pour affecter la probabilité de somnolence. D'après le diagramme

22
13
22
13
22
13
22
13
13
22
13
22
13
de
d'interaction à deux voies de la figure 8(a), lorsque le BD dépasse 0,15

s, le BD et l'AVR influencent conjointement les niveaux de
Distribution A (KSS 2-6),
somnolence ; cependant, en dessous de ce seuil, le BD seul a un impact

significatif, tandis que la contribution de l'AVR aux prédictions du
modèle est minime. Cela signifie que le BD ne peut déclencher l'AVR
A : 13, D : 19
D (KSS 7-9)
A : 121, D :
A : 64, D:60
A : 56, D:53
que lorsqu'il dépasse le seuil de 0,15 seconde. De même, l'interaction

entre les caractéristiques de l'EOG et de l'EEG est présentée à la figure
validation spécifique.
A : 77
79
A : 77
D : 79
A : 77
D : 79
A : 77
D : 79
A : 77
D : 79
Train
Train
Test
Test
8(b). Elle montre qu'en dessous de 0,15 seconde de BD, la puissance

:
26
thêta C3 de l'EEG est indépendante du BD lorsqu'il s'agit de faire des

prédictions, mais après avoir atteint la valeur de 0,15 seconde, le BD a un
série temporelle (k =
Fractionnement de la
Tableau 8
impact considérable sur la puissance thêta de l'EEG (centre C3), ce qui,

Maintien (données
Maintien (données
combiné, influe sur la probabilité de somnolence. Cela signifie qu'avec

Techniques de
%, RS =1)
%, RS =1)
Classificateur
Pli K stratifié
une durée de clignement plus longue, la somnolence augmente, tout en

validation
d'essai:20
d'essai:30
LOPO CV
multiplié
LOO CV
déclenchant la puissance de l'EEG thêta (central). D'après les figures,

par 10
10)
CV
16
l'interprétation physique
107925 est que le seuil spécifique déclenche
l'interaction entre ces caractéristiques, ce qui entraîne des changements
dans la probabilité de somnolence. L'interprétation scientifique
approfondit la relation entre les caractéristiques de l'EOG et de l'EEG,
démontrant que certaines interactions ne deviennent significatives que
dans des conditions spécifiques, ce qui pourrait permettre de mieux
comprendre les processus contribuant à la somnolence.
17
107925
Fig. 4. Classement des 10 meilleures caractéristiques selon SHAP (a) Classement des caractéristiques selon SHAP (b) Graphique récapitulatif selon SHAP. Note : BD :
durée du clignement, EEG : électroencéphalogramme, C3 : canal central, O1 : canal occipital. PCV : vitesse de fermeture maximale, AVR : rapport amplitude-vitesse.
L'axe des x représente les valeurs de shapley tandis que l'axe des y représente le classement des caractéristiques incluses. Chaque point bleu correspond à une
magnitude plus faible de la caractéristique pour différents échantillons, tandis que les points rouges indiquent des magnitudes plus élevées des caractéristiques.
Fig. 5. Diagramme de dépendance des caractéristiques SHAP ; seuils (a)BD : durée du clignement (0,146577 s), (b) AVR : rapport amplitude-vitesse
(0,0739612), (c) EEG C3 : électroencépha- lographie thêta canal central (0,0002386 μV2 /Hz), (d) EEG O1 : électroencéphalographie alpha canal occipital
(0,00016376 μV2 /Hz). L'axe des x de la figure représente la de la valeur de la caractéristique (magnitude) tandis que l'axe des y présente les valeurs de shapley
correspondantes.
dépendance partielle pour chaque caractéristique. Ensuite, la moyenne

Importance des caractéristiques basée sur la dépendance partielle. Pour
absolue de la dépendance partielle pour le classement des caractéristiques
calculer la dépendance partielle absolue moyenne pour le classement
a été calculée pour chaque caractéristique.
des caractéristiques, nous avons d'abord calculé les valeurs de
10
La dépendance partielle a été calculée en prenant la moyenne des 107925
valeurs absolues des valeurs de dépendance partielle. Si l'on
considère la mesure de l'importance globale de la caractéristique dans
le modèle, la dépendance partielle-
10
107925
Fig. 6. (a) ICE et PDP pour BD (durée du clignement) (b) ICE et PDP pour AVR (rapport de vitesse d'amplitude) (c) limite de décision pour BD (0,140086 s) (d) limite
de décision pour AVR (0,074356) (e) tracé 3D ; BD : durée du clignement, AVR : rapport de vitesse d'amplitude. L'axe des x de la figure représente la valeur de
la caractéristique (magnitude) tandis que l'axe des y présente la dépendance partielle des caractéristiques.
3.3.3. Comparaison des scores SHAP et de dépendance partielle

Le classement des caractéristiques basé sur la dépendance partielle a
Pour observer la relation entre le classement des caractéristiques
été représenté pour le comparer au classement des caractéristiques basé obtenu à l'aide de
sur la SHAP (Fig. 9). L'importance des caractéristiques basée sur la
dépendance partielle a permis d'identifier la durée du clignement des
yeux, le rapport amplitude-vitesse et la puissance thêta de l'EEG au
niveau du canal C3 comme étant les trois principales caractéristiques,
ce qui confirme également le classement des caractéristiques basé sur
le SHAP (Fig. 4).
11
Pour les deux modèles explicables, une analyse statistique multiple a 107925
été effectuée et les résultats ont été représentés graphiquement (Fig.
10). Tout d'abord, une analyse de corrélation a été réalisée entre les
scores des caractéristiques SHAP et la dépendance partielle moyenne
des caractéristiques. Le coefficient de corrélation obtenu est de r =
0,849, ce qui indique une forte corrélation positive entre les scores
SHAP et les scores de dépendance partielle. Cela signifie que les
deux méthodes ont tendance à produire des classements similaires
pour les caractéristiques. Deuxièmement, la valeur p a été calculée
entre les scores de caractéristiques obtenus. Elle produit une valeur p-
12
107925
Fig. 7. (a) ICE et PDP pour EEG thêta C3 (b) ICE et PDP pour EEG alpha O1 (c) limite de décision pour EEG thêta C3 (0,0002369256 μV2 /Hz) (d) limite de décision
pour EEG alpha O1(0,00016429 μV2 /Hz) (e) tracé 3D ; EEG : électroencéphalographie, C3 : canal central, O1 : canal occipital. L'axe des x de la figure représente la
valeur de la caractéristique (magnitude) tandis que l'axe des y présente la dépendance partielle des caractéristiques.
de 0,0019, qui est relativement faible (<0,05), ce qui indique que la ont également tendance à présenter de forts effets de dépendance
corrélation observée entre les scores SHAP et les scores de dépendance partielle. Cela prouve que la relation entre le SHAP et la dépendance
partielle est statistiquement significative. La faible valeur p suggère partielle est réelle et n'est pas due à des fluctuations aléatoires.
qu'il est peu probable d'observer une corrélation positive aussi forte par Troisièmement, un diagramme de distribution a été réalisé et les deux
hasard. Cela implique que les caractéristiques qui sont importantes diagrammes de distribution pour les scores SHAP et les scores de
selon l'analyse SHAP dépendance partielle montrent une distribution similaire, ce qui
13
signifie
M.M. Hasangénéralement
et al. que les deux scores SHAP et les scores de Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
dépendance partielle sont similaires.
14
107925
Fig. 8. PDP numérique à deux voies utilisant un classificateur de forêt aléatoire ; BD : durée du clignement, AVR : rapport amplitude-vitesse, EEG :
électroencéphalographie, C3 : canal central.
Fig. 9. Classement moyen des 10 premières caractéristiques en fonction de la dépendance partielle. Note : BD : durée du clignement, EEG : électroencéphalogramme, C3 :
canal central, O1 : canal occipital. PCV : vitesse de fermeture maximale, AVR : rapport amplitude-vitesse.
valeurs de sensibilité et de précision ont diminué pour KNN

produisent des résultats cohérents et alignés en termes d'importance des
caractéristiques.
4. Discussion
4.1. Mesure de la performance avec différentes méthodes de validation
Les mesures de performance avec les différentes techniques de

validation sont décrites ci-dessous en deux sections : les évaluations
dépendantes des participants et les évaluations indépendantes.
4.1.1. Évaluation dépendante du participant

Parmi les méthodes de validation dépendantes des participants, les
résultats obtenus par la validation croisée des séries temporelles sont
étonnamment différents des autres (fractionnement formation-essai,
approche 10 fois et approche 10 fois stratifiée). En particulier, les
15
et RF en utilisant la validation croisée des séries temporelles ; 107925
cependant, la spécificité moyenne a été augmentée et se situait entre
66,0 et 89,2 % pour KNN et entre 75,8 et 76,5 % pour RF. La raison
de la performance inférieure dans la validation croisée des séries
temporelles peut être expliquée par le problème de
l'"autocorrélation". La somnolence est un état qui évolue lentement,
ce qui a pour conséquence que les points de données voisins (dans le
temps) sont fortement corrélés (autocorrélés). Cela signifie que
lorsque nous attribuons des données de manière aléatoire aux
ensembles de formation et de test dans les techniques de séparation
formation-test, k-fold et k-fold stratifié, les données voisines peuvent
se retrouver à la fois dans l'ensemble de formation et dans l'ensemble
de test, de sorte que nous avons essentiellement une fuite des
données de test non vues dans l'ensemble de formation. Cela entraîne
des problèmes de généralisation lorsque le classificateur développé
est utilisé sur un nouvel ensemble de données [42].
4.1.2. Évaluation indépendante des participants

La validation LOPO utilisée dans cette étude était indépendante du
participant, étant donné que les six essais d'un participant spécifique
ont été utilisés pour tester la méthode LOPO.
16
107925
Fig. 10. (a) Un diagramme de dispersion avec une ligne de régression pour visualiser la relation linéaire entre les scores SHAP et les scores de dépendance
partielle (PD_Score) afin d'évaluer la force et la direction de la corrélation. (b) Un histogramme ou un diagramme de densité de noyau pour visualiser la
distribution des scores SHAP et des scores de dépendance partielle afin de comprendre la dispersion et la tendance centrale de ces valeurs.
de la liste des priorités classées par les valeurs SHAP influencent

les essais des autres participants étant les données d'apprentissage. La
fortement le résultat de la prédiction, mais déclenchent également les
validation LOPO a donné une précision de 80,1 % pour RF, ce qui est
autres caractéristiques pour le processus de prise de décision. Par
le deuxième résultat le plus précis, en dehors de la validation holdout,
exemple, la caractéristique de la durée du clignement des yeux du signal
qui a donné
EOG est la mieux classée sur la base des valeurs SHAP et la puissance du
81.3 %. Comme cette validation n'est pas biaisée par les données des
signal EEG thêta dans le canal central (C3) est la mieux classée parmi les
participants (en raison de l'indépendance des participants) et que les
caractéristiques de l'EEG. Le diagramme d'interaction des
essais des participants au test sont inconnus du modèle entraîné, cette
caractéristiques à deux voies a montré que
validation donne les meilleurs résultats généralisés dans la validation,
pour une évaluation indépendante des participants. Plus important
encore, dans l'approche LOPO, les données de test comprennent les
essais d'un seul participant individuel dans chaque pli, de sorte que le
problème de l'autocorrélation est également abordé ici. Les résultats
obtenus sont cohérents avec les résultats des précédentes méthodes de
détection de la somnolence, utilisant la validation de l'exclusion d'un
participant [43], bien que d'autres recherches aient obtenu des résultats
beaucoup plus faibles [13]. Un facteur en faveur de l'exclusion d'un
participant est le fait que les estimations du biais sont assez faibles
avec la validation de l'exclusion d'un participant [44]. Ainsi, l'utilité de
la validation croisée sans un participant semble avoir été démontrée
par les résultats actuels.
Une considération importante pour l'utilisation des biosignaux dans
les systèmes de détection de la somnolence est la variation des
biosignaux d'un individu à l'autre et au sein d'un même individu. Par
exemple, les données EEG ne sont pas stationnaires [45] et les
variations entre individus entraînent également des variations
significatives de la présentation des biosignaux EEG [46]. L'utilité du
LOPO a été notée comme un moyen de commencer à traiter ces
différences individuelles dans les biosignaux associés à la somnolence
[47], différences qui sont susceptibles de jouer un rôle important dans
le refus de la mise en œuvre de tels systèmes dans les véhicules.
D'autres techniques pourraient également améliorer les performances
du système, par exemple en adaptant (ré-entraînement) le système à
chaque conducteur [48]. Si l'on considère les résultats combinés notés
ci-dessus avec la validation croisée "leave one participant out" et les
avantages proposés d'une formation supplémentaire d'un système, qui
est spécifié pour les conducteurs individuels, il semble que l'on puisse
améliorer les résultats globaux de la détection de la somnolence.
4.2. Des résultats explicables
Les résultats explicables obtenus dans le cadre de cette étude ont

prouvé l'utilité de certaines caractéristiques spécifiques, qui
contribuent à la fiabilité du système. L'analyse SHAP et l'analyse de
dépendance partielle ont révélé que les caractéristiques situées en haut
17
Les deux caractéristiques influencent le résultat de la prédiction, 107925
c'est-à-dire qu'une durée de clignement supérieure à 0,15 entraîne un
état de somnolence, mais déclenche également la puissance thêta C3
de l'EEG pour une probabilité prédite de somnolence plus élevée.
Cela signifie qu'il existe une forte corrélation entre les signaux EOG
et EEG, et qu'il est utile d'utiliser l'électrode centrale gauche (C3) et
la puissance de la bande thêta. Cette implication peut aider à réduire
le nombre de capteurs, en omettant d'autres capteurs correspondant
aux caractéristiques les moins bien classées, telles que la fréquence
cardiaque et l'intervalle R-R de l'ECG.
Il est important de noter que la plupart des caractéristiques les
mieux classées par les valeurs SHAP sont cohérentes avec les
techniques de sélection des caractéristiques mentionnées, avec
quelques incohérences dans les caractéristiques les moins bien
classées [21]. Cela s'explique par le fait que ces techniques univariées
sont différentes de l'analyse SHAP, car elles sont indépendantes du
modèle basé sur l'apprentissage automatique, alors que les valeurs
SHAP sont basées sur le résultat prédit par le modèle d'apprentissage
automatique après que celui-ci a été entraîné avec les données.
4.3. Applications pratiques
Les résultats de l'étude sont utiles pour des applications dans le

monde réel, en particulier pour développer un système de détection
de la somnolence digne de confiance en termes de validation et
d'explication. Tout d'abord, la validation LOPO indépendante des
participants est prometteuse pour le développement d'un tel système
fiable, qui n'est pas biaisé par les données des participants en raison
de l'indépendance de ces derniers. Bien qu'un système puisse
produire des performances très élevées avec une méthode de
séparation formation-test dépendant des participants, le modèle
d'apprentissage automatique sous-jacent peut ne pas être bien
généralisé et ne pas remplir les critères d'un système de détection
digne de confiance. Deuxièmement, la fiabilité est un élément crucial
d'un système de détection basé sur l'apprentissage automatique digne
de confiance. L'approche de l'apprentissage automatique explicable
peut permettre aux parties prenantes de comprendre l'influence des
caractéristiques physiologiques importantes (telles que les
caractéristiques EOG et EEG) dans le processus de prise de décision et
d'ajouter une fiabilité supplémentaire au principe opérationnel du
système. Cela accélérera la mise en œuvre des résultats de la
recherche dans les applications industrielles. En outre, les
caractéristiques les plus importantes identifiées par l'analyse SHAP
permettent de réduire le nombre de capteurs utilisables par le système et
donc de réduire le coût du système. La limite de décision dans
l'analyse de la pendaison partielle montre un seuil de caractéristiques
plus clair, qui pourrait être utilisé pour développer un système simple
de détection de la somnolence hors ligne. Le système pourrait utiliser
les valeurs limites des caractéristiques pour plusieurs caractéristiques
importantes et donner une décision sur la somnolence et l'état d'éveil.
Cela réduira le coût de calcul ainsi que le nombre de capteurs
utilisables. Dans l'ensemble, une implication appropriée des résultats
de l'étude permettra de déployer un système de détection de la
somnolence plus précis, plus fiable et plus rentable.
18
107925
sensibilité de 70,3 % (RF),
sur route.
84,8 % de spécificité (SVM) et 80,1 % de précision (RF). Bien que ces
performances ne soient pas comparables à celles d'autres études en raison
4.4. Points forts, limites et travaux futurs
des différents paramètres, de la fenêtre temporelle, du stimulus à la
somnolence et des scores de somnolence [16], notre objectif principal
Notre étude est centrée sur l'évaluation de l'"explicabilité" d'un
était d'évaluer la "fiabilité" plutôt que de produire les "meilleures
système de détection de la somnolence basé sur des signaux
métriques de performance".
physiologiques multimodaux, induits par la tâche de vigilance
Cinquièmement, nous avons inclus un nombre limité de
psychomotrice (PVT) et évalués à l'aide des scores de l'échelle de
caractéristiques, ce qui réduit le coût de calcul mais aussi le nombre de
somnolence de Karolinska (KSS). Si l'intégration de techniques de
capteurs en termes de déploiement dans le monde réel. Une étude
validation multiples renforce la robustesse de notre modèle
systématique et une méta-analyse récentes de Watling et al [16]
d'apprentissage automatique, elle joue également un rôle essentiel dans
montrent que l'augmentation du nombre de caractéristiques n'améliore
l'établissement de la fiabilité du modèle [22]. L'accent que nous
pas nécessairement les performances de la détection de la somnolence à
mettons sur l'"explicabilité" nous distingue des travaux existants dans
l'aide de signaux physiologiques. Dans cette étude expérimentale, seuls
ce domaine. Nous introduisons notamment la "validation multiple"
deux canaux EEG ont été utilisés pour la détection de la somnolence.
pour évaluer la "fiabilité" du système. À notre connaissance, les
analyses explicatives complètes telles que la SHAP et l'analyse de
dépendance partielle n'ont pas été appliquées à un système multimodal
basé sur les signaux physiologiques qui incorpore des données EEG, EOG et
ECG pour évaluer la contribution marginale des caractéristiques
physiologiques en réponse à la tâche PVT et à des mesures KSS bien
validées. Par conséquent, notre étude représente une contribution
significative à l'ensemble des connaissances existantes dans ce
domaine.
Les limites de l'étude doivent être prises en compte lors de
l'interprétation des résultats. Tout d'abord, la tâche de vigilance
psychomotrice (PVT) a été mise en œuvre dans cette étude comme
tâche principale pour induire une somnolence rapide dans un
environnement de laboratoire contrôlé, en remplacement de la tâche de
conduite. L'inconvénient du PVT est que les niveaux de KSS d'un
individu peuvent diminuer rapidement lorsqu'il exécute la tâche
pendant une durée relativement courte. D'autre part, dans des situations
réelles, les gens ont tendance à ressentir de la somnolence plus
fréquemment après des durées prolongées. Par conséquent, se baser
uniquement sur le PVT peut ne pas fournir une représentation précise
des fluctuations et des changements de somnolence qui se produisent au
cours d'activités réelles telles que la conduite. Deuxièmement, la taille de
l'échantillon utilisé dans cette étude est faible, ce qui n'est pas suffisant pour
explorer les différences interindividuelles ou pour réaliser un essai par
participant afin d'examiner l'utilité de la validation "leave one trial out"
(LOO). De futures recherches pourraient être menées en utilisant un plus
grand nombre de participants, ce qui permettrait de mieux comprendre
les différences interindividuelles et les techniques de validation.
Troisièmement, dans cette étude, les caractéristiques les plus utiles
identifiées dans la littérature antérieure ont été sélectionnées pour
l'évaluation des mesures de performance à partir des données
physiologiques hybrides, en utilisant des techniques traditionnelles
d'apprentissage automatique supervisé. En règle générale, des
algorithmes d'apprentissage conventionnels sont utilisés, dans lesquels
le processus d'extraction des caractéristiques pertinentes et la
classification spécifique des caractéristiques sont réalisés en tant
qu'étapes distinctes [49]. Néanmoins, ces dernières années, les modèles
d'apprentissage profond ont gagné en popularité dans la conception de
systèmes de bout en bout, dans lesquels le processus d'extraction des
caractéristiques est automatique et ne nécessite pas d'effort manuel.
Ainsi, les architectures d'apprentissage profond [49] sont capables
d'extraire des caractéristiques plus résistantes et plus abstraites, qui
peuvent s'avérer plus utiles pour la détection de la somnolence. De
futures recherches pourraient être menées pour valider les
performances des architectures d'apprentissage en profondeur et
interpréter les résultats en conséquence.
Quatrièmement, les performances des modèles d'apprentissage
automatique utilisés dans l'étude produisent un score de métriques
raisonnable avec l'ensemble donné de 13-22 caractéristiques, avec une
sensibilité maximale de 88,4 % (KNN), une spécificité de 84,6 % (KNN,
SVM & RF) et une précision de 81,3 % (RF) en utilisant la validation
de maintien dépendant des participants, qui a encore diminué en raison
de la validation croisée dépendant des participants, c 'est-à-dire une
19
M.M. Hasan et al. Scholarship et QUT Faculty
Méthodes Write Upinformatiques
et programmes Scholarship.en biomédecine 243 (2024)
a été utilisé, ce qui a permis d'obtenir 12 caractéristiques EEG. Bien 107925
que des casques EEG à 32 canaux soient disponibles sur le marché et
que l'utilisation des caractéristiques extraites puisse améliorer les Références
performances du système, cela peut augmenter le coût du système et
[1] Conseil australien des transports, "National road safety strategy 2011-2020",
la complexité de calcul. En outre, l'utilisation d'un grand nombre de 2011. [En ligne]. Disponible :
caractéristiques rend le modèle complexe, ce qui est difficile à https://www.roadsafety.gov.au/sites/default/files/2019-11/ nrss_2011_2020.pdf.
[2] S. Taran, V. Bajaj, Drowsiness detection using adaptive hermite decomposition and
interpréter par les méthodes "explicables" [50] ; c'est pourquoi nous
extreme learning machine for electroencephalogram signals, IEEE Sens. J. 18 (21)
nous en sommes tenus à un nombre limité de caractéristiques les plus (2018) 8855-8862, https://doi.org/10.1109/jsen.2018.2869775. Nov.
utiles dans notre étude. C'est pourquoi nous nous en sommes tenus à un
nombre limité de caractéristiques les plus utiles dans notre étude.
Cependant, certaines caractéristiques plus utiles avec de nouvelles
méthodes d'extraction de caractéristiques [4] peuvent être appliquées
à l'avenir pour améliorer la robustesse, l'explicabilité et la fiabilité du
système.
Enfin, les techniques d'apprentissage automatique interprétables
telles que SHAP et PDA présentent plusieurs limites. Elles sont
souvent utilisées avec des modèles complexes de type boîte noire et
offrent une interprétabilité locale plutôt que globale [41]. Le SHAP
peut être coûteux en termes de calcul [39] et le PDA suppose des
relations linéaires, ce qui limite leur applicabilité aux caractéristiques
numériques [41]. Les données de haute dimension avec des
caractéristiques étendues [50], la subjectivité de l'interprétation et la
sensibilité de la distribution des données sont des défis
supplémentaires pour ces méthodes [39]. Malgré leurs limites, SHAP
et PDA restent utiles pour améliorer la transparence dans les modèles
complexes d'apprentissage automatique avec un nombre limité de
caractéristiques, ce qui permet d'évaluer la fiabilité du système.
5. Conclusion
Cette étude utilise des signaux physiologiques multimodaux pour

détecter la somnolence, évaluer la fiabilité d'un tel système à l'aide de
plusieurs techniques de validation et interpréter les résultats à l'aide
de techniques d'apprentissage machine explicables. Parmi les
techniques de validation, les méthodes "holdout" et "leave one
participant out" donnent les résultats les plus prometteurs. En
particulier, la méthode de validation par exclusion d'un participant est
avantageuse car elle fournit une validation indépendante du
participant tout en traitant le problème de l'autocorrélation.
L'interprétation des résultats montre l'effet marginal des
caractéristiques sur la prédiction du modèle et l'influence entre elles.
Ces résultats indiquent l'utilité de différentes méthodes de validation
et d'interprétation pour un système de détection de la somnolence
"fiable" utilisant des biosignaux et leur applicabilité dans différentes
situations, en fonction de la structure des données et des différences
interindividuelles.
Déclaration de contribution des auteurs du CRediT
Md Mahmudul Hasan : Conceptualisation, Méthodologie,

Investi- gation, Analyse formelle, Visualisation, Logiciel, Rédaction
- version originale, Rédaction - révision et édition. Christopher N.
Watling : Conceptualisation, Méthodologie, Analyse formelle,
Ressources, Rédaction - version originale, Rédaction - révision et
édition, Visualisation, Supervision. Gre'goire
S. Larue : Conceptualisation, Méthodologie, Analyse formelle, Rédaction
-
projet original, Rédaction - révision et édition, Visualisation, Supervision.
Déclaration d'intérêts concurrents
Aucun conflit d'intérêt à signaler.
Remerciements
Ce projet de recherche a été soutenu par la bourse du programme de

formation à la recherche (RTP) du gouvernement australien et par la bourse
de rédaction de la faculté de QUT. Research Training Program (RTP) 110
107925
[3] S. Sharma, S.K. Khare, V. Bajaj, I.A. Ansari, Improving the separability of [26] T. Åkerstedt, A. Anund, J. Axelsson, G. Kecklund, Subjective sleepiness is a
drowsiness and alert EEG signals using analytic form of wavelet transform, Appl. sensitive indicator of insufficient sleep and impaired waking function, J. Sleep. Res.
Acoust. 181 (2021), 108164. 23 (3) (2014) 240-252, https://doi.org/10.1111/jsr.12158.
[4] S.K. Khare, V. Bajaj, G. Sinha, Automatic drowsiness detection based on [27] Cleveland Medical Devices Inc, BioCapture User's Guide," pp. 1-44, 2006.
variational non-linear chirp mode decomposition using electroencephalogram [28] C. Anderson, A.W.J. Wales, J.A. Horne, PVT lapses differ according to eyes open,
signals, in : Modelling and Analysis of Active Biopotential Signals in Healthcare, 1, closed, or looking away (in eng), Sleep 33 (2) (2010) 197-204, https://doi.org/
IOP Publishing Bristol, UK, 2020, pp. 5-1-5-25. 10.1093/sleep/33.2.197.
[5] H. Lee, J. Lee, M. Shin, Using wearable ECG/PPG sensors for driver drowsiness [29] L. Arsintescu, K.H. Kato, P.F. Cravalho, N.H. Feick, L.S. Stone, E.E. Flynn-Evans,
detection based on distinguishable pattern of recurrence plots, Electronics 8 Validation of a touchscreen psychomotor vigilance task (in eng), Accid. Anal. Prev.
(2) (2019), https://doi.org/10.3390/electronics8020192. BaselFebArt n° 192. 126 (2019) 173-176, https://doi.org/10.1016/j.aap.2017.11.041.
[6] M. Babaeian, M. Mozumdar, Driver drowsiness detection algorithms using [30] M.A. Hassan, E.A. Mahmoud, A.H. Abdalla, A.M. Wedaa, A Comparison between
electrocardiogram data analysis, in : Proceedings of the IEEE 9th Annual windowing FIR filters for extracting the EEG components, J. Biosens. Bioelectron.
Computing and Communication Workshop and Conference, 2019, pp. 1-6. 6
[7] K.T. Chui, K.F. Tsang, H.R. Chi, B.W.K. Ling, C.K. Wu, An accurate ECG- (4) (2015) 1-6.
based transportation safety drowsiness detection scheme, IEEE Trans. Ind. Inf. [31] M. Melinda, I.K.A. Enriko, M. Furqan, M. Irhamsyah, Y. Yunidar, N. Basir, The
12 (4) (2016) 1438-1452, https://doi.org/10.1109/TII.2016.2573259. effect of power spectral density on the electroencephalography of autistic children
[8] T. Kundinger, N. Sofra, A. Riener, Assessment of the potential of wrist-worn based on the welch periodogram method, JURNAL INFOTEL 15 (1) (2023)
wearable sensors for driver drowsiness detection (en anglais), Sensors 20 (4) 111-120.
(2020), https://doi.org/10.3390/s20041029. Bâle, SuisseArticle. [32] M.J.S. Johns, The amplitude-velocity ratio of blinks : a new method for monitoring
[9] R. Tamanani, R. Muresan, A. Al-Dweik, Estimation of driver vigilance status using drowsiness, Sleep 26 (2003) no. SUPPL.
real-time facial expression and deep learning, IEEE Sens. Lett. 5 (5) (2021) 1-4. [33] J. Pan, W.J. Tompkins, A real-time QRS detection algorithm, IEEE Trans. Biomed.
[10] C. Bergmeir, J.M. Benítez, On the use of cross-validation for time series predictor Eng. BME-32 (3) (1985) 230-236.
evaluation, Inf. Sci. 191 (2012) 192-213. Ny. [34] S. Das, Filters, wrappers and a boosting-based hybrid for feature selection, ICML 1
[11] K.Le Rest, D. Pinaud, P. Monestiez, J. Chadoeuf, V. Bretagnolle, Spatial leave-one- (2001) 74-81.
out cross-validation for variable selection in the presence of spatial [35] J. Suto, S. Oniga, P.P. Sitar, Comparison of wrapper and filter feature selection
autocorrelation, Glob. Ecol. Biogeogr. 23 (7) (2014) 811-820. algorithms on human activity recognition, in : Proceedings of the 6th International
[12] S. Barua, M.U. Ahmed, C. Ahlstro¨m, S. Begum, Automatic driver sleepiness Conference on Computers Communications and Control (ICCCC), IEEE, 2016,
detection using EEG, EOG and contextual information, Expert Syst. Appl. 115 pp. 124-129.
(2019) 121-135, https://doi.org/10.1016/j.eswa.2018.07.054. [36] M.M. Hasan, Biomedical Signal Based Drowsiness Detection Using Machine
[13] L.W. Ko, O. Komarov, W.K. Lai, W.G. Liang, T.P. Jung, Eyeblink learning : Singular and Hybrid Signal Approaches, Queensland University of
recognition improves fatigue prediction from single-channel forehead EEG in Technology, 2021.
a realistic sustained attention task, J. Neural Eng. 17 (3) (2020), 036015, [37] T. Åkerstedt, J. Connor, A. Gray, G. Kecklund, Predicting road crashes from a
https://doi.org/ 10.1088/1741-2552/ab909f, 2020/06/29. mathematical model of alertness regulation-The sleep/wake predictor, Accid.
[14] J. Chen, H. Wang, C. Hua, Electroencephalography based fatigue detection using a Anal. Prev. 40 (4) (2008) 1480-1485.
novel feature fusion and extreme learning machine, Cogn. Syst. Res. 52 (2018) [38] D. Delen, G. Walker, A. Kadam, Predicting breast cancer survivability : a
715-728, https://doi.org/10.1016/j.cogsys.2018.08.018. comparison of three data mining methods, Artif. Intell. Med. 34 (2) (2005)
[15] J. Min, P. Wang, J. Hu, " Driver fatigue detection through multiple entropy fusion 113-127.
analysis in an EEG-based system " (en anglais), PLOS One 12 (12) (2017), [39] S.M. Lundberg, S.I. Lee, A unified approach to interpreting model predictions,
e0188756, https://doi.org/10.1371/journal.pone.0188756. Adv. Neural Inf. Process. Syst. 30 (2017) 1-10.
[16] C.N. Watling, M.M. Hasan, G.S. Larue, Sensitivity and specificity of the driver [40] J.H. Friedman, Greedy function approximation : a gradient boosting machine, Ann.
sleepiness detection methods using physiological signals : a systematic review, Stat. 29 (5) (2001) 1189-1232.
Accid. Anal. Prev. 150 (2020), 105900. [41] Q. Zhao, T. Hastie, Causal interpretations of black-box models, J. Bus. Econ. Stat.
[17] H. Yaacob, F. Hossain, S. Shari, S.K. Khare, C.P. Ooi, U.R. Acharya, Application 39 (1) (2021) 272-281.
of artificial intelligence techniques for brain-computer interface in mental fatigue [42] D.R. Roberts, et al, Cross-validation strategies for data with temporal, spatial,
detection : a systematic review (2011-2022), IEEE Access 11 (2023). hierarchical, or phylogenetic structure, Ecography 40 (8) (2017) 913-929.
[18] S.K. Khare, S. March, P.D. Barua, V.M. Gadre, U.R. Acharya, Application of data [43] S. Barua, M.U. Ahmed, C. Ahlstrom, S. Begum, Automatic driver sleepiness
fusion for automated detection of children with developmental and mental detection using EEG, EOG and contextual information, Expert Syst. Appl. 115
disorders : a systematic review of the last decade, Inf. Fusion 99 (2023) 101898. (2019) 121-135, https://doi.org/10.1016/j.eswa.2018.07.054. Jan.
[19] L. Oliveira, J.S. Cardoso, A. Lourenço, C. Ahlstro¨m, Driver drowsiness detection [44] A. Elisseeff, M. Pontil, Leave-one-out error and stability of learning algorithms
: a comparison between intrusive and non-intrusive signal acquisition methods, with applications, NATO Sci. Ser. Sub III Comput. Syst. Sci. 190 (2003) 111-130.
in : Proceedings of the 7th European Workshop on Visual Information [45] A.Y. Kaplan, A.A. Fingelkurts, A.A. Fingelkurts, S.V. Borisov, B.S. Darkhovsky,
Processing (EUVIP), 2018, pp. 1-6, Nonstationary nature of the brain activity as revealed by EEG/MEG :
https://doi.org/10.1109/EUVIP.2018.8611704, 26-28 Nov2018. methodological, practical and conceptual challenges, Signal Process. 85 (11)
[20] J. Arnin et al, "Wireless-based portable EEG-EOG monitoring for real time (2005) 2190-2212, https://doi.org/10.1016/j.sigpro.2005.07.010, 2005/11/01.
drowsiness detection," (in eng), Conf Proc IEEE Eng Med Biol Soc, vol. 2013, pp. [46] H.P. Landolt, Genetic determination of sleep EEG profiles in healthy humans, Prog.
4977-80, 2013, doi : 10.1109/embc.2013.6610665. Brain Res. 193 (2011) 51-61, https://doi.org/10.1016/B978-0-444-53839-
[21] M.M. Hasan, C.N. Watling, G.S. Larue, Physiological signal-based drowsiness 0.00004-1.
detection using machine learning : singular and hybrid signal approaches, J. Saf. [47] A. Kamrud, B. Borghetti, C. Schubert Kabban, The effects of individual
Res. 80 (2021) 215-225. differences, non-stationarity, and the importance of data partitioning decisions for
[22] R. Chatila, et al, Trustworthy AI, Reflect. Artif. Intell. Humanity 12600 (2021) training and testing of EEG cross-participant models, Sensors 21 (9) (2021) 3225
13-39. [En ligne]. Available, https://www.mdpi.com/1424-8220/21/9/3225.
[23] W.J. von Eschenbach, Transparency and the black box problem : why we do not [48] H. Martensson, O. Keelan, C. Ahlstrom, Driver sleepiness classification based on
trust AI, Philos. Technol. 34 (4) (2021) 1607-1622. physiological data and driving performance from real road driving, IEEE
[24] S. Jeong, Y. Baek, S.H. Son, A hybrid V2X system for safety-critical applications Trans. Intell. Transp. Syst. 20 (2) (2019) 421-430, https://doi.org/10.1109/
in VANET, in : Proceedings of the IEEE 4th International Conference on Cyber- tits.2018.2814207. Fév.
Physical Systems, Networks, and Applications (CPSNA), IEEE, 2016, pp. 13-18. [49] M. Hultman, I. Johansson, F. Lindqvist, C. Ahlstro¨m, Driver sleepiness detection
[25] T. Åkerstedt, M. Gillberg, Subjective and objective sleepiness in the active with deep neural networks using electrophysiological data, Physiol. Meas. 42 (3)
individual, Int. J. Neurosci. 52 (1-2) (1990) 29-37. (2021), 034001.
[50] A. Zytek, I. Arnaldo, D. Liu, L. Berti-Equille, K. Veeramachaneni, The need for
interpretable features : motivation and taxonomy, ACM SIGKDD Explor. Newsl.
24
(1) (2022) 1-13.
111

Validation-And-Interpretation-Of-A-Multimodal-Drow - 2024 - Computer-Methods-and FR

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Validation-And-Interpretation-Of-A-Multimodal-Drow - 2024 - Computer-Methods-and FR

Transféré par

Droits d'auteur :

Formats disponibles

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

Méthodes et programmes informatiques en biomédecine 243 (2024) 107925

Listes des contenus disponibles sur ScienceDirect

Méthodes et programmes informatiques en biomédecine

Validation et interprétation d'un système multimodal de détection de la

nationale australienne de sécurité routière) [1]. Dans le

La somnolence est un problème de sécurité critique dans le

2.1. Les participants

Au total, 35 personnes âgées de 17 à 25 ans ont participé à cette

2.3.1. Somnolence subjective

2.3.2. Acquisition de signaux physiologiques

2.3.3. Tâche de vigilance psychomotrice (PVT)

2.4. Procédure expérimentale

2.5. Prétraitement des données, extraction et sélection des caractéristiques

Les données recueillies sur les biosignaux ont été prétraitées et

KNN - Nombre de voisins (k)

2.8. Mesures de performance

L'efficacité d'un modèle d'apprentissage automatique est évaluée

Six techniques différentes de validation croisée (CV) ont été

2.9.1. Validation en fonction des participants

2.10.2. Analyse de dépendance partielle 3. Résultats

Il convient de souligner que les techniques d'analyse de dépendance

rapport à la technique de validation CV 10 fois et à la technique de

EEG thêta et alpha de la région centrale gauche (C3) et de la région

Pour l'interprétation du classifieur de forêt aléatoire développé,

3.3.1. Analyse SHAP

3.3.2. Analyse de dépendance partielle

Diagrammes de dépendance partielle et d'espérance de composante

Fig. 3. Comparaison des méthodes de validation croisée 10 fois et LOPO (Leave

seuil = 0,14 s et seuil AVR = 0,078) lorsque le classificateur

La dépendance combinée du BD et du RVA est présentée dans la figure

6(e), qui met en évidence l'effet dans un graphique en 3D. L'analyse

similaire a été présentée pour les caractéristiques basées sur l'EEG

associées à une probabilité accrue de somnolence. Pour la puissance de

la bande thêta (centrale), la transition se produit après que la puissance

de la bande atteint 0,00025 μV2 /Hz, ce qui suggère un seuil

puissance de la bande alpha (occipital), elle déclenche la somnolence

aperçu scientifique de la nature prédictive de la puissance de la bande

alpha de l'EEG dans la région occipitale.

Diagramme d'interaction des caractéristiques à deux voies. Un

dépendance du résultat prédit par rapport à plusieurs caractéristiques

caractéristiques de l'EOG et de l'EEG. Physiquement, ce graphique

identifie un seuil spécifique où les deux caractéristiques interagissent

Note : A : éveillé ; D : Drowsy;10-Fold CV : 10-Fold

pour affecter la probabilité de somnolence. D'après le diagramme

d'interaction à deux voies de la figure 8(a), lorsque le BD dépasse 0,15

somnolence ; cependant, en dessous de ce seuil, le BD seul a un impact

que lorsqu'il dépasse le seuil de 0,15 seconde. De même, l'interaction

8(b). Elle montre qu'en dessous de 0,15 seconde de BD, la puissance

thêta C3 de l'EEG est indépendante du BD lorsqu'il s'agit de faire des

impact considérable sur la puissance thêta de l'EEG (centre C3), ce qui,

combiné, influe sur la probabilité de somnolence. Cela signifie qu'avec

une durée de clignement plus longue, la somnolence augmente, tout en

déclenchant la puissance de l'EEG thêta (central). D'après les figures,

dépendance partielle pour chaque caractéristique. Ensuite, la moyenne

3.3.3. Comparaison des scores SHAP et de dépendance partielle

valeurs de sensibilité et de précision ont diminué pour KNN

4.1. Mesure de la performance avec différentes méthodes de validation

Les mesures de performance avec les différentes techniques de

4.1.1. Évaluation dépendante du participant

4.1.2. Évaluation indépendante des participants

de la liste des priorités classées par les valeurs SHAP influencent