Vous êtes sur la page 1sur 14

Machine Translated by Google

Consultez les discussions, les statistiques et les profils des auteurs de cette publication sur : https://www.researchgate.net/publication/372230358

Reconnaissance des émotions pour une plateforme E­Learning utilisant le Deep Learning : A
Comparaison de différentes approches

Articles ∙ Juillet 2023

CITATIONS LIT

0 4

4 auteurs :

Mohamed Kodad Achraf Zbaïda


Université Hassan II de Casablanca Université Hassan II de Casablanca

2 PUBLICATIONS 0 CITATIONS 2 PUBLICATIONS 0 CITATIONS

VOIR LE PROFIL VOIR LE PROFIL

Yousfi Mohamed Abdelmajid Bousselham

Université Hassan II de Casablanca Université Hassan II de Casablanca

190 PUBLICATIONS 827 CITATIONS 17 PUBLICATIONS 106 CITATIONS

VOIR LE PROFIL VOIR LE PROFIL

Certains des auteurs de cette publication travaillent également sur ces projets connexes :

Cadre de découverte et de composition de services Web sémantiques Voir le projet

Contribution au développement d'une carte de circulation dynamique à l'aide du projet Multi­Agent Approach View

Tout le contenu suivant cette page a été téléchargé par Mohammed Kodad le 09 juillet 2023.

L'utilisateur a demandé l'amélioration du fichier téléchargé.


Machine Translated by Google

Reconnaissance des émotions pour une plateforme E­Learning


utilisant le Deep Learning : Une comparaison de différents
Approches

ZBAIDA Achraf YOUSSFI Mohamed


KODAD Mohamed
Informatique, Intelligence Artificielle et Cyber Informatique, Intelligence Artificielle et Cyber
Informatique, Intelligence Artificielle et Cyber
Sécurité (L2IAS) Sécurité (L2IAS)
Sécurité (L2IAS)
ENSET Mohammedia, Université ENSET Mohammedia, Université Hassan
ENSET Mohammedia, Université Hassan Hassan II de Casablanca II de Casablanca Mohammedia,
II de Casablanca Mohammedia,
Mohammedia, Maroc Maroc m.youssfi@enset­
Maroc
zbaida.achraf@gmail.com media.ac.ma
kodad.mohammed.me@gmail.com

BOUSSELHAM Abdelmajid
Informatique, Intelligence Artificielle et Cyber
Sécurité (L2IAS)
ENSET Mohammedia, Université Hassan
II de Casablanca Mohammedia,
Maroc bousselham@enset­
media.ac.ma

Résumé— Ce résumé fournit un bref résumé de l'utilisation des techniques expressions. La reconnaissance des émotions est importante dans la façon dont les
d'apprentissage en profondeur pour reconnaître les émotions à travers les ordinateurs interagissent avec les humains, et elle peut grandement améliorer les
expressions faciales. Les modèles d'apprentissage en profondeur, en particulier les plateformes d'apprentissage en ligne.
réseaux de neurones convolutifs (CNN), ont gagné en popularité dans l'analyse et
la compréhension précises des émotions à partir d'images faciales. Les plateformes d'apprentissage en ligne sont devenues populaires pour leur
flexibilité et leur accessibilité dans l'éducation. Cependant, ils ont souvent du mal à
comprendre et à répondre aux émotions des apprenants, ce qui affecte l'efficacité des
En entraînant ces modèles sur de vastes ensembles de données d'images expériences d'apprentissage personnalisées et engageantes.
d'expressions faciales étiquetées, ils peuvent apprendre et extraire efficacement des
caractéristiques cruciales. Les CNN excellent dans la capture de détails spatiaux à
Pour résoudre ce problème, les chercheurs utilisent des techniques d'apprentissage
partir d'images faciales.
en profondeur pour construire des systèmes de reconnaissance des émotions. Ces

L'application de la reconnaissance des émotions basée sur l'apprentissage systèmes analysent les expressions faciales à l'aide de réseaux de neurones

profond s'étend à divers domaines, notamment l'interaction homme­machine, les spécialisés tels que les CNN et les RNN pour identifier et classer avec précision les
soins de santé et le divertissement. La détection des émotions en temps réel permet émotions en temps réel. Cela ouvre des possibilités intéressantes pour intégrer la
des interventions personnalisées, la diffusion de contenu adaptatif et la création technologie de reconnaissance des émotions dans les plateformes d'apprentissage en
d'expériences émotionnellement captivantes, en particulier dans le contexte de ligne, rendant l'apprentissage plus personnalisé et adaptatif.
l'apprentissage en ligne.

Cependant, des défis subsistent, tels que la disponibilité limitée d'ensembles de Cet article explore le potentiel de l'utilisation de l'apprentissage en profondeur et
données diversifiés et bien annotés et la nécessité de tenir compte des variations de l'analyse de l'expression faciale pour la reconnaissance des émotions dans les
des expressions faciales entre les individus et les cultures. plateformes d'apprentissage en ligne. Nous verrons pourquoi la reconnaissance des
émotions est importante pour améliorer l'interaction homme­machine et ses avantages
spécifiques dans l'apprentissage en ligne. Nous expliquerons également les méthodes
Néanmoins, l'intégration de techniques d'apprentissage en profondeur pour la et techniques utilisées dans les systèmes d'apprentissage en profondeur, en nous
reconnaissance des émotions a le potentiel de révolutionner l'interaction homme­ concentrant sur la manière dont les CNN analysent les expressions faciales.
machine, d'améliorer les expériences des utilisateurs et de favoriser des technologies
plus empathiques et adaptables dans différents domaines. La recherche continue et
les avancées dans les approches d'apprentissage en profondeur devraient affiner En intégrant la reconnaissance des émotions basée sur l'apprentissage profond
davantage la précision et la fiabilité des systèmes de reconnaissance des émotions dans les plateformes d'apprentissage en ligne, nous pouvons obtenir des informations
basés sur les expressions faciales. en temps réel sur les émotions des apprenants, permettant un soutien personnalisé et
un contenu personnalisé. Les modèles d'apprentissage en profondeur peuvent
également créer des supports d'apprentissage attrayants qui rendent l'expérience
Mots clés— reconnaissance des émotions, e­learning, expression faciale, d'apprentissage plus agréable.
machine learning en ligne, temps réel, Deep Learning,
Base de données Cependant, si l'intégration de la technologie de reconnaissance des émotions
présente de nombreux avantages, il est important d'équilibrer son utilisation avec le
JE.
INTRODUCTION respect de la vie privée et de l'autonomie de l'utilisateur. Cet article discutera également
des considérations éthiques et des défis associés à l'utilisation de la reconnaissance
TDeep learning est devenu une technologie puissante qui peut aider les machines
des émotions dans les plateformes d'apprentissage en ligne.
à comprendre des modèles complexes de données.
Un domaine où l'apprentissage en profondeur est prometteur est la reconnaissance
des émotions, notamment en analysant le visage.

1
Machine Translated by Google

En résumé, cet article met en évidence le potentiel des techniques dix­neuf pour collecter les signaux EEG. Des marqueurs virtuels ont été placés
d'apprentissage en profondeur pour la reconnaissance des émotions et leur sur le visage du sujet et les marqueurs ont été suivis à l'aide d'un algorithme de
application dans les plateformes d'apprentissage en ligne. En utilisant les flux optique. La distance entre le centre du visage du sujet et chaque position de
expressions faciales pour comprendre les émotions des apprenants, nous marqueur a été utilisée comme caractéristique pour la classification de l'expression
pouvons transformer la façon dont les gens interagissent avec l'éducation en faciale, tandis que les quatorze signaux collectés à partir du lecteur de signal
ligne, créant ainsi un environnement d'apprentissage plus empathique, adaptable EEG ont été utilisés pour la classification émotionnelle.
et efficace.

L'article [2] traite de l'importance de la reconnaissance faciale dans diverses


applications, telles que la sécurité, la vérification d'identité et les systèmes de
II. PROBLÈME DE RECHERCHE : gestion de bases de données. L'article présente un algorithme d'apprentissage
Dans l'apprentissage en ligne, les enseignants et les étudiants communiquent en profondeur pour une reconnaissance et une identification faciales précises,
généralement par le biais de messages écrits, ce qui rend difficile l'expression et utilisant la détection en cascade haar et un modèle de réseau neuronal convolutif.
la compréhension des émotions. Le travail proposé comprend trois objectifs : détection de visage, reconnaissance
Contrairement aux salles de classe traditionnelles, où les élèves peuvent montrer et classification des émotions, en utilisant OpenCV, la programmation Python et
leurs sentiments à travers leurs paroles et leurs actions, l'apprentissage en ligne un jeu de données. Une expérience a été menée pour identifier les émotions de
n'a pas cette capacité. plusieurs élèves, et les résultats démontrent l'efficacité du système d'analyse
faciale. Enfin, la précision de la détection et de la reconnaissance automatiques
Les émotions sont importantes dans l'apprentissage, car elles affectent la des visages est mesurée.
motivation et l'engagement des élèves, ainsi que leur capacité à se souvenir des
informations. C'est pourquoi il est essentiel d'inclure les émotions dans les
systèmes d'apprentissage en ligne pour améliorer l'expérience d'apprentissage
et améliorer les résultats. En trouvant des moyens pour les étudiants d'exprimer Ils ont proposé [3] une architecture LeNet basée sur un réseau neuronal
leurs émotions et pour que le système reconnaisse ces émotions, l'apprentissage convolutif (CNN) pour la reconnaissance des expressions faciales. Tout d'abord,
en ligne peut ressembler davantage à un apprentissage en face à face et aider ils ont fusionné 3 jeux de données (JAFFE, KDEF et notre jeu de données
les étudiants à se sentir plus connectés à ce qu'ils apprennent. personnalisé). Ensuite, ils ont formé l'architecture LeNet pour la classification des
états émotionnels. Dans cette étude, ils ont atteint une précision de 96,43 % et
une précision de validation de 91,81 % pour la classification de 7 émotions
Les chercheurs ont étudié différentes manières de reconnaître les émotions, différentes à travers les expressions faciales.
par exemple en analysant la parole, les signaux corporels et les expressions
faciales. Les expressions faciales, en particulier, se sont révélées prometteuses
pour reconnaître les émotions dans l'apprentissage en ligne. Cependant, la Ils présentent [4] une approche de reconnaissance de l'expression faciale
plupart des études se sont concentrées sur l'analyse de données préenregistrées (FER) utilisant les réseaux de neurones convolutifs (CNN). Ce modèle créé à
et non sur la reconnaissance des émotions en temps réel lors de l'apprentissage l'aide de CNN peut être utilisé pour détecter les expressions faciales en temps
en ligne. réel. Le système peut être utilisé pour l'analyse des émotions pendant que les
utilisateurs regardent des bandes­annonces de films ou des conférences vidéo.
L'un des défis de l'apprentissage en ligne consiste à déterminer si les
étudiants sont satisfaits et engagés. La façon dont les élèves perçoivent leur
expérience d'apprentissage influe sur leur motivation et leurs résultats. Mais les Ils discutent [5] de la manière dont les agents et les robots animés par
moyens habituels de mesurer la satisfaction, comme les formulaires de rétroaction ordinateur peuvent ajouter une dimension sociale à l'interaction homme­machine.
ou les sondages, peuvent être subjectifs et ne pas capturer les véritables La communication en face à face en temps réel nécessite de s'appuyer sur des
émotions des étudiants. C'est pourquoi il est important de développer des moyens primitives perceptives riches en sens plutôt que sur des processus d'inférence
plus précis et objectifs pour mesurer le degré de satisfaction et d'engagement symbolique lents en raison du niveau élevé d'incertitude à cette échelle de temps.
des étudiants dans l'apprentissage en ligne. Le système présenté dans l'article détecte les faces frontales et les code par
rapport à 7 dimensions en temps réel. Il utilise des techniques de renforcement
et des classificateurs SVM pour améliorer les performances et a été testé sur un
Il y a aussi un manque de recherche sur la reconnaissance des émotions en ensemble de données d'expressions faciales posées. Les sorties du système
temps réel à l'aide des expressions faciales dans l'apprentissage en ligne. C'est changent en douceur au fil du temps, fournissant une représentation
un domaine qui mérite plus d'attention. Développer un système capable de potentiellement précieuse pour coder la dynamique des expressions faciales de
reconnaître les émotions en temps réel à l'aide d'expressions faciales améliorerait manière entièrement automatique et discrète.
considérablement l'expérience d'apprentissage en ligne. Cette étude vise à
combler cette lacune dans la recherche en créant un système en ligne qui utilise
l'apprentissage automatique pour reconnaître les émotions à partir des Ils ont comparé [6] cinq méthodes différentes de reconnaissance des
expressions faciales en temps réel. Le système sera testé avec un groupe émotions en temps réel à partir d'images faciales, en particulier pour les quatre
d'étudiants dans un environnement d'apprentissage en ligne pour voir dans quelle émotions de base que sont le bonheur, la tristesse, la colère et la peur.
mesure il mesure leur satisfaction et leur engagement. Trois des approches sont basées sur des réseaux de neurones convolutifs (CNN)
et deux sont des méthodes conventionnelles utilisant des caractéristiques
d'histogramme de gradients orientés (HOG). Les approches comparées sont :

III. AlexNet CNN, Affdex CNN, FER­CNN, SVM utilisant les fonctionnalités HOG, et
TRAVAUX CONNEXES
MLP réseau de neurones artificiels utilisant les fonctionnalités HOG. L'article
L'étude [1] décrit un algorithme de reconnaissance des émotions en temps présente les résultats des tests de ces méthodes en temps réel sur un groupe de
réel à l'aide de marqueurs virtuels, de repères faciaux et de signaux EEG. L'étude huit volontaires.
s'est concentrée sur les personnes handicapées physiques et les enfants atteints
d'autisme. L'algorithme a utilisé les classificateurs CNN et LSTM pour classer six
émotions faciales et signaux EEG. L'étude a impliqué cinquante­cinq étudiants
de premier cycle pour la reconnaissance des émotions faciales et Cet article [7] présente une technique avancée d'apprentissage en profondeur
pour la prédiction des émotions par l'expression faciale

2
Machine Translated by Google

analyse. L'approche proposée utilise un modèle de réseau neuronal convolutif 1) Apprentissage automatique :
(CNN) en deux étapes. Le premier CNN prédit l'émotion principale de l'image l'apprentissage automatique implique la formation d'algorithmes pour analyser
d'entrée comme heureuse ou triste, tandis que le second CNN prédit l'émotion et interpréter des données, et faire des prédictions ou des décisions basées
secondaire. sur des modèles et des modèles statistiques. Les algorithmes ML apprennent
Le modèle a été formé sur les ensembles de données FER2013 et JAFFE et a à partir de données étiquetées et utilisent des fonctionnalités dérivées de ces
obtenu des résultats supérieurs par rapport aux méthodes de pointe existantes données pour faire des prédictions sur de nouveaux exemples invisibles. Les
pour la prédiction des émotions à partir des expressions faciales.
algorithmes ML peuvent être largement classés en apprentissage supervisé,
non supervisé et par renforcement.
Cet article [8] aborde la tâche difficile de la reconnaissance des émotions
en temps réel par l'expression faciale dans la vidéo en direct à l'aide d'un outil Apprentissage supervisé : dans l'apprentissage supervisé, les algorithmes sont
de suivi automatique des caractéristiques faciales pour la localisation et entraînés à l'aide de données étiquetées, où chaque point de données est
l'extraction des caractéristiques. Les traits du visage extraits sont introduits associé à une étiquette ou à un résultat correspondant. L'objectif est
dans un classificateur Support Vector Machine pour déduire les émotions. d'apprendre une fonction de mappage qui peut prédire avec précision les
L'article présente les résultats d'expériences évaluant la précision de l'approche étiquettes des nouvelles données invisibles. Des exemples d'algorithmes
pour divers scénarios, y compris la reconnaissance dépendante et indépendante d'apprentissage supervisé comprennent la régression linéaire, les arbres de
de la personne. Les résultats montrent que la méthode proposée est efficace décision et les machines à vecteurs de support.
pour obtenir une reconnaissance d'expression entièrement automatique et
discrète dans la vidéo en direct. L'article conclut en discutant de l'importance
Apprentissage non supervisé : l'apprentissage non supervisé implique la
de la recherche sur les interfaces homme­machine affectives et intelligentes et
formation d'algorithmes sur des données non étiquetées, sans étiquettes ni
en suggérant de possibles améliorations futures.
résultats prédéfinis. Les algorithmes apprennent à identifier les modèles, les
similitudes et les structures dans les données.
Les algorithmes de clustering et les techniques de réduction de la
Cet article [9] met l'accent sur l'importance d'analyser les expressions dimensionnalité sont des exemples courants d'apprentissage non supervisé.
faciales des utilisateurs pour améliorer l'interaction entre les humains et les
machines. L'article propose une méthode d'extraction des traits du visage et Apprentissage par renforcement : L'apprentissage par renforcement implique
de reconnaissance de l'état émotionnel de l'utilisateur qui est robuste aux la formation d'algorithmes pour prendre des décisions ou entreprendre des
variations d'expression faciale entre différents utilisateurs. La méthode extrait actions dans un environnement afin de maximiser un signal de récompense
les paramètres d'animation faciale (FAP) et utilise un nouveau système neuro
cumulatif. Les algorithmes apprennent par essais et erreurs, recevant des
flou pour analyser les variations de FAP à la fois dans l'espace émotionnel commentaires de l'environnement en fonction de leurs actions. L'apprentissage
discret et dans l'espace d'activation­évaluation continue 2D. Le système peut
par renforcement a été couronné de succès dans des applications telles que
en outre apprendre et s'adapter aux caractéristiques d'expression faciale
le jeu et la robotique.
d'utilisateurs spécifiques à l'aide d'une analyse de regroupement. L'article
rapporte les résultats expérimentaux d'ensembles de données émotionnellement
2) Deep Learning : Deep
expressifs, indiquant la bonne performance et le potentiel de l'approche
Learning est un sous­ensemble de ML qui se concentre sur la formation de
proposée.
réseaux de neurones profonds à plusieurs couches pour apprendre
automatiquement les représentations hiérarchiques des données. Les
L'objectif de cette étude [10] est de développer des modèles prédictifs algorithmes d'apprentissage en profondeur sont inspirés de la structure et de
capables de classer les émotions en temps réel à partir de vidéos de
la fonction du cerveau humain, et ils excellent dans la capture de modèles et
participants à un atelier s'engageant avec un robot éducatif. Nous combinons
de relations complexes dans des ensembles de données à grande échelle.
les deux meilleurs modèles de généralisation (Inception­v3 et ResNet­34) pour
Les réseaux de neurones profonds sont constitués de couches interconnectées
obtenir une meilleure précision de prédiction. Pour tester notre approche, nous
de neurones artificiels (nœuds), chaque couche extrayant des caractéristiques
appliquons les modèles aux données vidéo et analysons les émotions prédites
de plus en plus abstraites des données d'entrée.
en fonction du sexe, des activités et des tâches des participants. L'analyse
statistique révèle que les participantes sont plus susceptibles de montrer des
Les architectures d'apprentissage en profondeur, telles que les réseaux de
émotions dans presque tous les types d'activités, et le bonheur est l'émotion la
plus fréquemment prédite pour tous les types d'activités, quel que soit le sexe. neurones convolutifs (CNN) pour la reconnaissance d'images et les réseaux

De plus, la programmation est le type d'activité où les émotions analysées de neurones récurrents (RNN) pour les données séquentielles, ont atteint des
étaient les plus fréquentes. Ces résultats mettent en évidence le potentiel de performances remarquables dans divers domaines, notamment la vision par
l'utilisation des expressions faciales pour améliorer les pratiques d'enseignement ordinateur, le traitement du langage naturel et la reconnaissance vocale. Les
et comprendre l'engagement des élèves. algorithmes d'apprentissage en profondeur nécessitent souvent des quantités
importantes de données d'entraînement étiquetées et de puissantes ressources
de calcul pour l'entraînement en raison de leurs architectures complexes.

IV. CONCEPTS FONDAMENTAUX


3) Principales différences :
A. Apprentissage automatique (ML) et apprentissage en profondeur : une
représentation et ingénierie des fonctionnalités : dans le ML traditionnel, les
brève
experts du domaine doivent souvent concevoir manuellement des
comparaison L'apprentissage automatique (ML) et l'apprentissage en fonctionnalités à partir de données brutes. Le Deep Learning,
profondeur sont deux sous­domaines de l'intelligence artificielle (IA) qui se quant à lui, apprend automatiquement les représentations hiérarchiques à
concentrent sur la formation d'algorithmes pour apprendre des modèles et faire partir des données d'entrée brutes, éliminant ainsi le besoin d'une
des prédictions ou des décisions. Bien qu'ils partagent des similitudes, il existe ingénierie poussée des fonctionnalités.
des différences essentielles entre ML et Deep Learning.

3
Machine Translated by Google

Performances et évolutivité : les algorithmes d'apprentissage en profondeur peuvent états émotionnels humains. Cette avancée peut révolutionner de nombreuses industries

atteindre des performances de pointe dans certaines tâches lorsqu'ils sont entraînés et améliorer considérablement notre interaction avec la technologie et entre nous.

sur de grandes quantités de données. Les algorithmes ML peuvent être plus


adaptés aux ensembles de données plus petits ou lorsque l'interprétabilité du modèle
est critique.

Exigences de calcul : les algorithmes d'apprentissage en profondeur nécessitent


des ressources de calcul importantes, telles que des GPU puissants, en
raison de leurs architectures complexes. Les algorithmes ML peuvent souvent
être formés sur du matériel plus modeste.

En résumé, Machine Learning se concentre sur la formation d'algorithmes


pour apprendre des modèles et faire des prédictions basées sur des caractéristiques
dérivées de données, tandis que Deep Learning utilise des réseaux de neurones
profonds pour apprendre automatiquement des représentations hiérarchiques de Fig. 1. Les étapes de la reconnaissance des émotions à l'aide de l'expression faciale

données. Le choix entre ML et Deep Learning dépend de la tâche, des données


disponibles, des ressources de calcul et du niveau d'interprétabilité souhaité.
V MATERIELS ET METHODES

Dans cette étude, nous comparerons différentes façons de reconnaître les émotions à
B. Reconnaissance des émotions basée sur les expressions faciales partir des expressions faciales pour voir laquelle fonctionne le mieux. Nous

La reconnaissance des émotions basée sur les expressions faciales est un domaine examinerons différentes techniques et algorithmes utilisés dans ce domaine et

fascinant qui se concentre sur le développement de méthodes et de technologies pour analyserons leurs performances. Sur la base de cette analyse, nous créerons notre

détecter et interpréter avec précision les émotions humaines en analysant les propre réseau de neurones (NN) spécial capable de reconnaître les émotions
mouvements et les expressions du visage. avec précision.
Les visages humains sont incroyablement expressifs, transmettant un large éventail
d'émotions à travers des changements subtils dans les mouvements musculaires, tels Pour améliorer notre NN, nous prendrons en compte des éléments tels que la manière
que les sourires, les froncements de sourcils et les sourcils levés. dont nous préparons les données, les méthodes que nous utilisons pour sélectionner
les fonctionnalités importantes et le type de structure que nous donnons au réseau.
Les chercheurs et les scientifiques dans ce domaine explorent diverses approches
Nous allons également affiner le modèle à l'aide de méthodes avancées et vérifier
pour reconnaître et comprendre les émotions basées sur les expressions faciales. Ils
qu'il fonctionne bien dans différentes situations.
étudient les mécanismes sous­jacents des expressions faciales, la relation entre les
mouvements faciaux spécifiques et les états émotionnels, et les modèles qui indiquent
différentes émotions. En créant notre propre NN basé sur ce que nous avons appris de l'étude, nous
espérons améliorer la technologie utilisée pour reconnaître les émotions. Nous voulons
le rendre plus précis et plus rapide, ce qui peut être utile dans de nombreux
L'objectif est de développer des algorithmes de vision par ordinateur et
domaines tels que les ordinateurs interagissant avec les gens,
d'apprentissage automatique capables de détecter et de classer automatiquement les
l'apprentissage en ligne, la réalité virtuelle et les soins de santé.
expressions faciales afin de reconnaître avec précision les émotions telles que le
bonheur, la tristesse, la colère, la surprise, la peur et le dégoût.
Ces algorithmes apprennent à partir de grands ensembles de données d'expressions
En résumé, cette étude consiste à comparer différentes méthodes de
faciales étiquetées, des modèles de formation pour identifier les caractéristiques et les
reconnaissance des émotions à partir des expressions faciales et à utiliser ces
modèles uniques associés à chaque émotion.
connaissances pour créer notre propre réseau de neurones spécialisé. Notre
Les applications de la reconnaissance des émotions basées sur les expressions objectif est d'améliorer la capacité des ordinateurs à comprendre les
faciales sont très variées. En psychologie, il peut aider à comprendre le comportement
émotions des visages et de rendre la technologie plus fiable et plus efficace à
humain, à étudier les troubles émotionnels et à améliorer les techniques de thérapie.
l'avenir.
Dans l'interaction homme­ordinateur, il permet des interactions plus naturelles et plus
empathiques entre les humains et les machines. Dans des domaines comme la réalité
virtuelle et les jeux, il améliore l'immersion et l'expérience utilisateur. De plus, il a des A. Description de l'ensemble de
applications potentielles dans des domaines tels que les études de marché, l'analyse
données Pour nos recherches, nous utiliserons l'ensemble de données
des commentaires des clients et les systèmes de sécurité.
disponible sur [DataSET] comme ensemble de données principal pour former
et tester nos modèles. Cet ensemble de données contient des dossiers
représentant différentes expressions faciales, notamment Surprise, Colère,
Les chercheurs utilisent diverses techniques de reconnaissance des émotions, Bonheur, Triste, Neutre, Dégoût et Peur.
notamment l'extraction de caractéristiques à partir de repères faciaux, des modèles
d'apprentissage en profondeur tels que les réseaux de neurones convolutionnels (CNN) L'ensemble de données est divisé en deux dossiers principaux, Formation et
et des approches multimodales qui combinent les expressions faciales avec d'autres Test, pour faciliter la configuration du modèle pour les utilisateurs
modalités telles que la voix et les signaux physiologiques. finaux. L'ensemble d'apprentissage comprend un total de 28 079 échantillons,
tandis que l'ensemble de test contient 7 178 échantillons.
Chaque échantillon est constitué d'images en niveaux de gris de visages aux
dimensions de 48x48 pixels. L'ensemble de données garantit que les visages
Le but ultime est de développer des systèmes sophistiqués capables d'interpréter
sont enregistrés automatiquement, ce qui entraîne une plus ou
et de répondre avec précision aux émotions humaines en temps réel, permettant aux
machines de comprendre et de s'adapter à

4
Machine Translated by Google

visage moins centré occupant un espace similaire dans chaque image. poids pour minimiser la perte et améliorer sa prédiction
précision.

Il est important de noter que cet ensemble de données a été obtenu à Le modèle VGG16 a démontré de solides performances
partir du concours "Challenges in Representation Learning: Facial dans diverses tâches de vision par ordinateur, y compris la reconnaissance
Expression Recognition Challenge". L'ensemble de données a été des émotions basée sur les expressions faciales. Son architecture profonde
préparé par Pierre­Luc Carrier et Aaron Courville dans le cadre de leur lui permet d'apprendre des modèles et des caractéristiques
projet de recherche en cours. Ils ont généreusement fourni une version complexes à partir d'images, permettant une reconnaissance précise
préliminaire de leur ensemble de données aux organisateurs de des différentes émotions. Cependant, il convient de noter que le modèle
l'atelier pour qu'ils l'utilisent dans le cadre de ce concours. VGG16 peut être gourmand en calculs et peut nécessiter des
ressources de calcul importantes pour la formation et l'inférence, en
particulier lorsqu'il s'agit d'ensembles de données à grande échelle.

B. Modèle VGG16

Le modèle VGG16 [11] est une architecture de réseau neuronal En résumé, le modèle VGG16 est une architecture CNN puissante
convolutif (CNN) qui a été largement utilisée dans diverses tâches de vision couramment utilisée dans la reconnaissance des émotions basée sur les
par ordinateur, y compris la reconnaissance des émotions basée expressions faciales. Sa structure profonde, ainsi que sa capacité à
sur les expressions faciales. Il a été développé par le Visual apprendre des fonctionnalités complexes, le rendent approprié
Geometry Group (VGG) de l'Université d'Oxford. pour capturer des représentations significatives à partir d'images et
prédire avec précision différentes émotions.

Le modèle VGG16 se caractérise par sa structure profonde, composée de


C. Modèle VGG19
16 couches, dont 13 couches convolutives et 3 couches entièrement
connectées. L'architecture de VGG16 est connue pour sa simplicité et Le modèle VGG19 [12] est une extension du modèle VGG16 et est
son uniformité, où les couches convolutives ont un petit champ également une architecture de réseau neuronal convolutif (CNN)
récepteur (3x3) et sont empilées les unes après les autres. Ce choix couramment utilisée dans diverses tâches de vision par ordinateur,
de conception permet au modèle d'apprendre des caractéristiques y compris la reconnaissance des émotions basée sur les expressions
complexes en capturant des modèles locaux dans les premières faciales.
couches, puis en capturant progressivement des modèles plus
complexes à mesure que la profondeur augmente. Semblable à VGG16, VGG19 a été développé par le Visual Geometry
Group (VGG) de l'Université d'Oxford. Il est appelé VGG19 car il se
compose de 19 couches, dont 16 couches convolutionnelles et
L'entrée du modèle VGG16 est généralement une image, et le réseau 3 couches entièrement connectées. L'architecture de VGG19 partage des
effectue une série d'opérations convolutionnelles pour extraire les similitudes avec VGG16, mais elle a une structure plus profonde, lui
caractéristiques de l'image d'entrée. Chaque couche convolutive est suivie permettant de capturer des motifs et des caractéristiques plus complexes
d'une fonction d'activation d'unité linéaire rectifiée (ReLU), qui introduit à partir d'images.
une non­linéarité dans le modèle. Les sorties intermédiaires
des couches convolutives sont sous­échantillonnées à l'aide de couches
de regroupement maximal pour réduire les dimensions spatiales tout VGG19 suit un principe de conception similaire à VGG16, où il utilise
en préservant les caractéristiques les plus saillantes. de petits champs récepteurs (3x3) dans ses couches
convolutionnelles empilées les unes sur les autres. Ce choix de
conception permet au réseau d'apprendre des fonctionnalités
Après les couches convolutionnelles, les caractéristiques extraites sont riches et détaillées en appliquant plusieurs opérations convolutives
aplaties et passées à travers une série de couches entièrement séquentiellement. Les couches convolutives sont généralement
connectées. Ces couches entièrement connectées traitent davantage les suivies de fonctions d'activation d'unités linéaires rectifiées (ReLU)
caractéristiques et produisent éventuellement les prédictions de sortie. pour introduire une non­linéarité dans le modèle.
Dans le cas de la reconnaissance des émotions, la couche de sortie du
modèle VGG16 est généralement configurée pour avoir plusieurs
unités correspondant à différentes classes d'émotions (par exemple, Les couches de regroupement maximal sont utilisées après
heureux, triste, en colère, etc.). La sortie finale est obtenue à chaque ensemble de couches convolutives pour sous­échantillonner
l'aide d'une fonction d'activation softmax, qui produit une distribution les cartes d'entités, réduisant ainsi les dimensions spatiales tout en
de probabilité sur les différentes classes d'émotions. préservant les informations les plus saillantes. Les cartes de
caractéristiques intermédiaires sont ensuite passées à travers une série
de couches entièrement connectées, qui traitent ensuite les caractéristiques
Pour former le modèle VGG16 pour la reconnaissance des émotions, extraites et génèrent les prédictions de sortie finales.
un ensemble de données étiqueté d'images d'expression faciale est
utilisé. Le modèle est optimisé à l'aide de méthodes telles que la Dans le contexte de la reconnaissance des émotions basée sur les
descente de gradient stochastique (SGD) ou l'optimiseur Adam, et la expressions faciales, l'entrée du modèle VGG19 est une image d'un
fonction de perte utilisée est généralement l'entropie croisée visage, et il apprend à extraire les caractéristiques discriminantes des
catégorielle, qui mesure la différence entre les probabilités prédites et régions faciales pour distinguer les différentes émotions.
les véritables étiquettes. Le modèle est entraîné de manière itérative sur La couche de sortie de VGG19 est configurée pour avoir plusieurs
l'ensemble de données étiqueté, en ajustant les unités représentant les classes d'émotions possibles.

5
Machine Translated by Google

Une fonction d'activation softmax est couramment utilisée pour couches, normalisation par lots et fonctions d'activation.
produire une distribution de probabilité sur les classes d'émotions, Les connexions résiduelles au sein des blocs facilitent la circulation
permettant au modèle de faire des prédictions sur l'émotion de l'information et améliorent le gradient flow pendant l'entraînement.
dominante dans l'expression faciale d'entrée.

La formation du modèle VGG19 pour la reconnaissance des Dans le contexte de la reconnaissance des émotions basée sur
émotions implique généralement l'utilisation d'un ensemble de les expressions faciales, le modèle ResNet50V2 prend une
données étiquetées d'images d'expression faciale. Le modèle image d'entrée d'un visage et la traite à travers les couches pour
est optimisé à l'aide d'algorithmes tels que la descente de gradient extraire les caractéristiques discriminantes. Ces caractéristiques
stochastique (SGD) ou l'optimiseur Adam, et la fonction de perte capturent les caractéristiques uniques des expressions
d'entropie croisée catégorique est couramment utilisée pour faciales associées à différentes émotions.
mesurer l'écart entre les probabilités prédites et les véritables
étiquettes d'émotion. Grâce à un entraînement itératif, le modèle La couche de sortie du modèle ResNet50V2 est généralement
VGG19 ajuste ses poids pour minimiser la perte et améliorer sa configurée pour avoir plusieurs unités correspondant à
capacité à classer avec précision les émotions. différentes classes d'émotions. La fonction d'activation finale, souvent
softmax, génère une distribution de probabilité sur ces classes
La profondeur accrue du modèle VGG19 par rapport au modèle d'émotions, permettant au modèle de faire des prédictions sur
VGG16 lui permet de capturer des fonctionnalités plus complexes et l'émotion dominante manifestée dans l'expression faciale.
nuancées, ce qui peut conduire à une amélioration des performances
dans les tâches de reconnaissance des émotions. Cependant, il
est important de noter que la profondeur supplémentaire augmente La formation du modèle ResNet50V2 pour la reconnaissance des
également la complexité et les exigences de calcul du modèle, exigeant émotions implique l'utilisation d'un ensemble de données
davantage de ressources de calcul pendant la formation et étiquetées d'images d'expressions faciales. Les poids du
l'inférence. modèle sont optimisés à l'aide d'algorithmes tels que la descente de
gradient stochastique (SGD) ou l'optimiseur Adam. Le choix de la
En résumé, le modèle VGG19 est une extension de l'architecture fonction de perte, telle que l'entropie croisée catégorique,
VGG16 largement utilisée dans les tâches de reconnaissance aide à mesurer la dissemblance entre les probabilités prédites et les
des émotions basées sur les expressions faciales. Sa structure plus véritables étiquettes d'émotion. Grâce à un entraînement itératif,
profonde lui permet de capturer des modèles plus complexes, le modèle ajuste ses pondérations pour minimiser la perte et améliorer
permettant une meilleure discrimination entre les différentes sa capacité à classer avec précision les émotions.
émotions. En exploitant les couches convolutionnelles et
entièrement connectées, le modèle VGG19 peut extraire L'architecture ResNet50V2 a montré des performances
efficacement les caractéristiques des images faciales et fournir des remarquables dans diverses tâches de vision par ordinateur en raison
prédictions précises pour diverses classes d'émotions. de sa structure profonde, de ses connexions résiduelles et de
sa formation efficace. Ces attributs le rendent capable de capturer
des modèles visuels complexes et de reconnaître efficacement
D. Modèle ResNet50V2
les émotions basées sur les expressions faciales.
Le modèle ResNet50V2 [13] est une architecture de réseau neuronal
convolutif (CNN) qui a été largement utilisée dans diverses En résumé, le modèle ResNet50V2 est une architecture CNN
tâches de vision par ordinateur, y compris la reconnaissance des profonde avec des connexions résiduelles, conçue pour des
émotions basée sur les expressions faciales. tâches telles que la reconnaissance des émotions basée sur
les expressions faciales. Sa capacité à apprendre des fonctionnalités
ResNet50V2 est une extension de l'architecture ResNet originale complexes, ainsi qu'un flux de gradient amélioré grâce à
introduite par Microsoft Research. Le "50" dans le nom fait référence des connexions résiduelles, lui permettent de capturer et de classer
au nombre de couches du réseau, indiquant sa profondeur. efficacement différentes émotions. En tirant parti de ses
Le "V2" indique qu'il s'agit d'une version mise à jour du modèle avec couches et de ses connexions, le modèle ResNet50V2
des performances et une efficacité améliorées. démontre de solides performances dans la reconnaissance des
émotions à partir des expressions faciales.

L'une des principales caractéristiques de l'architecture ResNet est


l'introduction de connexions résiduelles ou de connexions ignorées. E. Modèle Ef icientNetB0

Ces connexions permettent au réseau de contourner certaines Le modèle EfficientNetB0 [14] est une architecture de réseau neuronal
couches et de propager directement les activations d'entrée ou convolutif (CNN) qui a attiré l'attention pour son efficacité et ses
intermédiaires aux couches suivantes. Cela atténue le problème excellentes performances dans diverses tâches de vision par
des gradients de fuite, permettant au réseau d'apprendre plus ordinateur, y compris la reconnaissance des émotions basée sur
efficacement, en particulier lorsqu'il s'agit d'architectures très les expressions faciales.
profondes.
EfficientNetB0 appartient à une famille de modèles connus sous le
Le modèle ResNet50V2 se compose d'une série de nom d'EfficientNets, qui ont été conçus en combinant les
couches convolutives, suivies d'un pooling moyen global et de couches principes de la recherche d'architecture neuronale et de la mise à
entièrement connectées. Il intègre des blocs résiduels, qui sont l'échelle du modèle. Ces modèles atteignent une grande précision tout en
composés de multiples convolutions

6
Machine Translated by Google

maintenir l'efficacité de calcul, ce qui les rend adaptés aux


environnements à ressources limitées.

L'architecture EfficientNetB0 suit une méthode de mise à l'échelle En résumé, le modèle EfficientNetB0 est une architecture CNN très
composée, qui met uniformément à l'échelle la profondeur, la largeur et efficace qui atteint d'excellentes performances dans les tâches de

la résolution du réseau. Cette mise à l'échelle permet au modèle reconnaissance des émotions basées sur les expressions faciales.
d'atteindre un bon équilibre entre la capacité du modèle et Son approche de mise à l'échelle composée, ses convolutions
l'efficacité de calcul. Le "B0" dans le nom signifie la configuration de base séparables en profondeur et d'autres techniques contribuent à son efficacité
de la famille EfficientNet, où "B0" représente la variante la plus petite et la et à sa précision. En tirant parti de ces fonctionnalités, le modèle
moins coûteuse en calcul. EfficientNetB0 démontre de solides performances dans la reconnaissance
précise des émotions à partir des expressions faciales.

EfficientNetB0 se compose de plusieurs couches empilées de


convolutions séparables en profondeur, qui réduisent le nombre de
F. Modèle Ef icientNetB7
paramètres et le coût de calcul tout en maintenant les performances
du modèle. Ces convolutions séparables en profondeur divisent EfficientNetB7 est un modèle d'apprentissage en profondeur et fait partie de

l'opération de convolution standard en deux étapes distinctes : une la famille EfficientNet, qui est une série de réseaux de neurones

convolution en profondeur, qui traite chaque canal d'entrée convolutionnels (CNN) conçus pour atteindre des

séparément, et une convolution ponctuelle, qui combine la sortie performances de pointe avec beaucoup moins de paramètres par

de la convolution en profondeur sur les canaux. rapport aux autres modèles. Le modèle EfficientNetB7 est
la variante la plus grande et la plus puissante de la série EfficientNet.

Le modèle EfficientNetB0 intègre également d'autres techniques L'idée principale derrière les modèles EfficientNet est la mise à l'échelle

telles que la normalisation par lots, les fonctions d'activation et les composée, qui consiste à mettre à l'échelle la profondeur, la largeur et
la résolution du réseau de manière équilibrée. Cela permet à
connexions de saut. Ces techniques aident à améliorer le processus
d'apprentissage, à augmenter la précision du modèle et à faciliter EfficientNetB7 d'obtenir de meilleures performances et une meilleure efficacité

le flux de gradient pendant la formation. en utilisant efficacement le calcul


ressources.

Dans le contexte de la reconnaissance des émotions basée sur les


expressions faciales, le modèle EfficientNetB0 prend une image d'entrée Plus précisément, le modèle EfficientNetB7 présente les caractéristiques
suivantes :
d'un visage et la fait passer à travers ses couches pour extraire des
caractéristiques significatives. Ces caractéristiques capturent les modèles et
expressions pertinents associés à différentes émotions. • Profondeur : EfficientNetB7 dispose d'un réseau profond
architecture avec un grand nombre de couches, lui permettant de
capturer des modèles et des caractéristiques complexes à partir des

La couche de sortie du modèle EfficientNetB0 est généralement données d'entrée.

configurée pour avoir plusieurs unités correspondant aux


différentes classes d'émotions. La fonction d'activation finale, souvent • Largeur : Il a un nombre significativement plus grand de canaux

softmax, produit une distribution de probabilité sur ces classes ou de filtres dans chaque couche par rapport aux variantes

d'émotions, permettant au modèle de faire des prédictions sur plus petites, ce qui lui permet d'apprendre des représentations

l'émotion dominante affichée dans l'expression faciale. plus expressives.

• Résolution : Les images d'entrée d'EfficientNetB7 ont une résolution plus

La formation du modèle EfficientNetB0 pour la reconnaissance élevée, ce qui permet au modèle de capturer des détails fins et

des émotions implique l'utilisation d'un ensemble de données étiquetées d'améliorer la précision de la reconnaissance.

d'images d'expressions faciales. Les poids du modèle sont optimisés à


l'aide d'algorithmes tels que la descente de gradient stochastique
(SGD) ou l'optimiseur Adam. Le choix d'une fonction de perte appropriée, EfficientNetB7 a été pré­formé sur des ensembles de données à

telle que l'entropie croisée catégorique, aide à mesurer la grande échelle, tels que ImageNet, en utilisant des techniques

dissemblance entre les probabilités prédites et les véritables telles que l'apprentissage par transfert. En conséquence, il a appris à

étiquettes d'émotion. Grâce à un entraînement itératif, le modèle reconnaître un large éventail de caractéristiques de différentes images.

ajuste ses pondérations pour minimiser la perte et améliorer sa Cette pré­formation en fait un puissant extracteur de fonctionnalités qui

capacité à classer avec précision les émotions. peut être affiné sur des tâches ou des ensembles de données
spécifiques avec relativement peu d'échantillons de formation supplémentaires.

L'efficacité et les performances du modèle EfficientNetB0 le rendent bien En raison de son efficacité et de ses hautes performances,

adapté à la reconnaissance des émotions basée sur les expressions EfficientNetB7 est couramment utilisé dans diverses tâches de vision par

faciales. Sa capacité à capturer des caractéristiques importantes ordinateur, telles que la classification d'images, la détection

tout en étant efficace sur le plan informatique permet une classification d'objets et la segmentation sémantique, où il obtient

précise des émotions, même dans des environnements à ressources limitées. systématiquement des résultats de premier plan. Cependant, il convient de
noter qu'EfficientNetB7 peut nécessiter des

7
Machine Translated by Google

ressources de calcul, en particulier lors de la formation, en raison de sa SGD ajoute également un effet de régularisation, aidant le modèle à mieux
grande taille. généraliser et à éviter le surajustement.

Cependant, SGD introduit un certain bruit en raison du caractère


G. Descente de gradient stochastique (SGD)
aléatoire de la sélection des mini­lots, ce qui peut rendre le processus
Stochastic Gradient Descent (SGD) est un algorithme d'optimisation d'optimisation plus erratique. Pour résoudre ce problème, diverses
itératif couramment utilisé dans l'apprentissage automatique pour les modifications de SGD ont été proposées, telles que l'élan, les taux
modèles de formation, y compris les réseaux de neurones, afin de minimiser d'apprentissage adaptatifs (par exemple, AdaGrad, RMSprop, Adam) et
une fonction de perte donnée et de trouver l'ensemble optimal de les calendriers de taux d'apprentissage.
paramètres. Il est particulièrement efficace lorsqu'il s'agit de grands
ensembles de données. En résumé, Stochastic Gradient Descent est un algorithme d'optimisation
itératif qui met à jour les paramètres du modèle en fonction de mini­lots
Le nom "stochastique" fait référence au fait que l'algorithme
de données d'apprentissage sélectionnés au hasard. Il gère efficacement
fonctionne sur des sous­ensembles sélectionnés au hasard des données de grands ensembles de données et aide les modèles à converger
d'apprentissage, appelés mini­lots, au lieu de l'ensemble de données vers une solution optimale. En ajustant de manière itérative les paramètres
complet. Cet échantillonnage aléatoire introduit un niveau de caractère dans le sens de la descente la plus abrupte, SGD permet l'entraînement
aléatoire dans le processus d'optimisation et permet à l'algorithme de modèles d'apprentissage automatique complexes.
d'échapper plus facilement aux minima locaux.

Voici une explication étape par étape du fonctionnement de SGD :


H. Descente de gradient stochastique ­ Méthode Adam

1. Initialiser les paramètres : l'algorithme commence par initialiser L'optimiseur Adam est une extension de l'algorithme de descente de
les paramètres du modèle avec des valeurs aléatoires. Ces gradient stochastique (SGD) qui combine des éléments des
paramètres sont les variables que le modèle apprendra au cours du techniques d'optimisation AdaGrad et RMSprop. Il est
processus de formation. largement utilisé dans la formation de réseaux de neurones profonds en
raison de son efficacité à trouver de bonnes solutions et de ses capacités
2. Sélectionner un mini­lot : SGD sélectionne au hasard un de taux d'apprentissage adaptatif.
mini­lot d'exemples de formation à partir de l'ensemble de données.
La taille du mini­lot est généralement choisie en fonction de Voici une explication plus approfondie de l'optimiseur Adam :
contraintes de calcul et peut aller de quelques échantillons à
quelques centaines d'échantillons. 1. Initialisation : L'optimiseur Adam initialise deux variables, à savoir la
première estimation de moment (souvent appelée la « moyenne »)
3. Calculer le gradient : le mini­lot sélectionné est utilisé pour calculer le et la deuxième estimation de moment (souvent appelée la
gradient de la fonction de perte par rapport aux paramètres du « variance »). Ces variables sont initialisées comme des
modèle. Le gradient représente la direction et l'amplitude de la vecteurs de zéros de mêmes dimensions que les paramètres du

montée ou de la descente la plus raide dans le paysage de la modèle.


fonction de perte. Il indique comment les paramètres doivent
être ajustés pour minimiser la perte. 2. Gradients de calcul : lors de chaque itération du processus d'optimisation,
un mini­lot d'exemples d'apprentissage est échantillonné au
hasard. Les gradients de la fonction de perte par rapport aux
4. Paramètres de mise à jour : Les paramètres sont mis à jour en faisant un paramètres du modèle sont calculés par rétropropagation.
petit pas dans la direction opposée du dégradé. Cette étape est
contrôlée par un taux d'apprentissage, qui détermine la taille de la
mise à jour. Un taux d'apprentissage plus faible entraîne une 3. Mise à jour de l'estimation du premier moment : l'optimiseur Adam met
convergence plus lente, tandis qu'un taux d'apprentissage plus élevé à jour l'estimation du premier moment en calculant la moyenne
peut entraîner un dépassement et une instabilité. décroissante exponentielle des gradients. Cette étape permet de
capturer la tendance globale des gradients au fil du temps.

5. Répéter : les étapes 2 à 4 sont répétées pour un nombre fixe d'itérations


ou jusqu'à ce qu'un critère d'arrêt soit satisfait. 4. Mise à jour de l'estimation du second moment :
L'ensemble de données complet est généralement traité plusieurs l'estimation du second moment est mise à jour en calculant la
fois, chaque passage sur les données étant appelé une époque. moyenne en décroissance exponentielle des gradients au carré.
L'ordre dans lequel les mini­lots sont traités peut être mélangé Cette étape permet de saisir l'ampleur des gradients et agit comme
de manière aléatoire ou conservé dans leur ordre d'origine. une forme d'ajustement adaptatif du taux d'apprentissage.

Le principal avantage de SGD est son efficacité dans le traitement de grands 5. Correction du biais : dans les premières itérations de la formation, les
ensembles de données. Puisqu'il fonctionne sur des mini­lots, il estimations des premier et deuxième moments peuvent être biaisées

nécessite moins de mémoire et de ressources de calcul par rapport vers zéro en raison de leur initialisation en tant que vecteurs nuls.

à la descente de gradient par lots, où l'ensemble des données est utilisé Pour résoudre ce problème, une correction de biais est
à chaque itération. Le caractère stochastique de appliquée aux premières et deuxièmes estimations de moment pour
les rendre non biaisées.

8
Machine Translated by Google

A. Configuration expérimentale
6. Mise à l'échelle du taux d'apprentissage : l'optimiseur Adam met à La mise à l'échelle et le redimensionnement d'une image impliquent d'ajuster sa
l'échelle les gradients en les divisant par la racine carrée de taille tout en préservant son rapport d'aspect ou en modifiant le rapport d'aspect
l'estimation du deuxième moment. Cette mise à l'échelle permet comme souhaité. Le processus comprend généralement deux étapes : la
des taux d'apprentissage adaptatifs, où le taux d'apprentissage mise à l'échelle et le redimensionnement.
est automatiquement ajusté en fonction de l'amplitude des
gradients. Les valeurs de pixel d'une image vont généralement de 0 à 255,
représentant l'intensité de chaque pixel. La mise à l'échelle de l'image
7. Mise à jour des paramètres : enfin, les paramètres du modèle en la divisant par 255 transforme les valeurs de pixel dans une plage
sont mis à jour en soustrayant les gradients mis à l'échelle, comprise entre 0 et 1. Cette normalisation est souvent effectuée pour
qui sont divisés par la racine carrée de l'estimation du deuxième garantir que les valeurs de pixel se situent dans une plage cohérente
moment, multipliée par le taux d'apprentissage. et normalisée, ce qui peut être bénéfique pour divers
Cette étape déplace efficacement les paramètres dans la algorithmes et modèles de traitement d'image. .
direction qui minimise la fonction de perte.

Le mécanisme de taux d'apprentissage adaptatif de l'optimiseur Adam Dans le contexte de la reconnaissance de l'expression faciale, le
le rend moins sensible au choix d'un taux d'apprentissage initial et redimensionnement d'une image en (48, 48) est couramment
permet d'obtenir une convergence plus rapide. Il combine les effectué pour prétraiter les images faciales et les préparer comme
avantages d'AdaGrad, qui ajuste le taux d'apprentissage pour chaque entrée pour les modèles de reconnaissance des émotions. Les
paramètre individuellement, et de RMSprop, qui effectue une mise à dimensions de 48x48 pixels ont été largement adoptées dans les
l'échelle adaptative du taux d'apprentissage. De plus, l'étape de ensembles de données et les modèles d'expression faciale. Cette
correction du biais garantit que les estimations des premier et deuxième taille est généralement suffisante pour capturer des
moments sont exactes, en particulier pendant les premières étapes de traits faciaux importants tout en gardant les exigences de calcul gérables.
l'entraînement.

En résumé, l'optimiseur Adam est un algorithme d'optimisation


adaptatif qui met à jour les paramètres du modèle en maintenant les
estimations des premier et deuxième moments des gradients. Il intègre
des taux d'apprentissage adaptatifs, ce qui le rend robuste et
efficace dans la formation de réseaux de neurones profonds. En
combinant les points forts d'AdaGrad et de RMSprop, l'optimiseur
Adam fournit une approche efficace pour minimiser la fonction de
perte pendant le processus de formation.

VI. ETUDE EXPERIMENTALE

L'objectif principal du parti est de réaliser une étude


expérimentale qui se concentre sur la comparaison des
performances de cinq algorithmes différents utilisés pour la reconnaissance Fig. 3. Importation de données
des émotions basée sur les expressions faciales. Le diagramme ci­
dessous illustre les étapes séquentielles impliquées dans cette étude, en Charger un modèle pré­formé signifie importer et initialiser un modèle
commençant par l'importation des données et en passant par les d'apprentissage en profondeur pré­formé qui a été formé sur un grand
différentes étapes jusqu'au test du meilleur modèle et des paramètres ensemble de données. Le modèle pré­formé a déjà appris des
identifiés grâce à notre comparaison complète. représentations significatives des données sur lesquelles il a été formé,
ce qui le rend capable d'effectuer des tâches spécifiques, telles que
la classification d'images.

Un modèle pré­formé sur ImageNet fait référence à un modèle


d'apprentissage en profondeur qui a été formé sur l'ensemble de
données ImageNet à grande échelle. L'ensemble de données ImageNet
est une référence largement utilisée en vision par ordinateur, composé de
millions d'images étiquetées appartenant à des milliers de classes ou catégories différentes.

Fig. 2. Le pipeline de notre expérience


Fig. 4. Charger les modèles pré­formés

9
Machine Translated by Google

Le terme « gel » fait référence au processus consistant à empêcher que espace d'hyperparamètres en utilisant différentes stratégies pour
les poids et les paramètres de couches spécifiques dans un trouver la meilleure combinaison d'hyperparamètres. •
modèle pré­entraîné ne soient mis à jour ou entraînés davantage pendant Fonctions d'objectif : vous pouvez définir une fonction d'objectif qui
le processus d'ajustement ou d'apprentissage par transfert. quantifie les performances de votre modèle en fonction de
métriques spécifiques, telles que la précision, la perte ou toute
Lorsque nous chargeons un modèle pré­formé, toutes les couches du métrique d'évaluation personnalisée. Le tuner utilise cette
modèle ont déjà été formées sur un grand ensemble de données pour fonction objective pour guider le processus de recherche et
apprendre des représentations significatives. Cependant, dans optimiser les hyperparamètres.
certains cas, nous pouvons souhaiter affiner le modèle pour une tâche
spécifique en utilisant votre propre jeu de données. • Arrêt anticipé : Keras Tuner prend en charge
l'arrêt, qui vous permet d'arrêter le processus de recherche
En gelant les couches, nous gardons intactes les représentations si les performances du modèle plafonnent ou se détériorent. Cela
apprises, en particulier dans les premières couches qui capturent les permet d'économiser des ressources de calcul en mettant fin à la
caractéristiques et les modèles de base. Ceci est utile car le recherche plus tôt si aucune autre amélioration n'est
modèle pré­formé a été formé sur un ensemble de données similaire à observée.
notre tâche, et nous voulons tirer parti des connaissances préexistantes
tout en affinant vos données spécifiques. • Analyse des résultats : Keras Tuner fournit des utilitaires pour analyser
et visualiser les résultats de la recherche
d'hyperparamètres, tels que les meilleurs
hyperparamètres trouvés, les métriques de performance à
travers différents essais et l'historique de recherche.

En utilisant Keras Tuner, vous pouvez automatiser le processus de


recherche des meilleurs hyperparamètres pour vos modèles d'apprentissage
en profondeur. Cela vous permet d'économiser du temps et des
ressources en optimisant les performances et la généralisation de vos
modèles sans avoir besoin d'essais et d'erreurs manuels.

Fig. 5. Couches de congélation


Dans l'ensemble, Keras Tuner simplifie le processus d'optimisation
des hyperparamètres en fournissant une interface pour définir les espaces
Keras Tuner est une bibliothèque d'optimisation d'hyperparamètres pour
de recherche, sélectionner les algorithmes de recherche, définir les
Keras, un cadre d'apprentissage en profondeur populaire. Il fournit un
fonctions objectives et analyser les résultats. Il vous permet de trouver
moyen pratique et efficace de rechercher et d'ajuster les
efficacement les hyperparamètres optimaux pour vos modèles
hyperparamètres pour améliorer les performances de vos modèles
d'apprentissage en profondeur.
d'apprentissage en profondeur.

Les hyperparamètres sont des paramètres qui ne sont pas appris


pendant le processus de formation mais qui sont définis avant la formation.
Ils contrôlent divers aspects du modèle, tels que le taux d'apprentissage,
le nombre de couches, le nombre d'unités dans chaque couche, les
fonctions d'activation, le taux d'abandon, etc. Le réglage de ces
hyperparamètres peut avoir un impact significatif sur les performances
et la généralisation de votre modèle.

Keras Tuner propose différents algorithmes et stratégies de


recherche pour explorer efficacement l'espace des hyperparamètres et
trouver des combinaisons optimales ou quasi optimales. Voici quelques
composants et fonctionnalités clés de Keras Tuner :

Figure 6. Keras­tuner_1
• Espaces de recherche : Keras Tuner vous permet de définir
l'espace de recherche pour chaque hyperparamètre. Vous pouvez
spécifier la plage, les valeurs ou les distributions que le tuner doit
prendre en compte lors de la recherche des meilleurs
hyperparamètres.

• Tuners : Keras Tuner fournit différents tuners, tels que RandomSearch,


Hyperband et des tuners basés sur l'optimisation bayésienne
comme BayesianOptimization et TPE
(Tree­structured Parzen Estimators). Ces tuners explorent le

dix
Machine Translated by Google

transformer la sortie de la couche finale en probabilités


de classe significatives, permettant des prédictions fiables et
interprétables.

Fig. 9. Meilleur modèle

Voici le graphique de la perte et de la précision :

Fig. 7. Keras­tuner_2

Figure 8. Arrêt précoce

B. Résultats et décision

Le modèle optimal comprend les composants suivants :

• VGG16 : un réseau de neurones convolutifs


architecture connue pour ses couches profondes et ses excellentes
performances dans les tâches de classification d'images.

• Aplatir le calque : ce calque est chargé de


transformer la sortie multidimensionnelle du modèle VGG16
en un vecteur unidimensionnel, permettant la compatibilité
avec des couches entièrement connectées.

• Couche dense avec 1000 unités : Une couche entièrement


connectée avec 1000 unités. Chaque unité est connectée à
chaque neurone de la couche précédente, ce qui permet
une extraction et une représentation complexes des caractéristiques.

• Couche de sortie (couche dense) : cette couche sert de couche


finale du modèle et contient 6 unités, correspondant aux 6
classes de la tâche de classification. Il utilise la fonction
d'activation softmax.

Pour résumer, le modèle optimal est construit sur l'architecture Fig. 10. La représentation graphique illustrant la perte et la précision
métrique
VGG16, qui sert de colonne vertébrale fondamentale. Il est complété
par une couche aplatie pour remodeler la sortie, une couche
La matrice de confusion fournit une vue complète des performances du
dense avec 1000 unités pour capturer des motifs complexes et
modèle en montrant la distribution des prédictions correctes et
une couche de sortie avec activation softmax pour une
incorrectes dans différentes classes.
classification multiclasse efficace.
Cela aide à comprendre les types d'erreurs commises par le modèle,
La fonction softmax joue un rôle central dans
telles que les faux positifs et les faux négatifs.

11
Machine Translated by Google

VIII. LIMITATIONS ET TRAVAUX FUTURS


Bien que les algorithmes testés se soient révélés prometteurs, nous
avons rencontré plusieurs limitations que nous visons à résoudre dans nos futurs

travaux. Ci­dessous, nous décrivons ces limites et discutons de nos objectifs


pour les recherches futures.

1. Limites : • Précision

limitée : Les algorithmes testés pour


la reconnaissance des émotions basée sur les expressions faciales
n'a pas fourni de résultats très précis. D'autres améliorations sont
nécessaires pour améliorer leurs performances.

• Limites de l'ensemble de données : l'ensemble de données utilisé pour la


formation et l'évaluation peut avoir des limites, comme être petit ou
ne pas bien représenter les émotions. Cela aurait pu affecter la précision
des algorithmes.

• Adéquation de l'algorithme : les cinq algorithmes testés


peut ne pas couvrir toutes les options possibles. Explorer plus
d'algorithmes pourrait conduire à de meilleurs résultats.
Fig. 11. Matrice de confusion

VII. CONCLUSION • Besoins en ressources : les algorithmes testés peuvent nécessiter des
ordinateurs puissants avec des cartes graphiques et des processeurs
En conclusion, cette étude visait à comparer les performances de cinq
haut de gamme. L'accès à de telles ressources pourrait être un
algorithmes différents (VGG16, VGG19, RESNET50V2, EfficientNETB0 et EfficientB7)
défi dans les applications réelles.
pour la reconnaissance des émotions basées sur les expressions faciales.
L'étude a suivi un processus étape par étape, commençant par l'importation des 2. Travaux futurs : •
données et passant par différentes étapes jusqu'à trouver le meilleur modèle et les
Développement d'algorithmes améliorés : D'autres recherches devraient se
meilleurs paramètres grâce à notre comparaison.
concentrer sur le développement de meilleurs algorithmes de
reconnaissance des émotions basés sur les expressions faciales.
L'exploration de nouvelles approches, comme la prise en compte du
Les résultats de cette étude fournissent des informations précieuses sur la
temps ou de l'attention, pourrait améliorer la précision.
performance de ces algorithmes dans la reconnaissance des émotions.
En comparant leur précision et leur matrice de confusion, nous avons pu
• Collecte d'ensembles de données améliorée : la collecte d'ensembles de
déterminer quel algorithme fonctionnait le mieux pour reconnaître les émotions
données plus vastes et plus diversifiés qui représentent
en fonction des expressions faciales.
différentes émotions et personnes peut améliorer la précision
de l'algorithme.
Ces découvertes contribuent à améliorer la technologie de reconnaissance des
émotions et peuvent être utiles dans divers domaines comme les plateformes
• Test et validation en situation réelle : il est important de tester et de valider
d'apprentissage en ligne ou les interactions informatiques. En utilisant le meilleur
les algorithmes dans des situations réelles, telles que les
modèle et les meilleurs paramètres identifiés dans cette étude, nous pouvons
plateformes d'apprentissage en ligne. Cela peut fournir des commentaires
améliorer l'efficacité et l'efficience des systèmes de reconnaissance des émotions,
pour des améliorations et des ajustements.
conduisant à de meilleures expériences utilisateur et à un support personnalisé.

Il est important de mentionner que des recherches supplémentaires peuvent être


• Approches hybrides : combinaison de plusieurs
effectuées pour explorer d'autres algorithmes ou améliorer ceux qui existent déjà. De
des algorithmes ou l'utilisation de techniques d'ensemble pourraient
plus, lors de l'utilisation de ces algorithmes dans des applications réelles, nous
conduire à une meilleure précision dans la reconnaissance des émotions.
devons tenir compte de facteurs tels que les ressources de calcul, la
complexité et trouver un équilibre entre précision et efficacité.
• Configuration CNN personnalisée : création d'un
Un réseau neuronal convolutif (CNN) personnalisé avec des paramètres
personnalisés spécifiquement pour la reconnaissance des
Dans l'ensemble, cette recherche fournit une base pour les développements
émotions pourrait améliorer la précision et l'adaptabilité à
futurs de la reconnaissance des émotions basée sur les expressions
différents ensembles de données.
faciales. Il souligne l'importance de sélectionner l'algorithme le plus approprié
pour obtenir des résultats précis et fiables. En utilisant les résultats de cette
En abordant ces limites et en explorant les futures directions de recherche,
étude, nous pouvons faire progresser la technologie de reconnaissance des émotions
nous pouvons améliorer la précision et l'application pratique de la technologie
et améliorer les interactions homme­machine dans divers
de reconnaissance des émotions.
domaines.
Cela améliorera les interactions homme­ordinateur et offrira de meilleures expériences
utilisateur dans divers domaines.

12
Afficher les statistiques de publication

Machine Translated by Google

TABLEAU DES FIGURES [10] Wisal Hashim Abdulsalam, Rafah Shihab Alhamdani et
Mohammed Najm Abdullah "Reconnaissance des émotions faciales de
Vidéos utilisant des réseaux de neurones à convolution profonde » [CrossRef]

[11] Philipp Michel et Rana El Kaliouby « Expression faciale en temps réel


Chiffre Titre de la figure Page
reconnaissance en vidéo à l'aide de machines à vecteurs de support » [CrossRef]
nombre Nombre
[12] David Dukić et Ana Sovic Krzic "Expression faciale en temps réel
Reconnaissance à l'aide de l'apprentissage en profondeur avec application dans l'actif
Figure 1 Les étapes de l'émotion 4 Environnement de classe ». [Référence croisée]

reconnaissance faciale [13] VGG16 [Référence croisée]

expression [14] VGG19 [Référence croisée]

[15] ResNet50V2 [Réf croisée]


Figure 2 Le pipeline de notre 9 [16] EfficientNetB0 [Référence croisée]
expérience [17] EfficientNetB7 [Référence croisée]

[18] Optimiseur Adam [CrossRef]


figure 3 Importation de données 9

Figure 4 Charger les modèles pré­formés 9

Figure 5 Couches de congélation dix

Figure 6 Keras­tuner_1 dix

Figure 7 Keras­tuner_2 11

Figure 8 Arrêt précoce 11

Figure 9 Meilleur modèle 11

Figure 10 La représentation graphique 11


illustrant la perte et
métriques de précision

Figure 11 Matrice de confusion 12

LES RÉFÉRENCES

[1] Ayvaz, Ugur ; Gürüler, Hüseyin; Devrim, Mehmet Osman « UTILISATION DE


RECONNAISSANCE DES ÉMOTIONS FACIALES EN E­LEARNING
SYSTÈMES » [Référence croisée]

[2] D'Errico Francesca, Paciello Marinella, De Carolis Bernardina,


Vattanid Alessandro Palestra Giuseppe, Anzivino Giuseppe Cognitif
Les émotions dans les processus d'apprentissage en ligne et leur relation potentielle
avec ajustement académique des étudiants [CrossRef]

[3] Hassouneh Aya, AM Mutawa et M. Murugappan « Development


d'un système de reconnaissance des émotions en temps réel utilisant le visage
Expressions et EEG basés sur l'apprentissage automatique et les neurones profonds
réseau” [CrossRef]

[4] Shaik Asif Hussain et Ahlam Salim Abdallah Al Balushi « Un vrai


classification et reconnaissance des émotions face au temps à l'aide de l'apprentissage en profondeur
modèle" [CrossRef]

[5] Mehmet Akif Ozdemir, Berkay Elagoz, Aysegul Alaybeyoglu, Reza


Sadighzadeh et Aydin Akan "Reconnaissance des émotions en temps réel de
Expressions faciales utilisant l'architecture CNN » [CrossRef]

[6] Isha Talegaonkar, Kalyani Joshi, Shreya Valunj, Rucha Kohok et


Anagha Kulkarni "Reconnaissance des expressions faciales en temps réel à l'aide de
Apprentissage en profondeur" [CrossRef]

[7] Marian Stewart Bartlett, Gwen Littlewort, Ian Fasel et Javier R.


Movellan "Détection de visage et expression faciale en temps réel
Reconnaissance : Développement et applications à l'ordinateur humain
Interaction." [Référence croisée]

[8] Aneta Kartali, Miloš Roglić, Marko Barjaktarović, Milica


Đurić­Jovičić et Milica M. Janković "Algorithmes en temps réel pour
Reconnaissance des émotions faciales : une comparaison de différents
Approches". [Référence croisée]

[9] Ati Jain, Hare Ram Sah « Rétroaction de l'étudiant par l'émotion et la parole
reconnaissance par le Deep Learning ». [Référence croisée]

13

Vous aimerez peut-être aussi