Académique Documents
Professionnel Documents
Culture Documents
Consultez les discussions, les statistiques et les profils des auteurs de cette publication sur : https://www.researchgate.net/publication/372230358
Reconnaissance des émotions pour une plateforme ELearning utilisant le Deep Learning : A
Comparaison de différentes approches
CITATIONS LIT
0 4
4 auteurs :
Certains des auteurs de cette publication travaillent également sur ces projets connexes :
Contribution au développement d'une carte de circulation dynamique à l'aide du projet MultiAgent Approach View
Tout le contenu suivant cette page a été téléchargé par Mohammed Kodad le 09 juillet 2023.
BOUSSELHAM Abdelmajid
Informatique, Intelligence Artificielle et Cyber
Sécurité (L2IAS)
ENSET Mohammedia, Université Hassan
II de Casablanca Mohammedia,
Maroc bousselham@enset
media.ac.ma
Résumé— Ce résumé fournit un bref résumé de l'utilisation des techniques expressions. La reconnaissance des émotions est importante dans la façon dont les
d'apprentissage en profondeur pour reconnaître les émotions à travers les ordinateurs interagissent avec les humains, et elle peut grandement améliorer les
expressions faciales. Les modèles d'apprentissage en profondeur, en particulier les plateformes d'apprentissage en ligne.
réseaux de neurones convolutifs (CNN), ont gagné en popularité dans l'analyse et
la compréhension précises des émotions à partir d'images faciales. Les plateformes d'apprentissage en ligne sont devenues populaires pour leur
flexibilité et leur accessibilité dans l'éducation. Cependant, ils ont souvent du mal à
comprendre et à répondre aux émotions des apprenants, ce qui affecte l'efficacité des
En entraînant ces modèles sur de vastes ensembles de données d'images expériences d'apprentissage personnalisées et engageantes.
d'expressions faciales étiquetées, ils peuvent apprendre et extraire efficacement des
caractéristiques cruciales. Les CNN excellent dans la capture de détails spatiaux à
Pour résoudre ce problème, les chercheurs utilisent des techniques d'apprentissage
partir d'images faciales.
en profondeur pour construire des systèmes de reconnaissance des émotions. Ces
L'application de la reconnaissance des émotions basée sur l'apprentissage systèmes analysent les expressions faciales à l'aide de réseaux de neurones
profond s'étend à divers domaines, notamment l'interaction hommemachine, les spécialisés tels que les CNN et les RNN pour identifier et classer avec précision les
soins de santé et le divertissement. La détection des émotions en temps réel permet émotions en temps réel. Cela ouvre des possibilités intéressantes pour intégrer la
des interventions personnalisées, la diffusion de contenu adaptatif et la création technologie de reconnaissance des émotions dans les plateformes d'apprentissage en
d'expériences émotionnellement captivantes, en particulier dans le contexte de ligne, rendant l'apprentissage plus personnalisé et adaptatif.
l'apprentissage en ligne.
Cependant, des défis subsistent, tels que la disponibilité limitée d'ensembles de Cet article explore le potentiel de l'utilisation de l'apprentissage en profondeur et
données diversifiés et bien annotés et la nécessité de tenir compte des variations de l'analyse de l'expression faciale pour la reconnaissance des émotions dans les
des expressions faciales entre les individus et les cultures. plateformes d'apprentissage en ligne. Nous verrons pourquoi la reconnaissance des
émotions est importante pour améliorer l'interaction hommemachine et ses avantages
spécifiques dans l'apprentissage en ligne. Nous expliquerons également les méthodes
Néanmoins, l'intégration de techniques d'apprentissage en profondeur pour la et techniques utilisées dans les systèmes d'apprentissage en profondeur, en nous
reconnaissance des émotions a le potentiel de révolutionner l'interaction homme concentrant sur la manière dont les CNN analysent les expressions faciales.
machine, d'améliorer les expériences des utilisateurs et de favoriser des technologies
plus empathiques et adaptables dans différents domaines. La recherche continue et
les avancées dans les approches d'apprentissage en profondeur devraient affiner En intégrant la reconnaissance des émotions basée sur l'apprentissage profond
davantage la précision et la fiabilité des systèmes de reconnaissance des émotions dans les plateformes d'apprentissage en ligne, nous pouvons obtenir des informations
basés sur les expressions faciales. en temps réel sur les émotions des apprenants, permettant un soutien personnalisé et
un contenu personnalisé. Les modèles d'apprentissage en profondeur peuvent
également créer des supports d'apprentissage attrayants qui rendent l'expérience
Mots clés— reconnaissance des émotions, elearning, expression faciale, d'apprentissage plus agréable.
machine learning en ligne, temps réel, Deep Learning,
Base de données Cependant, si l'intégration de la technologie de reconnaissance des émotions
présente de nombreux avantages, il est important d'équilibrer son utilisation avec le
JE.
INTRODUCTION respect de la vie privée et de l'autonomie de l'utilisateur. Cet article discutera également
des considérations éthiques et des défis associés à l'utilisation de la reconnaissance
TDeep learning est devenu une technologie puissante qui peut aider les machines
des émotions dans les plateformes d'apprentissage en ligne.
à comprendre des modèles complexes de données.
Un domaine où l'apprentissage en profondeur est prometteur est la reconnaissance
des émotions, notamment en analysant le visage.
1
Machine Translated by Google
En résumé, cet article met en évidence le potentiel des techniques dixneuf pour collecter les signaux EEG. Des marqueurs virtuels ont été placés
d'apprentissage en profondeur pour la reconnaissance des émotions et leur sur le visage du sujet et les marqueurs ont été suivis à l'aide d'un algorithme de
application dans les plateformes d'apprentissage en ligne. En utilisant les flux optique. La distance entre le centre du visage du sujet et chaque position de
expressions faciales pour comprendre les émotions des apprenants, nous marqueur a été utilisée comme caractéristique pour la classification de l'expression
pouvons transformer la façon dont les gens interagissent avec l'éducation en faciale, tandis que les quatorze signaux collectés à partir du lecteur de signal
ligne, créant ainsi un environnement d'apprentissage plus empathique, adaptable EEG ont été utilisés pour la classification émotionnelle.
et efficace.
III. AlexNet CNN, Affdex CNN, FERCNN, SVM utilisant les fonctionnalités HOG, et
TRAVAUX CONNEXES
MLP réseau de neurones artificiels utilisant les fonctionnalités HOG. L'article
L'étude [1] décrit un algorithme de reconnaissance des émotions en temps présente les résultats des tests de ces méthodes en temps réel sur un groupe de
réel à l'aide de marqueurs virtuels, de repères faciaux et de signaux EEG. L'étude huit volontaires.
s'est concentrée sur les personnes handicapées physiques et les enfants atteints
d'autisme. L'algorithme a utilisé les classificateurs CNN et LSTM pour classer six
émotions faciales et signaux EEG. L'étude a impliqué cinquantecinq étudiants
de premier cycle pour la reconnaissance des émotions faciales et Cet article [7] présente une technique avancée d'apprentissage en profondeur
pour la prédiction des émotions par l'expression faciale
2
Machine Translated by Google
analyse. L'approche proposée utilise un modèle de réseau neuronal convolutif 1) Apprentissage automatique :
(CNN) en deux étapes. Le premier CNN prédit l'émotion principale de l'image l'apprentissage automatique implique la formation d'algorithmes pour analyser
d'entrée comme heureuse ou triste, tandis que le second CNN prédit l'émotion et interpréter des données, et faire des prédictions ou des décisions basées
secondaire. sur des modèles et des modèles statistiques. Les algorithmes ML apprennent
Le modèle a été formé sur les ensembles de données FER2013 et JAFFE et a à partir de données étiquetées et utilisent des fonctionnalités dérivées de ces
obtenu des résultats supérieurs par rapport aux méthodes de pointe existantes données pour faire des prédictions sur de nouveaux exemples invisibles. Les
pour la prédiction des émotions à partir des expressions faciales.
algorithmes ML peuvent être largement classés en apprentissage supervisé,
non supervisé et par renforcement.
Cet article [8] aborde la tâche difficile de la reconnaissance des émotions
en temps réel par l'expression faciale dans la vidéo en direct à l'aide d'un outil Apprentissage supervisé : dans l'apprentissage supervisé, les algorithmes sont
de suivi automatique des caractéristiques faciales pour la localisation et entraînés à l'aide de données étiquetées, où chaque point de données est
l'extraction des caractéristiques. Les traits du visage extraits sont introduits associé à une étiquette ou à un résultat correspondant. L'objectif est
dans un classificateur Support Vector Machine pour déduire les émotions. d'apprendre une fonction de mappage qui peut prédire avec précision les
L'article présente les résultats d'expériences évaluant la précision de l'approche étiquettes des nouvelles données invisibles. Des exemples d'algorithmes
pour divers scénarios, y compris la reconnaissance dépendante et indépendante d'apprentissage supervisé comprennent la régression linéaire, les arbres de
de la personne. Les résultats montrent que la méthode proposée est efficace décision et les machines à vecteurs de support.
pour obtenir une reconnaissance d'expression entièrement automatique et
discrète dans la vidéo en direct. L'article conclut en discutant de l'importance
Apprentissage non supervisé : l'apprentissage non supervisé implique la
de la recherche sur les interfaces hommemachine affectives et intelligentes et
formation d'algorithmes sur des données non étiquetées, sans étiquettes ni
en suggérant de possibles améliorations futures.
résultats prédéfinis. Les algorithmes apprennent à identifier les modèles, les
similitudes et les structures dans les données.
Les algorithmes de clustering et les techniques de réduction de la
Cet article [9] met l'accent sur l'importance d'analyser les expressions dimensionnalité sont des exemples courants d'apprentissage non supervisé.
faciales des utilisateurs pour améliorer l'interaction entre les humains et les
machines. L'article propose une méthode d'extraction des traits du visage et Apprentissage par renforcement : L'apprentissage par renforcement implique
de reconnaissance de l'état émotionnel de l'utilisateur qui est robuste aux la formation d'algorithmes pour prendre des décisions ou entreprendre des
variations d'expression faciale entre différents utilisateurs. La méthode extrait actions dans un environnement afin de maximiser un signal de récompense
les paramètres d'animation faciale (FAP) et utilise un nouveau système neuro
cumulatif. Les algorithmes apprennent par essais et erreurs, recevant des
flou pour analyser les variations de FAP à la fois dans l'espace émotionnel commentaires de l'environnement en fonction de leurs actions. L'apprentissage
discret et dans l'espace d'activationévaluation continue 2D. Le système peut
par renforcement a été couronné de succès dans des applications telles que
en outre apprendre et s'adapter aux caractéristiques d'expression faciale
le jeu et la robotique.
d'utilisateurs spécifiques à l'aide d'une analyse de regroupement. L'article
rapporte les résultats expérimentaux d'ensembles de données émotionnellement
2) Deep Learning : Deep
expressifs, indiquant la bonne performance et le potentiel de l'approche
Learning est un sousensemble de ML qui se concentre sur la formation de
proposée.
réseaux de neurones profonds à plusieurs couches pour apprendre
automatiquement les représentations hiérarchiques des données. Les
L'objectif de cette étude [10] est de développer des modèles prédictifs algorithmes d'apprentissage en profondeur sont inspirés de la structure et de
capables de classer les émotions en temps réel à partir de vidéos de
la fonction du cerveau humain, et ils excellent dans la capture de modèles et
participants à un atelier s'engageant avec un robot éducatif. Nous combinons
de relations complexes dans des ensembles de données à grande échelle.
les deux meilleurs modèles de généralisation (Inceptionv3 et ResNet34) pour
Les réseaux de neurones profonds sont constitués de couches interconnectées
obtenir une meilleure précision de prédiction. Pour tester notre approche, nous
de neurones artificiels (nœuds), chaque couche extrayant des caractéristiques
appliquons les modèles aux données vidéo et analysons les émotions prédites
de plus en plus abstraites des données d'entrée.
en fonction du sexe, des activités et des tâches des participants. L'analyse
statistique révèle que les participantes sont plus susceptibles de montrer des
Les architectures d'apprentissage en profondeur, telles que les réseaux de
émotions dans presque tous les types d'activités, et le bonheur est l'émotion la
plus fréquemment prédite pour tous les types d'activités, quel que soit le sexe. neurones convolutifs (CNN) pour la reconnaissance d'images et les réseaux
De plus, la programmation est le type d'activité où les émotions analysées de neurones récurrents (RNN) pour les données séquentielles, ont atteint des
étaient les plus fréquentes. Ces résultats mettent en évidence le potentiel de performances remarquables dans divers domaines, notamment la vision par
l'utilisation des expressions faciales pour améliorer les pratiques d'enseignement ordinateur, le traitement du langage naturel et la reconnaissance vocale. Les
et comprendre l'engagement des élèves. algorithmes d'apprentissage en profondeur nécessitent souvent des quantités
importantes de données d'entraînement étiquetées et de puissantes ressources
de calcul pour l'entraînement en raison de leurs architectures complexes.
3
Machine Translated by Google
Performances et évolutivité : les algorithmes d'apprentissage en profondeur peuvent états émotionnels humains. Cette avancée peut révolutionner de nombreuses industries
atteindre des performances de pointe dans certaines tâches lorsqu'ils sont entraînés et améliorer considérablement notre interaction avec la technologie et entre nous.
Dans cette étude, nous comparerons différentes façons de reconnaître les émotions à
B. Reconnaissance des émotions basée sur les expressions faciales partir des expressions faciales pour voir laquelle fonctionne le mieux. Nous
La reconnaissance des émotions basée sur les expressions faciales est un domaine examinerons différentes techniques et algorithmes utilisés dans ce domaine et
fascinant qui se concentre sur le développement de méthodes et de technologies pour analyserons leurs performances. Sur la base de cette analyse, nous créerons notre
détecter et interpréter avec précision les émotions humaines en analysant les propre réseau de neurones (NN) spécial capable de reconnaître les émotions
mouvements et les expressions du visage. avec précision.
Les visages humains sont incroyablement expressifs, transmettant un large éventail
d'émotions à travers des changements subtils dans les mouvements musculaires, tels Pour améliorer notre NN, nous prendrons en compte des éléments tels que la manière
que les sourires, les froncements de sourcils et les sourcils levés. dont nous préparons les données, les méthodes que nous utilisons pour sélectionner
les fonctionnalités importantes et le type de structure que nous donnons au réseau.
Les chercheurs et les scientifiques dans ce domaine explorent diverses approches
Nous allons également affiner le modèle à l'aide de méthodes avancées et vérifier
pour reconnaître et comprendre les émotions basées sur les expressions faciales. Ils
qu'il fonctionne bien dans différentes situations.
étudient les mécanismes sousjacents des expressions faciales, la relation entre les
mouvements faciaux spécifiques et les états émotionnels, et les modèles qui indiquent
différentes émotions. En créant notre propre NN basé sur ce que nous avons appris de l'étude, nous
espérons améliorer la technologie utilisée pour reconnaître les émotions. Nous voulons
le rendre plus précis et plus rapide, ce qui peut être utile dans de nombreux
L'objectif est de développer des algorithmes de vision par ordinateur et
domaines tels que les ordinateurs interagissant avec les gens,
d'apprentissage automatique capables de détecter et de classer automatiquement les
l'apprentissage en ligne, la réalité virtuelle et les soins de santé.
expressions faciales afin de reconnaître avec précision les émotions telles que le
bonheur, la tristesse, la colère, la surprise, la peur et le dégoût.
Ces algorithmes apprennent à partir de grands ensembles de données d'expressions
En résumé, cette étude consiste à comparer différentes méthodes de
faciales étiquetées, des modèles de formation pour identifier les caractéristiques et les
reconnaissance des émotions à partir des expressions faciales et à utiliser ces
modèles uniques associés à chaque émotion.
connaissances pour créer notre propre réseau de neurones spécialisé. Notre
Les applications de la reconnaissance des émotions basées sur les expressions objectif est d'améliorer la capacité des ordinateurs à comprendre les
faciales sont très variées. En psychologie, il peut aider à comprendre le comportement
émotions des visages et de rendre la technologie plus fiable et plus efficace à
humain, à étudier les troubles émotionnels et à améliorer les techniques de thérapie.
l'avenir.
Dans l'interaction hommeordinateur, il permet des interactions plus naturelles et plus
empathiques entre les humains et les machines. Dans des domaines comme la réalité
virtuelle et les jeux, il améliore l'immersion et l'expérience utilisateur. De plus, il a des A. Description de l'ensemble de
applications potentielles dans des domaines tels que les études de marché, l'analyse
données Pour nos recherches, nous utiliserons l'ensemble de données
des commentaires des clients et les systèmes de sécurité.
disponible sur [DataSET] comme ensemble de données principal pour former
et tester nos modèles. Cet ensemble de données contient des dossiers
représentant différentes expressions faciales, notamment Surprise, Colère,
Les chercheurs utilisent diverses techniques de reconnaissance des émotions, Bonheur, Triste, Neutre, Dégoût et Peur.
notamment l'extraction de caractéristiques à partir de repères faciaux, des modèles
d'apprentissage en profondeur tels que les réseaux de neurones convolutionnels (CNN) L'ensemble de données est divisé en deux dossiers principaux, Formation et
et des approches multimodales qui combinent les expressions faciales avec d'autres Test, pour faciliter la configuration du modèle pour les utilisateurs
modalités telles que la voix et les signaux physiologiques. finaux. L'ensemble d'apprentissage comprend un total de 28 079 échantillons,
tandis que l'ensemble de test contient 7 178 échantillons.
Chaque échantillon est constitué d'images en niveaux de gris de visages aux
dimensions de 48x48 pixels. L'ensemble de données garantit que les visages
Le but ultime est de développer des systèmes sophistiqués capables d'interpréter
sont enregistrés automatiquement, ce qui entraîne une plus ou
et de répondre avec précision aux émotions humaines en temps réel, permettant aux
machines de comprendre et de s'adapter à
4
Machine Translated by Google
visage moins centré occupant un espace similaire dans chaque image. poids pour minimiser la perte et améliorer sa prédiction
précision.
Il est important de noter que cet ensemble de données a été obtenu à Le modèle VGG16 a démontré de solides performances
partir du concours "Challenges in Representation Learning: Facial dans diverses tâches de vision par ordinateur, y compris la reconnaissance
Expression Recognition Challenge". L'ensemble de données a été des émotions basée sur les expressions faciales. Son architecture profonde
préparé par PierreLuc Carrier et Aaron Courville dans le cadre de leur lui permet d'apprendre des modèles et des caractéristiques
projet de recherche en cours. Ils ont généreusement fourni une version complexes à partir d'images, permettant une reconnaissance précise
préliminaire de leur ensemble de données aux organisateurs de des différentes émotions. Cependant, il convient de noter que le modèle
l'atelier pour qu'ils l'utilisent dans le cadre de ce concours. VGG16 peut être gourmand en calculs et peut nécessiter des
ressources de calcul importantes pour la formation et l'inférence, en
particulier lorsqu'il s'agit d'ensembles de données à grande échelle.
B. Modèle VGG16
Le modèle VGG16 [11] est une architecture de réseau neuronal En résumé, le modèle VGG16 est une architecture CNN puissante
convolutif (CNN) qui a été largement utilisée dans diverses tâches de vision couramment utilisée dans la reconnaissance des émotions basée sur les
par ordinateur, y compris la reconnaissance des émotions basée expressions faciales. Sa structure profonde, ainsi que sa capacité à
sur les expressions faciales. Il a été développé par le Visual apprendre des fonctionnalités complexes, le rendent approprié
Geometry Group (VGG) de l'Université d'Oxford. pour capturer des représentations significatives à partir d'images et
prédire avec précision différentes émotions.
5
Machine Translated by Google
Une fonction d'activation softmax est couramment utilisée pour couches, normalisation par lots et fonctions d'activation.
produire une distribution de probabilité sur les classes d'émotions, Les connexions résiduelles au sein des blocs facilitent la circulation
permettant au modèle de faire des prédictions sur l'émotion de l'information et améliorent le gradient flow pendant l'entraînement.
dominante dans l'expression faciale d'entrée.
La formation du modèle VGG19 pour la reconnaissance des Dans le contexte de la reconnaissance des émotions basée sur
émotions implique généralement l'utilisation d'un ensemble de les expressions faciales, le modèle ResNet50V2 prend une
données étiquetées d'images d'expression faciale. Le modèle image d'entrée d'un visage et la traite à travers les couches pour
est optimisé à l'aide d'algorithmes tels que la descente de gradient extraire les caractéristiques discriminantes. Ces caractéristiques
stochastique (SGD) ou l'optimiseur Adam, et la fonction de perte capturent les caractéristiques uniques des expressions
d'entropie croisée catégorique est couramment utilisée pour faciales associées à différentes émotions.
mesurer l'écart entre les probabilités prédites et les véritables
étiquettes d'émotion. Grâce à un entraînement itératif, le modèle La couche de sortie du modèle ResNet50V2 est généralement
VGG19 ajuste ses poids pour minimiser la perte et améliorer sa configurée pour avoir plusieurs unités correspondant à
capacité à classer avec précision les émotions. différentes classes d'émotions. La fonction d'activation finale, souvent
softmax, génère une distribution de probabilité sur ces classes
La profondeur accrue du modèle VGG19 par rapport au modèle d'émotions, permettant au modèle de faire des prédictions sur
VGG16 lui permet de capturer des fonctionnalités plus complexes et l'émotion dominante manifestée dans l'expression faciale.
nuancées, ce qui peut conduire à une amélioration des performances
dans les tâches de reconnaissance des émotions. Cependant, il
est important de noter que la profondeur supplémentaire augmente La formation du modèle ResNet50V2 pour la reconnaissance des
également la complexité et les exigences de calcul du modèle, exigeant émotions implique l'utilisation d'un ensemble de données
davantage de ressources de calcul pendant la formation et étiquetées d'images d'expressions faciales. Les poids du
l'inférence. modèle sont optimisés à l'aide d'algorithmes tels que la descente de
gradient stochastique (SGD) ou l'optimiseur Adam. Le choix de la
En résumé, le modèle VGG19 est une extension de l'architecture fonction de perte, telle que l'entropie croisée catégorique,
VGG16 largement utilisée dans les tâches de reconnaissance aide à mesurer la dissemblance entre les probabilités prédites et les
des émotions basées sur les expressions faciales. Sa structure plus véritables étiquettes d'émotion. Grâce à un entraînement itératif,
profonde lui permet de capturer des modèles plus complexes, le modèle ajuste ses pondérations pour minimiser la perte et améliorer
permettant une meilleure discrimination entre les différentes sa capacité à classer avec précision les émotions.
émotions. En exploitant les couches convolutionnelles et
entièrement connectées, le modèle VGG19 peut extraire L'architecture ResNet50V2 a montré des performances
efficacement les caractéristiques des images faciales et fournir des remarquables dans diverses tâches de vision par ordinateur en raison
prédictions précises pour diverses classes d'émotions. de sa structure profonde, de ses connexions résiduelles et de
sa formation efficace. Ces attributs le rendent capable de capturer
des modèles visuels complexes et de reconnaître efficacement
D. Modèle ResNet50V2
les émotions basées sur les expressions faciales.
Le modèle ResNet50V2 [13] est une architecture de réseau neuronal
convolutif (CNN) qui a été largement utilisée dans diverses En résumé, le modèle ResNet50V2 est une architecture CNN
tâches de vision par ordinateur, y compris la reconnaissance des profonde avec des connexions résiduelles, conçue pour des
émotions basée sur les expressions faciales. tâches telles que la reconnaissance des émotions basée sur
les expressions faciales. Sa capacité à apprendre des fonctionnalités
ResNet50V2 est une extension de l'architecture ResNet originale complexes, ainsi qu'un flux de gradient amélioré grâce à
introduite par Microsoft Research. Le "50" dans le nom fait référence des connexions résiduelles, lui permettent de capturer et de classer
au nombre de couches du réseau, indiquant sa profondeur. efficacement différentes émotions. En tirant parti de ses
Le "V2" indique qu'il s'agit d'une version mise à jour du modèle avec couches et de ses connexions, le modèle ResNet50V2
des performances et une efficacité améliorées. démontre de solides performances dans la reconnaissance des
émotions à partir des expressions faciales.
Ces connexions permettent au réseau de contourner certaines Le modèle EfficientNetB0 [14] est une architecture de réseau neuronal
couches et de propager directement les activations d'entrée ou convolutif (CNN) qui a attiré l'attention pour son efficacité et ses
intermédiaires aux couches suivantes. Cela atténue le problème excellentes performances dans diverses tâches de vision par
des gradients de fuite, permettant au réseau d'apprendre plus ordinateur, y compris la reconnaissance des émotions basée sur
efficacement, en particulier lorsqu'il s'agit d'architectures très les expressions faciales.
profondes.
EfficientNetB0 appartient à une famille de modèles connus sous le
Le modèle ResNet50V2 se compose d'une série de nom d'EfficientNets, qui ont été conçus en combinant les
couches convolutives, suivies d'un pooling moyen global et de couches principes de la recherche d'architecture neuronale et de la mise à
entièrement connectées. Il intègre des blocs résiduels, qui sont l'échelle du modèle. Ces modèles atteignent une grande précision tout en
composés de multiples convolutions
6
Machine Translated by Google
L'architecture EfficientNetB0 suit une méthode de mise à l'échelle En résumé, le modèle EfficientNetB0 est une architecture CNN très
composée, qui met uniformément à l'échelle la profondeur, la largeur et efficace qui atteint d'excellentes performances dans les tâches de
la résolution du réseau. Cette mise à l'échelle permet au modèle reconnaissance des émotions basées sur les expressions faciales.
d'atteindre un bon équilibre entre la capacité du modèle et Son approche de mise à l'échelle composée, ses convolutions
l'efficacité de calcul. Le "B0" dans le nom signifie la configuration de base séparables en profondeur et d'autres techniques contribuent à son efficacité
de la famille EfficientNet, où "B0" représente la variante la plus petite et la et à sa précision. En tirant parti de ces fonctionnalités, le modèle
moins coûteuse en calcul. EfficientNetB0 démontre de solides performances dans la reconnaissance
précise des émotions à partir des expressions faciales.
l'opération de convolution standard en deux étapes distinctes : une la famille EfficientNet, qui est une série de réseaux de neurones
convolution en profondeur, qui traite chaque canal d'entrée convolutionnels (CNN) conçus pour atteindre des
séparément, et une convolution ponctuelle, qui combine la sortie performances de pointe avec beaucoup moins de paramètres par
de la convolution en profondeur sur les canaux. rapport aux autres modèles. Le modèle EfficientNetB7 est
la variante la plus grande et la plus puissante de la série EfficientNet.
Le modèle EfficientNetB0 intègre également d'autres techniques L'idée principale derrière les modèles EfficientNet est la mise à l'échelle
telles que la normalisation par lots, les fonctions d'activation et les composée, qui consiste à mettre à l'échelle la profondeur, la largeur et
la résolution du réseau de manière équilibrée. Cela permet à
connexions de saut. Ces techniques aident à améliorer le processus
d'apprentissage, à augmenter la précision du modèle et à faciliter EfficientNetB7 d'obtenir de meilleures performances et une meilleure efficacité
softmax, produit une distribution de probabilité sur ces classes ou de filtres dans chaque couche par rapport aux variantes
d'émotions, permettant au modèle de faire des prédictions sur plus petites, ce qui lui permet d'apprendre des représentations
La formation du modèle EfficientNetB0 pour la reconnaissance élevée, ce qui permet au modèle de capturer des détails fins et
des émotions implique l'utilisation d'un ensemble de données étiquetées d'améliorer la précision de la reconnaissance.
telle que l'entropie croisée catégorique, aide à mesurer la grande échelle, tels que ImageNet, en utilisant des techniques
dissemblance entre les probabilités prédites et les véritables telles que l'apprentissage par transfert. En conséquence, il a appris à
étiquettes d'émotion. Grâce à un entraînement itératif, le modèle reconnaître un large éventail de caractéristiques de différentes images.
ajuste ses pondérations pour minimiser la perte et améliorer sa Cette préformation en fait un puissant extracteur de fonctionnalités qui
capacité à classer avec précision les émotions. peut être affiné sur des tâches ou des ensembles de données
spécifiques avec relativement peu d'échantillons de formation supplémentaires.
L'efficacité et les performances du modèle EfficientNetB0 le rendent bien En raison de son efficacité et de ses hautes performances,
adapté à la reconnaissance des émotions basée sur les expressions EfficientNetB7 est couramment utilisé dans diverses tâches de vision par
faciales. Sa capacité à capturer des caractéristiques importantes ordinateur, telles que la classification d'images, la détection
tout en étant efficace sur le plan informatique permet une classification d'objets et la segmentation sémantique, où il obtient
précise des émotions, même dans des environnements à ressources limitées. systématiquement des résultats de premier plan. Cependant, il convient de
noter qu'EfficientNetB7 peut nécessiter des
7
Machine Translated by Google
ressources de calcul, en particulier lors de la formation, en raison de sa SGD ajoute également un effet de régularisation, aidant le modèle à mieux
grande taille. généraliser et à éviter le surajustement.
1. Initialiser les paramètres : l'algorithme commence par initialiser L'optimiseur Adam est une extension de l'algorithme de descente de
les paramètres du modèle avec des valeurs aléatoires. Ces gradient stochastique (SGD) qui combine des éléments des
paramètres sont les variables que le modèle apprendra au cours du techniques d'optimisation AdaGrad et RMSprop. Il est
processus de formation. largement utilisé dans la formation de réseaux de neurones profonds en
raison de son efficacité à trouver de bonnes solutions et de ses capacités
2. Sélectionner un minilot : SGD sélectionne au hasard un de taux d'apprentissage adaptatif.
minilot d'exemples de formation à partir de l'ensemble de données.
La taille du minilot est généralement choisie en fonction de Voici une explication plus approfondie de l'optimiseur Adam :
contraintes de calcul et peut aller de quelques échantillons à
quelques centaines d'échantillons. 1. Initialisation : L'optimiseur Adam initialise deux variables, à savoir la
première estimation de moment (souvent appelée la « moyenne »)
3. Calculer le gradient : le minilot sélectionné est utilisé pour calculer le et la deuxième estimation de moment (souvent appelée la
gradient de la fonction de perte par rapport aux paramètres du « variance »). Ces variables sont initialisées comme des
modèle. Le gradient représente la direction et l'amplitude de la vecteurs de zéros de mêmes dimensions que les paramètres du
Le principal avantage de SGD est son efficacité dans le traitement de grands 5. Correction du biais : dans les premières itérations de la formation, les
ensembles de données. Puisqu'il fonctionne sur des minilots, il estimations des premier et deuxième moments peuvent être biaisées
nécessite moins de mémoire et de ressources de calcul par rapport vers zéro en raison de leur initialisation en tant que vecteurs nuls.
à la descente de gradient par lots, où l'ensemble des données est utilisé Pour résoudre ce problème, une correction de biais est
à chaque itération. Le caractère stochastique de appliquée aux premières et deuxièmes estimations de moment pour
les rendre non biaisées.
8
Machine Translated by Google
A. Configuration expérimentale
6. Mise à l'échelle du taux d'apprentissage : l'optimiseur Adam met à La mise à l'échelle et le redimensionnement d'une image impliquent d'ajuster sa
l'échelle les gradients en les divisant par la racine carrée de taille tout en préservant son rapport d'aspect ou en modifiant le rapport d'aspect
l'estimation du deuxième moment. Cette mise à l'échelle permet comme souhaité. Le processus comprend généralement deux étapes : la
des taux d'apprentissage adaptatifs, où le taux d'apprentissage mise à l'échelle et le redimensionnement.
est automatiquement ajusté en fonction de l'amplitude des
gradients. Les valeurs de pixel d'une image vont généralement de 0 à 255,
représentant l'intensité de chaque pixel. La mise à l'échelle de l'image
7. Mise à jour des paramètres : enfin, les paramètres du modèle en la divisant par 255 transforme les valeurs de pixel dans une plage
sont mis à jour en soustrayant les gradients mis à l'échelle, comprise entre 0 et 1. Cette normalisation est souvent effectuée pour
qui sont divisés par la racine carrée de l'estimation du deuxième garantir que les valeurs de pixel se situent dans une plage cohérente
moment, multipliée par le taux d'apprentissage. et normalisée, ce qui peut être bénéfique pour divers
Cette étape déplace efficacement les paramètres dans la algorithmes et modèles de traitement d'image. .
direction qui minimise la fonction de perte.
Le mécanisme de taux d'apprentissage adaptatif de l'optimiseur Adam Dans le contexte de la reconnaissance de l'expression faciale, le
le rend moins sensible au choix d'un taux d'apprentissage initial et redimensionnement d'une image en (48, 48) est couramment
permet d'obtenir une convergence plus rapide. Il combine les effectué pour prétraiter les images faciales et les préparer comme
avantages d'AdaGrad, qui ajuste le taux d'apprentissage pour chaque entrée pour les modèles de reconnaissance des émotions. Les
paramètre individuellement, et de RMSprop, qui effectue une mise à dimensions de 48x48 pixels ont été largement adoptées dans les
l'échelle adaptative du taux d'apprentissage. De plus, l'étape de ensembles de données et les modèles d'expression faciale. Cette
correction du biais garantit que les estimations des premier et deuxième taille est généralement suffisante pour capturer des
moments sont exactes, en particulier pendant les premières étapes de traits faciaux importants tout en gardant les exigences de calcul gérables.
l'entraînement.
9
Machine Translated by Google
Le terme « gel » fait référence au processus consistant à empêcher que espace d'hyperparamètres en utilisant différentes stratégies pour
les poids et les paramètres de couches spécifiques dans un trouver la meilleure combinaison d'hyperparamètres. •
modèle préentraîné ne soient mis à jour ou entraînés davantage pendant Fonctions d'objectif : vous pouvez définir une fonction d'objectif qui
le processus d'ajustement ou d'apprentissage par transfert. quantifie les performances de votre modèle en fonction de
métriques spécifiques, telles que la précision, la perte ou toute
Lorsque nous chargeons un modèle préformé, toutes les couches du métrique d'évaluation personnalisée. Le tuner utilise cette
modèle ont déjà été formées sur un grand ensemble de données pour fonction objective pour guider le processus de recherche et
apprendre des représentations significatives. Cependant, dans optimiser les hyperparamètres.
certains cas, nous pouvons souhaiter affiner le modèle pour une tâche
spécifique en utilisant votre propre jeu de données. • Arrêt anticipé : Keras Tuner prend en charge
l'arrêt, qui vous permet d'arrêter le processus de recherche
En gelant les couches, nous gardons intactes les représentations si les performances du modèle plafonnent ou se détériorent. Cela
apprises, en particulier dans les premières couches qui capturent les permet d'économiser des ressources de calcul en mettant fin à la
caractéristiques et les modèles de base. Ceci est utile car le recherche plus tôt si aucune autre amélioration n'est
modèle préformé a été formé sur un ensemble de données similaire à observée.
notre tâche, et nous voulons tirer parti des connaissances préexistantes
tout en affinant vos données spécifiques. • Analyse des résultats : Keras Tuner fournit des utilitaires pour analyser
et visualiser les résultats de la recherche
d'hyperparamètres, tels que les meilleurs
hyperparamètres trouvés, les métriques de performance à
travers différents essais et l'historique de recherche.
Figure 6. Kerastuner_1
• Espaces de recherche : Keras Tuner vous permet de définir
l'espace de recherche pour chaque hyperparamètre. Vous pouvez
spécifier la plage, les valeurs ou les distributions que le tuner doit
prendre en compte lors de la recherche des meilleurs
hyperparamètres.
dix
Machine Translated by Google
Fig. 7. Kerastuner_2
B. Résultats et décision
Pour résumer, le modèle optimal est construit sur l'architecture Fig. 10. La représentation graphique illustrant la perte et la précision
métrique
VGG16, qui sert de colonne vertébrale fondamentale. Il est complété
par une couche aplatie pour remodeler la sortie, une couche
La matrice de confusion fournit une vue complète des performances du
dense avec 1000 unités pour capturer des motifs complexes et
modèle en montrant la distribution des prédictions correctes et
une couche de sortie avec activation softmax pour une
incorrectes dans différentes classes.
classification multiclasse efficace.
Cela aide à comprendre les types d'erreurs commises par le modèle,
La fonction softmax joue un rôle central dans
telles que les faux positifs et les faux négatifs.
11
Machine Translated by Google
1. Limites : • Précision
VII. CONCLUSION • Besoins en ressources : les algorithmes testés peuvent nécessiter des
ordinateurs puissants avec des cartes graphiques et des processeurs
En conclusion, cette étude visait à comparer les performances de cinq
haut de gamme. L'accès à de telles ressources pourrait être un
algorithmes différents (VGG16, VGG19, RESNET50V2, EfficientNETB0 et EfficientB7)
défi dans les applications réelles.
pour la reconnaissance des émotions basées sur les expressions faciales.
L'étude a suivi un processus étape par étape, commençant par l'importation des 2. Travaux futurs : •
données et passant par différentes étapes jusqu'à trouver le meilleur modèle et les
Développement d'algorithmes améliorés : D'autres recherches devraient se
meilleurs paramètres grâce à notre comparaison.
concentrer sur le développement de meilleurs algorithmes de
reconnaissance des émotions basés sur les expressions faciales.
L'exploration de nouvelles approches, comme la prise en compte du
Les résultats de cette étude fournissent des informations précieuses sur la
temps ou de l'attention, pourrait améliorer la précision.
performance de ces algorithmes dans la reconnaissance des émotions.
En comparant leur précision et leur matrice de confusion, nous avons pu
• Collecte d'ensembles de données améliorée : la collecte d'ensembles de
déterminer quel algorithme fonctionnait le mieux pour reconnaître les émotions
données plus vastes et plus diversifiés qui représentent
en fonction des expressions faciales.
différentes émotions et personnes peut améliorer la précision
de l'algorithme.
Ces découvertes contribuent à améliorer la technologie de reconnaissance des
émotions et peuvent être utiles dans divers domaines comme les plateformes
• Test et validation en situation réelle : il est important de tester et de valider
d'apprentissage en ligne ou les interactions informatiques. En utilisant le meilleur
les algorithmes dans des situations réelles, telles que les
modèle et les meilleurs paramètres identifiés dans cette étude, nous pouvons
plateformes d'apprentissage en ligne. Cela peut fournir des commentaires
améliorer l'efficacité et l'efficience des systèmes de reconnaissance des émotions,
pour des améliorations et des ajustements.
conduisant à de meilleures expériences utilisateur et à un support personnalisé.
12
Afficher les statistiques de publication
TABLEAU DES FIGURES [10] Wisal Hashim Abdulsalam, Rafah Shihab Alhamdani et
Mohammed Najm Abdullah "Reconnaissance des émotions faciales de
Vidéos utilisant des réseaux de neurones à convolution profonde » [CrossRef]
Figure 7 Kerastuner_2 11
LES RÉFÉRENCES
[9] Ati Jain, Hare Ram Sah « Rétroaction de l'étudiant par l'émotion et la parole
reconnaissance par le Deep Learning ». [Référence croisée]
13