Vous êtes sur la page 1sur 4

I.

Introduction
Etant donné que les réseaux neuronaux sont un outil puissant qui ont révolutionnés de nombreux
domaines de l'intelligence artificielle en particulier dans le domaine du traitement des images. Le
traitement d’images serre extraite des informations significatives des images, a grandement
bénéficié de l’utilisation des réseaux neurones. Parmi les applications qui ont profités de cette
évolution on trouve les systèmes de reconnaissances d’états émotionnels par analyse visuelle du
visage qui consiste à déterminer l’état émotionnelle des individus. Les expressions faciales sont
importantes pour la communication humaine et la reconnaissance des émotions. C’est un défi
pour la technologie de l'intelligence artificielle, Ainsi que ce système est utilisé dans divers
domaines. L'introduction de notre étude se penche sur les travaux de Sabrina Begaj, Ali Osman
Topal et Maaruf Ali les chercheurs de Epoka University qui retracent l'évolution de ce système en
se basant sur des techniques d'apprentissage profond telles que CNN, DBN, DAE, RNN et GAN
qui sont en cours de la recherche. Et notre étude va s’intéresser sur le modèle le plus utilisé dans
cette vague c’est le CNN pour arriver finalement à trouver.

II. Modèle de Bases :

 Réseaux de Neurones Convolutifs (CNN)


Les réseaux de neurones convolutifs (CNN) sont devenus l'architecture dominante dans ce
domaine. Ces réseaux sont spécifiquement conçus pour capturer et hiérarchiser les modèles
présents dans des images complexes. Il consiste à utiliser des couches convolutionnelles qui sont
le cœur de ce modèle. Afin d’avoir plusieurs architectures.

Nous avons utilisé l’architectures suivante

* Conv -> BN -> Activation -> Conv -> BN -> Activation -> MaxPooling

* Conv -> BN -> Activation -> Conv -> BN -> Activation -> MaxPooling

* Conv -> BN -> Activation -> Conv -> BN -> Activation -> MaxPooling

* Flatten

* Dense -> BN -> Activation

* Dense -> BN -> Activation


* Dense -> BN -> Activation

* Output layer

 Dataset
Le domaine de la reconnaissance des émotions faciales utilise de nombreux types d’ensembles de
données, chacun possédant des caractéristiques uniques. Les scientifiques doivent utiliser de
vastes ensembles de données pour mener des recherches détaillées sur la reconnaissance
automatique des expressions faciales. Bien que l’ensemble de données ait été créé par eux, il doit
être surveillé par des psychologues qui doivent mieux comprendre la reconnaissance des
émotions humaines et fournir un retour d’information. Malheureusement, la plupart des
ensembles de données sont limités, mais la communauté scientifique a déployé des efforts
intenses ces dernières années pour créer de nouveaux ensembles de données riches et utiles.

Dans ce contexte nous avons choisie de travailler sur une base intitulée « FER2013 » disponible
gratuitement sur la plateforme KAGGLE. Parallèlement les chercheurs de Epoka University qui
ont utilisés trois différentes Datasets pour avoir un résultat plus précis qui sont FER2013,
AffectNet and iCV MEFED. [1]

 Prétraitement

Le prétraitement des données est une étape essentielle dans le processus d'analyse de données,
que ce soit pour des tâches de machine Learning, de vision par ordinateur ou d'autres domaines.
Ces étapes visent à préparer les données de manière à ce qu'elles soient adaptées à notre modèle.

## Pre-processing data

1. Splitting dataset into 3 parts: train, validation, test

1. Convert strings to lists of integers

1. Reshape to 48x48 and normalise grayscale image with 255.0

1. Perform one-hot encoding label, e.g. class 3 to [0,0,0,1,0,0,0]


1. Division du Jeu de Données :

Objectif : Diviser le jeu de données en trois parties distinctes : entraînement (train), validation et
test.

Explication : La division en ensembles d'entraînement, de validation et de test permet d'évaluer


la performance du modèle de manière robuste. L'ensemble d'entraînement est utilisé pour
entraîner le modèle, l'ensemble de validation pour régler les hyper paramètres et l'ensemble de
test pour évaluer la performance finale.

2. Conversion des Chaînes en Listes d'Entiers :

Objectif : Convertir les représentations textuelles (probablement des émotions, comme "happy",
"sad", etc.) en listes d'entiers.

Explication : Les modèles d'apprentissage automatique traitent généralement des nombres plutôt
que du texte. En convertissant les étiquettes de classe (émotions) en entiers, on facilite le
traitement par les modèles.

3. Redimensionnement et Normalisation des Images :

Objectif : Uniformiser la taille des images et normaliser les valeurs de pixel.

Explication : Les images peuvent avoir différentes tailles, et pour s'assurer que le modèle peut
les traiter de manière cohérente, elles sont redimensionnées à une taille fixe, par exemple, 48x48
pixels. La normalisation des valeurs de pixel à l'échelle de [0, 1] est effectuée en divisant chaque
valeur de pixel par 255.0, ce qui simplifie l'apprentissage pour le modèle.

4. Encodage One-Hot des Étiquettes (Labels) :

Objectif : Convertir les étiquettes de classe en vecteurs binaires.

Explication : L'encodage one-hot est utilisé pour représenter de manière binaire les classes.
Chaque classe est représentée par un vecteur où une seule position correspond à la classe correcte
(1) et les autres sont à zéro. Cela aide le modèle à traiter les étiquettes de manière appropriée,
surtout dans le contexte de la classification multi classe.
Références

[1] Sabrina Begaj , Ali Osman Topal et Maaruf Ali Emotion Recognition Based on Facial
Expressions Using Convolutional Neural Network (CNN)

[2]

Vous aimerez peut-être aussi