TH8068

N° d’ordre : 05/2014-D/INF
République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université des sciences et Technologie Houari Boumediene
Faculté d’Electronique et d’Informatique
Thèse
Présentée pour l’obtention du grade de DOCTEUR EN SCIENCES
En : INFORMATIQUE
Spécialité : Informatique
Par : Dahmani Khelifa Djamila
Sujet
Elaboration d’un Système de Reconnaissance

de l’Epellation Digitale de la Langue des Signes
Soutenue publiquement le 29 /09/2014 devant le jury composé de :
M. Y. Chibani Professeur à l’USTHB Président
M. S. Larabi Professeur à l’USTHB Directeur de thèse
Mme. L. Hamami Professeur à l’ENP Examinateur
M. M. Diaf Professeur à l’ UMMTO Examinateur
Melle. S. Aouat Maitre de conférences à l’ USTHB Examinateur
M. M.S Djouadi Maitre de conférences à l’ EMP Examinateur

Remerciements
Tout d’abord, je remercie Allah le tout puissant de m’avoir donné le
courage pour arriver à achever ce travail.
Je remercie sincèrement mon directeur de thèse, Professeur
Slimane Larabi, pour ses encadrements, sa disponibilité, et son aide
précieuse sans laquelle ce travail n’aurait vu le jour.
Je tiens aussi à remercier Professeur Youcef Chibani, de m’avoir
fait l’honneur de présider mon jury de thèse.
J’adresse également mes remerciements aux membres du jury :
Melle Saliha Aouat, Maitre de conférence à l’USTHB, Mme Latifa
Hamami, Professeur à ENP, Mr Moussa Diaf, Professeur à
l’UMMTO, Mr Mohand-Said Djouadi, Maitre de conférence à
l’EMP.
Je tiens aussi à remercier, Mme Nadia Baha pour son aide et ses
conseils avisés pour l’accomplissement de ce travail, ainsi que tous
les membres de l’équipe Vision.
Enfin, mes pensées s’adressent à mes deux familles celle qui m’a
fait naitre particulièrement à mon défunt père et à ma mère et celle
que j’ai fondé: mon mari, mes adorables filles Manel et Yasmine.
A La mémoire de mon
défunt père et à ma mère.
A mon mari et mes deux
adorables filles
« On fait la science avec des
faits, comme on fait une
maison avec des pierres :
mais une accumulation de
faits n’est pas une science
qu’un tas de pierres n’est
une maison » Henri
Poincaré.
Résumé
Dans ce travail de thèse, nous présentons notre contribution dans le domaine de la reconnaissance de la
gestuelle de la main. Notre apport principal réside dans l’élaboration d’un système de reconnaissance des
postures de la main destinées à l’alphabet de la langue des signes.
Le système se compose de trois principales phases:
- Segmentation de l’image et localisation de la main,
- Description de la main
- Reconnaissance de la posture de la main.
La méthode de segmentation proposée repose sur la détermination des attributs adéquats de couleur et texture de
la peau. Ces attributs sont utilisés par la suite pour l’apprentissage d’un perceptron multi couches (MLP).
Afin d’aboutir à une description fidèle et non redondante des différentes postures de la main, nous avons suivi
deux approches différentes: une approche syntaxique et une approche statistique.
L’approche syntaxique repose sur le partitionnement de la forme de la main en ses parties élémentaires à savoir
les doigts et la paume. Ce partitionnement va être traduit au moyen d’une description textuelle permettant la
description et la reconnaissance de certaines postures de la main paume ou dos de la paume face à la caméra.
La méthode statistique s’appuie principalement sur l’utilisation des moments de Tchebichef, Hu et sur un
ensemble de caractéristiques géométriques.
Enfin la reconnaissance et la classification s’effectue moyennant les classifieurs KNN et SVM. Les approches
proposées ont été testés sur différentes bases de données.
Mots clés : Langue des signes, Texture, Perceptron multi couches (MLP) , Moments de Tchebichef, Moments
Hu, Classification.
Sommaire
INTRODUCTION GENERALE ........................................................................................................................... 1
I.1 Préambule .............................................................................................................................. 1
I.2 Problématique ....................................................................................................................... 3
I.3 Contributions de la thèse ....................................................................................................... 4
I.4 Organisation de la thèse ........................................................................................................ 6
CHAPITRE 1 ......................................................................................................................................... 7
RECONNAISSANCE DES GESTES DE LA MAIN : ETAT DE L’ART ............................................................................... 7

1.1 Introduction ........................................................................................................................... 7
1.2 La main : instrument de tous les instruments ........................................................................ 7
1.2.1 Anatomie de la main ...................................................................................................................... 8
1.2.3 Anthropométrie de la main ............................................................................................................ 9
1.2.3 Biomécanique de la main ............................................................................................................. 10
1.2.4 Gestes et postures de la main ...................................................................................................... 12
1.3 Méthodologie de reconnaissance des gestes et postures de la main en vision artificielle .. 13
1.3.1 Collecte des données (Acquisition) .............................................................................................. 14
1.3.2 Détection et suivi de la main ........................................................................................................ 16
1.3.3 Extraction de primitives ............................................................................................................... 25
1.3.4 Méthodes de classification dans les systèmes de reconnaissance des gestes et postures de la
main 32
1.3.5 Domaines d’applications .............................................................................................................. 34
1.4 Conclusion ............................................................................................................................ 35
CHAPITRE 2 ....................................................................................................................................... 37
LA LANGUE DES SIGNES ET SON INTERPRETATION............................................................................................ 37

2.1 Introduction ......................................................................................................................... 37
2.2 La langue des signes ............................................................................................................ 38
2.2.1 Composition d’un signe ................................................................................................................ 39
2.2.2 Interaction entre les deux mains .................................................................................................. 39
2.2.3 Différentes classes de signes ........................................................................................................ 41
2.2.4 Problèmes spécifiques à l’interprétation de signes ..................................................................... 42
2.2.4.3 Interprétation des signes non standards ...................................................................................... 44
2.3 Reconnaissance de la langue des signes Arabe : Etat de l’art ............................................. 45
2.4 Conclusion ............................................................................................................................ 49
CHAPITRE 3 ....................................................................................................................................... 51
SEGMENTATION D’IMAGE ET EXTRACTION DE LA MAIN : CAS D’UN ARRIERE-PLAN COMPLEXE .................................. 51

3.1 Introduction ......................................................................................................................... 51
3.2 Choix d’attributs pour l’extraction de la main de l’image .................................................... 52
3.2.1 Motivation.................................................................................................................................... 52
3.2.2 Les attributs : Couleur et texture ................................................................................................. 53
3.3 Etat de l’art des méthodes de segmentation basées sur la couleur et la texture ................ 58
3.3.1 Méthodes basées sur l’intégration implicite des primitives couleur-texture ............................... 58
3.3.2 Méthodes basées sur l’extraction de la couleur et de la texture successivement ....................... 59
3.3.3 Méthodes basées sur l’extraction des attributs couleur et texture séparément ......................... 59
3.4 Méthode de segmentation proposée ................................................................................... 59
3.5 Conclusion ............................................................................................................................ 65
CHAPITRE 4 ....................................................................................................................................... 67
RECONNAISSANCE ET CLASSIFICATION.......................................................................................................... 67
4.1 Introduction ......................................................................................................................... 67
4.2 Approche syntaxique............................................................................................................ 68
4.2.1 Représentation de la forme en partitions .................................................................................... 69
4.2.2 Reconnaissance ............................................................................................................................ 76
4.3 Approche statistique ............................................................................................................ 78
4.3.1 Extraction des caractéristiques .................................................................................................... 79
4.3.2 Classification ................................................................................................................................ 85
4.4 Conclusion ............................................................................................................................ 88
CHAPITRE 5 ....................................................................................................................................... 89
VALIDATION DES APPROCHES PROPOSEES ..................................................................................................... 89

5.1 Introduction ......................................................................................................................... 89
5.2 Collecte des données ............................................................................................................ 90
5.3 Classification des pixels peau dans un arrière-plan complexe. ............................................ 92
5.3.1 Effet de l’ombre et de la lumière dans différents backgrounds ................................................... 92
5.3.2 Différents fonds et différentes couleurs ...................................................................................... 93
5.3.3 Fond bois avec occlusion de la lumière ........................................................................................ 94
5.4 Prétraitement après la segmentation .................................................................................. 95
5.4.1 Recadrage du poignet .................................................................................................................. 95
5.4.2 Extraction du contour de la forme de la main .............................................................................. 96
5.4.3 Extraction des contours internes ................................................................................................. 97
5.5 Application de la méthode syntaxique ................................................................................. 98
5.5.1 La reconnaissance des configurations doigts ............................................................................... 98
5.5.2 Méthode syntaxique pour reconnaitre certains gestes et postures en temps réel ................... 101
5.6 Application de la méthode statistique ............................................................................... 104
5.6.1 Détermination de l’ordre optimal des moments de Tchebichef ................................................ 105
5.6.2 Apport des contours internes relativement aux contours externes. ......................................... 106
5.6.3 La meilleure architecture de Combinaison ................................................................................ 107
5.6.4 Utilisation du classificateur SVM ................................................................................................ 109
5.6.5 Etude de la robustesse de la méthode ....................................................................................... 110
5.6.6 Comparaison avec l’état de l’art .................................................................................................... 111
5.7 Conclusion .......................................................................................................................... 112
CONCLUSION GENERALE ET PERSPECTIVES .................................................................................................. 115
Conclusion.................................................................................................................................... 115
Perspectives ................................................................................................................................. 116
ANNEXE ............................................................................................................................................ 119
OUTILS DE CLASSIFICATION...................................................................................................................... 119
A.1 Réseaux de neurones ......................................................................................................... 119
A. 1.1 Les réseaux de neurones bouclés et non bouclés ..................................................................... 120
A. 1.2 Apprentissage d’un réseau de neurones................................................................................... 121
A.1.3 Conception d’un réseau de neurones ........................................................................................ 122
A.2 K plus proches voisins KNN ................................................................................................ 122
A.3 Machines à vecteurs de support ........................................................................................ 123
A.3.1 Historique .................................................................................................................................. 123
A.3.2 Définition ................................................................................................................................... 124
A.3.3 Principe général ......................................................................................................................... 124
A.3.4 Discrimination linéaire et hyperplan séparateur ....................................................................... 125
A.3.5 Linéarité et non-linéarité ........................................................................................................... 125
A.3.6 SVM multi classes ...................................................................................................................... 127
BIBLIOGRAPHIE ..................................................................................................................................... 129
TABLE DE FIGURES
FIGURE I.1 : EXEMPLE DE GANT CYBERNETIQUE [INITION]. ................................................................................... 2
FIGURE 1.1 GRAPHE REPRESENTANT LES DIFFERENTES PARTIES DU CORPS HUMAIN ET LEURS TAUX
D’IMPLICATION DANS LA GESTUELLE HUMAINE [KARAM, 2006]. .......................................................................... 8
FIGURE 1.2 ANATOMIE DE LA MAIN ..................................................................................................................... 10
FIGURE 1.3 ANGLES DE FLEXION/EXTENSION ET ABDUCTION/ ADDUCTION DE L’INDEX. ................................... 11
FIGURE1.4 SIGNES ’D’ ET ‘Z’ DANS L’ASL. .............................................................................................................. 13
FIGURE 1.5 EXEMPLE DE MATERIEL UTILISE POUR LA COLLECTE DE DONNEES [STARNER ET AL 1998]. ............. 15
FIGURE 1.6 SERIE D’ACQUISITION DES GESTES ‘PERE’,’JE’ ET’ MESSAGE’ DE HAUT EN BAS PAR TROIS CAMERAS
ORTHOGONALES [VOGLER & METAXAS 1998]...................................................................................................... 16
FIGURE1.7 KINECT DE MICROSOFT HD (SOFT KINECT, 2012)................................................................................ 16
FIGURE1.8 REPRESENTATION DU GESTE D’APRES BOURKE ET AL. [BOURKE ET AL 2007]. ................................. 26
FIGURE 1.9 EXEMPLE D’UN MODEL 3D DE LA MAIN [HEAP& HOGG 1996] .......................................................... 30
FIGURE 1.10 MODELES 3D GENERES D’APRES [ATHISTOS & SCLAROFF, 2003]. .................................................. 31
FIGURE 1.11 MODELES 2D A PARTIR DES CONTOURS D’APRES [IMAI ET AL 2004]. ............................................. 31
FIGURE1.12 APPLICATIONS DE LA RECONNAISSANCE DES GESTES ET POSTURES DE LA MAIN. .......................... 35
FIGURE 2.1 : EXEMPLE DE LA LANGUE DES SIGNES AMERICAINE(ASL) UNE SEQUENCE VIDEO QUI SIGNIFIE
AVEZ-VOUS ETUDIE DUR ?[ONG & RAGANATH 2005]. ...................................................................................... 38
FIGURE2.2 SIGNE DU MOT DENTISTE DANS LA LANGUE DES SIGNES ARABE(ARSL) [ABD-EL-FATEH 2014]...... 40
FIGURE 2.3 MAIN DOMINEE PORTANT UN GANT COLORE SIMPLE ET MAIN DOMINANTE AVEC UN GANT
MULTICOLORE REPRESENTANT LES DOIGTS ET LA PAUME, D’APRES[BAUER & HIENZ 2000]. ............................. 40
FIGURE 2.4 SIGNES DES MOTS MATIN ET SOIR DE LA LANGUE DES SIGNES ARABE(ARSL)D’APRES [ABD-EL-
FATEH 2014]. ......................................................................................................................................................... 41
FIGURE 2.5 PHRASE UNE CAISSE PLEINE DE POMME DE LA LANGUE LSF ......................................................... 42
FIGURE 2.6 PHRASELE CHAT EST DANS LA VOITURED’APRES [LEJEUNE ET AL 2002]. ....................................... 44
FIGURE 2.7 GANT COLORE UTILISE POUR LA COLLECTE DES DONNEES DAPRES [AL-ROUSSAN & HUSSAIN, 2001].
.............................................................................................................................................................................. 46
FIGURE 2.8 GESTES DE LANGUE DES SIGNES ARABE (ARSL) D’APRES [AL-ROUSSAN ET AL 2009]. ....................... 47
FIGURE 2.9 POSITIONNEMENT DES CAMERAS D’APRES [ELONS ET AL 2013]. .................................................... 49
FIGURE 3.1 EXEMPLES DE L’ALBUM DE TEXTURE, D’APRES [BROADTZ 1966]. ..................................................... 55
FIGURE 3.2 DIAGRAMME DE SEGMENTATION...................................................................................................... 61
FIGURE 3.3. RESULTATS DE LA SEGMENTATION PAR SEUILLAGE DIRECTE DANS L’ESPACE YCb Cr . ................... 62
FIGURE 3.4 SCHEMA GENERAL DU MLP PROPOSE POUR LA CLASSIFICATION DES PIXELS PEAU. ........................ 64
FIGURE 3.5. EXEMPLE D’ENTREE POUR LE RESEAU MLP....................................................................................... 65
FIGURE 4.1. DE GAUCHE A DROITE, LA SILHOUETTE MAIN, LA BOITE ENGLOBANT LA SILHOUETTE, POINTS DE
FORTE COURBURE ................................................................................................................................................. 69
FIGURE 4.2 POINTS CONVEXES ET CONCAVES ...................................................................................................... 70
FIGURE 4.3 SELECTION DES POINTS CONCAVES D’INTERET DANS LA FORME DE LA MAIN. ................................. 71
FIGURE 4.4 SCHEMA GENERAL DES POINTS D’INTERET ....................................................................................... 72
FIGURE 4.5 COURBES DE JONCTION CJ1ET CJ2 ..................................................................................................... 73
FIGURE 4.6 LES DIFFERENTES PARTITIONS DE LA MAIN OBTENUES SUITE A LA LOCALISATION DES JONCTIONS. 74
FIGURE 4.7. DESCRIPTION DETAILLEE D’UNE SILHOUETTE DE LA MAIN [DAHMANI & LARABI 2011]. ................. 75
FIGURE 4.8 PRISE EN COMPTE DES ROTATIONS DE LA MAIN DE : 0°,90° 180°ET 270°. ........................................ 76
FIGURE 4.9 (A) MAUVAISE DETECTION DES POINTS DE COURBURES ET DE LA COURBE DE JONCTION CJ1,
APPLICATION DE L’ALGORITHME DE FITZGIBON ET DETERMINATION DE L’ELLIPSE. (B) RESOLUTION DU
PROBLEME PAR LE REDRESSEMENT DE LA MAIN DE L’ANGLE DE L’AXE PRINCIPAL DE L’ELLIPSE ET
DETERMINATION DE LA COURBE CJ1. ................................................................................................................... 76
FIGURE 4.10 UTILITE DES CONTOURS INTERNES : (A,D) IMAGES DE LETTRES (‘HE’ ET ‘SAD’ ET ‘DHAL’ ET ‘DAL’)
DE ARSL. (B,E) CONTOURS EXTERNES, ET (C,F) CONTOURS INTERNES ET EXTERNES. .......................................... 82
FIGURE 4.11 EXEMPLE DE FAIBLE CHANGEMENT DE CONTOURS, LETTRES ‘JIEM’ ET ‘HA’ DANS ARSL. .............. 84
FIGURE 4.12 (A) ENVELOPPE CONVEXE D’UNE FORME DE LA MAIN.(B) LETTRES ’AYN’ ET ‘TA’ DE L’ARSL. ........ 85
FIGURE 5.1 (A) ALPHABET DE L’ARSL. (B LES DIFFERENTES REALISATIONS DE LA LETTRE ‘SAD’.(C) LES
DIFFERENTS FONDS UTILISES ................................................................................................................................ 91
FIGURE 5.2 LES 10 POSTURES DE LA BASE DE TRIESCH ......................................................................................... 92
FIGURE 5.3. EN HAUT : IMAGES DE LA MAIN AVEC DIFFERENTS TYPES D’ECLAIRAGES, EN BAS : RESULTATS DE
SEGMENTATION .................................................................................................................................................... 93
FIGURE 5.4 EFFET DE L’OMBRE DE LA MAIN SUR ELLE-MEME (LES PIXELS BLANCS SONT CLASSIFIEES NON PEAU,
MAL CLASSIFIES) .................................................................................................................................................... 94
FIGURE 5.5 RESULTATS DE SEGMENTATION AVEC DIFFERENTS FONDS. .............................................................. 94
FIGURE 5.6. (A) IMAGES DE LA MAIN SUR UN FOND BOIS (B) SEGMENTATION PAR LA METHODE PROPOSEE. .. 95
FIGURE 5.7 (A GAUCHE) PROCEDURE DE RECADRAGE DU POIGNET : L’IMAGE SEGMENTEE DE LA MAIN AVEC LE
BRAS, (AU CENTRE) PROCEDURE DU RECADRAGE EN UTILISANT L’AXE PRINCIPAL DE L’ELLIPSE POUR
L’ORIENTATION ET LA LARGEUR DU CONTOUR (A DROITE) IMAGE DE LA MAIN OBTENUE PAR LE RECADRAGE
DU POIGNET. ......................................................................................................................................................... 96
FIGURE 5.8 (A) EXTRACTION DU CONTOUR DE LA LETTRE ‘WAW’ DE L’ALPHABET ARSL DE GAUCHE A DROITE :
IMAGE ORIGINALE- IMAGE SEGMENTEE –BINARISATION- EXTRACTION DU CONTOUR. (B) EXTRACTION DU
CONTOUR DE LA LETTRE G DE LA BASE DE JOCHEN-TRIESCH DE GAUCHE A DROITE DE HAUT EN BAS : IMAGE
ORIGINALE- EGALISATION D’HISTOGRAMME ET FILTARGE GAUSSIEN- BINARISATION- EROSION- DILATATION,
EXTRACTION DE CONTOUR. .................................................................................................................................. 97
FIGURE 5.9. EXTRACTION DES CONTOURS INTERNES DE LA LETTRE V DE LA BASE STATIQUE DE JOCHEN-
TRIESCH ................................................................................................................................................................. 98
FIGURE 5.10 12 LETTRES DE L’ARSL RECONNUES: ALEF, BA , TA , THA, SHIEN, SAD, DHAD, LAM, MIEM, YA, LA, ET
T. ......................................................................................................................................................................... 100
FIGURE 5.11 POSTURES PRISES SOUS DIFFERENTS ANGLES. ............................................................................. 100
FIGURE 5.12 LES CHIFFRES RECONNUES PAR UNE WEB CAM EN TEMPS REEL .................................................. 102
FIGURE 5.13 RECONNAISSANCE DE CERTAINS GESTES DE L’IHM GESTUELLE EN TEMPS REEL. ......................... 104
FIGURE 5.14 EFFET DE L’ORDRE DES MOMENTS DE TCHEBICHEF SUR LA RECONNAISSANCE ........................... 105
FIGURE 5.15 TAUX DE RECONNAISSANCE POUR : (A) LETTRES A, B, C, D, G, L, V ET Y. DE LA BASE DE TRIESCH. (B)
LETTRES ‘SAD’, ‘HE’, ‘DAL’, ET DHAL DE L’ALPHABET ARSL. ............................................................................... 107
FIGURE 5.16. TAUX DE RECONNAISSANCE OBTENUS POUR : (A) BASE DE SIGNES ARSL (B) BASE DE TRIESCH
FOND CLAIR, (C) BASE DE TRIESCH FOND SOMBRE. ........................................................................................... 108
FIGURE A.1 REPRESENTATION D’UN NEURONE DE BASE DANS UN MLP ........................................................... 120
FIGURE A.2 SCHEMA D’UN RESEAU (FEED FORWARD) AVEC UNE SEULE COUCHE CACHEE [HASTIE ET AL.2008].
............................................................................................................................................................................ 121
FIGURE A.3 PRINCIPE DE LA CLASSIFICATION PAR UN KNN. LA DISTANCE EUCLIDIENNE EST UTILISEE. ........... 123
FIGURE A.4 LA SEPARATION DES DONNEES EN SVM ......................................................................................... 125
FIGURE A.5 SEPARATEUR LINEAIRE ET NON-LINEAIRE [HASTIE ET AL 2008]. ..................................................... 126
FIGURE A.6 SEPARATION DE DEUX CLASSES AVEC SVM A BASE RADIALE [CORNUEGOLS & MICLET, 2002]. ..... 127
Tables
TABLE1.1 RESULTATS DE QUELQUES METHODES DE SEGMENTATION DE LA PEAU ........................... 24
TABLE 4.1 EXEMPLES DE CONFIGURATIONS DOIGTS CITEES DANS L’ALGORITHME .......................... 77
TABLE 5.1 RECONNAISSANCE DES CONFIGURATIONS DOIGTS PAR LA METHODE SYNTAXIQUE. ....... 99
TABLE 5.2 TAUX DE RECONNAISSANCE PAR LE CLASSIFICATEUR SVM. ............................................ 110
TABLE 5.3. LES TAUX DE RECONNAISSANCE OBTENUS POUR LA BASE ARSL SUR DES FONDS
COMPLEXES. ................................................................................................................................................. 111
TABLE 5.4. COMPARAISON AVEC LES METHODES EXISTANTES(BASE TRIESCH) ............................... 111
TABLE5.5. COMPARAISON AVEC LES METHODES EXISTANTES(BASE ARSL)……………………………………112
Introduction generale
I.1 Préambule
Les interfaces homme-machine ont évolué des interfaces basées sur le texte, aux
interfaces graphiques 2D, aux interfaces multimédias, à des interfaces multimodales
regroupant plusieurs moyens de communication entre l’homme et la machine dans un
environnement intelligent à part entière. Le développement de cette dernière catégorie
d’interfaces a offert un nouveau paradigme sophistiqué pour la communication,
l’apprentissage, l’enseignement, et autres. Les interfaces homme machines multimodales ont
aussi invoqué plusieurs défis dans la recherche, tout en excluant des traditionnels outils 2D
comme le clavier ou la souris, qui sont devenus inadéquats pour les environnements
intelligents aux quels l’homme espère aboutir. D’autre part ces interfaces ont offert
l’opportunité d’intégrer les différentes modalités de communication, et les technologies de
détection tout en donnant à l’utilisateur une expérience immersive [Turk2001][Pavlovik et
al. 1999]. La détection de la direction du regard, la reconnaissance de la parole, des
expressions faciales, de la gestuelle de la main, et du sens tactile, ainsi que tout autre aspect
du potentiel humain qui peut être utilisé pour interagir avec la machine en sont des exemples.
Pour aboutir à une interaction naturelle entre l’homme et la machine, la main peut être
utilisée comme un outil d’interface. La gestuelle de la main est un canal de communication
très puissant entre les hommes, qui transmet la plus grande partie d’informations dans notre
vie quotidienne. Les gestes de la main sont très faciles et intuitifs, nous pouvons bien le
constater dans les langues des signes du monde entier. Même chez des hommes qui ne
souffrent pas de problèmes d’audition, le geste peut palier souvent à la parole.
Cette capacité d’expression très importante n’a pas encore été exploitée suffisamment
pour interagir avec la machine. Comparée aux outils traditionnels, la main est un outil moins
intrusif et plus convenable pour l’utilisateur dans des environnements virtuels ou intelligents
[Wu & Huang 2001]. La reconnaissance automatique de la gestuelle de la main peut être
utilisée dans une multitude d’applications dont nous pouvons citer : les différents aspects des
langues des signes, la manipulation d’objets, le control d’électroménagers, télémanipulation
robot, environnement virtuels etc.
Introduction générale
Au début des travaux de recherches consacrés à cette thématique, la main a été munie
de gants instrumentés comme les gants cybernétiques (voir figure i.1), qui ont été utilisés pour
capturer le mouvement de la main. Ces gants sont dotés de traqueurs qui sont en général des
capteurs supplémentaires (de type magnétique ou acoustique) attachés au dos de la main ou
au-dessus du poignet et qui fournissent des données sur la position et l’orientation de la main
ainsi que les angles de jointures. Cependant les gants instrumentés nécessitent des câblages et
restent donc très encombrants pour l’utilisateur et très chers pour un utilisateur ordinaire.
Plus tard et beaucoup plus récemment, les méthodes basées sur la vision par ordinateur
ont vu le jour en proposant une solution pratique qui a pu palier aux problèmes posés par les
gants instrumentés. Les systèmes de reconnaissance des gestes de la main s’appuyant sur la
vision par ordinateur peuvent identifier différents gestes de la main seulement à partir d’une
entrée vidéo et peuvent les utiliser comme des commandes que l’ordinateur peut comprendre
et y répondre [Geer 2004].
Figure I.1 : Exemple de gant cybernétique [Inition].
Avec pour seul dispositif d’entrée la caméra, les systèmes de reconnaissances des
gestes et postures de la main basés sur la vision sont les mieux adaptés pour une interaction
homme machine efficace et légère dans un environnement intelligent.
Au début de leurs apparition les systèmes de reconnaissance des gestes de la main
fondés sur la vision ont fait recours aux marqueurs ou aux gants colorés, mais plus récemment
la majorité de ces systèmes ont développé des méthodes pour la détection et le suivi de la
main ne faisant intervenir aucun artifice.
p. 2
I.2 Problématique
Les méthodes de reconnaissance des gestes de la main s’appuyant sur la vision par
ordinateur ont soulevé beaucoup de défis dans le monde de la recherche, cela est
principalement dû à la difficulté que peut poser un tel problème. Parmi les différentes
difficultés rencontrées on peut citer :
1. L’extraction de la main de son fond : dans une scène réelle on essaye de capter la
main sans aucune information préalable sur l’éclairage, les couleurs, ou encore sur
les objets l’entourant. De plus la main projette une ombre dans la scène, même si la
luminosité est contrôlée. Les ombres sont parfois segmentées avec la main, suivant la
méthode utilisée, ce qui rend le résultat de la segmentation difficilement exploitable.
2. Le système doit être aussi robuste aux changements de la prise de vue et de la
position de la main dans l’image, selon des rotations planaires et non planaires
surtout dans les cas des systèmes monoculaires.
3. L’indépendance des utilisateurs est un autre défi à relever, car la précision des
résultats obtenus dans la reconnaissance ainsi que leur fidélité peuvent être
facilement influencées par les sujets qu’on a utilisés pour faire l’apprentissage du
système. Un système fiable de reconnaissance des gestes et postures de la main doit
être capable d’aboutir à une reconnaissance convenable indépendamment des
personnes testées. Cette difficulté est due à l’anatomie particulière de la main de
chaque individu, ce qui permet à des chercheurs dans le domaine de la biométrie
d’identifier une personne à travers uniquement la forme de sa main.
4. L’auto-occultation de la main, étant un objet très déformable, il arrive fréquemment
que certaines parties, telles que les doigts, soient cachées par d'autres.
5. La séparation de la main du bras, le bras peut être source d’ambiguïté pour la
description d’une posture ou d’un geste donnés de la main.
6. Le temps réel est une contrainte supplémentaire au problème de la reconnaissance
des postures et gestes de la main. Le système doit être capable d’analyser une image
dans une séquence vidéo et de retourner le geste reconnu selon la finalité de
l’interface homme machine utilisée.
7. Le mouvement rapide de la main, le changement de position d’orientation et
carrément de forme dans un laps de temps très court.
p. 3
8. Un bon système de reconnaissance des gestes de la main doit tolérer quelques

imperfections dues à l’anatomie très déformable de la main tout en gardant un bon
taux de reconnaissance en distinguant les gestes de la main qui ont des significations
différentes.
Dans le cadre de cette thèse, nous nous sommes intéressés particulièrement à proposer
des solutions à certains problèmes comme le problème de la segmentation qui affecte
beaucoup le taux de reconnaissance. Si on a une mauvaise extraction de la région de la main
dans l’image, donc une forme qui serait très difficile, voire impossible de faire correspondre à
une posture correcte de la main.
La majorité des travaux relatés dans la littérature contournent ce problème en fixant
des règles bien précises de fond, d’éclairage etc. Dans notre travail nous avons essayé de
concevoir une technique de segmentation qui peut aboutir à de bons résultats, en ayant une
variété de fonds et des conditions générales d’éclairage.
Le deuxième problème important auquel nous nous sommes intéressés est le problème
de l’indépendance des utilisateurs (user-Independent challenge). Là encore la majorité des
travaux dans la littérature obtiennent les meilleurs taux de reconnaissance sous le mode
utilisateur dépendant (user-dépendent mode). La solution que nous proposons à ce problème
est de sélectionner quelques descripteurs nous permettant de donner des informations
complémentaires sur la forme de la main et donc palier aux imperfections effectuées dans le
geste. Dans ce qui suit nous citons les différentes contributions de notre travail.
I.3 Contributions de la thèse
La première contribution de cette thèse consiste en l’élaboration d’une méthode de

segmentation de la main basée sur la couleur et la texture de la peau [Dahmani & Larabi,
2014]. Des attributs de couleur et de texture ont été utilisés pour entrainer un réseau de
neurones dont l’objectif est la classification des pixels peau dans une image. Cette méthode
s’est avérée très efficace pour l’extraction de la région de la main d’un fond complexe et dans
des conditions générales d’éclairage.
Pour décrire la forme de la main, de nombreuses méthodes de représentation de forme
2D ont été utilisées. Toutes ces représentations se basent essentiellement sur les images
segmentées, sur les images binaires ou les contours externes de la forme de la main, ou bien
encore sur des blobs de la silhouette de la main. Notre seconde contribution consiste en la
proposition d’une représentation de la forme de la main qui utilise les contours internes
p. 4
[Dahmani et al 2012]. Les moments de Tchebychev [Mukundan et al2001] qui ont été
jusque-là calculés à partir du contour externe de l’objet, de son image binaire, ou encore de
l’image en niveaux de gris, ont été calculés dans notre travail, en utilisant en addition au
contour externe, les contours internes de la main. Notre motivation a été basée sur le fait que
dans les gestes et particulièrement dans l’alphabet de la langue des signes, la personne essaye
de retranscrire la lettre écrite par la forme de la main et fait souvent recours aux doigts pour
donner la forme interne de la lettre permettant sa distinction. Nous avons montré dans le
travail de cette thèse que cette représentation donne un meilleur taux de reconnaissance et
diminue les confusions entre les signes à contours externes semblables.
La détermination de la configuration doigts, s’appuient sur un ensemble de
caractéristiques qui ne prennent pas en considération l’orientation de la main. Or dans la
langue des signes une orientation différente de la main signifie une lettre différente. Pour
pallier à ce problème, nous proposons un ensemble de descripteurs géométriques extraits de
l’enveloppe convexe englobant la silhouette de la main, qui donnent une information sur la
configuration des doigts tout en prenant en considération l’orientation de la main [Dahmani
et al 2012].
Un système de reconnaissance des gestes et postures de la main, doit être en mesure
d’aboutir à une reconnaissance correcte du geste indépendamment de la personne qui
l’effectue. Notre quatrième contribution consiste en la combinaison de plusieurs descripteurs
afin d’obtenir une reconnaissance fiable même avec une architecture à utilisateurs
indépendants [Dahmani et al 2012]. Cette combinaison a été motivée par la prévision que les
erreurs de classification peuvent être réduites si plusieurs descripteurs sont utilisés plutôt
qu’un seul [Last et al 2002]. Nous avons montré dans cette thèse que les descripteurs
proposés offrent des informations complémentaires et qu’il était nécessaire de les combiner
tous les trois afin d’obtenir un meilleur résultat.
La cinquième contribution consiste en la conception d’une nouvelle approche
syntaxique pour la description de certaines postures de la main, paume ou dos de la paume
face à la caméra [Dahmani & Larabi 2011]. Cette approche est assez prometteuse pour les
systèmes de reconnaissance de la gestuelle de la main, en temps réel.
p. 5
I.4 Organisation de la thèse
Ce manuscrit est organisé comme suit :

Dans la première partie du chapitre premier nous présentons l’objet de notre intérêt qui
est la main son anatomie, son anthropométrie, ainsi que sa biomécanique, la posture et le
geste de la main. Dans la seconde partie nous exposons un état de l’art sur les différents
systèmes existants dans la littérature traitant du problème de la reconnaissance des gestes et
postures de la main. Cet état de l’art recouvre les notions d’acquisition, de segmentation,
d’extraction de primitives pour finalement exposer les différents modèles mathématiques qui
ont été élaborés pour la classification.
Dans le deuxième chapitre de cette thèse, nous présentons la langue des signes et ses
composantes : la gestuelle du corps, la gestuelle des mains, et l’expression du visage. Nous
nous pencherons par la suite sur les difficultés qui peuvent être rencontrées lors de la
reconnaissance automatique de la langue des signes. Finalement nous aborderons une
synthèse des travaux relatés dans la littérature et destinés à la langue Arabe des signes.
Le troisième chapitre est dédié à notre méthode de localisation de la main dans
l’image.
Le quatrième chapitre est consacré au cœur de notre travail à savoir la sélection de
caractéristiques fiables pour la description et la reconnaissance des postures de la main. Pour
aboutir à notre objectif, deux différentes approches à savoir l’approche syntaxique et
statistique sont abordées. Nous allons expliquer comment à partir d’une étude approfondie de
certains descripteurs, nous avons pu élaborer ces deux méthodes de reconnaissance.
Ce dernier chapitre est dédié aux travaux de validation des approches proposées. Nous
commençons par présenter et discuter les résultats obtenus par la méthode de segmentation.
Par la suite les résultats de la méthode syntaxique seront exposés, avec une discussion sur sa
performance et ses limites. Les résultats de l’approche statistique sont ensuite présentés et
commentés.
Nous terminons cette thèse par une conclusion générale, en présentant un ensemble de
perspectives.
p. 6
Chapitre 1
Reconnaissance des gestes de la
main : Etat de l’art
1.1 Introduction
Avant de pouvoir parler des différents systèmes existants dans la littérature,

traitant du problème de la reconnaissance des gestes de la main, il est indispensable de
définir la notion de la gestuelle de la main. Dans la première partie de cet état de l’art,
nous nous intéressons à la biomécanique et à l’anatomie de la main ainsi qu’aux
différents mouvements que nous pouvons lui associer.
Dans la seconde partie de ce chapitre nous présentons les différents systèmes
basés sur la vision par ordinateur élaborés pour la reconnaissance des gestes de la main :
commençant par l’acquisition, passant par la segmentation de la main, ensuite par les
différentes descriptions de la forme et du mouvement qui ont été utilisées à cet effet.
Nous terminons par une synthèse des différents modèles mathématiques élaborés pour
la reconnaissance et la classification des gestes de la main.
1.2 La main : instrument de tous les instruments
Parmi les différentes parties du corps humain, la main est l’élément le plus
efficace, grâce à son habilité dans la communication et la manipulation des objets. Elle
est dotée d’une très grande richesse fonctionnelle qui lui procure une surabondance de
possibilités dans les positions, les mouvements et les actions. La surface du cerveau
humain utilisée pour le control du mouvement de la main à elle seule est aussi grande
que la surface totale utilisée pour le mouvement des bras, du torse, et du bas du corps
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
[Mitobe 2007]. Dans l’étude de M. Karam [Karam 2006], il a été démontré que la main
à elle seule occupe la plus grande partie de la gestuelle humaine (voir figure1.1). Dans
ce qui suivra nous allons présenter de manière plus détaillée son anatomie ainsi que sa
performante biomécanique.
1.2.1 Anatomie de la main
La main possède un grand nombre de petits os qui s’articulent les uns aux autres,
c’est ce qu’il lui permet d’avoir une complexité fonctionnelle très importante.
Figure 1.1 Graphe représentant les différentes parties du corps humain et leurs taux
d’implication dans la gestuelle humaine [Karam, 2006].
Le carpe est constitué de 8 os qui sont répartis en deux rangées transverses de 4

os chacune: la première rangée s’articule avec les deux os de l’avant-bras, le radius et le
cubitus pour former le poignet. Dans la première rangée on trouve de l’extérieur à
l’intérieur: le scaphoïde, le semi lunaire, le pyramidal et le pisiforme.
La deuxième rangée s’articule en haut avec la première et en bas avec les
métacarpiens. Dans la deuxième rangée on trouve de l’extérieur à l’intérieur: le trapèze,
le trapézoïde, le grand os et l’os crochu.
Tous ces petits os carpiens sont mobiles les uns par rapport aux autres dans les
mouvements de la main ou du poignet et sont reliés par des petits ligaments très
complexes dont le plus important est le ligament scapho-lunaire.
p. 8
Les métacarpiens sont au nombre de 5 et s’articulent en haut avec la deuxième

rangée du carpe et en bas avec les premières phalanges.
Les phalanges sont au nombre de 14 avec trois phalanges par doigt sauf pour le
pouce qui n’en a que deux.
Entre les métacarpiens et la première phalange se trouve l’articulation
métacarpo-phalangienne et entre chaque phalange se trouve l’articulation inter-
phalangienne.
1.2.3 Anthropométrie de la main
L’anthropométrie est l’ensemble des techniques de mesure des proportions

morphologiques pratiquées sur le corps humain. Elle est utilisée essentiellement dans
l’ergonomie et la criminologie. Le mot vient du grec « anthropos » qui signifie homme
et « métron » qui signifie mesure. Pour la main il s’agit de calculer les différents
rapports de mesure entre la paume, les doigts et les phalanges. L’étude qui servi de
référence est celle faite par C. Wagner [Wagner 1988], psychologue de musique, qui a
élaboré un système anthropométrique de la main permettant de lui donner un profil
biomécanique très précis. L’étude a été réalisée sur un échantillon de 127 hommes âgés
de 17 à 63 ans et 111 femmes âgées de 16 à 64 ans, et repose sur 48 mesures
morphologiques. A partir de ces mesures, un certain nombre de contraintes
anthropométriques peuvent être déduites. Elles sont exprimées sous forme de relation
entre mesures et d’intervalles de valeurs possibles.
• Largeur de la paume/longueur de la main : 0.44 ± 0.007
• Longueur de la paume/longueur de la main : 0.496 ± 0.003
• Longueur de l’index/longueur de la main : 0.449 ± 0.002
• Longueur de majeur/longueur de la main : 0.512 ± 0.004
• Longueur de l’annulaire/longueur de la main : 0.494 ± 0.007
• Longueur 1ère phalange de l’index/longueur de la main : 0.245 ± 0.001
• Longueur 2ème phalange du majeur/longueur de la main : 0.170 ± 0.003

• Longueur 3ème phalange de l’auriculaire/longueur de la main : 0.107 ± 0.003
p. 9
1.2.3 Biomécanique de la main
En excluant les six degrés de liberté du poignet (trois translations et trois

rotations), la main possède 22 degrés de liberté propres. Le système moteur humain
possède en tout 100 degrés de liberté, donc les deux mains à elle toutes seules en
possèdent plus que la moitié (voir figure1.2).
Figure 1.2 Anatomie de la main
Les articulations inter phalangiennes (IPD et IPP) possèdent chacune un seul

degré de liberté (flexion/extension) et les articulations métacarpo-phalangiennes (MCP)
en possèdent deux (flexion/extension et abduction/adduction), exceptée celle du pouce
qui n’en possède qu’un (flexion/extension). Le pouce possède par contre une
articulation de plus, l’articulation carpo-métacarpienne (CMC), qui a trois degrés de
liberté flexion/extension, abduction/adduction et une pseudo-rotation due à
l'incongruité entre les os du carpe et la base du métacarpe du pouce, et au relâchement
des ligaments les reliant. Les mouvements des doigts de la main sont régis par des
contraintes biomécaniques qui font que certaines postures ne sont pas réalisables. Par
exemple, l’angle de flexion/extension des premières phalanges des quatre doigts est
compris entre 110°et 15°.
Ces contraintes sont statiques ou dynamiques. Les contraintes statiques
traduisent les limites des angles d'abduction/adduction ou de flexion/extension
p. 10
possibles des différentes articulations. La figure 1.3 illustre un exemple des angles
/ e ,  f / e et  f / e
flexion/extension  fIPD ainsi que l’angle abduction/adduction  aMCP
IPP MCP
/a et de
l’index.
Figure 1.3 Angles de flexion/extension et abduction/ adduction de l’index.
Les contraintes dynamiques représentent les interdépendances existant entre

les degrés de liberté des articulations des doigts.
Ceux des quatre doigts autres que le pouce sont :
• la relation entre les flexions de la phalangette et de la phalangine :
2
 fIPD
/e   fIPP
/e (1.1)
3
• l'interdépendance entre la flexion / extension et l'abduction / adduction de
chaque phalange. En effet, plus l'angle de flexion /extension est grand, plus l'abduction
ou l'adduction des doigts est limitée. La valeur maximale de l'angle d'abduction
/adduction de la phalange dans le cas où l'angle de flexion /extension n'est pas nul
est donnée par :
 1 
 aMCP  1  MCP  fMCP   aMCP (1.2)
/a    / e /a
 f / e max 
𝜃𝑓𝑀𝐶𝑃
⁄𝑒 𝑚𝑎𝑥 est la valeur maximale de l'angle de flexion / extension de la phalange.
p. 11
• la relation entre les flexions / extensions des phalanges de doigts voisins ; par
exemple, la flexion de la phalange de l'index ou de l'annulaire entraîne la flexion de la
phalange du majeur.
  fMCP Index  25


 MCP Annulaire 45 
/e
 fMCP
/e
Majeur
 max  f / e  (1.3)
  MCP Majeur 
 f / e m in 
𝑀𝐶𝑃 𝑀𝑎𝑗𝑒𝑢𝑟
𝜃𝑓⁄𝑒 𝑚𝑖𝑛 est la valeur minimale de l'angle de flexion/extension de la phalange
du majeur.
A cause de sa morphologie particulière, les mouvements du pouce sont soumis à
un ensemble de contraintes différentes. Ainsi, la flexion du pouce au niveau de
l'articulation carpo-métacarpienne est comprise entre – 80° et 25°. A celle-ci s'ajoutent
deux contraintes dynamiques reliant les flexions/extensions et les abductions/adductions
des deux premières articulations du pouce :
 7 CMC
 fMCP
/ e  2( f / e 
CMC
) ;  aMCP
/a  a / a (1.4)
6 5
1.2.4 Gestes et postures de la main
Dû au fait que la main possède un nombre de degrés de liberté très important, la

reconnaissance des gestes de la main devient un problème complexe. Pour mieux
comprendre les gestes et la motricité de la main, il est nécessaire de discerner deux
concepts :
Posture de la main : une posture de la main est une pose statique de la main
dans sa localisation courante sans aucune information sur le mouvement.
Geste de la main : un geste de la main est une séquence de postures connectées
par un mouvement de la main ou des doigts dans une petite période de temps.
p. 12
Une posture de la main est définie comme étant une pose statique de la main.
Par exemple former un v signe de victoire et le garder dans une certaine position est
considéré comme une posture de la main. Un geste de la main est défini comme un
mouvement dynamique comme un au revoir en agitant. Le mouvement dynamique de
la main comporte deux aspects : un mouvement global de la main et un mouvement
local des doigts [Lin et al 2000]. Le mouvement global de la main change la position
ou l’orientation de la main. Le mouvement local des doigts implique faire bouger les
doigts sans changer la position ou l’orientation de la main. Comparés aux postures de la
main, les gestes de la main peuvent être considérés comme étant un composé d’actions
de la main construites par une série de postures changeant d’orientation et de position.
Pour mieux illustrer la différence entre une posture et un geste de la main, un exemple
sur les signes ‘d’ et ‘z’ dans l’alphabet de la langue des signes Américaine (ASL) est
illustré par la figure1.4 [lin et al.2000].
Figure1.4 Signes ’d’ et ‘z’ dans l’ASL.
Avec ce niveau d’informations sur la main, le problème de la reconnaissance des

gestes et postures de la main est posé à la communauté scientifique.
1.3 Méthodologie de reconnaissance des gestes et
postures de la main en vision artificielle
Plusieurs méthodologies ont été proposées pour le développement d’un système

de reconnaissance des gestes et postures de la main basée sur la vision par ordinateur
[Freeman & Weissman 1995 ; Triesch & Von 2001 ; Yang et al 2002 ; Feris et al
p. 13
2004 ; Li & Wachs 2014]. La majorité de ces systèmes se composent de trois étapes
essentielles : l’acquisition, la détection, et la reconnaissance. La première étape qui est
nécessaire pour tout système de reconnaissance des gestes de la main est celle qui
consiste à collecter les données. La collecte des données dans les systèmes s’appuyant
sur la vision diffèrent dans le nombre et le type de caméras utilisées pour l’acquisition
de la vidéo. La seconde étape est la détection de la région représentant la main dans
l’image. La troisième partie concerne la reconnaissance et interprétation de la
sémantique de la position, la posture ou le geste de la main.
Dans ce qui suit, nous donnons un aperçu sur chaque étape et les différentes
approches et algorithmes de l’état de l’art en vue d’aboutir à un système complet de
reconnaissance des gestes basées sur la vision.
1.3.1 Collecte des données (Acquisition)
Tout système de reconnaissance des gestes et postures de la main passe par une
étape incontournable qui est la collecte des données, et ce quel que soit sa finalité
(langue des signes, jeux, control d’électroménager ou autre).
Cette collecte peut utiliser une caméra ou la combinaison de plusieurs caméras :
 Monoculaire [Zieren & Kraiss 2000].

 Stéréo où la profondeur peut être aussi calculée en utilisant deux caméras
stéréoscopiques comme cela a été présenté dans les travaux de S. Hong et
al. [Hong et al 2007] et R. Munoz- Salinas et al. [Munos et al 2008].
 Orthogonal comme dans le système de T. Straner et A. Pentland [Starner
& Pentland 1995] où la camera était en perspective orthogonale
relativement au sujet ou bien celui de C. Vogler et D. Metaxas [Vogler &
Metaxas 1998] où trois caméras ont été placées de manière orthogonale.
Parmi les systèmes proposés pour la collecte des données nous citons:
 Une seule caméra est utilisée avec une source de lumière calibrée pour
calculer la profondeur [Segen & Kumar 1999].
 Plusieurs sources de lumières pour éclairer la scène et la géométrie multi-
vue pour calculer la profondeur [Feris et al 2004].
p. 14
 Une caméra en face du sujet en jonction avec une autre caméra placée sur la
tête du sujet et pointée vers ses mains pour faciliter la reconnaissance (voir
figure 1.5) [Starner et al 1998].
Figure 1.5 Exemple de matériel utilisé pour la collecte de données [Starner et al 1998].
La figure 1.6 présente un exemple sur une série d’acquisition de gestes effectués
dans [Vogler & Metaxas 1998].
Plus récemment en novembre 2010 quand Microsoft a vulgarisé la vente de ‘la
camera Kinect’ (voir figure1.7), certains travaux sont en train de voir le jour pour
calculer la profondeur dans les systèmes de reconnaissance des gestes basées sur la
vision par ordinateur.
p. 15
Figure 1.6 Série d’acquisition des gestes ‘Pére’,’Je’ et’ Message’ de haut en bas par
trois caméras orthogonales [Vogler & Metaxas 1998].
Figure1.7 Kinect de Microsoft HD (Soft Kinect, 2012).
1.3.2 Détection et suivi de la main
Cette étape est une étape cruciale dans les systèmes de reconnaissance de gestes
de la main, car c’est sur la mesure de fiabilité de cette étape que nous pourrons aboutir
à une reconnaissance correcte ou erronée. Un très grand nombre de travaux ont été
proposés dans la littérature, qui utilisent une variété de primitives visuelles et dans
certains cas leurs combinaisons. Dans ce qui suit, nous présentons une synthèse des
p. 16
primitives les plus utilisées, à savoir : la couleur, la forme, l’intensité, le mouvement, le

modèle 3D et combinaison des primitives.
1.3.2.1 La couleur
La couleur de la peau a été largement utilisée pour extraire la région de la main.

Le choix de l’espace couleur est considéré comme la première étape pour toute
méthode de classification des pixels peau basée sur la couleur. L’espace couleur RGB
est l’espace couleur par défaut pour pratiquement tous les formats d’images. Tous les
autres espaces couleur peuvent être obtenus par des transformations linéaires ou non-
linéaires de l’espace RGB. La transformation est supposée diminuer l’ambiguïté entre
les pixels peau et les pixels non –peau et par conséquent aider à une meilleur
classification des pixels peau, et donc fournir une robustesse aux changements de
conditions d’éclairages.
a. Les espaces de couleur
Une variété d’espaces couleur ont été utilisés pour la détection de la peau, nous
citons les plus communs et leurs différentes utilisations dans la littérature.
 Les espaces couleur de base (RGB, RGB normalisé, CIE-XYZ)
RGB est l’espace couleur le plus utilisé correspondant aux couleurs primaires
rouge, vert et bleu. Il est appelé normalisé lorsque les trois couleurs sont normalisées
c'est-à-dire vérifiant R+G+B=1. Il a été prouvé que sous certaines conditions, les
différences entre les pixels peau dues au changement d’éclairage ou à l’ethnicité
peuvent être réduites dans l’espace RGB normalisé [Yang & Lu 1998 ; Yang &
Ahuja 1999]. Pour cette dernière raison, l’espace couleur RGB est devenu un choix
commun pour la détection des pixels peau et a été utilisé par de nombreux chercheurs
[Bergasa et al 2000 ;Brown et al 2001 ; Caetano & Barone 2001 ; Sebe et al 2004 ;
Soriano et al 2003].
La CIE (commission internationale de l’éclairage) a décrit la couleur en
utilisant la luminance Y, et deux autres composantes X et Z. Du fait que les valeurs de
CIE-XYZ ont été construites à partir d’expériences psychophysiques et correspondent à
p. 17
la vision humaine [Poynton], un certains nombres de chercheurs l’ont choisi dans leur
modélisation de la couleur [Chen & Chiang 1997; Wu et al 1999].
 Les espaces couleurs perceptuels (HSI, HSV, HSL et TSL)
Les primitives perceptuelles comme la teinte H, la saturation S et l’intensité I

(appelée aussi valeur, ou lumière) ne peuvent pas être représentées par une
transformation linéaire de RGB. La transformation de RGB vers HSV est invariante à la
haute intensité pour les lumières blanches, les lumières ambiantes et aux différentes
orientations de la surface par rapport à la source de la lumière et donc peut être un bon
choix pour la détection des pixels peau et c’est pour cette raison qu’il a été utilisé par
un nombre de chercheurs dont on cite : [Mc Kenna et al 1998 ; Thu et al 2002 ; Zhu
et al 2004].
Un autre espace couleur similaire, l’espace TSL défini par la teinte avec ajout
du blanc T, la saturation S, et la lumière L, il est basé sur un cercle chromatique qui a
l'avantage de présenter les teintes complémentaires dans l'ordre logique des couleurs
spectrales, ce qui amené certains chercheurs à l’utiliser comme modèle de présentation
de la couleur comme J.C Terrillon et al. [Terrillon et al 1998].
 Les espaces couleurs orthogonaux ( YC b Cr , YIQ, YUV, YES)
Les espaces couleur orthogonaux réduisent la redondance existant dans l’espace

RGB, et représentent la couleur avec des composantes indépendantes (aussi
indépendantes que possible). Dans l’espace YCbCr , où Y représente la luminance et
Cb , Cr la chrominance par rapport aux couleurs bleu et rouge respectivement. Vu la
simplicité de la transformation de l’espaceRGB vers L’espace YCbCr ainsi que

l’indépendance de ces composantes, qui réduit considérablement la redondance de
l’information figurant dans les autres espaces couleur, l’espace YCb C r a été utilisé dans
de nombreux travaux [Hsu et al 2002; Chai & Bouzerdoum 2000 ; Wong et al 2003].
Autres espaces couleur dans la même catégorie comme YIQ, YUV , et YES où Y
représente la luminance et les deux autres composantes la chrominance ont été aussi
utilisés pour la détection des pixels peau [Dai & Nakano 1996; Marques &
Vilaplana 2000 ; Gomez et al 2002]. Ces espaces ont été utilisés généralement pour
p. 18
répondre à un problème spécifique de la segmentation par exemple dans [Dai &

Nakano 1996] où le choix de l’espace YIQ a été justifié par le rapprochement entre la
couleur de la peau asiatique et la couleur orange qui est représenté par la composante I
dans l’espace YIQ.
Après le choix de la couleur à utiliser, la seconde étape consiste en la
classification. Différentes approches ont été suivies, nous exposons ci-après les
principales.
b. Méthodes de classification des pixels peau par la couleur :
Du point de vue classification, la détection des pixels peau peut être considérée
comme un problème à deux classes. Plusieurs approches ont été développées à cet effet,
nous citons :
 Méthodes par seuillage
L’une des méthodes les plus simples est la méthode de seuillage directe sur les
différentes composantes de l’espace couleur utilisé. Un ou plusieurs seuils sont définis
sur chaque composante et les pixels dont les valeurs sont inférieures à ce seuil sont
considérés comme des pixels peau. Parmi les travaux qui ont utilisé le seuillage directe
nous citons [Gomez & Morales 2002] [Fu et al 2004] [Priyal & Bora 2013].
 Histogramme et la classification de Bayes
Dans cette méthode un histogramme de couleur 2D ou 3D est utilisé pour

représenter la distribution des valeurs des pixels peau. Par la suite une distribution de
probabilités est calculée à partir de ces histogrammes, et donc une mesure de probabilité
naïve de Bayes qu’un pixel est peau est calculée. Dans cette approche aussi, un seuil de
décision est considéré [Jones & Rehg 2002] [schwerdt & Crowly 2000] [Sigal et al
2004].
 Classifieur Gaussien
Certains travaux se sont appuyés sur le fait que dans des conditions d’éclairage
bien précises, la couleur de la peau des différents individus varient dans une petite
région de l’espace, et donc peut être approchée par une gaussienne. Deux de types de
p. 19
modèles sont utilisé : le modèle SGM (Modèle Gaussien Simple) et le modèle GMM
(Modèle de Mélange Gaussien) [Jebara & pentland 1998 ;Cai& Goshtaby 1999 ].
La performance du modèle de mélange Gaussien GMM a été comparé au
modèle Gaussien simple SGM pour la classification des pixels peau dans les travaux de
T.S. Caetano et al. [Caetano et al 2002] et aussi dans ceux de J.Y. Lee et S.I. Yoo
[Lee & Yoo, 2002]. Les bases de test ont comporté une large variété ethnique de
peaux. Les résultats obtenus ont montré la supériorité des GMM particulièrement pour
le taux des vrais positifs (TVP).
 Perceptron multicouche (MLP)
Les perceptrons multicouches ont été largement utilisés dans la reconnaissance

des formes grâce à leurs capacités d’apprendre des données entrées-sorties très
complexes et leurs capacité de généralisation. Dans les méthodes MLP de classification
des pixels peau, un réseau de neurones est entrainé pour apprendre les distributions
conditionnelles des classes de pixels peau et des pixels non peau [Kakumanu et al
2007].
Plusieurs architectures de réseaux ont été appliqués citons par exemple : Feed
Forward à trois couches dans l’espace CIE-XY [Chen & Chiang 1997], Feed
Forward à trois couches dans l’espace RGB pour tester sur les images Web [Sahbi &
Boujemaa 2002], N. Razmjooy et al. [Razmjooy et al 2013] ont utilisé un Feed
Forward à trois couches dans l’espace couleur RGB hybride avec un algorithme
évolutionnaire compétitif impérialiste (ICA) récemment introduit par I. Atashpaz et
C. lucas [Atashpaz & lucas 2007].
Un bon classifieur des pixels peau, doit être capable de détecter différents types
de peau (noir, blanc, jaune, rouge etc…) sous différentes conditions d’éclairages et
dans différents fonds. Beaucoup de systèmes existants ne fonctionnent que sous
certaines conditions possibles ou pour un certain type de peau [Kakumanu et al
2007].
1.3.2.2 La forme
La forme de la main a été utilisée de plusieurs manières pour sa détection. Une

multitude d’informations peuvent être extraite à partir seulement du contour d’un objet.
p. 20
En général, dans ce type de méthodes, en plus des contours de la main, ceux des objets
d’arrière-plan non pertinents sont également détectés. Par conséquent, dans la majorité
des travaux, cet attribut est combiné avec d’autres tels que la couleur [Dai & Nakano
1996 ;Marques & Vilaplana 2000].
Parmi les descripteurs de forme proposés citons :
Le contexte de forme développé par S. Belongie et al. [Belongie et al 2002]. Il
permet la mise en correspondance entre deux formes en associant, à chaque point du
contour appelé point de référence, un descripteur défini par l’histogramme de
distribution des coordonnées polaires des autres points du contour relativement à ce
point de référence. Ce descripteur est appelé contexte de forme. Deux points
correspondants appartenant à deux formes différentes ont a priori le même contexte de
forme ce qui permet de considérer le problème de la mise en correspondance entre deux
formes comme un problème d’affectation optimale.
La forme 3d obtenue par stéréoscopie. L.Song et M.Takatsuka [Song &
Takatsuka 2005] ont pu détecter le bout du doigt de l’utilisateur dans les deux images
d’un système calibré, la détection des bouts des doigts a été effectué en utilisant un
codage de contour. La stéréo vision a été ensuite utilisée pour déterminer la position
3D du doigt dans l’espace ce qui a permis le suivi de la main. A. Argyros et M.
Lourakis [Argyros & Lourakis 2006] ont eux aussi utilisé l’information
stéréoscopique pour estimer la position 3D du centre de la main et des bouts des doigts
ce qui leur a permis de faire la reconnaissance mais aussi la reconstruction 3D du
contour ainsi que la détection et le suivi de la main
1.3.2.3 Intensité des pixels ( Apparence)
Un intérêt a été porté sur la détection de la main moyennant les images à niveaux
de gris, les primitives d’apparence ou de texture. L’apparence a été largement utilisé
comme attribut pour la détection de la main dans l’image [Cui et al 1995; Cui et al
1996 ; Triesch & Von 1996 ;Triesch & Von 1998].
Y. Cui et al [ Cui et al 1995 ; Cui et al 1996] ont calculé un ensemble de
primitives pertinentes directement de l’image en niveaux de gris en utilisant les
méthodes d’analyse discriminatoire des données à savoir la MDF (les plus
discriminantes primitives) et la MDE (les plus expressives primitives).
p. 21
J. Triesch et C. Von Der Malsburg [Treisch & Von 1996 ;Treisch & Von
1998 ; Triesch &Von 2001 ; Triesch & Von 2002] ont représenté les postures de la
main par un graphe étiqueté muni d’une structure topologique à deux dimensions. Les
sommets du graphe ont été étiquetés par une description locale de la texture de l’image
appelée ‘jet’. Les arrêtes du graphe sont étiquetées par la distance. Les jets représente la
texture et sont calculés à partie de la transformée en ondelette estimée avec un noyau
complexe du filtre de Gabor. Pour chaque posture prototype, un graphe est construit
manuellement en se basant sur les régions de la main fortement texturées afin de créer
un ensemble de graphes modèles. Pour la détection et la classification des postures de la
main sur des fonds complexes, la méthode de l’appariement élastique des graphes a été
utilisée.
P. Viola et M. jones [Viola & Jones 2001] ont employé le concept de l’image
intégrale en niveaux de gris pour calculer un ensemble de caractéristiques de Haar. Les
auteurs ont introduit par la même occasion une méthode de classification très
intéressante basée sur une approche d’apprentissage automatique appelé le boosting ,
pouvant améliorer l’efficacité de n’importe quel algorithme d’apprentissage. Elle est
fondée sur le principe [Schapire 2002] qu’un classifieur ‘fort’ peut être la combinaison
linéaire de classifieurs moins fort ou plus faible que lui. Cependant cela peut engendrer
un nombre important de faibles classifieurs qui pourraient ne pas améliorer le résultat
final. Afin de palier à ce problème, S. Li et H. Zhang [Li & Zhang 2004] ont amélioré
l’algorithme original du boosting en supprimant à chaque fois les classificateurs faibles
qui n’améliorent pas le résultat tout en gardant le même contexte que dans [Viola &
Jones 2001] selon lequel le descripteur final peut être représenté par une cascade de
couches de classifieurs forts.
1.3.2.4 Le mouvement
Le mouvement est un moyen peu utilisé par les chercheurs dans la détection de
la main. Ceci a pour raison que la détection du mouvement de la main exige que le seul
élément en mouvement dans l’image soit la main et que le fond soit fixe ainsi que la
tête et le torse. Parmi les travaux ayant adopté cette contrainte, nous citons [Freeman
& Weismann 1995] [Cui & Weng 1996] [Cui & Weng 2000] [Huang & Jeng 2001]
.Une autre contrainte couramment utilisée est que la main soit constamment en
p. 22
mouvement comme par exemple les travaux de Q. F.Chen et al. [Chen et al 2003] et
C-L Huang et al. [Huang et al 2000].
1.3.2.5 Le modèle 3D
Différemment aux approches par apparence citées précédemment, il existe une

catégorie d’approches qui utilisent le modèle 3D pour la détection de la main. L’objectif
de ce type d’approches est d’essayer de construire un modèle aussi fidèle que possible et
l’ajuster sur la forme au fur et à mesure que cette dernière effectue des mouvements.
Pour construire cet ajustement, un recours est fait aux primitives de type lignes et points
pour couvrir les angles des articulations de la main. Des modèles ont été proposés dans
la littérature [Rehg & Kanade 1995][Heap & Hogg 1996][Wu & al 2001]. Cependant
l’évaluation des paramètres du modèle est généralement difficile et coûteuse en temps
de calcul.
1.3.2.6 Combinaison des primitives
Les attributs présentés ont été combinés avec d’autres primitives visuelles. A
titre d’exemple, M. Turk [Turk 1998], J. Martin et al. [Martin et al 1998], Q.Yuan et
al.[Yuan et al 2005]ont combiné le mouvement estimé par l’algorithme du flot
optique avec la couleur pour la détection et le suivi de la main. J. Zieren et al [Zieren
et al 2002]sont parvenus à détecter et suivre les deux mains et le visage dans des
séquences vidéo de 152 signes de la langue des signes Allemande. La méthode est basée
sur un raisonnement probabilistique et un ensemble de primitives comme les positions
relatives des deux mains, la couleur, et le suivi par le filtre de Kalman.
Avec la grande difficulté que posent la détection et le suivi de la main, beaucoup
de travaux utilisent un arrière-plan simple, citant à titre d’exemples [Bauer & Kraiss
2002 ;Huang & Huang 1998 ; Yang et al 2002 ; Pryal & Bora 2013].
Le tableau 1.1 présente quelques résultats récents extraits de travaux de l’état de
l’art de segmentation des pixels peau.
p. 23
Table1.1 Résultats de quelques méthodes de segmentation de la peau
Méthode Processus de Segmentation Référence

Combinaison de
L’espace YC b C r
avec l’espace
[Pryal & Bora 2013]

YUV par la
méthode de (Teng
et al. 2005).
Soustraction de
fond, ensuite
détection des
pixels peau en
utilisant le
[Wang et al 2013]
seuillage dans
l’espace YC b C r
[Altun & Albayrak
Seuillage simple
dans l’espace
couleur YC b C r .
2011]
p. 24
La méthode de
Lucas-Kanade
[Premaratne et al
pour la
segmentation
2013]
Segmentation par
les courbes b-
[Kim et al 2008]
splines dans
l’espace HSV
1.3.3 Extraction de primitives
Les techniques de la reconnaissance des gestes de la main basées sur la vision

peuvent être scindée en deux familles : celles basées sur l’apparence et celles basées sur
les modèles 3D (voir figure1.8). Pour les deux approches, la tâche requise est la
reconnaissance d’une posture, d’un signe, ou d’un geste de la main. Plus le vocabulaire
à reconnaitre est riche, plus la tâche sera difficile.
La reconnaissance des postures de la main est un sujet de grand intérêt en soit, à
cause de la langue des signes et constitue une étape de base pour un nombre de
techniques de la reconnaissance des gestes qui traitent le geste comme une série de
postures.
Dans ce qui suit nous présentons les différentes techniques de reconnaissance
employées pour la reconnaissance des postures et des gestes de la main.
p. 25
Figure1.8 Représentation du geste d’après Bourke et al. [Bourke et al 2007].
1.3.3.1 Méthodes par apparence
La mise en correspondance (Template Matching) :
La mise en correspondance est une technique fondamentale dans la

reconnaissance des formes. Elle a été utilisée pour la reconnaissance du geste et de la
posture de la main. Dans le contexte image, la mise en correspondance consiste à
comparer, pixel par pixel, l’image requête avec l’image prototype. Pour la
reconnaissance des postures de la main cela revient à comparer l’image détectée de la
main avec l’image de la main prototype. Cette approche est la plus ancienne dans le
domaine [Freeman & Weismann 1995].
Pour faire face aux problèmes de changement d’orientation et d’échelles, des
méthodes invariantes aux changements d’échelle et à la rotation ont été proposées.
Dans [Birk et al 1997] la normalisation par rapport à la rotation s’est effectuée
moyennant la détection de l’axe principal de la main et pour la normalisation par
rapport au changement d’échelle les dimensions de la main dans l’image ont été
utilisées.
Dans d’autres travaux le problème de l’invariance à la rotation et au changement
d’échelle a été résolu par l’utilisation d’un ensemble de vues multiples [Darrell &
Pentland 1993]. Pour remédier au coup de calcul très élevé dû à la comparaison des
p. 26
vues multiples, cette dernière méthode a été améliorée en rajoutant des paramètres
d’orientation [Fillbrandt et al 2003]. Dans ce cas les comparaisons se font seulement
avec les images de postures prototypes qui ont été jugées pertinentes dans la précédente
mise en correspondance.
Pour généraliser la méthode de la mise en correspondance pour une séquence
d’images correspondant à un geste, certains travaux l’ont tout simplement adaptée pour
chaque frame de la vidéo [Darrell & Pentland 1995; Darrell et al 1996], alors que
d’autres ont utilisé une méthode s’appuyant sur l’historique du geste calculé appelé
gradient historique « History gradient »[Bradski & Davis 2000 ; Bradski & Davis
2002]. Dans un travail similaire de Q. yang et al. [Yang et al 2002] un réseau de
neurones a été utilisé pour apprendre les modèles de mouvements.
Méthodes basées sur l’analyse en composantes principales(ACP)
L’analyse en composantes principales a été directement utilisée pour la

reconnaissance des postures de la main. Cependant elle a aussi simplifié beaucoup de
problèmes liés à la reconnaissance des gestes de la main. Cette méthode est une
méthode de la statistique multi-variée. Elle consiste à transformer un ensemble de
variables corrélées en un ensemble de variables indépendantes qu’on appelle les
composantes principales. Il s’agit d’une méthode à la fois géométrique (changement
d’espace de représentation) et statistique (recherche d’axes indépendants représentant la
variance des données). Elle a la propriété de compression des données en gardant
seulement les composantes principales à N valeurs propres.
En reconnaissance des postures de la main, l’ACP a été largement utilisée [Cui
et al 1995; Birk et al 1997; Cui & Weng 1996; Bowden & Sharadi 2002; Kelly et
al 2010]. Plusieurs attributs ont été utilisés: les niveaux de gris de l’image entière de la
main [Cui et al 1995 ; Birk et al 1997], les points du contour de la main [Bowden &
Sharadi, 2002], La fonction de taille qui est une application de R 2  N générée à
partir d’une fonction de mesure  définie sur les points du contour, mais qui est
représentée seulement sur la région de R 2 vérifiant Min  x  y  Max , cette région

est partagée en classes de valeurs de la fonction de taille sur chaque sous-région, D.
kelly et al. [Kelly et al 2010] appliquent l’ACP sur cette région afin de réduire l’espace
de données ensuite l’utilisent comme descripteur des postures de la main.
p. 27
Méthodes basées sur les primitives extraites de la forme de la main
Des primitives reliées à la forme de la main et de son orientation sont utilisées

dans ce type de méthodes. C’est un type d’approches qui conceptuellement peuvent être
catégorisées avec les méthodes de mises en correspondance dans le sens où nous
comparons des images requêtes à des images prototypes. Mais la représentation des
images dans ce cas n’est pas l’image toute entière mais des primitives extraites de la
forme de la main dans l’image. Ces méthodes ont été surtout utilisées pour la
reconnaissance de l’épellation digitale de la langue des signes ou dans la classification
des formes de la main. La caractéristique le plus communément utilisée est le centre de
gravité de l’enveloppe englobant la main. Ces caractéristiques sont extraites à partir
des images segmentées de la main, des images binaires ou images blobs de la main, ou
encore des contours de la main [Ong & Ranganath 2005]. Pour les images
segmentées, on passe effectue d’abord par une normalisation, suivie d’une réduction en
utilisant l’ACP [Birk et al 1997; Deng et Tsui 2002; Imagawa 2000 ; Wu & Huang
2001].
Parmi les primitives utilisées citons :
 Moments géométriques ont été calculés à partir de blobs de l’image de la main.

[Starner et al 1998][Tanibata et al 2002]
 Tailles, distances, angles entre des doigts colorés distinctement, la paume et le dos
de la main [Assan & Grobel 1997, Bauer & Kraiss 2001].
 Représentations basées sur le contour qui comportent des descripteurs invariants
aux translations, changements d’échelle et rotations citant par exemple le
descripteur de Fourier a été utilisé dans beaucoup de travaux traitant de la
gestuelle de la main [Chen et al 2003 ; Sweeney & Downton 1996].
 Fonction de taille [Uras & Veri 1995] qui est un descripteur métrique et
topologique qui a été conçu et utilisé pour la reconnaissance de l’alphabet de la
langue des signes [Handouyahia et al 1999 ; Kelly et al 2010].
 Longueurs des vecteurs séparant le centre de gravité de la main aux bouts des
doigts [Al-Jarrah & Halawani 2001].
p. 28
 Modèle actif de forme pour représenter les contours de la main et distance de

Hausdorff modifiée pour faire l’appariement [Huang & Jeng 2001 ;Cootes et al
1995].
 Les moments aussi ont été utilisés comme descripteur globaux dans la
représentation de la forme de la main : moments de Zernike [Ng &
Ranganath 2000], moments de Zernike et les moments Pseudo-Zernike pour
classifier 11 postures [Gu & Su 2008]. Plus récemment S.P. Pryal et P.K. Bora
[Pryal & Bora 2013] ont utilisé les moments de Krawtchouk pour reconnaitre 10
postures de la main.
1.3.3.2 Méthodes basées sur les modèles 3D
Ces systèmes utilisent un modèle 3D de la main et tentent de faire correspondre

ce modèle avec l’image observée. Deux approches sont possibles :
 Estimation du modèle puis sa mise en correspondance avec l’image.

 Extraction de caractéristiques puis l’estimation du modèle.
Ces systèmes permettent d’évaluer les angles des articulations de la main. Ils
fournissent donc une information très complète sur le geste effectué. Mais l’évaluation
des paramètres du modèle est généralement difficile et coûteuse en temps de calcul.
Un exemple d’un modèle 3D développé par T. Heap et D. Hogg [Heap & Hogg
1996] est représenté dans la figure1.9. La construction de ce modèle est basée sur les
contours actifs.
p. 29
Figure 1.9 Exemple d’un model 3D de la main [Heap& Hogg 1996]
 C.Tomasi et al. [Tomasi et al 2003] ont développé un modèle de la main 3D qui

peut représenter la forme et les articulations de la main. Le modèle 3D peut être
animé à l’aide de paramètres sur la pose de la main et les angles d’articulations.
Dans leurs expérimentations 15 vues pour chacun des 24 signes de la main ont été
utilisées. Pour alléger l’espace de recherche qui est très large dans ce type de
méthodes Y. Wu et al [Wu et al 2005] ont proposé le découplage de la pose de la
main ainsi que les articulations des doigts et de les intégrer dans un processus
itératif. Dans leurs implémentations, les gestes sont effectués sur un fond clair et
face à la caméra. De plus le système nécessite une calibration du modèle faite
manuellement.
 V. Athistos et S. Sclaroff [Athitsos & Sclaroff 2003] ont proposé une méthode
qui permet de générer un ensemble de modèles que pourrait correspondre à une
image requête donnée (voir figure1.10).
p. 30
Figure 1.10 Modèles 3D générés d’après [Athistos & Sclaroff, 2003].
Pour surmonter le problème de complexité dans ce type de méthode qui est dû

principalement au degré de liberté élevé et des différents points de vue, A. Imai et al.
[Imai et al 2004] ont proposé une approche par apparence 2D utilisant les contours et
qui permet d’estimer la posture 3D de la main (voir figure1.11)
Figure 1.11 Modèles 2D à partir des contours d’après [Imai et al 2004].
p. 31
1.3.4 Méthodes de classification dans les systèmes de

reconnaissance des gestes et postures de la main
Après l’étape de la représentation, et une fois que les données ont été collectées,
la classification reste à accomplir. Pour ce faire, plusieurs méthodes ont été proposées,
certaines s’appuient sur la construction de modèle, d’autres s’appliquent directement sur
les données.
1.3.4.1 Le Modèle de Markov caché HMM (Hidden Markov Model)
Le but des Modèles de Markov Cachés (HMM) est d’estimer la probabilité

qu’une séquence d’observations ait été émise par un modèle. Un HMM est un processus
doublement stochastique (Qt, Qt) avec un nombre N d’états fini. Le processus Qt n’est
pas directement observable il est donc dit caché d’où le terme : Modèles de Markov
cachés. Le changement d’état de processus Qt suit une loi de transition en émettant des
symboles discrets Qt.
Le processus Qt est une chaine de Markov de premier ordre (En d’autre terme,
l’évolution du système entre deux instants t et t+1 ne dépend que de l’état de ce système
au temps t).
Les modèles de Markov cachés sont massivement utilisés notamment en
reconnaissance de formes, en intelligence artificielle ou encore en traitement
automatique du langage naturel.
En reconnaissance des gestes de la main, de nombreux travaux se basant sur les
HMM ont été développés [Vogler & Metaxas 2003 ; Yuan et al 2005 ; Al-Roussan et
al 2009].
1.3.4.2 Les machines à vecteur de support (SVM)
Les machines à vecteurs de support (ou séparateurs à vaste marge) introduite par
Vapnik [Vapnik 1995] sont un ensemble de techniques d'apprentissage supervisées
destinées à résoudre des problèmes de discrimination et de régression. Les SVM sont
une généralisation des classificateurs linéaires. Selon les données, la performance des
machines à vecteurs de support est de même ordre, ou même supérieure, à celle d'un
réseau de neurones ou d'un modèle de mixture gaussienne. Ces dernières années
p. 32
beaucoup de travaux dans la reconnaissance des gestes et postures de la main ont utilisé
les SVM comme technique de classification [Kelly et al 2010 ;Premartne et al
2013] .
1.3.4.3 Les réseaux de neurones
Les réseaux de neurones sont composés d’éléments simples (ou neurones)

fonctionnant en parallèle. Ces éléments ont été schématiquement inspirés par le
système nerveux biologique. Comme dans la nature, le fonctionnement du réseau de
neurones est fortement influencé par la connections des éléments entre eux, on peut
entraîner un réseau de neurones pour une tâche spécifique en ajustant les valeurs des
connections (ou poids) entre les éléments (neurones).
Les connexions entre les neurones, propagent l’activité des neurones avec une
pondération caractéristique de la connexion qu’on appelle poids. Plusieurs systèmes de
reconnaissance des gestes et postures de la main ont utilisé les réseaux perceptrons
multi couches [Gao et al 2000 ; Handouyahia et al 1999 ; Murakami & Tagushi
1991 ; Karami et al 2011 ; Premaratne et al 2013].
M.B. Waldron et S. Kim [Waldron & Kim, 1995] et P. Vamplew et
A.Adams[Vamplew & Adams 1998] ont utilisé les données fournies par un traqueur
placé sur un gant instrumenté pour classifier des postures de la main. D’autres
variantes des réseaux de neurones multicouches ont été aussi utilisées pour la
classification des gestes et postures de la main, on peut en citer les réseaux flous Min-
Max introduits par P. Simpson [Simpson 1992] et utilisé dans le travail de J.S. Kim
et al. [Kim et al 1996]. On trouve aussi les réseaux de neurones flous adaptatifs
[Jang 1993] dans le travail de O. Al –Jarrah et A. Halawani [Al-Jarrah & Halawani
2001], les réseaux de Hopfieled ont été également utilisés dans le travail de C.H.
Huang et W.Y. Huang [Huang & Huang 1998].
1.3.4.4 Autres méthodes
D’autres méthodes ont été utilisées pour la classification des formes de la main,
on peut citer par exemple les arbres de décision [Hernandez et al 2004], les plus
proches voisins [Kramer & Leifer 1987], le modèle de mélange Gaussien [Wu & Gao
2000], Algorithme génétique [Wang et al 2013].
p. 33
1.3.5 Domaines d’applications
La reconnaissance des gestes et postures de la main basée sur la vision par

ordinateur a connu beaucoup d’applications. Les applications sont diverses, à titre
d’exemple : le langage des signes, la robotique, et la réalité virtuelle ainsi que d’autres
applications comme les jeux, l’environnement médical, la réalité augmentée.
Dans les applications bureau, les gestes peuvent substituer la souris ou le clavier
[Iannizoto et al 2001 ; Stotts et al 2004]. Parmi les applications bureau il y a celles qui
manipulent des objets graphiques [Bolt & Herranz 1992]. Pour la réalité virtuelle N.
Osawa et al. [Osawa et al 2000] ont utilisé les gestes de la main pour arranger des
objets virtuels et pour naviguer dans un espace d’informations 3D comme un graphe.
Pour la manipulation robotique, S.M. Goza et al. [Goza et al 2004] ont utilisé les gestes
pour manipuler le bras et la main d’un robot. Pour les environnements intelligents
Swindells et al. [Swindells et al 2002] ont utilisé les gestes pour le transfert des
données entre différents dispositifs.
L’application la plus évidente demeure le langage des signes qui sera abordée
dans le chapitre 2. La figure 1.12 résume les différentes applications de la
reconnaissance des gestes de la main [Rautaray & Agrawal 2012].
p. 34
Figure1.12 Applications de la reconnaissance des gestes et postures de la main.
(a)Interaction Bureau [Lenman et al 2002]. (b) Réalité augmenté [Radkowski

& Stritzke 2012]. (c) Apprentissage Robot [Goza et al 2004]. (d) Réalité virtuelle
[Sharma et al 1996]. (e) Affichage d’un grand écran [Cao & Balakrishnan 2003]. (f)
Chirurgiens interagissant sur dispositifs informatique [Schultz et al 2003].
1.4 Conclusion
Dans ce chapitre nous avons exposé la taxonomie du geste de la main et un état

de l’art sur les méthodes de reconnaissance des gestes et postures de la main. Nous
avons présenté les différentes approches qui ont été développées pour la segmentation
et la détection de la main passant par la couleur, la forme, le mouvement ou le modèle
3D. Au court de cette synthèse, nous avons vu que les meilleurs méthodes sont celles
qui utilisent plusieurs primitives à la fois. Nous avons aussi exposé l’existant dans la
phase reconnaissance et classification.
Nous pouvons conclure que les méthodes par apparence sont capables d’une
réalisation en temps réel mais couvrent moins de postures relativement aux méthodes
p. 35
basées sur le modèle 3D qui offrent une couverture plus grande mais qui sont très
coûteuses en temps de calcul.
Nous avons enfin donné un aperçu sur la variété d’applications de la
reconnaissance des gestes et postures de la main basées sur la vision et qui sont en
pleine effervescence à cause du fait qu’elles ne nécessitent aucun matériel particulier.
Dans le chapitre suivant, nous présentons un bref aperçu sur la langue des signes
ses constituants et ses règles. Nous exposerons aussi une synthèse des travaux relatés
dans la littérature se rapportant sur la reconnaissance de la langue Arabe des signes.
p. 36
Chapitre 2
La langue des signes et son
interpretation
2.1 Introduction
La langue des signes est l’une des applications les plus naturelles et les plus
importantes de la reconnaissance des gestes. C’est un riche langage qui possède ces
propres règles de grammaire, de composition et de structure. Chaque région du monde a
son propre langage des signes dû à son isolement, son histoire, et ses acquis.
Le but de l’alphabet signé, appelé communément l’épellation digitale, est de
transcrire lettre par lettre tous les mots ou les noms qui ne possèdent pas de signes les
exprimant. Aussi l’épellation digitale a été intégrée dans le vocabulaire composé de la
langue des signes par exemple faire le signe M deux fois dans la langue de signes
Anglaise (BSL) exprime le mot ‘Maman’.
Il s’agit dans cette partie de la thèse de décrire le langage des signes, en
expliquant son processus et les différents éléments le constituant. En outre les
problématiques associées à l’élaboration d’un système automatique de traitement de la
gestuelle signée seront aussi abordées.
Nous terminons ce chapitre par un état de l’art des travaux de reconnaissance de
la langue Arabe des signes avec une discussion détaillée sur les différentes approches
utilisées à cet effet.
Chapitre2. La langue des signes et son interprétation
2.2 La langue des signes
Les gestes de la main sont souvent indispensables dans la communication entre

les hommes. Mais l'utilisation structurée des gestes de la main comme un moyen de
communication fait partie de la langue des signes (voir figure 2.1).
La langue des signes est une technique de base Visio-gestuelle que les personnes
atteintes de surdité ont développé pour communiquer. Elle assure toutes les fonctions
remplies par les langues orales. Un traducteur est généralement nécessaire quand une
personne ordinaire veut communiquer avec un malentendant.
Les signes consistent en des gestes manuelles impliquant l’orientation, la
configuration l’emplacement et le mouvement, et des gestes non manuelles
correspondant à des poses ou mouvements du corps ainsi qu’aux expressions du visage.
L’essentiel de l’information est transmis par les gestes manuelles et les gestes
non manuelles interviennent néanmoins pour les informations grammaticales, lexicales
etc.
La langue signes dans le monde arabe a été récemment reconnue et documentée.
Beaucoup d’efforts ont été fait pour établir le langage des signes employé dans chaque
pays, dont la Jordanie, l’Egypte, la Libye et les Etats du Golfe, en essayant de
standardiser la langue et de la répandre parmi les membres de la communauté des
malentendants et ceux qui sont concernés. En Algérie, la Langue des Signes Arabe est
reconnue officiellement par la loi du 8 mai 2002 relative à la protection et à la
promotion des personnes handicapées. Pour réunir toutes les gestes de langue des signes
utilisées dans le monde arabe dans le même dictionnaire, c’est un défi qui demande
beaucoup de volonté. Néanmoins l’alphabet de la langue des signes Arabe est unique
pour tous les pays arabes.
Figure 2.1 : Exemple de la langue des signes Américaine(ASL) une séquence vidéo qui
signifie avez-vous étudié dur ?[Ong & Raganath 2005].
p. 38
2.2.1 Composition d’un signe
Chaque geste d’une main peut être décomposé en quatre paramètres qui sont
indépendants et peuvent être aussi bien dynamiques qu’invariants durant l’émission du
signe.
La configuration : correspond à la forme de la main définie par les doigts et la
paume. Les signes ont souvent des aspects iconiques. En particulier la configuration est
souvent en rapport avec la forme de ce que le signe décrit.
L’orientation : elle est définie par deux axes de la main.
Le mouvement : correspond à la trajectoire décrite par la main (ligne, arc de
cercle...).
L’emplacement : concerne la position de la main par rapport au corps. Selon les
besoins, il va avoir une granularité plus ou moins fine. En effet, en LS (Langue des
Signes), la personne effectuant le signe utilise un espace de narration au sein duquel
l’emplacement va être utilisé pour indiquer une relation spatiale (ou temporelle) entre
entités.
Chacun de ces paramètres est porteur d’information et contribue au sens d’un
signe.
2.2.2 Interaction entre les deux mains
Un signe peut faire intervenir aussi bien une main ou les deux mains qui ont
différentes façons d’interagir. Lorsque les deux mains sont impliquées dans un signe,
deux cas se présentent. Dans le premier cas on voit apparaître un rôle pour chaque main.
Une main est dite dominante et a pour rôle de décrire “l’action”, tandis que l’autre main
qui est appelée main dominée sert de référence à cette action. Par exemple, avec le signe
dentiste (voir figure 2.2), la main dominante (main droite sur la figure) qui mime
l’action « arracher avec un outil une dent », le mot « dent » (référence donnée par la
main dominée). En général la main dominante se déplace au cours du geste tandis que la
main dominée reste statique.
p. 39
Figure2.2 Signe du mot dentiste dans la langue des signes Arabe(ArSL) [Abd-El-
Fateh 2014].
Dans certains travaux, sur la reconnaissance de la langue des signes qui utilisent
les gants colorés la main dominante est souvent colorée avec différentes couleurs
représentant les doigts et la paume et la main dominée par une seule couleur car en
général elle est statique (voir figure 2.3) [Bauer& Hienz 2000].
Figure 2.3 Main dominée portant un gant coloré simple et main dominante avec un gant
multicolore représentant les doigts et la paume, d’après[Bauer & Hienz 2000].
Dans le deuxième cas, les deux mains sont complètement synchronisées : leurs
paramètres sont identiques ou symétriques. Par exemple, avec les signesMatin ou
Soir, les deux signes prennent des trajectoires inverses (voir figure 2.4) et donc les
deux mains ont une configuration et une orientation identiques et des mouvements de
même trajectoire.
p. 40
Figure 2.4 Signes des mots Matin et Soir de la langue des signes
Arabe(ArSL)d’après [Abd-El-Fateh 2014].
Lorsque qu’un signe ne fait intervenir qu’une seule main il y a également deux
cas qui se présentent : soit la deuxième main est inactive, soit elle effectue un autre
signe et dans ce cas, on peut parfois retrouver une interaction main dominante-main
dominée entre les deux signes. On voit donc que les flux de données véhiculés par
chaque main peuvent aussi bien être synchrones que complètement asynchrones.
2.2.3 Différentes classes de signes
En Langage des Signes (LS), on peut distinguer différentes classes de signes,

chacune correspondant à un usage particulier.
L’ensemble des signes dits “standards” correspond à des mots (nom, verbe,
adjectif...) ayant un sens bien établi. Nous pouvons leur associer une correspondance
relativement précise dans les langues orales. Du fait qu’il y a une correspondance
“directe”, ce sont les signes qui ont été le plus étudiés en reconnaissance de gestespour
la reconnaissance de la langue des signes. Les résultats obtenus pour cette catégorie sont
fiables lorsque la taille du vocabulaire utilisé est limitée. Citons à titre d’exemple les
travaux de [Bauer & Hienz 2000], où le taux de reconnaissance a atteint un peu plus de
90% pour une centaine de mots appartenant à la classe des signes dits standards.
Il existe deux autres classes de signes qui eux ne permettent aucune
correspondance directe avec des mots du langage oral. Il s’agit des spécificateurs de
forme et de taille, et des classificateurs. Ces signes ont des aspects fortement iconiques
p. 41
et font partie de ce que l’on appelle la grande iconicité. Les spécificateurs permettent de
décrire un objet, un animal, une scène. C’est à l’aide de la forme des mains, de leur
orientation et de leur mouvement que le sujet décrit une forme et les dimensions d’un
objet. Les classificateurs sont similaires aux spécificateurs dans le sens où ils
représentent également un objet (ou personne, animal...) et donc la forme de la main est
en rapport avec celle de l’objet ou de sa fonction, mais ils ont un tout autre rôle car ils
servent en quelque sorte de pronoms(le, les, la, …). Lorsqu’un objet a été cité dans une
phrase à l’aide d’un signe du vocabulaire standard (ou de spécificateurs), un
classificateur peut ensuite être utilisé pour représenter cet objet dans le reste de la
phrase. On peut avec ce classificateur préciser la position de l’objet ou décrire une
trajectoire qu’il a empruntée.
La figure 2.5 illustre une phrase qui regroupe les trois classes de signe. Les deux
premiers signes sont des spécificateur de forme et de taille, ils décrivent une caisse en
symbolisant ses côtés. Le signe suivant est le signe standard Pomme. Enfin, la
troisième étape montre des signes qui sont des classificateurs symbolisant des pommes
que l’on place à différents endroits pour représenter le tas de pomme que contient la
caisse.
Figure 2.5 Phrase Une caisse pleine de pomme de la langue LSF
Tous ces aspects (diversité des signes, interaction des mains...) vont soulever des
problèmes au niveau de la reconnaissance des différents gestes.
2.2.4 Problèmes spécifiques à l’interprétation de signes
Dans ce qui suit un certain nombre de problèmes spécifiques à la reconnaissance

et l’interprétation de la langue des signes seront présentés :
p. 42
2.2.4.1 Complexité du vocabulaire
Le vocabulaire est composé a priori d’un grand nombre de signes [Vogler &
Metaxas 1999] et un signe est composé de plusieurs éléments co-occurrents. Pour une
main, si nous avons n configurations possibles, m types de mouvements, p
emplacements et q orientations, nous avons donc 𝑛 × 𝑚 × 𝑝 × 𝑞 signes possibles.
Sachant que nous pouvons avoir des signes qui combinent les deux mains, le
complexité d’un système de reconnaissance est d’un ordre élevé et nécessite donc un
apprentissage.
2.2.4.2 Relations entre les deux mains
On peut rencontrer trois types d’interaction entre les deux mains. Soit les deux
mains produisent ensemble un signe, soit une main effectue un signe et l’autre est au
repos, soit les deux mains effectuent séparément deux signes de manière plus ou moins
indépendante.
Le problème va donc être de savoir distinguer ces différents cas pour ne pas
reconnaître un signe à deux mains alors qu’il s’agissait de deux signes distincts
effectués au même moment (ou vice-versa). Pour distinguer ces deux cas, nous ne
pouvons pas nous contenter d’une quelconque similitude des paramètres des deux
mains, car nous avons vu dans la première partie que lorsque les deux mains sont
utilisées pour former un signe, elles peuvent être aussi bien complètement synchrones
(signe Matin, voir figure 2.4), qu’être juste corrélées et n’avoir aucune similitude au
niveau des paramètres (signe dentiste, voir figure 2.2). Il existe une autre relation
entre les mains, que l’on va devoir détecter. Lorsque les deux mains effectuent
séparément des signes et qu’il existe une relation main dominante-main dominée, il
existe des points de synchronisation pour mettre en rapport les signes. Pendant un
instant les deux mains vont être agencées spatialement de manière à véhiculer une
certaine information. Par exemple dans la phrase “Le chat est dans la voiture” (voir
figure 2.6), le signe Voiture est d’abord énoncé (première image) puis remplacé par le
classificateur “C” qui représente la voiture en tant que “contenant” et la positionne dans
la scène (deuxième image). Ensuite on voit la main gauche qui énonce le signe Chat
(troisième image), le remplace par le classificateur “X” (représentant les pattes du chat)
p. 43
et positionne ce dernier relativement au classificateur représentant la voiture (dernière

image) [Lejeune et al 2002].
Figure 2.6 PhraseLe chat est dans la voitured’après [Lejeune et al 2002].
2.2.4.3 Interprétation des signes non standards
Un troisième problème encore plus difficile à résoudre concerne l’interprétation

des signes non standards. A ce jour, seule une catégorie de ces signes (les verbes
directionnels) a été abordée dans le cadre d’un système de reconnaissance. Parmi les
catégories qui n’ont pas été abordées en reconnaissance de la LS, on trouve les
classificateurs et les spécificateurs. Nous avons vu dans la partie précédente que ces
derniers n’ont pas de sens propre, c’est la phrase et son contexte qui permettent de le
déterminer.
Les classificateurs se rapportent souvent à un signe standard qui a été signé
précédemment mais ce n’est pas toujours le cas. On peut cependant déterminer pour
chaque signe la liste des classificateurs potentiels. Les spécificateurs posent un
problème beaucoup plus complexe du fait qu’ils sont propres à la description et peuvent
varier énormément. Contrairement aux langues orales qui possèdent un vocabulaire
délimité, en LS on peut très bien “inventer” un signe de toutes pièces. Par définition, les
paramètres d’un spécificateur sont associés à ce qu’ils décrivent et donc à chaque
nouvelle description peut correspondre de nouveaux signes. De plus, la manière de faire
une description peut dépendre du contexte social et culturel de la personne. Il va falloir
chercher le sens de ces signes dans le contexte de la phrase et en analysant les formes
qu’ils décrivent. Ceci est un problème très complexe et il n’y a actuellement aucune
solution qui y remédie.
p. 44
2.3 Reconnaissance de la langue des signes Arabe : Etat
de l’art
Les premiers travaux sur la langue des signes ont commencé il y a moins de
vingt ans et ont été proposés par T. Starner et A. Pentland [Starner & Pentland
1996] pour la langue des signes Américaine, M.W. Kadous [Kadous 1996] pour la
langue Australienne, et J.S. Kim et al. [Kim et al 1996] pour la langue des signes
coréenne. Depuis, beaucoup de travaux et techniques ont vu le jour et ce pour les
langues des signes du monde entier.
Contraient aux autres langues du monde, les travaux sur la langue des signes
Arabes (ArSL) dans la littérature sont peu nombreux. Les premiers travaux qu’a connu
la langue des signes Arabes ont été consacrés à la reconnaissance de l’alphabet [Al-
Jarrah & Halawani 2001 ; Al-Roussan & Hussain 2001 ; Assalaeh et Al-Roussan
2005] et pour la reconnaissance des mots isolés [Mohandes et al 2004].
Plusieurs primitives ont été utilisées pour ces systèmes :
 Les distances des bouts doigts au centre de gravité de la main [Al-Jarrah &
Halawani 2001]. Le système reconnait 30 postures de l’alphabet de la langue des
signes Arabe avec un taux de 93.55%. Le travail était à utilisateur dépendant et les
images de la base ont été effectuées sur un fond simple. Un système adaptatif
d’inférence flou a été utilisé pour la classification [Jang 1993].
 Les distances et les angles d’inclinaisons des bouts des doigts par rapport au
poignet [Al-Roussan & Hussain 2001].Le système développé reconnait 28 lettres
de la langue Arabe des signes. Des gants colorés (voir figure2.7) ont été utilisés
pour la collecte des données et un système adaptatif d’inférence flou [Jang 1993]
pour la reconnaissance. Le taux de reconnaissance obtenu est de 88%. Sur la même
base et avec le même principe ce taux a été amélioré à 93.41 dans [Assalaeh & Al-
Roussan 2005], en utilisant les réseaux polynomiaux.
p. 45
Figure 2.7 Gant coloré utilisé pour la collecte des données daprès [Al-Roussan &
Hussain, 2001].
 Dans [Mohandes et al 2004], les auteurs ont utilisé pour la collecte des données
des gants de type ‘power glove’, construite par ‘Nintendo Entertainment system’
(NES) en 1989. Ce type de gants fournit des données sur la localisation et
l’orientation de la main qui ont été utilisées comme primitives pour entrainerun
classifieur SVM pour la reconnaissance. La reconnaissance a été effectuée sur un
nombre important de mots de la langue des signes Arabe.
 M. Al-Roussan et al [Al –Roussan et al 2009] ont élaboré un système à
utilisateur indépendant pour la reconnaissance de 30 mots de la langue de signes
arabes (voir figure 2.8) effectués par des malentendants. La transformée en cosinus
discret (DCT) a été appliquée aux frames originales de chaque séquence vidéo pour
l’extraction des primitives et les modèles cachés de Markov HMM pour la
classification. La méthode a obtenu un taux de reconnaissance de 90.6% en mode
en ligne, et 94.2 en mode hors en ligne.
p. 46
Figure 2.8 Gestes de langue des signes Arabe (ArSL) d’après [Al-Roussan et al 2009].
 F.M. Tolba et al.[Tolba et al 2010], ont proposé un système de reconnaissance des

postures de la main fondé sur un réseau de neurones couplés à impulsions
(PCNN) des signatures d’images. Les réseaux PCNN peuvent transformer les
images 2D en un signal 1D avec des primitives intéressantes, cela est effectué par
optimisation d’activation du maximum de neurones au même instant pour une
image entrée. Dans ce système, la transformée de Fourrier discrète a été utilisée
pour générer un vecteur caractéristique du vecteur signal obtenu par les réseaux
PCNN. Le taux de reconnaissance atteint était de 90.4% mais aucune base de
données n’a été spécifiée.
 Dans [Elons et al 2013 (a)], les auteurs ont utilisé le même concept que dans
[Tolba et al 2010] présenté précédemment, mais en ajoutant un facteur de poids
aux réseaux (MPCNN). Ce qui a amélioré le taux de reconnaissance à 92%.
p. 47
 M. Mohandes et al [Mohandes et al 2012], ont élaboré un système à utilisateur

indépendant qui détecte en plus des mains, le visage. Des primitives géométriques
constituées des centre de gravités des deux mains, de l’angle d’orientation de l’axe
principal de chaque main, de l’excentricité de l’ellipse entourant chaque main, et
enfin des surfaces de deux mains, ainsi que les HMM ont été utilisés pour
classifier 300 mots de la langue Arabe avec un taux de 95%. Cependant le système
souffre de la contrainte du port de gants colorés, puisque chacune des mains de
l’utilisateur porte un gant de couleur jaune et orange respectivement.
 Dans [Shanableh & Assalaeh 2011], les auteurs ont élaboré un système à
utilisateur indépendant pour la reconnaissance des mots arabes basé sur la
transformée en cosinus discret (DCT) pour l’extraction des primitives pertinentes,
et des classifieurs polynomiaux et KNN pour la reconnaissance. Le taux de
reconnaissance obtenu est de 87% pour 23 mots. Dans ce travail également les
sujets portaient des gants colorés.
 S. Elons et al [Elons et al 2013(b)], ont proposé un système mixte de
reconnaissance des postures et des gestes de la main basé sur le même principe
exposé dans [Elons et al 2013(a)] pour l’extraction de primitives. En outre un
dispositif de vision stéréoscopique qui permet de calculer la profondeur a été
utilisé. Ce dispositif est constitué d’une paire de camera calibrées (voir figure 2 .9).
Ce travail rapporte un taux de reconnaissance de 88% pour la classification des
phrases. Le seul ennui dans ce travail est qu’aucune base, ni type de mots
reconnus, ni type de phrases n’ont été spécifiés. Ce qui empêche de mesurer la
difficulté à laquelle a fait face la méthode proposée.
Nous pouvons remarquer, que tous les systèmes élaborées pour la

reconnaissance de l’alphabet de la langue de signe Arabe (ArSL) sont à utilisateurs
dépendants et opèrent dans des backgrounds simples. Pour la reconnaissance des mots
le seul travail à utilisateur indépendant qui n’utilise pas de gants colorés est celui de M.
Al –Roussan et al. [Al-Roussan et al 2009].
p. 48
Figure 2.9 Positionnement des caméras d’après [Elons et al 2013].
Dans notre travail [Dahmani & Larabi 2014] le système est destiné à l’alphabet
de la langue Arabe des signes, et donc nous pouvons affirmer que c’est le seul dans sa
catégorie qui soit à utilisateur indépendant, opérant dans différents fonds complexes et
dans des conditions générales d’éclairage.
2.4 Conclusion
Après cette brève présentation de la langue des signes, nous avons étudié les
différentes difficultés que nous pouvons rencontrer lors de l’élaboration d’un système
automatique pour sa reconnaissance. Nous pouvons constater que malgré la multitude
d’approches et techniques proposées dans la littérature, concevoir un système complet
pour la reconnaissance de la langue des signes reste un défi difficile à relever, vu la
grande complexité reliée à cette langue.
En citant tous les travaux dans la littérature se rapportant à la langue Arabe des
signes, nous avons vu que le problème de segmentation de la peau, étape cruciale de
tous les systèmes basés sur la vision, a été souvent contourné par l’utilisation de gants
colorés ou bien en travaillant avec des fonds simples, ou dans des conditions
d’éclairages contrôlées. Cela est dû principalement au fait que les résultats des
méthodes usuelles de la segmentation de la peau, sont très sensibles aux conditions
d’éclairage, et aux couleurs de fonds.
Dans le prochain chapitre nous présentons notre première contribution pour le
développement d’un système de reconnaissance des postures de l’alphabet de la langue
p. 49
des signes. Cette contribution concerne la localisation de la main dans une image avec
un arrière-plan complexe.
p. 50
Chapitre 3
Segmentation d’image et extraction
de la main : Cas d’un arriere-plan
complexe
3.1 Introduction
Un système de reconnaissance de l’alphabet de la langue des signes efficace

doit posséder la capacité d’opérer dans différentes conditions d’éclairage et de fonds et
indépendamment de l’utilisateur. Il doit aussi être assez discriminatif pour distinguer
les différentes postures de la main tout en étant capable de tolérer les petites variations
dues à l’anatomie particulière de la main de chacun d’entre nous. Tous ces défis et bien
d’autres sont posés au problème de la reconnaissance de l’alphabet de la langue des
signes.
Pour élaborer notre système de Reconnaissance de l’alphabet de la langue des
signes, nous proposons une solution en trois phases dont une première phase qui
consiste en la segmentation et l’extraction de la main de son fond.
Nous commençons ce chapitre par la présentation des attributs sélectionnés et
leurs utilisations par la communauté scientifique. Nous présentons ensuite notre
méthode pour la localisation de la main dans l’image.
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
3.2 Choix d’attributs pour l’extraction de la main de
l’image
3.2.1 Motivation
Une multitude d’approches ont été proposées dans la littérature pour détecter la
main. La segmentation de la peau basée sur la couleur est l’une des approches les plus
utilisées à cause de son efficacité. Néanmoins cette méthode rencontre les difficultés
suivantes [Kakumanu et al 2007] :
1. L’éclairage : la couleur de la peau (la distribution dans l’espace couleur

correspondant à la peau) change sous des éclairages différents. Ce qui dégrade
sérieusement le résultat de la segmentation.
2. Les caractéristiques de la caméra : même sous les mêmes conditions d’éclairage
et pour la même personne le changement des caractéristiques de la caméra
peuvent influencer la qualité de la segmentation. La couleur reproduite par une
caméra CCD est dépendante de la réflectance spectrale, des conditions d'éclairage
et la sensibilité du capteur de l'appareil photo.
3. L’ethnique : la couleur de la peau peut être aussi affectée par la race ou le groupe
ethnique d’où la difficulté de construire une méthode universelle de segmentation
par la couleur de la peau.
4. Caractéristiques individuelles propres comme l’âge ou le sexe affectent la couleur
de la peau.
5. La couleur du fond: certaines couleurs très proches de celle de la peau, par
exemple celle du bois, rend la segmentation par la couleur très délicate.
Dans leur étude sur la segmentation de la peau P. Kakumanu et al [Kakumanu

et al 2007] ont conclu que le choix de la couleur doit être guidé par sa capacité à
différencier les pixels peau des pixels non peau. D’autre part, les méthodes directes de
segmentation de la peau comme les méthodes basées sur l’histogramme ont donné de
bons résultats [Teng et al 2005 ; Bin Ghazali et al 2012 ; Pryal & Bora 2013] ;
p. 52
complexe
Cependant, elles demeurent très sensibles aux changements rapides d’illumination et

c’est pour cela qu’il est souvent préférable d’intégrer un classifieur par apprentissage.
Pour pallier aux différents problèmes cités ci- dessus, rencontrés lors d’une
segmentation de la peau basée sur la couleur seulement, nous avons proposé
l’intégration de la texture. Combinée à la couleur, elle permet de surmonter certaines
difficultés en raison de la proximité de cette association de la perception humaine, ce
qui a fait que les dernières recherches vont de plus en plus vers une modélisation basée
sur la couleur et la texture [Ilea & Whelan 2011].
Nous commençons d’abord par présenter les éléments de base de cette méthode.
3.2.2 Les attributs : Couleur et texture
3.2.2.1 La couleur
La couleur présente un ensemble d’attributs qui ont été souvent utilisés dans la
segmentation d’images de manière général et dans la segmentation de la peau en
particulier (voir le chapitre2). Comme cela a été mentionné dans la section 3.2.1, le
choix de l’espace couleur influence la qualité de la segmentation. Les espaces couleur
orthogonaux (YCbCr , YIQ , YUV , YES ) réduisent la redondance qui existe dans les
canaux de l’espace RGB et représentent la couleur avec des composantes
statistiquement indépendantes [Kakumanu et al 2007]. Dans ce travail, l’espace
couleur utilisé est YCbCr où Y représente la luminance, Cb , C r représentent les
chrominances bleu et rouge.
Dans ce qui va suivre, nous donnons un bref rappel de la texture et les
différentes formules et approches pour la calculer.
3.2.2.2 La Texture
a. Définition
Bien que la notion de texture soit évidente pour la perception humaine, elle
demeure très difficile à définir. Cette notion est liée d’une part à l’homogénéité qui
permet de séparer les différentes textures, d’autre part aux notions de caractérisation et
discrimination. Nous pouvons citer deux différentes définitions :
p. 53
complexe
 Pour R. Haralick [Haralick et al 1973] et certains d’autres chercheurs, la

texture est définie comme un phénomène à deux niveau : le premier concerne la
description des primitives qui peuvent la constituer, et le deuxième décrit la
dépendance spatiale entre ces primitives.
 Pour J. Serra [Serra 1982], la texture est l’ensemble des propriétés spatiales,
périodiques on non, d’un phénomène se déployant dans le plan de l’image.
L’étendue de ce phénomène et la géométrie de ses limites ne participent pas à la
texture. Seul importe le contenu spatial, exprimé en terme statistiques ou
morphologiques et non par son contenu.
C’est à partir de ces deux définitions, que les différentes modélisations pour
l’analyse de la texture ont vu le jour.
b. Types de textures
Il existe deux types de texture : les textures périodiques définies par la répétition
d’un motif de base dans l’image, et des textures aléatoires qui possèdent un aspect
anarchique mais qui apparaissent homogènes dans leur environnement [Broadtz 1966].
Donc on peut les distinguer en deux classes :
 Les macros texture : qui présentent un aspect régulier, sous formes de motifs
répétitifs spatialement placés selon une règle précise (exemple peau de lézard,
mur de briques etc.)
 Les micros texture : présentant des primitives microscopiques distribuées de
manière aléatoire (sable, laine tissée, herbe etc.), d’où une approche probabiliste
cherchant à caractériser l’aspect anarchique et homogène.
Un catalogue de texture contenant 112 types (sable, herbe, bois etc.) et qui
constitue une référence de base pour les chercheurs travaillant sur la texture a été
proposé par P. Broadtz [Broadtz 1966] (voir figure3.1).
c. Analyse de la texture
L’analyse de la texture contient un ensemble de techniques mathématiques

permettant de quantifier la texture et de calculer un certain nombre de données
caractérisant la texture que nous voulons déterminer.
p. 54
complexe
Figure 3.1 Exemples de l’album de texture, d’après [Broadtz 1966].
Il existe quelques grandes approches dans l’analyse de la texture, nous citons :
 Approche statistique
Dans cette approche la texture est considérée comme résultat d’un processus
stochastique dont on peut évaluer par des attributs statistiques [Weska et al 1976 ;
Unser 1986]. Les données sources de ces attributs peuvent être des pixels (cas le plus
classique premier ordre) ou des couples de pixels comme c’est le cas pour la matrice de
cooccurrences (mesure du second ordre) [Haralick et al 1973]. Les mesures du second
ordre ont montré leur efficacité par rapport à la perception humaine [Julesz 1962].
Dans cette approche l’idée de base est de décrire de manière statistique comment les
niveaux de gris sont distribués dans l’image. Ce type de méthodes est orienté pour la
représentation des textures fines et sans régularité apparente.
 Approche structurale
Cette approche suppose l’existence de primitives élémentaires représentant la

texture. Elle décrit la texture en se basant sur les relations spatiales qui relient ces
primitives entre elles. Des règles d’emplacement et d’agencement spatial définissent la
nature de la texture.
 Approche fréquentielle
Dans ce type d’approche on se base sur l’aspect fréquentiel de la texture. Toutes

les méthodes définies dans l’analyse spectrale ont pu être utilisées pour la quantification
p. 55
complexe
de la texture à savoir le filtre de Gabor, la transformée de de Fourier discrète (DCT) ; la

transformée en ondelette etc.
 Approche par modèle
Ce type de méthodes reposent sur les modèles stochastique, parmi lesquels on

trouve les Fractales. Les paramètres du modèle sont estimés et utilisés pour l’analyse de
la texture. Ces méthodes sont très couteuses en temps de calcul mais efficaces pour les
phénomènes naturels.
Il faut juste mentionner que ces différentes familles ne sont pas disjointes. Une
méthode d’analyse de texture peut appartenir à plusieurs approches à la fois. On peut
par exemple moyennant une transformée (approche fréquentielle) définir des données
statistiques (approche statistique).
Dans le travail que nous avons présenté dans cette thèse, notre choix s’est porté
sur l’approche statistique basée sur les matrices de cooccurrences de niveau de gris
(GLCM) et les primitives de Haralick [Haralick et al 1973]. Ce choix est justifié par
le fait que la texture de la peau visuellement est plutôt fine et aléatoire. En outre la
matrice de cooccurrence a été déjà comparée aux autres méthodes d’analyse de la
texture dont les méthodes fréquentielles, et ce dans beaucoup de travaux dans la
littérature, parmi lesquels nous pouvons citer [Conners & Harlow 1980 ; Strand &
Taxt 1992 ; Valkealathi & Oga 1998 ; Petrou et al 2007]. Dans tous ces travaux, la
matrice de cooccurrence a été jugée meilleure pour une analyse plus discriminative de
la texture.
Dans ce travail, nous avons exploré deux approches différentes pour modéliser
la texture. Une approche statistique basée sur la matrice de cooccurrence et les indices
de Haralick et une seconde approche fréquentielle basée sur le filtre de Gabor. Les
résultats obtenus nous ont permis de choisir l’approche statistique pour sa robustesse
aux changements de couleurs de fond dans des conditions générales d’éclairage.
Cependant l’approche fréquentielle, moins robuste aux changements de couleur de
fond, a tout de même donné de bons résultats sur des images de la main sur fond
uniforme dans des conditions d’éclairage très dures, la méthode a été testé sur le
benchmark de la gestuelle de la main de Cambridge [Kim et al 2007], et la
p. 56
complexe
segmentation sur 5 différents types d’éclairage avec la lumière occultant la main a

donné des résultats satisfaisants.
Après une synthèse de besoins se basant sur la nécessité de concevoir une
méthode robuste aux changements de couleur de fonds et qui puisse opérer dans des
conditions générales d’éclairages, la méthode statistique basée sur la détermination des
indices de Haralick a été adoptée pour la suite du travail.
Dans ce qui suit, nous allons définir les matrices de cooccurrences de Haralick,
que nous avons utilisées pour analyser la texture de la peau.
c. Matrices de cooccurrences et indices de Haralick
La matrice de cooccurrence avec les indices de Haralick [Haralick et al

1973], est la méthode la plus utilisée pour l’analyse de la texture. Elle représente une
simplicité dans la mise en œuvre et donne de bons résultats sur un grand nombre de
types d’images [Gonzalez et Woods 1992].
 Matrice de cooccurrences (Gray-Level Co-occurrence Matrix GLCM) :
La matrice de cooccurrence est un outil d’ordre2 (l’ordre 2 est associé au fait

qu’on mesure les objets par traitement des paires de coordonnées de pixels). Chaque
valeur x aux coordonnées (i, j) dans une matrice de cooccurrence Pd , pour une
distance d et une orientation  , représente la fréquence des niveaux de gris i et j

séparée par une distance d et un angle  . De manière formelle pour une image f de
taille N  M la matrice de cooccurrence normalisée associée à f est définie par :
(n, m) : f (n, m)  i , f (n  d cos , m  d sin   j

Pd , (i, j )  (3.1)
N M
Où représente le cardinal de l’ensemble.
La distance d et l’orientation  peuvent être déterminées après plusieurs

expérimentations. Une méthode générale consiste à calculer les matrices de
cooccurrences avec différentes valeurs pour le couple (d , ) et prendre celui qui
correspond à l’énergie maximale pour la matrice Pd , .
La matrice de cooccurrence possède une multitude d’informations que R.

Haralick et al. [Haralick et al 1973] ont suggéré de représenter en quatorze indices
p. 57
complexe
(primitives). Ces quatorze primitives sont corrélées entre elles. Certains travaux ont
tenté de diminuer ce nombre en gardant les plus pertinentes d’entre elles. Citons par
exemple le travail de N. Idrissi et al. [Idrissi et al 2005] où huit seulement ont été
retenues. De même dans le travail de P. Howarth et S.M Ruger [Howarth & Ruger
2004] seulement 4 primitives ont été utilisées ensuite comparées à d’autres primitives
d’analyse de la texture à savoir le filtre de Gabor et aussi aux primitives de H. Tamura
et al [Tamura et al 1978].
Dans le travail de cette thèse, nous avons sélectionné quatre primitives
discriminantes pour la détection des pixels peau et qui sont l’énergie, le contraste, la
corrélation et l’homogénéité.
Comment associer les attributs de la couleur à ceux de la texture ? Cette
question a déjà été posée dans la littérature et a donné naissance à beaucoup
d’approches et qui sont en général scindées en trois grandes familles [Ilea et Whelan
2011].
Nous présentons ci-après ces trois familles de méthodes.
3.3 Etat de l’art des méthodes de segmentation basées sur
la couleur et la texture
3.3.1 Méthodes basées sur l’intégration implicite des primitives

couleur-texture
Elles reposent sur le principe du calcul de la texture à partir d’un seul ou

plusieurs canaux de couleur, la classification se fait en général par la stratégie du plus
gros au plus fin (coarse –to-fine strategy). Leur assertion de base est que la couleur et
la texture sont des attributs dépendants et de ce fait il faut les extraire à partir de canaux
individuels, ou de couples de canaux corrélés, ou bien à partir de composantes de
canaux de couleur combinées sur une seule représentation vectorielle [Hoang et al
2005; Yang et al 2008].
p. 58
complexe
3.3.2 Méthodes basées sur l’extraction de la couleur et de la

texture successivement
Dans cette catégorie de méthodes, la segmentation se déroule en une séquence

de procédés en série. Cette approche a été développée pour pallier aux problèmes
rencontrés par la précédente technique. L’idée principale repose sur le fait
qu’intuitivement, il n’existe pas de modèle analytique (explicite) décrivant la
dépendance de la texture et la couleur durant le procédé de la formation de l’image, et
donc la dépendance ne peut être décrite qu’en série [Miremehdi & Petrou 2000].
3.3.3 Méthodes basées sur l’extraction des attributs couleur et

texture séparément
Dans ce type d’approche la texture et la couleur sont prises séparément et ensuite

combinées pour faire la segmentation ; on peut distinguer deux types de classes dans
cette catégorie :
Les approches basées région et qui regroupent : les méthodes de diviser et
fusionner [Nammalwar et al 2010], les méthodes par croissance de régions [Grinias et
al 2008], les méthodes de minimisation d’énergie et les contours actifs [Han et al
2009].
Les approches basées sur les primitives qui comportent les méthodes de
segmentation avec des schémas probabilistes et statistiques [Fukuda et al 2009 ; Yang
et al 2013 ; Yang et al 2014 ; Szezypinski et al 2014].
L’approche que nous proposons fait partie de cette dernière catégorie. Les
attributs couleur et texture ont été pris indépendamment et ensuite combinées dans un
vecteur qui va constituer les données pour entrainer un réseau de neurones.
3.4 Méthode de segmentation proposée
Le terme segmentation d’image désigne le processus par lequel on aboutit à un

partitionnement de l’image en des régions homogènes et disjointes. Le problème de la
segmentation de la peau est plus complexe dans le sens où non seulement les
différentes régions homogènes doivent être déterminées mais elles doivent aussi être
catégorisées dans trois classes prédéfinies à savoir : celle de la peau, des vêtements et
p. 59
complexe
du fond. Dans la majorité des travaux relatés dans la littérature sur la classification des
pixels peau dans une image, la couleur a constitué et constitue toujours la
caractéristique la plus importante [ Jones et Rehg 2002, Teng et al 2005 ; Kim et al
2008 ; Bin Ghazali et al 2012 ; Pryal & Bora 2013 ; Ban et al 2014]. Cependant la
couleur de la peau peut être facilement influencée par les couleurs de fonds ou par le
changement d’éclairage. Dans certains travaux récents sur la détection du visage basée
sur la forme qui constitue la caractéristique principale la couleur a néanmoins été
utilisée comme caractéristique secondaire [Nanni et al 2014], ou encore la texture dans
[Jiang et al 2013].
Différemment de ce qui a été proposé dans la littérature pour le problème de la
segmentation de la peau d’une part, où la plupart des chercheurs se sont dirigées vers la
couleur uniquement en explorant les différents espaces couleur qui peuvent améliorer
les résultats de la segmentation, et s’inspirant des travaux sur la couleur et la texture
d’autre part, nous avons exploré une nouvelle vision de la segmentation des pixels peau
dans une image qui consiste d’associer à la couleur de la peau, sa texture [Dahmani &
Larabi 2014]. Cette nouvelle approche a permis au système développé d’être
opérationnel dans différents fonds complexes et sous des conditions générales
d’éclairage.
La détection des pixels peau dans le travail de cette thèse, se fera en associant les
attributs couleur Y , C b et C r ainsi que les attributs texture : énergie, contraste,
corrélation et homogénéité extraits à partir des matrices de cooccurrence Pd , .
L’ensemble de ces attributs a été utilisé pour entrainer un réseau de neurones

MLP, dans le but de classifier les pixels peau des pixels non peau dans une image. La
figure 3.2 illustre le diagramme fonctionnel de notre approche. La méthode de seuillage
direct (en bleu) à droite où seulement les attributs couleur sont utilisés pour la
segmentation et la méthode hybride (en vert bleu) à gauche, où la texture a été combinée
avec la couleur pour entrainer un perceptron multi couche MLP.
La méthode du seuillage direct a été élaborée dans le but de tester l’apport de
la méthode hybride dans le processus de la segmentation. Les résultats obtenus par le
seuillage direct seront présentés dans la section suivante.
p. 60
complexe
Figure 3.2 Diagramme de segmentation
Conversion de l’espace RGB à l’espace YCbCr

Les valeurs Y et Cb , C r sont données par une transformation linéaire de l’espace
RGB. Par les formules suivantes :
Y  0.299R  0.587G  0.114B


Cb  128  0.168736R  0.331264G  0.5B. (3.2)
C  128  0.5R  0.418688G  0.081312B
 r
p. 61
complexe
La segmentation par seuillage simple

Le seuillage direct consiste à attribuer la valeur 0 (noir) à tous les pixels
vérifiant un certain prédicat et 1(blanc) à tous les autres. Le seuillage des pixels peau
dans l’espace YCbCr pris heuristiquement est : 85  Cb  134 , 134  Cr  180 et Y  80 .
La segmentation de la peau uniquement par la couleur est un processus qui
souffre de certains problèmes. Un exemple de résultats que nous avons obtenus à partir
d’un seuillage direct dans l’espace YCbCr sont illustrés par la figure 3.3.
Figure 3.3. Résultats de la segmentation par seuillage directe dans l’espace YCbCr .
Nous pouvons clairement voir que mise à part sur un fond vert clair ou très peu
complexe où les résultats sont satisfaisants, les autres résultats ne sont pas utilisables.
Le résultat le plus mauvais que nous avons obtenu c’est dans l’association d’un fond
bois avec l’occlusion de la lumière.
Afin d’améliorer nos résultats et de remédier au problème du seuillage direct, la
texture a été rajouté comme primitive additive à l’information de la couleur.
Détermination des attributs texture

Dans notre système nous avons estimé les paramètres texture, en utilisant la
matrice de cooccurrence de Haralick [Haralick et al 1973].
Pour la texture de la peau, quatre directions ont été analysées et qui sont :
horizontale   0 , verticale   90 diagonale droite   45 et diagonale gauche
 135 .
p. 62
complexe
Les indices de Haralick les plus pertinents pour la texture de la peau que nous
avons utilisés sont :
L’énergie : Elle mesure l’uniformité textural, les répétitions des paires de pixels
quand la région de l’image considérée est homogène. Elle mesure aussi la régularité
dans la région de l’image. Moins la région de l’image est régulière, plus petite est la
valeur de l’énergie associée à cette région.
 P 
2
Energie = d, (i, j ) (3.3)
i j
Où Pd , est la matrice de cooccurrence définie par l’équation (3.1).
Le contraste : Il mesure la différence d’intensités entre un ensemble de pixels

contiguës. Il mesure aussi la quantité des variations locales présentes dans une image.
Un contraste faible se traduit par la concentration des termes de la matrice de
cooccurrence autour de sa diagonale principale.
 (i  j) P  2 2
Contraste= d, (i, j ) (3.4)
i j
La corrélation : Elle mesure les dépendances linéaires du niveau de gris des

pixels voisins. Si dans la corrélation nous avons une grande valeur proche de 1 cela
implique l’existence d’une relation linéaire entre les niveaux de gris des couples de
pixels. La corrélation est indépendante de l’énergie.
Corrélation =  (i   )
i j
i
2
( j   j ) 2 P 2 d , (i, j ) /  i j (3.5)
Où  i et  j représentent les moyennes,  i et  j sont les écarts types des
densités de probabilités partielles Px (i ), Py ( j ) qui sont définies en sommant les lignes,
les colonnes de la matrice de cooccurrence, respectivement.
Homogénéité : Elle mesure l’homogénéité de l’image. Elle donne aussi

l’exiguïté de la distribution des éléments dans la matrice de cooccurrence. Elle est
élevée si l’image est à niveaux de gris est uniforme, ou bien quand l’image est à motifs
répétés.
p. 63
complexe
1
Homogénéité=  1  (i  j )
i j
2
Pd , (i, j ) (3.6)
Apprentissage du réseau de neurones

L’ensemble des attributs cités précédemment ont été utilisés pour entrainer un
réseau de neurones (MLP), qui plus adapté à notre problème (voir annexe A1). Nous
avons utilisé la totalité de 515520 pixels et la performance a été évaluée en utilisant
l’erreur quadratique moyenne (MSE Mean- Squared- Error).
Après avoir exécuté plusieurs simulations, les paramètres choisis sont les
suivants :
Une couche d’entrée contenant 7 neurones, une couchée cachée contenant 6
neurones, et enfin une couche de sortie à 1 neurone qui contient la valeur 1 si le pixel
est peau 0 sinon. Le schéma final de notre réseau de neurones est schématisé dans la
figure 3.4.
Figure 3.4 Schéma général du MLP proposé pour la classification des pixels peau.
Un exemple d’entrée pour le réseau est présenté par la figure 3.5.
p. 64
complexe
Figure 3.5. Exemple d’entrée pour le réseau MLP
Pour les images contenant seulement la main (notre centre d’intérêt), Il peut y
avoir occasionnellement la détection d’autres objets que la main dans l’image. Ce
problème a été résolu en séparant les parties connexes et en considérant la main comme
le plus grand objet peau dans la scène.
3.5 Conclusion
Dans ce chapitre nous avons présenté la première partie de notre système à

savoir l’extraction de la main dans l’image. La combinaison de la couleur et de la
texture pour classifier les pixels peau est une approche intéressante qui a permis à
notre système d’être plus opérationnel et de pouvoir faire face à des problèmes de
segmentation dans des conditions plus réalistes. Les résultats obtenus vont être exposés
dans le dernier chapitre de validation des approches proposées. La méthode présentée a
montré certains avantages par rapport aux méthodes existantes, dans le sens où elle peut
faire face aux changements de l’arrière-plan de l’image et aussi aux changements
d’éclairages. Elle reste tout aussi applicable dans des scènes d’intérieurs et d’extérieurs
ce qui valide son utilisation pour la suite du travail.
Dans le chapitre suivant, la deuxième partie de notre système sera présentée à
savoir la modélisation et l’extraction des caractéristiques de formes, utiles et pertinentes
pour la reconnaissance des signes de l’alphabet ainsi que leur classification.
p. 65
Chapitre 4
Reconnaissance et Classification
4.1 Introduction
La main est un objet fortement déformable qu’utilisaient les indiens et les chinois
pour raconter des histoires, animant grâce à sa souple anatomie une multitude de personnages
et d’objets. En outre, quand vous demandez à une personne d’effectuer le même geste dans
deux instants différents, il sera très peu probable que les deux gestes effectués aient une
parfaite correspondance. Le problème sera d’autant plus complexe lorsque ces gestes ou ces
postures seront effectués par différents sujets et seront destinées à communiquer une
sémantique bien exacte, dans un langage bien défini. D’où la nécessité de concevoir une
description fiable et discriminante de la posture de la main, si nous voulons aboutir à une
reconnaissance satisfaisante.
IL s’agira dans ce chapitre de présenter la deuxième étape du système développé et qui
consiste en l’extraction des primitives pertinentes pour la description et la reconnaissance
des postures de la main. Deux différentes approches sont proposées: l’une se base sur un
concept syntaxique et l’autre sur le concept statistique.
Pour l’approche syntaxique, l’idée de base est de détecter dans l’image de la main,
la paume et les bouts des doigts. Cette détection s’effectue moyennant les points de fortes
courbures se situant sur le contour de la silhouette de la main, à savoir les points concaves et
convexes. La détermination de ces points a pour objectif l’estimation de la configuration des
doigts de la main. Par la suite, à cette configuration est associé un descripteur textuel
décrivant la géométrie du contour externe de la main [Larabi et al 2003]. Ce descripteur a
été adapté au problème d’un objet articulé qui est la main et ce en remplaçant les lignes de
jonctions par les courbes de jonction [Dahmani &Larabi, 2011]. Les principaux avantages
de cette méthode résident dans sa capacité à distinguer entre deux configurations de doigts
semblables avec des angles d’orientations différents des doigts et son indépendance de toute
Chapitre 4. Reconnaissance et Classification
base de référence. Cependant, les limites de cette approche résident dans la contrainte que la
paume ou le dos de la paume de la main soient face à la caméra. Ce qui diminue le nombre
des signes de l’alphabet reconnus (dans notre cas 12 postures sur 30 signes de la langue des
signes Arabe). Mais pour une interface homme machine elle peut s’avérer très intéressante
vue la simplicité de son implémentation. Cette méthode va être présentée dans la première
partie de ce chapitre.
L’approche statistique [Dahmani et al 2012] quant à elle consiste en la recherche de
primitives de forme qui pourraient être efficaces pour la reconnaissance des postures de la
main tout en tenant compte de la particularité de l’alphabet de la langue des signes d’une part,
et de la variabilité dans l’anatomie de la main qui diffère d’une personne à une autre d’ autre
part. Des primitives assez discriminatives tout en étant tout aussi fluides sont proposées pour
tolérer les signes effectués d’une manière aléatoire et par différentes personnes.
Pour la recherche de descripteurs de formes adaptés au problème posé, nous avons
tenu compte du fait qu’une posture de la main peut être entièrement représentée par trois
éléments essentiels qui sont : la forme, la configuration des doigts et l’orientation.
4.2 Approche syntaxique
Dans plusieurs domaines de la vision par ordinateur impliquant le traitement de formes

complexes, les données et mesures statistiques peuvent ne pas être assez efficaces pour la
description. Dans ce type de situation, il est plus approprié et plus efficace d’utiliser une
approche syntaxique pour décrire les formes les plus complexes avec des formes plus simples
de leurs parties élémentaires [Fu 1982].
Les parties élémentaires utilisées pour la description syntaxique de l’objet appelées
aussi partitions doivent vérifier certains critères [Sonka et al 1999] et qui sont :
 Le nombre de types de partitions doit être relativement petit.

 Les partitions sélectionnées doivent être capable de former une représentation
appropriée de l’objet.
 Les partitions doivent correspondre à un état significatif de la structure réelle de
l’objet à décrire.
 Les partitions doivent être extraites facilement de l’image.
 Les partitions doivent être aisément reconnaissables en utilisant des méthodes
statistiques de la reconnaissance des formes.
p. 68
Une fois les partitions déterminées, il faut définir une grammaire représentative de ces
primitives. Le langage textuel est utilisé dans la plus part des cas.
Concernant le problème traité dans cette thèse, le contour de la main obtenue suite à
l’étape de segmentation de l’image est d’abord localisé. Les points de fortes courbures sont
ensuite détectés moyennant un des algorithmes existants [Chetverikov 2003]. Les points de
fortes courbures sont sélectionnés pour servir au partitionnement de la silhouette de la main.
4.2.1 Représentation de la forme en partitions
Le partitionnement de la forme de la main que nous proposons dans cette méthode est
basé sur des formes primitives qui sont la paume de la main et les doigts. A ce
partitionnement nous allons associer une description détaillée de chaque partition ce qui
permet de retracer la forme de la main de manière unique et non ambigüe. Pour cela on va
suivre un nombre d’étapes qui vont être exposées dans ce qui suit.
4.2.1.1 Extraction des points de forte courbure
Les points de forte courbure vont être déterminés moyennant l’algorithme de D.

Chetverikov [Chetverikov 2003] qui est très simple et facile à implémenter.
Un repère orthonormé OXY est associé à la boite englobant la silhouette de la main où
OX représente la largeur et OY la longueur de la main. Par la suite, les points de forte
courbure sont déterminés. Un exemple est illustré dans la figure 4.1.
Figure 4.1. De gauche à droite, La silhouette main, la boite englobant la silhouette, points de
forte courbure
p. 69
4.2.1.2. Extraction des points de courbures concaves et convexes
Définition 4.1
Soit M un objet géométrique et soit CM le contour de sa forme, alors un point de forte
courbure m est défini comme étant convexe dans CM si et seulement si le segment pq est
complètement contenu dans M et ce pour n’importe quelle paire de points (p, q) tels que p le
prédécesseur de m et q son successeur, sinon m est défini comme étant concave.
En se basant sur ce simple concept, on détermine les points concaves et convexes du
contour de la forme de la main (voir figure 4.2).
Figure 4.2 Points convexes et concaves
4.2.1.3. Sélection des points concaves d’intérêt.
Les points concaves jugés intéressants sont les points séparant les doigts de la paume.
Heuristiquement, ces points se distinguent des autres points concaves (spécialement de ceux
localisés entres les adductions des doigts), selon deux critères :
L’angle de concavité. En premier, seuls les points avec un angle de concavité tres
petit n’excédant pas un certain seuil sont retenus. Cela permet d’éliminer à priori les points
concaves dus aux distorsions de la main. En outre tous les points concaves se situant dans la
région séparant les doigts de la main ont un angle de concavité très petit vus leurs
profondeurs, et donc le seuil imposé permet aussi d’éliminer les points concaves se situant
entre les adductions des doigts.
La distance : les points concaves obtenus par la sélection précédente vont subir une
autre sélection basée sur la distance. En utilisant la distance euclidienne calculée dans le
repère OXY associée à la boite englobant la silhouette de la main, on détermine des sous-
p. 70
ensembles de points estimés proches toujours par rapport à un seuil. Ces sous ensemble nous
permettront de séparer les points concaves de la région grands doigts c'est-à-dire ceux
séparant les grands doigts de la paume de ceux se situant dans la région du pouce c'est-à-dire
séparant le pouce de la paume. La figure 4.3 illustre la sélection des points concaves d’intérêt
dans les lettres ‘Sad’ et ‘Lam’ de l’alphabet de ArsL.
Figure 4.3 Sélection des points concaves d’intérêt dans la forme de la main.
4.2.1.4 Sélection des points convexes d’intérêt
De même que précédemment, on distingue les points convexes en utilisant le critère de

la distance, ce qui permet de construire des sous-ensembles de points convexes. On notera
l’ensemble des points convexes représentant les bouts des grands doigts ou bien les grands
doigts en adduction avec le pouce et l’ensemble représentant uniquement le pouce (voir la
figure 4.3).
Trois points significatifs sont par la suite rajoutés aux points déterminés
précédemment. Il s’agit du point P1 le point symétrique au premier point convexe par
rapport au premier point concave détecté dans la partie supérieure de la main (caractérisée
plus haut comme la région des grands doigts). Le point P2 le symétrique du dernier point
concave déterminé par rapport au dernier point convexe détecté dans la partie supérieure, et
enfin le point P3 le symétrique du dernier point concave par rapport au dernier point convexe
détecté dans la partie inférieure( caractérisée plus haut comme le région du pouce) ( voir
figure4.4) .
p. 71
Figure 4.4 Schéma général des points d’intérêt
4.2.1.5 Détermination des paraboles de jonction
Intuitivement si on regarde les points concaves (les points de jointures), de la main on

peut penser qu’ils sont reliés par une parabole, ce qui anatomiquement prouvée puisque la
région séparant les métacarpiens des doigts aux trapèzes de la paume (voir chapitre 1) appelé
le col métacarpien à la forme d’une parabole. L’idée donc est de tracer la parabole au sens des
moindres carrées qui pourrait le mieux relier entre ces points dont l’équation est
y  a1x 2  a 2 x  a 3 (4.1)
Pour tracer la courbe optimale, on commence d’abord par tracer au sens des moindres
carrées toutes les courbes de toutes les combinaisons possibles de trois points parmi les
points concaves (si leur nombre est supérieur à 3), et ensuite la meilleure courbe est
sélectionnée comme étant celle qui est à distance minimale de tous les points concaves. La
distance est calculée par la formule
DC  max PI C D ( pi , CC )  (4.2)
Où D ( p i , C C ) est définie par :
D( pi , CC )  Min (a1c x 2  a 2c x  a 3c  yi )2  (x - xi )2 (4.3)

xI
Où I représente la projection de la courbe sur l’axe (OX).

Nous avons constaté qu’on pouvait distinguer deux courbes de jonction CJ1 et CJ2.
CJ1 est la parabole qui relie les points concaves de la région jointe aux grands doigts, alors
que CJ2 est la parabole qui relie les points concaves de la région jointe au pouce (les points
p. 72
concaves de ces deux régions ont été séparés en utilisant des seuils pour la distance
euclidienne et la profondeur. Les points concaves se situant entre les grands doigts sont
relativement plus proches les uns des autres et un peu plus loin de ceux situés entre la paume
et le pouce et ces derniers aussi sont proches les uns des autres, d’autre part heuristiquement
on a remarqué aussi, que les points concaves du pouce avait un angle de profondeur plus petit
comparé aux angles de profondeurs des points concaves des grands doigts ce qui nous a
permis de les distinguer en deux sous-ensembles à chacun nous avons associé une courbe.) .
Un exemple est présenté dans la figure 4.5.
Figure 4.5 Courbes de jonction CJ1et CJ2
4.2.1.6. Détection des partitions de la main
Une fois les deux courbes de jonction déterminées, les partitions de la main sont
détectées en balayant l’image dans le sens de l’axe (OY) par la courbe CJ1 et dans le sens de
l’axe (OX) pour CJ2. Une partition est définie comme étant un ensemble de pixels de la forme
contiguës par rapport à la courbe de jonction CJ1 ou CJ2.
p. 73
Figure 4.6 Les différentes partitions de la main obtenues suite à la localisation des jonctions.
4.2.1.7. Description de la silhouette de la main
Pour la description de la main, nous avons défini un descripteur global qui donne une
information sur le nombre de partitions et sur les courbes CJ1 et CJ2, ainsi qu’un descripteur
détaillé qui est constitué d’attributs associés à la partition (Angle d’inclinaison, hauteur et
largeur relatives).
Le descripteur global
La silhouette de la main est décrite de manière globale en utilisant le descripteur
textuel XLWDOS [Larabi et al 2003] et qui permet de donner une information générale sur
la forme. Ce descripteur textuel est défini à partir des partitions et des jonctions les reliant. En
ce qui concerne la forme traitée, les lignes de jonction ont été remplacées par des courbes
mieux adaptées au problème des articulations de la main.
L’écriture XML du descripteur textuel de la forme de la figure 4.6 est donnée par
l’expression suivante:
<CP><CP>P3 P2 P1 C J1 P5 </CP>CJ2 P4 </CP>, où CP indique partie composée, les
parties P3 P2 P1 citées avant la ligne de jonction CJ1 sont jointes à la partie P5. Le tout est
considéré comme une partie qui est jointe à P4 via la courbe de jonction CJ2.
Descripteur détaillé
La description globale de la main étant insuffisante, il est nécessaire de la compléter
en décrivant toute les parties et courbes de jonction. Cette description tient compte de la
biomécanique de la main et s’appuie fortement sur les des travaux de C. Wagner sur la main
p. 74
du pianiste [Wagner, 1988]. Dans son étude présentée au chapitre 1, C. Wagner [Wagner,
1988] a donné des mesures anthropométriques très précises sur la main et les doigts. Les
caractéristiques alors déterminées dans le travail de cette thèse reposent sur les articulations
des doigts et les mesures anthropométriques les reliant. Une partition est alors séparée de la
main et il s’agit de lui associer les attributs largeur et hauteur relatives ainsi que de son angle
d’inclinaison.
La hauteur relative représente le quotient entre la hauteur de la partition et la hauteur
de la boite englobant la silhouette de la main.
La première et deuxième largeurs relatives représentent le quotient entre les deux
distances en chaque phalange se situant approximativement au premier et second tiers de la
partition [Wagner, 1988] et la largeur de la boite englobant la silhouette de la main.
L’angle d’inclinaison représente l’angle se situant entre la médiane vertical de la
partition et le segment de l’arc délimité par la partition et la courbe.
Dans la figure 4.7 un exemple du descripteur détaillé est présenté.
Figure 4.7. Description détaillée d’une silhouette de la main [Dahmani & Larabi 2011].
Les descriptions globale et détaillée proposées sont invariantes au changement

d’orientation de la main. Ceci a pour cause que la détermination des points concaves est
indépendante de la rotation. L’angle de rotation de la main peut être également déterminé. Un
exemple est présenté dans la figure4.8. Au fait il y’a deux méthodes qui ont été
développées dans notre travail pour résoudre le problème de l’orientation de la main : la
première est simple et elle se base sur la hauteur et la largeur de la main car selon les formules
de Wagner [Wagner 1988] la largeur est relativement plus petite que la hauteur chez la
majorité des humains et dans la majorité des postures de la main. On pouvait alors déterminé
seulement les angles de rotations 0°, 90° , 180°et 270°, de plus cette méthode nécessite
l’encadrement du poignet (voir figure 4.8) . La deuxième méthode plus efficace, se base sur
p. 75
l’algorithme de Fitzgibon [Fitzgibon et al 1999], qui d’une part nous permets d’encadrer le
poignet et d’autre part de déterminer l’angle d’orientation en utilisant l’axe principal de
l’ellipse qui approxime au mieux les points du contour de la main (voir figure 4.9).
Figure 4.8 Prise en compte des rotations de la main de : 0°,90° 180°et 270°.
Figure 4.9 (a) mauvaise détection des points de courbures et de la courbe de jonction CJ1,
application de l’algorithme de Fitzgibon et détermination de l’ellipse. (b) résolution du
problème par le redressement de la main de l’angle de l’axe principal de l’ellipse et
détermination de la courbe CJ1.
4.2.2 Reconnaissance
La reconnaissance de la posture d’une main dans une image requête est réalisée en
utilisant la description globale et détaillée. Ensuite basée sur l’anthropométrie de la main et
p. 76
les attributs calculés, la configuration des doigts à laquelle appartient la posture de la main
requête est déterminée.
L’algorithme suivant décrit les étapes du processus de reconnaissance.
Algorithme
Début
# Nb est le nombre de partitions
Si (Nb=6)
Alors #Les doigts sont tendus, ronds, griffes ou simplement en rotation planaire de la main.
Déterminer les angles des rotations planaires des doigts à partir du descripteur détaillé.
Déterminer les positions des doigts griffe, rond ou tendu à partir du descripteur détaillé
à partir des valeurs des distances relatives et selon les mesures anthropométriques.
Sinon Si Nb< 6,
Alors # Un ou plusieurs doigts sont en adduction et peuvent être aussi pliés.
Si la largeur de la partition est supérieure à la largeur d’un doigt, Alors Selon
la largeur : Deux ou plusieurs doigts sont en adduction ou plusieurs doigts sont pliés.
Fin
La table 4.1 illustre des exemples de cas cités dans l’algorithme. Il s’agit des
positions tendu, griffe ou rond des doigts, de la position adduction et aussi de rotation
planaire gauche ou droite déterminée par l’angle d’inclinaison de la partition.
Table 4.1 Exemples de configurations doigts citées dans l’algorithme
Auriculaire et Pouce et L’index Pouce et Les cinq doigts

Majeur auriculaire tendu et les annulaire tendu, tendus et le majeur
tendus, index tendus, index quatre index et major en rotation
rond, majeur et autres en adduction et planaire de 16° à
Annulaire et annulaire en doigts pliés auriculaire plié gauche angle
pouce griffe adduction d’inclinaison 74°.
p. 77
Le système proposé ne contient pas de bases références de postures de la main

extraites à partir d’un nombre de personnes dont l’anatomie des mains peut influencer la
reconnaissance. Ce qui rend le système d’une part à utilisateur indépendant et d’autre part
performant en temps de calcul. Cependant il est limité dans le nombre de postures qu’il peut
couvrir (paume ou dos de la paume face à la caméra). Ce qui nous a amené à élaborer une
autre approche à savoir la méthode statistique.
Les résultats d’application de cette méthode sont présentés et discutés au chapitre 5.
4.3 Approche statistique
Contrairement à la méthode syntaxique où la main doit être paume ou dos de la paume

doit être face à la caméra, cette méthode couvre un nombre beaucoup plus important de
postures.
Le principe fondamental de ce type de méthodes est de représenter les postures de la
main par un nombre de caractéristiques et chaque posture est perçue comme un point dans
l’espace de ces caractéristiques. Le but est alors de sélectionner des caractéristiques
appropriées qui permettent de différencier les différentes régions dans cet espace
correspondant aux postures de la main, afin que le classifieur puisse les distinguer. Les
systèmes de reconnaissance basés sur les méthodes statistiques sont constitués de deux
phases. La phase d’apprentissage et la phase de la reconnaissance. Dans la phase
apprentissage il faut faire une sélection des caractéristiques, et déterminer un ensemble de
descripteurs appropriés qui permettent de distinguer les postures de la main. Par la suite, il
faut choisir une stratégie d’apprentissage (KNN, SVM, MLP, etc.) en fixant les
paramètres adéquats. Dans la phase reconnaissance, on extrait les caractéristiques de la
posture requête et le classifieur entrainé la reconnait selon les règles de décision qui lui sont
imposées.
Pour la recherche de descripteurs de formes adaptés à notre problème nous nous
sommes basés sur le fait qu’une posture de la main peut être entièrement représentée à
partir de trois éléments de base qui sont : la forme, la configuration des doigts et l’orientation.
Nous avons aussi exploré l’étendue de l’implication de la théorie des moments pour la
représentation des postures de la main utilisées dans la langue des signes. Nous commençons
par introduire les caractéristiques extraites, nous donnerons ensuite la procédure suivie pour
l’étape de classification.
p. 78
4.3.1 Extraction des caractéristiques
Les caractéristiques utilisées dans la méthode statistique, ont été extraites à partir de
trois descripteurs permettant de fournir des informations pertinentes et complémentaires sur
la posture de la main. Il s’agit de :
Les moments orthogonaux discrets de Tchebichef calculés à partir des contours
internes et externe de la silhouette de la main qui donnent un ensemble d’informations
globales sur la forme de la main ainsi que sur le positionnement des doigts à l’intérieur de la
forme.
Les sept moments de Hu invariants à la translation, la rotation et le changement
d’échelle, afin de faire face aux différentes prises de vues.
Un ensemble de caractéristiques géométrique de la silhouette de la main extraite à
partir de l’enveloppe convexe englobant la silhouette de la main. Ces caractéristiques
géométriques donnent une information sur la configuration des doigts tout en tenant compte
de l’orientation de la main. Car des orientations différentes de la main entrainent dans la
langue des signes des signes différents. Dans les sections suivantes les descripteurs utilisés
seront exposés avec plus de détail.
4.3.1.1 Les moments orthogonaux de Tchebichef
Rappel sur la théorie des moments
Les moments jouent un rôle très important dans la reconnaissance d’objets. Ce sont
des quantités scalaires utilisés pour caractériser une fonction et prendre ses caractéristiques
significatives. Ils ont été largement utilisés durant de longues années en statistique et pour la
description de la forme d’une fonction de densité, en mécanique des corps rigides pour
mesurer la distribution de la masse dans un corps.
Du point de vue mathématique, les moments sont les projections d’une fonction sur
une base polynomiale (d’une manière similaire à la transformé de Fourier qui est la
projection d’une fonction sur une base de fonctions harmoniques). Nous donnons ci-après
quelques notions utiles.
Définition 4.2
Une fonction image est une fonction réelle à deux variables f ( x, y ) définie sur un
domaine compact D  R 2 et possédant une primitive finie non nulle.
p. 79
Définition 4.3
Un moment général M pq d’une image f ( x, y ) , où p, q sont des entiers positifs et
r  p  q est appelé l’ordre du moment défini par
M p , q   Ppq ( x, y) f ( x, y)dxdy (4.4)

D
Où les Pij ( x, y ) est une base de polynômes définie sur D .
Dépendant de la base polynomiale utilisée, on reconnait le type de moments

correspondants.
Moments de Tchebichef
Définition 4.4
Si la base polynomiale Pij ( x, y ) qui intervient dans la définition des moments est
orthogonale c'est-à-dire ces éléments vérifient la condition d’orthogonalité :
 P pq ( x, y) Pmn ( x, y) dxdy  0 (4.5)

,
ou encore la condition d’orthogonalité pondérée
 w( x, y).P pq ( x, y) Pmn ( x, y) dxdy  0 (4.6) ,

pour tous les indices p, q, m, n tels que p  m ou q  n . Alors les moments sont
appelés moments orthogonaux.
Il existe un certain type de polynômes orthogonaux définis directement sur un
ensemble discret de points, et sont donc appropriés pour les images [Flusser et al 2009].
Parmi ce type de polynômes, ceux de Tchebichef (1821-1894). Les moments de Tchebichef
ont été introduits par R.Mukundan et al [Mukundan et al 2001]. Ce sont de bons
descripteurs de la forme capables de procurer des caractéristiques discriminatoires
[Mukundan et al 2001]. Les moments de Tchebichef discrets T pq d’ordre ( p  q) sur une
image f ( x, y ) d’un espace discret N  N sont définis par :

N 1 N 1
T pq   t p ( x) tq ( y ) f ( x, y )
~ ~
( 4 .7 )
x 0 y 0
~
où t p ( x ) est le polynôme normalisé de Tchebichef défini par :
~ t p ( x)
t p ( x)  (4.8)
~( p, N )
p. 80
1 22 p2
N (1  2 )(1  2 )...(1  2 )
~
 ( p, N )  N N N (4.9)
2 p 1
Les polynômes discrets de Tchebichef t p (x ) sont définis comme suit [Baykaktar et
al 2007] :
t p ( x)  (1  N ) p 3 F 2( p, x,1  p;1  N ;1) (4.10 )
où 3 F 2 est la fonction hypergéométrique définie par :

n
(a1 )v (a2 )v (a3 )v z v
3 F2 (a1 , a2 , a3 ; b1 , b2 ; z )   (4.11)
v 0 (b1 )v (b2 )v v!
(a) v est le symbole de Pochhammer défini par
(a) v  a(a  1)...( a  v  1) (4.12)
La notion de fonctions hypergéométriques est une notion reliée aux séries

hypergéométriques. Si ces séries sont convergentes, leurs limites définiront alors une fonction
hypergéométrique. Les fonctions hypergéométriques contiennent les fonctions de Bessel, la
fonction gamma, et les intégrales elliptiques.
Exprimer les polynômes orthogonaux par les fonctions hypergéométriques est plus
d’une importance théorique que pratique. En pratique les formules récurrentes sont meilleures
pour l’implémentation et le calcul.
Utilisation de la théorie des moments
Dans la méthode proposée, les moments orthogonaux de Tchebichef sont appliqués sur
les contours internes et externe de la forme de la main. Tous les travaux relatés dans la
littérature qui ont utilisé les moments pour la reconstruction ou la reconnaissance ont appliqué
les moments orthogonaux de Tchebichef sur le contour externe, sur l’image binaire ou bien
sur l’image en niveau de gris [Mukundan et al 2001 ; Chang et al 2006 ; Gu & Su 2008 ;
Kelly et al 2010 ; Pryal & Bora 2010, Pryal & Bora 2013].
Cette nouvelle représentation nous a permis de distinguer entre les formes de la main à
contour externes semblables et qui avaient des contours internesdifférents (détails à l’intérieur
de la forme dus aux positions de doigts). Un exemple de lettres d’ArSL (langue des signes
Arabe) est présenté par la figure 4.10 où les contours externes ne sont pas suffisants pour
distinguer les signes (‘He’, ‘Sad’) et (‘Dal’, ‘Dhal’) de ArSL. En outre, notre motivation
d’appliquer spécialement les moments de Tchebichef, à l’encontre des autres moments
orthogonaux par exemple ceux de Krawtchouk, est justifié par deux éléments:
p. 81
Figure 4.10 Utilité des contours internes : (a,d) images de lettres (‘He’ et ‘Sad’ et ‘Dhal’ et
‘Dal’) de ArSL. (b,e) Contours externes, et (c,f) Contours internes et externes.
Le premier concerne une étude récente [See et al 2008], où les auteurs ont démontré
que les moments de Tchebichef sont les mieux stables comparés aux autres moments
orthogonaux. L’expérimentation a été conduite sur un grand nombre de bases publiques.
Le second est plus en relation avec la représentation que nous avons utilisée à savoir
les contours externe et internes qui au point de vue région représente ce qu’on appelle une
région rugueuse, ou au sens mathématique singulière. Or, dans la même étude citée
précédemment [See et al 2008], les moments de Tchebichef ont été aussi comparés d’une
part à la transformée en cosinus discret (DCT) et d’autre part aux autres moments pour la
reconstruction des régions rugueuses et les résultats obtenus ont démontré que les moments
de Tchebichef sont les mieux adaptées à ce type de régions.
4.3.1.2 Moments de Hu
Les moments Hu ou appelés encore les 7 moments invariants à la translation,

changement d’échelle et rotation, ont été introduits par Hu 1962 [Hu 1962]. Ils ont été
déduits à partir de la théorie des invariants algébriques. Ils sont invariants à toute rotation
planaire autour de l’origine. Les moments Hu sont la formulation non orthogonale des
moments centraux, ils s’écrivent comme indiqué par l’équation 4.13.
p. 82
1  2, 0  0, 2


2  ( 2,0  0, 2 )  41,1
2 2

3  ( 3, 0  31, 2 )  (32,1  0,3 )
2 2

4  ( 3, 0  1, 2 )  ( 2,1  0,3 )
2 2

 
5  ( 3, 0  31, 2 )(3,0  1, 2 ) ( 3, 0  1, 2 )  3( 2,1  0,3 ) 
2 2
(4.13)


(32,1  0,3 )(2,1  0,3 ) 3( 3, 0  1, 2 )  ( 2,1  0,3 )
2
 2
 6 2, 0 0, 2  3, 0 1, 2 2 ,1 
  (    ) (    ) 2  (    ) 2  4 (    )(   )
0,3 1,1 3, 0 1, 2 2 ,1 0,3
 7 2 ,1 0,3 3, 0 
  (3   )(   ) (    ) 2  3   2 
1, 2 3, 0 1, 2 2 ,1  0,3
  2

( 3,0  31, 2 )(2,1  0,3) ) 3( 3, 0  1, 2 )  ( 2,1  0,3 ) 2
où les moments  pq sont définis à partir des moments centraux donnés par les
formules 4.14 et 4.15:

N M
m pq   i p j q f (i, j ) ( 4.14 )
i 1 j 1
et
N M
u pq   (i  i ) p ( j  j ) q f (i, j ) (4.15 )
i 1 j 1
où
m10 m
i et j  01 . Les moments  pq sont alors définis par la formule 4.16.
m00 m00
u pq
 pq  r
( 4.16 )
u00
avec r  [( p  q) / 2]  1 et [ ] représente la partie entière.
Ces moments ont été utilisés pour deux raisons essentielles :
 En premier lieu, pour que le système soit fluide avec les postures qui sont mal faite
ou légèrement en rotation par rapport aux postures modèles. Un descripteur invariant
est nécessaire pour avoir une reconnaissance qui ne soit pas trop déterministe.
 En second lieu, D. kelly et al. [Kelly et al 2010] ont prouvé que les moments
invariants de Hu permettent de différencier les objets à faible changement de contours.
Entre autres, nous avons constaté que dans l’alphabet de la langue des signes Arabe
ce changement figure souvent pour exprimer des lettres complètement différentes. Un
exemple illustrant ce constat est présenté par la figure 4.11.
p. 83
Figure 4.11 Exemple de faible changement de contours, lettres ‘Jiem’ et ‘Ha’ dans ArSL.
La distance utilisée pour les vecteurs caractéristiques des moments Hu est la distance
obtenue par la différence totale des moments augmentés, jugée comme étant meilleure que la
distance euclidienne pour les moments Hu.
Cette distance est définie par les formules 4.17 et 4.18.
7
D Hu ( H K , H l )    H K (i )   H l (i ) (4.17)
i 1
1
où  H x (i )  (4.18)
sign( H x (i ))  log( H x (i ))
4.3.1.3 Caractéristiques géométriques
Nous avons proposé un ensemble de caractéristiques géométriques afin d’obtenir une

information sur la configuration des doigts et l’orientation de la main.
Les caractéristiques géométriques que nous avons proposées dans notre travail sont
définies à partir de l’enveloppe convexe qui entoure la forme de la main. Il s’agit de :
1. La surface relative : la surface relative est le rapport entre la surface de la main et la

surface de l’enveloppe convexe l’englobant.
2. La distance minimale relative : représente le rapport entre la distance minimale Dm in
des distances entre les sommets de l’enveloppe convexe et le centre de gravité, et la
hauteur de la boite englobant la main L g .
3. La distance maximale relative : représente le rapport entre la distance maximale Dm ax

des distances entre les sommets de l’enveloppe convexe et le centre de gravité, et la
hauteur de la boite englobant la main Lg .
p. 84
La hauteur de la boite englobant la main a été utilisée dans ce travail pour distinguer
les signes de mêmes configurations avec orientations différentes tout en normalisant les
données pour le changement d’échelle. En effet l’orientation dans la langue des signes peut
donner des signes différents (voir l’exemple donné par la figure 4.12).
Notons que la surface de la main a été largement utilisée en reconnaissance de la
langue des signes [Bauer & Hienz 2000; Zahedi et al 2006]. De même, les points les plus
loin du centre de gravité ont été utilisés pour déterminer les bouts des doigts sans tenir compte
du changement d’orientation [Malima et al 2006].
Figure 4.12 (a) Enveloppe convexe d’une forme de la main.(b) Lettres ’Ayn’ et ‘Ta’ de
l’ArSL.
4.3.2 Classification
La classification est une étape très importante dans tout système de reconnaissance car
il faut déterminer quelle est la stratégie approprié à adapter pour avoir un bon résultat. Nous
avons opté pour deux types de classificateurs les K plus proches voisins (KNN) et les
machines à vecteurs de support (SVM).
Les KNN, en dépit de leur simplicité ont fait leurs preuves dans plusieurs domaines où
il est nécessaire de faire une bonne classification, particulièrement dans le domaine du
manuscrit. Ceci a motivé leur utilisation dans ce travail, car la main essaye de transcrire la
lettre manuscrite en utilisant les déformations qui lui sont propres et qui lui sont accessibles
grâce à son haut degré de liberté. Cette transcription se fait de manière naturelle selon
p. 85
l’anatomie de la main de chaque individu ce qui implique beaucoup de prototypes pour une
seule lettre. D’un autre point de vue, T. Hastie et al [Hastie et al 2008] ont prouvé que les
KNN sont des classifieurs qui sont très performants lorsque les classes ont beaucoup de
prototypes et que les délimitations de la décision sont très irrégulières.
Les SVM quant à eux ont été utilisés dans le travail de cette thèse pour leurs fortes
capacités de classification, et surtout dans le domaine de la reconnaissance des postures de la
main où ils ont été beaucoup abordés ces dernières années [Kelly et al 2010; Dardas &
Georganas 2011; Premartne et al 2013] , en outre dans la reconnaissance du manuscrit ils
sont considérées au même titre que les KNN comme étant les classifieurs les plus efficaces
dans le domaine [Hmeidi et al 2007], et comme le signe de l’épellation digitale transcrit la
lettre manuellement, cela justifie leurs utilisation dans ce travail.
4.3.2.1 Classification KNN
La classification KNN a utilisé par notre système d’abord pour la classification de

chaque descripteur défini dans la section 4.3. La distance euclidienne a été utilisée pour le
descripteur des moments discrets orthogonaux de Tchebichef et pour le descripteur proposé
Hu
des caractéristiques géométriques. La distance D définie par l’équation (4.17) section
4.3.1.2 a été utilisée pour le descripteur des moments invariants de Hu.
La classification KNN a aussi été utilisée par la suite dans la combinaison
séquentielle de deux descripteurs : le premier descripteur donne un ensemble de voisins pour
l’image requête moyennant le classificateur KNN, le deuxième descripteur s’applique sur cet
ensemble de voisins sélectionnés par le premier descripteur et on sélectionne par le classifieur
1NN la lettre reconnue.
Pour la combinaison séquentielle de trois descripteurs le premier descripteur donne un
ensemble des plus proches voisins de l’image requête moyennant le classificateur KNN les
voisins proposés sont encore sélectionnés avec le deuxième descripteur par la technique de
classification des KNN, pour n’en garder qu’un sous ensemble de l’ensemble de départ et
enfin le troisième sélectionne la lettre reconnue en utilisant le classifieur 1NN.
La combinaison parallèle s’effectue de la manière suivante chaque descripteur propose
un ensemble de voisins selon le classificateur KNN, ensuite la lettre reconnue est celle qui a le
nombre d’occurrences le plus important (principe fondamental des KNN), quand les trois
descripteurs sont pris comme un seul.
p. 86
4.3.2.2 Classification SVM
Dans le travail de cette thèse, nous avons adopté la classification SVM un-contre –
tous avec le noyau Gaussien à base Radiale (RBF). D’où la nécessité de construire autant de
SVM qu’il y’a de classes dans la base utilisée. En outre nous avons fait une extension de
chaque SVM par la méthode de J.C Platt [Platt 1999], et qui consiste à attribuer à un requête
x la probabilité qu’elle appartienne à uneclasse y, pr ( y  1 / x) . Cette probabilité a été
approximée par une fonction sigmoïde
1
pr ( y  1 / x)  (4.19 )
1  exp( Af  B)
Où A et B sont déterminés expérimentalement.
Ce modèle est facile à calculer et requiert une procédure d’optimisation non-linéaire
du couple de paramètres (A, B).
En effet, soit un ensemble d’apprentissage de données ( f i , yi ) , on définit à partir de cet
yi  1
ensemble, un nouvel ensemble ( f i , ti ) , où ti 
2
Le choix des valeurs A et B se fait en minimisant la valeur de l’entropie croisée des
données qui s’écrit :
Entropie   ti log( pi )  (1  ti ) log(1  pi ) (4.20 )
i
où la somme est réalisée sur l’ensemble des données d’apprentissage et

1
pi  (4.21)
1  exp( Af i  B)
La minimisation de la fonction (4.20) est un problème de minimisation à deux
variables, et donc peut être résolu par différents algorithmes d’optimisation.
La classification finale a été effectuée de la manière suivante : chaque SVM
identifiait la lettre avec un taux de confiance exprimé par la probabilité qu’elle appartienne à
sa classe, la classe reconnue correspondait à celle qui avait la plus grande probabilité.
Les deux techniques de classification KNN et SVM présentées ci-dessus, ont été
utilisées pour classifier 10 lettres de langue des signes Latines de la base benchmark de
Triesch [Triesch et Von 2002], ainsi que pour classifier 30 lettres de la langue Arabe des
signes de la base ArSL que nous avons construite au niveau de notre laboratoire LRIA, nous
donnerons plus de détail sur ces deux bases dans le chapitre expérimentation.
p. 87
4.4 Conclusion
Dans ce chapitre nous avons présenté les différentes approches adoptées dans notre
travail pour la résolution du problème de la reconnaissance et de la classification des postures
de la main destinées à l’alphabet de la langue des signes.
D’abord nous avons proposé une méthode syntaxique fondée sur le partitionnement
de la main en ces parties élémentaires à savoir les doigts et la paume. Ce partitionnement a
servi pour une description textuelle de la forme de la main. En outre nous avons complété
cette description par une description détaillée de chaque partition. Nous avons montré que
cette description est exploitable pour la reconnaissance de certaines postures de la main.
Nous avons également présentée notre approche statistique qui repose sur la théorie des
moments. Nous avons aussi proposé une nouvelle représentation de la forme de la main, basée
sur les contours externes et internes de sa silhouette. Les moments de Tchebichef ont été
appliqués sur les contours internes et externes afin de prendre en considération les contours
internes qui traduisent la position des doigts dans la forme.
Un ensemble de caractéristiques géométriques qui déterminent la configuration des
doigts, tout en tenant compte de l’orientation de la main ont aussi été déterminées. Enfin nous
avons exposé la méthode de calcul des probabilités à postiori, utilisée par notre système pour
le classifieur SVM. Le chapitre suivant sera consacré à la validation des approches proposées
où les résultats obtenus seront commentés et discutés.
p. 88
Chapitre 5
Validation des approches proposees
5.1 Introduction
Nous exposons et discutons dans ce chapitre le travail d’expérimentation réalisé pour

la validation des différentes méthodes proposées. Dans un premier temps, nous validons notre
méthode de segmentation sur des images avec des fonds complexes et prises sous des
éclairages divers. Nous enchainons, avec les tests obtenus par la méthode syntaxique, en
discutant ses points positifs et négatifs. Une première analyse des descripteurs statistiques
choisis en utilisant la classification des KNN est présentée. Nous évaluons ensuite leurs
performances individuellement et en combinaison. Les combinaisons s’effectuent de manière
séquentielle deux à deux et dans différents ordres afin de déterminer si les descripteurs offrent
des informations complémentaires les uns aux autres et s’il n’y a pas de redondance dans les
données acquises par chaque descripteur. Pour la meilleure architecture séquentielle obtenue
de deux descripteurs, nous ajoutons le troisième descripteur afin d’atteindre les limites des
taux de reconnaissance que peut avoir le model séquentiel. Nous combinons enfin de
manière parallèle les trois descripteurs pour dessiner le meilleur schéma combinatoire que
nous pouvons leur associer.
Dans le but d’améliorer encore les résultats obtenus sous le mode d’utilisateur
indépendant qui représente l’un de nos principaux objectifs, la meilleure architecture
déterminée dans la phase précédente est testée avec un classifieur SVM. Les SVM ont été
utilisés avec un noyau RBF et selon la décision de classification un-contre-tous. Pour obtenir
des classes de probabilités c'est-à-dire une classification SVM plus précise, nous avons utilisé
l’extension des SVM proposée par J.C. Platt [Platt 1999]. Les résultats obtenus dans cette
étape sont discutés et comparés avec ceux obtenus par le classifieur KNN.
Ci-après, nous présentons l’étape de collecte de données utile pour la reconnaissance
de l’alphabet de la langue des signes.
Chapitre5. Validation des approches proposées
5.2 Collecte des données
Afin de valider les approches exposées dans les chapitres précédents, nous avons testé
notre système sur deux bases distinctes, une base de la langue Arabe de l’alphabet des signes,
et une autre base benchmark qui est la base de Triesch [Triesch et Von 2002] de la langue
latine des signes de l’alphabet.
a. La base de l’alphabet de la langue des signes Arabe
Il existe dans la littérature deux bases de l’alphabet de l’ArSL. Celle élaborée par O.
Al-Jarrah et A. Halawani [Al –Jarrah & Halawani, 2001], et celle construite par M. Al-
Roussan et M. hussain [Al-Roussan & Hussain, 2001].Les deux travaux ont été déjà
présentés et discutés dans le chapitre 2. Dans la première base, les auteurs n’ont pas pris en
considération le mode ‘utilisateur indépendant’ et donc il fut impossible pour nous de séparer
les différents sujets. Dans la seconde base, les sujets portaient des gants colorés. C’est pour
cette raison que nous avons construit notre propre base de l’alphabet de l’ArSL au laboratoire
LRIA. Les postures ont été effectuées sur un fond simple par 24 volontaires en partie des
étudiants et certains enseignants de la faculté, et 8 autres volontaires étudiants de la faculté
sur une multitude de fonds complexes. Chaque sujet a effectué dans une moyenne de 4 fois
les 30 lettres de l’alphabet de la langue des signes Arabe basée sur la convention générale de
la langue Arabe des signes (voir figure 5.1(a)).
Les postures ont été effectuées de manière aléatoire gérées par la seule contrainte que
la langue des signes imposait, d’où la variation dans la réalisation de la lettre ainsi que dans
le changement d’échelle. Par exemple, la lettre ‘Sad’ de la langue Arabe des signes (ArSL),
illustrée par la figure 5.1(b).La figure 5.1(c) représente les différents fonds complexes utilisés
pour la construction de la base.
b. La base de Jochen-Triesch des postures statiques de la main.
Cette base est constituée de 10 postures de la langue des signes latines réalisées par 24
volontaires sur 3 fonds distincts : clair, sombre, et complexe. La figure 5.2 présente les lettres
de cette base effectuées sur des fonds clairs et sombres.
Sur ces deux bases, nous avons réalisé une série d’expérimentations dont nous allons
exposer les différentes étapes. Comme la phase de segmentation est la phase cruciale de tout
système de reconnaissances des gestes et postures de la main et ce quel que soit la méthode
p. 90
adoptée, une mauvaise détection de la main entraine inévitablement une mauvaise

reconnaissance. Nous allons commencer par présenter les tests obtenus par notre méthode de
segmentation.
Figure 5.1 (a) Alphabet de l’ArSL. (b Les différentes réalisations de la lettre ‘sad’.(c) Les
différents fonds utilisés
p. 91
Figure 5.2 Les 10 postures de la base de Triesch
5.3 Classification des pixels peau dans un arrière-plan
complexe.
Pour valider notre méthode de segmentation, un ensemble d’expériences ont été

réalisées en prenant compte trois problèmes:
 L’ombre et la lumière
 Les différents fonds
 Le fond bois sous différents éclairages
Des images de la main ont été prises avec différents fonds et sous des conditions
d’éclairage différentes. Les résultats obtenus sont présentés ci-après.
5.3.1 Effet de l’ombre et de la lumière dans différents backgrounds
L’ombre et la lumière sont les premiers problèmes qu’on peut rencontrer lors de la
segmentation. Dans les tests que nous avons effectués, nous avons essayé plusieurs types
d’éclairage (scène d’intérieur : éclairage de maison ou de bureau ; scènes extérieurs (lumière
du jour en cours de changement). Nous n’avons pas choisi ou fixé un type d’éclairage
particulier. Les résultats obtenus sont regroupés dans la figure 5.3.
Pour les trois premières images sont prises sous la lumière du jour, le soleil était le
seul moyen d’éclairage et les images étaient prises sous différents angles avec des parties de
p. 92
la main sous la lumière et d’autres parties sous l’ombre. La dernière image a été prise à
l’intérieur sous la lumière d’une lampe ordinaire. Nous pouvons voir que globalement les
pixels peau de la main sont bien détectés en considérant que dans ce cas le fond n’est pas très
complexe. Néanmoins, pour des images sous un éclairage non contrôlé les résultats sont
satisfaisants.
Le problème le plus important que nous avons rencontré lors de la segmentation c’est
celui en rapport avec l’ombre que la main peut projeter sur elle-même. Les pixels peau de la
main qui sont ombrés sont mal classifiés. La figure 5.4 illustre un exemple de cette situation.
Nous pouvons clairement voir comment les pixels peau qui sont sujets à l’ombre de la main
et donc ne sont pas détectés et peuvent modifier la forme.
5.3.2 Différents fonds et différentes couleurs
La multitude de couleurs qu’on peut rencontrer dans un fond peut influencer

négativement les résultats de la segmentation de la peau. Afin de valider notre approche, des
images de la main ont été prises dans des fonds à multitudes de couleurs. La figure 5.5
illustre quelques résultats de segmentation. Avec quelques imperfections lorsqu’il s’agit de
bois et d’herbe comme fond (voir la première image), nous pouvons constater que l’approche
proposée peut faire face aux changements de fonds.
Figure 5.3. En haut : Images de la main avec différents types d’éclairages, En bas : Résultats
de segmentation
p. 93
Figure 5.4 Effet de l’ombre de la main sur elle-même (les pixels blancs sont classifiées non
peau, mal classifiés)
Figure 5.5 Résultats de segmentation avec différents fonds.
5.3.3 Fond bois avec occlusion de la lumière
Plusieurs travaux considèrent que la couleur du bois est majeur problème pour la
segmentation de la peau [Kakumanu et al 2007]. Cela est dû en grande partie à la
ressemblance dans les données couleur entre le bois et la peau et aussi au fait que le bois
reflète la lumière. La robustesse de notre algorithme de segmentation a été testée en prenant
en compte des images de la main sur un fond bois (l’armoire) avec occlusion. Les résultats
obtenus sont illustrés par la figure 5.6 et montrent l’efficacité de la méthode dans des
conditions très difficiles.
p. 94
5.4 Prétraitement après la segmentation
Après avoir segmenté les images, un prétraitement est nécessaire pour la base de
l’alphabet Arabe qui consiste à séparer la main du bras dans l’image (Cropping the wrist).
Cette tâche constitue l’une des difficultés posées pour la résolution du problème de la
reconnaissance des gestes et postures de la main. En effet, sans séparation, le bras est une
source d’ambiguïté pour la reconnaissance d’où la nécessité de recadrer le poignet.
Figure 5.6. (a) Images de la main sur un fond bois (b) Segmentation par la méthode proposée.
5.4.1 Recadrage du poignet
Le bras peut être un sujet de confusion pour la reconnaissance et beaucoup de travaux

dans la littérature évitent le traitement de ce problème en faisant porter au sujet des vêtements
à manches longues. Dans ce travail la procédure de séparation de la main du poignet a été
proposée dans les travaux [Licsr & Szirnyi 2005 ; Wah & Ranganath 2002]. Le principe
est simple, et il se base sur la variation de largeur de la région du bras en allant vers la main.
Avant le poignet la largeur est approximativement fixe. Au niveau du poignet la largeur
augmente. Dans notre approche pour cette méthode l’orientation de la main est d’abord
déterminée par l’algorithme de A. Fitzgibbon [Fitzgibbon et al 1999]. Il s’agit d’un
p. 95
algorithme efficace pour approcher avec des ellipses un ensemble de données dispersées en
utilisant l’approximation des moindres carrée. L’orientation de la main est obtenue par
l’orientation de l’ellipse et prend une valeur de 0 à 2 . Une fois que l’orientation est
déterminée, le calcul de la largeur se fait sur l’axe principal de l’ellipse, comme est illustré
par la figure 5.7.
Figure 5.7 (A gauche) Procédure de recadrage du poignet : l’image segmentée de la main

avec le bras, (Au centre) Procédure du recadrage en utilisant l’axe principal de l’ellipse pour
l’orientation et la largeur du contour (A droite) Image de la main obtenue par le recadrage du
poignet.
5.4.2 Extraction du contour de la forme de la main
Pour la base de l’alphabet de ArSL, le contour de la main est extrait à partir de la main
segmentée en utilisant l’algorithme de Canny-Derriche (voir dans la figure 5.8(a)).
Les images de la base de Jochen-Triesch sont en niveau de gris de taille 128x128. Pour
extraire le contour, nous appliquons d’abord une égalisation de l’histogramme de niveaux de
gris, suivi par l’application d’un filtre Gaussien de taille 5x5 avec   0.5 . L’extraction de la
région de la main se fait moyennant un filtre adaptatif global. Enfin les opérations
morphologiques dilatation et érosion sont appliquées avec une fenêtre de 3x 3 (voir figure
5.8(b)).
p. 96
Figure 5.8 (a) Extraction du contour de la lettre ‘Waw’ de l’alphabet ArSL de gauche à
droite : Image originale- Image segmentée –Binarisation- Extraction du contour. (b)
Extraction du contour de la lettre G de la base de Jochen-Triesch de gauche à droite de haut
en bas : Image originale- Egalisation d’histogramme et filtarge gaussien- Binarisation-
Erosion- Dilatation, Extraction de contour.
5.4.3 Extraction des contours internes
Les contours internes et externes représentent tous les points où l’intensité change
brusquement. Le changement brusque d’intensité ne reflète pas seulement le contour externe
mais aussi les détails à l’intérieur de la forme. Dans le cas de la main, c’est au niveau des
doigts que les contours internes sont localisés. La procédure pour détecter les contours
internes se consiste à réaliser les étapes suivantes:
Conversion de l’image. Au départ les images de la base ArSL sont converties en
niveaux de gris et leurs histogrammes en niveaux de gris sont égalisés.
Filtrage de l’image. Après la conversion de l’image, un filtre Gaussien 5x5 est
appliqué avec   0.625. Ensuite les contours internes sont déterminés avec un filtre à
seuillage adaptatif.
Réduction du bruit .Les images obtenues après la précédente étape peuvent contenir
beaucoup de bruit et particulièrement des points singuliers. Pour éliminer les points singuliers,
un filtre médian 5x5 est appliqué deux fois sur l’image obtenue. Un exemple est donné dans la
figure 5.9.
p. 97
Figure 5.9. Extraction des contours internes de la lettre V de la base statique de Jochen-
Triesch
5.5 Application de la méthode syntaxique
La méthode syntaxique a été testée sur :
 Un ensemble de postures libres effectuées aléatoirement paume ou dos de la main

et face à la caméra, représentant les 12 lettres de la base de l’alphabet de ArSL.
 Les chiffres de 0 à 9 pris en temps réel avec une caméra web,
 Les gestes ‘Fermer’, ‘ouvrir’, ‘D’accord’,’Ily’, ‘Pointer’ et ‘Cornes’.
5.5.1 La reconnaissance des configurations doigts
Les expérimentations menées consiste à reconnaitre les postures de la main paume

avec dos de la paume face à la caméra et mouvements libres de doigts (adduction, abduction,
tendu, rond, griffe, plié).
Les partitions sont obtenues suite à la détermination des points de courbures et des
deux courbes de jonction CJ1et CJ2. La courbe CJ1 sépare la paume de la main des grands
doigts et la courbe CJ2 la paume de la main du pouce. La reconnaissance de la configuration
des doigts du type de mouvement réalisé (tendu, rond, griffe ou en adduction) est déterminée
grâce à la description textuelle globale et détaillée et à l’algorithme de reconnaissance
exposés dans le chapitre précèdent.
Le tableau 5.1 dresse un aperçu sur la reconnaissance effectuée pour les différentes
configurations doigts testées par notre méthode. La reconnaissance dépend fortement de la
bonne localisation des courbes de Jonction CJ1 et CJ2. Dans ce tableau nous présentons les
p. 98
résultats obtenus par la méthode syntaxique pour la localisation des partitions à savoir des
doigts ou de parties de doigts, ou encore d’adduction de plusieurs doigts, ainsi que la
reconnaissance du type de mouvement effectué par les doigts.
Table 5.1 Reconnaissance des configurations doigts par la méthode syntaxique.
Main Pouce Index Majeur Annulaire Auriculaire
Griffe Rond Tendu Griffe Tendu
Tendu Plié Plié Plié Tendu
Tendu Tendu adduction index, majeur et annulaire Tendu
Tendu Tendu Tendu Plié Plié
plié tendu Plié Plié Plié
L’application de l’approche syntaxique pour la reconnaissance des configurations

doigts nous a permis de reconnaitre 12 lettres sur 30 lettres de la langue des signes Arabe et
qui sont présentées dans la figure 5.10
p. 99
Figure 5.10 12 Lettres de L’ArSL reconnues: Alef, Ba , Ta , Tha, Shien, Sad, Dhad, Lam,
Miem, Ya, La, et T.
Pour les autres lettres, le fait que la méthode syntaxique imposait une contrainte sur la
prise de vue, à savoir la main doit être dos ou paume face à la camera, empêchait leurs
description de manière fiable et non ambiguë, car pour ces lettres la forme significative
permettant de les distinguer des autres se situait sur un angle de vue différent à celui imposé
par cette méthode. La forme significative d’une lettre est réalisée en réalité dans le langage
des signes en faisant intervenir le mouvement du poignet, ce qui permet aux malentendants de
communiquer clairement. Dans le cas d’un système automatique monoculaire comme c’est le
cas de notre système, il est impossible de recouvrir toutes les prises de vues significatives.
La figure 5.11 illustre un ensemble de lettres (‘Fa’,Waw’,’He’ et ‘Qaf’) sur trois prises
de vue à savoir dos ou paume face à la caméra et la prise de vue significative réalisée par le
sujet en faisant intervenir le mouvement du poignet est encadré en rouge dans l’image.
Figure 5.11 Postures prises sous différents angles.
p. 100
5.5.2 Méthode syntaxique pour reconnaitre certains gestes et postures

en temps réel
Vue la simplicité de son implémentation d’une part, et son indépendance à une base de
référence quelconque qui pourrait alourdir le temps de recherche et d’appariement d’autre
part, la méthode syntaxique a été aussi testée pour la reconnaissance de certains gestes et
postures de la main en temps réel pour une finalité d’interface homme machine.
Comme test, les chiffres de 0 à 9 ont été utilisés, ainsi que certains gestes de l’IHM
gestuelle à savoir ‘Ouvrir’, ‘Fermer’, ‘D’accord’, ‘Cornes’,’Ily’ et ‘Pointer’. La figure 5.12
présente quelques résultats obtenus pour les chiffres.
- le grand cercle en vert représente le centre de gravité de la main,

- les petits cercles en noir les points convexes d’intérêt (bouts des doigts)
- ceux en bleu les points concaves d’intérêt,
- différentes couleurs vert, bleu, rouge, et mauve sont attribuées aux contours
des différentes partitions détectées par l’algorithme en-dessus de la courbe
CJ1, aucune couleur n’est associée au contour du pouce.
- la boite englobant la silhouette de la main et l’ellipse de Fitzgibon [Fitzgibon et
al 1999] en gris.
p. 101
Figure 5.12 Les chiffres reconnues par une Web Cam en temps réel
La figure 5.13 illustre les résultats pour certains gestes.
p. 102
p. 103
Figure 5.13 Reconnaissance de certains gestes de l’IHM gestuelle en temps réel.
La méthode syntaxique qu’on a développée [Dahmani & Larabi 2011] a un avantage

réel de simplicité d’implémentation et de sa capacité d’opérer en temps réel. Le seul
inconvénient de cette méthode se situe dans son incapacité à couvrir toutes les postures de la
main. Le temps d’exécution avec utilisation d’une caméra Web de 2 Méga pixels, n’a pas
dépassé 0.2 ms sur un Microprocesseur : Intel(R) Core (TM) I5-2430M CPU @ 2.40 GHZ,
mémoire vive (RAM) : 4GO, disque dur : 500 GO.
5.6 Application de la méthode statistique
Comme la méthode syntaxique ne peut couvrir qu’un certain nombre de postures, la

méthode statistique a été développée afin de palier à ce problème. Nous présentons ci-après
les tests opérés avec la méthode statistique et concernent les éléments suivants:
p. 104
 Détermination de l’ordre optimal des moments de Tchebichef

 Apport des contours internes relativement aux contours externes
 La meilleure architecture de Combinaison
 Utilisation du classificateur SVM,
 Etude de la robustesse de la méthode
 Comparaison avec l’état de l’art
5.6.1 Détermination de l’ordre optimal des moments de Tchebichef
L’ordre optimal choisi pour le calcul des moments de Tchebichef est la première
phase à effectuer. L’ordre  des moments à calculer affecte potentiellement la qualité de la
représentation. Pour un ordre élevé  de calcul des moments on peut complètement
reconstruire l’objet. Or le nombre de moments calculés  augmente quadratiquement avec
l’ordre  comme cela est présenté dans l’équation 5.1 [Chang et al 2006]. Donc on en déduit
qu’un ordre très élevé bien qu’efficace, est très couteux en temps de calcul. Pour la
reconnaissance, nous avons alors déterminé un ordre qui permet d’alléger le système tout en
étant capable d’effectuer une bonne reconnaissance.
  (  1)(  2) / 2 (5.1)
Pour ce faire, nous avons testé un seul descripteur obtenu par les moments de
Tchebichef sur la base de Triesch. Nous avons considéré 60 postures parmi les 720 postures
de la base, dont 10 postures d’un seul sujet ont servi comme référence et les 50 postures des 5
sujets restants pour le test. Un ordre maximal de 13 a été fixé et la distance Euclidienne a été
utilisée comme mesure de similarité entre les vecteurs des moments de Tchebichef. Les
résultats obtenus dans cette expérimentation sont résumés dans le graphe de la figure 5.14.
Figure 5.14 Effet de l’ordre des moments de Tchebichef sur la reconnaissance
p. 105
On remarque que le meilleur ordre est égal à 9 c'est-à-dire 55 moments à calculer. Le

moins descriptif est le moment d’ordre 6. Comme il s’agit des projections dans des différents
espaces, seuls les tests expérimentaux ont permis de savoir lequel correspondait à la plus
fidèle représentation des postures de la main pour pouvoir aboutir à leurs distinction.
5.6.2 Apport des contours internes relativement aux contours

externes.
Pour étudier l’apport de l’intégration des contours internes dans la reconnaissance des
postures de la main, nous avons testé les moments de Tchebichef appliqués en prenant en
compte les deux configurations : contours externes, contour externes et internes. Pour ce test
nous avons pris les deux bases, la base de l’alphabet ArSL et la base de Triesch. Pour la base
ArSL : 4 personnes ont été prises dans la base référence et les 20 personnes qui restent pour
le test. Les postures prises sont réalisées sur un fond sombre. Pour la base de Triesch nous
avons pris 3 personnes pour la base référence et les 21 personnes restantes pour le test. Les
postures prises sont réalisées sur un fond clair. La figure 5.15(a) illustre les résultats obtenus
pour les lettres (A, B, C, D, G, L, V, et Y) de la base de Triesch. Les résultats obtenus
montrent que pour 6 lettres sur les 8 lettres choisies, le taux de reconnaissance s’est amélioré
et qu’il est resté inchangé pour les 2 lettres restantes. Le taux d’amélioration varie de0 % à
14.29 % pour la base de Triesch avec une moyenne de 5.35%. La figure 5.15 (b) illustre la
comparaison des taux de reconnaissance obtenus pour les signes sujets à confusion, présentés
dans la figure 4.9 du chapitre 4, à savoir ‘He’ et ‘Sad’ ; ainsi que ‘Dal’ et’ Dhal’ de l’ArSL.
Nous pouvons constater que dans ce cas les taux de reconnaissance se sont améliorés pour
toutes les lettres, même si la confusion persistent pour les lettres ‘Dal’ et ‘Dhal’ ainsi que les
lettres ‘He’ et ‘Sad’. Pour la base ArSL le taux d’amélioration varie de 2.67% jusqu’à 11.22%
avec une moyenne de 7.41%.
p. 106
Figure 5.15 Taux de reconnaissance pour : (a) Lettres A, B, C, D, G, L, V et Y. de la base de

Triesch. (b) Lettres ‘Sad’, ‘He’, ‘Dal’, et Dhal de l’alphabet ArSL.
5.6.3 La meilleure architecture de Combinaison
Pour vérifier s’il n’y’a pas redondance dans les descripteurs que nous avons
sélectionné et pour avoir la meilleure architecture de combinaisons possibles, nous avons
combiné de manière séquentielle chaque paire de descripteurs parmi les trois dans les deux
sens et ensuite pour la meilleure combinaison séquentielle obtenue de deux descripteurs, nous
l’avons considéré avec le troisième. Enfin, nous avons combiné les trois descripteurs de
manière parallèle. Le classificateur utilisé dans tous les cas de combinaisons citées ci-dessus
est le KNN avec K=3.
La combinaison séquentielle de deux descripteurs s’est effectuée de la manière
suivante : le premier descripteur sélectionne trois voisins pour l’image requête moyennant le
classificateur 3NN. Le second descripteur s’applique en utilisant la classification 1 NN sur
les trois voisins obtenus par le premier et retourne la lettre reconnue.
Pour chaque descripteur pris individuellement le classificateur 3NN est appliqué.
La combinaison parallèle s’effectue de la manière suivante : Chaque descripteur
propose trois voisins selon le classificateur 3NN, ensuite la lettre reconnue est celle qui a le
nombre d’occurrences le plus important (principe des KNN) mais quand les trois descripteurs
sont pris comme un seul.
Les résultats obtenus sont présentés par la figure 5.14. Nous avons utilisé les
abréviations T, H et D respectivement pour les moments de Tchebichef, les moments Hu et
les primitives géométriques. Une combinaison séquentielle est représentée par un tiré, et la
parallèle par une virgule. La base de Triesch a été testée avec le protocole P1 : 3-21 qui
p. 107
signifie 3 personnes dans la base de référence et les 21 autres personnes dans la base de test
de [Triesch & Von 2002] et P2 : 8-16 [Just et al 2006] (dans la figure les résultats du
protocole P2 sur des fonds clair et sombre sont présentés). La base ArSL alphabet a été testée
sur un fond sombre avec le protocole correspondant à 4 personnes dans la référence et les 20
autres personnes pour le test.
La figure 5.16 montre que dans tous les cas et pour les deux bases confondues c’est la
combinaison parallèle des trois descripteurs qui donne le meilleur résultat 94.67 % pour la
base ArSL, 97.5% pour la base de Triesch sur fond clair et 88.70% pour la base de Triesch sur
fond sombre.
Figure 5.16. Taux de reconnaissance obtenus pour : (a) Base de signes ArSL (b) Base de
Triesch fond Clair, (c) Base de Triesch fond sombre.
La figure 5.16 montre aussi que lorsque chaque descripteur est pris individuellement,
le descripteur des moments de Tchebichef est meilleur et ceci dans les trois cas avec un taux
de 82.33% pour la base ArSL, 90.62% pour la base de Triesch sur fond clair et 78.27% pour
le fond sombre.
Pour les combinaisons séquentielles des couples de descripteurs le meilleur résultat
obtenu pour la base ArSL est réalisé par la combinaison des moments Tchebichef et Hu (T-H)
avec un taux de 82.67%. Pour la base de Triesch sur fond clair, la meilleure combinaison
séquentielle de couples de descripteurs est celle de T-D des moments de Tchebichef avec le
p. 108
descripteur géométrique avec un taux de 93.75%, et sur fond sombre est celle des moments
de Tchebichef et Hu T-H avec un taux de 82.37%.
On peut voir aussi que la combinaison séquentielle de deux descripteurs améliore
toujours le résultat obtenu par le premier descripteur, ceci prouve la complémentarité des trois
descripteurs. On note également que le meilleur descripteur individuel dans tous les cas
confondus est les moments de Tchebichef appliqués sur les contours externes et internes de la
forme de la main.
Les meilleurs taux de reconnaissance de la combinaison séquentielle de trois
descripteurs sont obtenus par le schéma T-H-D et avec un taux de 90.33% pour la base ArSL
et avec un taux de 84.63% pour la base de Triesch sur fond sombre. Pour la base de Triesch
sur fond clair le meilleur schéma est T-D-H avec un taux de 95.55%.
5.6.4 Utilisation du classificateur SVM
Afin d’améliorer les résultats obtenus sous le mode utilisateur indépendant, le

classificateur SVM a été utilisé avec la meilleure combinaison obtenue précédemment : Base
de Triesch avec les deux protocoles P1 et P2, et la base ArSL alphabet sur un fond sombre
avec le protocole 4-20. Les résultats obtenus sont présentés dans la table 5.2.
Le classifieur SVM a été utilisé avec le noyau Gaussien (RBF). La posture de la main
est représentée avec un vecteur concaténé des trois descripteurs.
Pour classifier une posture requête x, on doit l’associer à une des n classes de postures
 1 ,...,  n . Les SVM multi classes utilisés dans ce travail se basent sur la stratégie un-
contre-tous. Donc pour chaque classe  c un classificateur SVM c a été entrainé et utilisé pour
procurer une mesure de probabilité que la posture x appartient à la classe  c .
Le SVM c est entrainé comme suit pour chaque classe c, on note  c la matrice calculée
à partir des vecteurs concaténés des trois descripteurs sur les postures de référence
correspondant à la classe c. Pour entrainer le classifieur SVM c , la matrice  c est marquée 1 et
la matrice  c des postures qui ne correspondent pas à la posture c est marquée par -1. Donc
suivant ce principe, 30 SVM ont été utilisée pour la base de l’alphabet Arabe ArSL et 10 pour
la base de Triesch.
Comme déjà précisé dans le chapitre précédent, la méthode de Platt [Platt 1999] a été
adoptée pour chaque SVM c afin de calculer la probabilité qu’une posture x appartienne à la
classe c. La lettre reconnue est celle qui a la plus forte probabilité sur les 30 SVM pour la
p. 109
langue Arabe des signes et sur les 10 SVM pour la base de Triesch. Les taux de
reconnaissance obtenus sont représentés dans le tableau 5.2
Table 5.2 Taux de reconnaissance par le classificateur SVM.
Base de données Protocole Taux de

Reconnaissance
Base ArSL 4-20 88.87
Base de Triesch P1:3-21 85.33
Base de Triesch P2: 8-16 96.88
Nous constatons d’abord que les résultats obtenus pour la reconnaissance des postures
de la langue des signes Arabe ont diminué par rapport à ceux obtenus par le classificateur
KNN en occurrence de 94.67% à 88.87%. Ceci est dû principalement au fait que les KNN
sont très performants quand il s’agit d’une base pas très large même si la référence comporte
un nombre petit d’échantillons. Cependant les SVM surpasse les KNN comme on le voit
clairement dans la base de Triesch quand la base référence est plus grande. Nous pouvons
conclure que les SVM malgré leur force de classification nécessitent comme toutes les
méthodes basées sur l’apprentissage, un minimum de sujets dans la base de référence. En effet
Les résultats obtenus par les SVM sont passé de 85.33% avec une base de référence de 3
personnes à 96.88% avec une base de référence de 8 personnes. En outre les KNN sont plus
stables même si la base de référence est petite, cela est dû principalement à leurs capacités de
faire face aux changements de prototypes, un fait déjà démontré dans l’étude faite par
T.Hastie et al. [Hastie et al 2008]. Donc pour un système à utilisateur indépendant employant
un petit nombre de sujets dans la base de référence nous jugeons que les KNN sont meilleur
pour atteindre cet objectif.
5.6.5 Etude de la robustesse de la méthode
Pour étudier la robustesse de la méthode statistique proposée dans des conditions plus
réalistes, nous avons gardé la même base référence pour la base de l’alphabet de ArSL
constituée des postures réalisées sur un fond sombre, et nous avons testé la méthode sur les
postures effectuées sur des fonds complexes. Nous avons adopté la meilleure architecture
déterminée précédemment et avec les deux classificateurs SVM et KNN. Les résultats
obtenus sont résumés par la table 5.3.
p. 110
Table 5.3. Les taux de reconnaissance obtenus pour la base ArSL sur des fonds complexes.
Classification Base fonds Base fond simple

Algorithmes Complexes
KNN 89.35% 94.67%
SVM 86.9% 88.87%
On remarque qu’inévitablement les résultats obtenus pour la base de postures réalisées

sur un fond complexe ont beaucoup diminués en comparaison avec ceux obtenus pour les
postures réalisées sur un fond sombre. Cela est dû, bien sûr au fait que les postures de la
main mal segmentées sont mal classifiées. Là aussi les KNN sont meilleurs mais la raison
principale est que l’entrainement des SVM a été effectué avec les postures à fond simple.
Reste à préciser que pour des résultats obtenus sur des fonds complexes variés dans des
conditions d’éclairage variées et sous le mode utilisateur indépendant, ils sont satisfaisants
relativement à l’état de l’art.
5.6.6 Comparaison avec l’état de l’art
Les résultats obtenus ont été comparés à ceux des travaux relatés dans la littérature.
Les tables 5.4 et 5.5 résument les taux obtenus pour les méthodes jugées de référence sur les
bases Triesch et ArSL respectivement. Pour la base de Triesch nous avons reporté tous les
travaux qui ont respecté le protocole imposé dans le monde de la recherche c'est-à-dire le
protocole P1de J. Triesch et Von- Der-Malsburg [Triesch &Von 2002], et le protocole P2 de
[Just et al 2006].
Table 5.4. Comparaison avec les méthodes existantes (Base de Triesch)
Base de Triesch Taux de Base de Triesch Taux de

Protocole P1 Reconnaissance Protocole P2 Reconnaissance
Notre Méthode 86.66% Notre Méthode. 96.88 %(SVM)

[Triesch & Von 2002] 93.8% [Just et al 2006] 89.9%
[Kelly et al 2010] 85.1% [Kelly et al 91.8%
2010]
p. 111
Nous remarquons que notre système obtient de meilleurs résultats avec le protocole
P2, et pour le protocole P1 le meilleur résultat reste celui de Triesch et Von Der Malsburg
(2002). Ceci est dû principalement au fait que la méthode d’appariement élastique des
graphes peut être très efficace pour un nombre de postures limité (10 dans ce cas). Cependant
elle souffre de confusion si le nombre de postures à reconnaitre augmente ceci d’une part, et
d’autre part elle reste très coûteuse en temps de calcul (plusieurs secondes pour l’analyse
d’une seule image). Notre système a un temps de calcul de 1.36s en utilisant C++ avec un
processeur 2.10 GHz Intel core2 CPU.
Les résultats obtenus pour l’alphabet de la langue des signes Arabe ont été comparé de
manière indirecte aux résultats présentés dans la littérature, car les systèmes utilisés différent
en point de vue données et aussi mode. Tous ces systèmes ont été réalisés sur un fond simple
ou par l’utilisation de gant colorés, et sous le mode utilisateur dépendant.
Table 5.5. Comparaison avec les méthodes existantes (Base ArSL)
ArSL alphabet Instruments Mode Taux de

utilisés Reconnaissance
Notre méthode libre indépendant 94.67%
[Al-Jarrah et libre dépendant 93.55%
Halawani,2001]
[Al-Roussan et Gants colorés dépendant 88%
Hussain,2001]
[Assalaeh et Al- Gants colorés dépendant 93.4%
Roussan,2005]
[Tolba,et libre dépendant 90.4%
al.,2010]
[Elons et libre dépendant 92%
al.,2013(a)]
Pour la langue des signes Arabe notre système est le plus performant en dépit du mode
utilisateur indépendant et de la petite base de référence (4 personnes). En outre notre système
pour la l’alphabet de la langue des signes Arabe est très réaliste du moment qu’il n’impose
p. 112
pas des conditions strictes de fonds ou d’éclairage et encore moins de porter des gants ou
tout autre artifice.
5.7 Conclusion
Dans ce chapitre, nous avons présenté les résultats obtenus par les approches
proposées.
Nous avons d’abord validé la méthode de segmentation et d’extraction de la main dans
les images avec fond complexe et conditions générales d’éclairage.
Nous avons ensuite présenté les résultats de reconnaissance obtenus par la méthode
syntaxique et qui peut être exploitable pour une application d’interfaces homme machine
gestuelle en temps réel.
Nous avons aussi démontré l’intérêt de l’utilisation des contours internes pour la
représentation des formes de la main.
Une analyse des descripteurs proposés a été réalisée montrant leur efficacité par
rapport à la problématique posée. Nous avons montré l’efficacité et la nécessité de combiner
les trois descripteurs proposés. Les résultats obtenus par les deux techniques de classifications
utilisées ont été exposés et discutés.
Enfin, nous avons comparé nos résultats avec les travaux relatées dans la littérature.
Les résultats obtenus par notre méthode sont satisfaisants. Notre méthode a atteint la
meilleure performance dans la base de Triesch avec le Protocol P2 avec un taux de 96.88% et
pour la base ArSL un taux de 94.67% sur un fond sombre et un taux de 89.35% sur fonds
complexes.
p. 113
Conclusion generale et Perspectives
Conclusion
Les interfaces homme machine sont en véritable mutation ces dernières années. Elles
sont sorties du domaine spécialisé qui leur a donné naissance à un domaine à vaste publique.
Les interfaces basées sur la gestuelle de la main ont pris la part du lion dans cette évolution.
Les gestes étant le moyen le plus naturel pour communiquer entre les hommes sont devenus
un moyen approprié pour communiquer avec toutes sortes de machines. D’autant plus que le
geste est un moyen non intrusif, et ne demande pas d’outils matériels couteux ni sophistiqués.
Dans cette thèse, notre objectif est de construire un système de reconnaissance des
postures de la main destinées à l’alphabet de la langue des signes. La langue des signes est un
moyen essentiel de communication chez les malentendants. Elle constitue une langue à part
entière avec ses règles d’orthographe et de conjugaison. L’épellation digitale (finger spelling
en anglais) constitue un des ses éléments de base. D’autre part beaucoup d’interfaces
gestuelles homme machine s’appuient sur les signes de l’épellation digitale pour concevoir
leurs systèmes.
Pour construire notre système, nous avons fixé un certain nombre d’objectifs qui
figurent parmi les défis de la reconnaissance des gestes et postures de la main de manière
générale et celle de la langue des signes en particulier. Parmi ces objectifs, nous pouvons citer
l’indépendance de l’utilisateur.
La majorité des systèmes qui donnent de bons résultats dans la littérature opèrent sur
le mode utilisateur dépendant c'est-à-dire les personnes impliqués pour l’entrainement du
système sont les mêmes que celles utilisés dans le test. Ceci est dû à la particularité
anatomique de la main chez chaque individu. Pour faire face aux problèmes de
l’indépendance des utilisateurs ainsi qu’à l’anatomie particulière de la main qui diffère d’une
personne à une autre, nous avons proposé une combinaison efficace de trois descripteurs dont
la complémentarité a été prouvée. Ceci nous a permis d’aboutir à des taux de reconnaissances
convenables avec une petite base de référence qui n’a pas dépassé 4 personnes pour l’alphabet
de la langue des signes Arabe, tout en respectant le mode utilisateur indépendant.
Conclusion générale et perspectives
Un second défi qui consiste au fait que notre système demeure opérationnel et ce quel
que soit l’environnement de travail: fond simple ou complexe et des éclairages variés et sans
aucune condition sur les paramètres de la caméra utilisée. Pour cela, nous avons commencé
par la segmentation basée sur les attributs couleur et texture de la peau ainsi qu’une
classification en réseau de neurones.
Ensuite, nous avons proposé deux approches pour aboutir à une reconnaissance
satisfaisante, à savoir, l’approche syntaxique et statistique. L’approche syntaxique à
l’avantage du temps mais elle couvre seulement un certain type de postures. La méthode
statistique un peu plus lente mais elle couvre un nombre très important de types de postures.
En outre, nous avons défini un nouveau descripteur géométrique qui nous a permis de
s’adapter aux problèmes posés pour la reconnaissance des postures de la langue des signes. Ce
descripteur est capable de faire la distinction entre les postures de la main qui ont les mêmes
configurations doigts et qui sont dans des orientations différentes puisque cela entraine des
lettres différentes dans la langue des signes.
Nous avons également introduit la représentation de la forme de la main par ces
contours internes et externe et que nous avons prouvé qu’ils améliorent la reconnaissance.
Les contours internes permettent de détecter les détails à l’intérieur de la forme de la main à
savoir la position des doigts.
Pour la base de Triesch [Triesch & Von 2002], notre système a obtenu la meilleure
performance sous le protocole 8-16 comparés aux autres travaux dans littérature sous le même
protocole. Et pour la langue Arabe nous pouvons dire que nous avons réalisé un système
opérant dans différentes conditions d’éclairage et avec de bons taux de reconnaissance sur un
fond simple et sur les fonds complexes.
Perspectives
Au terme de ce travail de thèse, beaucoup de points peuvent être soulevés, et des

complémentarités importantes peuvent être rajoutées, nous pouvons citer :
 Pour une application en temps réel, le temps de calcul des moments de Tchebichef doit
être réduit par parallélisation ou sur circuits FPGA.
 Il serait aussi intéressant de voir l’efficacité de notre système quand il s’agit de signes à
deux mains. Pour cela, une architecture de décomposition par dichotomie est envisagée.
 Possibilité d’intégrer de multiples vues afin de disposer plus d’information sur le signe
effectué dans n’importe quelle direction par rapport à la caméra.
p. 116
Conclusion générale et perspectives
 Combinaison des méthodes de reconnaissance proposées syntaxique et statistique.
Enfin un objectif assez complet qui consiste en la création d’un système de

reconnaissance de la langue des signes qui fait intervenir tous ses acteurs à savoir la main, la
mimique du visage et le mouvement du corps.
p. 117
ANNEXE
Outils de Classification
A.1 Réseaux de neurones
Les réseaux de neurones sont un outil de classification, qui se base sur un concept
élémentaire qui consiste à extraire des combinaisons linéaires des données entrées comme
caractéristiques dérivées et modéliser la sortie par une fonction non linéaire de ces
caractéristiques. Cette approche s’inspire de la présentation d’un neurone biologique dont le
rôle est de transmettre un signal électrique issu des dendrites vers la terminaison axonique du
neurone. Parmi les structures de neurones deux se dégagent en termes de fréquence
d’utilisation :
Dans le premier cas la sortie y du neurone est une fonction non linéaire d’une
combinaison des entrées xi  pondérées par les paramètres wi  qu’on appelle poids. La
fonction responsable de la non linéarité est appelée fonction d’activation. Ce type de neurone
est l’élément de base pour les réseaux de neurones les plus utilisés actuellement à savoir les
perceptrons multicouches (MLP).
La sortie du neurone de base du perceptron multicouche a pour équation :
n
y  f ( x1 , x2 ,..., xn )  th(b0   wi xi ) ( A.1)
i 1
Où b0 est un terme constant appelé biais. La figure A.1 représente l’architecture du

neurone de base pour les MLP.
Annexe .Outils de Classification
Figure A.1 Représentation d’un neurone de base dans un MLP
Dans le deuxième cas, les paramètres interviennent directement dans la fonction

d’activation f. Cette fonction peut être une fonction Radiale (RBF) [Powell 1987], ou encore
une ondelette [Mallat 1989]. La sortie d’un neurone RBF à non linéarité gaussienne a pour
équation
n
( ( xk   k ))2
y  exp k 1
( A.2)
2
Où les  k  sont les coordonnées du centre de la gaussienne et  son écart type.
Un réseau de neurones est constitué de plusieurs neurones organisés d’une certaine
manière de façon à que les sorties ym  réalisaient l’approximation de la fonction souhaitée en
fonction des entrées xi . On distingue deux types de réseaux de neurones :
A. 1.1Les réseaux de neurones bouclés et non bouclés
Un réseau de neurones non bouclé (feed forward neural network) est un ensemble de
neurones connectés de manière à ce que l’information ne transite que des entrées vers les
sorties, sans retour en arrière. Les neurones qui effectuent la dernière opération s’appelle
neurone de sortie. Les autres neurones placées entre les neurones d’entrée et de sortie, sont en
nombre variable, et sont appelés les neurones cachés.
Ces neurones sont très souvent organisés par couches, les neurones de sortie
appartiennent à la couche de sortie, et les neurones cachés s’organisent dans plusieurs couches
appelées les couches cachées. Il y’a beaucoup de réseaux de neurones qui se limitent à une
p. 120
seule couche cachée. Un exemple schématique est donné dans la figure A.2. Les réseaux de
neurones bouclés (feed- back) ont quant à eux la particularité
d’avoir au moins un chemin qui part et revient au même neurone.
Figure A.2 Schéma d’un réseau (feed forward) avec une seule couche cachée [Hastie et
al.2008].
A. 1.2Apprentissage d’un réseau de neurones
L’apprentissage d’un réseau de neurones peut être défini comme une phase de
calibrage où les divers paramètres le constituant sont remis à jour jusqu’à ce que le réseau
approxime au mieux la fonction à laquelle il doit aboutir. Il y’a deux types d’apprentissage :
L’apprentissage supervisé
On appelle apprentissage supervisé cette forme de calibrage qui consiste à minimiser

l’erreur entre les valeurs d’entrées et de sorties. Les réseaux de neurones à apprentissage
supervisé ont pour propriété d’être des approximateurs universels. Elle se base sur un principe
démontré par [Hornik et al 1989] : Toute fonction bornée, suffisamment régulière peut être
approchée uniformément, avec une précision arbitraire, dans un domaine fini de l’espace de
ses variables, par un réseau de neurones comportant une couche de neurones cachés en
nombre fini, possédant tous la même fonction d’activation, et un neurone de sortie linéaire.
p. 121
Apprentissage non supervisé
Il existe aussi des réseaux avec apprentissage non supervisé, pour lesquels on dispose
d’un ensemble de données, représentés par des vecteurs de grande dimension qu’on cherche à
regrouper selon des critères de ressemblances qui sont inconnus à priori.
A.1.3 Conception d’un réseau de neurones
La conception d’un réseau de neurones au sein d’une application doit passer par les
étapes suivantes :
Déterminer le type de réseau selon l’application : le premier choix se porte sur le type
de réseau à utiliser. Ce choix est en relation directe avec l’espace de variables discret ou
continu, s’il s’agit d’un espace discret les RBF ou les ondelettes seront choisies. En revanche
dans le cas continu une fonction d’activation sigmoïdale sera la plus adaptée.
Définir sa structure : une fois le type de réseau de neurones est choisi la seconde étape
est de définir sa structure le nombre d’entrées, le nombre de sorties, le nombre de couches
cachées et enfin le nombre de neurones par couche cachée.
Par la suite il faut calculer les paramètres à partir d’entrées pertinentes, avec pour
critère la minimisation de l’erreur au sens des moindres carrées. Une fois que les résultats sont
estimés satisfaisants on peut figer les paramètres.
Finalement, valider le réseau de neurones par des données externes à
l’apprentissage, afin de constater la faculté du réseau à accomplir la tâche qui lui est destinée.
A.2 K plus proches voisins KNN
L’algorithme des KNN introduit par B. Dasarathy [Dasarathy 1991] figure parmi les
plus simples algorithmes d’apprentissage artificiel. Dans un contexte de classification d’une
nouvelle observation x, l’idée fondatrice est de faire voter les plus proches voisins de cette
observation. La classe x est déterminé en fonction de la classe majoritaire des K plus proches
voisins de cette observation. La méthode KNN est donc est une méthode à base de voisinage
non- paramétrique. Ceci signifiant que l’algorithme permet de faire une classification sans
aucune hypothèse sur la fonction de classification y  f ( x1 , x2 ,.., x p ) reliant les données
caractéristiques indépendantes x1 , x2 ,..., x p à la classe dépendante y. Ces classifieurs
nécessitent qu’une distance soit définie sur l’espace de représentation. On attribue alors à une
observation x la classe ayant le plus de représentants parmi les k points d’apprentissages les
p. 122
plus proches. Remarquons que la plupart des classifieurs utilisent à un moment donné une
stratégie similaire. Les KNN sont des classifieurs pour lesquels la distance utilisée est choisie
a priori et non apprise à partir de l’ensemble d’apprentissage.
Le choix de la distance est primordial au bon fonctionnement de la méthode. Le
paramètre K est aussi un autre facteur important dans la classification KNN. Le meilleur
choix de K dépend du jeu de données. En général, les grandes valeur de K réduisent l’effet du
bruit, mais rendent les frontières entre les classes moins distinctes. Il convient alors de faire
un choix de compromis entre la variabilité associée à une faible valeur de K contre un
surlissage (i.e. gommage de détails) pour une forte valeur de K. dans le travail de cette thèse
nous sommes basé sur un choix de K qui minimise l’erreur de classification.
Figure A.3 Principe de la classification par un KNN. La distance euclidienne est utilisée.
Un classifieur 3NN classera l’observation dans la classe 1 et un 1NN dans la classe 2.
A.3 Machines à vecteurs de support
A.3.1 Historique
Les machines à vecteurs support ont été introduites en 1982, lorsqueV. Vapnik a
proposé un premier classifieur basé sur la minimisation du risque structurel baptisé SVM. Ce
premier modèle était toutefois linéaire et l’on ne connaissait pas encore le moyen d’induire
des frontières de décision non linéaires. En 1992 B. Boser et al. [ Boser el al 1992] ont
proposé d’introduire les noyaux-non linéaires pour entendre le SVM au cas non linéaire.
Enfin C. Cortes et V. Vapnik [Cortes & Vapnik 1995] ont proposé une version régularisée
du SVM qui tolère les erreurs d’apprentissage. Depuis les SVM (le pluriel est utilisé pour
désigner les variantes du SVM) sont utilisées dans de nombreux problèmes d’apprentissage :
reconnaissance de forme, catégorisation de texte ou encore diagnostic médical.
p. 123
A.3.2 Définition
Le SVM est une méthode de classification binaire par apprentissage supervisé. Elle
repose sur l’existence d’un classifieur linéaire dans un espace approprié. Puisque c’est un
problème de classification à deux classes, cette méthode fait appel à un jeu de données
d'apprentissage pour apprendre les paramètres du modèle. Elle est basée sur l'utilisation de
fonction dites noyau qui permet une séparation optimale des données.
Dans la présentation des principes de fonctionnements, nous schématiserons les
données par des « points » dans un plan.
A.3.3 Principe général
Les SVM peuvent être utilisés pour résoudre des problèmes de discrimination, c'est-à-
dire décider à quelle classe appartient un échantillon, ou de régression, c'est-à-dire prédire la
valeur numérique d'une variable. La résolution de ces deux problèmes passe par la
construction d'une fonction h qui à un vecteur d'entrée x fait correspondre une sortie y :
y  h(x) .
Si on se limite à un problème de discrimination à deux classes (discrimination binaire),

c'est-à- dire y   1,1 , le vecteur d'entrée x étant dans un espace X muni d'un produit scalaire.
On peut prendre par exemple X=RN. Pour deux classes d’exemples donnés, le but de SVM est
de trouver un classifieur qui va séparer les données et maximiser la distance entre ces deux
classes, ce classifieur qui est supposé au départ linéaire est appelé hyperplan. Les points les
plus proches, qui seuls sont utilisés pour la détermination de l’hyperplan, sont appelés
vecteurs de support.
Il est évident qu’il existe une multitude d’hyperplans valides mais la propriété
remarquable des SVM est que cet hyperplan doit être optimal. Nous allons donc en plus
chercher parmi les hyperplans valides, celui qui passe « au milieu » des points des deux
classes d’exemples (voir figure A.4). Intuitivement, cela revient à chercher l’hyperplan le
«plus sûr ». En effet, supposons qu’un exemple n’ait pas été décrit parfaitement, une petite
variation ne modifiera pas sa classification si sa distance à l’hyperplan est grande.
Formellement, cela revient à chercher un hyperplan dont la distance minimale aux exemples
d’apprentissage est maximale.
p. 124
On appelle cette distance « marge » entre l’hyperplan et les exemples. L’hyperplan

séparateur optimal est celui qui maximise la marge. Comme on cherche à maximiser cette
marge, on parlera de séparateurs à vaste marge
Figure A.4 la séparation des données en SVM
En général, la classification d’un nouvel exemple inconnu est donnée par sa position
par rapport à l'hyperplan optimal.
A.3.4 Discrimination linéaire et hyperplan séparateur
Le cas simple est le cas d'une fonction discriminante linéaire, obtenue par combinaison
linéaire du vecteur d’entrée x  ( x1 , x2 ,..., xN ) , avec un vecteur de poids   ( 1 ,  2 ,...,  N )
h( x )   tx   0 ( A.3)
Il est alors décidé que x est de classe 1 si h( x)  0 et de classe -1 sinon. C'est

un classifieur linéaire.
La frontière de décision h( x)  0 est un hyperplan, appelé hyperplan séparateur,
ou séparatrice.
A.3.5 Linéarité et non-linéarité
Parmi les modèles des SVM, on constate les cas linéairement séparables et les cas non
linéairement séparables. Les premiers sont les plus simples car ils permettent de trouver
facilement le classificateur linéaire. Dans la plupart des problèmes réels il n’y a pas de
séparation linéaire possible entre les données, le classificateur de marge maximale ne peut pas
être utilisé car il fonctionne seulement si les classes de données d’apprentissage sont
p. 125
linéairement séparables, un exemple illustrant les cas linéairement séparables des cas non
linéairement séparables est présenté dans la figure A.5.
Figure A.5 séparateur linéaire et non-linéaire [Hastie et al 2008].
Pour surmonter les inconvénients des cas non linéairement séparable, l’idée des SVM
est de changer l’espace des données. La transformation non linéaire des données peut
permettre une séparation linéaire des exemples dans un nouvel espace. On va donc avoir un
changement de dimension. Cette nouvelle dimension est appelé « espace de redéscription ».
En effet, intuitivement, plus la dimension de l’espace de re-description est grande, plus
la probabilité de pouvoir trouver un hyperplan séparateur entre les exemples est élevée. Le
seul problème posé dans la détermination de l’espace de redéscription réside dans le temps de
calcul élevé. Pour pallier à ce problème on utilise ce qu’on appelle les fonctions noyaux.
Parmi les plus utilisés nous pouvons citer : le linéaire, le Gaussien, le Laplacien. Un exemple
d’une séparation de deux classes moyennant un noyau à base Radiale (RBF) est présenté dans
la figure A.6.
p. 126
Figure A.6 Séparation de deux classes avec SVM à base Radiale [Cornuégols & Miclet,
2002].
A.3.6 SVM multi classes
Les SVM qui étaient définis au départ pour un problème à bi classes ont été généralisé
pour les problèmes à multi classes en utilisant les méthodes de décomposition qui permettent
d’aborder le problème à multi classes comme une combinaison de problèmes à bi classes. On
peut en citer deux approches :
L’approche un – contre- tous. C’est l’une des plus ancienne approche, elle consiste à
utiliser un classificateur binaire par catégorie. Le k-iéme classificateur est destiné à distinguer
la catégorie d’indice k de tous les autres. L’idée de stratégie alors est de construire autant de
classifieurs que de classes.
L’approche un -contre –un. C’est aussi une approche très naturelle qui consiste à
prendre les catégories par couple. Donc un classificateur d’indice k, l est sensé distinguer la
catégorie k de la catégorie l. cette approche requiert la construction de N (N-1)/2 SVM, où N
est le nombre de classes à traiter.
p. 127
Bibliographie
[Abdel-Fateh 2014] Abdel-Fateh, M.A, Arabic sign langauge : Perspective. In Journal of

Deaf Studies and Deaf Education. Published by Oxford University, pp.212-221, 2014.
[Al-Jarrah & Halawani 2001] Al-Jarrah, O., Halawani, A., 2001. Recognition of gestures in
Arabic sign language using neuro-fuzzy systems. In Artificial. Intelligence. 133 (1-2), pp.117-
138, 2001.
[Al-Roussan & Hussain 2001] Al-Roussan, M., Hussain M., Automatic Recognition of
Arabic Sign Language Finger spelling. In International Journal of computers and their
applications (IJCA). Special issue on Fuzzy Systems. 8(2), pp. 80-88, 2001.
[Al-Roussan et al 2009] Al-Roussan, M., Assaleh,K.,Talaa,A., Video –based Signer

independent Arabic sign language recognition using Hidden-Markov models. In Applied
Software Computing,Vol.9,pp. 990-999,2009.
[Altun & Albayrak 2011] Altun ,O., Albayrak, S. Turkish finger spelling recognition system
using generalized hough transform, interest region, and local descriptors. In Pattern
recognition letters, 32(13), pp.1626-1632, 2011.
[Aran et al 2009] Aran, O., Burger, T., Caplier, A., Akarun, L., A belief-based sequential
fusion approach for fusing manual signs and non-manual signals. Pattern Recognition, Vol.
42, pp. 812–822, 2009.
[Argyros & Lourakis 2006] Argyros A, Lourakis MIA, Binocular hand tracking and
reconstruction based on 2D shape matching. Proceedings of the international conference on
pattern recognition (ICPR), Hong-Kong, Vol.1, pp. 207-210 2006.
Bibliographie
[Assalaeh & Al-Roussan 2005] Assalaeh, K., Al-Roussan, M., Recognition of Arabic Sgn
Language Alphabet using Polynomial Classifier. EURASIP journal on Applied Signal
Processing. Vol.13, pp. 2136-2145, 2005.
[Assan & Grobel 1997] Assan, M., Grobel, K., Video-Based Sign Language Recognition
Using Hidden Markov Models, Gesture Workshop, pp. 97-109, 1997.
[Atashpaz & lucas 2007] Atashpaz-Gargari, E., Lucas, C., Imperialist competitive
algorithm: An algorithm for optimization inspired by imperialistic competition. IEEE
Congress on Evolutionary Computation , pp.4661-4667, 2007.
[Athistos & Sclaroff 2003] Athitsos, V., Sclaroff S., Estimating 3D Hand Pose from a
Cluttered Image. CVPR (2), pp.432-442, 2003.
Ban et al 2014.
[Ban et al 2014] Ban, Y., Kim, S.K., Kim, S., Toh, K.A., Lee, S., Face detection based on
skin color likelihood. In Pattern Recognition journal 47(4) pp.1473-1485, 2014.
[Bauer & Kraiss 2002] Bauer, B., Kraiss, K. F., Video-based sign recognition using self-
organizing subunits. In Proceedings of the 16th International Conference on Pattern
Recognition, pp. 434–437, 2002.
[Bauer & Hienz 2000] Bauer, B., Hienz, H., Relevant features for video-based continuous
sign language recognition. In FG00 Proceedings of the Fourth. IEEE international
Conference on automatic face and gesture recognition, pp. 440-445, 2000.
[Bayraktar et al 2007] Bayraktar, B. Bernas, T. ,Robinson, J. , Rajwa, B., A Numerical

Recipe for Accurate Image Reconstruction from Discrete Orthogonal Moments. In Pattern
Recognition, 40(2), pp. 659–669, 2007.
[Belongie et al 2002] Belongie S., Malik J., Puzicha J., Shape matching and object
recognition using shape contexts. IEEE Trans Pattern Anal Mach Intell, 24(4), pp. 509–522,
2002.
p. 130
Bibliographie
[Bergasa et al 2000] Bergasa, L. M., Mazo, M., Gardel, A., Sotelo, M. A., Boquete, L.,
Unsupervised and adaptive Gaussian skin-color model, Image Vision Comput. 18 (12), pp.
987–1003, 2000.
[Bin Ghazali et al 2012] Bin Ghazali, K.H., Ma, J., Xiao, R. , Lubis, S.A. An innovative
face detection based on YCgCr color space. In Physics Procedia 25 pp.2116-2124, 2012.
[Birk et al 1997] Birk H, Moeslund TB, Madsen C.B., Real-time recognition of hand
alphabet gestures using principal component analysis. Proceedings of the Scandinavian
conference on image analysis, pp. 261-268, Lappeenranta 1997.
[Bolt & Hernandez 1992] Bolt, R.A., Herranz, E., Two-handed gesture in multi-modal
natural dialog. In: Proceedings of the 5th annual ACM symposium on user interface software
and technology, ACM Press, pp 7–14, 1992.
[Boser et al 1992] Boser, B. Guyon, I., Vapnik, V., A training algorithm for optimal
margin classifiers. In Fifth Annual Workshop on Computational Learning Theory, Pittsburg,
pp.144-152,1992.
[Bourke et al 2007] Bourke, A., O’Brien, J., Lyons, G., Evaluation of a threshold-based tri-
axial accelerometer fall detection algorithm. Gait & Posture, 26(2), pp. 194–199, 2007.
[Bowden & Sarhadi 2002] Bowden, R., Sarhadi, M., A non-linear model of shape and
motion for tracking finger spelt American sign language. Image Vision and Computing. 20
(9-10), pp. 597-607, 2002.
[Bowden et al 2004] Bowden, R., Windridge, D., Kadir, T., Zisserman, A.. A linguistic
feature vector for the visual interpretation of sign language. Proceedings of the Eighth
European Conference on Computer Vision, pp. 391–401, May 2004.
[Bradski & Davis 2000] Bradski, G., Davis, W., Motion segmentation and pose recognition
with motion history gradients, WACV 2000, pp. 238-244.
[Bradski & Davis 2002] Bradski,G., Davis, W., Motion segmentation and pose recognition
with motion history gradients. Machine Vision and Applications 13(3): 174-184, 2002.
p. 131
Bibliographie
[Broadtz 1966] Broadtz, P., Textures: A Photographic Album for Artists and Designers.
Dover, New York. 1966.
[Brown et al 2001] Brown, D., Craw, I., Lewthwaite, J., A SOM based approach to skin
detection with application in real time systems, BMVC01 pp.1-10, 2001.
[Buser & Imbert 1987] Buser, P., Imbert, M., Neurophysiologie fonctionnelle Vol IV :
Vision Paris Hermann.
[Cai & Goshtasby 1999] Cai, J., Goshtasby, A., Detecting human faces in color images,
Image Vision Comput, Vol. 18, pp. 63–75, 1999.
[Caetano & Barone 2001] Caetano, T.S., Barone, D.A.C., A probabilistic model for the
human skin-color, ICIAP01, pp. 279–283, 2001.
[Caetano et al 2002] Caetano, T.S., Olabarriaga, S.D., Barone, D.A.C., Performance

evaluation of single and multiple-Gaussian models for skin-color modeling, SIBGRAPI02,
pp. 279–283, 2002.
[Cao & Balakrishnan 2003] Cao, X., Balakrishnan, R., Visionwand: interaction techniques
for large displays using a passive wandtracked in 3d. In: ‘UIST ’03: proceedings of the 16th
annual ACMsymposium on User Interface software and technology. ACM Press, New York,
pp. 173–182, 2003.
[Chai & Bouzerdoum 2000] Chai, D., Bouzerdoum, A., A Bayesian approach to skin color
classification in YCbCr color space, IEEE TENCON00, vol. 2, pp. 421–424, 2000.
[Chang et al 2006] Chang, C-C., Chen, J. J. , Tai, W.K, Han, C.C., New Approach for Static
Gesture Recognition. Journal of Information Science and Engineering, Vol. 22, pp. 1047–
1057, 2006.
[Chen & Chiang 1997] Chen, C., Chiang, S.P. Detection of human faces in colour images,
IEEE Proc. Vision Image Signal Process. 144 (6), pp. 384–388, 1997.
p. 132
Bibliographie
[Chen et al 2003] Chen, F., Fu, C., Huang, C., Hand gesture recognition using a real-time
tracking method and Hidden Markov Models, Image and Vision Computing, vol. 21, no. 8,
pp. 745–758, 2003.
[Chetverikov 2003] Chetverikov, D., A simple and efficient algorithm for detection of high
curvature points in planar curves. 10th International conference, CAIP 2003, Groningen, the
Netherlands, 2003.
[Conners & Harlow 1980] Conners, R.W., Harlow, C.A.”A theoretical comparison of
texture algorithms”,IEEE Trans. on Pattern Analysis and Machine Intell., Vol. PAMI-2, pp.
204-222,1980.
[Cooper et al 2011] Cooper, H., Holt, B., Bowden, R., 2011. Sign language recognition.
Chapter in Visual Analysis of Humans: Looking at people . Springer, pp. 539-562, 2011.
[Cootes et al 1995] Cootes, T.F., Taylor C.J., Cooper, D.H., Graham, J. Active shape
models—their training and applications. Computer Vision and Image Understanding, 61(1):
pp. 38–59, 1995.
[Cornuégols & Miclet, 2002] Cornuéglos, A., Miclet, L., REF Apprentissage Artificiel
méthodes et Algorithmes, Eyrolles, 2002.
[Cortes & Vapnik 1995] Cortes, C., Vapnik, V. Support-vector networks. In Machine
Learning, 20 (3), pp. 273-297. 1995.
[Cui et al 1995] Cui Y., Swets D., Weng J., Learning-based hand sign recognition using
shoslif-m. International workshop on automatic face and gesture recognition, Zurich, pp. 201–
206, 1995.
[Cui & Weng1996] Cui Y., Weng J., Hand sign recognition from intensity image sequences
with complex background. Proceedings of the IEEE computer vision and pattern recognition
(CVPR), pp 88–93, 1996.
p. 133
Bibliographie
[Cui & Weng 2000] Cui Y., Weng J., Appearance-based hand sign recognition from intensity
image sequences. Computer Vision and Image Understanding, 78(2),pp.157–176, 2000.
[Dahmani 2010] Dahmani, D., Hand posture recognition using quadratic curves and shape
textual descriptor. IADIS 2010, International conferences computer graphics, Visualization,
computer vision and image processing, pp. 391-395, Germany, 2010.
[Dahmani & Larabi 2011] Dahmani,D.,Larabi,S., User independent system of hand postures
recognition using part-based shape representation. In IEEE proceedings of SITIS Signal
image technology & Internet based systems, pp. 366-373, France 2011.
[Dahmani et al 2012] Dahmani,D., Benchiekh,S.,Larabi,S., User Independent system for

recognition of hand postures used in sign language. In proceedings of ICPRAM. International
Conference on Pattern Recognition Applications and Methods, pp. 581-584. 2012.
[Dahmani & Larabi 2014] Dahmani, D.,Larabi, S. User independent system for sign
language finger spelling recognition. In Visual communication and image representation,
Elsevier; DOI information: 10.1016/j.jvcir.2013.12.019, 2014.
[Dai & Nakano1996] Dai, Y. Nakano, Y., Face-texture model based on SGLD and its
application in face detection in a color scene, Pattern Recognition, 29 (6), pp. 1007–1017,
(1996).
[Dardas & Georganas 2011] Dardas,N.H., Georganas , N.D., Real time hand gesture
detection and recognition using bag-of- features and Support Vector machine techniques. In
IEEE Transactions on Instrumentation and Measurement. Vol 60 (11), pp. 3592-3607, 2011.
[Darrell & Pentland 1995] Darrell, T., and Pentland, A., ``Cooperative Robust Estimation
using Layers of Support'', IEEE Transactions on Pattern Analysis and Machine Intelligence,
17(5), pp. 474-487, 1995.
p. 134
Bibliographie
[Darrell et al 1996] Darrell, T., Essa, I. ,Pentland, A. Task-specific gesture analysis in real-
time using interpolated views. IEEE Transactions on Pattern Analysis and Machine
Intelligence 18(12), pp. 1236–1242, 1996.
[Dasarathy 1991] Dasarathy, B., Nearest Neighbor (NN) Norms: NN Pattern Classification
Techniques, McGraw-Hill Computer Science Series, IEEE computer Society Press, Las
Alamitos, California, pp.217-224, 1991.
[Deng & Tsui 2002] Deng, J., Tsui, H-T., A Novel Two-Layer PCA/MDA Scheme for Hand
Posture Recognition. ICPR(1), pp. 283-286, 2002.
[Dreuw et al 2008] Dreuw, P., Stein, D., Desealers, T., Rybach, D., Zahedi, M., Ney, H.,
Spoken Language Processing Techniques for Sign Language Recognition and Translation.
Technology and Disability. Vol 20 number 2, pp.121-1332008.
[Dreyfus et al 2004] Dreyfus, G., Martinez, J.M., Samueldis, M., Gordon M.B., Badran F.,
Thiria, S., Herault, L., Réseaux de neurones, méthodologie et applications, sous la direction
de Gérard Dreyfus, 2ème édition, Eyrolles, 2004.
[Elons et al 2013(a)] Elons, S. A,. Abul-ela, M., Tolba, M. F., Neutralizing lighting non-
homogeneity and background size in PCNN image signature for Arabic Sign Language
recognition. Neural Computing and Applications, vol 22, pp.47-53, 2013.
[Elons et al 2013(b)] Elons, S. A,. Abul-ela, M., Tolba, M. F., A proposed PCNN features
quality optimization technique for pose-invariant 3D Arabic sign language recognition. Appl.
Soft Comput. 13(4) pp.1646-1660, 2013.
[Feris et al 2004] Feris, R., Turk, M., Raskar, R., Tan, K., Ohashi, G.: Exploiting depth
discontinuities for vision-based fingerspelling recognition. In: Procs. of CVPR : Wkshp :, vol.
10. pp.155, IEEE Computer Society Washington, DC, USA, Washington, DC, USA (2004)
[Fillbrandt et al 2003] Fillbrandt,O., Akyol,S. Kraiss, K-F., Extraction of 3D Hand Shape

and Posture from Image Sequences for Sign Language Recognition, pp.181-186, AMFG 2003
p. 135
Bibliographie
[Fitzgibbon et al 1999] Fitzgibbon, A., Pilu, M., Fisher, R.B. Direct Least square fitting of
ellipses. In Pattern Analysis and Machine Intelligence. Vol 21 (5), pp. 476-480, 1999.
[Flusser et al 2009] Flusser, J., Zitova, B., Suk, T. Moments and moment invariants in
pattern recognition .John Wiley & Sons, Ltd, 2009.
[Freeman & Weissman 1995] Freeman,W., Weissman, C. Television control by hand

gestures. In: International workshop on automatic face and gesture recognition, Zurich, pp.
179–183, 1995.
[Fu 1982] Fu, K. S., Syntactic Pattern Recognition and Applications. New Jersey: Prentice
Hall, 1982.
[Fu et al 2004] Fu, Z., Yang, J., Hu, W., Tan, T., Mixture clustering using multidimensional
histograms for skin detection, ICPR04, pp. 549–552, 2004.
[Fukuda et al 2009] K. Fukuda, T. Takiguchi, Y. Ariki, Graph cuts segmentation by using

local texture features of multiresolution analysis, IEICE Transactions on Information and
Systems, E92-D (7), pp.1453–1461, 2009.
[Gao et al 2000] Gao, W., Ma,J., Wu,J., Wang,C., Sign Language Recognition Based on
HMM/ANN/DP. International journal of Pattern Recognition and Artificial Intelligence,
14(5), pp. 587-602, 2000.
[Gao et al 2004] Gao, W. Fang, G.L. Zhao, D.B. , Chen, Y.Q.A., A Chinese sign language
recognition system based on SOFM/SRN/HMM, Pattern Recognition Vol 37, pp. 2389–240,
2004.
[Geer 2004] Geer, D., Will gesture recognition technology point the way, IEEE computer, pp.
20-23, 2004.
[Goza et al 2004] Goza, S.M., Ambrose, R.O., Diftler, M.A., Spain I.M., Telepresence
control of the nasa/darpa robonaut on a mobility platform. In: Conference on human factors in
computing systems. ACM Press, pp 623–629,2004.
p. 136
Bibliographie
[Graham 1972] Graham, R.L. An Efficient Algorithm for Determining the Convex Hull of a
Finite Planar Set. Information Processing Letters 1, pp. 132-133, 1972.
[Grinias et al 2008] I. Grinias, N. Komodakis, G. Tziritas, Bayesian region growing and

MRF based minimisation for texture and colour segmentation, in: Proceedings of the Eighth
International Workshop on Image Analysis for Multimedia Interactive Services
(WIAMIS),pp.20, 2008.
[Gomez et al 2002] Gomez, G., Sanchez, M., Sucar, L.E., On selecting an appropriate colour
space for skin detection, Springer-Verlag: Lecture Notes in Artificial Intelligence, vol. 2313,
2002, pp. 70–79.
[Gomez & Morales 2002] Gomez, G., Morales, E., Automatic feature construction and a
simple rule induction algorithm for skin detection, Proceedings of Workshop on Machine
Learning in Computer Vision, pp. 31–38, 2002.
[Gonzalez & Woods 1992] Gonzalez, R. C.; Woods, R. E. Digital Image Processing,
Addison-Wesley Publishing Company, Inc. 1992.
[Gu & Su 2008] Gu, L., Su, J., Natural Hand Posture Classification based on Zernike
Moments and Hierarchical Classifier. International Conference on Robotics and Automaton.
IEEE, pp. 3088–3093, 2008.
[Han et al 2009] Han, W. Tao, D.Wang,X.C. Tai, X. Wu, Image segmentation based on
GrabCut framework integrating multiscale nonlinear structure tensor, IEEE Transactions on
Image Processing 18(10) 2289–2302. Conference on Robotics and Automaton. IEEE, pp.
3088–3093, 2009.
[Handouyahia et al 1999] Handouyahia, M., Ziou, D., Wang, S., Sign language recognition
using moment-based size functions. In Proc. Intl. Conf. on Vision Interface, pp. 210–216,
1999.
[Hastie et al 2008] Hastie, T. Tibshirani,R. Freidman,J., The elements of statistical learning

Data mining, inference and prediction. Springer series in statistics ,2nd edition, 2008.
p. 137
Bibliographie
[Haralick et al 1973] Haralick, R., Shanmugan, K., Dinstein, I., Textural features for image
classification. In IEEE Transactions On Systems, Man, and Cybernetics SMC-3 ,pp.610–621,
1973.
[Heap & Hogg 1996] Heap,.T, Hogg,D. Towards 3Dhand tracking using a deformable
model. In: IEEE international conference automatic face and gesture recognition, Killington,
pp. 140–145. (1996).
[Hernandez et al 2004] Hernandez-Rebollar, J., Kyriakopoulos,N., . Lindeman, R.W : A

New Instrumented Approach For Translating American Sign Language Into Sound And Text.
FGR 2004: pp.547-552, 2004.
[Hmeidi et al 2007] Hmeidi, S., Hawashin, B., El-Qawasmeh, E., Performance of KNN and
SVM classifiers on full word Arabic articles. Advanced Engineering Informatics 22(1)pp.
106-111, 2008.
[Hoang et al 2005] Hoang, M.A., Geusebroek, J.M., Smeulders, A.W., Colour texture
measurement and segmentation, Signal Processing, 85(2), pp. 265–275, 2005.
[Hong et al 2007] Hong, S., Setiawan, N., Lee, C.: Real-time vision based gesture recognition
for human-robot interaction. In: Procs. of Int. Conf. on Knowledge-Based and Intelligent
Information & Engineering Systems, Italy, pp.413-418, 2007
[Hornik et al 1989] Hornik, K., Stinchcombe, M., White, H., Multilayer feedforward
networks are universal Approximators. In neural networks, VOL 2, pp. 359-366, 1989.
[Howard 1982] Howard, I. P., Human visual orientation. Chichester: John Wiley & Sons,
1982.
[Howarth & Rüger 2004] Howarth, P. Rüger, S.M. : Evaluation of Texture Features for
Content-Based Image Retrieval. CIVR 2004, pp. 326-334.
[Hsu et al 2002] Hsu, R.L., Abdel-Mottaleb, M., Jain, A.K., Face detection in color images,
IEEE Trans. Pattern Anal. Machine Intell. 24 (5), pp. 696–706.
p. 138
Bibliographie
[Hu 1962] Hu, M.-K., Visual pattern recognition by moment invariants, information theory.
In IEEE IRE Transactions, 8 (2), pp. 179–187, 1962.
[Huang & Huang 1998] Huang, C.H., Huang, W.Y., Sign language recognition using model-
based tracking and a 3D Hopfield neural network. Machine Vision and Applications (10), pp.
292–307, 1998.
[Huang et al 2000] Huang, C.L., Wu, M.S., Jeng, S.H., Gesture recognition using the multi-
PDM method and hidden Markov model. Image Vision Comput. 18(11)pp. 865-879 ,2000.
[Huang & Jeng 2001] Huang, C., Jeng,S., “A model-based hand gesture recognition system,”
Machine Vision and Application, vol. 12, no. 5, pp. 243–258, 2001.
[Hwang & Lee 2011] Hwang, C. L., Lee, H.W., The command control by hand gesture with
Hu and contour sequence moments and probability neural network. In Proceedings of the
IEEE international conference on Systems, Man and Cybernitics (SMC), pp. 2056-2061,
2011.
[Idrissa & Acheroy 2002] Idrissa, M. Acheroy, Texture classification using Gabor filters,
Pattern Recognition Letters . Vol. 23, pp. 1095–1102, 2002.
[Idrissi et al 2005] Idrissi, N., Martinez, J., Aboutadjine, D., Selecting a discriminant subset
of co-occurrences matrix features for texture based retrieval. Proceedings of International
symposium of visual computing, pp. 696-703, 2005.
[Ilea & Whelan 2011] Ilea, D.E., Whelan, P.F. Image segmentation based on the integration
of colour-texture descriptors- A review. In Pattern Recognition ,Vol. 44(10-11), pp. 2479-
2501, 2011.
[Imagawa et al 2000] Imagawa, K., Matsuo, H., Taniguchi, R., Arita, D., Lu, S. ,Igi, S.
“Recognition of local features for camera-based sign language recognition system,” in Proc.
International Conference on Pattern Recognition, vol. 4, pp. 849–853, 2000.
p. 139
Bibliographie
[Imai et al 2004] Imai, A. , Shimada, N., Shirai, Y. , “3-D hand posture recognition by
training contour variation,” in Proc. 6th IEEE International Conference on Automatic Face
and Gesture Recognition, pp. 895–900, 2004.
[Iannizzotto et al 2001] Iannizzotto, G. ,Villari, M. ,Vita, L .Hand tracking for human-

computer interaction with gray level visual glove: turning back to the simple way. In:Work
shop on perceptive user interfaces, ACM digital library, pp.1-7, 2001.
[Inition] http://inition.co.uk/3D-Technologies/cyberglove-systems-cybertouch.
[Jang 1993] Jang, J.S .R. ANFIS: adaptive-network-based fuzzy inference system. IEEE
Transactions on Systems, Man and Cybernetics, 23 (3), pp .665-685, 1993.
[Jebara & Pentland 1998] Jebara, T., Pentland, A., Maximum conditional likelihood via
bound maximization and the CEM algorithm, Advances in Neural information processing
systems, pp.494-500, the MIT Press 1998.
[Jiang et al 2013] Jiang, F., Fischer, M., Ekenel, H.K, Shi, B.E., Combining texture and
stereo disparity cues for real-time face detection. Sig. Proc.: Image Comm. 28(9): 1100-1113
2013.
[Jones & Rehg 2002] Jones, M. J., Rehg, J. M., Statistical color models with application to
skin detection, J. Comput. Vision, 46 (1), pp. 81–96, 2002.
[Just et al 2006] Just, A., Rodriguez, Y., Marcel, S., Hand posture classification and
recognition using the modified census transform.7th Internat. Conf. on Automatic Face and
Gesture Recognition, FGR. pp. 351–356, 2006.
[Julesz 1962] Julesz, B., VisuaI Pattem Discrimination, Nol. 84-92, Il41 IRE Trans Inform.
Theory, Vol.1, 1962.
[Kadous 1996] Kadous, M.W., Machine recognition of Australian signs using Power gloves:
Towards large-lexicon recognition of sign languages. Workshop on the Integration of
Gestures in Language and Speech, Wilmington Delaware. pp.165-174 , 1996.
p. 140
Bibliographie
[Kakumanu et al 2007] Kakumanu, P., Makrogiannis, S., Bourbakis, N., A survey of skin-
color modeling and detection methods. In Pattern Recognition, Vol 40, pp. 1106-1122, 2007.
[Karam 2006] Karam,M. A framework for research and design of gesture based human
computer interaction. PhD thesis university of Southampton.
[Karami et al 2011] Karami, A., Zanj, B., Sarkaleh, A., Persian sign language recognition
using Walvet transform and neural networks. In Expert Systems with Applications, vol. 38
pp. 2661-2667, 2011.
[Kelly et al 2010] Kelly, D., McDonald, J., Markham, C., A person independent system for
recognition of hand postures used in sign language. In Pattern Recognition Letters. Vol. 31,
pp. 1359-1368, 2010.
[Kim et al 1996] Kim, J.S., Jang, W., Bien,Z., A dynamic gesture recognition system for the
Korean sign language (KSL). In IEEE Transactions. On Systems, Man, Cybernetics. 26(2),
pp. 354–359, 1996.
[Kim et al 2008] Kim, C. , You, B-J., Jeong M-H., Kim, H., Color segmentation robust to
brightness variations by using B-spline curve modelling, Pattern Recognition 41 pp.22–37,
2008.
[Kramer & Leifer 1987] Kramer, J., Leifer, L., An expressive and receptive communication
aid of the deaf, in proceedings of the annual conference IEEE engineering in medicine and
biology Society, Boston USA.1987.
[Larabi et al 2003] Larabi, S., Bouagar S. , Trespademe F.M., Lopez ,E. , XLWDOS
language for writing descriptors of outline shapes, in the LNCS proceedings of Scandinavian
conference on image analysis. Goteborg, pp.1014-1021, 2003.
[Last et al 2002] Last, M., Bunke, H., Kandel, A., A feature based serial approach to
classifier combination. In Pattern Analysis and Applications, Vol. 5(4), pp. 385-389, 2002.
p. 141
Bibliographie
[Lee & Yoo 2002] Lee, J.Y. , Yoo, S.I., An elliptical boundary model for skin color
detection, Proceedings of the International Conference on Imaging Science, Systems and
Technology, 2002.
[Lejeune et al 2002] Lejeune, F., Braffort, A., Desclés J-P., Study of semantic representations
of French sign language sentences. Gesture and sign language in human-computer interaction.
LNAI 2298, Springer 2002.
[Lenman et al 2002] Lenman, S., Bretzner, L., Thuresson, B., Using marking menus to
develop command sets for computer vision based hand gesture interfaces. In: Proceedings of
the second Nordic conference on human–computer interaction, ACM Press, pp 239–242,
2002.
[Li & Zhang 2004] Li S, Zhang H., Multi-view face detection with oat-boost. IEEE Trans
Pattern Anal Mach Intell, 26(9), pp. 1112–1123, 2004.
[Li & Wachs 2014] Li, Y-T., Wachs, J.P. , HEGM : Hierarchical Elastic Graph Matching
for hand gesture recognition. In Pattern Recognition 47(1), pp. 80-88,2014.
[Licsr & Szirnyi 2005] Licsr, A., Szirnyi, T., User-Adapative Hand Gesture Recognition
System with interactive training .In Image Vision Computing .Vol .23 (12), pp.1102-1114,
2005.
[Lin et al 2000] Lin, J., Wu,Y., Huang,T. S., Modelling the constraints of human hand
motion. In proc IEEE Workshop on human motion, pp. 121-126, 2000.
[Malima et al 2006] Malima, A., Ozgur, E., Cetin, M., A Fast Algorithm for Vision-based
Gesture Recognition for Robot Control. In 14th IEEE conference on Signal processing and
Communication Applications, pp.1-4 , 2006.
[Mallat 1989] Mallat, S., A theory for multiresolution signal decomposition: the walvet
transform, IEEE Transaction on pattern analysis and machine intelligence, 11, pp.674-693,
1989.
p. 142
Bibliographie
[Marques & Vilaplana 2000] Marques, F., Vilaplana, V., A morphological approach for
segmentation and tracking of human face, ICPR 2000.
[Martin et al 1998] Martin, J., Devin, V., Crowley, J., Active hand tracking. In IEEE
conference on automatic face and gesture recognition, Nara, Japan, pp. 573–578, 1998.
[Mckenna et al 1998] McKenna, S., Gong, S., Raja, Y., Modeling facial colour and identity
with Gaussian mixtures, Pattern Recognition, 31 (12), pp.1883–1892, 1998
[Mirmehdi & Petrou 2000] Mirmehdi, M., Petrou, M.: Segmentation of Color Textures.
IEEE Trans. Pattern Anal. Mach. Intell. 22(2), pp. 142-159, 2000.
[Mitobe et al 2007] Mitobe, K., Sato, J., Kaiga, T., Yukawa, T., Miura, T., Tamamoto, H. and
Yoshimura, N., Development of a High Precision Hand Motion Capture System and an Auto
Calibration Method for a Hand Skeleton Model, ACM SIGGRAPH 2007,
[Mohandes et al 2004] Mohandes, M., Buraiky, S. A, Halawani, T. Al-Buayat, T. S.,

Automation of the Arabic Sign language recognition, in:Proceedings of International
Conference On Information and Communication Technology (ICT04), pp.479–480, 2004.
[Mohandes et al 2012] Mohandes, M., Deriche, M., Johar, U., Ilyas, S., A signer-independent
Arabic Sign Language recognition system using face detection, geometric features, and a
Hidden Markov Model. Computers & Electrical Engineering 38(2),pp.422-433, 2012.
[Mukundan et al 2001] Mukundan, R., Ong, S. H., Lee, P. A., Image analysis by Tchebichef
moments. In IEEE Transactions on image processing. 10(9), pp.1357-1364, 2001.
[Munoz et al 2008] Munoz-Salinas, R., Medina-Carnicer, R., Madrid-Cuevas, F., Carmona-

Poyato, A.: Depth silhouettes for gesture recognition. Pattern Recognition letters 29(3),
pp.319 – 329 (2008).
[Murakami & Taguchi 1991] Murakami, K., Taguchi, H., : Gesture recognition using
recurrent neural networks. CHI conference on human factor in computing systems, pp. 237-
242, 1991.
p. 143
Bibliographie
[Nabiyev & Günay 2008] Nabiyev, V., Günay, A. Towards A Biometric Purpose Image
Filter According To Skin Detection. In The Second International Conference Problems of
Cybernetics and Informatics, pp.10-12, 2008.
[Nammalwar et al 2010] Nammalwar, P., Ghita, O. Whelan, P.F., A generic framework for
colour texture segmentation, Sensor Review 30(1) pp. 69–79, 2010.
[Nanni et al 2014] Nanni, L., Lumini, A., Dominio, F., Zanuttigh, P., Precise and effective
face detection based on both grey-level image and depth map. Applied Computing and
Informatics doi :http://dx.doi.org/10.1016/j.aci.2014.04.001. 2014.
[Ng & Ranganath 2000] Ng, C.W., Ranganath, S. Gesture recognition via pose
classification, in Proc. 15th International Conference on Pattern Recognition, vol. 3, pp. 699–
704, 2000.
[Ong & Bowden 2004] Ong, E.J., Bowden,R., A boosted classifier tree for hand shape
detection. In proceedings of sixth international conference IEEE on Automatic face and
gesture recognition, pp .889-894.2004.
[Ong & Ranganath 2005] Ong, C. W., Ranganath, S.,: Automatic Sign Language Analysis:
A Survey and the Future beyond Lexical Meaning. IEEE Transactions on Pattern Analysis
and Machine Intelligence. 27(6),pp. 873-891, 2005.
[Osawa et al 2000] Osawa N., Asai K., Sugimoto Y.Y., Immersive graph navigation using
direct manipulation and gestures, In: ACM symposium on virtual reality software and
technology. ACM Press, pp .147–152, 2000.
[Papakostas et al 2010] Papakostas, G. A., Koulouriotis, D. E., Karakasis, E. G.,
Computation strategies of orthogonal image moments: A comparative study. In Applied
Mathematics and Computation, pp.1–17,2010.
[Pavlovic et al 1996] Pavlovic v., Sharma, R., T., Huang. Gestural interface to a visual
computing environment for molecular biologists. In IEEE second international conference on
automatic face and gesture recognition. , pp 30-35, 1996.
p. 144
Bibliographie
[Petrou et al 2007] Petrou, M., Talebpour, A., Kadyrov, A., Reverse engineering the way
humans rank texture. Pattern Analysis and Applications.10(2) ,pp.101-114, 2007.
[Platt 1999] Platt, J.C., Probabilistic outputs for support vector machines and comparisons to
regularized likelihood methods. In Advances in Large Margin Classifiers. MIT Press.1999.
[Premartne et al 2012] Premartne, P., Ajaz, S., Premartne, M., Hand gesture tracking and
recognition system using Lucas-Kanade algorithms for control of consumer electronics. In
Neurocomputing vol .116, pp. 242-249, 2012.
[Powel 1987] Powell, M.J.D. Radial basis function for multivariable interpolation: a review,
Algorithms for approximation, pp. 143-167, 1987.
[Poynton] Color FAQ (Charles Poynton) http://www.poynton.com/PDFs/ColorFAQ.pdf.
[Priyal & Bora 2010] Priyal, S. P., Bora P. K., A study on static hand gesture recognition
using moments, IEEE International Conference on Signal Processing and Communications
(SPCOM), pp.1-5, 2010.
[Priyal & Bora 2013] Priyal,P.S,Bora,P.K, A robust static hand gesture recognition using
based geometry normalizations and Krawtchouk moments. Pattern recognition, vol (46), pp.
2202-2219, 2013.
[Radkowski & Stritzke 2012] Radkowski, R., Stritzke, C. Interactive hand gesture-based
assembly for augmented reality applications. In: ACHI 2012: the fifth international
conference on advances in computer–human interactions, IARIA, pp 303–308, 2012.
[Rautaray & Agrawall 2012] Rautaray, S., Agrawall,A. Vision based hand gestures
recognition for human computer interaction: A survey. Artificial Intelligence Revue DOI
10.1007/s10462-012-9356-9. 2012.
[Razmjooy et al 2013] Razmjooy, N.,Mousavi, B.S., Soleymani, F.,A hybrid network

Imperialist competitive algorithm for skin color detection. Mathematical and computer
modeling 57(3-4), pp.848-856. 2013.
p. 145
Bibliographie
[Rehg & Kanade 1995] Rehg, J., Kanade, T., Model-based tracking of self-occluding
articulated objects. In: Proceedings of the international conference on computer vision
(ICCV),pp.612–617,1995.
[Sahbi & Boujemaa 2002] Sahbi, H., Boujemaa, N., Coarse to fine face detection based on
skin color adaptation, Workshop on Biometric Authentication, pp.112-120, 2002.
[Schapire 2002] Schapire, R. The boosting approach to machine learning: an overview.

MSRI workshop on nonlinear estimation and classification, 2002.
[Schultz et al 2003] Schultz, M., Gill, J., Zubairi, S., Huber, R., Gordin, F., Bacterial
contamination of computer keyboards in a teaching hospital. Infect Control Hosp Epidemiol
4(24): pp 302–303, 2003.
[Schwerd & Crowely 2000] Schwerd, K., Crowely, J.L., Robust face tracking using color,
AFGR00, pp.90-95, 2000.
[Sebe et al 2004] Sebe, N. Cohen, T. Huang, T.S. Gevers, T. Skin detection, a Bayesian
network approach, ICPR04, vol 2 pp.903-906, 2004.
[See et al 2007] See, K.W., Loke ,K.S., Lee, P.A., Loe, K.F. Image reconstruction using
various discrete orthogonal polynomials in comparison with DCT. In Applied Mathematics
and computation. Vol 93(2), pp. 346-359, 2007.
[Segen & Kumar 1999] Segen, J., Kumar, S.: Shadow gestures: 3D hand pose estimation
using a single camera. In:Procs. of CVPR, vol. 1. Fort Collins, CO, USA (1999)
[Serra 1982] Serra, J., Mathematical morphology and Image Analysis. Academic Press, 1982.
[Shanableh & Assalaeh 2011] Shanableh, T., Assalaeh, K. User-Independent recognition of

Arabic sign Language for facilitating communication with the deaf community. In Digital
Signal Processing , vol 21 pp.535-542, 2011.
p. 146
Bibliographie
[Sigal et al 2004] Sigal, L., Sclaroff, S., Athitsos, V., Skin color-based video segmentation
under time-varying illumination, IEEE Trans. PatternAnal. Mach. Intell. 26 (6), 862-877
(2004).
[Simpson1992] Simpson, P. K. (Fuzzy min-max neural networks - part 1 : Classification.

IEEE Transactions on neural networks 3(5),pp. 776–786 1992.
[Song & Takatsuka 2005] Song L, Takatsuka M Real-time 3D finger pointing for an
augmented desk. In: Australasian conference n user interface, vol 40. Newcastle, pp 99–108,
2005.
[Sonka et al 1999] Sonka, M., Hlavac, V., Boyle, R., Image processing, analysis, and
machine vision. PWS Publishing, 1999.
[Soriano et al 2003] Soriano, M., MartinKauppi, J.B. , Huovinen, S., Laaksonen, M.,
Adaptive skin color modeling using the skin locus for selecting training pixels, Pattern
Recognition, 36 (3), pp. 681–690,2003.
[Streo 2001] http://www.stereoscopy.com/news/news-archive-8-2001.html.
[Stotts et al 2004] Stotts, D., Smith, J.M., Gyllstrom, K., Face space: endo- and exo-spatial
hypermedia in the transparent video face top. In 15th ACM conference on hypertext &
hypermedia.ACM Press, pp. 48–57. 2004.
[Starner & Pentland 1995] Starner, T., Pentland, A.: Real-time american sign language
recognition from video using hidden markov models. In: Procs. of Int. Symposium on
Computer Vision, pp. 265 – 270,DOI 10.1109/ISCV.1995.477012 (1995).
[Starner et al 1998] Starner, T. Weaver, J. Pentland, A., Real-time American sign language
recognition using desk and wearable computer based video, IEEE Transactions in Pattern
Analysis and .Machine Intelligence. Vol 20 (12), pp.1371–1375,1998.
[Strand & Taxt 1994] Strand, J., Taxt, T., Local frequency features for texture classification .
Pattern Recognition 27, pp. 1397-1406, 1994.
p. 147
Bibliographie
[Sweeney & Downton 1997] Sweeney, G. J. , Downton, A.C., Towards Appearance-Based

Multi-Channel Gesture Recognition. Gesture Workshop, pp. 7-16, 1997.
[Swindells et al 2002] Swindells C., Inkpen K.M., Dill, J.C., Tory, M. That one there!
Pointing to establish device identity. In: Proceedings of the 15th annual ACM symposium on
user interface software and technology. ACM Press, pp 151–160, 2002.
[Szczypinski et al 2014] Szczypinski, P.M., Klepaczko, A., Pazurek, M., Daniel, P., Texture
and color based image segmentation and pathology detection in capsule endoscopy videos.
Computer Methods and Programs in Biomedicine 113(1): 396-411, 2014.
[Tamura et al 1978] Tamura H, et al. Textural features corresponding to visual perception.

IEEE Trans. Syst., Man and Cybern. Vol 8 pp.460–472, 1978.
[Tanibata et al 2002] Tanibata, N., Shimada, N.,Shirai,Y., Extraction of hand features for
recognition of sign language words. In international conference of vision interface, 2002.
[Teng et al 2005] Teng, x., Wu, B., Yu, W., Liu, C., A hand gesture recognition system based
on linear embedding. In journal of visual languages and computing. 16 pp.442-454, 2005.
[Terillon et al 1998] Terillon, J.C., David, M., Akamatsu, S., Detection of human faces in
complex scene images by use of a skin color model and of invariantFourier–Mellin moments,
ICPR98, 1998, pp. 1350–1355.
[Thu et al 2002] Thu, Q.H., Meguro, M., Kaneko, M., Skin-color extraction in images with
complex background and varying illumination, Sixth IEEE Workshop on Applications of
Computer Vision, 2002.
[Tolba et al 2010] Tolba, M.F., Abdellwahab, M.S., Aboul-Ela, M., Samir, A., Image
signature improving by PCNN for Arabic sign language recognition. Canadian Journal of
Artificial Intelligence Machine Learning and Pattern Recognition. Vol. 1(1), pp.1-6, 2010.
p. 148
Bibliographie
[Tomasi et al 2003] Tomasi, C., Petrov, S., Sastry, A.,“3D tracking=classification +

interpolation,” in Proc. International Conference on Computer Vision, pp. 1441–1448, 2003.
[Triesch & Von 1996] Triesch, J., Von der malsuburg, C., Robust classification of hand
postures against complex backgrounds. FG 1996,pp. 170-175, 1996.
[Triesch & Von 1996] Triesch, J., Von der malsuburg , C., A Gesture Interface for Human-
Robot-Interaction. FG 1998, pp.546-551, 1998.
[Triesch & Von 2001] Triesch, J., Von der malsuburg , C., A System for Person-
Independent Hand Posture Recognition against Complex Backgrounds. In IEEE Trans.
Pattern Anal. Mach. Intell. 23(12)pp.1449-1453, 2001.
[Triesch & Von 2002] Triesch, J., Von der malsuburg , C., Classification of hand postures
against complex backgrounds using elastic graph matching . In Image Vision Computing .
Vol.20 (13-14), pp.937-943,2002.
[Turk1998] M. Turk, "Moving from GUIs to PUIs," Proc. Fourth Symposium on Intelligent
Information Media, Tokyo, Japan, December 1998.
[Turk 2001] Turk M., Hand book of Virtual environment technology. Lawrence Erlbaum
Associates, Inc., 2001.
[Unser 1995] Unser, M., Texture classification and segmentation using wavelet frames ,
IEEE Transactions on Image Processing – Volume 4, Issue 11– November 1995.
[Valkealathi & Oja 1998] Valkealathi, K., & Oja, E. Reduced multidimensional co-
occurrence histograms in texture classification. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 20(1), 90-94.1998.
[Vamplew & Adams 1998] Vamplew, P., Adams, A., Recognition of sign language gesture
using neural networks. Australian Journal of Intelligent Information Processing Systems,5,
94–102, 1998.
p. 149
Bibliographie
[Vapnik 1982] Vapnik,V., Estimations of dependences based on empirical data. Springer -

Verlag, Berlin ,1982
[Vapnik 1995] Vapnik, V., The nature of statistical learning theory, N-Y, Springer-Verlag,
1995.
[Viola & Jones 2001] Viola P., Jones,M. Robust real-time object detection. In: IEEE
workshop on statistical and computational theories of vision, Vancouver, (2001).
[Vogler & Metaxas 1998] Vogler, C., Metaxas, D.: ASL recognition based on a coupling
between HMMs and 3D motion analysis. In: Procs. of ICCV, pp. 363 – 369. IEEE Computer
Society, Bombay, India 1998.
[Vogler & Metaxas 2003] Vogler,C., Metaxas, D.: Handshapes and Movements: Multiple-
Channel American Sign Language Recognition. Gesture Workshop pp.247-258, 2003.
[Wagner 1988] Wagner,C. The pianist’s hand: anthropometry and biomechanics. In

Ergonomics (31):1 1988.
[Wah & Ranganath 2002] Wah Ng, C., Ranganath, S., Real-time gesture recognition system
and application. Image Vision and Computing, Vol. 20(13–14), pp.993–1007.2002.
[Waldron & Kim 1995] Waldron, M.B., Kim, S., Isolated ASL recognition system for deaf
persons. IEEE Transactions on Rehabilitation Engineering 3 (3), pp.261–271, 1995.
[Wang et al 2013] Wang, J.W., Wang, C.C., Lee, J.S., Genetic Eigen Hand Selection for
hand shape classification based on compact hand extraction. Engineering applications of
artificial intelligence, vol 26, pp. 2215-2226, 2013.
[Wee et al 2010] Wee, C.Y., Paramesran, R., Mukundan, R., Jiang,X., Image quality
assessment by discrete orthogonal moments. In Pattern Recognition, 43(12), pp. 4055-4068,
2010.
p. 150
Bibliographie
[Weszka et al 1976] Weszka J. S., C. R. Dyer and A. Rosenfeld, A comparative study of

texture measures for terrain classification, IEEE Transactions on Systems, Man and
Cybernetics, Vol. 6, pp. 269-285, 1976.
[Wong et al 2003] Wong, K.W., Lam, K.M., Siu, W.C., A robust scheme for live detection
of human faces in color images, Signal Processing. Image Communication.18 (2) 103–114.
2003.
[Wu et al 1999] Wu, H., Chen, Q., Yachida, M. Face detection from color images using a
fuzzy pattern matching method, IEEE Trans. Pattern Anal.Mach. Intell.(PAMI), 21 (6), pp.
557–563, 1999.
[Wu & Gao 2000] Wu, J., Gao, W., The recognition of finger spelling for Chinese Sign
Language, IN proceedings of International Conference of Advances in Multimodal
Interfaces, pp.599-606, 2000.
[Wu & Huang 2001] Wu, Y., Huang, T.S., Hand modelling analysis and recognition of
vision-based human computer interaction. IEEE Signal processing magazine, special issue on
immersive interactive Technology, vol. 18, no3, pp.51-60,2001.
[Wu et al 2005] Wu Y., Lin, J. , Huang, T. S. , “Analyzing and capturing articulated hand
motion in image sequences,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 27, pp. 1910–1922, 2005.
[Yang et al 1998] Yang, J., Lu, W.,Waibel, A., Skin-color modelling and adaptation,
ACCV98, pp.687-694, 1998.
[Yang & Ahuja 1999] Yang, M.H., Ahuja, N., Gaussian Mixture model for human skin color
and its application in image and video databases, Proceedings of SPIE: Conference on Storage
and Retrieval for Image and Video Databases, vol. 3656, pp. 458–466. 1999.
[Yang et al 2002] Yang, M. H., Ahuja, N., Tabb, M., Extraction of 2D motion trajectories
and its application to hand gesture recognition. IEEE Transactions on Pattern Analysis and
Machine Intelligence 24(8) pp.1061-1074, 2002.
p. 151
Bibliographie
[Yang et al 2008] Yang, A.Y., Wright, J., Ma, Y., Sastry, S., Unsupervised segmentation of
natural images via lossy data compression, Computer Vision and Image Understanding,
110(2), pp. 212–225, 2008.
[Yang et al 2013] Yang, Y., Han, S., Wang, T., Tao, W., Tai, X-C., Multilayer graph cuts
based unsupervised color-texture image segmentation using multivariate mixed student's t-
distribution and regional credibility merging. Pattern Recognition 46(4), pp. 1101-1124, 2013.
[Yang et al 2014] Yang, Y., Guo, L., Wang, T., Tao,W., Shao, G., Feng, Q., Unsupervised
multiphase color-texture image segmentation based on variational formulation and multilayer
graph. Image and Vision Computing. 32(2), pp. 87-106. 2014.
[Yuan et al 2005] Yuan Q., Sclaroff S., Athitsos, V., Automatic 2D hand tracking in video
sequences, in Proc. IEEE Workshops on Application of Computer Vision, pp. 250–256, 2005.
[Zahedi et al 2006] Zahedi, M., Dreuw, P., Rybach, D., Desealers, T., Ney, H., Using
Geometric Features to improve Continuous Appearance–based Sign Language Recognition.
In British Machine Vision Conference (BMVC), Edinburgh. UK. Vol 3, pp. 1019-1028,2006
[Zhu et al 2004] Zhu, Q., Cheng, K.-T., Wu, C.-T, Wu, Y.-L. , Adaptive learning of an
accurate skin-color model, AFGR04, pp.37-42, 2004.
[Zieren et al 2002] Zieren, J., Unger, N., Akyol, S., Hands Tracking from Frontal View for
Vision-Based Gesture Recognition. DAGM-Symposium 2002, pp.531-539, 2002.
[Zieren & Kraiss 2005] Zieren, J., Kraiss, K.: Robust person-independent visual sign
language recognition. In:Procs. of IbPRIA, pp. 520 – 528. Springer, Estoril, Portugal (2005).
p. 152

TH8068

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TH8068

Transféré par

Droits d'auteur :

Formats disponibles

N° d’ordre : 05/2014-D/INF

République Algérienne Démocratique et Populaire

Par : Dahmani Khelifa Djamila

Elaboration d’un Système de Reconnaissance

M. Y. Chibani Professeur à l’USTHB Président

M. S. Larabi Professeur à l’USTHB Directeur de thèse

Mme. L. Hamami Professeur à l’ENP Examinateur

M. M. Diaf Professeur à l’ UMMTO Examinateur

Melle. S. Aouat Maitre de conférences à l’ USTHB Examinateur

M. M.S Djouadi Maitre de conférences à l’ EMP Examinateur

A mon mari et mes deux

Le système se compose de trois principales phases:

- Segmentation de l’image et localisation de la main,

- Reconnaissance de la posture de la main.

RECONNAISSANCE DES GESTES DE LA MAIN : ETAT DE L’ART ............................................................................... 7

LA LANGUE DES SIGNES ET SON INTERPRETATION............................................................................................ 37

SEGMENTATION D’IMAGE ET EXTRACTION DE LA MAIN : CAS D’UN ARRIERE-PLAN COMPLEXE .................................. 51

VALIDATION DES APPROCHES PROPOSEES ..................................................................................................... 89

Figure I.1 : Exemple de gant cybernétique [Inition].

8. Un bon système de reconnaissance des gestes de la main doit tolérer quelques

I.3 Contributions de la thèse

La première contribution de cette thèse consiste en l’élaboration d’une méthode de

I.4 Organisation de la thèse

Ce manuscrit est organisé comme suit :

Avant de pouvoir parler des différents systèmes existants dans la littérature,

1.2 La main : instrument de tous les instruments

1.2.1 Anatomie de la main

Le carpe est constitué de 8 os qui sont répartis en deux rangées transverses de 4

Les métacarpiens sont au nombre de 5 et s’articulent en haut avec la deuxième

1.2.3 Anthropométrie de la main

L’anthropométrie est l’ensemble des techniques de mesure des proportions

• Longueur 2ème phalange du majeur/longueur de la main : 0.170 ± 0.003

1.2.3 Biomécanique de la main

En excluant les six degrés de liberté du poignet (trois translations et trois

Figure 1.2 Anatomie de la main

Les articulations inter phalangiennes (IPD et IPP) possèdent chacune un seul

Figure 1.3 Angles de flexion/extension et abduction/ adduction de l’index.

Les contraintes dynamiques représentent les interdépendances existant entre

  fMCP Index  25

1.2.4 Gestes et postures de la main

Dû au fait que la main possède un nombre de degrés de liberté très important, la

Figure1.4 Signes ’d’ et ‘z’ dans l’ASL.

Avec ce niveau d’informations sur la main, le problème de la reconnaissance des

1.3 Méthodologie de reconnaissance des gestes et

postures de la main en vision artificielle

Plusieurs méthodologies ont été proposées pour le développement d’un système

1.3.1 Collecte des données (Acquisition)

 Monoculaire [Zieren & Kraiss 2000].

Figure1.7 Kinect de Microsoft HD (Soft Kinect, 2012).

1.3.2 Détection et suivi de la main

primitives les plus utilisées, à savoir : la couleur, la forme, l’intensité, le mouvement, le

La couleur de la peau a été largement utilisée pour extraire la région de la main.

a. Les espaces de couleur

 Les espaces couleur de base (RGB, RGB normalisé, CIE-XYZ)

 Les espaces couleurs perceptuels (HSI, HSV, HSL et TSL)

Les primitives perceptuelles comme la teinte H, la saturation S et l’intensité I

 Les espaces couleurs orthogonaux ( YC b Cr , YIQ, YUV, YES)

Les espaces couleur orthogonaux réduisent la redondance existant dans l’espace

Cb , Cr la chrominance par rapport aux couleurs bleu et rouge respectivement. Vu la

simplicité de la transformation de l’espaceRGB vers L’espace YCbCr ainsi que

répondre à un problème spécifique de la segmentation par exemple dans [Dai &

b. Méthodes de classification des pixels peau par la couleur :

 Méthodes par seuillage

 Histogramme et la classification de Bayes