Académique Documents
Professionnel Documents
Culture Documents
Bi-Manuelles.
2 Dispositif expérimental
L’utilisateur interagit, dans le champ de la caméra, entre
1m et 2,5m d’un grand écran de 2x1,7m. L’image est
obtenue par un projecteur placé au plafond et possédant
une courte focale afin d’éviter les ombres sur l’écran. On
emploie une caméra stéréo (C) (Figure 1-gauche) placée au
dessus de l’écran et avec un angle de 45 degrés de même
que dans [6]. Le placement à 45 degrés de la caméra per- Figure 2: Les différents états du système de reconnaissance
met d’obtenir la plus grande excursion possible sur l’image de geste de pointage.
lors des déplacements horizontaux ou verticaux de la main,
alors qu’une caméra placée sur le coté [13, 10] limite
l’excursion horizontale et donc la précision. Un autre dis- Lorsque aucun utilisateur n’est détecté, le système cherche
positif a été expérimenté (Figure 1-droite) dans lequel la un visage (Figure 2). Une fois un visage trouvé, on effectue
caméra est virtuellement placée au centre de l’écran avec un suivi et le détecteur de visage est désactivé (nous nous
un angle de 90 degrés grâce à une lame semi-transparente. intéressons uniquement aux interactions avec une seule
personne). Le système cherche alors une première main. ne peut être atteinte par une main compte tenu des con-
La première main détectée est suivie et est utilisée pour traintes morphologiques. Ces zones sont définies par rap-
estimer la direction pointée. Le système cherche ensuite port au visage ce qui permet de garder un comportement
une seconde main qui sera utilisée pour sélectionner ou du système identique lorsque l’utilisateur se déplace dans
contrôler un troisième axe lors d’interactions 3D. Quand le champ de la caméra.
le modèle de tête est perdu, le système le détecte au- Lorsque la seconde main est utilisée pour sélectionner un
tomatiquement (c.f. §6.1) et se réinitialise même si les objet pointé, le même découpage de l’espace est utilisé.
modèles de mains sont encore suivis, car la tête est indis- Lorsque cette main contrôle un axe de zoom 3D, un autre
pensable pour estimer la direction pointée et donc interagir. découpage de l’espace est réalisé. La seconde main n’est
Le système fonctionne automatiquement : aucune calibra- pas détectée tant qu’elle reste près du corps (Figure 4-a)
tion et aucun apprentissage spécifique à l’utilisateur n’est puis elle est détectée lorsqu’elle est avancée mais reste in-
nécessaire. De plus, le système est robuste à des variations active tant qu’elle est baissée (Figure 4-b); c’est sa zone de
raisonnables de luminosité et à la présence de teinte-chair repos. Une fois levée, la seconde main, en avançant ou en
sur les vêtements ou dans le fond. reculant, permet de contrôler de façon continue un axe (par
exemple le zoom Figure 4-c,d), ce qui constitue sa zone
4 Détection des parties du corps d’action.
4.1 Découpage de l’espace corporel
Lors d’une interaction homme-machine, l’utilisateur fera
des gestes sans s’adresser forcément à la machine. Pour
détecter l’intentionnalité de l’utilisateur, l’espace autour du
corps est divisé en trois zones (Figure 3-a).
( 2πσt )3
Le dernier modèle est la classe rejet définie pour le reste
de l’image. Il possède uniquement un histogramme Hr vec σt relatif à la taille de la tête. Les gaussiennes pour les
comme paramètre. Les parties du corps possèdent comme mains s’exprime de la même manière.
paramètres la position 3D de leur centre (x, y, z) et un his- Lorsque l’utilisateur est torse nu ou avec un vêtement
togramme couleur H. Les histogrammes couleur sont nor- teinte-chair, le modèle de la tête peut dériver sur le torse.
malisés comme des probabilités (somme des composantes L’exponentielle de la tête Et a été introduite pour donner
égale à 1). Les histogrammes des parties du corps sont plus d’importance aux pixels situés en hauteur et dépend
initialisés à la détection avec les pixels à l’intérieur du donc de yi (l’axe des y étant dirigé vers le bas):
cadre de leur modèle. L’histogramme de la classe re- Et (yi ) = τt e−λt (yi −yref )
jet est réinitialisé à chaque nouvelle détection et calculé
comme complément aux parties du corps détectées dans avec τt le paramètre de normalisation de l’exponentielle
l’espace des observations. Cet histogramme ne représente tête, λt correspondant à une distance caractéristique de
pas l’ensemble du fond de l’image, mais uniquement les 20cm et yref la hauteur maximum de la tête admise.
pixels de teinte-chair dans l’espace du corps n’appartenant De même, lorsque le bras est nu ou avec un vêtement de
ni à la tête ni aux mains (vêtement teinte-chair, avant-bras teinte-chair, les modèles de mains peuvent dériver sur leur
nu...) (Figure 7). bras. Les exponentielles des mains Em1 et Em2 ont été in-
troduites pour donner plus d’importance aux pixels situés
en avant de l’utilisateur afin de converger en situation de espérances. Pour la tête, la nouvelle position est:
pointage vers les mains. Ces exponentielles dépendent de
la distance sur l’axe z entre l’observation z i et la tête zt . x̂t
Elles s’expriment pour la première main: xt =
Ẑ t
ŷt
Em1 (zi ) = τm1 e−λm1 (zi −zt ) (idem pour la main 2) yt = − λt σt2
Ẑ t
avec τm1 le paramètre de normalisation de l’exponentielle ẑt Ẑ m1 Ẑ m2
zt = + 2λm1 σt2 + 2λm2 σt2
de la première main et λm1 correspondant à une distance Ẑ t Ẑ t Ẑ t
caractéristique de 20cm.
De même, on exprime Ẑm1 , Ẑm2 et Ẑr les probabilités La figure 8 compare le précédent suivi séquentiel avec une
d’appartenir aux modèles mains et au modèle rejet. gaussienne 2D et le suivi simultané actuel avec une gaussi-
On calcule des espérances intermédiaires à partir des Ẑi . enne 3D. Après étiquettage à la main de la position réelle
Pour l’histogramme tête: de la tête et des deux mains, on détermine pour les deux
méthodes de suivi, la distance entre la position trouvée lors
1 X t du suivi et la position réelle. Sur la séquence d’une durée
Ĥt (u, v) = Ẑ δ(ui − u)δ(vi − v) de 208 images, pour le suivi séquentiel avec une gaussi-
N i i
enne 2D, l’erreur moyenne est de 4,1 cm pour la tête, de
et pour la position du centre de la tête: 17,2 cm pour la main de pointage (main gauche) (figure 9)
et de 26,1 cm pour l’autre main. Pour la main de pointage,
1 X t il y a 3 pertes (précédées d’une dérive de longue durée)
x̂t = Ẑ xi idem pour ŷt et ẑt et 4 pour l’autre main. Notons qu’à chaque perte, afin
N i i
de pouvoir comparer entre eux les deux suivis, la position
On procède de la même manière pour les modèles mains de l’élément perdu est réinitialisée à partir de la position
et le modèle rejet. réelle étiquettée. Pour le suivi simultané avec une gaussi-
enne 3D, l’erreur moyenne est de 4,6 cm pour la tête, de
1,9 cm pour la main de pointage et de 9,8 cm pour l’autre
Etape M. main. Il n’y a pas de perte pour la main de pointage mais
Lors de l’étape M (Maximisation), les nouvelles esti- 3 pertes (précédées d’une dérive d’une seule image) pour
mations des paramètres θ sont calculées à partir des l’autre main.
couleur discriminante. Avec la stéréo, nous disposons de
la position 3D, mais cet indice n’est pas toujours suffisam-
ment discriminant.
Nous proposons de détecter les occultations lorsque les
cadres de deux objets suivis sont superposés même par-
tiellement sur l’image. Afin de suivre correctement les ob-
jets durant l’occultation, deux approches différentes sont
utilisées selon la nature de l’occultation.