Vous êtes sur la page 1sur 6

Apprentissage de structure dans les r eseaux bay esiens pour la d etection d ev enements vid eo

Siwar Baghdadi1 , Claire-H el` ene Demarty1 , Guillaume Gravier2 , et Patrick Gros3

Thomson R&D France, 1 av Belle Fontaine-CS 17616, 35576 Cesson-S evign e. France {siwar.baghdadi,claire-helene.demarty}@thomson.net 2 CNRS,IRISA Campus de Beaulieu 35042 Rennes Cedex, France. {guillaume.gravier}@irisa.fr 3 INRIA centre de Rennes - Bretagne Atlantique Campus de Beaulieu, 35042 Rennes, France {patrick.gros}@inria.fr R esum e Dans cet article, nous proposons un syst` eme de d etection d ev enements bas es sur les r eseaux bay esiens. Ce syst` eme repose sur lapprentissage automatique de la structure du r eseau bay esien a ` partir de donn ees dapprentissage. Nous comparons notre approche a ` une approche na ve qui suppose que les attributs du syst` eme sont ind ependants conditionnellement a ` l ev enement. An de valider notre approche, nous consid erons la d etection dActions dans un match de football. Les r esultats exp erimentaux eectu es sur une base de quatre matchs montrent une am elioration des performances de classication par rapport a ` la m ethode na ve utilis ee classiquement dans la litt erature. Mots cl es R eseaux bay esiens, apprentissage de structure, classication, indexation vid eo.

Introduction

Plusieurs travaux proposant de faire lindexation vid eo dans le cadre des r eseaux bay esiens sont apparus r ecemment dans la litt erature. Dans [1], les auteurs utilisent ainsi un r eseau bay esien pour extraire les moments int eressants dans des vid eos de Formule 1. Wang et al [2] ont quant ` a eux mis en place un syst` eme utilisant les r eseaux bay esiens pour la d etection d ev enements dans les vid eos de sport. Ces deux approches utilisent une structure du r eseau bay esien construite ` a la main, ` a partir de connaissances sur le domaine trait e. Les connaissances sur les di erentes relations qui existent entre les variables du probl` eme ne sont cependant pas toujours disponibles. A d efaut, la structure est x ee, toujours manuellement, mais en supposant g en eralement lind ependance entre les attributs conditionnellement ` a l ev enement recherch e. Il est toutefois egalement possible dexploiter les donn ees dapprentissage pour construire automatiquement la structure du r eseau bay esien. Dans de pr ecedents travaux [3], nous proposions dutiliser lapprentissage de structure pour construire automatiquement le mod` ele dans le but de faire la d etection de publicit e dans un ux TV. Lapproche utilis ee dans [3], qui apprend un r eseau bay esien non contraint, ne distingue cependant pas

S. Baghdadi, C.H. Demarty, G. Gravier, P.Gros

le nud de classication des autres nuds. Cette m ethode nest pas optimale dans le cas de la classication d ev enements rares tels que les Actions ou les Buts dans les matchs de football. Nos exp eriences montrent en eet quune recherche contrainte, o` u un r ole particulier est donn e au nud de classication, sav` ere plus ecace. Apr` es une description du concept des r eseaux bay esiens, nous pr esentons les di erentes m ethodes dapprentissage de structure que nous utilisons. Nous poursuivons par la pr esentation des r esultats de ce type dapprentissage sur lapplication que nous avons envisag ee, avant de conclure.

Les r eseaux bay esiens

La th eorie des r eseaux bay esiens r esulte dune fusion entre la th eorie des probabilit es et la th eorie des graphes [4]. On d enit classiquement un r eseau bay esien comme un graphe acyclique dirig e. Il est form e dun ensemble de variables et dun ensemble darcs entre les variables. Chaque variable correspond ` a un nud du r eseau. A chaque variable Xi ayant pour parents lensemble : pa(Xi ), on associe une probabilit e conditionnelle p(Xi |pa(Xi )). Dans les r eseaux bay esiens, la probabilit e jointe du mod` ele s ecrit ainsi : P (X1 , ...Xn ) =
1..n

(P (Xi |pa(Xi )))

(1)

Un r eseau bay esien poss` ede deux niveaux de param` etres : des param` etres quantitatifs qui sont les probabilit es conditionnelles associ ees ` a chaque nud, p(Xi |pa(Xi )), et des param` etres qualitatifs qui sont les arcs entre les di erents nuds. Lensemble de ces arcs forme la structure du r eseau. Deux types dapprentissage sont disponibles dans les r eseaux bay esiens. Le premier type, largement utilis e dans la litt erature, est un apprentissage de param` etres. G en eralement, cet apprentissage se fait avec la m ethode du maximum de vraisemblance. Le deuxi` eme type est lapprentissage de structure. Dans [3], les auteurs proposent dutiliser lalgorithme K2 [5], pour r ealiser lapprentissage de structure dun r eseau bay esien non contraint. Ils obtiennent ainsi une structure g en erique pour la d etection de publicit e. Cette m ethode dapprentissage de structure utilise le score BIC pour evaluer les structures. Il peut se d ecomposer au niveau de chaque nud Xi sous la forme de l equation 2. 1 scoreBIC (Xi , p(Xi )) = log (P (Xi /pa(Xi )) .Dim(Xi , G ).log (N ) (2) 2 o` u N est le nombre dexemples dans la base de donn ees, et Dim(Xi , G ) est le nombre de param` etres n ecessaires pour d ecrire linformation au niveau du nud dans la structure G . Le score BIC est ainsi compos e de deux termes, un premier terme qui tient compte de la vraisemblance des donn ees par rapport au mod` ele, cest donc un terme dattache aux donn ees. Le second terme tient compte de la complexit e de la structure. Cette formulation du score ne met cependant aucunement en avant le nud de classication. Dans ce cadre, la m ethode dapprentissage de structure bas ee sur le score BIC de l equation 2 peut r esulter en une structure qui simulera correctement les donn ees sans toutefois etre optimale pour notre t ache de classication. Dans le paragraphe suivant nous proposons donc de revoir cette m ethode de fa con ` a ladapter ` a la classication d ev enements.

Apprentissage de structure dans les r eseaux bay esiens pour la d etection d ev enements vid eo

Utilisation de lapprentissage de structure pour la classication

Notre objectif principal est la d etection d ev enements dans les vid eos. Nous etudions dans cette partie lutilisation de lapprentissage de structure pour automatiser cette t ache de d etection d ev enements. Le r eseau bay esien le plus connu dans la litt erature est le r eseau bay esien na f, connu aussi sous le nom de classieur bay esien. Dans ce type de r eseau, les attributs X1 , , Xn1 sont suppos es ind ependants conditionnellement ` a la classe Xc . Les nuds attributs ne poss` edent quun seul parent, cest le nud de classication. Cette hypoth` ese entra ne la simplication de la loi jointe de l equation 1 sous la forme de l equation 3. De tels r eseaux ont et e largement utilis es dans la litt erature pour la classication [6]. Ils se caract erisent, en eet, par la rapidit e des op erations dapprentissage et dinf erence. P (Xc , X1 , ...Xn1 ) = P (Xc ). (P (Xi /Xc ))) (3)
1..n1

Toutefois, dans les r eseaux bay esiens na fs, aucune corr elation entre les attributs nest prise en compte. Toutes les caract eristiques contribuent ` a la classication de la m eme mani` ere. Le nud de classication prote de linformation donn ee par chaque attribut ind ependamment de linformation donn ee par les autres caract eristiques. Ceci peut ne pas etre optimal pour la t ache de classication. Nous proposons denrichir la structure du r eseau bay esien na f pour tenir compte des corr elations qui existent entre les di erents attributs. Dans [7], les auteurs ont propos e lapproche TAN pour enrichir la structure du r eseau bay esien. Cette approche utilise une structure en arbre an de faire la classication. La structure en arbre pr esente lavantage davoir une complexit e faible ; elle evite donc les probl` emes de sur-apprentissage. Toutefois restreindre le nombre de parents autres que le nud de classication ` a exactement un parent pour chaque nud, est une contrainte forte. La structure ainsi obtenue ne permet pas de repr esenter le cas o` u une variable est corr el ee avec plusieurs autres variables. Elle ne permet pas non plus de repr esenter le cas o` u une variable est conditionnellement ind ependante de toutes les autres variables par rapport au nud de classication . Dans ce cas, le nud repr esentant cette variable na besoin que du nud de classication comme parent. Lajout dun autre parent ne fait quaugmenter inutilement la complexit e et le nombre de param` etres du r eseau. Pour ces raisons, nous utilisons lalgorithme K2 pour enrichir la structure du r eseau bay esien na f. Ce choix nous permet de ne plus nous restreindre ` a une structure darbre mais davoir une structure plus g en erique. Nous avons egalement modi e le score BIC de lalgorithme K2, pour tenir compte du fait que chaque nud attribut doit avoir comme parent le nud de classication. Le score BIC modi e au niveau de chaque nud Xi s ecrit alors : scorem BIC (Xi , p(Xi )) = log (P (Xi /pa(Xi ), Xc ) .Dim(Xi , G ).log (N ) (4)

A limage du score BIC , le score BIC modi e est compos e de deux termes. Un premier terme permettant la maximisation de la vraisemblance ; et un second terme permettant de tenir compte de la complexit e du r eseau construit. La variable permet une pond eration

S. Baghdadi, C.H. Demarty, G. Gravier, P.Gros

entre linuence de ces deux termes. Ainsi, plus est grand, plus la complexit e de la structure aura de poids dans le calcul du score, et plus les structures obtenues seront simples.

4
4.1

R esultats exp erimentaux


Protocole exp erimental

An de tester notre approche, nous avons pris le cadre de la d etection dActions dans un match de football. Une Action est un moment du match o` u un joueur tente de marquer un but. Dun point de vue vid eo, cela se traduit par un moment du jeu g en eralement au niveau de la zone de but de lune des deux equipes, avec une acclamation de la foule et une augmentation du niveau dexcitation du pr esentateur. Cet instant est aussi g en eralement suivi par des plans de ralenti. Les attributs que nous utilisons sont des attributs extrait des signaux audio et vid eo : niveau sonore de la foule, plage de jeu/non jeu, type de plan (large ou pas), transition, pr esence de visage, couleur verte, logo du ralenti, position sur le terrain. Puisquune Action inuence egalement les plans suivants dans la vid eo nous rajoutons ` a notre liste dattributs les attributs des cinq plans suivants. Nous totalisons ainsi 40 variables pour les attributs, et une variable pour la classe Action. Notre base de donn ees est constitu ee de quatre matchs issus de la coupe du monde 2006, ce qui correspond ` a 109 Actions et 6300 plans autres. Notre base de donn ees n etant pas tr` es grande, pour la phase de test, nous avons choisi dutiliser un processus de cross-validation. Nous pr esentons nos r esultats sous forme de courbe de Pr ecision/Rappel. 4.2 R esultats

Nous proposons dans la gure 1 une comparaison entre lapproche utilisant un r eseau bay esien non contraint, lapproche utilisant les r eseaux bay esiens na fs et lapproche enrichissant les r eseaux na fs par une structure g en erique telle que propos ee dans le paragraphe pr ec edent. Il appara t clairement que les r esultats du r eseau bay esien non contraint ne sont pas satisfaisants en terme de classication. Ces r esultats sont m eme de moindre qualit e que ceux donn es par un r eseau bay esien na f, classiquement utilis e dans les t aches de classication. Ces r esultats peuvent etre expliqu es par le fait que cette approche ne donne aucune position particuli` ere au nud de classication. Elle cherche ` a maximiser la vraisemblance du mod` ele par rapport aux donn ees, sans tenir compte du fait que notre but principal est la classication. Dans le cas o` u lon dispose dun nombre important dattributs, le terme tenant compte de la classication est en eet noy e par la vraisemblance des attributs. Lapproche que nous avons propos ee suppose, quant ` a elle, que le nud de classication est connect e` a tous les attributs. Elle permet donc au nud de classication de proter de linformation de tous les attributs. Sur la gure 1, il appara t aussi que notre approche donne de meilleurs r esultats que la structure du r eseau bay esien na f, pour lequel on suppose une ind ependance conditionnelle

Apprentissage de structure dans les r eseaux bay esiens pour la d etection d ev enements vid eo

entre les attributs par rapport au nud de classication. Ce r esultat montre limportance de tenir compte des connexions entre les attributs pour augmenter le pouvoir de classication. Dans la gure 2, nous comparons notre approche ` a lapproche TAN qui augmente

Fig. 1. Comparaison entre les r esultats du r eseau bay esien na f, du r eseau bay esien non contraint et du r eseau bay esien na f augment e par une structure g en erique.

le r eseau bay esien par un arbre, pr esent e dans [7]. La di erence entre les deux approches r eside dans le fait que pour lapproche TAN, la structure du r eseau bay esien na f est augment ee par une structure darbre, alors que notre approche enrichit la structure du r eseau na f par une structure g en erique. Nous remarquons que lenrichissement par une structure g en erique donne de meilleurs r esultats de classication. En eet se restreindre ` a une structure en arbre ne garantit pas des r esultats de classication optimaux. Cela permet en outre de tenir compte des corr elations existant entre les attributs.

Conclusion

Les tests exp erimentaux que nous avons eectu es montrent que lapprentissage de structure des r eseaux bay esiens am eliore les performances de classication d ev enements dans les donn ees vid eo par rapport au r eseau bay esien na f classiquement utilis e dans la litt erature. On peut donc conclure que lapprentissage de structure constitue un outil ecace pour automatiser la t ache de d etection d ev enements dans la vid eo. Plus pr ecis ement, nous avons aussi montr e que lapprentissage de structure doit g erer le nud de classication di eremment des nuds attributs. Nous avons en eet prouv e dans notre application que les approches de type r eseau bay esien na f enrichi am eliorent les performances de classication du syst` eme. De plus, lutilisation dune structure g en erique

S. Baghdadi, C.H. Demarty, G. Gravier, P.Gros

Fig. 2. Comparaison entre les r esultats du r eseau bay esien augment e par une structure darbre et du r eseau bay esien augment e par une structure g en erique.

pour enrichir le r eseau na f am eliore encore les r esultats de classication, par rapport ` a une approche qui utilise une structure darbre. Dans le futur, nous envisageons d etudier leet de la s election dattributs sur les approches telles que les approches de r eseaux bay esiens na fs enrichis. Ce type dapproches, tout comme les r eseaux bay esiens na fs, prend en eet en compte tous les attributs, y compris ceux qui ne sont pas utiles pour la classication.

R ef erences
1. M. Petkovic, V. Mihajlovic, W. Jonker, and S. Djordjevic-Kajan. Multi-modal extraction of highlights from TV formula 1 programs. In Proc. IEEE ICME, pages 817820, 2002. 2. F. Wang, Y. Ma, H. Zhang, and J. Li. A generic framework for semantic sports video analysis using dynamic bayesian networks. In Proc. IMMC, pages 115122, 2005. 3. S. Baghdadi, G. Gravier, C.H. Demarty, and P. Gros. Structure learning in a Bayesian network-based video indexing. In Proc. IEEE ICME, pages 677680, 2008. 4. F.V Jensen. Bayesian Networks and Decision Graphs. Springer, 2001. 5. G. F. Cooper and E. Herskovits. A Bayesian method for the induction of probabilistic networks from data. Machine learning, pages 309347, 1992. 6. P. Langley, W. Iba, and K. Thompson. An analysis of Bayesian classiers. Proc. NCAI, pages 223228, 1992. 7. N. Friedman, D. Geiger, and M. Goldszmid. Bayesian network classiers. Machine Learning, 29(2) :131 163, 1997.