Vous êtes sur la page 1sur 4

XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002 XYZ

Implmentation d'un systme de tatouage pour la transmission de donnes


Alejandro LoboGuerrero, Jol Linard, Patrick Bas,
Laboratoire d'Images et Signaux,
961 Rue de la huile blanche, Domaine universitaire BP 46
38402 St Martin d'Hres cedex
mail: alobogue@lis.inpg.fr, joel.lienard@lis.inpg.fr, patrick.bas@lis.inpg.fr http: www.lis.inpg.fr


ABSTRACT
Audio watermarking is a method that allows the
insertion of an imperceptible mark on an audio data set.
Although the watermarking is often used to guarantee
copyrights, it can also be used to increase the
information transmitted in a communication context. In
this paper, this idea is derived from a classical data
transmission technique. Then, this model has been
modified by controlling the transmitted power and by
adapting the spectral coefficients of embedded codes
according to the voice signal. This watermarking
technique allows us to provide robust system to several
treatment, specially to MP3 compression technique
1. INTRODUCTION
Le tatouage de signaux [1,7] a t dans un premier
temps prsent comme une technique permettant de
rpondre au problme de la protection de droits
d'auteur. L'ide de base consiste ajouter une marque
(encore appele signature) aux donnes protger. La
marque doit tre imperceptible : dans le cas du tatouage
audio la prsence de la marque ne doit pas introduire
de distorsion audible, et elle doit aussi tre robuste vis-
-vis au traitements habituels du signal ainsi qu'aux
attaques malveillantes. Cependant, cette marque doit
tre dtectable par les personnes autorises.
En plus de son utilisation pour la protection des droits
d'auteur, les techniques de tatouage peuvent tre
envisages pour la transmission de donnes [2,5]
superposes un signal audio. On parle alors de
"contenu augment". Plusieurs applications sont
possibles dans ce contexte. Par exemple, si
linformation prioritaire transmettre est de la parole, il
apparat alors utile de transmettre des informations
lies une analyse vido tels que des paramtres
caractrisant les lvres en mouvement, le visage du
locuteur ou toute autre information permettant
daugmenter lintelligibilit de la conversation. Une
telle application fait lobjet du projet RNRT ARTUS
qui a pour objectif dutiliser le tatouage de document
pour insrer dans le flux audio une information
inaudible issue de la vido (cf. Figure 1).
L'objectif de cet article est de prsenter un schma de
tatouage d'audio applicable dans un contexte de
communications numriques. Le cadre de ce travail
ncessite des contraintes prcises :
Le dbit de transmission du message insr
doit tre le plus haut possible.
Le systme de tatouage doit galement tre
robuste face la compression de donnes, en
particulier la compression de type MPEG
couche 3 (MP3) qui est souvent utilise [4].
Les attaques destines enlever la marque
dans le signal de parole (piratage) ne seront
pas prises en compte. Ceci car les signaux
transmettre ne sont pas des donnes sensibles.
2. IMPLEMENTATION
2.1. Cadre gnral
Pour aboutir notre objectif, nous avons choisi
d'utiliser une mthode de tatouage inspire de la
technique de communications CDMA (Code Division
Multiple Access)[3]. Cette technique, qui permet la
transmission de messages de plusieurs utilisateurs de
Figure 1. Rle du tatouage au sien du Projet RNRT ARTUS
XYZ XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002
faon simultane, peut tre utilise en systmes mono-
utilisateur pour les communications faible rapport
signal bruit. La modulation utilise consiste
remplacer chaque bit du message par un signal binaire
dtermin, appel code, caractris par ses proprits
de corrlation. Un code diffrent est assign pour
chaque utilisateur du systme. Cette modulation, aussi
appele modulation par talement de spectre, a la
proprit de raliser une distribution spectrale de
puissance dans toute la largeur de bande disponible.
La dmodulation seffectue en calculant la corrlation
entre le signal disponible en rception et une copie du
code utilis.
Pour notre implmentation, un seul type de code a t
employ pour insrer un message binaire. La version
positive du code correspondra au bit 1 du message et
rciproquement la version ngative sera utilise pour le
bit 0 (cf Figure 2 ).



Figure 2 Modulation avec un seul code
Ceci correspond la ralisation du calcul de :
(1) W(t) = MSG(t) C(t).
o MSG(t) reprsente le message envoyer, C(t) le
code utilis et W(t) le rsultat de la modulation. Ce
rsultat est par la suite additionn au signal sonore :
(2) S
w
(t) = S(t) + W(t).
Dans ce type dapplication il est important de prciser
que la dynamique du signal ajout doit tre
suffisamment faible pour que le code ne soit pas
perceptible
A ltape de rception, une copie du code est utilise
afin de dcoder le signal reu. Pour dterminer le
message envoy, il suffit de calculer le produit scalaire
entre ce code et le message reu. La dcision sera prise
en comparant sa valeur zro
La loi de dcision est la suivante :
(3) 0 ) ( , ) ( > t C t Sw Si Bit dtecte = 1
0 ) ( , ) ( < t C t Sw Si Bit dtecte = 0
o
( ) , ( ) Sw t C t
correspond au produit scalaire entre
les vecteurs
( ) Sw t
et
( ) C t
.
( ) , ( ) Sw t C t
peut
s'exprimer de la manire suivante:
(4)
( ) , ( ) ( ), ( ) ( ), ( )
( ), ( )
Sw t C t S t C t W t C t
W t C t
= +


Dans ce contexte de communications W(t) correspond
au message envoy et S(t) (le son) est considr comme
du bruit.
Remarque : Pour raliser le produit scalaire, il est
ncessaire de connatre l'instant prcis du premier bit
du code. Cela est normalement ralis dans une tape
de synchronisation que nous ne dcrivons pas.
2.2. Dmarche adopte
Aprs avoir dfini la mthode de tatouage mettre en
oeuvre, des modifications ont t implantes afin
d'amliorer les performances du schma. Ces
modifications comportent trois tapes (cf. Figure 3)qui
sont dtailles plus amplement dans la suite du
document:
1. Le contrle de la puissance du code.
2. La mise en forme frquentielle des codes: la
densit spectrale des codes est modifie de
faon inverse celle du signal sonore.
3. Ajustement du contrle de puissance: en
prenant en compte la mise en forme spectrale
la puissance du code est recalcule par un
systme itratif

Figure 3 Dmarche adopte
2.3. Contrle de la puissance
Dans un premier temps, nous avons dcid de contrler
la puissance de chacun des codes ajouter. L'ide
consiste dterminer le coefficient minimal pour lequel
chaque code doit tre multipli de telle manire
remplir les conditions (3). Nous avons dcid de
multiplier le code W(t) par le gain K donn par:
(5)
) ( ), (
) ( ), (
t C t W
t C t S
K =

Le schma de transmission est donc modifi de la
manire suivante:
XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002 XYZ

Figure 4 Schma de transmission et tatouage
2.4. Mise en forme frquentielle du code
Le schma prsent contient galement une phase qui
permet de diminuer au maximum l'effet du terme
<S(t),C(t)> de l'quation (5).
Pour faire ceci, la stratgie adopte a t de modifier la
densit spectrale du code C(t) en fonction de la densit
spectrale de la parole S(t). Nous avons choisi
dattribuer une distribution de la puissance du chaque
code inverse celle du signal audio. Le calcul des
coefficients frquentiels du code insrer est ralis
grce une fonction logarithmique. Ceci a t utilis
pour permettre une pondration graduelle des
coefficients. La phase des coefficients n'est pas
modifie. Le code rsultant de cette opration est une
fonction du S(t) et C(t). Le code modifi peut tre
exprim de la faon suivante (cf. Figure 5 ):
(6) ( ) ) ( ), ( ) ( t C t S f t Cm =
Nous aurons W
m
(t) au lieu de W(t) la sortie de l'tape
de modulation. Lutilisation de cette technique permet
de diminuer la puissance du message ajoute au signal
de parole.

Figure 5 Distribution de puissance d'un code Cm(f)
de faon inverse celle du signal audio de S(f)
2.5. Dtection du message
Bien que nous disposions lors de la rception dune
copie du code original C(t) pour dtecter le message
envoy, lallure des codes modifis (Cm(t)) lors de
l'insertion nest pas disponible mais est pourtant
ncessaire pour maximiser le rsultat de la corrlation.
Il devient donc important destimer Cm(t) la
rception.
Cette estimation seffectue nouveau partir des
calculs de lquation (6). Une diffrence est
immdiatement remarque: l'allure du code estime la
rception nest pas gale celle du code utilis la
transmission C
m
(t).
Ceci sexplique par le fait qu la rception le calcul (6)
nest pas fait partir du S(t) mais partir du
S
w
(t)=S(t)+W
m
(t).
Cet dire
( ) ) ( ), ( ) ( t C t S f t C = ( ) ) ( ), ( ( ) ( t C t S f t C w mr =
O C
mr
(t) est le code estim en rception.
Afin de diminuer l'effet de cette diffrence, nous avons
dcid de modifier le calcul du gain K (quation (5)).
Ceci est expliqu dans la suite.
2.6. Ajustement de contrle du gain de
puissance
Le calcul du coefficient K (ralis durant l'tape de
transmission, quation (5)) a t donc modifi afin de
diminuer leffet produit par l'ajout du code. La
dmarche consiste alors prdire dans l'tape de
modulation le rsultat de l'estimation en rception.
Cette prdiction s'effectue en calculant de faon
itrative le gain 1 + i K partir de Cm(t) au lieu de C(t).
La formule permettant de calculer 1 + i K est donc la
suivante:
(7) K K avec
t C t Wm
t C t S
K
i
i
K m
K m
i = = + 0
,
,
1
) ( ), (
) ( ), (

Dans la pratique un nombre d'itration gale 3 permet
d'obtenir une valeur stable.

3. RESULTATS

Nous avons appliqu cette mthode des signaux de
parole et nous avons valu le rsultat obtenu vis--vis
du dbit de transmission du message. Les signaux ont
t chantillonns 16 kHz sur 16 bits et chacun des
fichiers rsultants une dure de dix secondes. Notre
implmentation permet de garantir une dtection
exempte d'erreurs dans le cas d'un canal idal sans bruit
additif.
XYZ XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002
En ce qui concerne l'audibilit du message, deux
personnes ont cout les fichiers marqus et non
marqus et ils ont valu de faon subjective la
perceptibilit de la marque. Ce test a montr qu'il reste
imperceptible jusqu'a 125 bits/s. A partir de cette
frquence une distorsion faible commence a tre
perue.
Nous avons test aussi la robustesse vis--vis la
compression MPEG MP3 pour un dbit de 128 kbits/s.
La dtection de du message s'effectue ensuite sur les
fichiers dcompresss. Nous avons obtenu de taux
d'erreur faibles dans les fichiers traits. Le tableau 1
montre le nombre d'erreurs obtenu. Nous avons trait
douze fichiers. Deux d'entre eux ont suivi les tests de
compression.

Dbit bits/s 31,25 62,5 125 250 500
Sans Compression 0 0 0 0 0,06
MP3 0,00 0,00 0,55 1,51 3,16

Tableau 1: Proportion de bits errons (en %) avec et
sans compression.
4. CONCLUSIONS ET PERSPECTIVES
Nous avons propos d'augmenter le contenu d'un signal
de parole lors d'une transmission numrique partir
d'un systme de tatouage fond sur la technique
dtalement de spectre. Le schma rsultant a t
amlior en tenant compte des conditions imposes par
le signal audio. Nous avons implment des systmes
de contrle de puissance du code. L'adaptation l'allure
frquentielle des sons a galement t prise en compte.
Le systme prsente des rsultats acceptables face la
compression MP3, l'tude du modle auditif humain et
la mthode de quantification utilise dans le
compresseur [6] permettront damliorer le schma.













Dans ce travail, nous avons focalis nos efforts sur la
quantit d'information qui peut tre additionne avec ce
schma sans prendre en compte le problme de perte de
synchronisation. Des travaux, bass sur lutilisation de
symboles synchronisant, sont en cours et permettront
dapprocher au plus prs les conditions dune
transmission numrique relle.
BIBLIOGRAPHIE

[1] P. Bas. Mthodes de tatouage dimages fondes
sur le contenu. Thse LIS-INPG, Grenoble,
septembre 2000.
[2] Transmission d'un message numrique cach
dans un signal audio. Jol Lienard. Colloque
Gretsi 2001, Toulouse, France.
[3] Proakis. Digital Communications. Mc. Graw
Hill. 1995.
[4] Site internet du Frauhofer Institut.
http://www.iis.fhg.de/amm/techinf/layer3/index.h
tml
[5] L. Boney, A. H. Tewfik and K. N. Hamdy.
Digital Watermarks for Audio. In Eusipco, pages
473-480, Triestre, 1996.
[6] A review of algorithms for perceptual coding of
digital audio signals. Painter, T. Spanias, A.
Arizona State University.
[7] C.Neubauer and J.Herre, ``Audio watermarking
of MPEG-2 AAC bit streams'' In 108th
Convention AES, Paris}, February 2000.