Vous êtes sur la page 1sur 6

Stéganalyse d'images JPEG : Briser l'algorithme F5

Résumé : Dans cet article, nous présentons une méthode stéganalytique qui peut
détecter de manière fiable les messages (et estimer leur taille) cachés dans les
images JPEG en utilisant l'algorithme stéganographique F5. L'élément clé de la
méthode est l'estimation de l'histogramme de l'image de couverture à partir de
l'image stégo. Pour ce faire, on décompresse l'image stégo, on la recadre de
quatre pixels dans les deux sens pour supprimer la quantification dans le
domaine fréquentiel, et on la recompresse en utilisant le même facteur de qualité
que l'image stégo. Le nombre de modifications relatives introduites par F5 est
déterminé à l'aide de l'ajustement des moindres carrés en comparant les
histogrammes estimés des coefficients DCT sélectionnés avec ceux de l'image
stroboscopique. Les résultats expérimentaux indiquent que des modifications
relatives aussi petites que 10% des coefficients DCT utilisables peuvent être
détectées de manière fiable. La méthode est testée sur un ensemble diversifié
d'images de test comprenant des images brutes et traitées aux formats JPEG et
BMP.

1. Aperçu de la stéganographie et de la stéganalyse


La stéganographie est l'art de la communication invisible. Son but est de cacher
la présence même de la communication en intégrant des messages dans des
objets de couverture d'apparence inoffensive. Dans le monde numérique
d'aujourd'hui, l'encre et le papier invisibles ont été remplacés par des couvertures
beaucoup plus polyvalentes et pratiques pour cacher des messages - documents
numériques, images, fichiers vidéo et audio. Tant qu'un document électronique
contient des informations non pertinentes ou redondantes sur le plan perceptif, il
peut être utilisé comme "couverture" pour cacher des messages secrets. Dans ce
document, nous ne traitons que des couvertures qui sont des images numériques
stockées au format JPEG.
Chaque système de communication stéganographique se compose d'un
algorithme d'incorporation et d'un algorithme d'extraction. Pour accueillir un
message secret, l'image originale, également appelée image de couverture, est
légèrement modifiée par l'algorithme d'intégration. On obtient ainsi l'image
stégo.
La stéganalyse est l'art de découvrir des données cachées dans des objets de
couverture. Comme en cryptanalyse, nous supposons que la méthode
stéganographique est publiquement connue à l'exception d'une clé secrète. La
méthode est sûre si les images stégo ne contiennent pas d'artefacts détectables
dus à l'incorporation du message. En d'autres termes, l'ensemble des images
stégo doit avoir les mêmes propriétés statistiques que l'ensemble des images de
couverture. S'il existe un algorithme capable de deviner si une image donnée
contient ou non un message secret avec un taux de réussite supérieur à celui de
la devinette aléatoire, le système stéganographique est considéré comme cassé.
Pour un traitement plus précis du concept de sécurité stéganographique, le
lecteur est invité à se reporter à [1-3].
La capacité de détecter des messages secrets dans des images est liée à la
longueur du message. De toute évidence, moins on incorpore d'informations
dans l'image de couverture, plus la probabilité d'introduire des artefacts
détectables par le processus d'incorporation est faible. Chaque méthode
stéganographique a une limite supérieure sur la longueur maximale sûre du
message (ou le débit binaire exprimé en bits par pixel ou par échantillon) qui
nous indique combien de bits peuvent être intégrés en toute sécurité dans une
image donnée sans introduire d'artefacts statistiquement détectables. La
détermination de ce débit maximal sûr (ou capacité stéganographique) est une
tâche non triviale, même pour les méthodes les plus simples. Chandramouli et
al. [4] présentent une analyse théorique du débit maximal sûr pour l'intégration
de LSB dans le domaine spatial.
Récemment, Fridrich et al. [5,6] ont obtenu une estimation plus rigoureuse en
utilisant la stéganalyse à double statistique. Le choix des images de couverture
est important car il influence de manière significative la conception du système
de stéganisation et sa sécurité. Les images comportant un faible nombre de
couleurs, les images de synthèse, les images ayant un contenu sémantique
unique, comme les polices de caractères, doivent être évitées. Aura [7]
recommande les images en niveaux de gris comme les meilleures images de
couverture. Il recommande également les scans non compressés de
photographies ou d'images obtenues avec un appareil photo numérique
contenant un nombre élevé de couleurs, et les considère comme les plus sûres
pour la stéganographie.
Le choix du format de l'image a également un impact très important sur la
conception d'un système stéganographique sûr. Les formats bruts, non
compressés, tels que BMP, offrent le plus grand espace pour la stéganographie
sécurisée, mais leur redondance évidente les rend très suspects en premier lieu.
En effet, certains chercheurs ne considèrent pas ces formats pour la
stéganographie, affirmant que l'échange d'images non comprimées est
"équivalent" à l'utilisation de la cryptographie [8]. Néanmoins, la plupart des
produits stéganographiques disponibles sur Internet fonctionnent avec des
formats d'images non compressés ou des formats qui compressent les données
sans perte (BMP, PCX, GIF, PGM et TIFF).
Fridrich et al. [9] ont récemment montré que les images de couverture stockées
au format JPEG sont un très mauvais choix pour les méthodes
stéganographiques qui fonctionnent dans le domaine spatial. En effet, la
quantification introduite par la compression JPEG peut servir de "filigrane semi-
fragile" ou d'empreinte digitale unique qui peut être utilisée pour détecter de très
petites modifications de l'image de couverture en inspectant la compatibilité de
l'image stégo avec le format JPEG. En effet, des modifications aussi minimes
que le retournement du bit le moins significatif (LSB) d'un pixel peuvent être
détectées de manière fiable. Par conséquent, il faut éviter d'utiliser des images
JPEG décompressées comme couvertures pour des méthodes stéganographiques
spatiales, telles que l'incorporation LSB ou ses variantes. Malgré son insécurité
avérée, la méthode de choix de la plupart des outils stéganographiques
accessibles au public est l'incorporation de LSB. Ce paradigme peut être adapté
non seulement aux formats bruts mais aussi aux images en palette après un tri
préalable de la palette (EZ Stego [10]) et aux images JPEG (J-Steg [10], JP
Hide&Seek [10] et OutGuess [11]).
Fridrich et al. [5,6] ont introduit la méthode stéganalytique à double statistique
pour la détection de l'incorporation de LSB dans des formats non compressés.
Pour les images de haute qualité prises à l'aide d'un appareil photo numérique ou
d'un scanner, la stéganalyse à double statistique indique que le débit binaire sûr
est inférieur à 0,005 bits par échantillon, ce qui constitue une limite supérieure
étonnamment stricte de la capacité stéganographique de la simple incorporation
de LSB. Pfitzmann et Westfeld [12] ont présenté une méthode basée sur
l'analyse statistique des paires de valeurs (PoV) qui sont échangées pendant
l'incorporation du message. Par exemple, des niveaux de gris qui ne diffèrent
que par les LSB pourraient constituer ces PoV. Cette méthode, connue sous le
nom d'attaque χ2, est assez générale et peut être appliquée à de nombreux
paradigmes d'intégration autres que l'intégration des LSB. Elle fournit des
résultats très fiables lorsque l'emplacement du message est connu (par exemple,
pour l'incorporation séquentielle). Pfitzmann [12] et Provos [13] ont noté que la
méthode pouvait encore être appliquée à des messages dispersés de manière
aléatoire en appliquant la même idée à de plus petites portions de l'image tout en
comparant les statistiques avec celles obtenues à partir de paires de valeurs non
liées.
Farid [14] a développé un schéma de détection aveugle universel qui peut être
appliqué à n'importe quel schéma stéganographique après une formation
appropriée sur des bases de données d'images originales et de couverture. Il
utilise un prédicteur linéaire optimal pour les coefficients d'ondelettes et calcule
les quatre premiers moments de la distribution de l'erreur de prédiction. La
classification statistique discriminante linéaire de Fisher est ensuite utilisée pour
trouver un seuil qui sépare les images cachées des images de couverture. Farid
démontre les performances sur J-Steg, les deux versions d'OutGuess, EZ Stego,
et l'incorporation LSB. Il apparaît que les statistiques sélectionnées sont
suffisamment riches pour couvrir un très large éventail de méthodes
stéganographiques.
Cependant, les résultats sont rapportés pour une base de données d'images très
limitée de grandes images de haute qualité, et il n'est pas clair comment les
résultats s'adapteront à des bases de données plus diverses. En outre, les auteurs
de cet article pensent que les méthodes qui sont ciblées sur un paradigme
d'intégration spécifique auront toujours des performances nettement supérieures
à celles des méthodes aveugles.
Malheureusement, aucun détail supplémentaire concernant cette attaque χ2
généralisée n'est fourni dans leurs articles, bien que Pfitzmann [12] rapporte que
des messages aussi petits qu'un tiers de la capacité totale de l'image sont
détectables.
Johnson et Jajodia [15] ont souligné que certaines méthodes stéganographiques
pour les images de palette qui traitent préalablement la palette avant l'intégration
sont très vulnérables. Par exemple, S-Tools [10] ou Stash [10] créent des
groupes de couleurs de palette proches qui peuvent être échangés entre eux pour
intégrer des bits de message. Ces programmes diminuent la profondeur de
couleur et l'étendent ensuite à 256 en effectuant de petites perturbations sur les
couleurs. Ce prétraitement, cependant, créera des paires (groupes) de couleurs
proches suspectes et facilement détectables.
Récemment, le format JPEG a attiré l'attention des chercheurs comme principal
format stéganographique pour les raisons suivantes : Il s'agit du format le plus
courant pour le stockage des images, les images JPEG sont très abondantes sur
les babillards Internet et les sites Internet publics, et elles sont presque
uniquement utilisées pour le stockage d'images naturelles. Les méthodes
stéganographiques modernes peuvent également offrir une capacité raisonnable
sans nécessairement sacrifier la sécurité. Pfitzmann et Westfeld [16] ont proposé
l'algorithme F5 comme exemple de stéganographie JPEG sécurisée mais de
grande capacité. Les auteurs ont présenté l'algorithme F5 comme un défi à la
communauté scientifique lors du quatrième atelier sur la dissimulation
d'informations à Pittsburgh en 2001. Ce défi a stimulé les recherches présentées
dans cet article.
Dans la section suivante, nous donnons une description de l'algorithme F5 tel
qu'il a été introduit dans [16]. Ensuite, dans la Sect. 3, nous décrivons une
attaque sur F5 et donnons un échantillon des résultats expérimentaux. Les
limites de la méthode de détection et les moyens de surmonter ces limites sont
discutés dans la Sect. 4. La conclusion de l'article se trouve à la section 5, où
nous présentons également nos futures recherches.
2. L'algorithme F5
L'algorithme stéganographique F5 a été introduit par les chercheurs allemands
Pfitzmann et Westfeld en 2001 [16]. L'objectif de leurs recherches était de
développer des concepts et une méthode d'incorporation pratique pour les
images JPEG qui offriraient une capacité stéganographique élevée sans sacrifier
la sécurité. Guidés par leur attaque χ2, ils ont remis en question le paradigme
consistant à remplacer les bits d'information dans l'image de couverture par le
message secret, tout en proposant un paradigme différent consistant à
incrémenter les composants de l'image pour intégrer les bits du message. Au lieu
de remplacer les LSB des coefficients DCT quantifiés par les bits du message, la
valeur absolue du coefficient est diminuée de un. Les auteurs affirment que ce
type d'incorporation ne peut pas être détecté à l'aide de leur attaque statistique
χ2.
L'algorithme F5 incorpore les bits du message dans des coefficients DCT choisis
au hasard et utilise l'incorporation matricielle qui minimise le nombre de
modifications nécessaires pour incorporer un message d'une certaine longueur.
Selon la description de l'algorithme F5, version 11, le programme accepte cinq
entrées :
 Facteur de qualité de l'image stégo Q ;
 Fichier d'entrée (TIFF, BMP, JPEG ou GIF) ;
 Nom du fichier de sortie ;
 Fichier contenant le message secret ;
 Mot de passe de l'utilisateur à utiliser comme graine pour le PRNG ;
 Commentaire à insérer dans l'en-tête
Dans le processus d'incorporation, la longueur du message et le nombre de
coefficients non nuls non DC sont utilisés pour déterminer la meilleure
incorporation matricielle qui minimise le nombre de modifications de l'image de
couverture. L'incorporation matricielle a trois paramètres (c , n , k ), où c est le
nombre de modifications par groupe de n coefficients, et k est le nombre de bits
incorporés. Dans leur article [16], les auteurs décrivent un encastrement
matriciel simple (1 , 2k −1 , k ) utilisant une fonction de "hachage" qui produit k bits
lorsqu'elle est appliquée à 2k −1 coefficients.
Le processus d'intégration commence par l'obtention d'une graine pour un
PRNG à partir du mot de passe de l'utilisateur et la génération d'une marche
aléatoire à travers les coefficients DCT de l'image de couverture. Le PRNG est
également utilisé pour chiffrer la valeur k à l'aide d'un chiffrement par flux et
l'intégrer de manière régulière avec la longueur du message au début du flux de
messages. Le corps du message est intégré en utilisant l'intégration matricielle,
en insérant k bits de message dans un groupe de 2k −1 coefficients en
décrémentant de un la valeur absolue d'au plus un coefficient de chaque groupe.
Le processus d'incorporation comprend les six étapes suivantes :
1. Obtenir la représentation RVB de l'image d'entrée.
2. Calculer la table de quantification correspondant au facteur de qualité Q et
compresser l'image tout en stockant les coefficients DCT quantifiés.
3. Calcul de la capacité estimée sans intégration de la matrice

Vous aimerez peut-être aussi