Vous êtes sur la page 1sur 13

DjVu: Un Syst me de Compression d'Images pour la Distribution e R

ticulaire de Documents Num ris s. e e e


L on Bottou, Patrick Ha ner, Yann LeCun, Paul Howard, Pascal Vincent, Bill Riemers e AT&T Labs - Research 100 Schulz Drive, Red Bank, NJ 07701, USA fleonb,ha ner,yann,pgh,vincent,bcrg@research.att.com

DjVu: Un Syst me de Compression d'Images pour la Distribution e R ticulaire de Documents Num ris s. e e e
Nous pr sentons une technique nouvelle de compression d'images appel e DjVu". Cette technique est sp ciae e e lement conue pour la compression de documents en couleurs num ris s haute r solution. Un chier DjVu c e e a e repr sentant une page typique d'un magazine en couleurs, num ris e 300 points par pouce dpi, requiert entre e e e a 40 et 80 KB, ce qui est est 5 a 10 fois meilleur qu'un chier JPEG o rant une lisibilit similaire. Le compresseur e DjVu commence par classer chaque pixel de l'image num ris e comme pixel d'avant-plan texte, dessins au trait e e ou pixel d'arri re-plan images, photos, texture du papier gr^ce une combinaison de Mod les de Markov Cach s e a a e e HMM et d'heuristiques fond s sur le principe de Minimum Description Length MDL. Cette classi cation forme e une image bitonale qui est compress e gr^ce une technique qui tire parti des similitudes de forme entre les divers e a a caract res composant l'avant-plan. Les images d'avant-plan et d'arri re-plan sont ensuite compress es l'aide e e e a d'un algorithme de compression par ondelettes avec une r solution reduite. Un algorithme de masquage minimise e le nombre de bits utilis s pour coder les pixels d'avant-plan ou d'arri re-plan qui ne sont pas visibles dans l'image e e nale. Des logiciels d'encodage et de d codage sont disponibles pour toutes les plateformes usuelles. Une extension e de butineur  browser plugin" permet de visualiser tr s e cacement les images DjVu sur le Web. e

R sum e e

1 Introduction

Avec l'utilisation g n ralis e de l'Internet, avec les co^ts d croissants des num riseurs et des disques, l'archivage, e e e u e e la transmission et la manipulation des documents se fait de plus en plus sur ordinateur et de moins en moins sur papier. L' cran de nos ordinateurs est en train de devenir le moyen privil gi de consultation de documents parce e e e qu'il permet un acc s imm diat a l'information. e e Les technologies de compression d'images bitonales noir et blanc de documents ont une longue histoire cf. 14 et r f rences. Une industrie orissante utilise des techniques standardis es tr s bien accept es Group 3, ee e e e MMR Group 4, parfois moins connues JBIG, ou m^me franchement obscures JBIG2. e Curieusement, jusqu' pr sent, il n'existait pas de standard permettant de traiter e cacement les documents a e en couleur. Le besoin d'une telle technologie se sont fait plus pressant ces derni res ann es avec la g n ralisation e e e e de l'Internet. Associ e l'apparition de num riseurs couleur performants, une telle technologie autorise l'existence e a e de biblioth ques digitales o rant en ligne des images de documents anciens ou historiques, des catalogues de vente e par correspondance, des gazettes electroniques, des formulaires, des archives gouvernementales ou commerciales, des publications scienti ques, techniques, l gales, ou tout autre document actuellement prisonier du support e papier. Les m thodes usuelles de compression d'images ne permettent pas de telles applications parce qu'elles proe duisent soit des chiers trop gros, soit des images di cilement lisibles. L'image couleur d'une page de magazine num ris e a 100 points par pouce dpi, ou 4 points par mm p mm, requiert 100 KB 200 KB tout en tant e e a e di cile lire. La m^me image num ris e 300 dpi 12 p mm poss de une qualit acceptable mais une taille a e e e a e e variant entre 300 KB et 600 KB. M^me avec une connexion large bande passante, ces tailles se traduisent sur e a le Web par des temps de chargement insupportables pour l'utilisateur nal.

D'une part, une r solution lev e au moins 300 dpi est n cessaire pour coder les contours de fort contraste e e e e a n de pr server la lisibilit du texte et la d nition des dessins au trait. D'autre part, une r solution inf rieure e e e e e de l'ordre de 100 dpi est su sante pour pr server l'apparence des images photographiques ou la texture du e papier. Il semble donc naturel de s parer l'image initiale en deux plans: l'avant-plan contenant le texte et les e dessins au trait, l'arri re plan contenant les images photographiques et la texture du papier. Cette s paration e e apporte un second avantage de taille: il est possible de placer l'avant-plan en t^te du chier et de permettre a e l'utilisateur nal de voir le texte d s que celui ci est disponible, sans attendre le chargement du chier complet. e Nous pensons que le cahier des charges suivant permet d'o rir l'utilisateur nal une exp rience acceptable. a e Le texte doit appara^tre l' cran apr s un d lai d'au plus quelques secondes. Cela signi e que l'avant-plan doit
a e e e tenir en moins de 40 KB en supposant une vitesse de transmission de 56Kb s. Le reste de l'image doit ensuite ^tre a ch progressivement, en am liorant la qualit au fur et a mesure de la transmission. La taille totale du e e e e chier ne doit pas exc der 100 Kb a n de limiter le temps de transmission total et les contraintes de stockage de e donn es. e Les images de grande tailles posent galement probl me pendant la d compression. Une page de magazine fait e e e environ 3300x2500 pixels et occupe 25 MB de m moire sous forme non compress e. De telles images peuvent e e ^tre di ciles manipuler sur l'ordinateur personnel de l'utilisateur moyen. Le logiciel de visualisation doit donc e a maintenir en m moire l'image compl te sous forme compress e, et d compresser la demande les pixels visibles e e e e a sur l' cran un instant donn . e a e Cet article d crit un technique de compression d'images de documents appel e DjVu" qui se prononce d j e e ea vu" en Franais comme en Anglais qui apporte une solution a tous les probl mes cit s ci-dessus. Avec DjVu, une c e e pages num ris e a 300 dpi en couleur 25 MB sous forme non compress e peut ^tre compress e en un chier de 30 e e e e e KB 80 KB avec une excellente qualit . Cette taille est comparable a la taille moyenne d'une page Web HTML a e et images qui est d'environ 50 a 100 KB. Un plug-in pour butineur  browser plug-in" permet la visualisation progressive des pages DjVu au fur et a mesure de la transmission. L'utilisateur peut s lectionner le grossissement e et d placer librement l'image dans la fen^tre de visualisation. En interne, le logiciel de visualisation ne g n re e e e e jamais l'image compl te de 25 MB, mais conserve l'image en m moire sous une forme partiellement d cod e qui e e e e occupe environ 1.5 MB, et reconstruit a la demande les pixels qui sont a ch s l' cran. e a e La premi re section explique les id es g n rales de compression et d compression DjVu. Les sections 3 and e e e e e 7 d crivent le comportement de l'algorithme de segmentation avant-plan arri re-plan. Les sections suivantes e e donnent quelques r sultats, et la derni re section d taille certaines caract ristiques importantes qui contribuent e e e e a la performance de DjVu.

2 Le Syst me DjVu e

L'une des id es essentielles de DjVu consiste d composer l'image en un avant-plan contenant les objets e a e d limit s par des contours fortement contrast s comme le texte et les dessins au trait, et un arri re plan e e e e contenant le reste de l'image comme les photographies ou la texture du papier. Di rentes techniques peuvent e ensuite ^tre utilis es pour compresser chaque plan. Les m thodes usuelles de compression d'images sont en e e e e et conues, soit pour compresser des images naturelles contenant peu de contours JPEG, soit des images de c documents noir et blancs, enti rement compos es de contours a fort contraste Group 3, MMR Group 4, and e e

JBIG. Le syst me DjVu int gre deux nouvelles techniques appel es JB2 et IW44 pour coder les divers plans. e e e L'algorithme de s paration avant-plan arri re-plan produit trois sorties: un masque bitonal de haute r solution e e e en g n ral 300 dpi, une image en couleur repr sentant l'arri re-plan avec une r solution moindre en g n ral e e e e e e e 100 dpi, et une structure qui code la couleur des objets d'avant-plan. Si un pixel du masque est z ro, le pixel e correspondant de l'image reconstruite prend la couleur extraite de l'image d'arriere-plan a l'endroit correspondant, sinon il prend une couleur d nie par l'avant-plan. e Le masque est encod avec un nouvel algorithme de compression d'image bitonale, nomm JB2, qui est en fait e e un descendant de la proposition originale d'AT&T pour le standard JBIG-2. L'algorithme consiste identi er a les formes individuelles qui composent l'image g n ralement des composantes connexes, comme des caract res e e e et les grouper en cat gories de formes similaires 2 . Les formes repr sentatives de chaque classe sont cod es a e e e gr^ce une m thode similaire au standard JBIG. Chaque pixel de la forme est cod a l'aide d'une technique de a a e e codage arithm tique adaptatif appel le ZP-Coder 4 . Le codeur arithm tique utilise un contexte form par les e e e e pixels voisins d j transmis pour pr dire la valeur du pixel coder, et pour transmettre sa valeur en utilisant ea e a un nombre de bits optimal  quelques pourcents de la limite de Shanon. Les formes autres que le prototype a appartenant une classe sont cod es en utilisant un contexte augment qui incorpore la valeur des pixels de a e e la forme prototype 6 . Cette strat gie maximise la r duction du nombre de bits utilis s puisque la majorit e e e e des pixels sont similaires aux pixels de la forme prototype. Comme il est rarement n cessaire de reconstruire e exactement l'image originale, les taux de compression peuvent ^tre signi cativement augment s en remplaant e e c ces formes par la forme prototype d s que les di rences sont su samment faibles pour ^tre imperceptibles. e e e Les positions auxquelles les formes doivent ^tre a ch e dans l'image sont galement cod es arithm tiquement. e e e e e Le codeur arithm tique adaptatif ZP-Coder est tr s rapide, et fournit des taux de compression moyens situ s a e e e environ 5 de la limite th orique de Shannon 4 . Dans le cas o le document comporte plusieurs pages, il est e u avantageux de construire un dictionnaires de formes prototypes partag entre les pages, ainsi qu'un dictionnaire e propre chaque page qui contient les formes n'apparaissant que dans la page consid r e. JB2 utilise une m thode a ee e tr s rapide et incr mentale pour ce faire. Des comparaisons avec les m thodes standard sont donn e la section 5 e e e e a Pour l'image d'arri re plan, DjVu utilise un algorithme de compression par ondelettes, nomm IW44, qui e e pr sente plusieurs avantages importants vis- -vis des autres m thodes de compression d'image naturelles. Premi e a e e rement, IW44 utilise une transform e d'ondelettes bas e sur sur la m thode du lifting" qui est tr s rapide 12 . e e e e Deuxi mement cette transform e est impl ment e de mani re ne pas requ rir de multiplication, en s'appuyant e e e e e a e exclusivement sur des additions et des d calages. Cela r duit beaucoup le temps de calcul. Troisi mement, la e e e structure de donn es interne des images IW44 permet d'am liorer progressivement les coe cients d'ondelettes e e au fur et mesure de leur r ception, tout en utilisant une quantit de m moire proportionelle au nombre de a e e e coe cients non nuls et non au nombre de pixels. Troisi mement, cette structure de donn es permet tout e e a moment, pendant et apr s la transmission, de reconstruire un segment quelconque de l'image, avec une r solution e e quelconque. Cela permet de ne reconstruire que les parties de l'image a ch es l' cran. Finalement, la technique e a e de masquage par projections successives 5 , permet d' viter de d penser des bits pour coder les r gions de l'arri re e e e e plan qui sont invisibles car recouvertes par des objets situ s l'avant-plan. L'algorithme IW44 utilise galement e a e le ZP-Coder pour le codage nal des donn es. e

La couleur des objets d'avant-plan peut ^tre encod e de deux m thodes di rentes. La premi re m thode e e e e e e consiste indenti er une couleur unique pour chaque forme qui apparait dans le masque, et l'encoder l'aide du a a ZP-Coder. Ceci fournit un codage tr s compact mais exige une segmentation presque parfaite, et ne fonctione que e si les composantes d'avant plan sont de couleur uniforme. La seconde m thode consiste utiliser IW44 pour coder e a une image de tr s basse r solution en g n ral 25 dpi ou 1 p mm. L'interpr tation de cette image d'avant-plan e e e e e est exactement sym trique celle de l'image d'arri re-plan: le masque sert essentiellement d'Alpha channel" e a e pour mixer les images d'arri re-plan et d'avant-plan. Cette seconde m thode est similaire aux suggestions du e e standard MRC T.44 9 . La section 6 quanti e les gains r sultant de l'usage des algorithmes JB2 et IW44 au lieu e des algorithmes traditionnels MMR Group 4 et JPEG pr conis s par le standard. e e La premi re phase de la segmentation avant-plan arri re-plan repose sur un Champ de Markov Causa bidimene e sionnel, dont les tats repr sentent l'avant-plan et l'arri re-plan. Chaque tat d crit localement la distribution e e e e e des pixels d'avant-plan ou d'arri re-plan a l'aide d'une gaussienne unique param tr e par la couleur moyenne des e e e pixels et leur variances. Les probabilit s de transition du Champ de Markov sont des constantes dont le choix est e discut dans la derni re section. e e Cette phase initiale e ectue en fait une sur-segmentation, a n de collecter tous les objets qui pourraient m riter d'^tre cod s en avant-plan. En cons quence, certaines parties tr s contrast es de photographies, ou e e e e e e certains tramages d'imprimerie peuvent tr s bien ^tre cat goris s incorrectement comme objets d'avant-plan. e e e e Une succession de ltres heuristiques sont ensuite appliqu s pour rejeter les candidats cat goris s par erreur e e e comme objets d'avant-plan. Les crit res de d cision impl ment s par le ltre principal repose sur le principe de Longueur Minimale de e e e e Description, ou Minimum Description Length MDL" 8 . Ce principe permet de minimiser le nombre de param tres heuristiques a optimiser manuellement en comparant des centaines d'images de type divers. Il su t e en e et de savoir s'il est pr f rable de coder chaque candidat comme objet d'avant-plan ou d'arri re plan. Le co^t ee e u de codage associ chaque possibilit est obtenue en additionnant le co^t de codage des param tres d'un mod le ea e u e e g n ratif de l'image compress e et le co^t de codage des r sidus permettant de reconstruire l'image initiale. La e e e u e possibilit qui pr sente le co^t de codage minimum est retenue. Coder un candidat dans l'arri re-plan requiert e e u e seulement un mod le de l'image d'arri re plan. Coder un candidat comme objet d'avant-plan requiert un mod le e e e de l'image d'avant plan, un mod le de l'image d'arri re plan situ e sous l'objet d'avant plan, et un mod le de e e e e l'image masque. Le mod le retenu pour l'image d'arri re plan suppose simplement que la couleur de chaque pixel est une e e moyenne des pixels d'arri re plan les plus proches trouv s au dessus et gauche du pixel. Le mod le retenu pour e e a e l'image d'avant plan suppose une couleur uniforme pour l'objet. Le co^t de codage associ au mod le du masque u e e est valu heuristiquement partir de la longueur du p rim tre de l'objet candidat. Le mod le de l'arri re-plan e e a e e e e autorise les variations continues caract ristiques des zones que l'on souhaite conserver en arri re plan. Le mod le e e e d'avant plan favorise les objets bien d limit s de couleur uniforme. e e Bien que l'on puisse souhaiter des mod les reproduisant plus nement les caract ristiques des algorithmes de e e codage de DjVu, ces trois mod les simples o rent un bon compromis entre temps d'ex cution et qualit de la e e e

3 L'Algorithme de Segmentation

Image bpp IW44 JPEG EZW SPIHT EBCOT Lena 0.25 33.62 31.67 33.17 34.11 34.28 Lena 0.50 36.61 34.84 36.28 37.21 37.43 Lena 1.00 39.67 37.94 39.55 40.46 40.61 Goldhill 0.25 30.25 29.23 n a 30.56 na Goldhill 0.50 32.56 31.03 n a 33.12 na IW44 5 niveaux, avec ltre 4 4 de Dubuc-Deslauriers JPEG Independent JPEG Group avec tables de Hu man optimis es e EZW 6 niveaux, ordre 9 QMF, codage Embedded Zero Tree" SPIHT 5 niveaux, ltre 9-7, avec codeur arithm tique e EBCOT 5 niveaux, ltre 9-7. Table 1: Rapport signal bruit en dB obtenu sur des images test usuelles avec IW44, JPEG, et plusieurs m thodes e a base d'ondelettes: EZW, SPIHT, et EBCOT. Le ltre utilis par IW44 est tr s rapide, mais sous optimal pour e e le taux de compression. segmentation. La segmentation compl te d'une image couleur a 300 dpi une page de magazine par exemple e s'e ectue en 3 secondes environ. La performance de IW44 est typique des algorithmes de compression d'image par ondelettes, mais a t optimis ee e pour acc l rer la vitesse de d codage et minimiser l'utilisation m moire, plut^t que pour maximiser la compression. ee e e o L'espace occup par une image IW44 est en g n ral de 30 a 50 inf rieure a celui d'une image JPEG de m^me e e e e e rapport signal bruit. Les gains les plus spectaculaires sont obtenus pour les taux de compression lev s. Un e e avantage signi catif the IW44 par rapport a JPEG est la progressivit . e La table 1 pr sente les rapports Signal Bruit obtenus avec IW44 sur deux images de test standard lena et e goldhill, et les compare JPEG commande Unix cjpeg" du Independent JPEG Group, et a plusieurs m thodes a e a base d'ondelettes d crites dans la litt rature: EZW 11 , SPIHT 10 , et EBCOT 13 . e e Sur l'image Lena, IW44 surpasse JPEG avec tables optimis es d'un peu moins de 2 dB. IW44 surpasse e galement EZW, mais est l g rement moins bon que SPIHT et EBCOT. Ceci vient du fait que l'architecture e ee d'IW44 et les ltres d'ondelette utilis s sont optimis s de mani re a acc l rer la vitesse de decodage. SPIHT e e e ee et EBCOT utilisent le ltre 9-7 d'Antonini et coll. 1 calcul en virgule ottante. IW44 utilise le ltre 4 4 de e Deslauriers-Dubuc calcul en virgule xe sur 16 bits, et sans utiliser de multiplications uniquement en combinant e additions et d calages. L'utilisation d'un ltre 9-7 dans IW44 am liorerait sensiblement les r sultats d'IW44, e e e mais rendrait le d codage beaucoup trop lent pour les applications consid r es. En outre, IW44 est le r sultat de e ee e compromis qui limitent la complexit des contexte du codage arithm tique de mani re maximiser la vitesse de e e e a decodage progressif, et minimiser l'utilisation m moire. A titre de comparaison, le future standard JPEG-2000 a e est bas sur une version simpli e d'EBCOT. e e

4 R sultats: IW44 pour les images naturelles e

M thode e MMR G4 JBIG JB2 v2.0 Taux de Compression 13.5 19.4 26.5 Table 2: comparaison entre MMR G4, JBIG, et JB2 en mode sans pertes sur le corpus UW d'apr s 7  e

5 R sultats: JB2 pour les images bitonales e

Un test ind pendant de compression sans pertes" d'images bitonales 7 e ectu sur une large collection de e e documents a mesur un taux de compression moyen de 26.5 pour JB2 v2.0. Cela peut ^tre compar au taux e e e de 13.5 obtenu par MMR Group 4 et 19.4 obtenu par JBIG. Les gains sont plus importants pour les images contenant beaucoup de texte, et moindres pour les images contenant plut^t des dessins, ou des photographies o tram es. e En mode avec pertes", les r sultats sont beaucoup plus int ressants. La notion de perte" est ici relative, car e e l'e et des pertes est principalement d'uniformiser et de nettoyer la forme des caract res. e La table 3 pr sente les r sultats de DjVu bitonal et les compare a MMR CCITT GroupIV. Les taux de e e compression obtenus avec DjVu v3.0 en mode multipage avec dictionnaire partag sont de 4.5 10 fois sup rieurs e a e a MMR G4. La taille moyenne d'une page est de 5 a 11 kilo-octets, en fonction du document. Une comparaison avec avec PDF s'impose. Le format PDF lorsqu'il est utilis pour des documents bitonaux e num ris s donne des tailles similaires MMR G4 car PDF ne fait qu'encapsuler le document MMR G4 dans un e e a format PDF. Le document Nips10 est particuli rement int ressant car repr sentative d'une publication scienti que typique. e e e Avec ses 1090 pages, le chier TIFF G4 ou l' quivalent PDF p se environ 76MB. En DjVu, il est r duit e e e a environ 13MB. La taille moyenne par page est d'environ 10KB, ce qui permet d'envisager le stockage d'environ 60000 pages sur a CD-ROM environ 50 volumes de ce type. Le document Snowbird est di rent des autres en ce qu'il n'a pas t num ris partir de papier, mais e ee e ea directement convertit partir de chiers PostScript cr s l'aide de logiciels de traitement de texte tels que a ee a LaTeX ou MS-Word. Le chier PostScript original occupe environ 10.7 MB. Compress a l'aide de gzip", il e occupe encore 3.1 MB. Convertit en TIFF G4 a 300 dpi a l'aide de ghostscript", il occupe 7.4 MB. Compress e avec DjVu avec dictionnaire partag , il se r duit 728KB. C'est un gain de 10 par rapport a TIFF G4, de 14 par e e a rapport au PostScript, et de 4.25 par rapport au PostScript gzipp . e

6 R sultats: DjVu pour les documents en couleur e

Sur un document en couleur, le syst me DjVu avec s paration avant-plan arri re-plan atteint des taux de e e e compression entre 300:1 et 1000:1. La table 4 montre les tailles de chiers DjVu correspondant quelques a documents num ris s en couleurs 300 dpi. Les documents ordinaires magazines, catalogues occupent entre e e a 30 KB et 80 KB. Certains documents occupent de 80 KB a 140 KB parce que leur taille physique est sup rieure e ou parce qu'ils contiennent des photographies d taill es. Ces tailles de chiers sont typiquement de 5 10 fois e e a inf rieures celles obtenues avec JPEG a lisibilit quivalente. e a ee A partir d'une image de document 300 dpi et 24 bits pixel, le segmenteur produit trois sous-images: le masque a bitonal 1 bit pixel est 24 fois plus petit que l'image originale; l'image d'arri re-plan 100 dpi est 3  3 = 9 e

Document pages p5960411 p5960412 p5960414 p5960413 p5960415 p5960416 Snowbird Nips10 19 167 12 17 18 53 133 1090

Tailles de chiers brut G4 JB2 v2.0 JB2-31 JB2-310 JB2-3inf KB octets octets octets octets octets 18338 880372 154923 129912 114610 110148 161181 3819436 1129964 1056946 842448 730805 11582 769390 109700 91278 79581 77855 16408 1585926 238924 201166 182141 180435 17373 955482 147030 112629 92793 90028 51153 2750910 559900 469527 410680 393792 137067 7406482 1099934 988321 869625 728196 1276971 76443591 n a 15838908 12692602 11013261 Taux de Compression brut G4 JB2 v2.0 JB2-31 JB2-310 JB2-3inf KB ratio ratio ratio ratio ratio 18338 20.8 118.4 141.2 160.0 166.5 161181 42.2 142.6 152.5 191.3 220.6 11582 15.1 105.6 126.9 145.5 148.8 16408 10.3 68.7 81.6 90.1 90.9 17373 18.2 118.2 154.2 187.2 193.0 51153 18.6 91.4 108.9 124.6 129.9 137067 18.5 124.6 138.7 157.6 188.2 1276971 16.7 na 80.6 100.6 115.9 Taux de Compression relatif a G4 brut G4 JB2 v2.0 JB2-31 JB2-310 JB2-3inf KB ratio ratio ratio ratio ratio 18338 1.0 5.7 6.8 7.7 8.0 161181 1.0 3.4 3.6 4.5 5.2 11582 1.0 7.0 8.4 9.7 9.9 16408 1.0 6.6 7.9 8.7 8.8 17373 1.0 6.5 8.5 10.3 10.6 51153 1.0 4.9 5.9 6.7 7.0 137067 1.0 6.7 7.5 8.5 10.2 1276971 1.0 na 4.8 6.0 6.9 Taille moyenne par page brut G4 JB2 v2.0 JB2-31 JB2-310 JB2-3inf KB octets octets octets octets octets 965 46335 8153 6837 6032 5797 965 22870 6766 6329 5044 4376 965 64115 9141 7606 6631 6487 965 93289 14054 11833 10714 10613 965 53082 8168 6257 5155 5001 965 51903 10564 8859 7748 7430 1030 55687 8270 7430 6538 5475 1171 70131 na 14531 11644 10103

Document pages p5960411 p5960412 p5960414 p5960413 p5960415 p5960416 Snowbird Nips10 19 167 12 17 18 53 133 1090

Document pages p5960411 p5960412 p5960414 p5960413 p5960415 p5960416 Snowbird Nips10 19 167 12 17 18 53 133 1090

Document pages p5960411 p5960412 p5960414 p5960413 p5960415 p5960416 Snowbird Nips10 19 167 12 17 18 53 133 1090

Table 3: comparaison entre MMR G4, et JB2 DjVu bitonal. Les six premiers documents sont des brevets

Compression Aucune GIF JPEG DjVu hobby p15 24715 1562 469 58 m dical dict. 16411 1395 536 e 110 time zone 9174 576 249 36 cookbook 12128 1000 280 52 hobby p17 23923 1595 482 52 U.S. Constit. 31288 2538 604 134 hobby p2 23923 1213 383 68 ATT Olympic 23946 955 285 41 Table 4: Taille des chiers en KB obtenus partir de huit documents num ris s 300 dpi en utilisant les a e e a algorithmes suivants: pas de compression, GIF r solution 150 dpi, JPEG r solution 300 dpi IJG-JPEG, a e a e qualit 20, et DjVu avec un masque 300 dpi et un arri re plan 100 dpi. La qualit visuelle de ces images e a e a e peut ^tre compar e dans la section exemple du site Internet http: www.djvu.com e e fois plus petite; l'image d'avant-plan 25 dpi est 12  12 = 144 fois plus petite. En additionnant les tailles non compress es de ces sous-images, on obtient d j un taux de compression de 6.25:1 par rapport l'image e ea a originale. Nous proposons de comparer les r sulats obtenus avec DjVu qui utilise JB2 pour le masque et IW44 e pour les autres plans, et avec les techniques standards qui utilisent MMR Group 4 pour le masque et JPEG pour l'avant-plan et l'arri re-plan. La gure 1 montre les gains apport s par JB2 et IW44 mesur s sur un corpus e e e compos de 70 images vari es. Ces images contiennent des textes imprim s, des photographies, de fort tramages, e e e de l' criture manuscrite, des symboles math matiques, des dessins a main lev e, et des partitions musicales. e e e Les compressions JPEG et IW44 ont t ajust es de sorte produire des images compress es avec une m^me ee e a e e rapport signal bruit mesur sur les pixels visibles de l'image. Le taux de compression pour les images d'arri ree e plan passe de 59:1 pour JPEG 103:1 pour IW44. Globalement, le taux de compression moyen obtenu avec DjVu a sur ces 70 images atteint 399:1. C'est peu pr s deux fois meilleur que les taux de compression que l'on aurait a e obtenu si l'on avait utilis les algorithmes usuels JPEG et MMR Group 4 dans un contexte MRC T.44. e De grandes quantit s d'exemples peuvent ^tre consult s en ligne sur la biblioth que digitale DjVu l'adresse e e e e a http: www.djvu.com. D'autres exemples sont disponibles aupr s de nombreux utilisateurs commerciaux et e non-commerciaux de DjVu sur l'Internet.

7 Optimiser la Segmentation

Cette section montre comment il est possible d'optimiser les param tres de l'algorithm de segmentation de e faon semi-automatique. c Puisqu'il n'est pas r ellement possible d'estimer automatiquement les probabilit s de transition entre les tats e e e avant-plan et arri re-plan du Champ de Markov utilis dans la premi re phase de l'algorithme de segmentation, e e e il est n cessaire de choisir une valeur de faon heuristique. La proportion de pixels cat goris s en avant-plan e c e e diminue avec ce param tre. Lorsqu'il devient nul, tous les pixels sont cat goris s en arri re-plan. e e e e La gure 2 montre l'impact de ce param tre sur la taille des chiers DjVu correspondant trois documents e a

Masque 958K Image originale 23,000K


Av, Pl. 160K
Pas de compression

CCITTG4 14:1

Masque 68K
JPEG 35:1
AvantPlan 5K

Compression MMR+JPEG 116K

JPEG 59:1 6.25:1

Arrire Plan: 43K

Arriere Plan 2,555K

IW44 52:1 JB2 30:1

IW44 103:1

Masque 32K
AvantPlan 3K

Compression DjVu 59K

Bg:24K

Figure 1: Comparaison, pour une segmentation donn e, de la taille moyenne des trois sous-images masque, e arri re-plan, avant-plan compress es en utilisant les techniques suivantes: i pas de compression, ii comprese e sion standard avec MMR Group 4 et JPEG, iii compression DjVu avec JB2 et IW44. En supposant une image initiale de 23 MB, chaque bloc indique la taille moyenne du plan correspondant.

10 9 8

x 10

mask background foreground

x 10

18

x 10

mask background foreground

16

mask background foreground

7
7

14

6
6

12

5
5

10

4
4 3 2 1 0 2.5

5 7.5 Transition log probability

0 2.5

5 7.5 Transition log probability

0 2.5

5 7.5 Transition log probability

Catalogue de V.P.C.

Livre du XVIIeme si cle e

Document a fort tramage

Figure 2: Tailles des chiers DjVu en fonction du logarithme negatif de la probabilite de transition avantplan arri re-plan, report es pour trois documents. Les deux premiers sont visible en ligne aux adresses e e www.djvu.att.com djvu cat sharperimage p0009.djvu et www.djvu.att.com djvu antics pharm p0001.djvu.

de type tr s di rents. Les graphes montrent les tailles des divers segments du chier DjVu codant le masque, e e l'image d'arri re-plan, et l'image d'avant-plan. e Une valeur trop lev e du param tre sur-segmente le document. Le chier DjVu est alors domin par le masque e e e e qui contient alors des lements de photographies, des motifs de tramage, ou bien du bruit. Une valeur trop faible e sous-segmente le document. Le texte est alors cod comme l ment d'arri re-plan. Cette exp rience a t r alis e e ee e e ee e e sans utiliser les ltres heuristiques du segmenteur a n d' viter des interactions entre diverses parties du syst me. e e Dans chaque graphe, une ligne verticale indique la valeur du param tre pour laquelle un observateur humain e a observ la meilleure qualit de reproduction. Pour la plupart des documents, ce point correspond aussi au e e meilleur taux de compression. Cette propri t remarquable facilite grandement la mise au point du segmenteur. ee

8 Conclusion

DjVu est une technique de compression d'images qui tablit une passerelle entre le monde du papier et le e monde des bits. Elle permet de publier sur l'Internet des documents num ris s haute r solution sans pour e e a e autant requ rir des temps de chargement qui prouveraient la patience de l'utilisateur, et sans requ rir des e e e resources informatiques qui prouveraient son portefeuille. e Des logiciels de compression, de d compression, et de visualisation DjVu sont disponibles sur le site http: www.djvu.com e et sont gratuits pour tout usage non commercial. Le code source de la biblioth que de r f rence est disponibles e ee a la m^me adresse avec une license de type Logiciel Libre". La sp ci cation du format de chier et galement e e e disponible. Le plug-in DjVu pour butineur Web est disponible pour Linux, Windows, et Mac ainsi que pour plusieurs versions d'Unix. Le site contient aussi une biblioth que virtuelle o rant quelques milliers de pages e num ris es d'origines diverses. e e DjVu est d'ores et d j utilis par un grand nombre d'utilisateurs commerciaux et non-commerciaux sur ea e l'Internet. Entre autres, Bell and Howell anciennement University Micro lm Inc. propose un service bas sur e DjVu nomm Early English Books Online" qui regroupe la totalit des 96000 livres publi s en Anglais entre e e e l'invention de l'imprimerie et l'ann e 1700 22 millions de pages num ris s partir de micro lms. Certains e e e a groupements, tels l'Acoustic Society of America, o rent les archives de leurs publications scienti ques au format DjVu sur CD-ROM ou sur l'Internet. En outre, de nombreuses universit s et biblioth ques commencent proposer e e a leur collections au format DjVu. DjVu est non-seulement le plus performant des syst mes disponibles aujourd'hui pour la compression et la e distribution de documents num ris s bitonaux et couleurs, mais c'est aussi le seul qui soit un standard ouvert, e e impl ment , et qui ait fait ses preuves dans des applications a grande chelle. e e e

References

1 M. Antonini, M. Barlaud, P. Mathieu, and Daubechies I. Image coding using wavelet transform. IEEE Transactions on Image Processing, 1:205 220, 1992. 2 R. N. Ascher and G. Nagy. A means for achieving a high degree of compaction on scan-digitized printed text. IEEE Trans. Comput., C-23:1174 1179, November 1974. 3 L. Bottou, P. Ha ner, P. G. Howard, P. Simard, Y. Bengio, and Y. LeCun. High quality document image compression with djvu. Journal of Electronic Imaging, 73:410 428, 1998.

4 L. Bottou, P. G. Howard, and Y. Bengio. The Z-coder adaptive binary coder. In Proceedings of IEEE Data Compression Conference, pages 13 22, Snowbird, UT, 1998. 5 L. Bottou and S. Pigeon. Lossy compression of partially masked still images. In Proceedings of IEEE Data Compression Conference, Snowbird, UT, March-April 1998. 6 P. G. Howard. Text image compression using soft pattern matching. Computer Journal, 402 3:146 156, 1997. 7 Stuart Inglis. Lossless Document Image Compression. PhD thesis, University of Waikato, March 1999. 8 W. Niblack J. Sheinvald, B. Dom and D. Steele. Unsupervised image segmentation using the minimum description length principle. In Proceedings of ICPR 92, 1992. 9 MRC. Mixed rater content MRC mode. ITU Recommendation T.44, 1997. 10 A. Said and W. A. Pearlman. A new, fast, and e cient image codec based on set partitioning in hierarchical trees. IEEE Transactions on Circuits and Systems for Video Technology, 63:243 250, June 1996. 11 J. M. Shapiro. Embedded image coding using zerotrees of wavelets coe cients. IEEE Transactions on Signal Processing, 41:3445 3462, December 1993. 12 W. Sweldens. The lifting scheme: A custom-design construction of biorthogonal wavelets. Journal of Applied Computing and Harmonic Analysis, 3:186 200, 1996. 13 D. Taubman. High performance scalable image compression with ebcot. IEEE Transactions on Image Processing, 1999. Preprint March 1999. To appear. 14 I. H. Witten, A. Mo at, and T. C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, New York, 1994.