Académique Documents
Professionnel Documents
Culture Documents
Résumé
Une nouvelle méthode est présentée pour la binarisation adaptative des images de documents, où la page est
considérée comme un ensemble de sous-composants tels que le texte, le fond et l'image. Les problèmes causés par le
bruit, l'éclairage et de nombreuses dégradations liées au type de source sont abordés. Deux nouveaux algorithmes sont
appliqués pour déterminer un seuil local pour chaque pixel. L'évaluation des performances de l'algorithme utilise des
images de test avec vérité de terrain, des mesures d'évaluation pour la binarisation des images textuelles et synthétiques,
et une procédure de classement basée sur le poids pour la présentation du résultat "nal". Les algorithmes proposés ont
été testés avec des images comprenant des types de documents différents et des dégradations. Les résultats ont été
comparés à un certain nombre de techniques connues dans la littérature. Les résultats de l'analyse comparative montrent
que la méthode s'adapte et fonctionne bien dans chaque cas, tant sur le plan qualitatif que quantitatif. © 1999 Pattern
Recognition Society. Publié par Elsevier Science Ltd. Tous droits réservés.
Mots-clés : Binarisation adaptative ; Décision douce ; Segmentation des documents ; Analyse des documents ; Compréhension des
documents
0031-3203/99/$20.00 © 1999 Pattern Recognition Society. Publié par Elsevier Science Ltd. Tous droits réservés. PII : S
0031-3203(99)00055-2
22 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
6 225}236
sont déterminés localement, par exemple pixel par pixel, dégradation dans les images de documents a ! ect la
ou région par région. Ensuite, une région spécifique peut compréhensibilité physique et sémantique dans les tâches
avoir & un seul "trois- shold" qui est changé de r é g i o n d'analyse de documents, telles que la segmentation des
e n région selon le seuil de sélection des candidats pour pages, la classification et
une zone donnée. Le seuillage multiple est un schéma
dans lequel la sémantique de l'image est évaluée.
Ensuite, chaque pixel peut avoir plus d'une valeur de
seuil en fonction de la connectivité ou d'une autre
dépendance sémantique liée au contenu physique,
logique ou graphique.
De nombreuses techniques de binarisation utilisées
dans les tâches de traitement visent à simplifier et à
unifier les données d'image disponibles. La
simplification est effectuée pour améliorer les
caractéristiques de t r a i t e m e n t à venir, telles que la
charge de c a l c u l , l a complexité de l'algorithme
et les exigences en temps réel dans des environnements de
type industriel. L'une des principales raisons pour
lesquelles l'étape de binarisation ne permet pas d'obtenir
des données de haute qualité lors du traitement ultérieur
est due aux différents types et degrés de dégradation
introduits dans l'image source. Les raisons de cette
dégradation peuvent varier d'un type de source
médiocre, du processus d'acquisition de l'image à
l'environnement qui cause directement des problèmes de
qualité de l'image. Comme la dégradation est sans aucun
doute l'une des principales raisons de l'échec du
traitement, il est très important de concevoir la
technique de binarisation pour détecter et "éviter que des
i m p e r f e c t i o n s éventuelles ne deviennent le sujet du
traitement et la cause potentielle d'erreurs pour les
étapes de post-traitement. La plupart des types de
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
la reconnaissance optique de caractères. Par
conséquent, le résultat après toutes les étapes de
traitement souhaitées peut être totalement inutilisable,
simplement en raison de la binarisation mal réalisée.
La figure 2 illustre deux types de dégradation
typiques, lorsqu'il s'agit d'images de documents
scannés en niveaux de gris. Dans la figure 2a, le seuil
et la ligne de base changent en raison de l'illu-
mination e ! ect ou de l'entité implantée (conçue).
Ensuite, chaque objet a un niveau de base di ! erent qui
a ! ete la decision de separation objet/non-objet en
selectionnant le(s) seuil(s). La figure 2b p r é s e n t e un
"problème général de type et de coloration". Dans ce
cas, les niveaux d'arrière-plan et d'objet sont #uctu-
ating de la séparation claire à la séparation non claire
et à la petite di ! érence de niveau entre objet/non-
objet. Les lignes de seuil temporelles sont tracées sur
les deux images pour représenter la ligne de base qu'un
algorithme de binarisation réussi devrait imiter.
La figure 3 présente un autre type de problème,
fréquent dans les images de documents scannés :
plus de deux niveaux de di ! erents sont visibles dans
les zones textuelles en raison de la transparence de
la page suivante. Un algo- ritme de binarisation doit
donc faire face à au moins deux candidats de seuil di
! erents : le texte transparent en arrière-plan et le
texte au sol en arrière-plan. L'exemple binarisé
présente un résultat de binarisation correct.
d'optimiser les tâches de traitement des images en basée sur l'obser- vation selon laquelle, après avoir
termes de données d'images disponibles. Alors que les flouté une image à deux niveaux, l'intensité des pixels
types d'images sont devenus plus complexes, les d'origine est liée au signe de la courbure des pixels de
algorithmes développés ont acquis des bases théoriques l'image floue. Cette propriété est utilisée pour
plus larges. La tendance actuelle semble évoluer vers construire le seuil de sélection des histogrammes
une compréhension du domaine de l'image basée sur la partiels dans
binarisation et le contrôle des types et de la qualité des les endroits où la courbure est signi" cant.
images de sources différentes. Les techniques de pointe Rosenfeld et Smith [8] ont présenté un algorithme de
sont capables de s'adapter à un certain degré d'erreurs seuil global pour traiter le problème du bruit à l'aide d'un
dans une catégorie de" ned, et se concentrent sur
quelques types d'images. Dans le cas d'images
nécessitant plusieurs retenues, le problème semble être
de plus en plus difficile à résoudre, car la complexité du
contenu des images, y compris des documents textuels, a
augmenté rapidement.
Certains algorithmes de binarisation orientés vers les
documents ont été développés. O' Gorman [3] propose
une approche globale calculée à partir d'une mesure des
informations de connectivité l o c a l e . Les seuils se
trouvent aux niveaux d'intensité visant à préserver la
connectivité des régions. Liu et al [4] proposent une
méthode de binarisation des images de documents axée
sur les problèmes de fond bruyants et complexes. Ils
utilisent l'analyse d'histogrammes en échelle de gris et
en longueur de course dans une méthode appelée "&
object attribute t h r e - sholding". Elle identifie un
e n s e m b l e de s e u i l s globaux à l'a i d e d e
techniques globales qui sont utilisées pour la sélection
de seuils nationaux en utilisant des caractéristiques
locales.
L'algorithme de seuillage de Yang et al. [5] utilise une
mesure statique, appelée & plus grande diérence
d'état statique'. La méthode vise à suivre les
changements dans le modèle de signal statistique, en
divisant les changements de niveau statique ou
transitoire selon une variation de niveau de gris. La
valeur seuil est calculée en fonction des propriétés
statiques et transitoires séparément à chaque pixel. Les
problèmes de préservation de la connectivité des
images textuelles sont examinés par Chang et al. dans
Ref. [6]. Ils proposent un algorithme qui utilise deux
composantes de di ! er- ent : l'élimination du bruit de
fond par égalisation des histogrammes de niveaux de
gris et l'amélioration des niveaux de gris des
caractères du voisinage par une technique de
composition des images de bord. Le "par-
titionnement binaire" est effectué selon un
histogramme lissé et égalisé, calculé par "étapes
successives". Pavlidis [7] présente une technique
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
modèle probabiliste itératif lors de la séparation des
pixels du fond et de l'objet. Un processus de relaxation
a été utilisé pour réduire les erreurs en "classant
d'abord les pixels probabilistes et en ajustant l e u r s
probabilités à l'a i d e des pixels voisins. Ce processus
est "nalement itéré et conduit à une sélection de seuil,
où les probabilités des p i x e l s d e l 'arrière-plan et de
l'objet sont augmentées et seront réglées en fonction
des pixels de l'objet et d u non-objet.
L'algorithme de seuillage de Perez et Gonzalez [9] a
été conçu pour gérer les situations où un éclairage
imparfait se produit dans une image. La distribution
bimodale de la re#ectance est utilisée pour présenter
une échelle de gris avec deux composantes : la
re#ectance r et l'illumination i, utilisée également dans
le "ltering" homomorphe. L'algorithme est basé sur le
modèle d'expansion de la série de Taylor et n'utilise
aucune connaissance a priori de l'image. L'illumination
est supposée être relativement lisse, tandis que la
composante de re#ectance est utilisée pour suivre les
changements. La valeur de seuil est choisie à partir du
critère probabiliste de la fonction de sélection de seuil
bidimensionnelle. Cette valeur peut être calculée par
balayage de trame.
Le problème de l'éclairage est mis en évidence dans
l'algorithme à trois niveaux, appelé & edge level
thresholding', présenté par Parker e t al. d a n s Ref.
[10]. Leur approche utilise le principe selon lequel les
objets fournissent une fréquence spatiale élevée alors
que l'éclairage consiste principalement en de basses
fréquences spatiales. L'algorithme "rst identi" est basé
sur l'utilisation du détecteur de bord de Shen/Castan.
Les niveaux de gris sont ensuite examinés dans de
petites fenêtres pour déterminer les valeurs les plus
élevées et les plus basses qui indiquent l'objet et le
fond. La moyenne de ces valeurs est utilisée pour
déterminer les trois niveaux de gris. La valeur
sélectionnée est ensuite " tted à tous les pixels comme
une surface conduisant les valeurs ci-dessus à être
jugées comme faisant partie d'un objet et une valeur
inférieure au seuil appartient au fond.
Shapiro et ses collaborateurs [11] introduisent un
système de seuil global, où l'indépendance est
soulignée dans le rapport entre les surfaces
d'observation et d'arrière-plan, la pente de transition de
l'intensité, la forme de l'objet et de l'arrière-plan et
l'insensibilité au bruit. La sélection du seuil se fait en
choisissant une valeur qui maximise la non-
homogénéité globale. Celle-ci est obtenue comme une
intégrale des écarts locaux pondérés, où la fonction de
pondération attribue un écart type de pondération plus
élevé en cas de transition fond/objet que dans les zones
homogènes.
Pikaz et Averbuch [12] proposent un algorithme
permettant d'effectuer un seuillage pour les scènes
contenant des
23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
0 225}236
objets. La séquence de graphiques est construite en méthode de narration (TBM) pour les zones textuelles et
utilisant la taille des objets connectés en pixels comme de dessin à la ligne. La méthode SDM comprend des
classi" er. La sélection du seuil est obtenue en calculant capacités de suivi du bruit et du signal, tandis que la
les états stables sur le graphique. L'algorithme peut être méthode TBM est utilisée pour séparer les éléments de
adapté pour sélectionner des seuils à plusieurs niveaux texte du fond dans de mauvaises conditions, causées par
en sélectionnant le candidat d'état stable le plus élevé une (il)luminosité inégale ou du bruit. Enfin, les résultats
dans chaque niveau. de ces algorithmes sont combinés.
Henstock et Chelberg [13] proposent une sélection de L'utilisation de moyens appropriés pour comparer les
seuils basée sur un modèle statistique. La somme résultats des algorithmes à la vérité de terrain et à
pondérée de deux densités gamma, utilisée pour d'autres mesures est importante pour guider le processus
diminuer la charge de calcul au lieu des distributions de sélection des algorithmes et les orientations que les
normales, est " tted " à la somme d e s fonctions de recherches futures devraient prendre. Une évaluation des
densité de bord et de densité non de bord en u t i l i s a n t performances bien conçue m o n t r e q u e l l e s s o n t
un modèle à paramètres ve. Les paramètres sont estimés l e s capacités de l'algorithme qui doivent encore être
à l'aide d'un algorithme de maximisation des attentes en améliorées et celles qui sont adaptées à une situation
deux étapes. Les densités pondérées " tted séparent les donnée. Le résultat de l'évaluation comparative
pixels de bord des pixels de non bord des images renseigne sur l'adéquation de la technique à certains
d'intensité. domaines et à certaines qualités d'images. Cependant, il
L'algo- rithm de sélection du seuil entropique de n'est pas facile de voir la qualité de l'algorithme
vitesse amélioré est proposé dans la Réf. Ils réduisent les directement à partir d'un ensemble de valeurs de
niveaux de gris de l'image par quantification et produisent performance. Dans cet article, nous utilisons un
un vecteur candidat de seuil global à partir de l'image processus d'évaluation orienté vers un objectif avec des
quantifiée. La " sélection de s e u i l nal est estimée mesures de binarisation d'images de documents
uniquement à partir de l'image réduite en utilisant le spécialement développées et des mesures pour comparer
vecteur candidat. La réduction de la complexité de calcul les résultats à un certain nombre de techniques bien
est de l'ordre de grandeur de O(G813) du nombre de connues et performantes dans la littérature [16].
valeurs de gris, en utilisant la notation O-. La qualité de
la binarisation est suffisante pour la segmentation
préliminaire de l'image.
2. Aperçu de la technique de binarisation
Yanowitz et Bruckstein [15] ont proposé un
algorithme de segmentation d'image basé sur la
Notre technique de binarisation est destinée à être
binarisation adaptative, où les problèmes de qualité
utilisée comme une "premiè re étape dans diverses
d'image sont pris en considération. Leur algorithme
tâches d'analyse, de traitement et de recherche de
visait à séparer les objets dans des conditions d'éclairage
documents. Par conséquent, les caractéristiques
ou de dégradation. La technique utilise des seuils
spécifiques des documents, comme les propriétés
variables, dont les valeurs sont jugées par un traitement
textuelles, les graphiques, les dessins au trait et les
d'analyse des contours combiné à la formation et à la
mélanges complexes de leur mise en page et de leur
construction d'une surface de seuil interpolée au niveau
sémantique, doivent être incluses dans les exigences.
des gris. L'image est ensuite segmentée à l'aide de la
D'autre part, la technique doit être simple tout en prenant
surface seuil obtenue en identifiant les objets par post-
en considération toutes les exigences de l'analyse des
validation. Les auteurs ont indiqué que la validation peut
documents. La Fig. 4 présente l'approche générale du
être effectuée avec la plupart des méthodes de
traitement de binarisation #ow. Comme la segmentation
segmentation.
et l'étiquetage typiques des documents pour l'analyse du
contenu sont hors de question dans cette phase, nous
1.2. Notre approche utilisons un commutateur hybride rapide qui distribue
les petites fenêtres adaptées à la résolution vers des
Pour la binarisation des images de documents, nous fenêtres textuelles (1) et non textuelles (2).
proposons une nouvelle méthode qui "effectue d'abord (2) les techniques d'évaluation des seuils. Le
une classification r a p i d e " du contenu local d'une commutateur a été développé pour couvrir la plupart des
page vers le fond, les images et le texte. Deux approches aspects génériques des types de mise en page typiques
différentes sont ensuite appliquées pour définir un seuil des documents et peut facilement être modifié pour
pour chaque pixel : une méthode de décision douce d'autres. Les techniques d'évaluation du seuil sont
(MDF) pour le fond et les images, et u n e méthode adaptées aux propriétés des zones textuelles et non
spécialisée pour le texte bi- textuelles, avec une tolérance spéciale et une détection
des types de défauts de base qui sont généralement
introduits dans les images. Le résultat de ces techniques
représente une valeur de seuil
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
proposé pour chaque pixel, ou chaque nième pixel, sont ensuite calculées pour chaque fenêtre ; ces résultats
décidé par l'utilisateur. Ces valeurs sont utilisées pour sont utilisés pour sélectionner la méthode.
collecter le " nal out " de la binarisation par un module La " première caractéristique est simplement la
de contrôle de seuil. La technique permet également v a l e u r grise moyenne d'une fenêtre. La seconde
d'utiliser des multi-trois- sholds région par région du caractéristique, & transient di ! erence', mesure les
monde, si on le souhaite. changements locaux p a r contraste (Eq. (4)) . Les valeurs
de différence sont cumulées dans chaque sous-fenêtre et
3. La binarisation adaptative
Fig. 8. Fonctions d'appartenance des entrées et des sorties : =b (idéal), ¹Dm et ¹c.
23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
8 225}236
ligne de seuil qui est adaptée à l'image originale dégradée
du document.
R
!
)] ,(5)
4. Expériences
où m(x, y) et s(x, y) sont comme dans la formule de
Niblack. R est la plage dynamique de l'écart-type, et le L'algorithme de binarisation proposé a été testé avec
para- mètre k obtient des valeurs positives. La figure 10 la technique d'étalonnage et différents scénarios
montre un exemple
Fig. 10. Exemple de sélection d'un candidat seuil d'un exemple de ligne de balayage.
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33
Fig. 11. Deux choix d'interpolation pour la sélection du seuil des pixels hors base.
2
24 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
0 225}236
Fig. 12. Résultats visuels et numériques sur les algorithmes de comparaison appliqués aux images textuelles éclairées.
Fig. 13. Résultats sur les algorithmes de comparaison appliqués aux images graphiques synthétiques.
Fig. 14. Comparaison globale de la binarisation et des exemples de résultats sur & texte seulement' base
de données de documents.
les résultats sont également présentés visuellement. En algorithmes proposés et des comparaisons avec divers
utilisant les critères d'uniformité et de préservation de la catalogues de documents effectuées dans une vaste base
forme de l'objet, l'algorithme proposé se comporte de de données d'images de documents. Les images de test
manière robuste par rapport à d'autres techniques. Comme comprennent des documents textuels simples avec
la plupart des pixels des images synthétiques sont jugés
par la méthode de contrôle souple, le seuil entre les
objets et les candidats non-objets semble très clair.
La figure 14 montre les résultats de l'analyse
comparative effectuée avec la base de données d'images
textuelles avec de petites quantités de types d'éclairage
et de bruit propres et mixtes. Un exemple de
performance pro" le à la composante de dégradation du
b r u i t est montré pour tous les algorithmes de
comparaison. Le degré de dégradation du bruit présente
le pourcentage de bruit gaussien et aléatoire introduit
dans l'image textuelle, et la performance en utilisant des
mesures combinées de carte de pixels et d'OCR avec des
facteurs de pondération égaux. Les performances des
algorithmes proposés et des algorithmes de
comparaison, à l'exclusion de ceux de Parker, semblent
être suffisantes jusqu'à une pénétration de bruit de 20
%. Le pro" le de performance montre clairement que la
performance des algorithmes de c o m p a r a i s o n c h u t e
entre 20 et 30% de p é n é t r a t i o n , a l o r s q u e
l 'algorithme proposé tolère un bruit important, jusqu'à
45% ayant 80% de seuil de valeur acceptable.
La figure 15 montre les résultats globaux des
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
et sans types ni degrés de dégradation, des documents
aux propriétés textuelles et graphiques mixtes, où les
avantages de l'approche hybride de l'algo- ritme
proposé s o n t clairement visibles. Les méthodes
d'Eikvil et de Niblack ont donné les meilleurs résultats
par rapport à l'algorithme proposé, mais elles se sont
tout de même révélées mal adaptées aux différents
types de dégradation et, par exemple, la taille de la
police utilisée dans les parties textuelles a été
combinée aux caractères. L'algorithme de Bernsen a
donné de bons résultats sur la documentation propre et
a toléré une petite quantité d'un type de défaut.
Lorsque la dégradation était plus importante, la per-
formance de l'algorithme diminuait rapidement, tant au
niveau de l'évaluation visuelle que numérique.
L'algorithme de Parker donne de bons résultats avec
des images de documents propres, mais la qualité du
résultat chute avec une introduction même minime de
documents présentant n'importe quel type de défaut.
Les temps d'exécution de l'algorithme n'ont pas été
mesurés dans cette comparaison, où seule la qualité du
résultat a été comparée aux mesures dans un processus
pondéré (textuel, graphique, caractère). Les temps de
calcul de tous les algorithmes évalués étaient
tolérables, par exemple pour une utilisation comme
étape de prétraitement dans les moteurs de
reconnaissance optique de caractères. L'une des
questions qui se posent lors de l'évaluation
comparative est l'organisation de la paramétrisation.
L'algorithme proposé n'avait aucun paramètre à définir
pendant les tests, alors que Niblack en avait un, et
Bernsen deux, Eikvil
24 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
4 225}236
Fig. 15. Résultats globaux de la binarisation sur la base de données des documents textuels.
5. Conclusions
6. Résumé
À propos de l'auteur*JAAKKO SAUVOLA est professeur et directeur du groupe de recherche Media Team à l'université d'Oulu,
Finlande, et membre de la faculté a$liated du laboratoire LAMP, Centre de recherche en automatisation, université du Maryland,
États-Unis. Le Dr Sauvola est également directeur de recherche chez Nokia Telecommunications, où ses responsabilités couvrent les
services de téléphonie à valeur ajoutée. M. Sauvola est membre de plusieurs comités et programmes scientifiques. Ses recherches
portent notamment sur l'intégration téléphonie-informatique, l'analyse des médias, le multimédia mobile, la téléphonie multimédia et
les systèmes de récupération de contenu.
À propos de l'auteur*MATTI PIETIKAG INEN a obtenu son doctorat en technologie en génie électrique à l'université d'Oulu, en
Finlande, en 1982. De 1980 à 1981 et de 1984 à 1985, il a été chercheur invité au laboratoire de vision par ordinateur de l'université du
Maryland, aux États-Unis. Actuellement, il est professeur de technologie de l'information, directeur scientifique du centre de recherche
Infotech Oulu et directeur du groupe de vision artificielle et de traitement des médias à l 'université de Oulu. Ses intérêts de
recherche couvrent divers aspects de l'analyse d'images et de la vision artificielle, y compris l'analyse de texture, la vision artificielle
en couleur et l'analyse de documents. Ses recherches ont été largement publiées dans des revues, des livres et des conférences. Il a été
l'éditeur (avec L.F. Pau) du livre "Machine Vision for Advanced Productiona", publié par World Scienti" c en 1996. Le professeur
PietikaK inen est l'un des membres fondateurs de l'Association internationale pour la reconnaissance des formes (IAPR) et un membre
senior de l'IEEE, et il est membre du conseil d'administration de l'IAPR. Il fait également partie des comités de programme de
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33
plusieurs conférences internationales.
2