Vous êtes sur la page 1sur 24

Abonnez-vous à DeepL Pro pour éditer ce document.

Visitez www.DeepL.com/Pro pour en savoir plus.

Reconnaissance des modèles 33 (2000) 225}236

La binarisation adaptative des images de documents


J. Sauvola*, M. PietikaK inen
Groupe de vision industrielle et de traitement des médias, Infotech Oulu, Université d'Oulu, P.O. BOX 4500, FIN-90401 Oulu,
Finlande
Reçu le 29 avril 1998 ; accepté le 21 janvier 1999

Résumé

Une nouvelle méthode est présentée pour la binarisation adaptative des images de documents, où la page est
considérée comme un ensemble de sous-composants tels que le texte, le fond et l'image. Les problèmes causés par le
bruit, l'éclairage et de nombreuses dégradations liées au type de source sont abordés. Deux nouveaux algorithmes sont
appliqués pour déterminer un seuil local pour chaque pixel. L'évaluation des performances de l'algorithme utilise des
images de test avec vérité de terrain, des mesures d'évaluation pour la binarisation des images textuelles et synthétiques,
et une procédure de classement basée sur le poids pour la présentation du résultat "nal". Les algorithmes proposés ont
été testés avec des images comprenant des types de documents différents et des dégradations. Les résultats ont été
comparés à un certain nombre de techniques connues dans la littérature. Les résultats de l'analyse comparative montrent
que la méthode s'adapte et fonctionne bien dans chaque cas, tant sur le plan qualitatif que quantitatif. © 1999 Pattern
Recognition Society. Publié par Elsevier Science Ltd. Tous droits réservés.

Mots-clés : Binarisation adaptative ; Décision douce ; Segmentation des documents ; Analyse des documents ; Compréhension des
documents

graphiques mélangés, nécessitent des techniques de


1. Introduction binarisation plus spécialisées.
Dans les techniques actuelles, la binarisation (se-
La plupart des algorithmes d'analyse de documents sont lection de seuil) est généralement effectuée soit
construits en tirant parti des données d'images binaires globalement, soit localement.
sous-jacentes [1]. L'utilisation d'une information à deux
niveaux réduit la charge de calcul et permet d'utiliser des
méthodes d'analyse simplifiées par rapport à 256 niveaux
d'informations d'i m a g e s en niveaux de gris ou en * Auteur correspondant. Tél : #358-40-5890652.
couleur. Les méthodes de compréhension des images de Adresse électronique : jjs@ee.oulu. " (J. Sauvola)
documents nécessitent une préservation logique et
sémantique du contenu lors du seuillage. Par exemple, une
lettre de connexion doit être maintenue pour la
reconnaissance optique des caractères et la compression
textuelle [2]. Cette exigence réduit l'utilisation d'un seuil
global dans de nombreux cas.
Lainarisation a été un sujet de recherche intense au
cours des dix dernières années. La plupart des
algorithmes développés s'appuient sur des méthodes
statistiques, sans tenir compte de la nature particulière
des images de documents. Cependant, les
développements récents sur les types de documents, par
exemple les documents comportant du texte et des
mélangés au texte). Lorsque la reconnaissance des
Certaines méthodes hybrides ont également été caractères est effectuée, les ensembles fondus de
proposées. Les méthodes globales utilisent une valeur groupes de pixels (caractères) sont facilement mal
seuil calculée pour diviser les pixels de l'image en interprétés si l'étiquetage bi- narratif n'a pas réussi à
classes d'objets ou d'arrière-plan, tandis que les séparer les groupes. D'autres interprétations erronées se
méthodes locales peuvent utiliser de nombreuses produisent facilement si les groupes censés être des
valeurs di ! erentes adaptées, sélectionnées en fonction clusters sont mal divisés. La figure 1 illustre notre
de la zone locale en formation. Les méthodes hybrides taxon- omy (appelé MSLG) et la division générale en
utilisent à la fois des informations globales et locales trois techniques d'étiquetage selon le niveau de
pour décider de l'étiquette des pixels. sémantique et la localité du traitement utilisé. Le MSLG
Les principales situations dans lesquelles les seuils peut être appliqué par paires, par exemple (ML), (SL),
globaux uniques ne sont pas suffisants sont dues à des (MG) et (SG).
changements de luminosité (éclairage), à des erreurs L'approche la plus conventionnelle est un seuil global,
de numérisation et de résolution, à la mauvaise qualité où une valeur de seuil (seuil unique) est sélectionnée
du document source et à la complexité de la structure pour l'ensemble de l'image en fonction des informations
du document (par exemple, les graphiques sont globales/locales. Dans le cas d'un seuillage local, les
valeurs de seuil

0031-3203/99/$20.00 © 1999 Pattern Recognition Society. Publié par Elsevier Science Ltd. Tous droits réservés. PII : S
0031-3203(99)00055-2
22 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
6 225}236

Fig. 1. Taxonomie des systèmes de seuillage.

Fig. 2. Exemples de types de problèmes d'analyse de documents en binarisation.

sont déterminés localement, par exemple pixel par pixel, dégradation dans les images de documents a ! ect la
ou région par région. Ensuite, une région spécifique peut compréhensibilité physique et sémantique dans les tâches
avoir & un seul "trois- shold" qui est changé de r é g i o n d'analyse de documents, telles que la segmentation des
e n région selon le seuil de sélection des candidats pour pages, la classification et
une zone donnée. Le seuillage multiple est un schéma
dans lequel la sémantique de l'image est évaluée.
Ensuite, chaque pixel peut avoir plus d'une valeur de
seuil en fonction de la connectivité ou d'une autre
dépendance sémantique liée au contenu physique,
logique ou graphique.
De nombreuses techniques de binarisation utilisées
dans les tâches de traitement visent à simplifier et à
unifier les données d'image disponibles. La
simplification est effectuée pour améliorer les
caractéristiques de t r a i t e m e n t à venir, telles que la
charge de c a l c u l , l a complexité de l'algorithme
et les exigences en temps réel dans des environnements de
type industriel. L'une des principales raisons pour
lesquelles l'étape de binarisation ne permet pas d'obtenir
des données de haute qualité lors du traitement ultérieur
est due aux différents types et degrés de dégradation
introduits dans l'image source. Les raisons de cette
dégradation peuvent varier d'un type de source
médiocre, du processus d'acquisition de l'image à
l'environnement qui cause directement des problèmes de
qualité de l'image. Comme la dégradation est sans aucun
doute l'une des principales raisons de l'échec du
traitement, il est très important de concevoir la
technique de binarisation pour détecter et "éviter que des
i m p e r f e c t i o n s éventuelles ne deviennent le sujet du
traitement et la cause potentielle d'erreurs pour les
étapes de post-traitement. La plupart des types de
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
la reconnaissance optique de caractères. Par
conséquent, le résultat après toutes les étapes de
traitement souhaitées peut être totalement inutilisable,
simplement en raison de la binarisation mal réalisée.
La figure 2 illustre deux types de dégradation
typiques, lorsqu'il s'agit d'images de documents
scannés en niveaux de gris. Dans la figure 2a, le seuil
et la ligne de base changent en raison de l'illu-
mination e ! ect ou de l'entité implantée (conçue).
Ensuite, chaque objet a un niveau de base di ! erent qui
a ! ete la decision de separation objet/non-objet en
selectionnant le(s) seuil(s). La figure 2b p r é s e n t e un
"problème général de type et de coloration". Dans ce
cas, les niveaux d'arrière-plan et d'objet sont #uctu-
ating de la séparation claire à la séparation non claire
et à la petite di ! érence de niveau entre objet/non-
objet. Les lignes de seuil temporelles sont tracées sur
les deux images pour représenter la ligne de base qu'un
algorithme de binarisation réussi devrait imiter.
La figure 3 présente un autre type de problème,
fréquent dans les images de documents scannés :
plus de deux niveaux de di ! erents sont visibles dans
les zones textuelles en raison de la transparence de
la page suivante. Un algo- ritme de binarisation doit
donc faire face à au moins deux candidats de seuil di
! erents : le texte transparent en arrière-plan et le
texte au sol en arrière-plan. L'exemple binarisé
présente un résultat de binarisation correct.

1.1. Enquête sur les techniques de binarisation des images


de documents

La recherche sur les techniques de binarisation est


issue des besoins de traitement des images
traditionnelles et de scène pour
22 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
8 225}236

Fig. 3. Exemple de bonne binarisation sur une image d'échantillon dégradé.

d'optimiser les tâches de traitement des images en basée sur l'obser- vation selon laquelle, après avoir
termes de données d'images disponibles. Alors que les flouté une image à deux niveaux, l'intensité des pixels
types d'images sont devenus plus complexes, les d'origine est liée au signe de la courbure des pixels de
algorithmes développés ont acquis des bases théoriques l'image floue. Cette propriété est utilisée pour
plus larges. La tendance actuelle semble évoluer vers construire le seuil de sélection des histogrammes
une compréhension du domaine de l'image basée sur la partiels dans
binarisation et le contrôle des types et de la qualité des les endroits où la courbure est signi" cant.
images de sources différentes. Les techniques de pointe Rosenfeld et Smith [8] ont présenté un algorithme de
sont capables de s'adapter à un certain degré d'erreurs seuil global pour traiter le problème du bruit à l'aide d'un
dans une catégorie de" ned, et se concentrent sur
quelques types d'images. Dans le cas d'images
nécessitant plusieurs retenues, le problème semble être
de plus en plus difficile à résoudre, car la complexité du
contenu des images, y compris des documents textuels, a
augmenté rapidement.
Certains algorithmes de binarisation orientés vers les
documents ont été développés. O' Gorman [3] propose
une approche globale calculée à partir d'une mesure des
informations de connectivité l o c a l e . Les seuils se
trouvent aux niveaux d'intensité visant à préserver la
connectivité des régions. Liu et al [4] proposent une
méthode de binarisation des images de documents axée
sur les problèmes de fond bruyants et complexes. Ils
utilisent l'analyse d'histogrammes en échelle de gris et
en longueur de course dans une méthode appelée "&
object attribute t h r e - sholding". Elle identifie un
e n s e m b l e de s e u i l s globaux à l'a i d e d e
techniques globales qui sont utilisées pour la sélection
de seuils nationaux en utilisant des caractéristiques
locales.
L'algorithme de seuillage de Yang et al. [5] utilise une
mesure statique, appelée & plus grande diérence
d'état statique'. La méthode vise à suivre les
changements dans le modèle de signal statistique, en
divisant les changements de niveau statique ou
transitoire selon une variation de niveau de gris. La
valeur seuil est calculée en fonction des propriétés
statiques et transitoires séparément à chaque pixel. Les
problèmes de préservation de la connectivité des
images textuelles sont examinés par Chang et al. dans
Ref. [6]. Ils proposent un algorithme qui utilise deux
composantes de di ! er- ent : l'élimination du bruit de
fond par égalisation des histogrammes de niveaux de
gris et l'amélioration des niveaux de gris des
caractères du voisinage par une technique de
composition des images de bord. Le "par-
titionnement binaire" est effectué selon un
histogramme lissé et égalisé, calculé par "étapes
successives". Pavlidis [7] présente une technique
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
modèle probabiliste itératif lors de la séparation des
pixels du fond et de l'objet. Un processus de relaxation
a été utilisé pour réduire les erreurs en "classant
d'abord les pixels probabilistes et en ajustant l e u r s
probabilités à l'a i d e des pixels voisins. Ce processus
est "nalement itéré et conduit à une sélection de seuil,
où les probabilités des p i x e l s d e l 'arrière-plan et de
l'objet sont augmentées et seront réglées en fonction
des pixels de l'objet et d u non-objet.
L'algorithme de seuillage de Perez et Gonzalez [9] a
été conçu pour gérer les situations où un éclairage
imparfait se produit dans une image. La distribution
bimodale de la re#ectance est utilisée pour présenter
une échelle de gris avec deux composantes : la
re#ectance r et l'illumination i, utilisée également dans
le "ltering" homomorphe. L'algorithme est basé sur le
modèle d'expansion de la série de Taylor et n'utilise
aucune connaissance a priori de l'image. L'illumination
est supposée être relativement lisse, tandis que la
composante de re#ectance est utilisée pour suivre les
changements. La valeur de seuil est choisie à partir du
critère probabiliste de la fonction de sélection de seuil
bidimensionnelle. Cette valeur peut être calculée par
balayage de trame.
Le problème de l'éclairage est mis en évidence dans
l'algorithme à trois niveaux, appelé & edge level
thresholding', présenté par Parker e t al. d a n s Ref.
[10]. Leur approche utilise le principe selon lequel les
objets fournissent une fréquence spatiale élevée alors
que l'éclairage consiste principalement en de basses
fréquences spatiales. L'algorithme "rst identi" est basé
sur l'utilisation du détecteur de bord de Shen/Castan.
Les niveaux de gris sont ensuite examinés dans de
petites fenêtres pour déterminer les valeurs les plus
élevées et les plus basses qui indiquent l'objet et le
fond. La moyenne de ces valeurs est utilisée pour
déterminer les trois niveaux de gris. La valeur
sélectionnée est ensuite " tted à tous les pixels comme
une surface conduisant les valeurs ci-dessus à être
jugées comme faisant partie d'un objet et une valeur
inférieure au seuil appartient au fond.
Shapiro et ses collaborateurs [11] introduisent un
système de seuil global, où l'indépendance est
soulignée dans le rapport entre les surfaces
d'observation et d'arrière-plan, la pente de transition de
l'intensité, la forme de l'objet et de l'arrière-plan et
l'insensibilité au bruit. La sélection du seuil se fait en
choisissant une valeur qui maximise la non-
homogénéité globale. Celle-ci est obtenue comme une
intégrale des écarts locaux pondérés, où la fonction de
pondération attribue un écart type de pondération plus
élevé en cas de transition fond/objet que dans les zones
homogènes.
Pikaz et Averbuch [12] proposent un algorithme
permettant d'effectuer un seuillage pour les scènes
contenant des
23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
0 225}236
objets. La séquence de graphiques est construite en méthode de narration (TBM) pour les zones textuelles et
utilisant la taille des objets connectés en pixels comme de dessin à la ligne. La méthode SDM comprend des
classi" er. La sélection du seuil est obtenue en calculant capacités de suivi du bruit et du signal, tandis que la
les états stables sur le graphique. L'algorithme peut être méthode TBM est utilisée pour séparer les éléments de
adapté pour sélectionner des seuils à plusieurs niveaux texte du fond dans de mauvaises conditions, causées par
en sélectionnant le candidat d'état stable le plus élevé une (il)luminosité inégale ou du bruit. Enfin, les résultats
dans chaque niveau. de ces algorithmes sont combinés.
Henstock et Chelberg [13] proposent une sélection de L'utilisation de moyens appropriés pour comparer les
seuils basée sur un modèle statistique. La somme résultats des algorithmes à la vérité de terrain et à
pondérée de deux densités gamma, utilisée pour d'autres mesures est importante pour guider le processus
diminuer la charge de calcul au lieu des distributions de sélection des algorithmes et les orientations que les
normales, est " tted " à la somme d e s fonctions de recherches futures devraient prendre. Une évaluation des
densité de bord et de densité non de bord en u t i l i s a n t performances bien conçue m o n t r e q u e l l e s s o n t
un modèle à paramètres ve. Les paramètres sont estimés l e s capacités de l'algorithme qui doivent encore être
à l'aide d'un algorithme de maximisation des attentes en améliorées et celles qui sont adaptées à une situation
deux étapes. Les densités pondérées " tted séparent les donnée. Le résultat de l'évaluation comparative
pixels de bord des pixels de non bord des images renseigne sur l'adéquation de la technique à certains
d'intensité. domaines et à certaines qualités d'images. Cependant, il
L'algo- rithm de sélection du seuil entropique de n'est pas facile de voir la qualité de l'algorithme
vitesse amélioré est proposé dans la Réf. Ils réduisent les directement à partir d'un ensemble de valeurs de
niveaux de gris de l'image par quantification et produisent performance. Dans cet article, nous utilisons un
un vecteur candidat de seuil global à partir de l'image processus d'évaluation orienté vers un objectif avec des
quantifiée. La " sélection de s e u i l nal est estimée mesures de binarisation d'images de documents
uniquement à partir de l'image réduite en utilisant le spécialement développées et des mesures pour comparer
vecteur candidat. La réduction de la complexité de calcul les résultats à un certain nombre de techniques bien
est de l'ordre de grandeur de O(G813) du nombre de connues et performantes dans la littérature [16].
valeurs de gris, en utilisant la notation O-. La qualité de
la binarisation est suffisante pour la segmentation
préliminaire de l'image.
2. Aperçu de la technique de binarisation
Yanowitz et Bruckstein [15] ont proposé un
algorithme de segmentation d'image basé sur la
Notre technique de binarisation est destinée à être
binarisation adaptative, où les problèmes de qualité
utilisée comme une "premiè re étape dans diverses
d'image sont pris en considération. Leur algorithme
tâches d'analyse, de traitement et de recherche de
visait à séparer les objets dans des conditions d'éclairage
documents. Par conséquent, les caractéristiques
ou de dégradation. La technique utilise des seuils
spécifiques des documents, comme les propriétés
variables, dont les valeurs sont jugées par un traitement
textuelles, les graphiques, les dessins au trait et les
d'analyse des contours combiné à la formation et à la
mélanges complexes de leur mise en page et de leur
construction d'une surface de seuil interpolée au niveau
sémantique, doivent être incluses dans les exigences.
des gris. L'image est ensuite segmentée à l'aide de la
D'autre part, la technique doit être simple tout en prenant
surface seuil obtenue en identifiant les objets par post-
en considération toutes les exigences de l'analyse des
validation. Les auteurs ont indiqué que la validation peut
documents. La Fig. 4 présente l'approche générale du
être effectuée avec la plupart des méthodes de
traitement de binarisation #ow. Comme la segmentation
segmentation.
et l'étiquetage typiques des documents pour l'analyse du
contenu sont hors de question dans cette phase, nous
1.2. Notre approche utilisons un commutateur hybride rapide qui distribue
les petites fenêtres adaptées à la résolution vers des
Pour la binarisation des images de documents, nous fenêtres textuelles (1) et non textuelles (2).
proposons une nouvelle méthode qui "effectue d'abord (2) les techniques d'évaluation des seuils. Le
une classification r a p i d e " du contenu local d'une commutateur a été développé pour couvrir la plupart des
page vers le fond, les images et le texte. Deux approches aspects génériques des types de mise en page typiques
différentes sont ensuite appliquées pour définir un seuil des documents et peut facilement être modifié pour
pour chaque pixel : une méthode de décision douce d'autres. Les techniques d'évaluation du seuil sont
(MDF) pour le fond et les images, et u n e méthode adaptées aux propriétés des zones textuelles et non
spécialisée pour le texte bi- textuelles, avec une tolérance spéciale et une détection
des types de défauts de base qui sont généralement
introduits dans les images. Le résultat de ces techniques
représente une valeur de seuil
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2

Fig. 4. Vue d'ensemble de l'algorithme de binarisation.


23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
2 225}236

Fig. 5. Options d'interpolation pour le calcul de la binarisation.

proposé pour chaque pixel, ou chaque nième pixel, sont ensuite calculées pour chaque fenêtre ; ces résultats
décidé par l'utilisateur. Ces valeurs sont utilisées pour sont utilisés pour sélectionner la méthode.
collecter le " nal out " de la binarisation par un module La " première caractéristique est simplement la
de contrôle de seuil. La technique permet également v a l e u r grise moyenne d'une fenêtre. La seconde
d'utiliser des multi-trois- sholds région par région du caractéristique, & transient di ! erence', mesure les
monde, si on le souhaite. changements locaux p a r contraste (Eq. (4)) . Les valeurs
de différence sont cumulées dans chaque sous-fenêtre et

3. La binarisation adaptative

L'image du document contient des types de surface


di ! erents (tex- ture) qui peuvent être divisés en
uniformes, di ! erents et changeants de façon
transitoire. La texture contenue dans les images et
l'arrière-plan peut généralement être classée dans les
catégories uniforme ou di ! erenti, tandis que le texte, les
dessins au trait, etc. ont des propriétés plus
transitoires par nature. Notre approche consiste à
analyser la surface locale de l'image du document afin
de décider de la méthode de binarisation nécessaire
(Fig. 4). Au cours de cette décision, un module de
"commutation hybride" sélectionne l'un des deux algo-
rithmes de binarisation spécialisés à appliquer à la
région. L'objectif des algorithmes de binarisation est
de produire une valeur optimale de trois shold pour
chaque pixel. Une option rapide consiste à calculer
"un premier seuil pour chaque nième pixel et à utiliser
ensuite l'interpo-
pour le reste des pixels (Fig. 5).
La méthode de binarisation peut également être réglée
pour contourner la phase de commutation hybride.
L'utilisateur peut alors choisir l'algorithme à utiliser pour
le seuillage. Tous les autres modules fonctionnent de la
même manière que dans des conditions hybrides.
La sous-section suivante décrit le type de région et les
algorithmes de commutation. Les deux gorithmes de
binarisation di ! erents sont ensuite discutés en détail. La
" nal binariz- ation " est effectuée en utilisant les
valeurs seuils proposées. Ce processus est décrit dans la
dernière sous-section.

3.1. Analyse et changement de région

Le calcul du seuil est précédé par la sélection de la


méthode de binarisation appropriée, basée sur une
analyse des propriétés locales de l'image. Tout d'abord,
l'image du document est découpée en fenêtres
rectangulaires de taille égale de 10}20 pixels de large,
correspondant à la résolution qui varie linéairement
entre ' 75 et (300 dpi. Deux caractéristiques simples
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
En utilisant les limites de 10, 15 et 30 % des valeurs
mises à l'échelle, la propriété de di ! erence transitoire
est de "ned as & uniform' , & near-uniform' , & di !
ering' ou & transient'. Cette division grossière est
effectuée en fonction de l'homogénéité moyenne de la
surface. Selon ces étiquettes, un vote est donné à la
méthode de binarisation correspondante qui doit être
utilisée dans une fenêtre. Les étiquettes
& uniforme" et "quasi-uniforme" correspondent à des
images de f o n d et de "scène", et donnent des voix au
MDS. Les labels & di ! ering' et & transient' donnent leurs
voix à l a m é t h o d e TBM.
La sélection d'un algorithme de binarisation est ensuite
effectuée comme le montrent les exemples de règles (1,
2) :
1. Si la moyenne est élevée et qu'un pic global de
l'histogramme se trouve dans le même quart de
l'histogramme et que la di ! er- ence est transitoire,
alors utilisez la MSD.
2. Si la moyenne est moyenne et que le pic d'un
histogramme global ne se trouve pas dans le même
quart de l'histogramme et que la diérence transitoire
est uniforme, alors utilisez le TBM.
Un exemple de résultat de partitionnement d'image
est présenté à la Fig. 6. Les régions blanches sont
guidées vers l'algo- rithm SDM, tandis que les régions
grises sont binarisées avec l'algorithme TBM.

3.2. Binarisation des composantes non textuelles

Comme dans les applications de contrôle logiciel,


notre algorithme " rst analyse la surface de la fenêtre
en calculant des caractéristiques descriptives. Ensuite,
l'algorithme de contrôle logiciel est appliqué à chaque
nième pixel (Fig. 5). Le résultat est un seuil local basé
sur les caractéristiques de la région locale.
Pour garantir l'adaptabilité locale de la sélection du
seuil, nous utilisons deux types de caractéristiques
calculées localement :

Fig. 6. Exemple de partitionnement de régions pour la


sélection d'un algorithme (MDS/MTB).
23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
4 225}236
& weighted bound' et & threshold di ! erence' . Le
Moyenne,
site Amed
les questions relatives à la fonction de membre, les 1001n med (P(i, j))
règles de décision non contraignantes et la dé
L'algorithme de cation "fuzzi" est présenté dans l e s 1001n . (2)
" 100/n
paragraphes suivants. Amed
k=0
Moyenne maximale,
Amax
3.2.1. Calcul lié pondéré ".max1001n(P(i, j)) . (3)
Les schémas et les caractéristiques d'analyse basés sur max
A1001n 100/n
k=
des histogrammes sont 0
souvent utilisé dans les méthodes de binarisation. Dans
Ces valeurs sont stockées dans un tableau nxnx3,
l'analyse de documents
L'histogramme est très utile pour détecter et identifier appelé
des domaines dans l'analyse physique et logique. Nous tableau des moyennes pondérées (WAT). En utilisant les
utilisons une nouvelle approche développée pour la équations (1)}(3), trois histogrammes distincts sont
détection locale et la pondération des limites dans la formés où les valeurs sont ajoutées à leurs valeurs de bin
texture des images en niveaux de gris. Une nouvelle respectives (i n d i c e de bin "value"). Ces
La caractéristique appelée borne pondérée (=b) est histogrammes sont ensuite divisés séparément en dix
introduite et utilisée dans l'algorithme de contrôle sections horizontales et trois sections verticales, où le
souple. La =b est utilisée pour la caractérisation de la
valeur locale des pixels pro" les par le suivi nombre de pics des histogrammes est calculé pour
des pixels bas, moyens et hauts dans une petite zone. chaque section en fonction des limites de sectionnement.
Dans une surface donnée de nxn pixels, où n est une
largeur de fenêtre Les limites horizontales sont fixées entre les bacs 0
A partir de l'analyse des régions non chevauchantes et 255 avec une formule int((256/10)Hm), où m" 1,
2,2, 9. Le nombre de bordures a été fixé à dix. De
(voir section 3.1), trois mesures di ! erentes sont plus, un nombre plus petit
calculées. Les valeurs sont rassemblées dans un tableau pourrait être sélectionné, mais la pénalité est que
bidimensionnel utilisé pour pondérer et simplifier les l'histogramme original est plus aliasé. Dix frontières
trois courbes enveloppes dans les fonctions d'adhésion correspondent à 25 bacs d'échelle de gris. Les deux
de contrôle souple. Les mesures sont des moyennes min- bordures verticales sont fixées entre 0 et le maximum,
imum, moyennes et maximales données dans les représentant le nombre de votes calculé pour chaque bac
équations (1)}(3). horizontal de sorte que les limites sont fixées à 80 % du
Moyenne minimale, Amin nombre maximum de votes et à 40 % du nombre
maximum de votes, respectivement. Ces limites sont
1001n min1001n(P(i, j))
fixées en fonction des tests effectués avec un grand
nombre d'images. Le site
La limitede
variation supérieure
10 %. est relativement insensible à une
Amin" , (1)
100/n L'abaissement de la limite inférieure amène plus de voix
k=0
au calcul du pic moyen, ce qui améliore la courbe
enveloppe en
où P(i, j) est la région de l'image du document, et i la des bacs où apparaît un pic moyen.
largeur, et j la hauteur. n est le nombre statique obtenu à Après avoir calculé les pics dans un tableau 3x10, le
partir de la taille moyenne de la fenêtre (voir section 3.1). une pondération est effectuée (Fig. 7). Le résultat est a
=b
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2

Fig. 7. Un exemple de calcul de la fonction d'appartenance =b à l'aide de l'histogramme Amin.


23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
6 225}236
courbe enveloppe qui est utilisée dans le processus de 3.2.4. Règles de décision douce et défuzzification
décision douce. Dans le processus de décision douce, nous utilisons
Les trois courbes =b, calculées à partir de Amin, et neuf règles de base dérivées de l'analyse des
Amed
caractéristiques et de l'homme d'affaires.
Amax
sont utilisés comme fonctions de membres. agement. Pour =b, il s'agit de (LOW, MIDDLE, HIGH),
ce qui indique les propriétés de l'histogramme local.
3.2.2. Calcul de la diwérence transitoire Pour ¹Dm, nous utilisons (UNIFORME, DIFFERENT,
TRANSFERT), décrivant
La di ! erence transitoire vise à extraire la moyenne la propriété de la région locale. L'ensemble des règles
des variations survenant entre les est présenté à la figure 9. Comme dans les problèmes de
pixels voisins (di ! erence de contraste) dans une zone contrôle souple, les règles sont exprimées par des
nxn, clauses, par exemple :
c'est-à-dire pour suivre les changements de surface
locaux. Les di ! erences entre les pixels adjacents sont
Si =b est < P(i, j)) et ¹Dm ¹D(i, j))
accumulées. La di ! erence transitoire (¹D) des valeurs est <
des pixels adjacents horizontaux et verticaux est puis ¹c(i, j)" < 0, 255).
calculée et accumulée. La valeur obtenue est ensuite L'ensemble de règles actuel est conçu pour les images et
mise à l'échelle entre 0}1 (Eq. (4)). ¸ représente le les dos
nombre de niveaux de gris dans l'image.
( n n 12P(i, j) ! [P(i ! 1, j)#P(i, j ! des régions d'image de type terrestre. A l'aide de cette
1)]1) méthode, définissez le bruit et les
¹D" i= j= . la plupart des défauts d'éclairage peuvent être corrigés
1 1 (¸n)2
de manière adaptative dans les zones traitées.
(4) Pour le cation "defuzzi", nous utilisons la méthode de
M a m d a n i [1 7 ].
La valeur ¹D est utilisée dans la prise de décision Le résultat du cation "defuzzi" est une valeur seuil unique
douce pour exposer les types de zones uniformes, di ! pour chaque pixel n.
erentielles et transitoires lors de l'évaluation de la valeur
de contrôle pour la sélection du seuil.
3.3. Binarisation des éléments textuels
3.2.3. Génération de la fonction de membre
Deux fonctions d'appartenance différentes sont Pour la binarisation du texte, nous utilisons une
utilisées en fonction des valeurs extraites pour un pixel version modifié e de l'algorithme de Niblack [18]. L'idée
donné : de la méthode de Niblack est de faire varier le seuil au-
borne pondérée (=b) et di ! erence transitoire (¹Dm). Le dessus de l'image, en se basant sur la moyenne locale, m,
site et l'écart-type local, s, calculés dans un petit
"La première est calculée dynamiquement à partir voisinage de chaque pixel. Un seuil pour chaque
de l'image. Le site Le pixel est calculé à partir de ¹" m#kHs, où k est
L'organisation utilise des fonctions d'adhésion un utilisateur
préalables. La Fig. 8 illustre ces fonctions en utilisant de" ned et obtient des valeurs négatives. Cette méthode
l'idéal
fonctionne comme =b et les fonctions de membre
effectif pour ¹Dm.
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2

Fig. 8. Fonctions d'appartenance des entrées et des sorties : =b (idéal), ¹Dm et ¹c.
23 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
8 225}236
ligne de seuil qui est adaptée à l'image originale dégradée
du document.

3.4. Sélection de seuil interpolative

Après un seuillage guidé par le type de surface, les "


nal s e u i l s sont calculés pour les régions de fond, de
texte, de graphiques et de dessin au trait. Une option
Fig. 9. Exemple de règles de décision non contraignante pour le rapide consiste à calculer " rst un seuil pour c h a q u e
candidat au seuil nième pixel et à utiliser ensuite l'interpolation pour le
¹c(i, j). reste des pixels.
L'algorithme de contrôle a deux modes en fonction
ne fonctionne pas bien pour les cas où le fond contient
de la valeur de n. Si n" 1, les valeurs seuils
une texture légère, car les valeurs de gris de ces détails
obtenues à partir des algorithmes SDM et TBM sont
non désirés dépassent facilement les valeurs seuils. Il en
directement combinées. Si n' 1, les valeurs seuils des
résulte un post-traitement coûteux, comme le montre la
pixels non de base sont calculées en u t i l i s a n t les
réf. [19].
valeurs seuils environnantes.
Dans notre modi" cation, un seuil est calculé avec
Nous avons deux options pour calculer les seuils de
la g a m m e dynamique de l'écart type, R. En outre, la
pixels hors base : l'interpolation bilinéaire et la moyenne
moyenne locale est utilisée pour multiplier les termes R
simple. Dans la méthode d'interpolation, la valeur seuil
et une valeur "xed" k. Cela a pour effet d'amplifier la
d'un pixel non de base est obtenue en calculant la
contribution de l'écart type de manière adaptative.
distance entre les pixels de base environnants et le pixel
Prenons, par exemple, un texte sombre sur un fond
actuel, et en utilisant ces valeurs comme poids, Fig. 11a.
clair et sale (par exemple, des taches dans une mauvaise
Cette approche donne une valeur seuil plus précise et
copie), Fig. 2. Le m-coef- " cient diminue la v a l e u r
pondérée pour chaque pixel. Dans la méthode de la
seuil dans les zones d'arrière-plan. Cela permet
moyenne simple, la moyenne des quatre n pixels
d'éliminer le e ! ect des taches dans une image à seuil.
environnants est calculée et utilisée comme un seuil "
Dans nos expériences, nous avons utilisé R" 128 avec
nal " pour chaque pixel non de base entre les pixels de
des images à niveau de gris sur 8 bits et k " 0, 5 pour
base sélectionnés, Fig. 11b. Cette approche est utilisée
obtenir de bons résultats. L'algorithme n'est pas trop
pour réduire la charge de calcul et convient à la plupart
sensible à la valeur du paramètre k. Eq. (5) présente la
des images, en particulier à celles qui présentent un bruit
formule de binarisation textuelle.
aléatoire et n supérieur à " ve pixels ".

R
!
)] ,(5)
4. Expériences
où m(x, y) et s(x, y) sont comme dans la formule de
Niblack. R est la plage dynamique de l'écart-type, et le L'algorithme de binarisation proposé a été testé avec
para- mètre k obtient des valeurs positives. La figure 10 la technique d'étalonnage et différents scénarios
montre un exemple

Fig. 10. Exemple de sélection d'un candidat seuil d'un exemple de ligne de balayage.
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33
Fig. 11. Deux choix d'interpolation pour la sélection du seuil des pixels hors base.
2
24 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
0 225}236

Fig. 12. Résultats visuels et numériques sur les algorithmes de comparaison appliqués aux images textuelles éclairées.

même m i n i m e s , mais donnait des résultats


contre plusieurs techniques de binarisation connues dans satisfaisants avec des images de documents à échelle
la littérature [18,20}22]. En utilisant les facteurs de gris relativement propres.
environnementaux (tels que les dégradations di ! erentes) Les tests visuels effectués pour une base de données
et les bases de données de documents et d'images de test d'images de test synthétique étaient basés sur le
disponibles, les résultats des algorithmes ont été évalués classement selon di ! erent
et comparés les uns aux autres, par rapport à la
connaissance de la vérité sur le terrain par des processus
d'évaluation visuelle et d'évaluation des événements de
référence. L'accent a été mis sur les documents à
contenu textuel et sur les documents à contenu multiple,
c'est-à-dire les documents comportant du texte, des
graphiques, des dessins au trait et des demi-teintes. Les
images de test ont été sélectionnées dans une base de
données spéciale de catégories d'images de documents,
comprenant plus de 1000 images de documents classées
par catégories (par exemple article, lettre, mémo, fax,
journal, scientifique, carte, publicité, etc.
Le test numérique et les résultats présentés ont été
obtenus en utilisant des mesures de binarisation mettant
l'accent sur la performance de la binarisation des régions
d'images textuelles. La Fig. 12 présente un exemple de
scène de benchmarking réalisée sur une base de données
de 15 images de documents textuels ayant un éclairage.
Résultats visuels d'un échantillon d'image d'entrée ayant
20% de défaut d'illumination centrée, un exemple de
carte d'image de vérité au sol et les résultats des
algorithmes de binarisation proposés et de comparaison.
Les résultats montrent un bon comportement des
algorithmes de Sauvola, Niblack et Eikvil, lorsque la
limite est fixée à 80% de performance, c'est-à-dire
la limite où la baisse de performance OCR est inférieure
à 10% en utilisant le paquet OCR Caere Omnipage
[24]. Bernsen su ! ered du bruit qui a été introduit dans
l'image binaire du résultat, alors que le seuil d'Eikvil a
d é c i d é q u e certaines des zones les plus sombres
appartiennent aux pixels de l'objet. L'algorithme de
Parker s'adaptait mal aux changements de luminosité,
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
les objectifs fixés pour ce type d'images. L'objectif de
la base de données d'images synthétiques est de
permettre une analyse visuelle de la nature et du
comportement de la technique d'étalonnage dans une
situation donnée, par exemple en matière de
préservation des bords, de préservation de l'uniformité
de l'objet, de changement ou de variation du fond, etc.
Elle vise à faciliter la sélection d'un algorithme adapté
aux conditions environnementales en termes
d'adaptabilité aux changements, de gestion des formes,
de préservation de l'objet, de préservation de
l'homogénéité de la région, etc. Un exemple de
résultats visuels sur des images synthétiques est
présenté à la figure 13.
La figure 13 montre visuellement les résultats de nos
algorithmes, et d'algorithmes comparables, appliqués à
des images synthétiques en niveaux de gris ayant un ou
plusieurs arrière-plans, ob- jects, lignes, directions et
formes conformes à certaines règles simples de réglage
des tests. Comme les images d'entrée en échelle de gris
ont été générées synthétiquement, un ensemble
d'images de vérité de terrain a été généré en se
concentrant sur des zones d'intérêt spécifiques pour
mesurer la performance et le comportement de
l'algorithme. Par conséquent, les résultats de référence
dépendent de la sélection de l'ensemble de vérité au sol
utilisé, c'est-à-dire du groupe de performance cible et
du comportement de l'algorithme. Par exemple, les
critères de vérité au sol de l'uniformité de l'objet et de
la préservation des bords ont été testés en utilisant
l'image de vérité au sol de la figure 13a. Le bord de
l'objet et l'uniformité du fond/de l'objet ont été utilisés
comme critères de pondération, tandis que la distance
euclidienne a été utilisée comme mesure de la distance
entre le résultat et les cartes de pixels de vérité au sol.
La figure 13b montre une situation où l'image
synthétique présente un fond uniformément glissant du
blanc au noir, et de fines lignes, dont la valeur de
l'échelle des gris glisse dans la direction opposée au
fond. Le cri- terium d'évaluation du test a été fixé sur
les lignes de di ! érentiation du fond et l'uniformité du
fond. Comme les résultats dépendent fortement des
objectifs visés par la binarisation,
24 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
2 225}236

Fig. 13. Résultats sur les algorithmes de comparaison appliqués aux images graphiques synthétiques.

Fig. 14. Comparaison globale de la binarisation et des exemples de résultats sur & texte seulement' base
de données de documents.

les résultats sont également présentés visuellement. En algorithmes proposés et des comparaisons avec divers
utilisant les critères d'uniformité et de préservation de la catalogues de documents effectuées dans une vaste base
forme de l'objet, l'algorithme proposé se comporte de de données d'images de documents. Les images de test
manière robuste par rapport à d'autres techniques. Comme comprennent des documents textuels simples avec
la plupart des pixels des images synthétiques sont jugés
par la méthode de contrôle souple, le seuil entre les
objets et les candidats non-objets semble très clair.
La figure 14 montre les résultats de l'analyse
comparative effectuée avec la base de données d'images
textuelles avec de petites quantités de types d'éclairage
et de bruit propres et mixtes. Un exemple de
performance pro" le à la composante de dégradation du
b r u i t est montré pour tous les algorithmes de
comparaison. Le degré de dégradation du bruit présente
le pourcentage de bruit gaussien et aléatoire introduit
dans l'image textuelle, et la performance en utilisant des
mesures combinées de carte de pixels et d'OCR avec des
facteurs de pondération égaux. Les performances des
algorithmes proposés et des algorithmes de
comparaison, à l'exclusion de ceux de Parker, semblent
être suffisantes jusqu'à une pénétration de bruit de 20
%. Le pro" le de performance montre clairement que la
performance des algorithmes de c o m p a r a i s o n c h u t e
entre 20 et 30% de p é n é t r a t i o n , a l o r s q u e
l 'algorithme proposé tolère un bruit important, jusqu'à
45% ayant 80% de seuil de valeur acceptable.
La figure 15 montre les résultats globaux des
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
et sans types ni degrés de dégradation, des documents
aux propriétés textuelles et graphiques mixtes, où les
avantages de l'approche hybride de l'algo- ritme
proposé s o n t clairement visibles. Les méthodes
d'Eikvil et de Niblack ont donné les meilleurs résultats
par rapport à l'algorithme proposé, mais elles se sont
tout de même révélées mal adaptées aux différents
types de dégradation et, par exemple, la taille de la
police utilisée dans les parties textuelles a été
combinée aux caractères. L'algorithme de Bernsen a
donné de bons résultats sur la documentation propre et
a toléré une petite quantité d'un type de défaut.
Lorsque la dégradation était plus importante, la per-
formance de l'algorithme diminuait rapidement, tant au
niveau de l'évaluation visuelle que numérique.
L'algorithme de Parker donne de bons résultats avec
des images de documents propres, mais la qualité du
résultat chute avec une introduction même minime de
documents présentant n'importe quel type de défaut.
Les temps d'exécution de l'algorithme n'ont pas été
mesurés dans cette comparaison, où seule la qualité du
résultat a été comparée aux mesures dans un processus
pondéré (textuel, graphique, caractère). Les temps de
calcul de tous les algorithmes évalués étaient
tolérables, par exemple pour une utilisation comme
étape de prétraitement dans les moteurs de
reconnaissance optique de caractères. L'une des
questions qui se posent lors de l'évaluation
comparative est l'organisation de la paramétrisation.
L'algorithme proposé n'avait aucun paramètre à définir
pendant les tests, alors que Niblack en avait un, et
Bernsen deux, Eikvil
24 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
4 225}236

Fig. 15. Résultats globaux de la binarisation sur la base de données des documents textuels.

avec d'autres algorithmes et la vérité de base) est une


En utilisant la technique d'Otsu avec un paramètre et partie importante du processus de développement de
leur post-traitement avec un paramètre, l ' algorithme l'algorithme. L'algorithme proposé a été soumis à de
de Parker avait quatre p a r a m è t r e s à définir. Chaque vastes tests en utilisant des bases de données d'images de
algorithme avec para- mètres qui nécessitait un réglage test comportant des images de documents textuels,
manuel a été calculé avec des paramètres différents, dont picturaux et synthétiques avec
les résultats ont été évalués et le meilleur a été
sélectionné pour la comparaison présentée dans cet
article. Lorsque l'algorithme nécessite une adaptation
plus importante, le nombre de paramètres à régler
manuellement ne doit pas dépasser deux, sinon la
quantité de travail manuel augmente trop et provoque
une instabilité lorsqu'un prétraitement automatisé est
nécessaire.
Les résultats globaux montrent une bonne évaluation
des performances des algorithmes proposés, Niblack et
Eikvil. La différence entre ces approches réside dans
l'adaptabilité globale, la nécessité d'un réglage manuel, le
domaine et l'environnement de la catégorie de document
cible, où l'algorithme est utilisé, et "en général, le seuil de
performance fixé pour le processus de binarisation. Dans
ce dernier cas, les performances et l'adaptabilité des
algorithmes proposés et de Niblack étaient les plus élevées
dans toutes les catégories de test dans les cas graphiques et
textuels.

5. Conclusions

La binarisation des images de documents est une


tâche de base importante nécessaire dans la plupart des
systèmes d'analyse de documents. La qualité du résultat
de la binarisation a ! ect à la procession ultérieure par o !
ering d'objets pré-segmentés sous une forme précise
(objet/non-objet). Dans cet article, nous proposons une
nouvelle technique pour documenter la binarisation des
images, en utilisant une approche hybride et en prenant
en considération les propriétés des classes de régions de
documents. Notre technique est destinée aux types de
documents génériques qui font également face à des cas
graves de dégradation de type di ! erents. Le résultat de
la validation de la qualité (c'est-à-dire la comparaison
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 2
des vérités de terrain et des dégradations. Les résultats
montrent une bonne adaptation aux différents types de
défauts tels que l'éclairage, le bruit et les changements
de résolution. L'algo- ritme a montré un comportement
robuste dans la plupart des situations de dégradation,
même graves, et s'est bien comporté par rapport aux
techniques de comparaison.

6. Résumé

Cet article présente un nouvel algorithme de


binarisation des images de documents utilisant une
approche adaptative des situations humaines dans
une image. La technique proposée utilise une
analyse rapide de la surface de l'image pour la
sélection et l'adaptation de l'algorithme en fonction
des caractéristiques du document. Le contenu est
utilisé pour sélectionner le type d'algorithme et le
besoin de paramétrisation, le cas échéant, et pour
calculer et proposer la valeur seuil pour chaque ou
chaque nième pixel (approche interpolative). Le
contenu du document est utilisé pour guider le
processus de binarisation : un contenu pictural est
soumis à une analyse de type di ! erent qu'un
contenu textuel. Les dégradations, telles que
l'éclairage et le bruit, sont gérées au sein de chaque
structure d'algorithme afin de "lister" les
imperfections. Les résultats des processus de seuillage
sont combinés à une image binarisée qui peut soit
utiliser une option rapide, c'est-à-dire calculer la
binarisation pour chaque nième pixel et interpoler la
valeur des trois pixels pour les pixels intermédiaires,
soit une option pixel par pixel qui calcule une valeur
de seuil pour chaque pixel séparément. Les tests ont
été effectués sur une vaste base de données d'images
de documents comportant 15 types de documents
différents et un certain nombre d'images
représentatives de chaque type. Chaque image a été
traitée en présence de diverses dégradations di !
erentes afin d'évaluer l'efficacité de l'algorithme
proposé. Les résultats ont été comparés à ceux
obtenus avec certains des algorithmes les plus
connus dans la littérature. L'algorithme proposé a
clairement surpassé ses concurrents et s'est comporté
de manière robuste dans les cas de dégradation
di$cult avec des types de documents di ! erents.
24 J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33 (2000)
6 225}236
Remerciements 10] J.R. Parker, C. Jennings, A.G. Salkauskas, Thresholding
using an illumination model, ICDAR ' 93, J a p a n ,
Nous remercions l'Académie de Finlande et le Centre 1993, pp. 270}273.
de développement technologique pour leur soutien. 11] V.A. Shapiro, P.K. Veleva, V.S. Sgurev, An adaptive
Nous remercions également le Dr. Tapio Seppanen et M. method for image thresholding, Proceedings of the 11th
Sami Nieminen pour leurs contributions. KPR, 1992, pp. 696}699.
12] A. Pikaz, A. Averbuch, Digital image thresholding, based
on topological stable-state, Pattern Recognition 29 (5)
(1996) 829}843.
Références
13] P.V. Henstock, D.M. Chelberg, Automatic gradient thre-
shold determination for edge detection, IEEE Trans.
1] J. Sauvola, M. PietikaK inen, Page segmentation and classi- Image Processing 5 (5) (1996) 784}787.
" cation using fast feature extraction and connectivity 14] W. Chen, C. Wen, C. Yang, A fast two-dimensional en-
anal- ysis, International Conference on Document tropic thresholding algorithm, Pattern Recognition 27 (7)
Analysis and Recognition, ICDAR ' 95, Montreal, (1994) 885}893.
Canada, 1995, pp. 1127}1131. 15] S.D. Yanowitz, A.M. Bruckstein, A new method for image
2] H. Baird, Document image defect models, Proceedings of segmentation, CVGIP 46 (1989) 82}95.
the IAPR Workshop on Syntactic and Structural Pattern 16] S. Nieminen, J. Sauvola, T. SeppaK nen, M. PietikaK inen,
Recognition, 1990, pp. 38}46. A benchmarking system for document analysis
3] L. O' Gorman, Binarization and m u l t i t h r e s h o l d i n g algorithms, Proc. SPIE 3305 Document Recognition V
of document images u s i n g connectivity, CVGIP : 3305 (1998)
G r a p h . Models Image Processing 56 (6) (1994) 100}111.
496}506.
[17] S.T. Welstead, Neural Network and Fuzzy Logic
4] Y. Liu, R. Fenrich, S.N. Srihari, An object attribute thre-
Applications in C/C##, Wiley, New York, 1994, p.
sholding algorithm for document image binarization, In-
494.
ternational Conference on Document Analysis and
18] W. Niblack, An Introduction to Image Processing, Pren-
Recog- nition, ICDAR ' 93, Japan, 1993, pp. 278}281.
tice-Hall, Englewood Cli ! s, NJ, 1986, pp. 115}116.
5] J. Yang, Y. Chen, W. Hsu, Adaptive thresholding algo-
19] O.D. Trier, A.K. Jain, Goal-directed evaluation of binari-
rithm and its hardware implementation, Pattern Recogni-
zation methods, IEEE Trans. Pattern Anal. Mach. Intell.
tion Lett. 15 (2) (1994) 141}150.
17 (12) (1995) 1191}1201.
6] M. Chang, S. Kang, W. Rho, H. Kim, D, Kim, Improved
20] L. Eikvil, T. Taxt, K. Moen, A fast adaptive method for
binarization algorithm for document image by histogram
binarization of document images, International Confer-
and edge detection, International Conference for Docu-
ence on Document Analysis and Recognition, ICDAR '
ment Analysis and Recognition ICDAR ' 95, Montreal,
91, France, 1991, pp. 435}443.
Canada, 1995, pp. 636}643.
21] J. Bernsen, Dynamic thresholding of gray-level images,
7] T. Pavlidis, Threshold selection using second derivatives of
Proceedings of the Eighth ICPR, 1986, pp. 1251}1255.
the gray scale image, International Conference on Docu-
22] J. Parker, Gray level thresholding on badly illuminated
ment Analysis and Recognition, ICDAR ' 93, Japan,
images, IEEE Trans. Pattern Anal. Mach. Intell. 13 (8)
1993, pp. 274}277.
(1991) 813}819.
8] A. Rosenfeld, R.C. Smith, Thresholding using relaxation,
[23] J. Sauvola, S. Haapakoski, H. Kauniskangas, T. SeppaK
IEEE Trans. Pattern Anal. Mach. Intell. PAMI-3 (5) nen,
(1981) 598}606. M. PietikaK inen, D. Doermann, A distributed
9] A. Perez, R.C. Gonzalez, An erative thresholding algo- management system for testing document image analysis
rithm for image segmentation, IEEE Trans. Pattern Anal. algorithms, 4e ICDAR, Allemagne, 1997, pp. 989}995.
Mach. Intell. PAMI-9 (6) (1987) 742}751. 24] Caere Ominpage OCR, Manuel de l'utilisateur, Caere Corp,
1997.

À propos de l'auteur*JAAKKO SAUVOLA est professeur et directeur du groupe de recherche Media Team à l'université d'Oulu,
Finlande, et membre de la faculté a$liated du laboratoire LAMP, Centre de recherche en automatisation, université du Maryland,
États-Unis. Le Dr Sauvola est également directeur de recherche chez Nokia Telecommunications, où ses responsabilités couvrent les
services de téléphonie à valeur ajoutée. M. Sauvola est membre de plusieurs comités et programmes scientifiques. Ses recherches
portent notamment sur l'intégration téléphonie-informatique, l'analyse des médias, le multimédia mobile, la téléphonie multimédia et
les systèmes de récupération de contenu.

À propos de l'auteur*MATTI PIETIKAG INEN a obtenu son doctorat en technologie en génie électrique à l'université d'Oulu, en
Finlande, en 1982. De 1980 à 1981 et de 1984 à 1985, il a été chercheur invité au laboratoire de vision par ordinateur de l'université du
Maryland, aux États-Unis. Actuellement, il est professeur de technologie de l'information, directeur scientifique du centre de recherche
Infotech Oulu et directeur du groupe de vision artificielle et de traitement des médias à l 'université de Oulu. Ses intérêts de
recherche couvrent divers aspects de l'analyse d'images et de la vision artificielle, y compris l'analyse de texture, la vision artificielle
en couleur et l'analyse de documents. Ses recherches ont été largement publiées dans des revues, des livres et des conférences. Il a été
l'éditeur (avec L.F. Pau) du livre "Machine Vision for Advanced Productiona", publié par World Scienti" c en 1996. Le professeur
PietikaK inen est l'un des membres fondateurs de l'Association internationale pour la reconnaissance des formes (IAPR) et un membre
senior de l'IEEE, et il est membre du conseil d'administration de l'IAPR. Il fait également partie des comités de programme de
J. Sauvola, M. Pietika( inen / Reconnaissance des modèles 33
plusieurs conférences internationales.
2

Vous aimerez peut-être aussi