Ri 6

reconnaissance de l’écrit
interprétation des images

de documents
PLAN
1 Les étapes du processus de reconnaissance
Aujourd’hui 2 Numérisation
3 Segmentation
4 Caractérisation
5 Reconnaissance de formes
6 Traitement contextuel
7 Reconnaissance de structures
Reconnaissance de l’écrit et
Analyse des images de documents
Objectif : Analyser,Reconnaître et indexer les documents de
toute nature
« Large champs d'expérimentation
de la Reconnaissance de Formes »
Quatre domaines d’applications:
Lecture de textes imprimés (caractères industriels, textes
dans les vidéos, documents imprimés, pièces de monnaie…)
Reconnaissance de textes manuscrits on/off-line
Reconnaissance des structures des documents
Analyse de documents divers (Plans du cadastre,
plans mécaniques..)
Applications diverses mais des méthodes communes
et des difficultés différentes  connaissance « métier »
Intégrer des connaissances « métier » (1)
Un document est destiné a communiquer un message
Pour faciliter la compréhension, Il y a eut très tôt des efforts de
normalisation des documents avec un certain nombre de
conventions :
sur le langage
sur les formes de caractères
sur la typographie (style, fonte, mise en page…)
sur les structures des documents
Suivant la fonction du document, il existe des conventions
d’écriture et de présentation qui sont différents
 Nécessité de reconnaître le type de document
Classification automatique
du type de document
Images
imprimés manuscrits schémas vidéos
typographie sans Hors-ligne en-ligne

riche et typographie
récurrente Contraint ou Libre
vocabulaire
limité
Texte Texte
Tables Authentification indication Texte
structuré faiblement
au km
structuré
Signature
style Courrier ancien
Sommaires Dictionnaires Texte au
tableaux annuaires kilomètre Textes Saisie moderne
Formulaires Listing, livres anciens commande
Schémas Images
vidéos
Manuscrit Imprimé Images vidéos
Texte Texte/ Incrustées Texte scène

séparé graphique
mélangé
Indexation Archives Vidéo-
Plans Plans pages web cinéma et surveillance
cadastraux mécaniques télévision
Vision
Cartes Schémas Numismatique,
géographiques électroniques industrielle archéologie
Les travaux d’un chercheur commencent au niveau du type
prédéfini de documents pour une application donnée.
Peu de travaux sur l’identification du type de document pour

appliquer une reconnaissance adaptée
(séparation manuscrit/imprimé, image/texte, texte/formules,
texte/schéma…)
première étape du processus : La Modélisation
Choix des critères est essentiel !
4 exemples de critères différents pour séparer :

texte/image texte/formule texte/vidéo texte/schéma
Exemple 1 : Choix d’un critère de Séparation texte/image
Critère : Un texte est constitué d’alignements de caractères
Erreurs de segmentation
Méconnaissance des difficultés réelles

Exemple 2 : Choix d’un critère de Séparation texte/formule
Critère 1: Une formule est constituée de blocs isolés du texte
Critère insuffisant !
Exemple 2 : Choix d’un critère de Séparation texte/formule
Critère 2: Une Formule se reconnaît du texte parce qu’elle est
constituée :
 de blocs isolés du texte
 ou bien d’éléments dans le texte, autour de
marqueurs (‘=‘,’<‘,’[‘,’]’,chiffres,lettres grecques,mots-clés
comme ‘suite’, ‘fonction’..)
 ou bien d’éléments que l’on retrouve dans une
grosse formule
Critère suffisant
Exemple 3 : Choix d’un critère de Séparation texte/schéma
Critère : Le texte est constitué d’éléments connexes isolés de
grands traits
Critère insuffisant ! Critère insuffisant !

Critère suffisant
Exemple 4 : Choix d’un critère de séparation texte/vidéo
Critère : Le texte est constitué d’éléments connexes alignés et de
même couleur qui apparaissent sur plusieurs images consécutives
Critère insuffisant !
Critère suffisant
Le processus d’extraction de l’information (1)
Un processus d’interprétation des images de documents se
décompose en étapes qui sont fortement liées
Numérisation
Segmentation
caractérisation
Reconnaissance
de formes
Reconnaissance
contextuelle
La Structure
Contexte typographique
Contexte textuel
Europe
Bosnia: A Painful Joy by Rod Nordland
OCR
Contexte syntaxique
Bosnia Painful job
Bossing Painfully joy
Contexte logique
texte,résumé,auteur,renvoi,n° page,photo,titre...
Contexte général
Sommaire?article?lettre?livre?page de journal?
Contexte
typographique
Contexte Contexte
textuel syntaxique
Contexte Structure
Général logique
Contexte
logique
Utiliser un maximum d’information, à tous les niveaux

Problème : Les informations sont interdépendantes !
Approche en fonction du niveau sémantique
Descendante : Des connaissances aux données
Ascendante : Des données aux connaissances
Mixte : Aller-retour entre les niveaux
Approche descendante
Connaissances générales
Connaissances particulières à un type de document
structure logique et fonctionnelle
Reconnaissance sémantique
Reconnaissance adaptée du texte
Reconnaissance
Syntaxe
Reconnaissance de caractères
typographie
Structure physique
Segmentation
Pixels
Approche ascendante Approche Mixte
Cycle perceptif
Modèles de documents
Evaluation de cohérence
Regroupement de Interne Externe
formes en objet
Remise en cause
Reconnaissance Emission Validation de segmentation
de formes d'hypothèse d'hypothèse
Recherche d'éléments
Segmentation caractéristiques d'un
objet
Image
Maitriser la complexité
Intégrer traitement d ’images, reconnaissance de formes
Langages, modélisation, processus interactifs,
Maîtriser la reconnaissance comme un processus
Apprentissage, cycles perceptifs, pile de connaissance,
Système réparti type multi-agent, combinaison de méthodes
Intégrer des connaissances « métier »
Acquisition, Modélisation, constitution de base

d’apprentissage et de corpus d’analyse
Implémenter et valider  Malgré une bonne modélisation, le

processus n’est peut être pas implémentable !!!
Numérisation
Numérisation des documents
Une image numérique de document est une représentation discrète plus
ou moins fidèle suivant la résolution du scanner, le nombre de couleurs
utilisé et le nombre de transformations qui précèdent.
Document Imprimé Photocopie Fax Image
Echantillonnage Echantillonnage Echantillonnage Echantillonnage
La théorie de la numérisation (1)
Combien de formes binaires obtient t’on en déplaçant la
grille de numérisation ?
Pour une forme numérisée avec la grille précédente, combien de nouvelles
formes trouvent on avec une seconde grille de numérisation qui a un pas
d’échantillonnage différent ?
(exemple : scanner un document imprimé ou photocopier un fax…)
Pour chaque forme obtenues

précédemment on doit multiplier par le
nombre de nouvelles formes trouvées
avec la seconde grille de numérisation !
Le nombre de combinaisons de formes possibles augmente en
fonction de :
la complexité des formes,
du pas d’échantillonnage de la grille
du nombre de grilles superposées
Remarque Certains pixels apparaissent toujours dans toutes les

grilles !
Pixels toujours présents

La numérisation ne conserve pas la topologie des formes :
La numérisation d’un caractère ‘e’ de police ‘Times’ dans une grille 10x10
produit 196 formes différentes dont plus de la moitié font apparaître une
rupture de tracée ou un remplissage des boucles.
20% de ces formes ressemblent plus aux caractères ‘c’ et ‘o’ qu’au
caractère ‘e’
Quelles sont les fréquences d’apparition de chaque forme ?
Le Modulogramme permet à la fois de connaître le nombre de formes et la

fréquence d’apparition de chacune d’entre elles
Forme continue originale
Nombres de formes différentes
Modulogrid Forme numérisée obtenues et sa
fréquence d’apparition
Le nombre de formes augmente avec l’accroissement
de la résolution !
10 formes
la surface de chaque zone de recouvrement

correspond à la fréquence d’apparition d’une forme
26 formes
la superposition exacte de toutes

les formes (stack) permettrait de
retrouver la forme originale
54 formes
Géométrie discrète : du continu au discret
La numérisation est le résultat d’une discrétisation d’une forme continue A par
une grille d’échantillonnage de taille r et qui se déplace avec un décalage s
avec ||s||<r Dig (A,r,s ) = A Grid(r,s) 1
s r Grid (r,s) 1
A Dig(A,r,s)
Une forme est régulière si on peut placer, en chaque point du contour, deux
disques parallèles de rayon r , respectivement à l’intérieur et à l’extérieur.
Forme Formes
régulière irrégulières
Théorème de conservation des formes
Si la forme est régulière, alors la distance de Hamming entre la forme numérisée
et la forme originale est inférieure à 1 pixel et la topologie est conservée
dH( A , Dig(A,r,s) ) 1
Si cette distance est supérieure à 1 pixel alors la forme originale était irrégulière
et sa topologie est définitivement perdue ! 1
s r
1
r 2
2
A
Dig(A,r,s)
dH(A,Dig(A,r,s)) r Dans l'espace continu IR2 dH(A,Dig(A,r,s)) 1 Dans l'espace discret IN2
dE(A,Dig(A,r,s))  2 Dans l'espace discret IN2
Distance de Hamming : d H ((xa , ya ),(xb , yb )) = Max  xa - xb , ya - yb 
: d E ((xa , ya ),(xb , yb ) ) = ( xa - xb ) + ( ya - yb )
2 2
Distance de Euclidienne
Conséquences
Les pixels qui se retrouvent dans toutes les formes numérisées
différentes Dig(A,r,s) appartiennent à l’intérieur de la forme
originale Int(A)
Les pixels qui apparaissent occasionnellement dans certaines
des formes numérisées Dig(A,r,s) appartiennent soit à une
partie irrégulière de A, soit au contour de Int(A)
Pixels qui se retrouvent

dans toutes les formes
numérisées
=Intérieur de A ou Int(A)
Pixels qui apparaissent

occasionnellement plus
fréquemment
Pixels qui apparaissent
très rarement
Reconstruction théorique de la forme continue
A partir d’un certains nombre

de formes trouvées dans un
document, peut on
reconstruire la forme originale
des caractères ?
Limitations de la reconstruction
Plus la résolution est faible ( donc r est grand) plus une forme présente de
parties irrégulières, plus les déplacements de la grille sont possibles (s[0,r[)
et plus nombreuses sont les formes produites par la numérisation !
les parties irrégulières d’une forme ne peuvent pas être reconstruites
Règle d’or
Toujours utiliser la résolution la plus élevée possible!
C’est à dire plus d’information…
Tous les systèmes d’analyse de documents numérisés
(reconnaissance des caractères, des structures, indexation…) sont
sensibles à la résolution des images
La vision humaine n’est pas sensible à la résolution des images
Exemple :
Résolution : Donné en dpi ou ppi (nb de points par pouce)

il définit le nombre de pixels réels par unité de mesure
Rééchantillonnage
Le sur-échantillonnage (up sampling) n’est pas une solution,
car il y a introduction d’une information artificielle qui n’existait
pas dans l’image originale
Rééchantillonage
Sur un scanner, on peut à la fois définir la résolution du scanner et le

facteur d’échelle
le facteur d’échelle fixe le rééchantillonnage du signal provenant du
capteur CCD pour obtenir une image de taille désirée
Capteur CCD de Rééchantillonnage

résolution optique R suivant le facteur
d’échelle demandé
◆Toujours fixer la résolution à la résolution optique du scanner
◆ Fixer le facteur d’échelle inférieur ou égal à 100%
◆ Ne jamais sur échantillonner une image
◆ Seule la résolution optique d’un scanner est importante
(pas la résolution interpolée…)
Mais le processus de numérisation est un processus plus
complexe qui fait intervenir plusieurs transformations :
T2 Eclairage T3
Capteur CCD
Papier imprimé
Optique
T4
T1 T1: impression
T2: rayonnements Image couleur
Modèle vectoriel T3 déformation optique T5
de caractère T4 échantillonnage
(formes continues) T5 Binarisation Image binaire
Sans compter les nombreuses grilles d’échantillonnage
qui peuvent se superposées !
Document Imprimé Photocopie Fax Image
Echantillonnage Echantillonnage Echantillonnage Echantillonnage
Aspect plus réaliste de la Numérisation (1)
0 0 10 25 2 0 0 0 0 56 36 0 0 0
0 93 250 255 132 64 10 0 153 255 232 128 43 0
12 220 255 255 255 255 182 128 220 255 255 255 251 7
8 250 182 175 212 203 127 145 245 190 180 240 156 3
0 10 0 0 0 3 0 0 4 0 0 0 1 0
Quantification en niveaux de gris suivant le placement aléatoire de la grille
Résultat d’une binarisation suivant le placement de la grille

Le processus de numérisation est si complexe qu’il peut être difficilement
modélisé
Théoriquement, le processus de numérisation conduit à des déformations le
long des contours des caractères (frontières) et sur les parties irrégulières
(parties de taille inférieure à celle d’un pixel)
Bord Probabilité de déformation (flip) en

100% fonction de l’éloignement du bord
des caractères
4 3 21 0 1 2 3 4
Distance en pixels du bord des formes
En pratique, à cause des nombreuses transformations de l’information,

de la superposition de plusieurs grilles successives (impression, photocopie,
fax, digitalisation, ré échantillonnage…) et des nombreux facteurs qui
entrent en jeu (éclairage, résolutions des grilles, fonction de transfert du CCD,
seuil de binarisation…), la probabilité de bruit en fonction de la distance
des bords des caractères suit une loi inconnue.
Bord
100%
Probabilité de déformation (flip) en
fonction de l’éloignement du bord
des caractères
54 3 21 0 1 2 3 4 5
Distance en pixels du bord des formes
Pourquoi quelques pixels sont importants ?
Parce que la grande majorité des formes que l’on analyse
n’excèdent pas 30 pixels de haut sur 20 pixels de large !
20 à 40% de l’information totale, qui est située sur les
contours intérieurs et extérieurs des formes, est modifiée
aléatoirement par le processus de numérisation
L’absence de quelques pixels transforme l’apparence des
caractères jusqu’à la confusion, provoque des collages ou des
troncatures des caractères (perte de topologie)
troncature
Confusion pour l’OCR

collage
Conséquences (1)
Problèmes :
Segmentation,
 Reconnaissance Optique des Caractères
 Analyse de la typographie des caractères,
 La compression par substitution (JBIG)
Traces résiduelles laissées par la compression utilisant la redondance de forme

En vidéo …
Modèle de dégradation des caractères
Pourquoi faire ?
Générer automatiquement une grande quantité de formes
possibles de caractères à partir des formes idéales des
caractères.
La constitution d’une base d’exemple pour l’apprentissage
constitue un problème important pour la robustesse des OCR!
Modéliser le bruit permettrait de prédire les déformations des
formes de caractères 100%
0+ 
Exemple : modèle à 6 paramètres
sur une loi exponentielle

P ( ( 0 |1) , d ,0 , ,  ) = 0e − d + 
2
d
d = Distance en pixels des contours
P ( (1| 0 ) , d , 0 ,  ,  ) = 0e−  d + 
2
+ 1 paramètre pour la résolution

Une infinité de modèles de déformations!
Quel est le bon modèle de dégradation ?
La validation des modèles n’est pas évidente
Les formes générées ne sont pas forcément celles qui
existent en réalité
Les formes observables représentent une faible quantité
Ensemble des formes
observables
Ensemble des formes Ensemble des formes

Ensemble des formes générées par le modèle générées par le modèle
réelles de caractères de dégradation n°1 de dégradation n°2
Traitements des images
Traitement des images de documents
Le traitement des images est marginal car l’objectif est d’abord de
reconnaître le contenu des images avec un maximum d’information donc
avec un minimum de modification de la source.
Toutefois quelques traitements sont autorisés dans les cas extrêmes.
Correction géométrique
inclinaison, courbure…
Correction des images couleurs et niveaux de gris
Toute les opérations possible en traitement d’image
(rarement utilisées sauf pour la segmentation et la caractérisation !)
Correction des images binaires
Quelques tentatives de restauration des caractères
Restauration d’image (part 1)
Correction de la courbure et de l’inclinaison des images
Mesurer la déformation géométrique (suivi des lignes te texte, profil
de luminance (si position de l’éclairage connu), de l’ombre de la reliure…)
255 Luminance
0
Largeur du livre X
Normale
Courbure
Corriger l’image (rotation, wrapping)
Source
Déplacement
Destination
Pour plus d’information voir E. Trinh

Restauration d’images binaires (1)
Le filtre de restauration des caractères ne peut pas s’appliquer aux illustrations !
 Il faut séparer le texte des illustrations pour

appliquer le filtre que sur des zones de texte
Application de masques binaires Si alors
Pixels isolés
traits Verticaux
Réparation rupture
Ect…
Au lieu d’essayer de trouver toutes les formes possibles
de caractères , pourquoi ne pas restaurer les formes de
caractères avant de les soumettre à un OCR ?
Ajustement Comparaison
Restauration
des caractères
OCR
voir B. Allier
Squeletisation, mesure de Reconstruction de

l’épaisseur des traits l’épaisseur des traits
Segmentation des formes
Qu’est ce qu’une segmentation ?
Opération fondamentale qui consiste à séparer une forme
du reste de l’image.
Niveaux de gris
Hauteur
Pourquoi segmenter ?
Parce que la très grande majorité des outils de reconnaissance

utilise des images segmentées pour analyser les formes
Peu de méthodes pour analyser une forme directement dans
l’image couleur ou en nuance de gris
Segmentation
Une bonne segmentation est déjà une étape importante pour
la reconnaissance !!!!
« c’est toujours la segmentation qui m… »
Une segmentation est un traitement irréversible car c’est le
résultat d’une interprétation suivant un critère et une méthode.
Les images non segmentées conservent toute l’information
Toute segmentation est le produit d’un choix d’une méthode et
de ses paramètres !
Plusieurs méthodes de segmentation :
suivant la couleur (seuillage)
 à partir d’analyse de formes
à partir de connaissances
Segmentation par seuillage
C’est la méthode la plus simple et la plus utilisée
Il y a une relation entre les niveaux de gris d’un
pixel et son appartenance ou non à une forme
Niveaux
de gris 0 255
Mais cette relation n’est pas toujours évidente :

La preuve : Bibliothèque Gallica (BNF)
Seuil global fixe
Image à niveaux de gris seuil trop bas seuil trop haut
0 255 0 255 0 255
Texte Certaines nuances de gris se retrouvent

Support simultanément dans le fond et la forme
Seuil Automatique
Seuil global automatique calculé à partir de l’histogramme
de l’image
Méthode de Fisher. Fait l’hypothèse que l’histogramme est la
mixture de deux distributions gaussiennes (lois normales)
Fréquences Seuil S
dans l’image m0 m1
m0 La position moyenne de la première distribution

m1 La position moyenne de la seconde distribution
M Le poids total de l’ histogramme
W Le poids de la première distribution
W M-W
Nuances de gris
W W
Maximise : S = (1 − )( m1 − m0 ) 2
M
  
M
Poids de Poids
la forme du fond Distance entre les pics
Méthode entropique détermine un seuil à partir de l’entropie
maximale de la distributions des niveaux de gris hi (Histogramme)
   hi  Ln(hi )  hi  Ln(hi ) 
    
S = Arg max  Ln  hi   hi  −  i  S + iS 
s[ 0..255 ]   i  S iS  

 hi  hi 

 iS iS
Inconvénient d’un seuil global

Seuil Adaptatif
On définit un seuil pour chaque pixel en fonction de son
voisinage
Exemple : Le Niblack S =m+k² avec k=-0,2
m : moyenne et  : l’écart-type
seuil
Seuil Adaptatif
l'image est découpée en bloc NxN puis pour chaque bloc on calcul un
seuil automatique par Fisher ou avec une approche entropique
S1 S2
dx
dy
S4 S3
Puis on calcul le seuil de chaque pixel avec une moyenne pondérée des
seuils locaux des blocs voisins en fonction de leurs distances
S ( x, y ) = dx.dy.S1 + dx.(1 − dy ).S2 + (1 − dx ).dy.S3 + (1 − dx )(1 − dy ).S4

Seuil à partir des contours
Une image est une fonction discrète de 2 variables Z=f(x,y)
où Z représente la valeur du pixel (x,y)
 f 
x
f =  
 f 
 y
 
Le vecteur gradient f permet d’étudier les variations dans une image

Approximation grossière du gradient par dérivation
f ( x0 , y0 ) f ( x0 + h, y0 ) − f ( x0 , y0 )
= Lim  f ( x0 + 1, y0 ) − f ( x0 , y0 )
x h − 0 h
f ( x 0 , y0 ) f ( x 0 , y0 + k ) − f ( x 0 , y0 )  f ( x , y + 1) − f ( x , y )
= Lim 0 0 0 0
y k − 0 k
Détection des contours par le Gradient
 f 
 
Norme du gradient Orientation du gradient  = tan  y 
−1
 f 
(Niveau du contour)  
 x 
2
f +
2
 f   f 
f =   +   
 x   y 
f -
f ( x, y )  f ( x + 1, y ) − f ( x, y ) + f ( x, y + 1) − f ( x, y )
Les contours servent à caractériser

une forme dans une image couleur
ou niveaux de gris
Détection des contours par le Laplacien
f(x) Image originale
f Dérivée première
x
 2f Dérivée Seconde
x 2
Les dérivées Secondes se calculent par la dérivation de l’image dérivé
f f
( x − 1, y)  f ( x − 1, y) − f ( x, y) ( x, y)  f ( x, y) − f ( x +1, y)
x x
 2f f f
( x, y)  ( x − 1, y) − ( x, y)  f ( x − 1, y) − f ( x, y) − f ( x, y) + f ( x + 1, y)
x 2 x x
2f
( x, y )  f ( x − 1, y ) − 2  f ( x, y ) + f ( x + 1, y )
x 2
2f
( x, y )  f ( x, y − 1) − 2  f ( x, y ) + f ( x, y + 1)
 y2
2f 2f
f = +  f ( x − 1, y ) + f ( x + 1, y ) + f ( x, y − 1) + f ( x, y + 1) − 4  f ( x, y )
 x2  y2
Seuillage adaptatif par les contours
0 si || f || <T
S(x,y) =
+ si || f || >T et  f >0
- si || f || >T et  f <0
Remplir tous ce qui est entre - + ..0.. + -
Toujours pas de scanners a seuillage adaptatif grand public
(recherche du plus bas prix donc pas de processeur embarqué )
Segmentation à partir de connaissances
Il s’agit d’utiliser des connaissances a priori pour segmenter
les images de texte avec un degré plus élevé de connaissance
Il s’agit de faire un bouclage d’information entre le processus

de segmentation et de caractérisation
Segmentation caractérisation Interprétation
A partir de la seule segmentation/caractérisation on peut aller plus

loin vers l’interprétation
(séparation texte/graphique, texte/math…)
Bouclage entre segmentation/caractérisation/interprétation
Segmentation par caractérisation du texte
Une zone de texte est une région de l’image présentant une
très forte densité de traits qui forment des alignements à
une échelle donnée.
Problème d’échelle : comment connaître la taille des

caractères a priori ?
Le problème du seuil de détection : A partir de quel seuil de
densité de traits faut-il décider de la présence d’un bloc de texte ?
Le problème de l’alignement : Comment connaître a priori
l’orientation du texte ? (nécessite la correction de la courbure)
Les Méthodes possibles de détection:
Filtre de texture, filtre morphologique, filtre fréquentiel, Filtre
directionnel (Gabor), détection par apprentissage (Markov
Random Field)…
Segmentation par analyse de formes (1)
Morphologie mathématique est une science qui s’intéresse

à analyser les formes dans les images, pour les caractériser,
les détecter, les mesurer.
Cette science s’appuie sur la théorie mathématique
ensembliste, la géométrie discrète et la topologie
Il s’agit de comparer les objets à un autre objet de forme
connue B (élément structurant) à l’aide de transformations
dont les résultats sont de nouvelles images
Les principales opérations sont les érosions et les dilatations

d’une image par un élément structurant B
DB(X) : Dilatation de X est l’image Y des points de X qui ont
une intersection non vide avec B
EB(X) : Erosion de X est l’image Y des points de X qui ont une
intersection vide avec B
D B ( X ) =  X / B  X   E ( X ) =  X / B  X = 
B
Erosion et Dilatation sont des opérations duales :

( X ) = (E ( X ))
c
B B c
D
Erosion Dilatation
Traitements itératifs (exemple : érosions itératives)
Squelettes
L’ensemble les points situés à
équidistance de deux points du bord
L’ensemble des centres des boules
maximales incluses dans la forme
Les squelettes sont calculées par
érosion morphologique
Changement d’élément structurant
(élément structurant ligne/colonne)
La position du centre de l’élément structurant est
importante pour la symétrie de la transformation
Élément structurant non symétrique
Un élément structurant ‘ligne’ érode les parties de dont la

largeur est inférieure à la taille de l’élément structurant
Morphologie mathématique sur les images à niveaux de gris
255
Erosion Dilatation
E B ( f ( x ) ) = Min  f ( x ) , x  B
D B ( f ( x ) ) = Max  f ( x ) , x  B
Morphologie mathématique sur les images à niveaux de gris
Ouverture = Erosion suivie d’une dilatation avec le même élément
Fermeture = Dilatation suivie d’une érosion avec le même élément
O B
( f ( x )) = D ( E ( f ( x )))
B B
(
F B ( f ( x )) = E B D B ( f ( x )) )
Transformation en chapeau haute forme (Top Hat):
F B ( f ( x )) − f ( x )
et f ( x ) − O B ( f ( x ))
La fermeture nivelle les crêtes étroites
L’ouverture nivelle les vallées étroites
La Fermeture moins l’image originale met en valeur les crêtes
L’image originale moins l’ouverture met en valeur les vallées
Les images de texte sont des images de traits , elles peuvent
donc être traités efficacement par morphologie mathématique
Exemple d’opération « chapeau Haut de Forme »

Morphologie avec un élément structurant ligne et colonne
pour trouver les traits caractéristiques des caractères
(caractérisation d’une forme en niveaux de gris)
Segmentation par seuillage , échec de reconnaissance
Détection des traits verticaux , Détection des traits horizontaux

Séparation texte/image (1)
Une zone de texte est une concentration de pixels noirs
Ce filtre réagit positivement si il existe dans un
voisinage carré x x y au moins un pixel noir
~ i  y j  x
G( m , n ) = 1 si   f ( m  x + j , n  y + i )  0
 i =0 j =0
~
G( m , n ) = 0 sin on
Segmentation obtenue Filtre de réponse G

Image binaire Résultat du filtrage

Détection des alignements par morphologie Résultat de la segmentation

Analyse en binaire << Analyse en niveaux de gris

Séparation Texte/image (5)
Ce Filtre répond à une concentration de fortes variations
de l’ intensité lumineuse de l’image dans un voisinage V
Les fortes variations sont mesurées par les dérivées partielles

 Faible complexité de calcul, vitesse élevée de traitement (10’’)
 La taille du voisinage est définie par l’échelle d’analyse.
 Le résultat du filtre est normalisé par la surface du voisinage
puis comparé à une seuil global.
 Pour les images numériques, on effectue une double sommation
de dérivées d’ordre 1 dans la direction de l’orientation du texte
Texte Contours (dérivées) Intégration des dérivées
Nécessité de corriger le résultat du filtrage par morphologie pour
reconstituer les lignes (filtre de détection d’alignements)
Image originale Résultat du filtre G Détection des lignes

par morphologie
Image originale Résultat du filtre

Détection des alignements par morphologie Résultat de la segmentation

Séparation Texte/image : les limites (9)
Limitations: Un critère de segmentation à partir des seules
informations issues de l’image n’est pas toujours suffisant !
 Trouver d’autres critères sémantiquement plus évolués
Séparation Texte/illustration (part 8)
Séparation Texte/graphique par des opérateurs de morphologie
par IST–Lisbonne (non utilisé à cause des temps de calculs)
Graphique Texte
Segmentation à partir de l’interprétation
Critère d’extraction : le taux de redondance des formes
de caractères
Une segmentation inadaptée produit des caractères collés ou
l’apparition du verso sur le recto ou des caractères cassés.
Une segmentation optimale correspond à un taux maximal de
redondance des formes de caractères !
Segmentation à partir de connaissances (3)
Modélisation stochastique avec des champs de Markov
La classification d’un pixel dépend de celle des pixels

voisins dans une configuration donnée
On réalise un apprentissage pour toutes les configurations
pertinentes de voisinages à partir des observations de
dépendance entre des images originales et segmentées
Une segmentation par les MRFs permet d’utiliser ces
connaissances pour reconstruire l’information qui n’est pas
seulement représentée par les nuances de gris
Inconvénients (prendre contact avec C. Wolf)
Très très long (des dizaines d’heures de calcul !)
Nécessite une large base d’apprentissage !
 L’apprentissage est lié à une résolution et un type
de fonte de caractère et de style
Exemple
Image à niveaux de gris Image binaire par seuillage adaptatif
Image binaire filtrée du bruit Reconstruction par morphologie
Caractérisation des formes
Caractérisation des formes
Analyse direct des images à niveaux de gris
Il est préférable d’analyser directement les images en
niveaux de gris et en couleurs pour la segmentation et la
reconnaissance , mais c’est beaucoup plus difficile…
Extraction directe à partir des informations en

niveaux de gis :
ULM 97
Extraction de la typographie (Toumit DEA ppt)

2. O.C.R
Evolution de l’OCR à la dématérialisation
Domaine d’application de la Reconnaissance des Formes par excellence
Années 70, grandes entreprises et des administrations

(chèques, courrier, formulaires administratifs).
Années 80, Premiers logiciels OCR pour l’utilisation personnelle

(systèmes monofontes avec segmentation manuelle des zones de textes et apprentissage)
Années 90, Vulgarisation des logiciels OCR, amélioration des OCR

(localisation automatique des zones de texte, systèmes multifontes et omnifontes,
reconnaissance dans les images à niveaux de gris, traitement des caractères dégradés
des fax ou des photocopies, textes manuscrits avec dictionnaire, apparition de l’ICR )
Document et Réseaux
Années 2000, Croissance de la demande en dématérialisation

(bibliothèques,centres de documentations, administration et entreprises pour Internet).
Combinaisons de moteurs OCR, amélioration des performances en manuscrit
Apparition des logiciels de reconnaissance des structures des documents,
Multiplication des applications
(indexation des vidéo, documents scientifiques et techniques, plans, partitions
musicales…).
Vers une indexation automatique pour les bases documentaires en réseau.
Convergence vers des formats de représentations comme XML.
Les limites actuelles des OCR
La lecture du manuscrit
structure logique des documents
lecture de documents complexes en couleur (Journaux,périodiques..)
lecture de documents anciens comme les vieux imprimés
Indexation des documents et archivage (lecture des sommaires)
Lecture de documents spécifiques (revues de mathématiques,

plans mécaniques, partitions musicales...)
Reconnaissance des polices de caractères et du style
Reconnaissance des textes bruités (caractères collés ou coupés ),

fax, imprimés dégradés
Structures complexes ( tableaux, sommaires..)
Reconnaissance optique de caractères industriels sans contexte

pour concurrencer le code à barre
OCR : quelques exemples
Documents scientifiques
Résultat de l’OCR
Texte ancien
Sortie OCR
Séparation texte/graphique réalisée par l’OCR, pas de structures
Les logiciels OCR seront livrés gratuitement avec les scanners. L ’offre
apparaît multiple, mais il n ’existe fait que quelques systèmes originaux
«OCR engine» (calera,textbridge,recognita,cuneiform...) qui portent des
noms différents suivant le fabriquant du scanner ou du logiciel
Les professionnels de la dématérialisation utilisent plusieurs moteurs OCR

différents en parallèle, la décision finale s’effectue avec un vote entre les
différentes réponses.
Les logiciels OCR du marché répondent à une utilisation

occasionnelle par un particulier. Ils sont mal adaptés aux
besoins et aux exigences des bibliothèques !
Les besoins dans les bibliothèques et les centres de documentation

sont multiples. La grande quantité de documents à numériser
requiert des systèmes de lecture automatique très performants
De l’OCR à l’ICR (1)
Pourquoi reconnaître les caractères pris isoléments Sans

tenir compte des caractères Voisins ?
(animation d’une lecture de bigramme avec une fenetre
percée de la taille de 2 caractères) Hat et de la thèse de JLH
Approche séquentielle :
OCR -> correction syntaxique -> texte corrigé
Correction sans dictionnaire (Viterbi) exemple ..
Correction avec dictionnaire DVA
De l’OCR à l’ICR (2)
Approche conjuguée:
OCR <-> correction syntaxique -> texte corrigé
La correction syntaxique permet de prédire les caractères
qui suivent et guide l’OCR sur les formes probables.
Bigramme de caractères
Bigramme de mots (prédiction du mot probable qui suit un
autre)
Ce qui explique pourquoi les OCR sont si performants sur
des lettres types et mauvais sur des documents
excentriques non prédictibles.

Ri 6

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ri 6

Transféré par

Droits d'auteur :

Formats disponibles

reconnaissance de l’écrit

interprétation des images

typographie sans Hors-ligne en-ligne

Manuscrit Imprimé Images vidéos

Texte Texte/ Incrustées Texte scène

Peu de travaux sur l’identification du type de document pour

4 exemples de critères différents pour séparer :

Méconnaissance des difficultés réelles

Critère insuffisant ! Critère insuffisant !

Utiliser un maximum d’information, à tous les niveaux

Intégrer des connaissances « métier »

Acquisition, Modélisation, constitution de base

Implémenter et valider  Malgré une bonne modélisation, le

Pour chaque forme obtenues

Remarque Certains pixels apparaissent toujours dans toutes les

Pixels toujours présents

La numérisation ne conserve pas la topologie des formes :

Quelles sont les fréquences d’apparition de chaque forme ?

Le Modulogramme permet à la fois de connaître le nombre de formes et la

la surface de chaque zone de recouvrement

la superposition exacte de toutes

Distance de Hamming : d H ((xa , ya ),(xb , yb )) = Max  xa - xb , ya - yb 

Pixels qui se retrouvent

Pixels qui apparaissent

A partir d’un certains nombre

Résolution : Donné en dpi ou ppi (nb de points par pouce)

Sur un scanner, on peut à la fois définir la résolution du scanner et le

Capteur CCD de Rééchantillonnage

0 93 250 255 132 64 10 0 153 255 232 128 43 0

Quantification en niveaux de gris suivant le placement aléatoire de la grille

Résultat d’une binarisation suivant le placement de la grille

Bord Probabilité de déformation (flip) en

En pratique, à cause des nombreuses transformations de l’information,

Confusion pour l’OCR

Traces résiduelles laissées par la compression utilisant la redondance de forme

+ 1 paramètre pour la résolution

Ensemble des formes Ensemble des formes

Pour plus d’information voir E. Trinh

 Il faut séparer le texte des illustrations pour

Squeletisation, mesure de Reconstruction de

Parce que la très grande majorité des outils de reconnaissance

Mais cette relation n’est pas toujours évidente :

Image à niveaux de gris seuil trop bas seuil trop haut

0 255 0 255 0 255

Texte Certaines nuances de gris se retrouvent

m0 La position moyenne de la première distribution

Inconvénient d’un seuil global

S ( x, y ) = dx.dy.S1 + dx.(1 − dy ).S2 + (1 − dx ).dy.S3 + (1 − dx )(1 − dy ).S4

Le vecteur gradient f permet d’étudier les variations dans une image

Les contours servent à caractériser

Il s’agit de faire un bouclage d’information entre le processus

Segmentation caractérisation Interprétation

A partir de la seule segmentation/caractérisation on peut aller plus

Problème d’échelle : comment connaître la taille des

Morphologie mathématique est une science qui s’intéresse

Les principales opérations sont les érosions et les dilatations

Erosion et Dilatation sont des opérations duales :

Un élément structurant ‘ligne’ érode les parties de dont la

Exemple d’opération « chapeau Haut de Forme »

Segmentation par seuillage , échec de reconnaissance

Détection des traits verticaux , Détection des traits horizontaux

Segmentation obtenue Filtre de réponse G

Image binaire Résultat du filtrage