Académique Documents
Professionnel Documents
Culture Documents
Images
imprimés manuscrits schémas vidéos
Schémas Images
vidéos
Critère insuffisant !
Exemple 2 : Choix d’un critère de Séparation texte/formule
Critère 2: Une Formule se reconnaît du texte parce qu’elle est
constituée :
de blocs isolés du texte
ou bien d’éléments dans le texte, autour de
marqueurs (‘=‘,’<‘,’[‘,’]’,chiffres,lettres grecques,mots-clés
comme ‘suite’, ‘fonction’..)
ou bien d’éléments que l’on retrouve dans une
grosse formule
Critère suffisant
Exemple 3 : Choix d’un critère de Séparation texte/schéma
Critère : Le texte est constitué d’éléments connexes isolés de
grands traits
Critère insuffisant !
Critère suffisant
Le processus d’extraction de l’information (1)
Un processus d’interprétation des images de documents se
décompose en étapes qui sont fortement liées
Numérisation
Segmentation
caractérisation
Reconnaissance
de formes
Reconnaissance
contextuelle
Le processus d’extraction de l’information (2)
La Structure
Contexte typographique
Contexte textuel
Europe
Bosnia: A Painful Joy by Rod Nordland
OCR
Contexte syntaxique
Bosnia Painful job
Bossing Painfully joy
Contexte logique
texte,résumé,auteur,renvoi,n° page,photo,titre...
Contexte général
Sommaire?article?lettre?livre?page de journal?
Le processus d’extraction de l’information (3)
Contexte
typographique
Contexte Contexte
textuel syntaxique
Contexte Structure
Général logique
Contexte
logique
Reconnaissance sémantique
Reconnaissance adaptée du texte
Reconnaissance
Syntaxe
Reconnaissance de caractères
typographie
Structure physique
Segmentation
Pixels
Approche ascendante Approche Mixte
Cycle perceptif
Modèles de documents
Evaluation de cohérence
Regroupement de Interne Externe
formes en objet
Remise en cause
Reconnaissance Emission Validation de segmentation
de formes d'hypothèse d'hypothèse
Recherche d'éléments
Segmentation caractéristiques d'un
objet
Image
Maitriser la complexité
Intégrer traitement d ’images, reconnaissance de formes
Langages, modélisation, processus interactifs,
Maîtriser la reconnaissance comme un processus
Apprentissage, cycles perceptifs, pile de connaissance,
Système réparti type multi-agent, combinaison de méthodes
La numérisation d’un caractère ‘e’ de police ‘Times’ dans une grille 10x10
produit 196 formes différentes dont plus de la moitié font apparaître une
rupture de tracée ou un remplissage des boucles.
20% de ces formes ressemblent plus aux caractères ‘c’ et ‘o’ qu’au
caractère ‘e’
10 formes
26 formes
54 formes
Géométrie discrète : du continu au discret
La numérisation est le résultat d’une discrétisation d’une forme continue A par
une grille d’échantillonnage de taille r et qui se déplace avec un décalage s
avec ||s||<r Dig (A,r,s ) = A Grid(r,s) 1
s r Grid (r,s) 1
A Dig(A,r,s)
Une forme est régulière si on peut placer, en chaque point du contour, deux
disques parallèles de rayon r , respectivement à l’intérieur et à l’extérieur.
Forme Formes
régulière irrégulières
Théorème de conservation des formes
Si la forme est régulière, alors la distance de Hamming entre la forme numérisée
et la forme originale est inférieure à 1 pixel et la topologie est conservée
dH( A , Dig(A,r,s) ) 1
Si cette distance est supérieure à 1 pixel alors la forme originale était irrégulière
et sa topologie est définitivement perdue ! 1
s r
1
r 2
2
A
Dig(A,r,s)
dH(A,Dig(A,r,s)) r Dans l'espace continu IR2 dH(A,Dig(A,r,s)) 1 Dans l'espace discret IN2
dE(A,Dig(A,r,s)) 2 Dans l'espace discret IN2
: d E ((xa , ya ),(xb , yb ) ) = ( xa - xb ) + ( ya - yb )
2 2
Distance de Euclidienne
Conséquences
Les pixels qui se retrouvent dans toutes les formes numérisées
différentes Dig(A,r,s) appartiennent à l’intérieur de la forme
originale Int(A)
Les pixels qui apparaissent occasionnellement dans certaines
des formes numérisées Dig(A,r,s) appartiennent soit à une
partie irrégulière de A, soit au contour de Int(A)
12 220 255 255 255 255 182 128 220 255 255 255 251 7
8 250 182 175 212 203 127 145 245 190 180 240 156 3
0 10 0 0 0 3 0 0 4 0 0 0 1 0
4 3 21 0 1 2 3 4
Distance en pixels du bord des formes
Aspect plus réaliste de la Numérisation (3)
Bord
100%
Probabilité de déformation (flip) en
fonction de l’éloignement du bord
des caractères
54 3 21 0 1 2 3 4 5
Distance en pixels du bord des formes
Pourquoi quelques pixels sont importants ?
Parce que la grande majorité des formes que l’on analyse
n’excèdent pas 30 pixels de haut sur 20 pixels de large !
20 à 40% de l’information totale, qui est située sur les
contours intérieurs et extérieurs des formes, est modifiée
aléatoirement par le processus de numérisation
L’absence de quelques pixels transforme l’apparence des
caractères jusqu’à la confusion, provoque des collages ou des
troncatures des caractères (perte de topologie)
troncature
0
Largeur du livre X
Normale
Courbure
Corriger l’image (rotation, wrapping)
Source
Déplacement
Destination
Pixels isolés
traits Verticaux
Réparation rupture
Ect…
Restauration d’images binaires (3)
Au lieu d’essayer de trouver toutes les formes possibles
de caractères , pourquoi ne pas restaurer les formes de
caractères avant de les soumettre à un OCR ?
Ajustement Comparaison
Restauration
des caractères
OCR
voir B. Allier
Hauteur
Pourquoi segmenter ?
Niveaux
de gris 0 255
W W
Maximise : S = (1 − )( m1 − m0 ) 2
M
M
Poids de Poids
la forme du fond Distance entre les pics
Méthode entropique détermine un seuil à partir de l’entropie
maximale de la distributions des niveaux de gris hi (Histogramme)
hi Ln(hi ) hi Ln(hi )
S = Arg max Ln hi hi − i S + iS
s[ 0..255 ] i S iS
hi hi
iS iS
S1 S2
dx
dy
S4 S3
Puis on calcul le seuil de chaque pixel avec une moyenne pondérée des
seuils locaux des blocs voisins en fonction de leurs distances
f
x
f =
f
y
2
f +
2
f f
f = +
x y
f -
f ( x, y ) f ( x + 1, y ) − f ( x, y ) + f ( x, y + 1) − f ( x, y )
2f
( x, y ) f ( x − 1, y ) − 2 f ( x, y ) + f ( x + 1, y )
x 2
2f
( x, y ) f ( x, y − 1) − 2 f ( x, y ) + f ( x, y + 1)
y2
2f 2f
f = + f ( x − 1, y ) + f ( x + 1, y ) + f ( x, y − 1) + f ( x, y + 1) − 4 f ( x, y )
x2 y2
Seuillage adaptatif par les contours
0 si || f || <T
S(x,y) =
+ si || f || >T et f >0
- si || f || >T et f <0
Remplir tous ce qui est entre - + ..0.. + -
Toujours pas de scanners a seuillage adaptatif grand public
(recherche du plus bas prix donc pas de processeur embarqué )
Segmentation à partir de connaissances
Il s’agit d’utiliser des connaissances a priori pour segmenter
les images de texte avec un degré plus élevé de connaissance
Erosion Dilatation
Segmentation par analyse de formes (3)
Traitements itératifs (exemple : érosions itératives)
Squelettes
L’ensemble les points situés à
équidistance de deux points du bord
L’ensemble des centres des boules
maximales incluses dans la forme
Les squelettes sont calculées par
érosion morphologique
Segmentation par analyse de formes (4)
Changement d’élément structurant
(élément structurant ligne/colonne)
La position du centre de l’élément structurant est
importante pour la symétrie de la transformation
Élément structurant non symétrique
255
Erosion Dilatation
E B ( f ( x ) ) = Min f ( x ) , x B
D B ( f ( x ) ) = Max f ( x ) , x B
Segmentation par analyse de formes (6)
Morphologie mathématique sur les images à niveaux de gris
Ouverture = Erosion suivie d’une dilatation avec le même élément
Fermeture = Dilatation suivie d’une érosion avec le même élément
O B
( f ( x )) = D ( E ( f ( x )))
B B
(
F B ( f ( x )) = E B D B ( f ( x )) )
Segmentation par analyse de formes (7)
Transformation en chapeau haute forme (Top Hat):
F B ( f ( x )) − f ( x )
et f ( x ) − O B ( f ( x ))
La fermeture nivelle les crêtes étroites
L’ouverture nivelle les vallées étroites
La Fermeture moins l’image originale met en valeur les crêtes
L’image originale moins l’ouverture met en valeur les vallées
Segmentation par analyse de formes (7)
Les images de texte sont des images de traits , elles peuvent
donc être traités efficacement par morphologie mathématique
G( m , n ) = 1 si f ( m x + j , n y + i ) 0
i =0 j =0
~
G( m , n ) = 0 sin on
Graphique Texte
Segmentation à partir de l’interprétation
Critère d’extraction : le taux de redondance des formes
de caractères
Une segmentation inadaptée produit des caractères collés ou
l’apparition du verso sur le recto ou des caractères cassés.
Une segmentation optimale correspond à un taux maximal de
redondance des formes de caractères !
Segmentation à partir de connaissances (3)
Modélisation stochastique avec des champs de Markov
ULM 97
La lecture du manuscrit
structure logique des documents
lecture de documents complexes en couleur (Journaux,périodiques..)
lecture de documents anciens comme les vieux imprimés
Indexation des documents et archivage (lecture des sommaires)
Résultat de l’OCR
Texte ancien
Sortie OCR
Séparation texte/graphique réalisée par l’OCR, pas de structures
Les logiciels OCR seront livrés gratuitement avec les scanners. L ’offre
apparaît multiple, mais il n ’existe fait que quelques systèmes originaux
«OCR engine» (calera,textbridge,recognita,cuneiform...) qui portent des
noms différents suivant le fabriquant du scanner ou du logiciel
Approche conjuguée:
OCR <-> correction syntaxique -> texte corrigé
La correction syntaxique permet de prédire les caractères
qui suivent et guide l’OCR sur les formes probables.
Bigramme de caractères
Bigramme de mots (prédiction du mot probable qui suit un
autre)
Ce qui explique pourquoi les OCR sont si performants sur
des lettres types et mauvais sur des documents
excentriques non prédictibles.