Vous êtes sur la page 1sur 106

reconnaissance de l’écrit

interprétation des images


de documents
PLAN
1 Les étapes du processus de reconnaissance
Aujourd’hui 2 Numérisation
3 Segmentation
4 Caractérisation
5 Reconnaissance de formes
6 Traitement contextuel
7 Reconnaissance de structures
Reconnaissance de l’écrit et
Analyse des images de documents
Objectif : Analyser,Reconnaître et indexer les documents de
toute nature
« Large champs d'expérimentation
de la Reconnaissance de Formes »
Quatre domaines d’applications:
Lecture de textes imprimés (caractères industriels, textes
dans les vidéos, documents imprimés, pièces de monnaie…)
Reconnaissance de textes manuscrits on/off-line
Reconnaissance des structures des documents
Analyse de documents divers (Plans du cadastre,
plans mécaniques..)
Applications diverses mais des méthodes communes
et des difficultés différentes  connaissance « métier »
Intégrer des connaissances « métier » (1)
Un document est destiné a communiquer un message
Pour faciliter la compréhension, Il y a eut très tôt des efforts de
normalisation des documents avec un certain nombre de
conventions :
sur le langage
sur les formes de caractères
sur la typographie (style, fonte, mise en page…)
sur les structures des documents
Suivant la fonction du document, il existe des conventions
d’écriture et de présentation qui sont différents
 Nécessité de reconnaître le type de document
Intégrer des connaissances « métier » (2)
Classification automatique
du type de document

Images
imprimés manuscrits schémas vidéos

typographie sans Hors-ligne en-ligne


riche et typographie
récurrente Contraint ou Libre
vocabulaire
limité
Texte Texte
Tables Authentification indication Texte
structuré faiblement
au km
structuré
Signature
style Courrier ancien
Sommaires Dictionnaires Texte au
tableaux annuaires kilomètre Textes Saisie moderne
Formulaires Listing, livres anciens commande
Intégrer des connaissances « métier » (2)

Schémas Images
vidéos

Manuscrit Imprimé Images vidéos

Texte Texte/ Incrustées Texte scène


séparé graphique
mélangé
Indexation Archives Vidéo-
Plans Plans pages web cinéma et surveillance
cadastraux mécaniques télévision
Vision
Cartes Schémas Numismatique,
géographiques électroniques industrielle archéologie
Intégrer des connaissances « métier » (3)
Les travaux d’un chercheur commencent au niveau du type
prédéfini de documents pour une application donnée.

Peu de travaux sur l’identification du type de document pour


appliquer une reconnaissance adaptée
(séparation manuscrit/imprimé, image/texte, texte/formules,
texte/schéma…)
première étape du processus : La Modélisation
Choix des critères est essentiel !

4 exemples de critères différents pour séparer :


texte/image texte/formule texte/vidéo texte/schéma
Exemple 1 : Choix d’un critère de Séparation texte/image
Critère : Un texte est constitué d’alignements de caractères
Erreurs de segmentation

Méconnaissance des difficultés réelles


Exemple 2 : Choix d’un critère de Séparation texte/formule
Critère 1: Une formule est constituée de blocs isolés du texte

Critère insuffisant !
Exemple 2 : Choix d’un critère de Séparation texte/formule
Critère 2: Une Formule se reconnaît du texte parce qu’elle est
constituée :
 de blocs isolés du texte
 ou bien d’éléments dans le texte, autour de
marqueurs (‘=‘,’<‘,’[‘,’]’,chiffres,lettres grecques,mots-clés
comme ‘suite’, ‘fonction’..)
 ou bien d’éléments que l’on retrouve dans une
grosse formule

Critère suffisant
Exemple 3 : Choix d’un critère de Séparation texte/schéma
Critère : Le texte est constitué d’éléments connexes isolés de
grands traits

Critère insuffisant ! Critère insuffisant !


Critère suffisant
Exemple 4 : Choix d’un critère de séparation texte/vidéo
Critère : Le texte est constitué d’éléments connexes alignés et de
même couleur qui apparaissent sur plusieurs images consécutives

Critère insuffisant !
Critère suffisant
Le processus d’extraction de l’information (1)
Un processus d’interprétation des images de documents se
décompose en étapes qui sont fortement liées

Numérisation

Segmentation

caractérisation

Reconnaissance
de formes

Reconnaissance
contextuelle
Le processus d’extraction de l’information (2)

La Structure

Contexte typographique

Contexte textuel

Europe
Bosnia: A Painful Joy by Rod Nordland
OCR

Contexte syntaxique
Bosnia Painful job
Bossing Painfully joy

Contexte logique
texte,résumé,auteur,renvoi,n° page,photo,titre...

Contexte général
Sommaire?article?lettre?livre?page de journal?
Le processus d’extraction de l’information (3)

Contexte
typographique
Contexte Contexte
textuel syntaxique

Contexte Structure
Général logique

Contexte
logique

Utiliser un maximum d’information, à tous les niveaux


Problème : Les informations sont interdépendantes !
Approche en fonction du niveau sémantique
Descendante : Des connaissances aux données
Ascendante : Des données aux connaissances
Mixte : Aller-retour entre les niveaux
Approche descendante
Connaissances générales
Connaissances particulières à un type de document
structure logique et fonctionnelle

Reconnaissance sémantique
Reconnaissance adaptée du texte
Reconnaissance
Syntaxe
Reconnaissance de caractères
typographie
Structure physique
Segmentation
Pixels
Approche ascendante Approche Mixte
Cycle perceptif
Modèles de documents

Evaluation de cohérence
Regroupement de Interne Externe
formes en objet
Remise en cause
Reconnaissance Emission Validation de segmentation
de formes d'hypothèse d'hypothèse
Recherche d'éléments
Segmentation caractéristiques d'un
objet
Image
Maitriser la complexité
Intégrer traitement d ’images, reconnaissance de formes
Langages, modélisation, processus interactifs,
Maîtriser la reconnaissance comme un processus
Apprentissage, cycles perceptifs, pile de connaissance,
Système réparti type multi-agent, combinaison de méthodes

Intégrer des connaissances « métier »

Acquisition, Modélisation, constitution de base


d’apprentissage et de corpus d’analyse

Implémenter et valider  Malgré une bonne modélisation, le


processus n’est peut être pas implémentable !!!
Numérisation
Numérisation des documents
Une image numérique de document est une représentation discrète plus
ou moins fidèle suivant la résolution du scanner, le nombre de couleurs
utilisé et le nombre de transformations qui précèdent.
Document Imprimé Photocopie Fax Image
Echantillonnage Echantillonnage Echantillonnage Echantillonnage
La théorie de la numérisation (1)
Combien de formes binaires obtient t’on en déplaçant la
grille de numérisation ?
La théorie de la numérisation (2)
Pour une forme numérisée avec la grille précédente, combien de nouvelles
formes trouvent on avec une seconde grille de numérisation qui a un pas
d’échantillonnage différent ?
(exemple : scanner un document imprimé ou photocopier un fax…)

Pour chaque forme obtenues


précédemment on doit multiplier par le
nombre de nouvelles formes trouvées
avec la seconde grille de numérisation !
La théorie de la numérisation (3)
Le nombre de combinaisons de formes possibles augmente en
fonction de :
la complexité des formes,
du pas d’échantillonnage de la grille
du nombre de grilles superposées

Remarque Certains pixels apparaissent toujours dans toutes les


grilles !

Pixels toujours présents


La théorie de la numérisation (4)

La numérisation ne conserve pas la topologie des formes :

La numérisation d’un caractère ‘e’ de police ‘Times’ dans une grille 10x10
produit 196 formes différentes dont plus de la moitié font apparaître une
rupture de tracée ou un remplissage des boucles.

20% de ces formes ressemblent plus aux caractères ‘c’ et ‘o’ qu’au
caractère ‘e’

Quelles sont les fréquences d’apparition de chaque forme ?

Le Modulogramme permet à la fois de connaître le nombre de formes et la


fréquence d’apparition de chacune d’entre elles
Forme continue originale
Nombres de formes différentes
Modulogrid Forme numérisée obtenues et sa
fréquence d’apparition
Le nombre de formes augmente avec l’accroissement
de la résolution !

10 formes

la surface de chaque zone de recouvrement


correspond à la fréquence d’apparition d’une forme

26 formes

la superposition exacte de toutes


les formes (stack) permettrait de
retrouver la forme originale

54 formes
Géométrie discrète : du continu au discret
La numérisation est le résultat d’une discrétisation d’une forme continue A par
une grille d’échantillonnage de taille r et qui se déplace avec un décalage s
avec ||s||<r Dig (A,r,s ) = A Grid(r,s) 1
s r Grid (r,s) 1

A Dig(A,r,s)

Une forme est régulière si on peut placer, en chaque point du contour, deux
disques parallèles de rayon r , respectivement à l’intérieur et à l’extérieur.
Forme Formes
régulière irrégulières
Théorème de conservation des formes
Si la forme est régulière, alors la distance de Hamming entre la forme numérisée
et la forme originale est inférieure à 1 pixel et la topologie est conservée
dH( A , Dig(A,r,s) ) 1

Si cette distance est supérieure à 1 pixel alors la forme originale était irrégulière
et sa topologie est définitivement perdue ! 1

s r
1
r 2
2
A
Dig(A,r,s)

dH(A,Dig(A,r,s)) r Dans l'espace continu IR2 dH(A,Dig(A,r,s)) 1 Dans l'espace discret IN2
dE(A,Dig(A,r,s))  2 Dans l'espace discret IN2

Distance de Hamming : d H ((xa , ya ),(xb , yb )) = Max  xa - xb , ya - yb 

: d E ((xa , ya ),(xb , yb ) ) = ( xa - xb ) + ( ya - yb )
2 2
Distance de Euclidienne
Conséquences
Les pixels qui se retrouvent dans toutes les formes numérisées
différentes Dig(A,r,s) appartiennent à l’intérieur de la forme
originale Int(A)
Les pixels qui apparaissent occasionnellement dans certaines
des formes numérisées Dig(A,r,s) appartiennent soit à une
partie irrégulière de A, soit au contour de Int(A)

Pixels qui se retrouvent


dans toutes les formes
numérisées
=Intérieur de A ou Int(A)

Pixels qui apparaissent


occasionnellement plus
fréquemment
Pixels qui apparaissent
très rarement
Reconstruction théorique de la forme continue

A partir d’un certains nombre


de formes trouvées dans un
document, peut on
reconstruire la forme originale
des caractères ?
Limitations de la reconstruction
Plus la résolution est faible ( donc r est grand) plus une forme présente de
parties irrégulières, plus les déplacements de la grille sont possibles (s[0,r[)
et plus nombreuses sont les formes produites par la numérisation !
les parties irrégulières d’une forme ne peuvent pas être reconstruites
Règle d’or
Toujours utiliser la résolution la plus élevée possible!
C’est à dire plus d’information…
Tous les systèmes d’analyse de documents numérisés
(reconnaissance des caractères, des structures, indexation…) sont
sensibles à la résolution des images
La vision humaine n’est pas sensible à la résolution des images
Exemple :

Résolution : Donné en dpi ou ppi (nb de points par pouce)


il définit le nombre de pixels réels par unité de mesure
Rééchantillonnage
Le sur-échantillonnage (up sampling) n’est pas une solution,
car il y a introduction d’une information artificielle qui n’existait
pas dans l’image originale
Rééchantillonage

Sur un scanner, on peut à la fois définir la résolution du scanner et le


facteur d’échelle
le facteur d’échelle fixe le rééchantillonnage du signal provenant du
capteur CCD pour obtenir une image de taille désirée

Capteur CCD de Rééchantillonnage


résolution optique R suivant le facteur
d’échelle demandé
◆Toujours fixer la résolution à la résolution optique du scanner
◆ Fixer le facteur d’échelle inférieur ou égal à 100%
◆ Ne jamais sur échantillonner une image
◆ Seule la résolution optique d’un scanner est importante
(pas la résolution interpolée…)
La théorie de la numérisation (4)
Mais le processus de numérisation est un processus plus
complexe qui fait intervenir plusieurs transformations :
T2 Eclairage T3
Capteur CCD
Papier imprimé
Optique
T4
T1 T1: impression
T2: rayonnements Image couleur
Modèle vectoriel T3 déformation optique T5
de caractère T4 échantillonnage
(formes continues) T5 Binarisation Image binaire
Sans compter les nombreuses grilles d’échantillonnage
qui peuvent se superposées !
Document Imprimé Photocopie Fax Image
Echantillonnage Echantillonnage Echantillonnage Echantillonnage
Aspect plus réaliste de la Numérisation (1)
0 0 10 25 2 0 0 0 0 56 36 0 0 0

0 93 250 255 132 64 10 0 153 255 232 128 43 0

12 220 255 255 255 255 182 128 220 255 255 255 251 7

8 250 182 175 212 203 127 145 245 190 180 240 156 3

0 10 0 0 0 3 0 0 4 0 0 0 1 0

Quantification en niveaux de gris suivant le placement aléatoire de la grille

Résultat d’une binarisation suivant le placement de la grille


Aspect plus réaliste de la Numérisation (2)
Le processus de numérisation est si complexe qu’il peut être difficilement
modélisé
Théoriquement, le processus de numérisation conduit à des déformations le
long des contours des caractères (frontières) et sur les parties irrégulières
(parties de taille inférieure à celle d’un pixel)

Bord Probabilité de déformation (flip) en


100% fonction de l’éloignement du bord
des caractères

4 3 21 0 1 2 3 4
Distance en pixels du bord des formes
Aspect plus réaliste de la Numérisation (3)

En pratique, à cause des nombreuses transformations de l’information,


de la superposition de plusieurs grilles successives (impression, photocopie,
fax, digitalisation, ré échantillonnage…) et des nombreux facteurs qui
entrent en jeu (éclairage, résolutions des grilles, fonction de transfert du CCD,
seuil de binarisation…), la probabilité de bruit en fonction de la distance
des bords des caractères suit une loi inconnue.

Bord
100%
Probabilité de déformation (flip) en
fonction de l’éloignement du bord
des caractères

54 3 21 0 1 2 3 4 5
Distance en pixels du bord des formes
Pourquoi quelques pixels sont importants ?
Parce que la grande majorité des formes que l’on analyse
n’excèdent pas 30 pixels de haut sur 20 pixels de large !
20 à 40% de l’information totale, qui est située sur les
contours intérieurs et extérieurs des formes, est modifiée
aléatoirement par le processus de numérisation
L’absence de quelques pixels transforme l’apparence des
caractères jusqu’à la confusion, provoque des collages ou des
troncatures des caractères (perte de topologie)
troncature

Confusion pour l’OCR


collage
Conséquences (1)
Problèmes :
Segmentation,
 Reconnaissance Optique des Caractères
 Analyse de la typographie des caractères,
 La compression par substitution (JBIG)

Traces résiduelles laissées par la compression utilisant la redondance de forme


En vidéo …
Modèle de dégradation des caractères
Pourquoi faire ?
Générer automatiquement une grande quantité de formes
possibles de caractères à partir des formes idéales des
caractères.
La constitution d’une base d’exemple pour l’apprentissage
constitue un problème important pour la robustesse des OCR!
Modéliser le bruit permettrait de prédire les déformations des
formes de caractères 100%
0+ 
Exemple : modèle à 6 paramètres
sur une loi exponentielle

P ( ( 0 |1) , d ,0 , ,  ) = 0e − d + 
2
d
d = Distance en pixels des contours
P ( (1| 0 ) , d , 0 ,  ,  ) = 0e−  d + 
2

+ 1 paramètre pour la résolution


Une infinité de modèles de déformations!
Quel est le bon modèle de dégradation ?
La validation des modèles n’est pas évidente
Les formes générées ne sont pas forcément celles qui
existent en réalité
Les formes observables représentent une faible quantité
Ensemble des formes
observables

Ensemble des formes Ensemble des formes


Ensemble des formes générées par le modèle générées par le modèle
réelles de caractères de dégradation n°1 de dégradation n°2
Traitements des images
Traitement des images de documents
Le traitement des images est marginal car l’objectif est d’abord de
reconnaître le contenu des images avec un maximum d’information donc
avec un minimum de modification de la source.
Toutefois quelques traitements sont autorisés dans les cas extrêmes.
Correction géométrique
inclinaison, courbure…
Correction des images couleurs et niveaux de gris
Toute les opérations possible en traitement d’image
(rarement utilisées sauf pour la segmentation et la caractérisation !)
Correction des images binaires
Quelques tentatives de restauration des caractères
Restauration d’image (part 1)
Correction de la courbure et de l’inclinaison des images
Mesurer la déformation géométrique (suivi des lignes te texte, profil
de luminance (si position de l’éclairage connu), de l’ombre de la reliure…)
255 Luminance

0
Largeur du livre X
Normale

Courbure
Corriger l’image (rotation, wrapping)

Source

Déplacement

Destination

Pour plus d’information voir E. Trinh


Restauration d’images binaires (1)
Le filtre de restauration des caractères ne peut pas s’appliquer aux illustrations !

 Il faut séparer le texte des illustrations pour


appliquer le filtre que sur des zones de texte
Restauration d’images binaires (2)
Application de masques binaires Si alors

Pixels isolés

traits Verticaux

Réparation rupture

Ect…
Restauration d’images binaires (3)
Au lieu d’essayer de trouver toutes les formes possibles
de caractères , pourquoi ne pas restaurer les formes de
caractères avant de les soumettre à un OCR ?

Ajustement Comparaison

Restauration
des caractères
OCR

voir B. Allier

Squeletisation, mesure de Reconstruction de


l’épaisseur des traits l’épaisseur des traits
Segmentation des formes
Qu’est ce qu’une segmentation ?
Opération fondamentale qui consiste à séparer une forme
du reste de l’image.
Niveaux de gris

Hauteur
Pourquoi segmenter ?

Parce que la très grande majorité des outils de reconnaissance


utilise des images segmentées pour analyser les formes
Peu de méthodes pour analyser une forme directement dans
l’image couleur ou en nuance de gris
Segmentation
Une bonne segmentation est déjà une étape importante pour
la reconnaissance !!!!
« c’est toujours la segmentation qui m… »
Une segmentation est un traitement irréversible car c’est le
résultat d’une interprétation suivant un critère et une méthode.
Les images non segmentées conservent toute l’information
Toute segmentation est le produit d’un choix d’une méthode et
de ses paramètres !
Plusieurs méthodes de segmentation :
suivant la couleur (seuillage)
 à partir d’analyse de formes
à partir de connaissances
Segmentation par seuillage
C’est la méthode la plus simple et la plus utilisée
Il y a une relation entre les niveaux de gris d’un
pixel et son appartenance ou non à une forme

Niveaux
de gris 0 255

Mais cette relation n’est pas toujours évidente :


La preuve : Bibliothèque Gallica (BNF)
Seuil global fixe

Image à niveaux de gris seuil trop bas seuil trop haut

0 255 0 255 0 255

Texte Certaines nuances de gris se retrouvent


Support simultanément dans le fond et la forme
Seuil Automatique
Seuil global automatique calculé à partir de l’histogramme
de l’image
Méthode de Fisher. Fait l’hypothèse que l’histogramme est la
mixture de deux distributions gaussiennes (lois normales)
Fréquences Seuil S
dans l’image m0 m1

m0 La position moyenne de la première distribution


m1 La position moyenne de la seconde distribution
M Le poids total de l’ histogramme
W Le poids de la première distribution
W M-W
Nuances de gris

W W
Maximise : S = (1 − )( m1 − m0 ) 2
M
  
M
Poids de Poids
la forme du fond Distance entre les pics
Méthode entropique détermine un seuil à partir de l’entropie
maximale de la distributions des niveaux de gris hi (Histogramme)
   hi  Ln(hi )  hi  Ln(hi ) 
    
S = Arg max  Ln  hi   hi  −  i  S + iS 
s[ 0..255 ]   i  S iS  

 hi  hi 

 iS iS

Inconvénient d’un seuil global


Seuil Adaptatif
On définit un seuil pour chaque pixel en fonction de son
voisinage
Exemple : Le Niblack S =m+k² avec k=-0,2
m : moyenne et  : l’écart-type
seuil
Seuil Adaptatif
l'image est découpée en bloc NxN puis pour chaque bloc on calcul un
seuil automatique par Fisher ou avec une approche entropique

S1 S2
dx

dy

S4 S3

Puis on calcul le seuil de chaque pixel avec une moyenne pondérée des
seuils locaux des blocs voisins en fonction de leurs distances

S ( x, y ) = dx.dy.S1 + dx.(1 − dy ).S2 + (1 − dx ).dy.S3 + (1 − dx )(1 − dy ).S4


Seuil à partir des contours
Une image est une fonction discrète de 2 variables Z=f(x,y)
où Z représente la valeur du pixel (x,y)

 f 
x
f =  
 f 
 y
 

Le vecteur gradient f permet d’étudier les variations dans une image


Approximation grossière du gradient par dérivation
f ( x0 , y0 ) f ( x0 + h, y0 ) − f ( x0 , y0 )
= Lim  f ( x0 + 1, y0 ) − f ( x0 , y0 )
x h − 0 h
f ( x 0 , y0 ) f ( x 0 , y0 + k ) − f ( x 0 , y0 )  f ( x , y + 1) − f ( x , y )
= Lim 0 0 0 0
y k − 0 k
Détection des contours par le Gradient
 f 
 
Norme du gradient Orientation du gradient  = tan  y 
−1
 f 
(Niveau du contour)  
 x 

2
f +
2
 f   f 
f =   +   
 x   y 

f -

f ( x, y )  f ( x + 1, y ) − f ( x, y ) + f ( x, y + 1) − f ( x, y )

Les contours servent à caractériser


une forme dans une image couleur
ou niveaux de gris
Détection des contours par le Laplacien
f(x) Image originale
f Dérivée première
x
 2f Dérivée Seconde
x 2
Les dérivées Secondes se calculent par la dérivation de l’image dérivé
f f
( x − 1, y)  f ( x − 1, y) − f ( x, y) ( x, y)  f ( x, y) − f ( x +1, y)
x x
 2f f f
( x, y)  ( x − 1, y) − ( x, y)  f ( x − 1, y) − f ( x, y) − f ( x, y) + f ( x + 1, y)
x 2 x x

2f
( x, y )  f ( x − 1, y ) − 2  f ( x, y ) + f ( x + 1, y )
x 2

2f
( x, y )  f ( x, y − 1) − 2  f ( x, y ) + f ( x, y + 1)
 y2
2f 2f
f = +  f ( x − 1, y ) + f ( x + 1, y ) + f ( x, y − 1) + f ( x, y + 1) − 4  f ( x, y )
 x2  y2
Seuillage adaptatif par les contours
0 si || f || <T
S(x,y) =
+ si || f || >T et  f >0
- si || f || >T et  f <0
Remplir tous ce qui est entre - + ..0.. + -
Toujours pas de scanners a seuillage adaptatif grand public
(recherche du plus bas prix donc pas de processeur embarqué )
Segmentation à partir de connaissances
Il s’agit d’utiliser des connaissances a priori pour segmenter
les images de texte avec un degré plus élevé de connaissance

Il s’agit de faire un bouclage d’information entre le processus


de segmentation et de caractérisation

Segmentation caractérisation Interprétation

A partir de la seule segmentation/caractérisation on peut aller plus


loin vers l’interprétation
(séparation texte/graphique, texte/math…)
Bouclage entre segmentation/caractérisation/interprétation
Segmentation par caractérisation du texte
Une zone de texte est une région de l’image présentant une
très forte densité de traits qui forment des alignements à
une échelle donnée.

Problème d’échelle : comment connaître la taille des


caractères a priori ?
Le problème du seuil de détection : A partir de quel seuil de
densité de traits faut-il décider de la présence d’un bloc de texte ?
Le problème de l’alignement : Comment connaître a priori
l’orientation du texte ? (nécessite la correction de la courbure)
Les Méthodes possibles de détection:
Filtre de texture, filtre morphologique, filtre fréquentiel, Filtre
directionnel (Gabor), détection par apprentissage (Markov
Random Field)…
Segmentation par analyse de formes (1)

Morphologie mathématique est une science qui s’intéresse


à analyser les formes dans les images, pour les caractériser,
les détecter, les mesurer.
Cette science s’appuie sur la théorie mathématique
ensembliste, la géométrie discrète et la topologie
Il s’agit de comparer les objets à un autre objet de forme
connue B (élément structurant) à l’aide de transformations
dont les résultats sont de nouvelles images

Les principales opérations sont les érosions et les dilatations


d’une image par un élément structurant B
Segmentation par analyse de formes (2)
DB(X) : Dilatation de X est l’image Y des points de X qui ont
une intersection non vide avec B
EB(X) : Erosion de X est l’image Y des points de X qui ont une
intersection vide avec B
D B ( X ) =  X / B  X   E ( X ) =  X / B  X = 
B

Erosion et Dilatation sont des opérations duales :


( X ) = (E ( X ))
c
B B c
D

Erosion Dilatation
Segmentation par analyse de formes (3)
Traitements itératifs (exemple : érosions itératives)

Squelettes
L’ensemble les points situés à
équidistance de deux points du bord
L’ensemble des centres des boules
maximales incluses dans la forme
Les squelettes sont calculées par
érosion morphologique
Segmentation par analyse de formes (4)
Changement d’élément structurant
(élément structurant ligne/colonne)
La position du centre de l’élément structurant est
importante pour la symétrie de la transformation
Élément structurant non symétrique

Un élément structurant ‘ligne’ érode les parties de dont la


largeur est inférieure à la taille de l’élément structurant
Segmentation par analyse de formes (5)
Morphologie mathématique sur les images à niveaux de gris

255

Erosion Dilatation

E B ( f ( x ) ) = Min  f ( x ) , x  B

D B ( f ( x ) ) = Max  f ( x ) , x  B
Segmentation par analyse de formes (6)
Morphologie mathématique sur les images à niveaux de gris
Ouverture = Erosion suivie d’une dilatation avec le même élément
Fermeture = Dilatation suivie d’une érosion avec le même élément

O B
( f ( x )) = D ( E ( f ( x )))
B B
(
F B ( f ( x )) = E B D B ( f ( x )) )
Segmentation par analyse de formes (7)
Transformation en chapeau haute forme (Top Hat):
F B ( f ( x )) − f ( x )
et f ( x ) − O B ( f ( x ))
La fermeture nivelle les crêtes étroites
L’ouverture nivelle les vallées étroites
La Fermeture moins l’image originale met en valeur les crêtes
L’image originale moins l’ouverture met en valeur les vallées
Segmentation par analyse de formes (7)
Les images de texte sont des images de traits , elles peuvent
donc être traités efficacement par morphologie mathématique

Exemple d’opération « chapeau Haut de Forme »


Segmentation par analyse de formes (8)
Morphologie avec un élément structurant ligne et colonne
pour trouver les traits caractéristiques des caractères
(caractérisation d’une forme en niveaux de gris)

Segmentation par seuillage , échec de reconnaissance

Détection des traits verticaux , Détection des traits horizontaux


Séparation texte/image (1)
Une zone de texte est une concentration de pixels noirs
Ce filtre réagit positivement si il existe dans un
voisinage carré x x y au moins un pixel noir
~ i  y j  x

G( m , n ) = 1 si   f ( m  x + j , n  y + i )  0
 i =0 j =0
~
G( m , n ) = 0 sin on

Segmentation obtenue Filtre de réponse G


Séparation texte/image (2)

Image binaire Résultat du filtrage


Séparation texte/image (3)

Détection des alignements par morphologie Résultat de la segmentation


Séparation texte/image (4)

Analyse en binaire << Analyse en niveaux de gris


Séparation Texte/image (5)
Ce Filtre répond à une concentration de fortes variations
de l’ intensité lumineuse de l’image dans un voisinage V

Les fortes variations sont mesurées par les dérivées partielles


 Faible complexité de calcul, vitesse élevée de traitement (10’’)
 La taille du voisinage est définie par l’échelle d’analyse.
 Le résultat du filtre est normalisé par la surface du voisinage
puis comparé à une seuil global.
 Pour les images numériques, on effectue une double sommation
de dérivées d’ordre 1 dans la direction de l’orientation du texte
Texte Contours (dérivées) Intégration des dérivées
Séparation Texte/image (6)
Nécessité de corriger le résultat du filtrage par morphologie pour
reconstituer les lignes (filtre de détection d’alignements)

Image originale Résultat du filtre G Détection des lignes


par morphologie
Séparation Texte/image (7)

Image originale Résultat du filtre


Séparation Texte/image (8)

Détection des alignements par morphologie Résultat de la segmentation


Séparation Texte/image : les limites (9)
Limitations: Un critère de segmentation à partir des seules
informations issues de l’image n’est pas toujours suffisant !
 Trouver d’autres critères sémantiquement plus évolués
Séparation Texte/illustration (part 8)
Séparation Texte/graphique par des opérateurs de morphologie
par IST–Lisbonne (non utilisé à cause des temps de calculs)

Graphique Texte
Segmentation à partir de l’interprétation
Critère d’extraction : le taux de redondance des formes
de caractères
Une segmentation inadaptée produit des caractères collés ou
l’apparition du verso sur le recto ou des caractères cassés.
Une segmentation optimale correspond à un taux maximal de
redondance des formes de caractères !
Segmentation à partir de connaissances (3)
Modélisation stochastique avec des champs de Markov

La classification d’un pixel dépend de celle des pixels


voisins dans une configuration donnée
On réalise un apprentissage pour toutes les configurations
pertinentes de voisinages à partir des observations de
dépendance entre des images originales et segmentées
Une segmentation par les MRFs permet d’utiliser ces
connaissances pour reconstruire l’information qui n’est pas
seulement représentée par les nuances de gris
Inconvénients (prendre contact avec C. Wolf)
Très très long (des dizaines d’heures de calcul !)
Nécessite une large base d’apprentissage !
 L’apprentissage est lié à une résolution et un type
de fonte de caractère et de style
Exemple
Image à niveaux de gris Image binaire par seuillage adaptatif
Image binaire filtrée du bruit Reconstruction par morphologie
Caractérisation des formes
Caractérisation des formes
Analyse direct des images à niveaux de gris
Il est préférable d’analyser directement les images en
niveaux de gris et en couleurs pour la segmentation et la
reconnaissance , mais c’est beaucoup plus difficile…

Extraction directe à partir des informations en


niveaux de gis :

ULM 97

Extraction de la typographie (Toumit DEA ppt)


2. O.C.R
Evolution de l’OCR à la dématérialisation

Domaine d’application de la Reconnaissance des Formes par excellence

Années 70, grandes entreprises et des administrations


(chèques, courrier, formulaires administratifs).

Années 80, Premiers logiciels OCR pour l’utilisation personnelle


(systèmes monofontes avec segmentation manuelle des zones de textes et apprentissage)

Années 90, Vulgarisation des logiciels OCR, amélioration des OCR


(localisation automatique des zones de texte, systèmes multifontes et omnifontes,
reconnaissance dans les images à niveaux de gris, traitement des caractères dégradés
des fax ou des photocopies, textes manuscrits avec dictionnaire, apparition de l’ICR )
Document et Réseaux

Années 2000, Croissance de la demande en dématérialisation


(bibliothèques,centres de documentations, administration et entreprises pour Internet).
Combinaisons de moteurs OCR, amélioration des performances en manuscrit
Apparition des logiciels de reconnaissance des structures des documents,
Multiplication des applications
(indexation des vidéo, documents scientifiques et techniques, plans, partitions
musicales…).
Vers une indexation automatique pour les bases documentaires en réseau.
Convergence vers des formats de représentations comme XML.
Les limites actuelles des OCR

La lecture du manuscrit
structure logique des documents
lecture de documents complexes en couleur (Journaux,périodiques..)
lecture de documents anciens comme les vieux imprimés
Indexation des documents et archivage (lecture des sommaires)

Lecture de documents spécifiques (revues de mathématiques,


plans mécaniques, partitions musicales...)

Reconnaissance des polices de caractères et du style

Reconnaissance des textes bruités (caractères collés ou coupés ),


fax, imprimés dégradés
Structures complexes ( tableaux, sommaires..)

Reconnaissance optique de caractères industriels sans contexte


pour concurrencer le code à barre
OCR : quelques exemples
Documents scientifiques

Résultat de l’OCR
Texte ancien

Sortie OCR
Séparation texte/graphique réalisée par l’OCR, pas de structures
Les logiciels OCR seront livrés gratuitement avec les scanners. L ’offre
apparaît multiple, mais il n ’existe fait que quelques systèmes originaux
«OCR engine» (calera,textbridge,recognita,cuneiform...) qui portent des
noms différents suivant le fabriquant du scanner ou du logiciel

Les professionnels de la dématérialisation utilisent plusieurs moteurs OCR


différents en parallèle, la décision finale s’effectue avec un vote entre les
différentes réponses.

Les logiciels OCR du marché répondent à une utilisation


occasionnelle par un particulier. Ils sont mal adaptés aux
besoins et aux exigences des bibliothèques !

Les besoins dans les bibliothèques et les centres de documentation


sont multiples. La grande quantité de documents à numériser
requiert des systèmes de lecture automatique très performants
De l’OCR à l’ICR (1)

Pourquoi reconnaître les caractères pris isoléments Sans


tenir compte des caractères Voisins ?
(animation d’une lecture de bigramme avec une fenetre
percée de la taille de 2 caractères) Hat et de la thèse de JLH
Approche séquentielle :
OCR -> correction syntaxique -> texte corrigé
Correction sans dictionnaire (Viterbi) exemple ..
Correction avec dictionnaire DVA
De l’OCR à l’ICR (2)

Approche conjuguée:
OCR <-> correction syntaxique -> texte corrigé
La correction syntaxique permet de prédire les caractères
qui suivent et guide l’OCR sur les formes probables.
Bigramme de caractères
Bigramme de mots (prédiction du mot probable qui suit un
autre)
Ce qui explique pourquoi les OCR sont si performants sur
des lettres types et mauvais sur des documents
excentriques non prédictibles.

Vous aimerez peut-être aussi