Vous êtes sur la page 1sur 12

La reconnaissance optique de caractre : Ocriser un document avec Abbyy FineReader

FineReader est une marque dpose proprit de la socit ABBYY

Le contenu de ce tutoriel est plac sous copyright de ses auteurs et sous contrat Creative Commons :

Photo : Letitia Street, Philadelphie. 2009 (TL)

LOCR (Optical Character Recognition), ou reconnaissance optique de caractre, est un procd informatique qui permet de reconnatre, dans une image, les lettres composant un texte. Ceci permet donc de transformer un fichier image en fichier texte. Le principal intrt de cette technique est de pouvoir ensuite effectuer une recherche dans un texte, ainsi que de slectionner des mots ou des phrases de ce mme texte. Locrisation peut savrer utile, par exemple, aprs avoir numris un texte disponible uniquement en version papier. Locrisation permet de profiter pleinement de la version lectronique du document. Ce tutoriel propose de montrer comment ocriser un texte en utilisant le logiciel Abbyy FineReader. Il existe plusieurs versions dAbbyy FineReader. Celle utilise dans ce tutoriel est la version 10 complte, qui nexiste lheure actuelle que pour Windows (les utilisateurs Mac peuvent utiliser la version Express.)

Prparer son fichier

Le fichier contenant le texte ocriser peut tre de diffrents formats : pdf, jpeg, gif, png, tiff, etc... Afin que le logiciel Abbyy FineReader puisse traiter le texte le mieux possible, il est prfrable que ce dernier soit clairement lisible. Si le fichier numris est lgrement effac ou si le contraste est faible, il peut tre ncessaire de pralablement le traiter laide dun logiciel de traitement dimage (augmenter le contraste, resserrer les niveaux...) Le logiciel permet de crer un fichier texte brut, dexporter en diffrents formats, de garder limage dorigine dans le fichier, etc. Dans lexemple qui va suivre, nous avons choisi le cas le plus courant : nous allons crer un fichier au format pdf dont la forme sera identique au fichier numris dorigine mais qui contiendra, cach derrire limage, le texte ocris.

Ouverture du fichier

Le logiciel FineReader travaille en deux temps : dans un premier temps, il analyse le document, cest dire quil rpre le type de donnes contenues dans une page (texte, image, tableaux, etc..), dans un second temps, il lit la page et cre un fichier texte correspondant. Une boite de dialogue vous permet de choisir les actions effectuer louverture du fichier (Menu Outils / options, onglet Numriser/ouvrir). Il existe trois possibilits : - Analyser et lire les donnes (Lire automatiquement les images de la page acquise) - Analyser les donnes mais ne pas les lire (analyser automatiquement les images de la page acquise) - Ouvrir le document sans lanalyser ni le lire (ne pas lire et analyser automatiquement les images de la page acquise)

Chacune de ces possibilits dpend de votre fichier dorigine : -Si votre fichier nest quun simple texte, vous pouvez choisir danalyser et lire directement sans risque derreur. -Si votre fichier contient des images, des textes, des lgendes insres dans des images, etc., il peut tre prfrable de seulement analyser le document louverture, la lecture se fera plus tard, une fois que vous serez sr que lanalyse ne contient pas derreur. - Si le fichier doit tre nettoy avant ocrisation (traces de massicot sur le ct des pages, annotations dans la marges, taches de photocopies, etc.), il faut alors simplement ouvrir le fichier et ne pas lancer danalyse, les corrections apportes pour nettoyer le fichier annulant toutes les analyses prcdentes. Lanalyse et la lecture prennent du temps, et si vous tes amen, par la suite, modifier ces donnes (corriger une analyse qui na pas pris en compte une lgende dans une image, par exemple), le processus devra tre recommenc. Dans lexemple ci-aprs, nous allons nous contenter danalyser le document, afin de dtailler la procdure. Nous avons donc slectionn analyser automatiquement les images de la page acquise dans la boite de dialogue prcdente, puis nous avons ouvert notre document :

Une fois le document ouvert et analys par le logiciel, trois fentres sont disponibles. - La premire contient les vignettes des pages formant le document 1 - La seconde prsente la page en cours du document et les diffrentes zones qui ont t repres lors de lanalyse (vert : zones de texte, rouge : images, bleu : tableaux) 2 - La troisime affiche le rsultat de locrisation (fichier texte cr partir des images) 3 Dans notre exemple, nous avons choisi de ne pas lire le document pour linstant, la troisime fentre est donc vide.

Il existe trois grandes catgories de donnes reconnues par Abbyy Fine Reader : le texte, les images, et les tableaux. Les parties de la page slectionnes comme texte vont tre lues. Les parties images ne vont pas tre lues et reproduites telles quelles. Les parties tableaux vont tre lues et mises en forme.

Nettoyage

Il est possible que le document ait besoin dtre nettoy avant dtre analys. Sil contient des traces ou des annotations par exemple. Dans lexemple ci-dessous, la page doit tre nettoye deux endroits : les annotations dans la marge droite, et la trace de massicot gauche.

Cliquer sur Modifier limage :

La page apparait prsent dans une nouvelle fentre :

Depuis cette fentre, vous pouvez apporter des modifications votre document : recadrer les pages, les redresser, gommer certaines parties, pivoter, etc.

Attention : une fois vos pages ouvertes lintrieur de la fentre modifier, lanalyse et la lecture du document sont effaces, et il vous faudra recommencer ces processus.

Les annotaions manuscrites dans la marge droite tant ponctuelles et uniquement prsentes sur la premire page, nous allons utiliser la gomme. Il suffit de cliquer sur gomme dans le menu de droite, et ensuite de slectionner la partie de limage effacer :

La trace de massicot, quant elle, est prsente sur toutes les pages du document, au mme endroit. Pour leffacer, nous allons donc dtourer les pages. Pour cela, cliquer sur dtourer, et appliquer le cadre de slection la partie de limage que vous souhaitez garder. Vous pouvez choisir dappliquer cette action toutes les pages du document :

Une fois les pages nettoyes, le logiciel pourra lire le document sans risque derreur, et le fichier ocris final ne contiendra plus de trace. Si vous prfrez, vous pouvez nettoyer les documents pralablement leur import dans Abbyy Fine Reader en utilisant un logiciel de traitement dimage (en utilisant des scripts par exemple).

Analyse et zones de donnes.

Il existe trois types de donnes reconnues puis analyses par Abbyy Fine Reader : le texte, les images, et les tableaux. Afin que ces derniers soient reconnus il vous faut, si cela na pas t fait automatiquement louverture ou si vous avez entre temps modifi les pages, cliquer sur le bouton Analyser.

Une fois lanalyse termine, les diffrentes types de donnes ont t reconnues : zone de texte en vert, zone dimage en rouge, zone de tableau en bleu :

Vous pouvez modifier ces zones si elles ne correspondent pas votre document : - soit agrandir ou rtrcir une zone - soit tracer une nouvelle zone (texte, image, tableau) en plus ou en remplacement dune existante, en utilisant les outils de la barre Image :

Ocrisation du texte

Une fois votre document prt, vous pouvez lancer locrisation. Le logiciel va alors lire les donnes contenues dans les zones textes et tableaux et les interprter afin de les transformer en fichier texte. Pour lancer la procdure, cliquez sur Lire :

Locrisation peut prendre du temps en fonction de la taille de votre document.

Une fois votre document ocris, le fichier texte issu de la procdure apparait dans la fentre de droite :

Vous pouvez modifier ce texte votre guise : corriger des fautes, changer la police, la taille, etc. Ce texte est celui qui servira effectuer des recherches et slectionner des parties du document. Ensuite, il ne vous reste plus qu exporter le rsultat final.

Exporter le document

Il existe plusieurs possibilits dexport : Diffrents formats sont disponibles (.pdf, .doc, .rtf, .htm, .xls, .pptx, etc...). Diffrentes options sont disponibles pour chacun de ces formats. Dans notre exemple, le but est de ne pas toucher la mise en page du document : ce dernier doit tre identique loriginal. Pour cela, nous allons lexporter en .pdf, et nous allons insrer le fichier OCR cr sous limage du document dorigine. Ainsi, la partie visible du document sera limage dorigine, mais le fichier texte ocris sera bel et bien prsent, invisible mais tout fait oprationnel. Pour choisir le format dexport, cliquez sur enregistrer :

Puis, dans la fentre denregistrement, choisissez le format souhait (ici pdf) :

Une fois le format pdf slectionn, allez dans options :

Dans les options vous pouvez choisir : - Le format du document (A3, A4, etc...) - Le mode denregistrement (texte ocris seul, sous limage, etc...). Dans notre exemple, nous choisissons de cacher le texte sous limage du document. - Option Utiliser le contenu tram mixte : cette option permet de rduire la taille du document sans altrer sa qualit. Attention, certains lecteurs Pdf narrivent pas lire le document export si cette option est coche (Aperu sous Mac, Sumatra sous Windows par exemple). - Paramtres de limage : Vous pouvez choisir les paramtres. Plus la qualit sera leve, plus la taille du document sera grande (un document de 250 pages contenant plusieurs illustrations peut rapidement, en fonction des paramtres, atteindre 100 Mo). Vous pouvez choisir Basse qualit, qualit moyenne ou haute qualit, ou bien dfinir vous-mme les paramtres (ppp et compression jpeg).

Une fois tous ces rglages effectus, vous navez plus qu enregistrer votre fichier. Rsultat : le fichier cr est donc visuellement identique au fichier original, mais le texte plac sous limage permet les slections et les recherches :

Bon courage, Nhsitez pas nous faire part de vos remarques : contact@crevilles.org