Vous êtes sur la page 1sur 49

Ministère de l’Enseignement Supérieur et de la

Recherche Scientifique
Université Tunis El Manar
Faculté des Sciences de Tunis

Mémoire
présenté pour l’obtention du diplôme de master
professionnel en sciences géomatique parcours topographie
et projet territoriaux
par
BESSAAD Youssef

Création d’un prototype d’une base de données de la


toponymie et détection des noms des lieux basée sur
l’apprentissage automatique, cas d’étude : MANZIL BOU
ZALFA N.E. 1 :25000
Soutenu le 30/01/2024
Devant le jury

Présidente Mme. Salwa SAIDI Maitre de conférences - FST


Examinateur Mr. Moez JAOUAD Maitre-Assistant - FST
Encadrant FST Mr. Tarek SBOUI Maitre-Assistant - FST
Encadrant professionnel Mr. Hichem BEN MOUSSA Cartographe - OTC

Projet en collaboration avec

Année universitaire 2022-2023


Dédicaces

A mes très chers parents Nasreddine BESSAAD et Samira DRIDI, qui ont

œuvré pour ma réussite, par leur amour, leur soutien, toutes les longues

années de sacrifices et les précieux conseils, pour leur assistance et leur

présence dans ma vie, recevez à travers ce travail aussi modeste soit-il,

l’expression de mes sentiments et de mon éternelle gratitude. Merci pour

les valeurs nobles, l’éducation et l’encouragement.

Je dédie ce travail aussi à ma sœur Maryem et mon frère Ayoub ainsi que

toute ma famille et mes amis qui n’ont cessé d’être pour moi des exemples

de persévérance, de courage et de générosité.

Tous mes professeurs et mes instituteurs qui doivent voir dans ce travail la
fierté d’un savoir bien transmis.
Remerciements

Je tiens à exprimer mes sincères remerciements à toutes les personnes qui ont

contribué au succès de mon stage et qui m’ont aidée lors de la rédaction de ce

rapport.

Je voudrais, dans un premier temps, remercier mon tuteur de stage Mr Hichem

BEN MOUSSA, cartographe (chef service) à l’OTC pour m’avoir offert la

généreuse opportunité de travailler sur ce projet ainsi que pour sa patience, sa

disponibilité et surtout ses judicieux conseils et ses encouragements qui ont

contribué à alimenter ma réflexion.

Je voudrais aussi adresser toute ma gratitude à Mr Tarek SBOUI mon

correspondant universitaire pour répondre à mes questions et pour ses efforts

dans la correction de ce rapport.

J’apprécie la présence de Mme Salwa SAIDI comme président de jury et Mr

Moez JAOUAD comme rapporteur de ce travail.


Résumé :

Dans ce travail, nous avons réalisé, dans une première partie, un prototype d’une base de
données de la toponymie qui permet de stocker, gérer, diffuser, et mettre à jour des données
toponymiques d’une manière efficace, on se référant à la carte MANZIL BOU ZALFA N.E. 1
:25000.

Puis nous avons utilisé l’apprentissage automatique pour détecter automatiquement les noms
de lieux à partir de la carte.

Les résultats obtenus sont quantitativement faibles et qualitativement variables à cause de


l’échelle de la carte et l’hétérogénéité de l’écriture sur la carte.

Mots clés : toponymie, base de données, toponyme, apprentissage automatique.

Abstract :

In this work, we first created a prototype of a toponymy database that allows the efficient
storage, management, dissemination, and updating of toponymic data, referring to the MANZIL
BOU ZALFA N.E. 1:25000 map.

We then used machine learning to automatically detect toponyms from the map.

The results obtained are quantitatively low and qualitatively variable due to the scale of the map
and the heterogeneity of the writing on the map.

keywords : toponymy, database, toponym, machine learning.


Sommaire

Introduction générale………………………………………………………………………….1

Chapitre 1 : contexte général………………………………………………………………….3

1. Introduction…………………………………………………………………………………4

2. Présentation de l’organisme d’accueil………………………………………………………4

2.1. Présentation de l’OTC…………………………………………………………………..4

2.2. Missions…………………………………………………………………………………5

3. Présentation du projet……………………………………………………………………….5

3.1. Problématique………………………………...…………………………………………5

3.2. Objectifs…………………………………………………………………………………6

4.Conclusion……………………………………………….…………………………………..6

Chapitre 2 : Etat de l’art de la toponymie………………………….…………………………..7

1.Introduction…………………………………………………………………….…………….8

2.Charte de la toponymie (d’après IGN)………………………………………….……………8

2.1. Définitions……………………………………………………………………………….8

2.1.1. Les toponymes officiels…………………………………………………………......8

2.1.2. Les toponymes non officiels……………………………………………………...…8

2.1.3. Termes génériques et éléments spécifiques……………………………...………….9

2.1.4. Désignations cartographiques…………………………...…………………………..9

2.2. Les règles de l’écriture………….……………………………...………………………..9

2.2.1. Les signes diacritiques…………………………...……………………………….....9

2.2.2. Les articles……………………...…………………………………………………...9

2.2.3. Les chiffres………..………………………………………………………………...9

2.2.4. Code nature……...…………………………………………………………………..9


2.2.5. Désignation cartographique…...………………………………………………...…10

2.2.6. Majuscules et minuscules…………………………………………...……………..10

2.2.7. Pluriels des noms propres………………...………………………………………..10

2.2.8. Les sigles…...………………………...……………………………………………10

3.Base de données toponymiques…………………………………………………………….10

3.1. Exemple 1…………………...………………………………...……………………….10

3.1.1. Contexte……...…………………………………………………………………….11

3.1.2. Méthodologies...………………………...…………………………………………11

3.2. Exemple 2……………...………………………………………………………………12

3.2.1. Statut...……………………………………………………………………………..12

3.2.2. Les tables dédiées………………………...………………………………………..12

3.2.3. Extraits des tables dédiées………………………...……………………………….12

4.Apprentissage automatique et détection des noms des lieux……………………………….13

4.1. Définitions des modèles……………...………………………………………………...13

4.1.1. Modèle MATLAB………………………...……………………………………….13

4.1.2. Tesseract OCR………………...………………………………………………...…13

4.2. Exemple...…………………………………………...…………………………………14

4.2.1. Contexte...………………………………………………………………………….14

4.2.2. Résultats...………………………………………………………………………….15

5.Conclusion………………………………………………………………………………….16

Chapitre 3 : Conception du prototype de la base de données toponymiques…………………18

1.Introduction…………………………………………………………………………………19

2.Carte de référence…………………………………………………………………………..19

3.Méthodologies et logiciels………………………………………………………………….19
3.1. Logiciels...…………………………………………………………………………...…19

3.1.1. ArcGIS...…………………………………………………………………………...19

3.1.2. GéomaTiqua...……………………………………………………………………...19

3.1.3. PostgreSQL...………………………………………………………………………20

3.2. Méthodologies...………………………………………………………………………..20

4.Description des entités………………………………………………………………….......21

4.1. Exemple des requêtes…………...…………………………………………………...…24

5.Conclusion………………………………………………………………………………….25

Chapitre 4 : Application de l’apprentissage automatique pour la détection des noms des


lieux...........................................................................................................................................26

1.Introduction…………………………………………………………………………………27

2.Fonctionnement du système OCR…………………………………………………………..27

3.Mesures de performances…………………………………………………………………...29

3.1. Character Error Rate……...……………………………………………………………29

3.2. Word Error Rate……...………………………………………………………………...29

4.Modèle MATLAB…………………………………………………………………………..30

5.Modèle Tesseract………………………………………………………………………...…31

6.Interprétation des résultats.....................................................................................................34

7.Conclusion………………………………………………………………………………….34

Conclusion générale…………………………………………………………………………..36
Listes des figures
Figure 1 : organigramme général de l’OTC (otc.nat.tn)

Figure 2 : schéma général (ATOUI B. et al 2000)

Figure 3 : extrait de la table TOPONYMIE_LIEUX_NOMMES (IGN 2021)

Figure 4 : extrait de la table TOPONYMIE_SERVICES_ET_ACTIVITES (IGN 2021)

Figure 5 : image d’entrée : carte de Hambourg 1841 (Schlegel, I 2021)

Figure 6 : logo du logiciel ArcGIS

Figure 7 : logo du logiciel GéomaTiqua

Figure 8 : logo du logiciel PostgreSQL

Figure 9 : schéma récapitulatif de la méthodologie de la réalisation du prototype d’une base de


données toponymiques

Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits,
lieux_non_dits, code, et les coordonnées en Lambert et en UTM

Figure 11 : extrait représentant le découpage administratif en gouvernorat, délégation et


secteur

Figure 12 : exemple de requête attributaire

Figure 13 : exemple de requête spatiale

Figure 14 : schéma récapitulatif du fonctionnement d’un système OCR

Figure 15 : logo du logiciel MATLAB

Figure 16 : logo du logiciel Visual Studio Code

Figure 17 : schéma récapitulatif du fonctionnement du modèle Tesseract


Listes des tableaux

Tableau 1 : les tables de la BDTOPOv3 (IGN 2021)

Tableau 2 : résultat du Tesseract OCR (Schlegel, I 2021)

Tableau 3 : les champs du prototype de la base de données toponymiques

Tableau 4 : résultats du modèle MATLAB et ces mesures de performances

Tableau 5 : résultats du modèle Tesseract et ces mesures de performances


Listes des abréviations

IGN : l’institut national de l’information géographique et forestière

UNESCO : l’Organisation des Nations unies pour l’éducation, la science et la culture

R.R. : Ruine Romaine

INCT : l’Institut National de la Cartographie et de la télédétection

OCR : Optical Character Recognition

ROC : Reconnaissance optique de caractères

MSER : Maxially Stable Extremal Regions (détecteur de caractéristiques de régions


maximales stables)

HP : Hewlett-Packard

GPS : Global Positionnig System

UTM : Universal Transverse Mercator

TIFF : Tag Image File Format

JPEG : Joint Photographic Expert Group

GIF : Graphics Interchange Format

PNG : Portable Network Graphics

SIG : Système d’information Géographique

ESRI : Environmental Systems Research Institute

WER : Word Error Rate

CER : Character Error Rate

OTC : Office de la Topographie et du Cadastre

TPD : travaux topographiques particuliers diver


Introduction générale

La toponymie (du grec topos, lieu, onoma, nom), est définie par l’institut national de
l’information géographique et forestière (IGN) comme la science qui traite la formation et
l’évolution des noms des lieux (toponymes), ou encore, l’ensemble des toponymes d’un pays,
d’une région, ou d’une carte.
L'étude des noms de lieux, revêt une importance cruciale dans de nombreux domaines tels que
la cartographie, la recherche géographique, le tourisme et la gestion des ressources naturelles.
Les noms de lieux sont des éléments fondamentaux pour la compréhension et la représentation
précise de notre environnement géographique. Cependant, la collecte et l'organisation
systématique de ces informations toponymiques peuvent présenter des défis importants.
Dans le cadre de ce projet de fin d'études, notre objectif est de développer un prototype de base
de données de la toponymie, en se basant sur la carte Manzil Bou Zalfa N.E. 1 :25000, qui
permettra la collection, le stockage, la gestion, et la mise à jour d’une manière efficace et
exhaustive des données toponymiques. De plus, nous visons à utiliser un modèle
d'apprentissage automatique performant pour la détection automatique des toponymes à partir
de la carte.
L'utilisation de techniques d'apprentissage automatique offre des opportunités prometteuses
pour automatiser la détection des noms de lieux à partir de la carte. Néanmoins, ceci peut
affronter plusieurs difficultés à cause de l’échelle de la carte et l’encombrement de données de
la toponymie et autres.
Ce rapport explorera l'état de l'art de la toponymie et de la détection des noms de lieux, en
examinant les travaux de recherche existants dans ces domaines. Nous présenterons également
la conception de notre prototype de la base de données de la toponymie, en détaillant le schéma
et les entités clés qui la composent. Le prétraitement des données sera abordé pour garantir la
qualité et la cohérence des informations toponymiques.
Nous procéderons ensuite à la modélisation et à l'apprentissage automatique, en sélectionnant
un algorithme approprié pour la détection du texte à partir de la carte (dans notre cas le texte ce
sont les toponymes) et en construisant un modèle performant.
Enfin, nous évaluerons les performances de notre prototype en utilisant des mesures appropriées
et en les comparant avec d'autres approches existantes. Nous analyserons les résultats obtenus,
discuterons les limites de notre approche et proposerons des pistes d'améliorations futures. Ce
projet de fin d'études vise à apporter une contribution significative à la toponymie et à la

1
détection automatiques des noms de lieux, en offrant un outil efficace et automatisé pour la
collecte et la gestion de ces informations essentielles.

2
Chapitre 1 :
Contexte général

3
1. Introduction :
Ce stage de mémoire a été réalisé au sein de l’office de la topographie et du cadastre, alors,
dans ce chapitre, nous allons tout d’abord présenter l’organisme de stage et ses domaines
d’activités, puis nous allons énoncer la problématique et les objectifs que nous visons atteindre
en réalisant notre projet.

2. Présentation de l’organisme d’accueil :

2.1. Présentation de l’OTC :

L’office de la topographie et du cadastre (OTC) trouve ses racines le 15 juillet 1886 instituant
en Tunisie le régime de l’immatriculation foncière.
En 1974, l’OTC a été créé en tant qu’entreprise publique à caractère industriel et commercial
sous la tutelle du Ministère de l’Equipement et de l’habitat.
En 2009, l'appellation "Office de la Topographie et de la Cartographie" a été modifiée pour
devenir "Office de la Topographie et du Cadastre".

Figure1 : organigramme général de l’OTC (otc.nat.tn)

4
2.2. Missions :

L’OTC se conforme aux fonctions prévues par la législation et les règlements en vigueur en ce
qui concerne l’immatriculation foncière et le cadastre.
L'OTC exécute les travaux d'infrastructure de base relatifs aux réseaux géodésiques et de
nivellement constituant la base et la référence de tous les projets de développement comme
mission de service public pour le compte de l'État ainsi que des travaux à caractère commercial
pour le compte des tiers ou de l’État.
Les travaux d’infrastructure pour le compte de l’Etat :

- Assurer l'implantation et la conservation d'un réseau géodésique et d'un réseau de


nivellement de précision à l’échelle nationale.

- Exécuter et contrôler les travaux d'immatriculation foncière et du cadastre.

- Délimiter les terres, les domaines publics et les circonscriptions administratives.

- Assurer la production, l'entretien et la diffusion de l'information foncière.


Les travaux à caractère commercial pour le compte des tiers ou de l’État :

- L'exécution et le contrôle des travaux d'immatriculation foncière et du cadastre.

- Les lotissements au sol et en copropriété.

- Les travaux topographiques particuliers divers (TPD).

- L'établissement des cartes touristiques et thématiques.

- L'exploitation et la connexion au réseau G.N.S.S en temps réel et en différé pour les


professionnels.

- La prise de vues aériennes et l'établissement des plans topographiques à grande échelle.


3. Présentation du projet :
Notre projet est réalisé au sein de l’Office de la Topographie et du Cadastre dans le but de créer
un prototype d’une base de données toponymiques qui peut être ultérieurement généralisé sur
toutes les cartes de la Tunisie pour arriver enfin à réaliser une base de données de la toponymie
du territoire tunisien.
3.1. Problématique :
La toponymie révèle une importance indiscutable dans plusieurs domaines tels que la
cartographie et le patrimoine linguistique et culturel. Cependant, l’accès aux données
toponymiques est difficile à cause de l’absence d’une base de données de la toponymie de la

5
Tunisie, ce qui engendre des données toponymiques qui ne sont pas normalisées ni organisées
pour être accessibles, exploitables et mis à jour si nécessaire.
Une base de données de la toponymie permettrait de collecter, stocker et organiser les données
toponymiques d’une manière à rendre leurs exploitations plus facile et efficace.
3.2. Objectifs :
L’objectif de ce travail est de réaliser un prototype d’une base de données toponymiques en
prenant la carte MANZIL BOU ZALFA N.E 1 : 25 000 comme référence. Ce prototype peut
être généraliser sur les cartes de la Tunisie pour constituer la base fondamentale pour la
réalisation de la base de données toponymiques de la Tunisie.
Ensuite on vise à appliquer l’intelligence artificielle à la détection des noms des lieux pour
automatiser la détection des toponymes à partir d’une carte.
4. Conclusion :
Dans ce chapitre, nous avons présenté l’office de la topographie et du cadastre et ces différentes
missions, ainsi le contexte et les objectifs du projet.

6
Chapitre 2 :
Etat de l’art de la
toponymie

7
1. Introduction :

La toponymie est l'étude des noms de lieux (les toponymes), qu'il s'agisse de noms de villes,
de régions, de montagnes, de rivières ou d'autres composants géographiques. Elle présente une
grande importance dans de nombreux domaines et de multiples applications, tels que :
- Histoire et culture : Les noms de lieux peuvent fournir des informations cruciales sur
l'histoire et la culture d'une région donnée [5]. Ils témoignent des populations et leurs
particularités linguistiques, et des événements historiques qui caractérisent une région.
L’étude de la toponymie permet de comprendre les migrations, les échanges culturels et
les héritages des différentes civilisations.
- Linguistique : La toponymie est fortement liée à la linguistique, car les toponymes
reflètent souvent les spécificités linguistiques d'une région. L'étude des toponymes aide
à interpréter l'évolution des langues, les influences culturelles et les relations entre les
différentes communautés linguistiques [2].
- Cartographie : La toponymie est primordiale pour l’identification, la localisation et la
cartographie des lieux. Les toponymes sont des moyens efficaces pour communiquer
des informations géographiques, faciliter la navigation, la gestion des ressources
naturelles et l'aménagement du territoire. Les cartographes et les géographes utilisent la
toponymie pour créer des cartes précises et pour étudier les caractéristiques physiques
d'une région.
- Archéologie et recherche scientifique : Dans le domaine de l'archéologie, la toponymie
peut apporter des informations sur les anciennes implantations humaines et les sites
historiques. Ainsi, les noms des lieux aident les chercheurs à retracer les mouvements
migratoires et les changements climatiques et géologiques.
2. charte de toponymie (d’après IGN) :
2.1. Définitions :
2.1.1. Les toponymes officiels : ce sont les noms des entités administratives à savoir les
régions, les arrondissements, les communes… On note que les communes supprimées à la suite
d’une fusion ne sont plus des entités administratives, leur nom par conséquent, n’est plus un
toponyme officiel.
2.1.2. Les toponymes non officiels : représentent la plupart des toponymes et peuvent être
subdivisés en :
- lieux habités non administratives.

- lieux dits, zones boisées, zones de cultures…


8
- les oronymes : les détails des reliefs (montagne, colline) et mêmes les détails des reliefs
côtiers tels que les caps et les iles.
- les hydronymes : les noms des lieux caractérisés par la présence d’eau qu’elle que soit
permanente ou temporaire. Ces toponymes sont écrits en bleu sur les cartes 1 :25 000
- les odonymes : les noms des voies de communication.
2.1.3. Termes génériques et éléments spécifiques :
Pour l’échelle 1 :25 000, la majorité des toponymes ont une valeur descriptive qui s’exprime
par un terme générique liée à un élément spécifique.
Le terme générique représente d’une manière générale la nature de l’élément géographique
dénommé, alors que l’élément spécifique vient de compléter le terme générique et peut être un
article ou/et un autre élément linguistique.
Ces deux composants d’un toponyme se lient à l’aide des articles (le, la, les), des locutions
adverbiales (à côté, au-dessus…) ou des prépositions (à, de, sur…).
2.1.4. Désignations cartographiques :
Ce sont des noms communs qui révèlent la nature et la fonction d’un élément représenté par un
signe conventionnel. Ce dernier constitue un renseignement sur le toponyme sans en faire partir.
2.2. Les règles d’écriture :
2.2.1. Les signes diacritiques :
Les signes diacritiques sont toujours notés sur les chiffres majuscules et minuscules.
2.2.2. Les articles :
Un article placé devant un nom précise le genre, le nombre et le sens dont le nom est pris.
Cependant, il n’a aucune signification propre à lui.
L’emploi ou non d’un article est déterminé selon des enquêtes sur la linguistique locale, il est
aussi conditionné par deux règles : règle de l’usage et règle de l’accord.
Brièvement, l’article est utilisé, pour les lieux habités et les lieux-dits non habités, si l’usage le
confirme. Il est non utilisé dans le cas où le terme générique du nom confirme d’une manière
explicite la nature du lieu.

2.2.3. Les chiffres :


Généralement, les nombres ordinaux ou cardinaux s’écrivent en toutes lettres, hormis quelques
cas dont l’usage impose l’utilisation des chiffres arabes pour les dates ou des chiffres romains.
2.2.4. Code nature :
C’est l’expression employée pour spécifier la fonction ou la catégorie géographique de
l’élément en question. Le code nature exprime les spécificités correspondantes à chaque

9
produit, il est représenté en général sous forme d’abréviation qui peut rassembler différents
détails.
2.2.5. Désignation cartographique :
La désignation cartographique est déterminante pour la bonne compréhension des
renseignements d’un toponyme. La désignation ne peut pas être notée lorsque le toponyme
assure explicitement sa signification. Par exemple, on ne trouve pas de désignations des cours
d’eau (rivière, ruisseau, fleuve).
2.2.6. Majuscules et minuscules :
Tous noms propres, noms communs ou adjectifs prennent toujours une majuscule.
Chaque mot d’un terme générique complexe prend une majuscule.
Les articles définies et indéfinies sont toujours en minuscule.
Les prépositions et les adverbes prennent une majuscule au début du toponyme, mais une
minuscule à l’intérieur ou à la fin du toponyme.
2.2.7. Pluriels des noms propres :
Généralement, les noms propres ne se mettent pas en pluriel. Néanmoins, l’usage s’oppose à
cette règle : les prénoms précédés par un article pluriel se finissent par un ‘’s’’.
2.2.8. Les sigles :
Dans ce cas on fait recours à la prononciation des sigles. En effet, lorsque le sigle se prononce
comme un mot, on l’écrit sans point entre les lettres (UNESCO). Sinon, lorsqu’il se prononce
lettre par lettre, on met un point entre chacune de celles-ci (R.R.).
3. Base de données toponymiques :
La toponymie joue un rôle primordial dans la communication et la compréhension de notre
environnement. En effet, une base de données de la toponymie constitue un environnement de
recueil organisé pour les toponymes, facilitant ainsi la collecte, la saisie, le stockage et la mise
à jour des données toponymiques. Cette base de données constitue une ressource cruciale pour
les cartographes, les chercheurs et les décideurs, offrant un coup d’œil détaillé de l’évolution et
de la signification des lieux au cours du temps. On peut dire donc que la base de données de la
toponymie fait l’objet d’un outil fondamental pour la préservation du patrimoine géographique,
linguistique et culturel.
Dans la suite, nous citons quelques exemples de travaux réalisés sur les bases de données
toponymiques, leurs contextes de création, la démarche suivie et les résultats obtenus.

10
3.1. Exemple1 :
Cet exemple est extrait d’un article intitulé : REALISATION D’UNE BASE DE DONNEES
TOPONYMIQUES, réalisé par : Atoubi B., Chemaa B., Brahimi Moulay M'hamed au sein de
l’Institut National de la Cartographie et de Télédétection (INCT).
3.1.1. Contexte :
L’INCT (l’organisme officiel de la cartographie en Algérie) se rend compte des complications
de la toponymie locale à cause de l’inexistence d’une politique toponymique nationale claire et
de la complexité de la transcription des caractères arabes en caractères latins [4]. L’étude de la
carte d’Algérie dévoile une grande variation dans l’écriture d’un même toponyme. Il est
nécessaire donc de mettre en place une base de données toponymiques (appelée BDT_DZ) qui
vise à normaliser les noms des lieux.
3.1.2. Méthodologie :
La démarche de la création de la base de données consiste à :
- Collecte de données à partir des cartes topographiques, fichiers des limites
administratives, carnet justificatif des nom…
- Mise en place du schéma conceptuel : détermination des propriétés, identifications des
entités et des relations, affectation des propriétés aux entités et relations.
- Saisie et implémentation des données.

Figure 2 : Schéma générale (ATOUI B. et al 2000)

Pour conclure, la base de données toponymiques est réalisée pour répondre aux besoins
suivants : la préservation du patrimoine national de la toponymie, faciliter la mise à jour des
données et la standardisation des données toponymiques.
11
3.2. Exemple2 :
L’exemple est pris d’un document délivré en décembre 2018 par l’IGN : Note sur la toponymie
dans la BDTOPOv3.
3.2.1. Statut :
Les noms de lieux sont portés directement par l’objet, avec statut de validation.
La base de données comporte un champ TOPONYME qui contient le nom du lieu sous les
règles d’écriture, il est complété par l’attribut STATUT_TOP qui définit son degré de validation
(validé, collecté, régional).
3.2.2. Les tables dédiées :
Les détails d’une toponymie sont diffusés dans des tables dédiées. Ces dernières sont délivrées
dans la BDTOPOv3 sous le nom de TOPONYME_THEME.
Les tables suivantes sont les compléments des toponymes pour chaque thème :

Tableau 1 : les tables de la BDTOPOv3 (IGN 2021)


3.2.3. Extraits des tables dédiées :

Figure 3 : Extrait de la table TOPONUMIE_LIEUX_NOMMES (IGN 2021)

Figure 4 : Extrait de la table TOPONYMIE_SERVICES_ET_ACTIVITES (IGN 2021)

12
4. Apprentissage automatique et détection des noms des lieux :
L'apprentissage automatique, une branche de l'intelligence artificielle, a révolutionné de
nombreux domaines, y compris la détection du texte à partir des images. Cette discipline
fascinante repose sur l'idée de permettre aux machines d'apprendre à partir de données et de
prendre des décisions sans être explicitement programmées.
Dans le contexte de la détection des noms de lieux, l'apprentissage automatique se révèle être
une technologie précieuse qui permet aux systèmes informatiques de reconnaître, extraire et
comprendre automatiquement les références aux endroits dans les textes, L’idée ici c’est
d’utiliser des modèles de détection de texte dans le but de retenir automatiquement les noms
des lieux à partir d’une carte. Cette capacité a des implications importantes dans des domaines
tels que la cartographie, la recherche d'informations géographiques, la géolocalisation et bien
d'autres, contribuant ainsi à une meilleure compréhension de notre monde de manière
automatisée et efficace.
4.1. Définition des modèles :
La détection des noms des lieux se base sur des modèles prédéfinis de détection du texte à partir
des images. Dans cette partie, nous allons définir deux modèles, le modèle MATLAB et le
modèle Tesseract OCR. Ces deux modèles vont ultérieurement être appliquer à la carte de notre
cas d’étude.
4.1.1. Modèle MATLAB :
Le modèle est pris à partir de la documentation du logiciel MATLAB. Il est appliqué
généralement sur les panneaux de signalisation ou bien sur un document dont le texte est
uniforme et clair. Ce modèle exploite le système OCR (Optical Character Recognition) pour la
détection du texte accompagné par un ensemble de traitement effectué sur l’image.
L’OCR ou encore ROC (Reconnaissance optique de caractères) est un système qui permet de
reconnaitre et convertir des images de textes tapés, manuscrits ou imprimés en texte encodé par
machine.
Cet exemple montre comment détecter les régions contenant un texte dans une image en
utilisant un détecteur de caractéristiques de régions maximales stables (MSER).
4.1.2. Tesseract OCR :
Tesseract est un moteur de reconnaissance optique de caractères (OCR) open source, développé
par Google. Il est conçu pour convertir des images contenant du texte, qu'il s'agisse de textes
dactylographiés, manuscrits ou imprimés, en texte machine-encodé [6].

13
- Origine : Tesseract a été initialement développé par Hewlett-Packard (HP) dans les
années 1980 à des fins de reconnaissance de texte. Par la suite, il a été open source en
2005 et Google l'a repris, contribuant à son développement ultérieur.
- Langues prises en charge : Tesseract prend en charge de nombreuses langues du monde
entier. Il est capable de reconnaître et de traiter des scripts variés, notamment latin,
cyrillique, chinois, arabe, hébreu, japonais et bien d'autres. Cela en fait un outil
polyvalent pour la reconnaissance de texte multilingue.
- Modèles de formations : Tesseract utilise des modèles de formation pour améliorer la
précision de la reconnaissance dans différentes langues et pour différents types de
polices. Les utilisateurs peuvent également créer leurs propres modèles de formation
pour des tâches spécifiques.
- Input : Tesseract prend en charge une variété de formats d'entrée, notamment des images
de texte au format TIFF, JPEG, GIF, PNG et autres.
- Output : Les résultats de la reconnaissance peuvent être générés au format texte brut
susceptible d’être édité.
- Amélioration : Tesseract est constamment amélioré par une communauté de
développeurs et d'utilisateurs du monde entier. Les mises à jour régulières incluent des
améliorations de la précision, des fonctionnalités étendues et des corrections de bogues.
- Utilisations : Tesseract est largement utilisé dans des applications de numérisation de
documents, de conversion de livres imprimés en formats numériques, de recherche
textuelle dans des images, d'automatisation de processus, de reconnaissance de plaques
d'immatriculation, d'extraction de texte de photos, et bien plus encore.
En résumé, Tesseract est un outil OCR puissant, polyvalent et en constante évolution, qui
permet de convertir efficacement des images de texte en texte machine-encodé, avec une prise
en charge étendue des langues et des formats d'image.
4.2. Exemple :
Détection automatique de texte à partir d’une carte historique, extrait d’un article intitulé
« Automated Extraction of Labels from Large-Scale Historical Maps ».
4.2.1. Contexte :
Ce document aborde une combinaison appropriée de détection automatique de texte et de
reconnaissance de texte (text recognition) à partir de cartes historiques à grande échelle dans le
but d'extraire des informations exploitables par des machines [1].
L’image d’entrée est un sous-ensemble de la carte de Hambourg réalisé sous la direction de
Willm. Lindley, Esq. C.E. Avril 1841.

14
Figure 5 : image d’entrée : carte de Hambourg 1841 (Schlegel, I 2021)

4.2.2. Résultats :
Dans cet article, le modèle utilisé est Tesseract OCR pour obtenir les résultats résumés dans le
tableau ci-dessous

15
Tableau 2 : résultat du Tesseract OCR (Schlegel, I 2021)

5. Conclusion :
Dans ce chapitre, nous avons exploré l'état de l'art de la toponymie, en mettant en lumière
l'importance des noms de lieux dans de nombreuses applications, de la cartographie à la
navigation GPS en passant par la recherche d'informations géolocalisées. Nous avons
également examiné différents exemples de bases de données toponymiques, montrant la
diversité des sources et des formats dans lesquels ces données sont disponibles.
De plus, nous avons plongé dans le domaine de l'apprentissage automatique en relation avec la
détection du texte à partir des images pour l’appliquer ultérieurement à la détection des noms
des lieux à partir des cartes, en soulignant comment les avancées dans ce domaine ont
révolutionné la façon dont nous traitons les données géospatiales.

16
En conclusion, la toponymie et la détection des noms de lieux jouent un rôle essentiel dans
notre compréhension du monde qui nous entoure, et l'utilisation de l'apprentissage automatique
pour extraire ces informations de manière efficace ouvre de nouvelles possibilités passionnantes
dans un large éventail d'applications. Cependant, il reste encore des défis à relever, notamment
la gestion de la variabilité linguistique et l'adaptation à des contextes spécifiques.

17
Chapitre 3 :
Conception du
prototype de la
base de données
toponymiques

18
1. Introduction :
Dans ce chapitre, nous entamons la phase cruciale de la conception de notre prototype de base
de données toponymiques. Tout commence par la présentation de la carte de référence, une
pièce fondamentale qui constitue la source de données de notre projet. Ensuite, nous nous
plongerons dans la description des entités essentielles qui constitueront notre base de données,
mettant en lumière les caractéristiques et les relations clés.
À travers cette exploration, nous jetterons la méthodologie nécessaire pour la création d'un
prototype de base de données toponymique robuste et fonctionnelle, prête à répondre à nos
objectifs de recherche et d'analyse.
2. Carte de référence :
La réalisation du prototype de la base de données de la toponymie est fondée sur les
informations et les données fournies par la carte : MANZIL BOU ZALFA N.E 1 : 25 000.
Cette carte constitue la source fondamentale des données toponymiques alimentant notre base
de données, elle va fournir les toponymes, leurs types (oued, lieux habités, reliefs…), la position
géographique.
3. Méthodologies et logiciels :
3.1. Logiciels :
3.1.1. ArcGIS :
ArcGIS est une suite de systèmes d’information géographique (SIG) développé par ESRI qui
permet de collecter, gérer, organiser, analyser et diffuser des informations géographiques.
ArcGIS a permis le géoréférencement de la carte, l’extraction des toponymes et des
informations relatifs (types, coordonnées, noms…) et la réalisation de la table du prototype de
la base de données de la toponymie.

Figure 6 : logo du logiciel ArcGIS


3.1.2. GéomaTiqua :
GéomaTiqua est un logiciel Géodésique topographique qui génère une base de données
géographique, il permet le traitement automatique de l’information géographique
simultanément sur quatre systèmes de coordonnées (STT, IGN, NTT ou UTM et WGS84).

19
Ce traitement est garanti grâce à des fonctions mathématiques universelles et des relations
basées sur les paramètres de transformations.
GéomaTiqua va être utilisé pour convertir les coordonnées du Lambert au UTM.

Figure 7 : logo du logiciel GéomaTiqua


3.1.3. PostgreSQL :
PostgreSQL est un système de gestion de base de données relationnelles. Il a été développé
par le département des sciences informatiques de Berkeley à l’université de Californie.
Ce logiciel a été utilisée pour la visualisation de la base de données et pour essayer quelques
requêtes.

Figure 8 : logo du logiciel PostgreSQL


3.2. Méthodologies :
Après avoir géoréférencé la carte, nous commençons tout d’abord par bien lire la carte. Il est
important de se mettre dans l’échelle, cette carte est à l’échelle 1 :25000.
Une bonne lecture de la carte va permettre la bonne compréhension des renseignements qu’elle
apporte qui vont servir à la réalisation du prototype de la base de données. Voici les avantages
d’une solide lecture de la carte :
- Collecte des données : identification précise des toponymes et leurs emplacements
exactes sur la carte. Nous pouvons même retenir les coordonnées exactes puisque la
carte est géoréférencée au préalable.
- La sélection des données : une carte topographique fournit de multiples données autres
que la toponymie, lire attentivement la carte va permettre de distinguer entre les

20
données et de retenir que les données souhaitées qui vont servir au remplissage de la
base de données.
- Identification des variations toponymiques : En analysant différentes cartes historiques
ou actuelles, nous pouvons identifier les variations dans les noms de lieux au fil du
temps. Cela enrichit notre base de données en ajoutant une dimension historique.
- Analyses des relations spatiales : comprendre les relations spatiales entre les
toponymes, tels que la proximité géographique, les frontières administratives, etc.…
- Eviter les erreurs : Une compréhension correcte des symboles, de l’échelle et de la
légende de la carte contribue à éviter les erreurs de saisie et d'interprétation lors de
l’alimentation de la base de données.
- Planification des données : La lecture de la carte aide à planifier la manière dont les
données seront organisées dans la base de données et à définir les champs pour
enregistrer des informations spécifiques sur les toponymes en fonction de ce que nous
avons observé sur la carte.
- Interprétations : L'analyse des données toponymiques peut révéler des tendances
géographiques, historiques ou culturelles, ce qui peut être utile pour la recherche ou la
prise de décision.
L’étape qui vient après c’est d’alimenter la table avec les toponymes et leurs données relatives.

Lecture de la Choix des Saisie des Visualisation


carte données données de la base

- Carte
Définir les
- Etat justificatif Ouvrir la base
champs de la
des noms sur PostgreSQL
table
-fichiers des Remplissage des
limites champs
administratives

Figure 9 : schéma récapitulatif de la méthodologie de la réalisation du prototype d’une base de


données toponymiques

4. Description des entités :


Dans ce qui suit, nous explorons les différents champs qui constituent le prototype de base de
données, ci-dessous un tableau illustrant ces champs.

21
Champs Type
Nom Texte
Type Texte
Lieux_dits Texte
Lieux_non_dits Texte
Code Double précision
Xlambert Double précision
Ylambert Double précision
Xutm Double précision
Yutm Double précision
Police_ecr Texte
Gouvernorat Texte
Delegation Texte
Secteur Texte
Carte Texte
Date Double précision
Historique Texte
Geom Point
Tableau 3 : les champs du prototype de la base de données toponymiques

Nous allons par suite détailler les champs de la base de données pour comprendre les
caractéristiques et les relations des entités.
- Nom : c’est le champ qui contient les noms des lieux tirés directement à partir de la
carte d’une manière fiable.
- Type : ce champ reflète les catégories des toponymes qui sont : barrage, carriere, ecole,
falaise, ferme, hanshir, institut, lycee, municipalite, point d’eau, Qobba, repere de
nivellement, rocher, route, ruine romaine, source, station de pompage, station STEG,
transformateur, ville, wad permanent, wad temporaire, zewya.
On note que ces catégories représentent que les noms des lieux qui existe sur la carte de
Manzil Bou Zalfa N.E et ne représentent pas tous les catégories qu’on peut trouver dans les
cartes à l’échelle 1 :25000.
- Lieux_dits, lieux_non_dits : pour chaque toponyme, un seul champ parmi les deux
contient une valeur. On distingue alors les lieux dits (en droit) des lieux non-dits (en
italique).
- Code : les entités de même type ont un code commun.

22
- Xlambert, Ylambert, Xutm, Yutm : ces champs contiennent les coordonnées x et y
exactes de chaque toponyme sur la carte. Les coordonnées Lambert sont tirés
directement à partir de la carte dans le logiciel ArcGIS (puisque la carte est
géoréférencée avec des coordonnées Lambert) alors que les coordonnées UTM sont
obtenues à la suite d’une conversion des coordonnées initiales avec le logiciel
GeomaTiqua. La position géographique des toponymes est l’attribut le plus important
puisque chaque toponyme a ses propres coordonnées.
- Police_ecr : c’est la police d’écriture des toponymes sur la carte, les détails sont extraits
à partir du document de l’état justificatif des noms. (Exemple : les points d’eau dont le
toponyme est ‘Pts’ s’écrit en taille 5 Geneva Italique Maigre).
- Gouvernorat, Delegation, Secteur : sont obtenus par superpositions des shapefiles des
limites administratives sur la carte.
- Carte : c’est le nom entier de la carte, ce champ semble inutile dans ce cas mais ce
prototype de base de données peut être utilisé pour rassembler les données
toponymiques de plusieurs cartes dans une seule base de données, dans ce cas, ce champ
sera indispensable.
- Historique : c’est un champ qui peut être mis à jour ultérieurement après une recherche
approfondie sur l’historique des noms des lieux.
Après avoir alimenté la base de données, nous avons obtenu une table contenant 17 colonnes et
438 lignes (toponymes). Voici des extraits de la base de données réalisées :

Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits, lieux_non_dits,
code, et les coordonnées en Lambert et en UTM.
23
Figure 11 : extrait représentant le découpage administratif en gouvernorat, délégation et secteur.

4.1. Exemple de requêtes :

Figure 12 : exemple de requête attributaire

24
Figure 13 : exemple de requête spatiale

5. Conclusion :
La conception du prototype de la base de données toponymiques constitue une étape cruciale
dans le développement de notre système. Dans ce chapitre, nous avons examiné en détail
chaque aspect de cette conception, en commençant par la carte de référence qui sert de
fondement à la base de données. Cette carte, en tant que source primaire de données
géographiques, est essentielle pour garantir la précision et la cohérence de notre système.
La méthodologie adoptée a été discutée en détail, mettant en évidence les étapes clés du
processus de conception, de la modélisation des données à la création des relations entre les
entités. Cette méthodologie fournira un cadre solide pour la construction de notre base de
données.
Enfin, nous avons fourni une description détaillée des entités qui seront stockées dans notre
base de données. Ces entités, représentant divers éléments géographiques, serviront de base
pour notre prototype. Leur conception soignée garantit que la base de données sera en mesure
de répondre efficacement aux besoins de collecte, de stockage et d'interrogation des données
toponymiques.

25
Chapitre 4 :
Application de
l’apprentissage
automatique pour la
détection des noms des
lieux

26
1. Introduction :
Dans ce chapitre, nous allons utiliser l’intelligence artificielle pour détecter automatiquement
les noms des lieux à partir de la carte de référence. Nous allons traiter deux modèles, le modèle
Matlab et le modèle Tesseract pour voir les résultats obtenus tout en expliquant comment nous
avons préparé les données pour être exploitées dans les modèles.
Ensuite, nous allons évaluer les deux modèles avec des mesures de performances utilisées pour
quantifier la précision des modèles OCR.
2. Fonctionnement du système OCR :
Le fonctionnement d’un système OCR comprend 6 étapes :
Etape 1 : Acquisition de l'image : Tout d'abord, le système OCR acquiert une image qui contient
du texte. Cela peut être un document scanné, une photo d'une page de texte, une écriture
manuscrite ou comme dans notre cas, une carte.
Etape 2 : Prétraitement de l'image : Avant de procéder à la reconnaissance des caractères,
l'image est souvent soumise à un prétraitement. Cela peut inclure la correction de l'orientation,
l'amélioration de la qualité de l'image en supprimant les taches ou le bruit, et la conversion en
niveaux de gris ou en noir et blanc pour simplifier la reconnaissance.
Etape 3 : Segmentation : L'image est ensuite analysée pour séparer le texte des images, des
lignes de séparation, etc. Cela permet au système de distinguer clairement où se trouvent les
caractères à reconnaître.
Etape 4 : Reconnaissance de caractères : La partie centrale du processus OCR consiste à
identifier les caractères individuels dans l'image. Cela implique l'utilisation d'algorithmes de
traitement d'image et de modèles de caractères pour tenter de faire correspondre les formes à
des caractères spécifiques.
Etape 5 : Post-traitement : Après la reconnaissance des caractères, un post-traitement peut être
appliqué pour corriger les erreurs et améliorer la précision du texte reconnu. Cela peut inclure
la recherche de mots mal orthographiés et l'application de règles grammaticales pour améliorer
la qualité du texte.
Etape 6 : Production de texte : Une fois que la reconnaissance est terminée et que le texte a été
corrigé, le système OCR produit un fichier texte éditable contenant la version électronique du
texte d'origine.

La figure en dessous résume le fonctionnement général d’un système OCR.

27
Figure 14 : schéma récapitulatif du fonctionnement d’un système OCR

28
3. Mesures de performances :
Un modèle OCR fournit généralement des mesures de précision de reconnaissance lorsqu'il est
utilisé en mode d'évaluation ou lors de la comparaison avec un ensemble de données connu.
Ces mesures de précision peuvent varier considérablement en fonction des données d'entrée et
du cas d'utilisation spécifique. La précision des modèles OCR peut être assez élevée pour des
textes bien prétraités et propres, mais elle peut diminuer pour des documents plus complexes
ou bruyants.
Pour évaluer nos résultats, nous allons utiliser deux mesures de performances :
3.1. Character Error Rate :
Le "Character Error Rate" (CER) est couramment appelé "Taux d'Erreur de Caractères" en
français. Il s'agit d'une mesure de l'exactitude de la reconnaissance de caractères dans le
contexte de la reconnaissance optique de caractères (OCR) ou de la transcription de la parole
[7]. Le CER quantifie le pourcentage d'erreurs de caractères entre le texte reconnu (généré par
un système OCR ou de transcription) et le texte de référence (le texte original ou de qualité
connue). Nous pouvant calculer le CER en utilisant la formule suivante :
CER = (S+D+I) / N où
S : Le nombre d'erreurs de substitution (caractères incorrectement reconnus).
D : Le nombre d'erreurs de suppression (caractères manquants).
I : Le nombre d'erreurs d'insertion (caractères en excès qui ne devraient pas être là).
N : Le nombre total de caractères dans le texte de référence.
Après avoir calculer le CER, il est comparé par les tests de référence suivants :
- Bonne précision OCR : CER de 1 à 2 % (précision de 98 à 99%)
- Moyenne précision OCR : CER de 2 à 10 %
- Mauvaise précision OCR : CER > 10 % (moins de 90 % de précision)
3.2. Word Error Rate :
Le "Word Error Rate" (WER), qui mesure le taux d'erreurs de mots dans la reconnaissance
optique de caractères (OCR) ou la transcription de la parole, peut être appelé en français le
"Taux d'Erreur de Mots" ou simplement "TER" pour abréger. Il se calcule avec la formule
suivante : WER = (S+D+I) / N où
S : Le nombre d'erreurs de substitution (mots incorrectement reconnus).
D : Le nombre d'erreurs de suppression (mots manqués).
I : Le nombre d'erreurs d'insertion (mots en excès qui ne devraient pas être là).
N : Le nombre total de mots dans le texte de référence.

29
4. Modèle MATLAB :
MATLAB est une plateforme de programmation conçue spécifiquement pour les ingénieurs et
les scientifiques afin d'analyser et de concevoir des systèmes et des produits qui transforment
notre monde. Le cœur de MATLAB est le langage MATLAB qui se base sur les matrices et
offre une manière des plus intuitives d'exprimer les concepts mathématiques en informatique.
MATLAB a servi pour traiter un modèle OCR visant la détection automatiquement des noms
des lieux à partir de la carte.

Figure 15 : logo du logiciel MATLAB

Ce modèle vise à détecter les régions textuelles dans la carte à fin d’appliquer le principe de
l’OCR pour extraire le texte (les noms des lieux) sous forme machine-encodé.
La procédure pour obtenir en fin les noms des lieux consiste en 5 étapes :
Etape 1 : détection des régions du texte :
Le détecteur de caractéristiques MSER fonctionne bien pour trouver des régions de texte. Il est
efficace en raison de la couleur constante et du fort contraste du texte.
Etape 2 : suppression des régions non textuelles en fonction des propriétés géométriques de
base.
Bien que l'algorithme MSER détecte la plupart du texte, il détecte également de nombreuses
autres régions stables dans l'image qui ne sont pas du texte. On peut donc utiliser une approche
basée sur des règles pour supprimer les régions non textuelles en exploitant des propriétés
géométriques du texte pour filtrer les régions non textuelles. Il existe plusieurs propriétés
géométriques qui sont utiles pour discriminer entre les régions de texte et les régions non
textuelles, notamment : rapport d'aspect, excentricité, étendue, Solidité.
Etape 3 : suppression des régions non textuelles en fonction de la variation de la largeur des
traits.
Une autre mesure couramment utilisée pour discriminer entre le texte et les régions non
textuelles est la largeur des traits. La largeur des traits est une mesure de la largeur des courbes
et des lignes qui composent un caractère. Les régions de texte ont tendance à avoir peu de

30
variation de la largeur des traits, tandis que les régions non textuelles ont tendance à avoir des
variations plus importantes.
Etape 4 : Fusion des régions de texte pour obtenir le résultat final de détection.
À ce stade, tous les résultats de détection sont composés de caractères de texte individuels. Pour
utiliser ces résultats dans des tâches de reconnaissance, telles que la reconnaissance optique de
caractères (OCR), les caractères de texte individuels doivent être regroupés en mots ou en lignes
de texte. Cela permet la reconnaissance des mots réels dans une image, qui contiennent des
informations plus significatives que les caractères individuels.
Etape 5 : Reconnaître et afficher le texte détecté en utilisant la reconnaissance optique de
caractères (OCR).
Après avoir détecté les régions de texte, on utilise la fonction OCR pour reconnaître le texte à
l'intérieur de chaque zone englobante. On note qu'en l'absence de détection préalable des
régions de texte, la sortie de la fonction OCR serait considérablement plus bruyante.
Le tableau suivant illustre les noms des lieux détectés par ce modèle et leurs équivalents sur la
carte :
Résultat du modèle Le toponyme (écriture de la carte) WER CER
Bir Bilctsa Bir Bil Hsan 0.67 0.25
Bir Big ‘Arou Bir Bin Arous 0.67 0.23
Bir al Hisyal Bir al Hisyan 0.33 0.08
RR R.R. 1.00 0.50
Minit Or Dhwil Minit Om Dhwil 0.33 0.07
Al'Mallasin Al Mallasin 1.00 0.09
H an s/h i Hanshir 4.00 0.71
Tifilloun Tifilloun 0.00 0.00
MAN/ZIL BOU ZALFA N.E. MANZIL BOU ZALFA N.E. 0.25 0.05
0.92 0.22

Tableau 4 : résultats du modèle MATLAB et ces mesures de performance

5. Modèle Tesseract :
Visual Studio Code est un éditeur de code source léger mais puissant qui s'exécute sur les
ordinateurs et est disponible pour Windows, macOS et Linux. Il inclut une prise en charge
intégrée pour JavaScript, TypeScript et Node.js, et bénéficie d'un écosystème riche en

31
extensions pour d'autres langages et environnements d'exécution (comme C++, C#, Java,
Python, PHP, Go, .NET).
Cet environnement a permis d’exécuter un code en python pour détecter les toponymes en
utilisant le modèle Tesseract OCR.

Figure 16 : logo du logiciel Visual Studio Code

Python-tesseract est un outil de reconnaissance optique de caractères (OCR) pour Python. En


d'autres termes, il permet de reconnaître et de "lire" le texte incorporé dans des images.
Il est également utile en tant que script d'invocation autonome pour Tesseract, car il peut lire
tous les types d'images. De plus, s'il est utilisé en tant que script, Python-tesseract affichera le
texte reconnu à l'écran au lieu de l'écrire dans un fichier.
Nous allons utiliser un script python qui permet de lire une image, effectuer des traitements
pour préparer l’image à être traitée par le module "pytesseract" à fin d’afficher le résultat sous
forme textuelle.
La première étape est de faire un zoom sur la carte et de la découper en portion où le texte est
clair et lisible, puis le script va transformer l’image d’entrée en binaire (noir et blanc), ensuite
des filtres vont nettoyer l’image des bruits (le fond de la carte) pour obtenir une image claire le
plus possible. En fin l’image va être traitée par "pytesseract" pour afficher le résultat sous forme
de texte machine-encodé.

Figure 17 : schéma récapitulatif du fonctionnement du modèle Tesseract

Les résultats et les mesures de performances de ce modèle sont résumés dans le tableau
suivant :

32
Résultat du modèle Toponyme sur carte WER CER

Bou Dokhan Bou Dokhan 0.00 0.00

Ar-Rghin Ar-Rghin 0.00 0.00

a Dah t az Zawya Hanshir Dahrit az-Zawya 1.67 0.39

Dya Kha bash Diyar Kharbash 1.50 0.21

Ad Damous Ad-Damous 2.00 0.11

OM Dhwil az-Zawya OM Dhwil az-Zawya 0.00 0.00

Minit Om Dhwil Minit Om Dhwil 0.00 0.00

Al Mtsra Al M’isra 0.50 0.22

Hans hir Fartoun e Hanshir Fartouna 2.00 0.19

Gombar Gombar 0.00 0.00

Kaf Masha Kaf al Mashta 0.67 0.31

Hansh a8 Hanshir Abida 1.00 0.54

Tifillou i Tifilloun 2.00 0.22

RR R.R. 1.00 0.50

Dyar Larb in Dyar Larb'in 1.00 0.08

sAl Widyan Al Widyan 0.50 0.11

e ae Sidi Salah Sidi Salah 1.00 0.50

list «Sup de Securrte rr . a 2 inst sup de securite indus 1.40 0.54

Wlad Mansour Wlad Mansour 0.00 0.00

Wied at-Toumi Wlad at-Toumi 0.50 0.15

0.84 0.20

Tableau 5 : résultat du modèle Tesseract et ces mesures de performance

33
6. interprétation des résultats :
Le modèle MATLAB, où l’image d’entrée a été la carte entière, n’a détecté que 9 toponymes
dont un seul a une bonne précision pour le CER de l’ordre de 0.00%, c’est-à-dire 100% de
précision (Tifilloun). Le modèle a détecté de plus 3 toponymes et le titre de la carte avec un
CER de précision moyenne (entre 2% et 10%) qui sont Al'Mallasin (Al Mallasin), Minit Or
Dhwil (Minit Om Dhwil), Bir al Hisyal (Bir al Hisyan) et le titre de la carte MAN/ZIL BOU
ZALFA N.E. (MANZIL BOU ZALFA N.E.). Leurs valeurs pour le CER sont respectivement
9%, 7%, 8% et 5%.
Le reste des toponymes détectés ont de mauvaise précision ayant un CER supérieur à 10%
(précision moins de 90%).
Le nombre et la précision des toponymes repérés sont faibles à cause de l’échelle de la carte
qui rend le texte difficile à détecter aussi bien l’hétérogénéité et l’encombrement de l’écriture
de la carte.
Le modèle Tesseract a affiché 20 toponymes avec un CER très varié, dont 6 avec une précision
de 100% (Bou Dokhan, Ar-Rghin, OM Dhwil az- Zawya, Minit Om Dhwil, Gombar et Wlad
Mansour), et un toponyme avec un CER de 8% (Dyar Larb in au lieu de Dyar Larb'in).
Les autres toponymes ont une précision inférieure à 90% (CER > 10%).
Ce modèle a détecté plus de toponymes que le modèle précédent grâce à l’étape
d’agrandissement et du découpage de la carte, ce qui a permis cette amélioration. La précision
de même été mieux pour le modèle Tesseract.
7. Conclusion :
L’intelligence artificielle offre l’opportunité d’automatiser des taches manuelles dans le but de
gagner le temps et d’optimiser les performances des résultats souhaités comme dans notre cas.
Dans ce chapitre nous avons traité deux modèles OCR dans l’intention de détecter les noms
de lieux d’une manière automatique à partir de la carte.
Normalement, les modèles OCR sont utilisés pour détecter du texte à partir des documents
dont le texte est clair, aligné et uniforme avec un fond de préférence blanc, ce qui n’est pas le
cas d’une carte.
Le premier modèle, MATLAB offre un code qui permet de traiter une image pour la préparer
à être employée par le système de reconnaissance optique de caractère. Dans notre cas,
l’image d’entrée est la carte entière, les résultats obtenus sont plus au moins loin de la réalité
des toponymes en plus que le nombre des noms des lieux détectés est très minime par rapport
aux nombres de noms de lieux existants sur la carte. Ceci peut être expliqué par le fait que la

34
carte est de petite échelle (les toponymes sont de très petite taille), le bruit (le fond chargé de
la carte, les courbes de niveaux et la variété des couleurs et des lignes qui peuvent couper les
toponymes) aussi bien que le contraste et l’hétérogénéité de l’écriture des toponymes (écriture
oblique ou en serpent, écriture de différentes tailles et contrastes, écriture de différentes
couleurs).
Le deuxième modèle, nous avons exploité le système Tesseract pour détecter les toponymes à
partir de la carte. Pour ce modèle, plusieurs traitements ont été appliqués à la carte avant
d’être abordé par Tesseract.
En premier lieu, pour s’éloigner du problème de l’échelle de la carte, nous avons utilisé le
zoom et le découpage pour obtenir des extraits dont le texte est plus clair et prononcé.
Puis nous avons transformé l’image en mode binaire (texte blanc sur un fond noire) pour
augmenter la clarté du texte.
Enfin, l’image est soumise à un traitement de nettoyage du bruit pour garder uniquement le
texte représentant du toponyme.
Les résultats obtenus sont aussi minimes et plus au moins erronés pour les mêmes causes du
modèle précédent.
Pour augmenter les performances de ces modèles, il faut les rendre plus puissants, de plus
nous pouvant chercher d’autres traitements à réalisés pour rendre les images plus susceptibles
d’être employées par un système OCR. L’échelle de la carte soumise à l’OCR joue aussi un
rôle important dans la qualité des résultats obtenus.

35
Conclusion générale

Dans le cadre de ce projet, nous avons réalisé un prototype d’une base de données de la
toponymie en se basant sur la carte MANZIL BOU ZALFA N.E. 1 :25000 qui contient les
toponymes et les données relatives telles que les coordonnées X et Y, le type, etc...
Ce prototype de base de données permet le stockage, la gestion et la mise à jour des données
toponymiques d’une manière efficace, de plus ça va faciliter l’accès à l’information
toponymiques par des simples requêtes spatiales ou attributaires au lieu de chercher
visuellement dans les cartes ce qui va prendre du temps.
Comme perspective de la toponymie en Tunisie, nous pouvons prendre ce prototype comme
appui pour réaliser une base de données de la toponymie du territoire tunisien, c’est à dire de
réaliser une base de données toponymique type et unique qui va être appliquée à toute les cartes
de la Tunisie ce qui va nous donner enfin une toponymie normalisée et bien structurée de tout
le pays.
Puis nous avons appliqué l’apprentissage automatiques des machines dans la détection des
noms des lieux à partir de la carte.
Nous avons choisi le système de reconnaissance optique des caractères, l’un des modèles le
plus utilisé dans le cas de détection du texte à partir des images. Deux modèles ont été traités :
Le premier modèle est proposé par la documentation du logiciel MATLAB, c’est un modèle
robuste qui permet de prendre en entrée une image (dans notre cas c’est la carte), d’effectuer
des prétraitements de nettoyage et de filtrage, de distinguer les zones textuelles dans la carte
puis d’afficher les textes détecter par le modèle OCR.
Le deuxième modèle c’est un code en python qui, de même, contient une partie de traitement
d’image avant d’être appliquée à un module appelé « pytesseract ».
Pytesseract est un modèle OCR en python qui permet de prendre en entrée une image contenant
du texte, et d’afficher directement le texte détecté sur l’écran.
Les prétraitements dans ce cas sont tous d’abord un découpage de la carte en portion avec une
échelle plus petite qui va rendre l’écriture plus claire, puis des modules de nettoyage du bruit
qui tentent à ne laisser sur l’image que les zones textuelles, et un module qui va rendre l’image
en mode binaire de façon que le fond de l’image soit noir alors que le texte soit en blanc pour
améliorer le contraste et faciliter la détection du texte par le module pytesseract.
Les résultats de ces deux modèles sont quantitativement très faibles, c’est à dire le nombre des
toponymes détectés est inférieur au nombre des toponymes de la carte.

36
Qualitativement, les deux modèles sont arrivés à détecter quelques toponymes avec 0%
d’erreur, des toponymes avec une précision moyenne, et d’autres avec une précision très faible.
Ces modèles peuvent être améliorés dans le futur en essayant de les adapter à l’écriture
particulière et irrégulière des cartes et en augmentant la performance des modules de nettoyage
des bruits pour arriver enfin à des résultats plus adéquats.

37
Références bibliographiques

1. Schlegel, I ; Automated Extraction of Labels from Large-Scale Historical Maps ;

AGILE GIScience Ser ;2, 12 ; https://doi.org/10.5194/agile-giss-2-12-2021, 2021.

2. Tidjet M and Nahali Dj ; Initiation d’une base de données toponymique ; Iles d

Imesli ; Volume 5, Numéro 1, Pages 323-340 ; 2013-12-31

3. BD TOPO® Version 3.0 – Note sur la toponymie – Décembre 2021

4. Atoui. B, Chemaa. B and Brahiml. M ; Réalisation D'une Base De Données

Toponymiques ; Institut National De Cartographie Et De Télédétection ; 2000 ;

5. M.Hassen Abdellaoui ; Les bases de données des noms géographiques au service

du développement durable et du patrimoine immatériel national ; 11th United

Nations Conference on the Standardization of Geographical Names ; 4 August

2017

6. Ray Smith; An Overview of the Tesseract OCR Engine; Proc. Ninth Int. Conference

on Document Analysis and Recognition (ICDAR), IEEE Computer Society (2007),

pp. 629-633

7. Kenneth Leung; Evaluate OCR Output Quality with Character Error Rate (CER) and

Word Error Rate (WER); Towards Data Science; Jun 24, 2021

8. Tableau commenté des signes conventionnels utilisés pour les levés au 1 :25000 ;

INSTITUT GEOGRAPHIQUE NATIONAL ; SERVICE DES CARTES AUX MOYENNES

ECHELLES ; CARTE DE France AU 1 :25000 ; Edition de 1977.


Webographie

https://www.mathworks.com/discovery/what-is-matlab.html

https://code.visualstudio.com/docs

https://docs.postgresql.fr/15/intro-whatis.html

https://resources.arcgis.com/fr/help/getting-started/articles/026n00000014000000.htm

https://datascientest.com/optical-character-recognition

https://www.mathworks.com/help/vision/ug/automatically-detect-and-recognize-text-in-
natural-images.html

https://tesseract-ocr.github.io/tessdoc/Installation.html

https://pypi.org/project/pytesseract/

https://jzid.jimdofree.com/logiciel-g%C3%A9omatiqua/

https://towardsdatascience.com/evaluating-ocr-output-quality-with-character-error-rate-
cer-and-word-error-rate-wer-853175297510#5aec

https://stackoverflow.com/questions/70300189/how-to-keep-only-black-color-text-in-the-
image-using-opencv-python

https://www.otc.nat.tn/

Vous aimerez peut-être aussi