Traduct RAPPORT-youssef Ben saad-FINAL

Machine Translated by Google
Ministère de l'Enseignement Supérieur et de la

Recherche Scientifique
Université Tunis El Manar
Faculté des Sciences de Tunis
Mémoire
présenté pour l'obtention du diplôme de master
professionnel en sciences géomatiques parcours topographie et
projet territoriaux
par
BESSAAD Youssef
Création d'un prototype d'une base de données de la

toponymie et détection des noms des lieux basée sur
l'apprentissage automatique, cas d'étude : MANZIL BOU
ZALFA NE 1 :25000
Soutenu le 30/01/2024
Devant le jury
Présidente Mme. Salwa SAIDI Maître de conférences FST

Examinateur M. Moez JAOUAD MaîtreAssistant FST
Encadrant FST M. Tarek SBOUI MaîtreAssistant FST
Encadrant professionnel M. Hichem BEN MOUSSA Cartographe OTC
Projet en collaboration avec
Année universitaire 20222023

Dédicaces
A mes très chers parents Nasreddine BESSAAD et Samira DRIDI, qui ont
œuvré pour ma réussite, par leur amour, leur soutien, toutes les longues
années de sacrifices et les précieux conseils, pour leur assistance et leur
présence dans ma vie, rencontrer à travers ce travail aussi modeste soitil,
l'expression de mes sentiments et de ma gratitude éternelle. Merci pour
les valeurs nobles, l'éducation et l'encouragement.
Je dédie ce travail aussi à ma sœur Maryem et mon frère Ayoub ainsi que
toute ma famille et mes amis qui n'ont cessé d'être pour moi des exemples
de persévérance, de courage et de générosité.
Tous mes professeurs et mes instituteurs qui doivent voir dans ce travail la fierté d'un
savoir bien transmis.
Remerciements
Je tiens à exprimer mes sincères remerciements à toutes les personnes qui ont
contribué au succès de mon stage et qui m'ont aidée lors de la rédaction de ce
rapport.
Je voudrais, dans un premier temps, remercier mon tuteur de scène Mr Hichem
BEN MOUSSA, cartographe (chef service) à l'OTC pour m'avoir offert la
généreuse opportunité de travailler sur ce projet ainsi que pour sa patience, sa
disponibilité et surtout ses conseils conseillés et ses encouragements qui ont
contribué à alimenter ma réflexion.
Je voudrais aussi adresser toute ma gratitude à Mr Tarek SBOUI mon
correspondant universitaire pour répondre à mes questions et pour ses efforts
dans la correction de ce rapport.
J'apprécie la présence de Mme Salwa SAIDI comme présidente de jury et Mr.
Moez JAOUAD comme rapporteur de ce travail.

CV :
Dans ce travail, nous avons réalisé, dans une première partie, un prototype d'une base de
données de la toponymie qui permet de stocker, gérer, diffuser, et mettre à jour des données
toponymiques d'une manière efficace, on se référant à la carte MANZIL BOU ZALFA NE 1

:25000.
Puis nous avons utilisé l'apprentissage automatique pour détecter automatiquement les noms
de lieux à la carte.
Les résultats obtenus sont quantitativement faibles et qualitativement variables à cause de
l'échelle de la carte et l'hétérogénéité de l'écriture sur la carte.
Mots clés : toponymie, base de données, toponyme, apprentissage automatique.
Abstrait :
Dans ce travail, nous avons d'abord créé un prototype de base de données toponymique permettant une analyse efficace
stockage, gestion, diffusion et mise à jour des données toponymiques, faisant référence au MANZIL
Carte BOU ZALFA NE au 1:25000.
Nous avons ensuite utilisé l’apprentissage automatique pour détecter automatiquement les toponymes de la carte.
Les résultats obtenus sont quantitativement faibles et qualitativement variables en raison de l'échelle de la carte
et l'hétérogénéité de l'écriture sur la carte.
motsclés : toponymie, base de données, toponyme, machine learning.

Sommaire
Introduction générale………………………………………………………………………….1
Chapitre 1 : contexte général…………………………………………………………………….3
1. Introduction…………………………………………………………………………………4
2. Présentation de l'organisme d'accueil………………………………………………………4
2.1. Présentation de l'OTC…………………………………………………………………..4
2.2. Missions…………………………………………………………………………………5
3. Présentation du projet……………………………………………………………………….5
3.1. Problématique………………………………...…………………………………………5
3.2. Objectifs…………………………………………………………………………………6
4.Conclusion……………………………………………….…………………………………..6
Chapitre 2 : Etat de l'art de la toponymie………………………….…………………………..7
1.Introduction…………………………………………………………………….…………….8
2.Charte de la toponymie (d'après IGN)………………………………………….……………8
2.1. Définitions……………………………………………………………………………….8
2.1.1. Les toponymes officiels…………………………………………………………......8
2.1.2. Les toponymes non officiels……………………………………………………...…8
2.1.3. Termes génériques et éléments spécifiques……………………………...………….9
2.1.4. Désignations cartographiques…………………………...…………………………..9
2.2. Les règles de l'écriture………….……………………………...………………………..9
2.2.1. Les signes diacritiques…………………………...……………………………….....9
2.2.2. Les articles……………………...……………………………………………………...9
2.2.3. Les chiffres………..………………………………………………………………...9
2.2.4. Nature du code……...…………………………………………………………………..9

2.2.5. Désignation cartographique…...………………………………………………...…10
2.2.6. Majuscules et minuscules…………………………………………...……………..10
2.2.7. Pluriels des noms propres………………...………………………………………..10
2.2.8. Les sigles…...………………………...……………………………………………10
3.Base de données toponymiques…………………………………………………………….10
3.1. Exemple 1…………………...………………………………...……………………….10
3.1.1. Contexte……...……………………………………………………………………….11
3.1.2. Méthodologies...………………………...…………………………………………11
3.2. Exemple 2……………...………………………………………………………………12
3.2.1. Statut...……………………………………………………………………………..12
3.2.2. Les tables dédiées………………………...………………………………………..12
3.2.3. Extraits des tables dédiées………………………...……………………………….12
4.Apprentissage automatique et détection des noms des lieux……………………………….13
4.1. Définitions des modèles……………...………………………………………………...13
4.1.1. Modèle MATLAB………………………...……………………………………….13
4.1.2. Tesseract OCR………………...…………………………………………………...…13
4.2. Exemple...…………………………………………...…………………………………14
4.2.1. Contexte...…………………………………………………………………………….14
4.2.2. Résultats...…………………………………………………………………………….15
5.Conclusion………………………………………………………………………………….16
Chapitre 3 : Conception du prototype de la base de données toponymiques…………………18
1.Introduction…………………………………………………………………………………19
2.Carte de référence…………………………………………………………………………..19
3.Méthodologies et logiciels………………………………………………………………….19
3.1. Logiciels...…………………………………………………………………………...…19
3.1.1. ArcGIS...…………………………………………………………………………...19
3.1.2. GéomaTiqua...……………………………………………………………………...19
3.1.3. PostgreSQL...………………………………………………………………………20
3.2. Méthodologies………………………………………………………………………..20
4.Description des entités………………………………………………………………….......21
4.1. Exemple des requêtes…………...…………………………………………………...…24
5.Conclusion………………………………………………………………………………….25
Chapitre 4 : Application de l'apprentissage automatique pour la détection des noms des

lieux................................................. .................................................................. ........................................26
1.Introduction…………………………………………………………………………………27
2.Fonctionnement du système OCR…………………………………………………………..27
3.Mesures de performances…………………………………………………………………...29
3.1. Taux d'erreur de caractères……...……………………………………………………………29
3.2. Taux d'erreur sur les mots……...…………………………………………………………………...29
4.Modèle MATLAB…………………………………………………………………………..30
5.Modèle Tesseract………………………………………………………………………...…31
6.Interprétation des résultats.................................................. .................................................................. ......34
7.Conclusion………………………………………………………………………………….34
Conclusion générale……………………………………………………………………………..36
Listes des figures

Figure 1 : organigramme général de l'OTC (otc.nat.tn)
Figure 2 : schéma général (ATOUI B. et al 2000)
Figure 3 : extrait de la table TOPONYMIE_LIEUX_NOMMES (IGN 2021)
Figure 4 : extrait de la table TOPONYMIE_SERVICES_ET_ACTIVITES (IGN 2021)
Figure 5 : image d'entrée : carte de Hambourg 1841 (Schlegel, I 2021)
Figure 6 : logo du logiciel ArcGIS
Figure 7 : logo du logiciel GéomaTiqua
Figure 8 : logo du logiciel PostgreSQL
Figure 9 : schéma récapitulatif de la méthodologie de la réalisation du prototype d'une base de
données toponymiques
Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits,
lieux_non_dits, code, et les coordonnées en Lambert et en UTM
Figure 11 : extrait représentant le découpage administratif en gouvernorat, délégation et

secteur
Figure 12 : exemple de requête attributaire
Figure 13 : exemple de requête spatiale
Figure 14 : schéma récapitulatif du fonctionnement d'un système OCR
Figure 15 : logo du logiciel MATLAB
Figure 16 : logo du logiciel Visual Studio Code
Figure 17 : schéma récapitulatif du fonctionnement du modèle Tesseract

Listes des tableaux
Tableau 1 : les tables de la BDTOPOv3 (IGN 2021)
Tableau 2 : résultat du Tesseract OCR (Schlegel, I 2021)
Tableau 3 : les champs du prototype de la base de données toponymiques
Tableau 4 : résultats du modèle MATLAB et ces mesures de performances
Tableau 5 : résultats du modèle Tesseract et ces mesures de performances

Listes des abréviations
IGN : l'institut national de l'information géographique et forestière
UNESCO : l'Organisation des Nations Unies pour l'éducation, la science et la culture
RR : Ruine Romaine
INCT : l'Institut National de la Cartographie et de la télédétection
OCR : Reconnaissance Optique de Caractères
ROC : Reconnaissance optique de caractères
MSER : Maxially Stable Extremal Regions (détecteur de caractéristiques de régions
écuries maximales)
HP : HewlettPackard
GPS : Système de positionnement global
UTM : Mercator Transversal Universel
TIFF : Format de fichier image de balise
JPEG : Groupe conjoint d'experts en photographie
GIF : Format d'échange graphique
PNG : Graphiques réseau portables
SIG : Système d'Information Géographique
ESRI : Institut de Recherche sur les Systèmes Environnementaux
WER : taux d'erreur sur les mots
CER : Taux d'erreur sur les caractères
OTC : Office de la Topographie et du Cadastre
TPD : travaux topographiques particuliers plongeur

Introduction générale
La toponymie (du grec topos, lieu, onoma, nom), est définie par l'institut national de
l'information géographique et forestière (IGN) comme la science qui traite la formation et
l'évolution des noms des lieux (toponymes), ou encore, l'ensemble des toponymes d'un pays,
d'une région, ou d'une carte.
L'étude des noms de lieux, revêt une importance cruciale dans de nombreux domaines tels que
la cartographie, la recherche géographique, le tourisme et la gestion des ressources naturelles.
Les noms de lieux sont des éléments fondamentaux pour la compréhension et la représentation
précise de notre environnement géographique. Cependant, la collecte et l'organisation
La systématique de ces informations toponymiques peut présenter des défis importants.
Dans le cadre de ce projet de fin d'études, notre objectif est de développer un prototype de base
de données de la toponymie, en se basant sur la carte Manzil Bou Zalfa NE 1 :25000, qui
permettra la collecte, le stockage, la gestion, et la mise à jour d'une manière efficace et
exhaustive des données toponymiques. De plus, nous visons à utiliser un modèle
d'apprentissage automatique performant pour la détection automatique des toponymes à partir

à la carte.
L'utilisation de techniques d'apprentissage automatique offre des opportunités prometteuses
pour automatiser la détection des noms de lieux à partir de la carte. Néanmoins, ceci peut
faire face à plusieurs difficultés à cause de l’échelle de la carte et de l’encombrement de données de
la toponymie et autres.
Ce rapport explorera l'état de l'art de la toponymie et de la détection des noms de lieux, en
examiner les travaux de recherche existants dans ces domaines. Nous présenterons également
la conception de notre prototype de la base de données de la toponymie, en détaillant le schéma
et les entités clés qui la composent. Le prétraitement des données sera abordé pour garantir la
qualité et la cohérence des informations toponymiques.
Nous procédons ensuite à la modélisation et à l'apprentissage automatique, en sélectionnant
un algorithme approprié pour la détection du texte à partir de la carte (dans notre cas le texte ce
sont les toponymes) et en construisant un modèle performant.
Enfin, nous évaluons les performances de notre prototype en utilisant des mesures appropriées
et en les comparer avec d'autres approches existantes. Nous analyserons les résultats obtenus,
discutons les limites de notre approche et proposonsons des pistes d'améliorations futures. Ce
projet de fin d'études vise à apporter une contribution significative à la toponymie et à la
1
détection automatique des noms de lieux, en offrant un outil efficace et automatisé pour la
collecter et la gestion de ces informations essentielles.
2
Chapitre 1 :
Contexte général
3
1. Introduction :
Ce stage de mémoire a été réalisé au sein de l'office de la topographie et du cadastre, alors,
dans ce chapitre, nous allons tout d'abord présenter l'organisme de stage et ses domaines
d'activités, puis nous allons énoncer la problématique et les objectifs que nous visons atteindre
en réalisant notre projet.
2. Présentation de l'organisme d'accueil :

2.1. Présentation de l'OTC :
L'office de la topographie et du cadastre (OTC) trouve ses racines le 15 juillet 1886 instituant
en Tunisie le régime de l'immatriculation foncière.
En 1974, l'OTC a été créé en tant qu'entreprise publique à caractère industriel et commercial.
sous la tutelle du Ministère de l'Equipement et de l'Habitat.
En 2009, l'appellation "Office de la Topographie et de la Cartographie" a été modifiée pour
devenir "Office de la Topographie et du Cadastre".
Figure1 : organigramme général de l'OTC (otc.nat.tn)
4
2.2. Missions :
L'OTC se conforme aux fonctions prévues par la législation et les règlements en vigueur en ce
qui concernent l'immatriculation foncière et le cadastre.
L'OTC exécute les travaux d'infrastructure de base relatifs aux réseaux géodésiques et de
nivellement constituant la base et la référence de tous les projets de développement comme mission de
service public pour le compte de l'État ainsi que des travaux à caractère commercial pour le compte des
tiers ou de l'État.
Les travaux d'infrastructure pour le compte de l'Etat :
Assurer l'implantation et la conservation d'un réseau géodésique et d'un réseau de
nivellement de précision à l'échelle nationale.
Exécuter et contrôler les travaux d'immatriculation foncière et du cadastre.
Délimiter les terres, les domaines publics et les circonscriptions administratives.
Assurer la production, l'entretien et la diffusion de l'information foncière.
Les travaux à caractère commercial pour le compte des tiers ou de l'État :
L'exécution et le contrôle des travaux d'immatriculation foncière et du cadastre.
Les lotissements au sol et en copropriété.
Les travaux topographiques particuliers divers (TPD).
L'établissement des cartes touristiques et thématiques.
L'exploitation et la connexion au réseau GNSS en temps réel et en différé pour les
professionnels.
La prise de vues aériennes et l'établissement des plans topographiques à grande échelle.
3. Présentation du projet :
Notre projet est réalisé au sein de l'Office de la Topographie et du Cadastre dans le but de créer
un prototype d'une base de données toponymiques qui peut être ultérieurement généralisé sur
toutes les cartes de la Tunisie pour arriver enfin à réaliser une base de données de la toponymie
du territoire tunisien.
3.1. Problématique :
La toponymie révèle une importance indiscutable dans plusieurs domaines tels que la
cartographie et le patrimoine linguistique et culturel. Cependant, l'accès aux données
toponymiques est difficile à cause de l'absence d'une base de données de la toponymie de la
5
Tunisie, ce qui engendre des données toponymiques qui ne sont pas normalisées ni organisées
pour être accessible, exploitable et mis à jour si nécessaire.
Une base de données de la toponymie permet de collecter, stocker et organiser les données
toponymiques d'une manière à rendre leurs exploitations plus faciles et efficaces.
3.2. Objectifs :
L'objectif de ce travail est de réaliser un prototype d'une base de données toponymiques en
prenant la carte MANZIL BOU ZALFA NE 1 : 25 000 comme référence. Ce prototype peut
être généraliser sur les cartes de la Tunisie pour constituer la base fondamentale pour la
réalisation de la base de données toponymiques de la Tunisie.
Ensuite on vise à appliquer l'intelligence artificielle à la détection des noms des lieux pour
automatiser la détection des toponymes à partir d'une carte.

4. Conclusion :
Dans ce chapitre, nous avons présenté l'office de la topographie et du cadastre et ces différentes
missions, ainsi que le contexte et les objectifs du projet.
6
Chapitre 2 :
Etat de l'art de la
toponymie
7
1. Introduction :
La toponymie est l'étude des noms de lieux (les toponymes), qu'il s'agisse de noms de villes,
de régions, de montagnes, de rivières ou d'autres composantes géographiques. Elle présente une
grande importance dans de nombreux domaines et de multiples applications, tels que :
Histoire et culture : Les noms de lieux peuvent fournir des informations cruciales sur
l'histoire et la culture d'une région donnée [5]. Ils témoignent des populations et de leurs
particularités linguistiques, et des événements historiques qui caractérisent une région.
L'étude de la toponymie permet de comprendre les migrations, les échanges et les cultures
les héritages des différentes civilisations.
Linguistique : La toponymie est fortement liée à la linguistique, car les toponymes
faisant souvent ressortir les spécificités linguistiques d'une région. L'étude des toponymes aide
à interpréter l'évolution des langues, les influences culturelles et les relations entre les
communautés différentes linguistiques [2].
Cartographie : La toponymie est primordiale pour l'identification, la localisation et la
cartographie des lieux. Les toponymes sont des moyens efficaces pour communiquer
des informations géographiques, faciliter la navigation, la gestion des ressources
naturelles et l'aménagement du territoire. Les cartographes et les géographes utilisent la
toponymie pour créer des cartes précises et pour étudier les caractéristiques physiques
d'une région.
Archéologie et recherche scientifique : Dans le domaine de l'archéologie, la toponymie
peut apporter des informations sur les anciennes implantations humaines et les sites
historiques. Ainsi, les noms des lieux indiquent les chercheurs à retracer les mouvements.
migratoires et les changements climatiques et géologiques.
2. charte de toponymie (d'après IGN) :

2.1. Définitions :
2.1.1. Les toponymes officiels : ce sont les noms des entités administratives à savoir les
régions, les arrondissements, les communes… A noter que les communes supprimées à la suite
d'une fusion ne sont plus des entités administratives, leur nom par conséquent, n'est plus un
toponyme officiel.
2.1.2. Les toponymes non officiels : représentent la plupart des toponymes et peuvent être
subdivisés en :
lieux habités non administratifs.
lieux dits, zones boisées, zones de cultures…
8
les oronymes : les détails des reliefs (montagne, colline) et mêmes les détails des reliefs
côtiers tels que les caps et les îles.
les hydronymes : les noms des lieux caractérisés par la présence d'eau qu'elle que soit
permanente ou temporaire. Ces toponymes sont écrits en bleu sur les cartes 1 :25 000
les odonymes : les noms des voies de communication.
2.1.3. Termes génériques et éléments spécifiques :
Pour l'échelle 1 :25 000, la majorité des toponymes ont une valeur descriptive qui s'exprime
par un terme générique lié à un élément spécifique.
Le terme générique représente d'une manière générale la nature de l'élément géographique
désigné, alors que l'élément spécifique vient de compléter le terme générique et peut être un
article ou/et un autre élément linguistique.
Ces deux composantes d'un toponyme se lient à l'aide des articles (le, la, les), des locutions
adverbiales (à côté, audessus…) ou des prépositions (à, de, sur…).
2.1.4. Désignations cartographiques :
Ce sont des noms communs qui révèlent la nature et la fonction d'un élément représenté par un
signe conventionnel. Ce dernier constitue un renseignement sur le toponyme sans en faire partir.
2.2. Les règles d'écriture :
2.2.1. Les signes diacritiques :
Les signes diacritiques sont toujours notés sur les chiffres majuscules et minuscules.
2.2.2. Les articles :
Un article placé devant un nom précise le genre, le nombre et le sens dont le nom est pris.
Cependant, il n'a aucune signification propre à lui.
L'emploi ou non d'un article est déterminé selon des enquêtes sur la linguistique locale, il est
également conditionné par deux règles : règle de l'usage et règle de l'accord.
Brièvement, l'article est utilisé, pour les lieux habités et les lieuxdits non habités, si l'usage le
confirmer. Il est non utilisé dans le cas où le terme générique du nom confirme d'une manière
explicite la nature du lieu.
2.2.3. Les chiffres :
Généralement, les nombres ordinaux ou cardinaux s'écrivent en toutes lettres, hormis quelques
cas dont l'usage impose l'utilisation des chiffres arabes pour les dates ou des chiffres romains.
2.2.4. Nature des codes :
C'est l'expression employée pour préciser la fonction ou la catégorie géographique de
l'élément en question. Le code nature exprime les spécificités correspondantes à chaque
9
produit, il est représenté en général sous forme d'abréviation qui peut rassembler différents
détails.
2.2.5. Désignation cartographique :
La désignation cartographique est déterminante pour la bonne compréhension des

renseignements d'un toponyme. La désignation ne peut pas être notée lorsque le toponyme
assurer de préciser sa signification. Par exemple, on ne trouve pas de désignations des cours
d'eau (rivière, ruisseau, fleuve).
2.2.6. Majuscules et minuscules :

Tous les noms propres, noms communs ou adjectifs prennent toujours une majuscule.
Chaque mot d'un terme générique complexe prend une majuscule.

Les articles définis et indéfinis sont toujours en minuscules.
Les prépositions et les adverbes prennent une majuscule au début du toponyme, mais une
minuscule à l'intérieur ou à la fin du toponyme.
2.2.7. Pluriels des noms propres :

Généralement, les noms propres ne se mettent pas en pluriel. Néanmoins, l'usage s'oppose à
cette règle : les prénoms précédés par un article pluriel se finissent par un ''s''.
2.2.8. Les sigles :
Dans ce cas on fait recours à la prononciation des sigles. En effet, lorsque le sigle se prononce
comme un mot, sur l'écrit sans point entre les lettres (UNESCO). Sinon, lorsqu'il se prononce
lettre par lettre, on met un point entre chacune de cellesci (RR).
3. Base de données toponymiques :

La toponymie joue un rôle primordial dans la communication et la compréhension de notre
environnement. En effet, une base de données de la toponymie constitue un environnement de

recueil organisé pour les toponymes, facilitant ainsi la collecte, la saisie, le stockage et la mise
à jour des données toponymiques. Cette base de données constitue une ressource cruciale pour
les cartographes, les chercheurs et les décideurs, offrant un coup d'œil détaillé de l'évolution et
de la signification des lieux au cours du temps. On peut dire donc que la base de données de la
la toponymie fait l'objet d'un outil fondamental pour la préservation du patrimoine géographique,
linguistique et culturelle.
Dans la suite, nous citons quelques exemples de travaux réalisés sur les bases de données
toponymiques, leurs contextes de création, la démarche suivie et les résultats obtenus.
dix
3.1. Exemple1 :
Cet exemple est extrait d'un article intitulé : REALISATION D'UNE BASE DE DONNEES
TOPONYMIQUES, réalisé par : Atoubi B., Chemaa B., Brahimi Moulay M'hamed au sein de
l'Institut National de la Cartographie et de Télédétection (INCT).
3.1.1. Contexte :
L'INCT (l'organisme officiel de la cartographie en Algérie) se rend compte des complications

de la toponymie locale à cause de l'inexistence d'une politique toponymique nationale claire et
de la complexité de la transcription des caractères arabes en caractères latins [4]. L'étude de la
carte d'Algérie dévoile une grande variation dans l'écriture d'un même toponyme. il est
nécessaire donc de mettre en place une base de données toponymiques (appelée BDT_DZ) qui
vise à normaliser les noms des lieux.
3.1.2. Méthodologie :
La démarche de création de la base de données consiste à :
Collecte de données à partir des cartes topographiques, fichiers des limites

administratives, carnet justificatif des nom…
Mise en place du schéma conceptuel : détermination des propriétés, identifications des
entités et des relations, affectation des propriétés aux entités et relations.
Saisie et implémentation des données.
Figure 2 : Schéma général (ATOUI B. et al 2000)
Pour conclure, la base de données toponymiques est réalisée pour répondre aux besoins
suivants : la préservation du patrimoine national de la toponymie, faciliter la mise à jour des
données et la standardisation des données toponymiques.
11
3.2. Exemple2 :
L'exemple est pris d'un document délivré en décembre 2018 par l'IGN : Note sur la toponymie
dans la BDTOPOv3.
3.2.1. Statut :
Les noms de lieux sont portés directement par l'objet, avec statut de validation.
La base de données comporte un champ TOPONYME qui contient le nom du lieu sous les
règles d'écriture, il est complété par l'attribut STATUT_TOP qui définit son degré de validation
(validé, collecté, régional).
3.2.2. Les tables dédiées :
Les détails d'une toponymie sont diffusés dans des tableaux dédiés. Ces dernières sont délivrées
dans la BDTOPov3 sous le nom de TOPONYME_THEME.
Les tableaux suivants sont les compléments des toponymes pour chaque thème :
Tableau 1 : les tables de la BDTOPOv3 (IGN 2021)

3.2.3. Extraits des tables dédiées :
Figure 3 : Extrait de la table TOPONUMIE_LIEUX_NOMMES (IGN 2021)
Figure 4 : Extrait de la table TOPONYMIE_SERVICES_ET_ACTIVITES (IGN 2021)
12
4. Apprentissage automatique et détection des noms des lieux :

L'apprentissage automatique, une branche de l'intelligence artificielle, une révolutionné de
De nombreux domaines, y compris la détection du texte à partir des images. Cette discipline
fascinant repos sur l'idée de permettre aux machines d'apprendre à partir de données et de
prendre des décisions sans être précisées programmées.
Dans le contexte de la détection des noms de lieux, l'apprentissage automatique se révèle être
une technologie précieuse qui permet aux systèmes informatiques de reconnaître, extraire et
comprendre automatiquement les références aux endroits dans les textes, L'idée ici c'est
d'utiliser des modèles de détection de texte dans le mais de retenir automatiquement les noms
des lieux à partir d'une carte. Cette capacité a des implications importantes dans des domaines
tels que la cartographie, la recherche d'informations géographiques, la géolocalisation et bien
d'autres, contribuant ainsi à une meilleure compréhension de notre monde de manière
automatisé et efficace.
4.1. Définition des modèles :
La détection des noms des lieux se base sur des modèles prédéfinis de détection du texte à partir
des images. Dans cette partie, nous allons définir deux modèles, le modèle MATLAB et le
modèle Tesseract OCR. Ces deux modèles seront ultérieurement appliqués à la carte de notre
cas d'étude.
4.1.1. Modèle MATLAB :
Le modèle est pris à partir de la documentation du logiciel MATLAB. Il est appliqué

généralement sur les panneaux de signalisation ou bien sur un document dont le texte est
uniforme et clair. Ce modèle exploite le système OCR (Optical Character Recognition) pour la
détection du texte accompagné par un ensemble de traitement effectué sur l'image.
L'OCR ou encore ROC (Reconnaissance optique de caractères) est un système qui permet de
reconnaître et convertir des images de textes tapés, manuscrits ou imprimés en texte encodé par
machine.
Cet exemple montre comment détecter les régions contenant un texte dans une image en
utilisant un détecteur de caractéristiques de régions maximales stables (MSER).
4.1.2. TesseractOCR :
Tesseract est un moteur de reconnaissance optique de caractères (OCR) open source, développé
par Google. Il est conçu pour convertir des images contenant du texte, qu'il s'agisse de textes
dactylographiés, manuscrits ou imprimés, en texte encodé machine [6].
13
Origine : Tesseract a été initialement développé par HewlettPackard (HP) dans les
années 1980 à des fins de reconnaissance de texte. Par la suite, il a été open source en
2005 et Google l'a repris, contribuant à son développement ultérieur.
Langues prises en charge : Tesseract prend en charge de nombreuses langues du monde

entière. Il est capable de reconnaître et de traiter des scripts variés, notamment latin,
cyrillique, chinois, arabe, hébreu, japonais et bien d'autres. Cela en fait un outil
polyvalent pour la reconnaissance de texte multilingue.
Modèles de formations : Tesseract utilise des modèles de formation pour améliorer la

précision de la reconnaissance dans différentes langues et pour différents types de
politiques. Les utilisateurs peuvent également créer leurs propres modèles de formation
pour des tâches spécifiques.
Entrée : Tesseract prend en charge une variété de formats d'entrée, notamment des images
de texte au format TIFF, JPEG, GIF, PNG et autres.
Output : Les résultats de la reconnaissance peuvent être générés au format texte brut
susceptible d'être édité.
Amélioration : Tesseract est constamment amélioré par une communauté de

développeurs et d'utilisateurs du monde entier. Les mises à jour régulières incluent des
amélioration de la précision, des fonctionnalités étendues et des corrections de bogues.
Utilisations : Tesseract est largement utilisé dans des applications de numérisation de

documents, de conversion de livres imprimés en formats numériques, de recherche
textuelle dans des images, d'automatisation de processus, de reconnaissance de plaques
d'immatriculation, d'extraction de texte de photos, et bien plus encore.
En résumé, Tesseract est un outil OCR puissant, polyvalent et en constante évolution, qui
permet de convertir efficacement des images de texte en texte encodé machine, avec une prise
en charge étendue des langues et des formats d'image.
4.2. Exemple :
Détection automatique de texte à partir d'une carte historique, extrait d'un article intitulé
« Extraction automatisée d'étiquettes à partir de cartes historiques à grande échelle ».
4.2.1. Contexte :
Ce document aborde une combinaison appropriée de détection automatique de texte et de
reconnaissance de texte à partir de cartes historiques à grande échelle dans le
mais d'extraire des informations exploitables par des machines [1].
L'image d'entrée est un sousensemble de la carte de Hambourg réalisé sous la direction de
Willm. Lindley, Esq. CE Avril 1841.
14
Figure 5 : image d'entrée : carte de Hambourg 1841 (Schlegel, I 2021)
4.2.2. Résultats :
Dans cet article, le modèle utilisé est Tesseract OCR pour obtenir les résultats des CV dans le
tableau cidessous
15
Tableau 2 : résultat du Tesseract OCR (Schlegel, I 2021)
5. Conclusion :
Dans ce chapitre, nous avons exploré l'état de l'art de la toponymie, en mettant en lumière
l'importance des noms de lieux dans de nombreuses applications, de la cartographie à la
navigation GPS en passant par la recherche d'informations géolocalisées. Nous avons
également examiné différents exemples de bases de données toponymiques, montrant la
diversité des sources et des formats dans lesquels ces données sont disponibles.
De plus, nous avons plongé dans le domaine de l'apprentissage automatique en relation avec la
détection du texte à partir des images pour l'appliquer ultérieurement à la détection des noms
des lieux à partir des cartes, en offrant comment les avancées dans ce domaine ont
révolutionné la façon dont nous traitons les données géospatiales.
16
En conclusion, la toponymie et la détection des noms de lieux jouent un rôle essentiel dans
notre compréhension du monde qui nous entoure, et l'utilisation de l'apprentissage automatique
pour extraire ces informations de manière efficace ouvre de nouvelles possibilités passionnantes
dans un large éventail d'applications. Cependant, il reste encore des défis à relever, notamment
la gestion de la variabilité linguistique et l'adaptation à des contextes spécifiques.
17
Chapitre 3 :
Conception du
prototype de la
base de
18
1. Introduction :
Dans ce chapitre, nous entamons la phase cruciale de la conception de notre prototype de base
de données toponymiques. Tout commence par la présentation de la carte de référence, une
pièce fondamentale qui constitue la source de données de notre projet. Ensuite, nous nous
Plongés dans la description des entités essentielles qui constituent notre base de données,
mettant en lumière les caractéristiques et les relations clés.
À travers cette exploration, nous jetons la méthodologie nécessaire pour la création d'un
prototype de base de données toponymique robuste et fonctionnelle, prêt à répondre à nos
objectifs de recherche et d'analyse.
2. Carte de référence :
La réalisation du prototype de la base de données de la toponymie est fondée sur les
informations et données fournies par la carte : MANZIL BOU ZALFA NE 1 : 25 000.
Cette carte constitue la source fondamentale des données toponymiques alimentant notre base
de données, elle va fournir les toponymes, leurs types (oued, lieux habités, reliefs…), la position
géographique.
3. Méthodologies et logiciels :
3.1. Logiciels :
3.1.1. ArcGIS :
ArcGIS est une suite de systèmes d'information géographique (SIG) développée par ESRI qui
permet de collecter, gérer, organiser, analyser et diffuser des informations géographiques.
ArcGIS a permis le géoréférencement de la carte, l'extraction des toponymes et des
informations relatives (types, coordonnées, noms…) et la réalisation de la table du prototype de
la base de données de la toponymie.
Figure 6 : logo du logiciel ArcGIS
3.1.2. GéomaTiqua :
GéomaTiqua est un logiciel Géodésique topographique qui génère une base de données
géographique, il permet le traitement automatique de l'information géographique
simultanément sur quatre systèmes de coordonnées (STT, IGN, NTT ou UTM et WGS84).
19
Ce traitement est garanti grâce à des fonctions mathématiques universelles et des relations
basés sur les paramètres de transformations.
GéomaTiqua va être utilisé pour convertir les coordonnées du Lambert au UTM.
Figure 7 : logo du logiciel GéomaTiqua
3.1.3. PostgreSQL :
PostgreSQL est un système de gestion de base de données relationnelles. Il a été développé
par le département des sciences informatiques de Berkeley à l'université de Californie.
Ce logiciel a été utilisé pour la visualisation de la base de données et pour essayer quelques
requêtes.
Figure 8 : logo du logiciel PostgreSQL
3.2. Méthodologies :
Après avoir géoréférencé la carte, nous commençons tout d'abord par bien lire la carte. il est
important de se mettre dans l'échelle, cette carte est à l'échelle 1 :25000.
Une bonne lecture de la carte va permettre la bonne compréhension des renseignements qu'elle
apporte qui vont servir à la réalisation du prototype de la base de données. Voici les avantages
d'une solide lecture de la carte :
Collecte des données : identification précise des toponymes et de leurs emplacements
exacts à la carte. Nous pouvons même retenir les coordonnées exactes puisque la
la carte est géoréférencée au préalable.
La sélection des données : une carte topographique fournit de multiples données autres
que la toponymie, lire attentivement la carte va permettre de distinguer entre les
20
données et de retenir que les données souhaitées qui vont servir au remplissage de la
base de données.
Identification des variations toponymiques : En analysant différentes cartes historiques
ou actuels, nous pouvons identifier les variations dans les noms de lieux au fil du
temps. Cela enrichit notre base de données en ajoutant une dimension historique.
Analyses des relations spatiales : comprendre les relations spatiales entre les
toponymes, tels que la proximité géographique, les frontières administratives, etc.…
Eviter les erreurs : Une compréhension correcte des symboles, de l'échelle et de la
la légende de la carte contribue à éviter les erreurs de saisie et d'interprétation lors de

l'alimentation de la base de données.
Planification des données : La lecture de la carte aide à planifier la manière dont les
les données seront organisées dans la base de données et à définir les champs pour
enregistrer des informations spécifiques sur les toponymes en fonction de ce que nous
ont observé sur la carte.
Interprétations : L'analyse des données toponymiques peut révéler des tendances
géographiques, historiques ou culturelles, ce qui peut être utile pour la recherche ou la
prise de décision.
L'étape qui vient après c'est d'alimenter la table avec les toponymes et leurs données relatives.
Lecture de la Choix des Saisie des Visualisation

carte données données de la base
Carte
définir les
Ouvrir la base
Etat justificatif des champs de la
noms sur PostgreSQL
table
fichiers des Remplissage des

limites champs
administratifs
Figure 9 : schéma récapitulatif de la méthodologie de la réalisation du prototype d'une base de

4. Description des entités :

Dans ce qui suit, nous explorons les différents champs qui constituent le prototype de base de
données, cidessous un tableau illustrant ces champs.
21
Champions Taper
Nom Texte
Taper Texte
Lieux_dits Texte
Lieux_non_dits Texte
Code Double precision
Xlambert Double precision
Ylambert Double precision
Xutm Double precision
Yutm Double precision
Police_ecr Texte
Gouvernorat Texte
Délégation Texte
Secteur Texte
Carte Texte
Date Double precision
Historique Texte
Géométrie Indiquer
Tableau 3 : les champs du prototype de la base de données toponymiques
Nous allons par suite détailler les champs de la base de données pour comprendre les
caractéristiques et les relations des entités.
Nom : c'est le champ qui contient les noms des lieux tirés directement à partir de la
carte d'une manière fiable.
Type : ce champ reflète les catégories des toponymes qui sont : barrage, carriere, ecole,
falaise, ferme, hanshir, institut, lycée, municipalite, point d'eau, Qobba, repère de
nivellement, rocher, route, ruine romaine, source, station de pompage, station STEG,
transformateur, ville, wad permanent, wad temporaire, zewya.
A noter que ces catégories représentent que les noms des lieux qui existent sur la carte de
Manzil Bou Zalfa NE et ne représente pas toutes les catégories qu'on peut trouver dans les
cartes à l'échelle 1 :25000.
Lieux_dits, lieux_non_dits : pour chaque toponyme, un seul champ parmi les deux
contient une valeur. On alors distingue les lieux dits (en droit) des lieux nondits (en
italique).
Code : les entités de même type ont un code commun.
22
Xlambert, Ylambert, Xutm, Yutm : ces champs contiennent les coordonnées x et y
exactes de chaque toponyme sur la carte. Les coordonnées Lambert sont tirées
directement à partir de la carte dans le logiciel ArcGIS (puisque la carte est
géoréférencée avec des coordonnées Lambert) alors que les coordonnées UTM sont
obtenus à la suite d'une conversion des coordonnées initiales avec le logiciel
GéomaTiqua. La position géographique des toponymes est l'attribut le plus important
puisque chaque toponyme a ses propres coordonnées.
Police_ecr : c'est la police d'écriture des toponymes sur la carte, les détails sont extraits
à partir du document de l'état justificatif des noms. (Exemple : les points d'eau dont le
toponyme est 'Pts' s'écrit en taille 5 Genève Italique Maigre).
Gouvernorat, Délégation, Secteur : sont obtenus par superpositions des shapefiles des
limites administratives à la carte.
Carte : c'est le nom entier de la carte, ce champ semble inutile dans ce cas mais ce
prototype de base de données peut être utilisé pour rassembler les données
toponymiques de plusieurs cartes dans une seule base de données, dans ce cas, ce champ
sérums indispensables.
Historique : c'est un champ qui peut être mis à jour ultérieurement après une recherche
approfondie sur l'historique des noms des lieux.
Après avoir alimenté la base de données, nous avons obtenu un tableau contenant 17 colonnes et
438 lignes (toponymes). Voici des extraits de la base de données réalisées :
Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits, lieux_non_dits,
code, et les coordonnées en Lambert et en UTM.
23
Figure 11 : extrait représentant le découpage administratif en gouvernorat, délégation et secteur.
4.1. Exemple de requêtes :
Figure 12 : exemple de requête attributaire
24
Figure 13 : exemple de requête spatiale
5. Conclusion :
La conception du prototype de la base de données toponymiques constitue une étape cruciale
dans le développement de notre système. Dans ce chapitre, nous avons examiné en détail
chaque aspect de cette conception, en commençant par la carte de référence qui sert de
fondement à la base de données. Cette carte, en tant que source primaire de données
géographiques, est essentielle pour garantir la précision et la cohérence de notre système.
La méthodologie adoptée a été discutée en détail, mettant en évidence les étapes clés du
processus de conception, de la modélisation des données à la création des relations entre les
entités. Cette méthodologie fournira un cadre solide pour la construction de notre base de
données.
Enfin, nous avons fourni une description détaillée des entités qui seront stockées dans notre
base de données. Ces entités, représentant divers éléments géographiques, serviront de base
pour notre prototype. Leur conception soignée garantit que la base de données sera en mesure
de répondre efficacement aux besoins de collecte, de stockage et d'interrogation des données
toponymiques.
25
Chapitre 4 :
Demande de
l'apprentissage automatiquepour la
détection des noms noms des
lieux
26
1. Introduction :
Dans ce chapitre, nous allons utiliser l'intelligence artificielle pour détecter automatiquement
les noms des lieux à partir de la carte de référence. Nous allons traiter deux modèles, le modèle
Matlab et le modèle Tesseract pour voir les résultats obtenus tout en résultat comment nous
avons préparé les données pour être exploitées dans les modèles.
Ensuite, nous allons évaluer les deux modèles avec des mesures de performances utilisées pour
quantifier la précision des modèles OCR.
2. Fonctionnement du système OCR :

Le fonctionnement d'un système OCR comprend 6 étapes :
Etape 1 : Acquisition de l'image : Tout d'abord, le système OCR acquiert une image qui contient
du texte. Cela peut être un document scanné, une photo d'une page de texte, une écriture
manuscrite ou comme dans notre cas, une carte.
Etape 2 : Prétraitement de l'image : Avant de procéder à la reconnaissance des caractères,

l'image est souvent soumise à un prétraitement. Cela peut inclure la correction de l'orientation,
l'amélioration de la qualité de l'image en supprimant les taches ou le bruit, et la conversion en
niveaux de gris ou en noir et blanc pour simplifier la reconnaissance.
Etape 3 : Segmentation : L'image est ensuite analysée pour séparer le texte des images, des
lignes de séparation, etc. Cela permet au système de distinguer clairement où se trouvent les
caractères à reconnaître.
Etape 4 : Reconnaissance de caractères : La partie centrale du processus OCR consiste à

identifier les caractères individuels dans l'image. Cela implique l'utilisation d'algorithmes de
traitement d'image et de modèles de caractères pour tenter de faire correspondre les formes à
des caractères spécifiques.
Etape 5 : Posttraitement : Après la reconnaissance des caractères, un posttraitement peut être
appliqué pour corriger les erreurs et améliorer la précision du texte reconnu. Cela peut inclure
la recherche de mots mal orthographiés et l'application de règles grammaticales pour améliorer
la qualité du texte.
Etape 6 : Production de texte : Une fois que la reconnaissance est terminée et que le texte a été
corrigé, le système OCR produit un fichier texte éditable contenant la version électronique du
texte d'origine.
La figure en dessous résume le fonctionnement général d'un système OCR.
27
Figure 14 : schéma récapitulatif du fonctionnement d'un système OCR
28
3. Mesures de performances :
Un modèle OCR fournit généralement des mesures de précision de reconnaissance lorsqu'il est
utilisé en mode d'évaluation ou lors de la comparaison avec un ensemble de données connu.
Ces mesures de précision peuvent varier considérablement en fonction des données d'entrée et
du cas d'utilisation spécifique. La précision des modèles OCR peut être assez élevée pour des
textes bien prétraités et propres, mais elle peut diminuer pour des documents plus complexes
ou bruyants.
Pour évaluer nos résultats, nous allons utiliser deux mesures de performances :
3.1. Taux d'erreur de caractère :
Le "Character Error Rate" (CER) est couramment appelé "Taux d'Erreur de Caractères" en
français. Il s'agit d'une mesure de l'exactitude de la reconnaissance de caractères dans le
contexte de la reconnaissance optique de caractères (OCR) ou de la transcription de la parole
[7]. Le CER quantifie le pourcentage d'erreurs de caractères entre le texte reconnu (généré par
un système OCR ou de transcription) et le texte de référence (le texte original ou de qualité
connue). Nous pouvons calculer le CER en utilisant la formule suivante :
CER = (S+D+I) / N où
S : Le nombre d'erreurs de substitution (caractères incorrectement reconnus).
D : Le nombre d'erreurs de suppression (caractères manquants).
I : Le nombre d'erreurs d'insertion (caractères en excès qui ne devraient pas être là).
N : Le nombre total de caractères dans le texte de référence.
Après avoir calculé le CER, il est comparé par les tests de référence suivants :
Bonne précision OCR : CER de 1 à 2 % (précision de 98 à 99%)
Moyenne précision OCR : CER de 2 à 10 %
Mauvaise précision OCR : CER > 10 % (moins de 90 % de précision)

3.2. Taux d'erreur de mot :
Le "Word Error Rate" (WER), qui mesure le taux d'erreurs de mots dans la reconnaissance
optique de caractères (OCR) ou la transcription de la parole, peut être appelé en français le
"Taux d'Erreur de Mots" ou simplement "TER" pour abréger. Il se calcule avec la formule
suivante : WER = (S+D+I) / N où
S : Le nombre d'erreurs de substitution (mots incorrectement reconnus).
D : Le nombre d'erreurs de suppression (mots manqués).
I : Le nombre d'erreurs d'insertion (mots en excès qui ne devraient pas être là).
N : Le nombre total de mots dans le texte de référence.
29
4.Modèle MATLAB :
MATLAB est une plateforme de programmation conçue spécifiquement pour les ingénieurs et
les scientifiques afin d'analyser et de concevoir des systèmes et des produits qui transforment
notre monde. Le cœur de MATLAB est le langage MATLAB qui se base sur les matrices et
offre une manière des plus intuitives d'exprimer les concepts mathématiques en informatique.
MATLAB a servi pour traiter un modèle OCR visant la détection automatique des noms
des lieux à la carte.
Figure 15 : logo du logiciel MATLAB
Ce modèle vise à détecter les régions textuelles dans la carte à fin d'appliquer le principe de
l'OCR pour extraire le texte (les noms des lieux) sous forme machineencodé.
La procédure pour obtenir en fin les noms des lieux consiste en 5 étapes :
Etape 1 : détection des régions du texte :
Le détecteur de caractéristiques MSER fonctionne bien pour trouver des régions de texte. il est
efficace en raison de la couleur constante et du fort contraste du texte.
Etape 2 : suppression des régions non textuelles en fonction des propriétés géométriques de
base.
Bien que l'algorithme MSER détecte la plupart du texte, il détecte également de nombreuses
autres régions stables dans l'image qui ne sont pas du texte. On peut donc utiliser une approche
basé sur des règles pour supprimer les régions non textuelles en exploitant des propriétés
géométriques du texte pour filtrer les régions non textuelles. Il existe plusieurs propriétés
géométriques qui sont utiles pour discriminer entre les régions de texte et les régions non
textuelles, notamment : rapport d'aspect, excentricité, étendue, Solidité.
Etape 3 : suppression des régions non textuelles en fonction de la variation de la largeur des
caractéristiques.
Une autre mesure utilisée pour discriminer entre le texte et les régions non
les textuelles sont la largeur des traits. La largeur des traits est une mesure de la largeur des courbes
et des lignes qui composent un caractère. Les régions de texte ont tendance à avoir peu de
30
variation de la largeur des traits, tandis que les régions non textuelles ont tendance à avoir des
variations plus importantes.
Etape 4 : Fusion des régions de texte pour obtenir le résultat final de détection.
À ce stade, tous les résultats de détection sont composés de caractères de texte individuels. Verser
utiliser ces résultats dans des tâches de reconnaissance, telles que la reconnaissance optique de
caractères (OCR), les caractères de texte individuels doivent être regroupés en mots ou en lignes
de texte. Cela permet la reconnaissance des mots réels dans une image, qui contient des
informations plus significatives que les caractères individuels.
Etape 5 : Reconnaître et afficher le texte détecté en utilisant la reconnaissance optique de
caractères (OCR).
Après avoir détecté les régions de texte, utilisez la fonction OCR pour reconnaître le texte à
l'intérieur de chaque zone englobante. A noter qu'en l'absence de détection préalable des
Dans certaines régions de texte, la sortie de la fonction OCR serait considérablement plus bruyante.
Le tableau suivant illustre les noms des lieux détectés par ce modèle et leurs équivalents sur la
carte :
Résultat du modèle Le toponyme (écriture de la carte) WER CER
Bir Bilctsa Bir Bil Hsan 0,67 0,25
Bir Big 'Arou Bir Bin Arous 0,67 0,23
Bir alHisyal Bir al Hisyan 0,33 0,08
FR FR 1h00 0,50
Minit ou Dhwil Minit Om Dhwil 0,33 0,07
Al'Mallasin Al Mallasin 1h00 0,09
H an s/salut Hanshir 16h00 0,71
Tifilloun Tifilloun 0,00 0,00
MAN/ZIL BOU ZALFA NE MANZIL BOU ZALFA NE 0,25 0,05
0,92 0,22
Tableau 4 : résultats du modèle MATLAB et ces mesures de performance
5. Modèle Tesseract :
Visual Studio Code est un éditeur de code source léger mais puissant qui s'exécute sur les
ordinateurs et est disponible pour Windows, macOS et Linux. Il inclut une prise en charge
intégré pour JavaScript, TypeScript et Node.js, et bénéficie d'une écosystème riche en
31
extensions pour d'autres langages et environnements d'exécution (comme C++, C#, Java,
Python, PHP, Go, .NET).
Cet environnement a permis d'exécuter un code en python pour détecter les toponymes en
utilisant le modèle Tesseract OCR.
Figure 16 : logo du logiciel Visual Studio Code
Pythontesseract est un outil de reconnaissance optique de caractères (OCR) pour Python. Fr

d'autres termes, il permet de reconnaître et de "lire" le texte incorporé dans des images.
Il est également utile en tant que script d'invocation autonome pour Tesseract, car il peut lire
tous les types d'images. De plus, s'il est utilisé en tant que script, Pythontesseract affichera le
texte reconnu à l'écran au lieu de l'écrire dans un fichier.
Nous allons utiliser un script python qui permet de lire une image, effectuer des traitements
pour préparer l'image à être traitée par le module "pytesseract" à fin d'afficher le résultat sous
forme textuelle.
La première étape est de faire un zoom sur la carte et de la découper en portion où le texte est
clair et lisible, puis le script va transformer l'image d'entrée en binaire (noir et blanc), ensuite
des filtres vont nettoyer l'image des bruits (le fond de la carte) pour obtenir une image claire le
plus possible. En fin l'image va être traitée par "pytesseract" pour afficher le résultat sous forme
de texte encodé machine.
Figure 17 : schéma récapitulatif du fonctionnement du modèle Tesseract
Les résultats et les mesures de performances de ce modèle sont résumés dans le tableau
suivant :
32
Résultat du modèle Toponyme sur carte WER CER
Bou Dokhan Bou Dokhan 0,00 0,00
ArRghin ArRghin 0,00 0,00
a Dah taz Zawya Hanshir Dahrit azZawya 1,67 0,39
Fête de Dya Kha Diyar Kharbash 1,50 0,21
Ad Damous AdDamous 2h00 0,11
OM Dhwil azZawya OM Dhwil azZawya 0,00 0,00
Minit Om Dhwil Minit Om Dhwil 0,00 0,00
Al Mtsra Al M'isra 0,50 0,22
Hans hir Fartoun e Hanshir Fartouna 2h00 0,19
Gombar Gombar 0,00 0,00
Kaf Macha Kaf alMashta 0,67 0,31
Hansh a8 Hanshir Abida 1h00 0,54
Tifillou je Tifilloun 2h00 0,22
FR FR 1h00 0,50
Dyar Larb dans Dyar Larb'in 1h00 0,08
Sal Widyan Al Widyan 0,50 0,11
e ae Sidi Salah Sidi Salah 1h00 0,50
liste «Sup de Securrte rr . un 2 inst sup de sécurité industrielle 1,40 0,54
Wlad Mansour Wlad Mansour 0,00 0,00
Wied atToumi Wlad atToumi 0,50 0,15
0,84 0,20
Tableau 5 : résultat du modèle Tesseract et ces mesures de performance
33
6. interprétation des résultats :

Le modèle MATLAB, où l'image d'entrée a été la carte entière, n'a détecté que 9 toponymes
dont un seul a une bonne précision pour le CER de l'ordre de 0.00%, c'estàdire 100% de
précision (Tifilloun). Le modèle a détecté de plus 3 toponymes et le titre de la carte avec un
CER de précision moyenne (entre 2% et 10%) qui sont Al'Mallasin (Al Mallasin), Minit Or
Dhwil (Mit Om Dhwil), Bir al Hisyal (Bir al Hisyan) et le titre de la carte MAN/ZIL BOU
ZALFA NE (MANZIL BOU ZALFA NE). Leurs valeurs pour le CER sont respectivement
9%, 7%, 8% et 5%.
Le reste des toponymes détectés ont de mauvaise précision ayant un CER supérieur à 10%
(précision inférieure à 90%).
Le nombre et la précision des toponymes repérés sont faibles à cause de l'échelle de la carte
qui rend le texte difficile à détecter aussi bien l'hétérogénéité et l'encombrement de l'écriture
à la carte.
Le modèle Tesseract a affiché 20 toponymes avec un CER très varié, dont 6 avec une précision
de 100% (Bou Dokhan, ArRghin, OM Dhwil azZawya, Minit Om Dhwil, Gombar et Wlad
Mansour), et un toponyme avec un CER de 8% (Dyar Larb au lieu de Dyar Larb'in).
Les autres toponymes ont une précision inférieure à 90% (CER > 10%).
Ce modèle a détecté plus de toponymes que le modèle précédent grâce à l'étape
d'agrandissement et du découpage de la carte, ce qui a permis cette. La précision
de même été mieux pour le modèle Tesseract.
7. Conclusion :
L'intelligence artificielle offre l'opportunité d'automatiser des taches manuelles dans le but de
gagnez le temps et d'optimiser les performances des résultats souhaités comme dans notre cas.
Dans ce chapitre nous avons traité deux modèles OCR dans l'intention de détecter les noms
de lieux d'une manière automatique à partir de la carte.
Normalement, les modèles OCR sont utilisés pour détecter du texte à partir des documents
dont le texte est clair, aligné et uniforme avec un fond de préférence blanc, ce qui n'est pas le
cas d'une carte.
Le premier modèle, MATLAB offre un code qui permet de traiter une image pour la préparation
à être employé par le système de reconnaissance optique de caractère. Dans notre cas,
l'image d'entrée est la carte entière, les résultats obtenus sont plus au moins loin de la réalité
des toponymes en plus que le nombre des noms des lieux détectés est très minime par rapport
aux nombres de noms de lieux existants sur la carte. Ceci peut être expliqué par le fait que la
34
carte est de petite échelle (les toponymes sont de très petite taille), le bruit (le fond chargé de
la carte, les courbes de niveaux et la variété des couleurs et des lignes qui peuvent couper les
toponymes) aussi bien que le contraste et l'hétérogénéité de l'écriture des toponymes (écriture
oblique ou en serpent, écriture de différentes tailles et contrastes, écriture de différentes
couleurs).
Le deuxième modèle, nous avons exploité le système Tesseract pour détecter les toponymes à
à partir de la carte. Pour ce modèle, plusieurs traitements ont été appliqués à la carte avant
d'être abordé par Tesseract.
En premier lieu, pour s'éloigner du problème de l'échelle de la carte, nous avons utilisé le
zoom et le découpage pour obtenir des extraits dont le texte est plus clair et prononcé.
Puis nous avons transformé l'image en mode binaire (texte blanc sur un fond noir) pour
augmenter la clarté du texte.
Enfin, l'image est soumise à un traitement de nettoyage du bruit pour garder uniquement le
texte représentant du toponyme.
Les résultats obtenus sont aussi minimes et plus au moins erronés pour les mêmes causes du
modèle précédent.
Pour augmenter les performances de ces modèles, il faut les rendre plus puissants, de plus
nous pouvons chercher d'autres traitements à réaliser pour rendre les images plus susceptibles
d'être employé par un système OCR. L'échelle de la carte soumise à l'OCR joue aussi un
rôle important dans la qualité des résultats obtenus.
35
Conclusion générale
Dans le cadre de ce projet, nous avons réalisé un prototype d'une base de données de la
toponymie en se basant sur la carte MANZIL BOU ZALFA NE 1 :25000 qui contient les
toponymes et les données relatives telles que les coordonnées X et Y, le type, etc...
Ce prototype de base de données permet le stockage, la gestion et la mise à jour des données
toponymiques d'une manière efficace, de plus ça va faciliter l'accès à l'information
toponymiques par des simples requêtes spatiales ou attributaires au lieu de chercher
visuellement dans les cartes ce qui va prendre du temps.
Comme perspective de la toponymie en Tunisie, nous pouvons prendre ce prototype comme
appui pour réaliser une base de données de la toponymie du territoire tunisien, c'est à dire de
réaliser une base de données toponymiques de type et unique qui va être appliquée à toutes les cartes
de la Tunisie ce qui va nous donner enfin une toponymie normalisée et bien structurée de tout
le pays.
Puis nous avons appliqué l'apprentissage automatique des machines dans la détection des
noms des lieux à partir de la carte.
Nous avons choisi le système de reconnaissance optique des caractères, l'un des modèles le
plus utilisé dans le cas de détection du texte à partir des images. Deux modèles ont été traités :
Le premier modèle est proposé par la documentation du logiciel MATLAB, c'est un modèle
robuste qui permet de prendre en entrée une image (dans notre cas c'est la carte), d'effectuer
des prétraitements de nettoyage et de filtrage, de distinguer les zones textuelles dans la carte
puis d'afficher les textes détectés par le modèle OCR.
Le deuxième modèle c'est un code en python qui, de même, contient une partie de traitement
d'image avant d'être appliqué à un module appelé « pytesseract ».
Pytesseract est un modèle OCR en python qui permet de prendre en entrée une image contenant
du texte, et d'afficher directement le texte détecté sur l'écran.
Les prétraitements dans ce cas sont tous d'abord un découpage de la carte en portion avec une
échelle plus petite qui va rendre l'écriture plus claire, puis des modules de nettoyage du bruit
qui tente à ne laisser sur l'image que les zones textuelles, et un module qui va rendre l'image
en mode binaire de façon que le fond de l'image soit noir alors que le texte soit en blanc pour
améliorez le contraste et facilitez la détection du texte par le module pytesseract.
Les résultats de ces deux modèles sont quantitativement très faibles, c'est à dire le nombre des
les toponymes détectés sont inférieurs au nombre des toponymes de la carte.
36
Qualitativement, les deux modèles sont arrivés à détecter quelques toponymes avec 0%
d'erreur, des toponymes avec une précision moyenne, et d'autres avec une précision très faible.
Ces modèles peuvent être améliorés dans le futur en imposant de les adapter à l'écriture
particulière et irrégulière des cartes et en améliorant la performance des modules de nettoyage
des bruits pour arriver enfin à des résultats plus adéquats.
37
Références bibliographiques
1. Schlegel, moi ; Extraction automatisée d'étiquettes à partir de cartes historiques à grande échelle ;
AGILE GIScience Ser ;2, 12 ; https://doi.org/10.5194/agilegiss2122021, 2021.
2. Tidjet M et Nahali Dj ; Initiation d'une base de données toponymiques ; Îles D
Imesli ; Tome 5, Numéro 1, Pages 323340 ; 20131231
3. BD TOPO® Version 3.0 – Note sur la toponymie – Décembre 2021
4. Atoui. B, Chemaa. B et Brahiml. M ; Réalisation D'une Base De Données
Toponymiques ; Institut National De Cartographie Et De Télédétection ; 2000 ;
5. M. Hassen Abdellaoui ; Les bases de données des noms géographiques au service
du développement durable et du patrimoine immatériel national ; 11e United
Conférence des Nations Unies sur la normalisation des noms géographiques ; 4 août
2017
6. Ray Smith ; Un aperçu du moteur OCR Tesseract ; Proc. Neuvième Int. Conférence
sur l'analyse et la reconnaissance de documents (ICDAR), IEEE Computer Society (2007),
pages 629633
7. Kenneth Leung ; Évaluez la qualité de la sortie OCR avec le taux d'erreur de caractères (CER) et
Taux d'erreur sur les mots (WER) ; Vers la science des données ; 24 juin 2021
8. Tableau commenté des signes conventionnels utilisés pour les niveaux au 1 :25000 ;
INSTITUT GÉOGRAPHIQUE NATIONAL ; SERVICE DES CARTES AUX MOYENNES
ÉCHELLES ; CARTE DE France AU 1 :25000 ; Édition de 1977.

Webographie
https://www.mathworks.com/discovery/whatismatlab.html
https://code.visualstudio.com/docs
https://docs.postgresql.fr/15/introwhatis.html
https://resources.arcgis.com/fr/help/gettingstarted/articles/026n00000014000000.htm
https://datascientest.com/opticalcharacterrecognition
https://www.mathworks.com/help/vision/ug/automaticallydetectandrecognizetextin
naturalimages.html
https://tesseractocr.github.io/tessdoc/Installation.html
https://pypi.org/project/pytesseract/
https://jzid.jimdofree.com/logicielg%C3%A9omatiqua/
https://towardsdatascience.com/evaluatingocroutputqualitywithcharactererrorratecerandworderrorrate
wer853175297510#5aec
https://stackoverflow.com/questions/70300189/howtokeeponlyblackcolortextinthe
imageusingopencvpython
https://www.otc.nat.tn/

Traduct RAPPORT-youssef Ben saad-FINAL

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traduct RAPPORT-youssef Ben saad-FINAL

Transféré par

Droits d'auteur :

Formats disponibles

Machine Translated by Google

Ministère de l'Enseignement Supérieur et de la

Création d'un prototype d'une base de données de la

Présidente Mme. Salwa SAIDI Maître de conférences ­ FST

Projet en collaboration avec

Année universitaire 2022­2023

années de sacrifices et les précieux conseils, pour leur assistance et leur

présence dans ma vie, rencontrer à travers ce travail aussi modeste soit­il,

l'expression de mes sentiments et de ma gratitude éternelle. Merci pour

les valeurs nobles, l'éducation et l'encouragement.

de persévérance, de courage et de générosité.

contribué au succès de mon stage et qui m'ont aidée lors de la rédaction de ce

Je voudrais, dans un premier temps, remercier mon tuteur de scène Mr Hichem

BEN MOUSSA, cartographe (chef service) à l'OTC pour m'avoir offert la

généreuse opportunité de travailler sur ce projet ainsi que pour sa patience, sa

disponibilité et surtout ses conseils conseillés et ses encouragements qui ont

contribué à alimenter ma réflexion.

Je voudrais aussi adresser toute ma gratitude à Mr Tarek SBOUI mon

correspondant universitaire pour répondre à mes questions et pour ses efforts

dans la correction de ce rapport.

J'apprécie la présence de Mme Salwa SAIDI comme présidente de jury et Mr.

Moez JAOUAD comme rapporteur de ce travail.

toponymiques d'une manière efficace, on se référant à la carte MANZIL BOU ZALFA NE 1

Les résultats obtenus sont quantitativement faibles et qualitativement variables à cause de

l'échelle de la carte et l'hétérogénéité de l'écriture sur la carte.

Mots clés : toponymie, base de données, toponyme, apprentissage automatique.

Carte BOU ZALFA NE au 1:25000.

et l'hétérogénéité de l'écriture sur la carte.

mots­clés : toponymie, base de données, toponyme, machine learning.

Chapitre 1 : contexte général…………………………………………………………………….3

2. Présentation de l'organisme d'accueil………………………………………………………4

2.1. Présentation de l'OTC…………………………………………………………………..4

Chapitre 2 : Etat de l'art de la toponymie………………………….…………………………..7

2.Charte de la toponymie (d'après IGN)………………………………………….……………8

2.1.1. Les toponymes officiels…………………………………………………………......8

2.1.2. Les toponymes non officiels……………………………………………………...…8

2.1.3. Termes génériques et éléments spécifiques……………………………...………….9

2.1.4. Désignations cartographiques…………………………...…………………………..9

2.2. Les règles de l'écriture………….……………………………...………………………..9

2.2.1. Les signes diacritiques…………………………...……………………………….....9

2.2.2. Les articles……………………...……………………………………………………...9

2.2.3. Les chiffres………..………………………………………………………………...9

2.2.4. Nature du code……...…………………………………………………………………..9

2.2.5. Désignation cartographique…...………………………………………………...…10

2.2.6. Majuscules et minuscules…………………………………………...……………..10

2.2.7. Pluriels des noms propres………………...………………………………………..10

2.2.8. Les sigles…...………………………...……………………………………………10

3.Base de données toponymiques…………………………………………………………….10

3.1. Exemple 1…………………...………………………………...……………………….10

3.2. Exemple 2……………...………………………………………………………………12

3.2.2. Les tables dédiées………………………...………………………………………..12

3.2.3. Extraits des tables dédiées………………………...……………………………….12

4.Apprentissage automatique et détection des noms des lieux……………………………….13

4.1. Définitions des modèles……………...………………………………………………...13

4.1.1. Modèle MATLAB………………………...……………………………………….13

4.1.2. Tesseract OCR………………...…………………………………………………...…13

Chapitre 3 : Conception du prototype de la base de données toponymiques…………………18

4.Description des entités………………………………………………………………….......21

4.1. Exemple des requêtes…………...…………………………………………………...…24

Chapitre 4 : Application de l'apprentissage automatique pour la détection des noms des

2.Fonctionnement du système OCR…………………………………………………………..27

3.1. Taux d'erreur de caractères……...……………………………………………………………29

3.2. Taux d'erreur sur les mots……...…………………………………………………………………...29

Présidente Mme. Salwa SAIDI Maître de conférences FST

Année universitaire 20222023

présence dans ma vie, rencontrer à travers ce travail aussi modeste soitil,

motsclés : toponymie, base de données, toponyme, machine learning.

Assurer l'implantation et la conservation d'un réseau géodésique et d'un réseau de

Exécuter et contrôler les travaux d'immatriculation foncière et du cadastre.

Délimiter les terres, les domaines publics et les circonscriptions administratives.

Assurer la production, l'entretien et la diffusion de l'information foncière.

L'exécution et le contrôle des travaux d'immatriculation foncière et du cadastre.