Vous êtes sur la page 1sur 49

Machine Translated by Google

Ministère de l'Enseignement Supérieur et de la


Recherche Scientifique
Université Tunis El Manar
Faculté des Sciences de Tunis

Mémoire
présenté pour l'obtention du diplôme de master
professionnel en sciences géomatiques parcours topographie et
projet territoriaux
par
BESSAAD Youssef

Création d'un prototype d'une base de données de la


toponymie et détection des noms des lieux basée sur
l'apprentissage automatique, cas d'étude : MANZIL BOU
ZALFA NE 1 :25000

Soutenu le 30/01/2024
Devant le jury

Présidente Mme. Salwa SAIDI Maître de conférences ­ FST


Examinateur M. Moez JAOUAD Maître­Assistant ­ FST
Encadrant FST M. Tarek SBOUI Maître­Assistant ­ FST
Encadrant professionnel M. Hichem BEN MOUSSA Cartographe ­ OTC

Projet en collaboration avec

Année universitaire 2022­2023


Machine Translated by Google

Dédicaces

A mes très chers parents Nasreddine BESSAAD et Samira DRIDI, qui ont

œuvré pour ma réussite, par leur amour, leur soutien, toutes les longues

années de sacrifices et les précieux conseils, pour leur assistance et leur

présence dans ma vie, rencontrer à travers ce travail aussi modeste soit­il,

l'expression de mes sentiments et de ma gratitude éternelle. Merci pour

les valeurs nobles, l'éducation et l'encouragement.

Je dédie ce travail aussi à ma sœur Maryem et mon frère Ayoub ainsi que

toute ma famille et mes amis qui n'ont cessé d'être pour moi des exemples

de persévérance, de courage et de générosité.

Tous mes professeurs et mes instituteurs qui doivent voir dans ce travail la fierté d'un
savoir bien transmis.
Machine Translated by Google

Remerciements

Je tiens à exprimer mes sincères remerciements à toutes les personnes qui ont

contribué au succès de mon stage et qui m'ont aidée lors de la rédaction de ce

rapport.

Je voudrais, dans un premier temps, remercier mon tuteur de scène Mr Hichem

BEN MOUSSA, cartographe (chef service) à l'OTC pour m'avoir offert la

généreuse opportunité de travailler sur ce projet ainsi que pour sa patience, sa

disponibilité et surtout ses conseils conseillés et ses encouragements qui ont

contribué à alimenter ma réflexion.

Je voudrais aussi adresser toute ma gratitude à Mr Tarek SBOUI mon

correspondant universitaire pour répondre à mes questions et pour ses efforts

dans la correction de ce rapport.

J'apprécie la présence de Mme Salwa SAIDI comme présidente de jury et Mr.

Moez JAOUAD comme rapporteur de ce travail.


Machine Translated by Google

CV :

Dans ce travail, nous avons réalisé, dans une première partie, un prototype d'une base de

données de la toponymie qui permet de stocker, gérer, diffuser, et mettre à jour des données

toponymiques d'une manière efficace, on se référant à la carte MANZIL BOU ZALFA NE 1


:25000.

Puis nous avons utilisé l'apprentissage automatique pour détecter automatiquement les noms

de lieux à la carte.

Les résultats obtenus sont quantitativement faibles et qualitativement variables à cause de

l'échelle de la carte et l'hétérogénéité de l'écriture sur la carte.

Mots clés : toponymie, base de données, toponyme, apprentissage automatique.

Abstrait :

Dans ce travail, nous avons d'abord créé un prototype de base de données toponymique permettant une analyse efficace

stockage, gestion, diffusion et mise à jour des données toponymiques, faisant référence au MANZIL

Carte BOU ZALFA NE au 1:25000.

Nous avons ensuite utilisé l’apprentissage automatique pour détecter automatiquement les toponymes de la carte.

Les résultats obtenus sont quantitativement faibles et qualitativement variables en raison de l'échelle de la carte

et l'hétérogénéité de l'écriture sur la carte.

mots­clés : toponymie, base de données, toponyme, machine learning.


Machine Translated by Google

Sommaire

Introduction générale………………………………………………………………………….1

Chapitre 1 : contexte général…………………………………………………………………….3

1. Introduction…………………………………………………………………………………4

2. Présentation de l'organisme d'accueil………………………………………………………4

2.1. Présentation de l'OTC…………………………………………………………………..4

2.2. Missions…………………………………………………………………………………5

3. Présentation du projet……………………………………………………………………….5

3.1. Problématique………………………………...…………………………………………5

3.2. Objectifs…………………………………………………………………………………6

4.Conclusion……………………………………………….…………………………………..6

Chapitre 2 : Etat de l'art de la toponymie………………………….…………………………..7

1.Introduction…………………………………………………………………….…………….8

2.Charte de la toponymie (d'après IGN)………………………………………….……………8

2.1. Définitions……………………………………………………………………………….8

2.1.1. Les toponymes officiels…………………………………………………………......8

2.1.2. Les toponymes non officiels……………………………………………………...…8

2.1.3. Termes génériques et éléments spécifiques……………………………...………….9

2.1.4. Désignations cartographiques…………………………...…………………………..9

2.2. Les règles de l'écriture………….……………………………...………………………..9

2.2.1. Les signes diacritiques…………………………...……………………………….....9

2.2.2. Les articles……………………...……………………………………………………...9

2.2.3. Les chiffres………..………………………………………………………………...9

2.2.4. Nature du code……...…………………………………………………………………..9


Machine Translated by Google

2.2.5. Désignation cartographique…...………………………………………………...…10

2.2.6. Majuscules et minuscules…………………………………………...……………..10

2.2.7. Pluriels des noms propres………………...………………………………………..10

2.2.8. Les sigles…...………………………...……………………………………………10

3.Base de données toponymiques…………………………………………………………….10

3.1. Exemple 1…………………...………………………………...……………………….10

3.1.1. Contexte……...……………………………………………………………………….11

3.1.2. Méthodologies...………………………...…………………………………………11

3.2. Exemple 2……………...………………………………………………………………12

3.2.1. Statut...……………………………………………………………………………..12

3.2.2. Les tables dédiées………………………...………………………………………..12

3.2.3. Extraits des tables dédiées………………………...……………………………….12

4.Apprentissage automatique et détection des noms des lieux……………………………….13

4.1. Définitions des modèles……………...………………………………………………...13

4.1.1. Modèle MATLAB………………………...……………………………………….13

4.1.2. Tesseract OCR………………...…………………………………………………...…13

4.2. Exemple...…………………………………………...…………………………………14

4.2.1. Contexte...…………………………………………………………………………….14

4.2.2. Résultats...…………………………………………………………………………….15

5.Conclusion………………………………………………………………………………….16

Chapitre 3 : Conception du prototype de la base de données toponymiques…………………18

1.Introduction…………………………………………………………………………………19

2.Carte de référence…………………………………………………………………………..19

3.Méthodologies et logiciels………………………………………………………………….19
Machine Translated by Google

3.1. Logiciels...…………………………………………………………………………...…19

3.1.1. ArcGIS...…………………………………………………………………………...19

3.1.2. GéomaTiqua...……………………………………………………………………...19

3.1.3. PostgreSQL...………………………………………………………………………20

3.2. Méthodologies………………………………………………………………………..20

4.Description des entités………………………………………………………………….......21

4.1. Exemple des requêtes…………...…………………………………………………...…24

5.Conclusion………………………………………………………………………………….25

Chapitre 4 : Application de l'apprentissage automatique pour la détection des noms des


lieux................................................. .................................................................. ........................................26

1.Introduction…………………………………………………………………………………27

2.Fonctionnement du système OCR…………………………………………………………..27

3.Mesures de performances…………………………………………………………………...29

3.1. Taux d'erreur de caractères……...……………………………………………………………29

3.2. Taux d'erreur sur les mots……...…………………………………………………………………...29

4.Modèle MATLAB…………………………………………………………………………..30

5.Modèle Tesseract………………………………………………………………………...…31

6.Interprétation des résultats.................................................. .................................................................. ......34

7.Conclusion………………………………………………………………………………….34

Conclusion générale……………………………………………………………………………..36
Machine Translated by Google

Listes des figures


Figure 1 : organigramme général de l'OTC (otc.nat.tn)

Figure 2 : schéma général (ATOUI B. et al 2000)

Figure 3 : extrait de la table TOPONYMIE_LIEUX_NOMMES (IGN 2021)

Figure 4 : extrait de la table TOPONYMIE_SERVICES_ET_ACTIVITES (IGN 2021)

Figure 5 : image d'entrée : carte de Hambourg 1841 (Schlegel, I 2021)

Figure 6 : logo du logiciel ArcGIS

Figure 7 : logo du logiciel GéomaTiqua

Figure 8 : logo du logiciel PostgreSQL

Figure 9 : schéma récapitulatif de la méthodologie de la réalisation du prototype d'une base de

données toponymiques

Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits,

lieux_non_dits, code, et les coordonnées en Lambert et en UTM

Figure 11 : extrait représentant le découpage administratif en gouvernorat, délégation et


secteur

Figure 12 : exemple de requête attributaire

Figure 13 : exemple de requête spatiale

Figure 14 : schéma récapitulatif du fonctionnement d'un système OCR

Figure 15 : logo du logiciel MATLAB

Figure 16 : logo du logiciel Visual Studio Code

Figure 17 : schéma récapitulatif du fonctionnement du modèle Tesseract


Machine Translated by Google

Listes des tableaux

Tableau 1 : les tables de la BDTOPOv3 (IGN 2021)

Tableau 2 : résultat du Tesseract OCR (Schlegel, I 2021)

Tableau 3 : les champs du prototype de la base de données toponymiques

Tableau 4 : résultats du modèle MATLAB et ces mesures de performances

Tableau 5 : résultats du modèle Tesseract et ces mesures de performances


Machine Translated by Google

Listes des abréviations

IGN : l'institut national de l'information géographique et forestière

UNESCO : l'Organisation des Nations Unies pour l'éducation, la science et la culture

RR : Ruine Romaine

INCT : l'Institut National de la Cartographie et de la télédétection

OCR : Reconnaissance Optique de Caractères

ROC : Reconnaissance optique de caractères

MSER : Maxially Stable Extremal Regions (détecteur de caractéristiques de régions

écuries maximales)

HP : Hewlett­Packard

GPS : Système de positionnement global

UTM : Mercator Transversal Universel

TIFF : Format de fichier image de balise

JPEG : Groupe conjoint d'experts en photographie

GIF : Format d'échange graphique

PNG : Graphiques réseau portables

SIG : Système d'Information Géographique

ESRI : Institut de Recherche sur les Systèmes Environnementaux

WER : taux d'erreur sur les mots

CER : Taux d'erreur sur les caractères

OTC : Office de la Topographie et du Cadastre

TPD : travaux topographiques particuliers plongeur


Machine Translated by Google

Introduction générale

La toponymie (du grec topos, lieu, onoma, nom), est définie par l'institut national de

l'information géographique et forestière (IGN) comme la science qui traite la formation et

l'évolution des noms des lieux (toponymes), ou encore, l'ensemble des toponymes d'un pays,

d'une région, ou d'une carte.

L'étude des noms de lieux, revêt une importance cruciale dans de nombreux domaines tels que

la cartographie, la recherche géographique, le tourisme et la gestion des ressources naturelles.

Les noms de lieux sont des éléments fondamentaux pour la compréhension et la représentation

précise de notre environnement géographique. Cependant, la collecte et l'organisation

La systématique de ces informations toponymiques peut présenter des défis importants.

Dans le cadre de ce projet de fin d'études, notre objectif est de développer un prototype de base

de données de la toponymie, en se basant sur la carte Manzil Bou Zalfa NE 1 :25000, qui

permettra la collecte, le stockage, la gestion, et la mise à jour d'une manière efficace et

exhaustive des données toponymiques. De plus, nous visons à utiliser un modèle

d'apprentissage automatique performant pour la détection automatique des toponymes à partir


à la carte.

L'utilisation de techniques d'apprentissage automatique offre des opportunités prometteuses

pour automatiser la détection des noms de lieux à partir de la carte. Néanmoins, ceci peut

faire face à plusieurs difficultés à cause de l’échelle de la carte et de l’encombrement de données de

la toponymie et autres.

Ce rapport explorera l'état de l'art de la toponymie et de la détection des noms de lieux, en

examiner les travaux de recherche existants dans ces domaines. Nous présenterons également

la conception de notre prototype de la base de données de la toponymie, en détaillant le schéma

et les entités clés qui la composent. Le prétraitement des données sera abordé pour garantir la

qualité et la cohérence des informations toponymiques.

Nous procédons ensuite à la modélisation et à l'apprentissage automatique, en sélectionnant

un algorithme approprié pour la détection du texte à partir de la carte (dans notre cas le texte ce

sont les toponymes) et en construisant un modèle performant.

Enfin, nous évaluons les performances de notre prototype en utilisant des mesures appropriées

et en les comparer avec d'autres approches existantes. Nous analyserons les résultats obtenus,

discutons les limites de notre approche et proposonsons des pistes d'améliorations futures. Ce

projet de fin d'études vise à apporter une contribution significative à la toponymie et à la

1
Machine Translated by Google

détection automatique des noms de lieux, en offrant un outil efficace et automatisé pour la
collecter et la gestion de ces informations essentielles.

2
Machine Translated by Google

Chapitre 1 :

Contexte général

3
Machine Translated by Google

1. Introduction :
Ce stage de mémoire a été réalisé au sein de l'office de la topographie et du cadastre, alors,
dans ce chapitre, nous allons tout d'abord présenter l'organisme de stage et ses domaines
d'activités, puis nous allons énoncer la problématique et les objectifs que nous visons atteindre
en réalisant notre projet.

2. Présentation de l'organisme d'accueil :


2.1. Présentation de l'OTC :

L'office de la topographie et du cadastre (OTC) trouve ses racines le 15 juillet 1886 instituant
en Tunisie le régime de l'immatriculation foncière.
En 1974, l'OTC a été créé en tant qu'entreprise publique à caractère industriel et commercial.
sous la tutelle du Ministère de l'Equipement et de l'Habitat.
En 2009, l'appellation "Office de la Topographie et de la Cartographie" a été modifiée pour
devenir "Office de la Topographie et du Cadastre".

Figure1 : organigramme général de l'OTC (otc.nat.tn)

4
Machine Translated by Google

2.2. Missions :

L'OTC se conforme aux fonctions prévues par la législation et les règlements en vigueur en ce

qui concernent l'immatriculation foncière et le cadastre.

L'OTC exécute les travaux d'infrastructure de base relatifs aux réseaux géodésiques et de

nivellement constituant la base et la référence de tous les projets de développement comme mission de

service public pour le compte de l'État ainsi que des travaux à caractère commercial pour le compte des

tiers ou de l'État.

Les travaux d'infrastructure pour le compte de l'Etat :

­ Assurer l'implantation et la conservation d'un réseau géodésique et d'un réseau de

nivellement de précision à l'échelle nationale.

­ Exécuter et contrôler les travaux d'immatriculation foncière et du cadastre.

­ Délimiter les terres, les domaines publics et les circonscriptions administratives.

­ Assurer la production, l'entretien et la diffusion de l'information foncière.

Les travaux à caractère commercial pour le compte des tiers ou de l'État :

­ L'exécution et le contrôle des travaux d'immatriculation foncière et du cadastre.

­ Les lotissements au sol et en copropriété.

­ Les travaux topographiques particuliers divers (TPD).

­ L'établissement des cartes touristiques et thématiques.

­ L'exploitation et la connexion au réseau GNSS en temps réel et en différé pour les

professionnels.

­ La prise de vues aériennes et l'établissement des plans topographiques à grande échelle.

3. Présentation du projet :
Notre projet est réalisé au sein de l'Office de la Topographie et du Cadastre dans le but de créer

un prototype d'une base de données toponymiques qui peut être ultérieurement généralisé sur

toutes les cartes de la Tunisie pour arriver enfin à réaliser une base de données de la toponymie
du territoire tunisien.

3.1. Problématique :

La toponymie révèle une importance indiscutable dans plusieurs domaines tels que la

cartographie et le patrimoine linguistique et culturel. Cependant, l'accès aux données

toponymiques est difficile à cause de l'absence d'une base de données de la toponymie de la

5
Machine Translated by Google

Tunisie, ce qui engendre des données toponymiques qui ne sont pas normalisées ni organisées

pour être accessible, exploitable et mis à jour si nécessaire.

Une base de données de la toponymie permet de collecter, stocker et organiser les données

toponymiques d'une manière à rendre leurs exploitations plus faciles et efficaces.

3.2. Objectifs :

L'objectif de ce travail est de réaliser un prototype d'une base de données toponymiques en

prenant la carte MANZIL BOU ZALFA NE 1 : 25 000 comme référence. Ce prototype peut

être généraliser sur les cartes de la Tunisie pour constituer la base fondamentale pour la

réalisation de la base de données toponymiques de la Tunisie.

Ensuite on vise à appliquer l'intelligence artificielle à la détection des noms des lieux pour

automatiser la détection des toponymes à partir d'une carte.


4. Conclusion :

Dans ce chapitre, nous avons présenté l'office de la topographie et du cadastre et ces différentes

missions, ainsi que le contexte et les objectifs du projet.

6
Machine Translated by Google

Chapitre 2 :
Etat de l'art de la

toponymie

7
Machine Translated by Google

1. Introduction :

La toponymie est l'étude des noms de lieux (les toponymes), qu'il s'agisse de noms de villes,

de régions, de montagnes, de rivières ou d'autres composantes géographiques. Elle présente une

grande importance dans de nombreux domaines et de multiples applications, tels que :

­ Histoire et culture : Les noms de lieux peuvent fournir des informations cruciales sur

l'histoire et la culture d'une région donnée [5]. Ils témoignent des populations et de leurs

particularités linguistiques, et des événements historiques qui caractérisent une région.

L'étude de la toponymie permet de comprendre les migrations, les échanges et les cultures

les héritages des différentes civilisations.

­ Linguistique : La toponymie est fortement liée à la linguistique, car les toponymes

faisant souvent ressortir les spécificités linguistiques d'une région. L'étude des toponymes aide

à interpréter l'évolution des langues, les influences culturelles et les relations entre les

communautés différentes linguistiques [2].

­ Cartographie : La toponymie est primordiale pour l'identification, la localisation et la

cartographie des lieux. Les toponymes sont des moyens efficaces pour communiquer

des informations géographiques, faciliter la navigation, la gestion des ressources

naturelles et l'aménagement du territoire. Les cartographes et les géographes utilisent la

toponymie pour créer des cartes précises et pour étudier les caractéristiques physiques

d'une région.

­ Archéologie et recherche scientifique : Dans le domaine de l'archéologie, la toponymie

peut apporter des informations sur les anciennes implantations humaines et les sites

historiques. Ainsi, les noms des lieux indiquent les chercheurs à retracer les mouvements.

migratoires et les changements climatiques et géologiques.

2. charte de toponymie (d'après IGN) :


2.1. Définitions :

2.1.1. Les toponymes officiels : ce sont les noms des entités administratives à savoir les

régions, les arrondissements, les communes… A noter que les communes supprimées à la suite

d'une fusion ne sont plus des entités administratives, leur nom par conséquent, n'est plus un

toponyme officiel.

2.1.2. Les toponymes non officiels : représentent la plupart des toponymes et peuvent être
subdivisés en :

­ lieux habités non administratifs.

­ lieux dits, zones boisées, zones de cultures…

8
Machine Translated by Google

­ les oronymes : les détails des reliefs (montagne, colline) et mêmes les détails des reliefs

côtiers tels que les caps et les îles.

­ les hydronymes : les noms des lieux caractérisés par la présence d'eau qu'elle que soit

permanente ou temporaire. Ces toponymes sont écrits en bleu sur les cartes 1 :25 000

­ les odonymes : les noms des voies de communication.

2.1.3. Termes génériques et éléments spécifiques :

Pour l'échelle 1 :25 000, la majorité des toponymes ont une valeur descriptive qui s'exprime

par un terme générique lié à un élément spécifique.

Le terme générique représente d'une manière générale la nature de l'élément géographique

désigné, alors que l'élément spécifique vient de compléter le terme générique et peut être un

article ou/et un autre élément linguistique.

Ces deux composantes d'un toponyme se lient à l'aide des articles (le, la, les), des locutions

adverbiales (à côté, au­dessus…) ou des prépositions (à, de, sur…).

2.1.4. Désignations cartographiques :

Ce sont des noms communs qui révèlent la nature et la fonction d'un élément représenté par un

signe conventionnel. Ce dernier constitue un renseignement sur le toponyme sans en faire partir.

2.2. Les règles d'écriture :

2.2.1. Les signes diacritiques :

Les signes diacritiques sont toujours notés sur les chiffres majuscules et minuscules.

2.2.2. Les articles :

Un article placé devant un nom précise le genre, le nombre et le sens dont le nom est pris.

Cependant, il n'a aucune signification propre à lui.

L'emploi ou non d'un article est déterminé selon des enquêtes sur la linguistique locale, il est

également conditionné par deux règles : règle de l'usage et règle de l'accord.

Brièvement, l'article est utilisé, pour les lieux habités et les lieux­dits non habités, si l'usage le

confirmer. Il est non utilisé dans le cas où le terme générique du nom confirme d'une manière

explicite la nature du lieu.

2.2.3. Les chiffres :

Généralement, les nombres ordinaux ou cardinaux s'écrivent en toutes lettres, hormis quelques

cas dont l'usage impose l'utilisation des chiffres arabes pour les dates ou des chiffres romains.

2.2.4. Nature des codes :

C'est l'expression employée pour préciser la fonction ou la catégorie géographique de

l'élément en question. Le code nature exprime les spécificités correspondantes à chaque

9
Machine Translated by Google

produit, il est représenté en général sous forme d'abréviation qui peut rassembler différents
détails.

2.2.5. Désignation cartographique :

La désignation cartographique est déterminante pour la bonne compréhension des


renseignements d'un toponyme. La désignation ne peut pas être notée lorsque le toponyme

assurer de préciser sa signification. Par exemple, on ne trouve pas de désignations des cours
d'eau (rivière, ruisseau, fleuve).

2.2.6. Majuscules et minuscules :


Tous les noms propres, noms communs ou adjectifs prennent toujours une majuscule.

Chaque mot d'un terme générique complexe prend une majuscule.


Les articles définis et indéfinis sont toujours en minuscules.

Les prépositions et les adverbes prennent une majuscule au début du toponyme, mais une
minuscule à l'intérieur ou à la fin du toponyme.

2.2.7. Pluriels des noms propres :


Généralement, les noms propres ne se mettent pas en pluriel. Néanmoins, l'usage s'oppose à

cette règle : les prénoms précédés par un article pluriel se finissent par un ''s''.
2.2.8. Les sigles :

Dans ce cas on fait recours à la prononciation des sigles. En effet, lorsque le sigle se prononce
comme un mot, sur l'écrit sans point entre les lettres (UNESCO). Sinon, lorsqu'il se prononce

lettre par lettre, on met un point entre chacune de celles­ci (RR).

3. Base de données toponymiques :


La toponymie joue un rôle primordial dans la communication et la compréhension de notre

environnement. En effet, une base de données de la toponymie constitue un environnement de


recueil organisé pour les toponymes, facilitant ainsi la collecte, la saisie, le stockage et la mise

à jour des données toponymiques. Cette base de données constitue une ressource cruciale pour
les cartographes, les chercheurs et les décideurs, offrant un coup d'œil détaillé de l'évolution et

de la signification des lieux au cours du temps. On peut dire donc que la base de données de la
la toponymie fait l'objet d'un outil fondamental pour la préservation du patrimoine géographique,

linguistique et culturelle.
Dans la suite, nous citons quelques exemples de travaux réalisés sur les bases de données

toponymiques, leurs contextes de création, la démarche suivie et les résultats obtenus.

dix
Machine Translated by Google

3.1. Exemple1 :
Cet exemple est extrait d'un article intitulé : REALISATION D'UNE BASE DE DONNEES
TOPONYMIQUES, réalisé par : Atoubi B., Chemaa B., Brahimi Moulay M'hamed au sein de
l'Institut National de la Cartographie et de Télédétection (INCT).
3.1.1. Contexte :

L'INCT (l'organisme officiel de la cartographie en Algérie) se rend compte des complications


de la toponymie locale à cause de l'inexistence d'une politique toponymique nationale claire et
de la complexité de la transcription des caractères arabes en caractères latins [4]. L'étude de la
carte d'Algérie dévoile une grande variation dans l'écriture d'un même toponyme. il est
nécessaire donc de mettre en place une base de données toponymiques (appelée BDT_DZ) qui
vise à normaliser les noms des lieux.

3.1.2. Méthodologie :
La démarche de création de la base de données consiste à :

­ Collecte de données à partir des cartes topographiques, fichiers des limites


administratives, carnet justificatif des nom…
­ Mise en place du schéma conceptuel : détermination des propriétés, identifications des
entités et des relations, affectation des propriétés aux entités et relations.
­ Saisie et implémentation des données.

Figure 2 : Schéma général (ATOUI B. et al 2000)

Pour conclure, la base de données toponymiques est réalisée pour répondre aux besoins
suivants : la préservation du patrimoine national de la toponymie, faciliter la mise à jour des
données et la standardisation des données toponymiques.

11
Machine Translated by Google

3.2. Exemple2 :
L'exemple est pris d'un document délivré en décembre 2018 par l'IGN : Note sur la toponymie
dans la BDTOPOv3.
3.2.1. Statut :

Les noms de lieux sont portés directement par l'objet, avec statut de validation.
La base de données comporte un champ TOPONYME qui contient le nom du lieu sous les
règles d'écriture, il est complété par l'attribut STATUT_TOP qui définit son degré de validation
(validé, collecté, régional).
3.2.2. Les tables dédiées :

Les détails d'une toponymie sont diffusés dans des tableaux dédiés. Ces dernières sont délivrées
dans la BDTOPov3 sous le nom de TOPONYME_THEME.
Les tableaux suivants sont les compléments des toponymes pour chaque thème :

Tableau 1 : les tables de la BDTOPOv3 (IGN 2021)


3.2.3. Extraits des tables dédiées :

Figure 3 : Extrait de la table TOPONUMIE_LIEUX_NOMMES (IGN 2021)

Figure 4 : Extrait de la table TOPONYMIE_SERVICES_ET_ACTIVITES (IGN 2021)

12
Machine Translated by Google

4. Apprentissage automatique et détection des noms des lieux :


L'apprentissage automatique, une branche de l'intelligence artificielle, une révolutionné de
De nombreux domaines, y compris la détection du texte à partir des images. Cette discipline
fascinant repos sur l'idée de permettre aux machines d'apprendre à partir de données et de
prendre des décisions sans être précisées programmées.
Dans le contexte de la détection des noms de lieux, l'apprentissage automatique se révèle être
une technologie précieuse qui permet aux systèmes informatiques de reconnaître, extraire et
comprendre automatiquement les références aux endroits dans les textes, L'idée ici c'est
d'utiliser des modèles de détection de texte dans le mais de retenir automatiquement les noms
des lieux à partir d'une carte. Cette capacité a des implications importantes dans des domaines
tels que la cartographie, la recherche d'informations géographiques, la géolocalisation et bien
d'autres, contribuant ainsi à une meilleure compréhension de notre monde de manière
automatisé et efficace.
4.1. Définition des modèles :

La détection des noms des lieux se base sur des modèles prédéfinis de détection du texte à partir
des images. Dans cette partie, nous allons définir deux modèles, le modèle MATLAB et le
modèle Tesseract OCR. Ces deux modèles seront ultérieurement appliqués à la carte de notre
cas d'étude.
4.1.1. Modèle MATLAB :

Le modèle est pris à partir de la documentation du logiciel MATLAB. Il est appliqué


généralement sur les panneaux de signalisation ou bien sur un document dont le texte est
uniforme et clair. Ce modèle exploite le système OCR (Optical Character Recognition) pour la
détection du texte accompagné par un ensemble de traitement effectué sur l'image.
L'OCR ou encore ROC (Reconnaissance optique de caractères) est un système qui permet de
reconnaître et convertir des images de textes tapés, manuscrits ou imprimés en texte encodé par
machine.

Cet exemple montre comment détecter les régions contenant un texte dans une image en
utilisant un détecteur de caractéristiques de régions maximales stables (MSER).
4.1.2. TesseractOCR :

Tesseract est un moteur de reconnaissance optique de caractères (OCR) open source, développé
par Google. Il est conçu pour convertir des images contenant du texte, qu'il s'agisse de textes
dactylographiés, manuscrits ou imprimés, en texte encodé machine [6].

13
Machine Translated by Google

­ Origine : Tesseract a été initialement développé par Hewlett­Packard (HP) dans les
années 1980 à des fins de reconnaissance de texte. Par la suite, il a été open source en

2005 et Google l'a repris, contribuant à son développement ultérieur.

­ Langues prises en charge : Tesseract prend en charge de nombreuses langues du monde


entière. Il est capable de reconnaître et de traiter des scripts variés, notamment latin,

cyrillique, chinois, arabe, hébreu, japonais et bien d'autres. Cela en fait un outil

polyvalent pour la reconnaissance de texte multilingue.

­ Modèles de formations : Tesseract utilise des modèles de formation pour améliorer la


précision de la reconnaissance dans différentes langues et pour différents types de

politiques. Les utilisateurs peuvent également créer leurs propres modèles de formation

pour des tâches spécifiques.

­ Entrée : Tesseract prend en charge une variété de formats d'entrée, notamment des images
de texte au format TIFF, JPEG, GIF, PNG et autres.

­ Output : Les résultats de la reconnaissance peuvent être générés au format texte brut
susceptible d'être édité.

­ Amélioration : Tesseract est constamment amélioré par une communauté de


développeurs et d'utilisateurs du monde entier. Les mises à jour régulières incluent des

amélioration de la précision, des fonctionnalités étendues et des corrections de bogues.

­ Utilisations : Tesseract est largement utilisé dans des applications de numérisation de


documents, de conversion de livres imprimés en formats numériques, de recherche

textuelle dans des images, d'automatisation de processus, de reconnaissance de plaques

d'immatriculation, d'extraction de texte de photos, et bien plus encore.

En résumé, Tesseract est un outil OCR puissant, polyvalent et en constante évolution, qui

permet de convertir efficacement des images de texte en texte encodé machine, avec une prise

en charge étendue des langues et des formats d'image.

4.2. Exemple :

Détection automatique de texte à partir d'une carte historique, extrait d'un article intitulé

« Extraction automatisée d'étiquettes à partir de cartes historiques à grande échelle ».

4.2.1. Contexte :

Ce document aborde une combinaison appropriée de détection automatique de texte et de

reconnaissance de texte à partir de cartes historiques à grande échelle dans le

mais d'extraire des informations exploitables par des machines [1].

L'image d'entrée est un sous­ensemble de la carte de Hambourg réalisé sous la direction de

Willm. Lindley, Esq. CE Avril 1841.

14
Machine Translated by Google

Figure 5 : image d'entrée : carte de Hambourg 1841 (Schlegel, I 2021)

4.2.2. Résultats :

Dans cet article, le modèle utilisé est Tesseract OCR pour obtenir les résultats des CV dans le
tableau ci­dessous

15
Machine Translated by Google

Tableau 2 : résultat du Tesseract OCR (Schlegel, I 2021)

5. Conclusion :
Dans ce chapitre, nous avons exploré l'état de l'art de la toponymie, en mettant en lumière
l'importance des noms de lieux dans de nombreuses applications, de la cartographie à la
navigation GPS en passant par la recherche d'informations géolocalisées. Nous avons
également examiné différents exemples de bases de données toponymiques, montrant la
diversité des sources et des formats dans lesquels ces données sont disponibles.
De plus, nous avons plongé dans le domaine de l'apprentissage automatique en relation avec la
détection du texte à partir des images pour l'appliquer ultérieurement à la détection des noms
des lieux à partir des cartes, en offrant comment les avancées dans ce domaine ont
révolutionné la façon dont nous traitons les données géospatiales.

16
Machine Translated by Google

En conclusion, la toponymie et la détection des noms de lieux jouent un rôle essentiel dans
notre compréhension du monde qui nous entoure, et l'utilisation de l'apprentissage automatique
pour extraire ces informations de manière efficace ouvre de nouvelles possibilités passionnantes
dans un large éventail d'applications. Cependant, il reste encore des défis à relever, notamment
la gestion de la variabilité linguistique et l'adaptation à des contextes spécifiques.

17
Machine Translated by Google

Chapitre 3 :

Conception du
prototype de la
base de

données toponymiques

18
Machine Translated by Google

1. Introduction :
Dans ce chapitre, nous entamons la phase cruciale de la conception de notre prototype de base
de données toponymiques. Tout commence par la présentation de la carte de référence, une
pièce fondamentale qui constitue la source de données de notre projet. Ensuite, nous nous
Plongés dans la description des entités essentielles qui constituent notre base de données,
mettant en lumière les caractéristiques et les relations clés.
À travers cette exploration, nous jetons la méthodologie nécessaire pour la création d'un
prototype de base de données toponymique robuste et fonctionnelle, prêt à répondre à nos
objectifs de recherche et d'analyse.

2. Carte de référence :
La réalisation du prototype de la base de données de la toponymie est fondée sur les
informations et données fournies par la carte : MANZIL BOU ZALFA NE 1 : 25 000.
Cette carte constitue la source fondamentale des données toponymiques alimentant notre base
de données, elle va fournir les toponymes, leurs types (oued, lieux habités, reliefs…), la position
géographique.

3. Méthodologies et logiciels :
3.1. Logiciels :
3.1.1. ArcGIS :

ArcGIS est une suite de systèmes d'information géographique (SIG) développée par ESRI qui
permet de collecter, gérer, organiser, analyser et diffuser des informations géographiques.
ArcGIS a permis le géoréférencement de la carte, l'extraction des toponymes et des
informations relatives (types, coordonnées, noms…) et la réalisation de la table du prototype de
la base de données de la toponymie.

Figure 6 : logo du logiciel ArcGIS

3.1.2. GéomaTiqua :
GéomaTiqua est un logiciel Géodésique topographique qui génère une base de données
géographique, il permet le traitement automatique de l'information géographique
simultanément sur quatre systèmes de coordonnées (STT, IGN, NTT ou UTM et WGS84).

19
Machine Translated by Google

Ce traitement est garanti grâce à des fonctions mathématiques universelles et des relations

basés sur les paramètres de transformations.

GéomaTiqua va être utilisé pour convertir les coordonnées du Lambert au UTM.

Figure 7 : logo du logiciel GéomaTiqua

3.1.3. PostgreSQL :

PostgreSQL est un système de gestion de base de données relationnelles. Il a été développé

par le département des sciences informatiques de Berkeley à l'université de Californie.

Ce logiciel a été utilisé pour la visualisation de la base de données et pour essayer quelques

requêtes.

Figure 8 : logo du logiciel PostgreSQL

3.2. Méthodologies :

Après avoir géoréférencé la carte, nous commençons tout d'abord par bien lire la carte. il est

important de se mettre dans l'échelle, cette carte est à l'échelle 1 :25000.

Une bonne lecture de la carte va permettre la bonne compréhension des renseignements qu'elle

apporte qui vont servir à la réalisation du prototype de la base de données. Voici les avantages
d'une solide lecture de la carte :

­ Collecte des données : identification précise des toponymes et de leurs emplacements

exacts à la carte. Nous pouvons même retenir les coordonnées exactes puisque la

la carte est géoréférencée au préalable.

­ La sélection des données : une carte topographique fournit de multiples données autres

que la toponymie, lire attentivement la carte va permettre de distinguer entre les

20
Machine Translated by Google

données et de retenir que les données souhaitées qui vont servir au remplissage de la
base de données.

­ Identification des variations toponymiques : En analysant différentes cartes historiques

ou actuels, nous pouvons identifier les variations dans les noms de lieux au fil du

temps. Cela enrichit notre base de données en ajoutant une dimension historique.

­ Analyses des relations spatiales : comprendre les relations spatiales entre les

toponymes, tels que la proximité géographique, les frontières administratives, etc.…

­ Eviter les erreurs : Une compréhension correcte des symboles, de l'échelle et de la

la légende de la carte contribue à éviter les erreurs de saisie et d'interprétation lors de


l'alimentation de la base de données.

­ Planification des données : La lecture de la carte aide à planifier la manière dont les

les données seront organisées dans la base de données et à définir les champs pour

enregistrer des informations spécifiques sur les toponymes en fonction de ce que nous
ont observé sur la carte.

­ Interprétations : L'analyse des données toponymiques peut révéler des tendances

géographiques, historiques ou culturelles, ce qui peut être utile pour la recherche ou la

prise de décision.

L'étape qui vient après c'est d'alimenter la table avec les toponymes et leurs données relatives.

Lecture de la Choix des Saisie des Visualisation


carte données données de la base

­ Carte
définir les
Ouvrir la base
­ Etat justificatif des champs de la
noms sur PostgreSQL
table

­fichiers des Remplissage des


limites champs
administratifs

Figure 9 : schéma récapitulatif de la méthodologie de la réalisation du prototype d'une base de


données toponymiques

4. Description des entités :


Dans ce qui suit, nous explorons les différents champs qui constituent le prototype de base de

données, ci­dessous un tableau illustrant ces champs.

21
Machine Translated by Google

Champions Taper

Nom Texte

Taper Texte

Lieux_dits Texte

Lieux_non_dits Texte

Code Double precision

Xlambert Double precision

Ylambert Double precision

Xutm Double precision

Yutm Double precision

Police_ecr Texte

Gouvernorat Texte

Délégation Texte

Secteur Texte

Carte Texte

Date Double precision

Historique Texte

Géométrie Indiquer

Tableau 3 : les champs du prototype de la base de données toponymiques

Nous allons par suite détailler les champs de la base de données pour comprendre les

caractéristiques et les relations des entités.

­ Nom : c'est le champ qui contient les noms des lieux tirés directement à partir de la
carte d'une manière fiable.

­ Type : ce champ reflète les catégories des toponymes qui sont : barrage, carriere, ecole,

falaise, ferme, hanshir, institut, lycée, municipalite, point d'eau, Qobba, repère de

nivellement, rocher, route, ruine romaine, source, station de pompage, station STEG,

transformateur, ville, wad permanent, wad temporaire, zewya.

A noter que ces catégories représentent que les noms des lieux qui existent sur la carte de

Manzil Bou Zalfa NE et ne représente pas toutes les catégories qu'on peut trouver dans les
cartes à l'échelle 1 :25000.

­ Lieux_dits, lieux_non_dits : pour chaque toponyme, un seul champ parmi les deux

contient une valeur. On alors distingue les lieux dits (en droit) des lieux non­dits (en

italique).

­ Code : les entités de même type ont un code commun.

22
Machine Translated by Google

­ Xlambert, Ylambert, Xutm, Yutm : ces champs contiennent les coordonnées x et y

exactes de chaque toponyme sur la carte. Les coordonnées Lambert sont tirées

directement à partir de la carte dans le logiciel ArcGIS (puisque la carte est

géoréférencée avec des coordonnées Lambert) alors que les coordonnées UTM sont

obtenus à la suite d'une conversion des coordonnées initiales avec le logiciel

GéomaTiqua. La position géographique des toponymes est l'attribut le plus important

puisque chaque toponyme a ses propres coordonnées.

­ Police_ecr : c'est la police d'écriture des toponymes sur la carte, les détails sont extraits

à partir du document de l'état justificatif des noms. (Exemple : les points d'eau dont le

toponyme est 'Pts' s'écrit en taille 5 Genève Italique Maigre).

­ Gouvernorat, Délégation, Secteur : sont obtenus par superpositions des shapefiles des
limites administratives à la carte.

­ Carte : c'est le nom entier de la carte, ce champ semble inutile dans ce cas mais ce

prototype de base de données peut être utilisé pour rassembler les données

toponymiques de plusieurs cartes dans une seule base de données, dans ce cas, ce champ

sérums indispensables.

­ Historique : c'est un champ qui peut être mis à jour ultérieurement après une recherche

approfondie sur l'historique des noms des lieux.

Après avoir alimenté la base de données, nous avons obtenu un tableau contenant 17 colonnes et

438 lignes (toponymes). Voici des extraits de la base de données réalisées :

Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits, lieux_non_dits,
code, et les coordonnées en Lambert et en UTM.

23
Machine Translated by Google

Figure 11 : extrait représentant le découpage administratif en gouvernorat, délégation et secteur.

4.1. Exemple de requêtes :

Figure 12 : exemple de requête attributaire

24
Machine Translated by Google

Figure 13 : exemple de requête spatiale

5. Conclusion :
La conception du prototype de la base de données toponymiques constitue une étape cruciale

dans le développement de notre système. Dans ce chapitre, nous avons examiné en détail

chaque aspect de cette conception, en commençant par la carte de référence qui sert de

fondement à la base de données. Cette carte, en tant que source primaire de données

géographiques, est essentielle pour garantir la précision et la cohérence de notre système.

La méthodologie adoptée a été discutée en détail, mettant en évidence les étapes clés du

processus de conception, de la modélisation des données à la création des relations entre les

entités. Cette méthodologie fournira un cadre solide pour la construction de notre base de
données.

Enfin, nous avons fourni une description détaillée des entités qui seront stockées dans notre

base de données. Ces entités, représentant divers éléments géographiques, serviront de base

pour notre prototype. Leur conception soignée garantit que la base de données sera en mesure

de répondre efficacement aux besoins de collecte, de stockage et d'interrogation des données

toponymiques.

25
Machine Translated by Google

Chapitre 4 :

Demande de

l'apprentissage automatiquepour la
détection des noms noms des
lieux

26
Machine Translated by Google

1. Introduction :
Dans ce chapitre, nous allons utiliser l'intelligence artificielle pour détecter automatiquement
les noms des lieux à partir de la carte de référence. Nous allons traiter deux modèles, le modèle
Matlab et le modèle Tesseract pour voir les résultats obtenus tout en résultat comment nous
avons préparé les données pour être exploitées dans les modèles.
Ensuite, nous allons évaluer les deux modèles avec des mesures de performances utilisées pour
quantifier la précision des modèles OCR.

2. Fonctionnement du système OCR :


Le fonctionnement d'un système OCR comprend 6 étapes :
Etape 1 : Acquisition de l'image : Tout d'abord, le système OCR acquiert une image qui contient
du texte. Cela peut être un document scanné, une photo d'une page de texte, une écriture
manuscrite ou comme dans notre cas, une carte.

Etape 2 : Prétraitement de l'image : Avant de procéder à la reconnaissance des caractères,


l'image est souvent soumise à un prétraitement. Cela peut inclure la correction de l'orientation,
l'amélioration de la qualité de l'image en supprimant les taches ou le bruit, et la conversion en
niveaux de gris ou en noir et blanc pour simplifier la reconnaissance.
Etape 3 : Segmentation : L'image est ensuite analysée pour séparer le texte des images, des
lignes de séparation, etc. Cela permet au système de distinguer clairement où se trouvent les
caractères à reconnaître.

Etape 4 : Reconnaissance de caractères : La partie centrale du processus OCR consiste à


identifier les caractères individuels dans l'image. Cela implique l'utilisation d'algorithmes de
traitement d'image et de modèles de caractères pour tenter de faire correspondre les formes à
des caractères spécifiques.
Etape 5 : Post­traitement : Après la reconnaissance des caractères, un post­traitement peut être
appliqué pour corriger les erreurs et améliorer la précision du texte reconnu. Cela peut inclure
la recherche de mots mal orthographiés et l'application de règles grammaticales pour améliorer
la qualité du texte.
Etape 6 : Production de texte : Une fois que la reconnaissance est terminée et que le texte a été
corrigé, le système OCR produit un fichier texte éditable contenant la version électronique du
texte d'origine.

La figure en dessous résume le fonctionnement général d'un système OCR.

27
Machine Translated by Google

Figure 14 : schéma récapitulatif du fonctionnement d'un système OCR

28
Machine Translated by Google

3. Mesures de performances :
Un modèle OCR fournit généralement des mesures de précision de reconnaissance lorsqu'il est

utilisé en mode d'évaluation ou lors de la comparaison avec un ensemble de données connu.

Ces mesures de précision peuvent varier considérablement en fonction des données d'entrée et

du cas d'utilisation spécifique. La précision des modèles OCR peut être assez élevée pour des

textes bien prétraités et propres, mais elle peut diminuer pour des documents plus complexes

ou bruyants.

Pour évaluer nos résultats, nous allons utiliser deux mesures de performances :
3.1. Taux d'erreur de caractère :

Le "Character Error Rate" (CER) est couramment appelé "Taux d'Erreur de Caractères" en

français. Il s'agit d'une mesure de l'exactitude de la reconnaissance de caractères dans le

contexte de la reconnaissance optique de caractères (OCR) ou de la transcription de la parole

[7]. Le CER quantifie le pourcentage d'erreurs de caractères entre le texte reconnu (généré par

un système OCR ou de transcription) et le texte de référence (le texte original ou de qualité

connue). Nous pouvons calculer le CER en utilisant la formule suivante :

CER = (S+D+I) / N où

S : Le nombre d'erreurs de substitution (caractères incorrectement reconnus).

D : Le nombre d'erreurs de suppression (caractères manquants).

I : Le nombre d'erreurs d'insertion (caractères en excès qui ne devraient pas être là).
N : Le nombre total de caractères dans le texte de référence.

Après avoir calculé le CER, il est comparé par les tests de référence suivants :

­ Bonne précision OCR : CER de 1 à 2 % (précision de 98 à 99%)

­ Moyenne précision OCR : CER de 2 à 10 %

­ Mauvaise précision OCR : CER > 10 % (moins de 90 % de précision)


3.2. Taux d'erreur de mot :

Le "Word Error Rate" (WER), qui mesure le taux d'erreurs de mots dans la reconnaissance

optique de caractères (OCR) ou la transcription de la parole, peut être appelé en français le

"Taux d'Erreur de Mots" ou simplement "TER" pour abréger. Il se calcule avec la formule

suivante : WER = (S+D+I) / N où

S : Le nombre d'erreurs de substitution (mots incorrectement reconnus).

D : Le nombre d'erreurs de suppression (mots manqués).

I : Le nombre d'erreurs d'insertion (mots en excès qui ne devraient pas être là).
N : Le nombre total de mots dans le texte de référence.

29
Machine Translated by Google

4.Modèle MATLAB :
MATLAB est une plateforme de programmation conçue spécifiquement pour les ingénieurs et

les scientifiques afin d'analyser et de concevoir des systèmes et des produits qui transforment

notre monde. Le cœur de MATLAB est le langage MATLAB qui se base sur les matrices et

offre une manière des plus intuitives d'exprimer les concepts mathématiques en informatique.

MATLAB a servi pour traiter un modèle OCR visant la détection automatique des noms

des lieux à la carte.

Figure 15 : logo du logiciel MATLAB

Ce modèle vise à détecter les régions textuelles dans la carte à fin d'appliquer le principe de

l'OCR pour extraire le texte (les noms des lieux) sous forme machine­encodé.

La procédure pour obtenir en fin les noms des lieux consiste en 5 étapes :

Etape 1 : détection des régions du texte :

Le détecteur de caractéristiques MSER fonctionne bien pour trouver des régions de texte. il est
efficace en raison de la couleur constante et du fort contraste du texte.

Etape 2 : suppression des régions non textuelles en fonction des propriétés géométriques de
base.

Bien que l'algorithme MSER détecte la plupart du texte, il détecte également de nombreuses

autres régions stables dans l'image qui ne sont pas du texte. On peut donc utiliser une approche

basé sur des règles pour supprimer les régions non textuelles en exploitant des propriétés

géométriques du texte pour filtrer les régions non textuelles. Il existe plusieurs propriétés

géométriques qui sont utiles pour discriminer entre les régions de texte et les régions non

textuelles, notamment : rapport d'aspect, excentricité, étendue, Solidité.

Etape 3 : suppression des régions non textuelles en fonction de la variation de la largeur des
caractéristiques.

Une autre mesure utilisée pour discriminer entre le texte et les régions non

les textuelles sont la largeur des traits. La largeur des traits est une mesure de la largeur des courbes

et des lignes qui composent un caractère. Les régions de texte ont tendance à avoir peu de

30
Machine Translated by Google

variation de la largeur des traits, tandis que les régions non textuelles ont tendance à avoir des

variations plus importantes.

Etape 4 : Fusion des régions de texte pour obtenir le résultat final de détection.

À ce stade, tous les résultats de détection sont composés de caractères de texte individuels. Verser

utiliser ces résultats dans des tâches de reconnaissance, telles que la reconnaissance optique de

caractères (OCR), les caractères de texte individuels doivent être regroupés en mots ou en lignes

de texte. Cela permet la reconnaissance des mots réels dans une image, qui contient des

informations plus significatives que les caractères individuels.

Etape 5 : Reconnaître et afficher le texte détecté en utilisant la reconnaissance optique de

caractères (OCR).

Après avoir détecté les régions de texte, utilisez la fonction OCR pour reconnaître le texte à

l'intérieur de chaque zone englobante. A noter qu'en l'absence de détection préalable des

Dans certaines régions de texte, la sortie de la fonction OCR serait considérablement plus bruyante.

Le tableau suivant illustre les noms des lieux détectés par ce modèle et leurs équivalents sur la
carte :

Résultat du modèle Le toponyme (écriture de la carte) WER CER

Bir Bilctsa Bir Bil Hsan 0,67 0,25

Bir Big 'Arou Bir Bin Arous 0,67 0,23

Bir al­Hisyal Bir al Hisyan 0,33 0,08

FR FR 1h00 0,50

Minit ou Dhwil Minit Om Dhwil 0,33 0,07

Al'Mallasin Al Mallasin 1h00 0,09

H an s/salut Hanshir 16h00 0,71

Tifilloun Tifilloun 0,00 0,00

MAN/ZIL BOU ZALFA NE MANZIL BOU ZALFA NE 0,25 0,05

0,92 0,22

Tableau 4 : résultats du modèle MATLAB et ces mesures de performance

5. Modèle Tesseract :
Visual Studio Code est un éditeur de code source léger mais puissant qui s'exécute sur les

ordinateurs et est disponible pour Windows, macOS et Linux. Il inclut une prise en charge

intégré pour JavaScript, TypeScript et Node.js, et bénéficie d'une écosystème riche en

31
Machine Translated by Google

extensions pour d'autres langages et environnements d'exécution (comme C++, C#, Java,
Python, PHP, Go, .NET).
Cet environnement a permis d'exécuter un code en python pour détecter les toponymes en
utilisant le modèle Tesseract OCR.

Figure 16 : logo du logiciel Visual Studio Code

Python­tesseract est un outil de reconnaissance optique de caractères (OCR) pour Python. Fr


d'autres termes, il permet de reconnaître et de "lire" le texte incorporé dans des images.
Il est également utile en tant que script d'invocation autonome pour Tesseract, car il peut lire
tous les types d'images. De plus, s'il est utilisé en tant que script, Python­tesseract affichera le
texte reconnu à l'écran au lieu de l'écrire dans un fichier.

Nous allons utiliser un script python qui permet de lire une image, effectuer des traitements
pour préparer l'image à être traitée par le module "pytesseract" à fin d'afficher le résultat sous
forme textuelle.

La première étape est de faire un zoom sur la carte et de la découper en portion où le texte est
clair et lisible, puis le script va transformer l'image d'entrée en binaire (noir et blanc), ensuite
des filtres vont nettoyer l'image des bruits (le fond de la carte) pour obtenir une image claire le
plus possible. En fin l'image va être traitée par "pytesseract" pour afficher le résultat sous forme
de texte encodé machine.

Figure 17 : schéma récapitulatif du fonctionnement du modèle Tesseract

Les résultats et les mesures de performances de ce modèle sont résumés dans le tableau
suivant :

32
Machine Translated by Google

Résultat du modèle Toponyme sur carte WER CER

Bou Dokhan Bou Dokhan 0,00 0,00

Ar­Rghin Ar­Rghin 0,00 0,00

a Dah taz Zawya Hanshir Dahrit az­Zawya 1,67 0,39

Fête de Dya Kha Diyar Kharbash 1,50 0,21

Ad Damous Ad­Damous 2h00 0,11

OM Dhwil az­Zawya OM Dhwil az­Zawya 0,00 0,00

Minit Om Dhwil Minit Om Dhwil 0,00 0,00

Al Mtsra Al M'isra 0,50 0,22

Hans hir Fartoun e Hanshir Fartouna 2h00 0,19

Gombar Gombar 0,00 0,00

Kaf Macha Kaf al­Mashta 0,67 0,31

Hansh a8 Hanshir Abida 1h00 0,54

Tifillou je Tifilloun 2h00 0,22

FR FR 1h00 0,50

Dyar Larb dans Dyar Larb'in 1h00 0,08

Sal Widyan Al Widyan 0,50 0,11

e ae Sidi Salah Sidi Salah 1h00 0,50

liste «Sup de Securrte rr . un 2 inst sup de sécurité industrielle 1,40 0,54

Wlad Mansour Wlad Mansour 0,00 0,00

Wied at­Toumi Wlad at­Toumi 0,50 0,15

0,84 0,20

Tableau 5 : résultat du modèle Tesseract et ces mesures de performance

33
Machine Translated by Google

6. interprétation des résultats :


Le modèle MATLAB, où l'image d'entrée a été la carte entière, n'a détecté que 9 toponymes

dont un seul a une bonne précision pour le CER de l'ordre de 0.00%, c'est­à­dire 100% de

précision (Tifilloun). Le modèle a détecté de plus 3 toponymes et le titre de la carte avec un

CER de précision moyenne (entre 2% et 10%) qui sont Al'Mallasin (Al Mallasin), Minit Or

Dhwil (Mit Om Dhwil), Bir al Hisyal (Bir al Hisyan) et le titre de la carte MAN/ZIL BOU

ZALFA NE (MANZIL BOU ZALFA NE). Leurs valeurs pour le CER sont respectivement
9%, 7%, 8% et 5%.

Le reste des toponymes détectés ont de mauvaise précision ayant un CER supérieur à 10%

(précision inférieure à 90%).

Le nombre et la précision des toponymes repérés sont faibles à cause de l'échelle de la carte

qui rend le texte difficile à détecter aussi bien l'hétérogénéité et l'encombrement de l'écriture
à la carte.

Le modèle Tesseract a affiché 20 toponymes avec un CER très varié, dont 6 avec une précision

de 100% (Bou Dokhan, Ar­Rghin, OM Dhwil az­Zawya, Minit Om Dhwil, Gombar et Wlad

Mansour), et un toponyme avec un CER de 8% (Dyar Larb au lieu de Dyar Larb'in).

Les autres toponymes ont une précision inférieure à 90% (CER > 10%).

Ce modèle a détecté plus de toponymes que le modèle précédent grâce à l'étape

d'agrandissement et du découpage de la carte, ce qui a permis cette. La précision

de même été mieux pour le modèle Tesseract.

7. Conclusion :
L'intelligence artificielle offre l'opportunité d'automatiser des taches manuelles dans le but de

gagnez le temps et d'optimiser les performances des résultats souhaités comme dans notre cas.

Dans ce chapitre nous avons traité deux modèles OCR dans l'intention de détecter les noms

de lieux d'une manière automatique à partir de la carte.

Normalement, les modèles OCR sont utilisés pour détecter du texte à partir des documents

dont le texte est clair, aligné et uniforme avec un fond de préférence blanc, ce qui n'est pas le
cas d'une carte.

Le premier modèle, MATLAB offre un code qui permet de traiter une image pour la préparation

à être employé par le système de reconnaissance optique de caractère. Dans notre cas,

l'image d'entrée est la carte entière, les résultats obtenus sont plus au moins loin de la réalité

des toponymes en plus que le nombre des noms des lieux détectés est très minime par rapport

aux nombres de noms de lieux existants sur la carte. Ceci peut être expliqué par le fait que la

34
Machine Translated by Google

carte est de petite échelle (les toponymes sont de très petite taille), le bruit (le fond chargé de
la carte, les courbes de niveaux et la variété des couleurs et des lignes qui peuvent couper les
toponymes) aussi bien que le contraste et l'hétérogénéité de l'écriture des toponymes (écriture
oblique ou en serpent, écriture de différentes tailles et contrastes, écriture de différentes
couleurs).
Le deuxième modèle, nous avons exploité le système Tesseract pour détecter les toponymes à
à partir de la carte. Pour ce modèle, plusieurs traitements ont été appliqués à la carte avant
d'être abordé par Tesseract.
En premier lieu, pour s'éloigner du problème de l'échelle de la carte, nous avons utilisé le
zoom et le découpage pour obtenir des extraits dont le texte est plus clair et prononcé.
Puis nous avons transformé l'image en mode binaire (texte blanc sur un fond noir) pour
augmenter la clarté du texte.
Enfin, l'image est soumise à un traitement de nettoyage du bruit pour garder uniquement le
texte représentant du toponyme.
Les résultats obtenus sont aussi minimes et plus au moins erronés pour les mêmes causes du
modèle précédent.
Pour augmenter les performances de ces modèles, il faut les rendre plus puissants, de plus
nous pouvons chercher d'autres traitements à réaliser pour rendre les images plus susceptibles
d'être employé par un système OCR. L'échelle de la carte soumise à l'OCR joue aussi un
rôle important dans la qualité des résultats obtenus.

35
Machine Translated by Google

Conclusion générale

Dans le cadre de ce projet, nous avons réalisé un prototype d'une base de données de la

toponymie en se basant sur la carte MANZIL BOU ZALFA NE 1 :25000 qui contient les

toponymes et les données relatives telles que les coordonnées X et Y, le type, etc...

Ce prototype de base de données permet le stockage, la gestion et la mise à jour des données

toponymiques d'une manière efficace, de plus ça va faciliter l'accès à l'information

toponymiques par des simples requêtes spatiales ou attributaires au lieu de chercher

visuellement dans les cartes ce qui va prendre du temps.

Comme perspective de la toponymie en Tunisie, nous pouvons prendre ce prototype comme

appui pour réaliser une base de données de la toponymie du territoire tunisien, c'est à dire de

réaliser une base de données toponymiques de type et unique qui va être appliquée à toutes les cartes

de la Tunisie ce qui va nous donner enfin une toponymie normalisée et bien structurée de tout

le pays.

Puis nous avons appliqué l'apprentissage automatique des machines dans la détection des

noms des lieux à partir de la carte.

Nous avons choisi le système de reconnaissance optique des caractères, l'un des modèles le

plus utilisé dans le cas de détection du texte à partir des images. Deux modèles ont été traités :

Le premier modèle est proposé par la documentation du logiciel MATLAB, c'est un modèle

robuste qui permet de prendre en entrée une image (dans notre cas c'est la carte), d'effectuer

des prétraitements de nettoyage et de filtrage, de distinguer les zones textuelles dans la carte

puis d'afficher les textes détectés par le modèle OCR.

Le deuxième modèle c'est un code en python qui, de même, contient une partie de traitement

d'image avant d'être appliqué à un module appelé « pytesseract ».

Pytesseract est un modèle OCR en python qui permet de prendre en entrée une image contenant

du texte, et d'afficher directement le texte détecté sur l'écran.

Les prétraitements dans ce cas sont tous d'abord un découpage de la carte en portion avec une

échelle plus petite qui va rendre l'écriture plus claire, puis des modules de nettoyage du bruit

qui tente à ne laisser sur l'image que les zones textuelles, et un module qui va rendre l'image

en mode binaire de façon que le fond de l'image soit noir alors que le texte soit en blanc pour

améliorez le contraste et facilitez la détection du texte par le module pytesseract.

Les résultats de ces deux modèles sont quantitativement très faibles, c'est à dire le nombre des

les toponymes détectés sont inférieurs au nombre des toponymes de la carte.

36
Machine Translated by Google

Qualitativement, les deux modèles sont arrivés à détecter quelques toponymes avec 0%
d'erreur, des toponymes avec une précision moyenne, et d'autres avec une précision très faible.
Ces modèles peuvent être améliorés dans le futur en imposant de les adapter à l'écriture
particulière et irrégulière des cartes et en améliorant la performance des modules de nettoyage
des bruits pour arriver enfin à des résultats plus adéquats.

37
Machine Translated by Google

Références bibliographiques

1. Schlegel, moi ; Extraction automatisée d'étiquettes à partir de cartes historiques à grande échelle ;

AGILE GIScience Ser ;2, 12 ; https://doi.org/10.5194/agile­giss­2­12­2021, 2021.

2. Tidjet M et Nahali Dj ; Initiation d'une base de données toponymiques ; Îles D

Imesli ; Tome 5, Numéro 1, Pages 323­340 ; 2013­12­31

3. BD TOPO® Version 3.0 – Note sur la toponymie – Décembre 2021

4. Atoui. B, Chemaa. B et Brahiml. M ; Réalisation D'une Base De Données

Toponymiques ; Institut National De Cartographie Et De Télédétection ; 2000 ;

5. M. Hassen Abdellaoui ; Les bases de données des noms géographiques au service

du développement durable et du patrimoine immatériel national ; 11e United

Conférence des Nations Unies sur la normalisation des noms géographiques ; 4 août

2017

6. Ray Smith ; Un aperçu du moteur OCR Tesseract ; Proc. Neuvième Int. Conférence

sur l'analyse et la reconnaissance de documents (ICDAR), IEEE Computer Society (2007),

pages 629­633

7. Kenneth Leung ; Évaluez la qualité de la sortie OCR avec le taux d'erreur de caractères (CER) et

Taux d'erreur sur les mots (WER) ; Vers la science des données ; 24 juin 2021

8. Tableau commenté des signes conventionnels utilisés pour les niveaux au 1 :25000 ;

INSTITUT GÉOGRAPHIQUE NATIONAL ; SERVICE DES CARTES AUX MOYENNES

ÉCHELLES ; CARTE DE France AU 1 :25000 ; Édition de 1977.


Machine Translated by Google

Webographie

https://www.mathworks.com/discovery/what­is­matlab.html

https://code.visualstudio.com/docs

https://docs.postgresql.fr/15/intro­whatis.html

https://resources.arcgis.com/fr/help/getting­started/articles/026n00000014000000.htm

https://datascientest.com/optical­character­recognition

https://www.mathworks.com/help/vision/ug/automatically­detect­and­recognize­text­in­
natural­images.html

https://tesseract­ocr.github.io/tessdoc/Installation.html

https://pypi.org/project/pytesseract/

https://jzid.jimdofree.com/logiciel­g%C3%A9omatiqua/

https://towardsdatascience.com/evaluating­ocr­output­quality­with­character­error­rate­cer­and­word­error­rate­
wer­853175297510#5aec

https://stackoverflow.com/questions/70300189/how­to­keep­only­black­color­text­in­the­
image­using­opencv­python

https://www.otc.nat.tn/

Vous aimerez peut-être aussi