Académique Documents
Professionnel Documents
Culture Documents
Mémoire
présenté pour l'obtention du diplôme de master
professionnel en sciences géomatiques parcours topographie et
projet territoriaux
par
BESSAAD Youssef
Soutenu le 30/01/2024
Devant le jury
Dédicaces
A mes très chers parents Nasreddine BESSAAD et Samira DRIDI, qui ont
œuvré pour ma réussite, par leur amour, leur soutien, toutes les longues
Je dédie ce travail aussi à ma sœur Maryem et mon frère Ayoub ainsi que
toute ma famille et mes amis qui n'ont cessé d'être pour moi des exemples
Tous mes professeurs et mes instituteurs qui doivent voir dans ce travail la fierté d'un
savoir bien transmis.
Machine Translated by Google
Remerciements
Je tiens à exprimer mes sincères remerciements à toutes les personnes qui ont
rapport.
CV :
Dans ce travail, nous avons réalisé, dans une première partie, un prototype d'une base de
données de la toponymie qui permet de stocker, gérer, diffuser, et mettre à jour des données
Puis nous avons utilisé l'apprentissage automatique pour détecter automatiquement les noms
de lieux à la carte.
Abstrait :
Dans ce travail, nous avons d'abord créé un prototype de base de données toponymique permettant une analyse efficace
stockage, gestion, diffusion et mise à jour des données toponymiques, faisant référence au MANZIL
Nous avons ensuite utilisé l’apprentissage automatique pour détecter automatiquement les toponymes de la carte.
Les résultats obtenus sont quantitativement faibles et qualitativement variables en raison de l'échelle de la carte
Sommaire
Introduction générale………………………………………………………………………….1
1. Introduction…………………………………………………………………………………4
2.2. Missions…………………………………………………………………………………5
3. Présentation du projet……………………………………………………………………….5
3.1. Problématique………………………………...…………………………………………5
3.2. Objectifs…………………………………………………………………………………6
4.Conclusion……………………………………………….…………………………………..6
1.Introduction…………………………………………………………………….…………….8
2.1. Définitions……………………………………………………………………………….8
3.1.1. Contexte……...……………………………………………………………………….11
3.1.2. Méthodologies...………………………...…………………………………………11
3.2.1. Statut...……………………………………………………………………………..12
4.2. Exemple...…………………………………………...…………………………………14
4.2.1. Contexte...…………………………………………………………………………….14
4.2.2. Résultats...…………………………………………………………………………….15
5.Conclusion………………………………………………………………………………….16
1.Introduction…………………………………………………………………………………19
2.Carte de référence…………………………………………………………………………..19
3.Méthodologies et logiciels………………………………………………………………….19
Machine Translated by Google
3.1. Logiciels...…………………………………………………………………………...…19
3.1.1. ArcGIS...…………………………………………………………………………...19
3.1.2. GéomaTiqua...……………………………………………………………………...19
3.1.3. PostgreSQL...………………………………………………………………………20
3.2. Méthodologies………………………………………………………………………..20
5.Conclusion………………………………………………………………………………….25
1.Introduction…………………………………………………………………………………27
3.Mesures de performances…………………………………………………………………...29
4.Modèle MATLAB…………………………………………………………………………..30
5.Modèle Tesseract………………………………………………………………………...…31
7.Conclusion………………………………………………………………………………….34
Conclusion générale……………………………………………………………………………..36
Machine Translated by Google
données toponymiques
Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits,
RR : Ruine Romaine
écuries maximales)
HP : HewlettPackard
Introduction générale
La toponymie (du grec topos, lieu, onoma, nom), est définie par l'institut national de
l'évolution des noms des lieux (toponymes), ou encore, l'ensemble des toponymes d'un pays,
L'étude des noms de lieux, revêt une importance cruciale dans de nombreux domaines tels que
Les noms de lieux sont des éléments fondamentaux pour la compréhension et la représentation
Dans le cadre de ce projet de fin d'études, notre objectif est de développer un prototype de base
de données de la toponymie, en se basant sur la carte Manzil Bou Zalfa NE 1 :25000, qui
pour automatiser la détection des noms de lieux à partir de la carte. Néanmoins, ceci peut
la toponymie et autres.
examiner les travaux de recherche existants dans ces domaines. Nous présenterons également
et les entités clés qui la composent. Le prétraitement des données sera abordé pour garantir la
un algorithme approprié pour la détection du texte à partir de la carte (dans notre cas le texte ce
Enfin, nous évaluons les performances de notre prototype en utilisant des mesures appropriées
et en les comparer avec d'autres approches existantes. Nous analyserons les résultats obtenus,
discutons les limites de notre approche et proposonsons des pistes d'améliorations futures. Ce
1
Machine Translated by Google
détection automatique des noms de lieux, en offrant un outil efficace et automatisé pour la
collecter et la gestion de ces informations essentielles.
2
Machine Translated by Google
Chapitre 1 :
Contexte général
3
Machine Translated by Google
1. Introduction :
Ce stage de mémoire a été réalisé au sein de l'office de la topographie et du cadastre, alors,
dans ce chapitre, nous allons tout d'abord présenter l'organisme de stage et ses domaines
d'activités, puis nous allons énoncer la problématique et les objectifs que nous visons atteindre
en réalisant notre projet.
L'office de la topographie et du cadastre (OTC) trouve ses racines le 15 juillet 1886 instituant
en Tunisie le régime de l'immatriculation foncière.
En 1974, l'OTC a été créé en tant qu'entreprise publique à caractère industriel et commercial.
sous la tutelle du Ministère de l'Equipement et de l'Habitat.
En 2009, l'appellation "Office de la Topographie et de la Cartographie" a été modifiée pour
devenir "Office de la Topographie et du Cadastre".
4
Machine Translated by Google
2.2. Missions :
L'OTC se conforme aux fonctions prévues par la législation et les règlements en vigueur en ce
L'OTC exécute les travaux d'infrastructure de base relatifs aux réseaux géodésiques et de
nivellement constituant la base et la référence de tous les projets de développement comme mission de
service public pour le compte de l'État ainsi que des travaux à caractère commercial pour le compte des
tiers ou de l'État.
professionnels.
3. Présentation du projet :
Notre projet est réalisé au sein de l'Office de la Topographie et du Cadastre dans le but de créer
un prototype d'une base de données toponymiques qui peut être ultérieurement généralisé sur
toutes les cartes de la Tunisie pour arriver enfin à réaliser une base de données de la toponymie
du territoire tunisien.
3.1. Problématique :
La toponymie révèle une importance indiscutable dans plusieurs domaines tels que la
5
Machine Translated by Google
Tunisie, ce qui engendre des données toponymiques qui ne sont pas normalisées ni organisées
Une base de données de la toponymie permet de collecter, stocker et organiser les données
3.2. Objectifs :
prenant la carte MANZIL BOU ZALFA NE 1 : 25 000 comme référence. Ce prototype peut
être généraliser sur les cartes de la Tunisie pour constituer la base fondamentale pour la
Ensuite on vise à appliquer l'intelligence artificielle à la détection des noms des lieux pour
Dans ce chapitre, nous avons présenté l'office de la topographie et du cadastre et ces différentes
6
Machine Translated by Google
Chapitre 2 :
Etat de l'art de la
toponymie
7
Machine Translated by Google
1. Introduction :
La toponymie est l'étude des noms de lieux (les toponymes), qu'il s'agisse de noms de villes,
Histoire et culture : Les noms de lieux peuvent fournir des informations cruciales sur
l'histoire et la culture d'une région donnée [5]. Ils témoignent des populations et de leurs
L'étude de la toponymie permet de comprendre les migrations, les échanges et les cultures
faisant souvent ressortir les spécificités linguistiques d'une région. L'étude des toponymes aide
à interpréter l'évolution des langues, les influences culturelles et les relations entre les
cartographie des lieux. Les toponymes sont des moyens efficaces pour communiquer
toponymie pour créer des cartes précises et pour étudier les caractéristiques physiques
d'une région.
peut apporter des informations sur les anciennes implantations humaines et les sites
historiques. Ainsi, les noms des lieux indiquent les chercheurs à retracer les mouvements.
2.1.1. Les toponymes officiels : ce sont les noms des entités administratives à savoir les
régions, les arrondissements, les communes… A noter que les communes supprimées à la suite
d'une fusion ne sont plus des entités administratives, leur nom par conséquent, n'est plus un
toponyme officiel.
2.1.2. Les toponymes non officiels : représentent la plupart des toponymes et peuvent être
subdivisés en :
8
Machine Translated by Google
les oronymes : les détails des reliefs (montagne, colline) et mêmes les détails des reliefs
les hydronymes : les noms des lieux caractérisés par la présence d'eau qu'elle que soit
permanente ou temporaire. Ces toponymes sont écrits en bleu sur les cartes 1 :25 000
Pour l'échelle 1 :25 000, la majorité des toponymes ont une valeur descriptive qui s'exprime
désigné, alors que l'élément spécifique vient de compléter le terme générique et peut être un
Ces deux composantes d'un toponyme se lient à l'aide des articles (le, la, les), des locutions
Ce sont des noms communs qui révèlent la nature et la fonction d'un élément représenté par un
signe conventionnel. Ce dernier constitue un renseignement sur le toponyme sans en faire partir.
Les signes diacritiques sont toujours notés sur les chiffres majuscules et minuscules.
Un article placé devant un nom précise le genre, le nombre et le sens dont le nom est pris.
L'emploi ou non d'un article est déterminé selon des enquêtes sur la linguistique locale, il est
Brièvement, l'article est utilisé, pour les lieux habités et les lieuxdits non habités, si l'usage le
confirmer. Il est non utilisé dans le cas où le terme générique du nom confirme d'une manière
Généralement, les nombres ordinaux ou cardinaux s'écrivent en toutes lettres, hormis quelques
cas dont l'usage impose l'utilisation des chiffres arabes pour les dates ou des chiffres romains.
9
Machine Translated by Google
produit, il est représenté en général sous forme d'abréviation qui peut rassembler différents
détails.
assurer de préciser sa signification. Par exemple, on ne trouve pas de désignations des cours
d'eau (rivière, ruisseau, fleuve).
Les prépositions et les adverbes prennent une majuscule au début du toponyme, mais une
minuscule à l'intérieur ou à la fin du toponyme.
cette règle : les prénoms précédés par un article pluriel se finissent par un ''s''.
2.2.8. Les sigles :
Dans ce cas on fait recours à la prononciation des sigles. En effet, lorsque le sigle se prononce
comme un mot, sur l'écrit sans point entre les lettres (UNESCO). Sinon, lorsqu'il se prononce
à jour des données toponymiques. Cette base de données constitue une ressource cruciale pour
les cartographes, les chercheurs et les décideurs, offrant un coup d'œil détaillé de l'évolution et
de la signification des lieux au cours du temps. On peut dire donc que la base de données de la
la toponymie fait l'objet d'un outil fondamental pour la préservation du patrimoine géographique,
linguistique et culturelle.
Dans la suite, nous citons quelques exemples de travaux réalisés sur les bases de données
dix
Machine Translated by Google
3.1. Exemple1 :
Cet exemple est extrait d'un article intitulé : REALISATION D'UNE BASE DE DONNEES
TOPONYMIQUES, réalisé par : Atoubi B., Chemaa B., Brahimi Moulay M'hamed au sein de
l'Institut National de la Cartographie et de Télédétection (INCT).
3.1.1. Contexte :
3.1.2. Méthodologie :
La démarche de création de la base de données consiste à :
Pour conclure, la base de données toponymiques est réalisée pour répondre aux besoins
suivants : la préservation du patrimoine national de la toponymie, faciliter la mise à jour des
données et la standardisation des données toponymiques.
11
Machine Translated by Google
3.2. Exemple2 :
L'exemple est pris d'un document délivré en décembre 2018 par l'IGN : Note sur la toponymie
dans la BDTOPOv3.
3.2.1. Statut :
Les noms de lieux sont portés directement par l'objet, avec statut de validation.
La base de données comporte un champ TOPONYME qui contient le nom du lieu sous les
règles d'écriture, il est complété par l'attribut STATUT_TOP qui définit son degré de validation
(validé, collecté, régional).
3.2.2. Les tables dédiées :
Les détails d'une toponymie sont diffusés dans des tableaux dédiés. Ces dernières sont délivrées
dans la BDTOPov3 sous le nom de TOPONYME_THEME.
Les tableaux suivants sont les compléments des toponymes pour chaque thème :
12
Machine Translated by Google
La détection des noms des lieux se base sur des modèles prédéfinis de détection du texte à partir
des images. Dans cette partie, nous allons définir deux modèles, le modèle MATLAB et le
modèle Tesseract OCR. Ces deux modèles seront ultérieurement appliqués à la carte de notre
cas d'étude.
4.1.1. Modèle MATLAB :
Cet exemple montre comment détecter les régions contenant un texte dans une image en
utilisant un détecteur de caractéristiques de régions maximales stables (MSER).
4.1.2. TesseractOCR :
Tesseract est un moteur de reconnaissance optique de caractères (OCR) open source, développé
par Google. Il est conçu pour convertir des images contenant du texte, qu'il s'agisse de textes
dactylographiés, manuscrits ou imprimés, en texte encodé machine [6].
13
Machine Translated by Google
Origine : Tesseract a été initialement développé par HewlettPackard (HP) dans les
années 1980 à des fins de reconnaissance de texte. Par la suite, il a été open source en
cyrillique, chinois, arabe, hébreu, japonais et bien d'autres. Cela en fait un outil
politiques. Les utilisateurs peuvent également créer leurs propres modèles de formation
Entrée : Tesseract prend en charge une variété de formats d'entrée, notamment des images
de texte au format TIFF, JPEG, GIF, PNG et autres.
Output : Les résultats de la reconnaissance peuvent être générés au format texte brut
susceptible d'être édité.
En résumé, Tesseract est un outil OCR puissant, polyvalent et en constante évolution, qui
permet de convertir efficacement des images de texte en texte encodé machine, avec une prise
4.2. Exemple :
Détection automatique de texte à partir d'une carte historique, extrait d'un article intitulé
4.2.1. Contexte :
14
Machine Translated by Google
4.2.2. Résultats :
Dans cet article, le modèle utilisé est Tesseract OCR pour obtenir les résultats des CV dans le
tableau cidessous
15
Machine Translated by Google
5. Conclusion :
Dans ce chapitre, nous avons exploré l'état de l'art de la toponymie, en mettant en lumière
l'importance des noms de lieux dans de nombreuses applications, de la cartographie à la
navigation GPS en passant par la recherche d'informations géolocalisées. Nous avons
également examiné différents exemples de bases de données toponymiques, montrant la
diversité des sources et des formats dans lesquels ces données sont disponibles.
De plus, nous avons plongé dans le domaine de l'apprentissage automatique en relation avec la
détection du texte à partir des images pour l'appliquer ultérieurement à la détection des noms
des lieux à partir des cartes, en offrant comment les avancées dans ce domaine ont
révolutionné la façon dont nous traitons les données géospatiales.
16
Machine Translated by Google
En conclusion, la toponymie et la détection des noms de lieux jouent un rôle essentiel dans
notre compréhension du monde qui nous entoure, et l'utilisation de l'apprentissage automatique
pour extraire ces informations de manière efficace ouvre de nouvelles possibilités passionnantes
dans un large éventail d'applications. Cependant, il reste encore des défis à relever, notamment
la gestion de la variabilité linguistique et l'adaptation à des contextes spécifiques.
17
Machine Translated by Google
Chapitre 3 :
Conception du
prototype de la
base de
données toponymiques
18
Machine Translated by Google
1. Introduction :
Dans ce chapitre, nous entamons la phase cruciale de la conception de notre prototype de base
de données toponymiques. Tout commence par la présentation de la carte de référence, une
pièce fondamentale qui constitue la source de données de notre projet. Ensuite, nous nous
Plongés dans la description des entités essentielles qui constituent notre base de données,
mettant en lumière les caractéristiques et les relations clés.
À travers cette exploration, nous jetons la méthodologie nécessaire pour la création d'un
prototype de base de données toponymique robuste et fonctionnelle, prêt à répondre à nos
objectifs de recherche et d'analyse.
2. Carte de référence :
La réalisation du prototype de la base de données de la toponymie est fondée sur les
informations et données fournies par la carte : MANZIL BOU ZALFA NE 1 : 25 000.
Cette carte constitue la source fondamentale des données toponymiques alimentant notre base
de données, elle va fournir les toponymes, leurs types (oued, lieux habités, reliefs…), la position
géographique.
3. Méthodologies et logiciels :
3.1. Logiciels :
3.1.1. ArcGIS :
ArcGIS est une suite de systèmes d'information géographique (SIG) développée par ESRI qui
permet de collecter, gérer, organiser, analyser et diffuser des informations géographiques.
ArcGIS a permis le géoréférencement de la carte, l'extraction des toponymes et des
informations relatives (types, coordonnées, noms…) et la réalisation de la table du prototype de
la base de données de la toponymie.
3.1.2. GéomaTiqua :
GéomaTiqua est un logiciel Géodésique topographique qui génère une base de données
géographique, il permet le traitement automatique de l'information géographique
simultanément sur quatre systèmes de coordonnées (STT, IGN, NTT ou UTM et WGS84).
19
Machine Translated by Google
Ce traitement est garanti grâce à des fonctions mathématiques universelles et des relations
3.1.3. PostgreSQL :
Ce logiciel a été utilisé pour la visualisation de la base de données et pour essayer quelques
requêtes.
3.2. Méthodologies :
Après avoir géoréférencé la carte, nous commençons tout d'abord par bien lire la carte. il est
Une bonne lecture de la carte va permettre la bonne compréhension des renseignements qu'elle
apporte qui vont servir à la réalisation du prototype de la base de données. Voici les avantages
d'une solide lecture de la carte :
exacts à la carte. Nous pouvons même retenir les coordonnées exactes puisque la
La sélection des données : une carte topographique fournit de multiples données autres
20
Machine Translated by Google
données et de retenir que les données souhaitées qui vont servir au remplissage de la
base de données.
ou actuels, nous pouvons identifier les variations dans les noms de lieux au fil du
temps. Cela enrichit notre base de données en ajoutant une dimension historique.
Analyses des relations spatiales : comprendre les relations spatiales entre les
Planification des données : La lecture de la carte aide à planifier la manière dont les
les données seront organisées dans la base de données et à définir les champs pour
enregistrer des informations spécifiques sur les toponymes en fonction de ce que nous
ont observé sur la carte.
prise de décision.
L'étape qui vient après c'est d'alimenter la table avec les toponymes et leurs données relatives.
Carte
définir les
Ouvrir la base
Etat justificatif des champs de la
noms sur PostgreSQL
table
21
Machine Translated by Google
Champions Taper
Nom Texte
Taper Texte
Lieux_dits Texte
Lieux_non_dits Texte
Police_ecr Texte
Gouvernorat Texte
Délégation Texte
Secteur Texte
Carte Texte
Historique Texte
Géométrie Indiquer
Nous allons par suite détailler les champs de la base de données pour comprendre les
Nom : c'est le champ qui contient les noms des lieux tirés directement à partir de la
carte d'une manière fiable.
Type : ce champ reflète les catégories des toponymes qui sont : barrage, carriere, ecole,
falaise, ferme, hanshir, institut, lycée, municipalite, point d'eau, Qobba, repère de
nivellement, rocher, route, ruine romaine, source, station de pompage, station STEG,
A noter que ces catégories représentent que les noms des lieux qui existent sur la carte de
Manzil Bou Zalfa NE et ne représente pas toutes les catégories qu'on peut trouver dans les
cartes à l'échelle 1 :25000.
Lieux_dits, lieux_non_dits : pour chaque toponyme, un seul champ parmi les deux
contient une valeur. On alors distingue les lieux dits (en droit) des lieux nondits (en
italique).
22
Machine Translated by Google
exactes de chaque toponyme sur la carte. Les coordonnées Lambert sont tirées
géoréférencée avec des coordonnées Lambert) alors que les coordonnées UTM sont
Police_ecr : c'est la police d'écriture des toponymes sur la carte, les détails sont extraits
à partir du document de l'état justificatif des noms. (Exemple : les points d'eau dont le
Gouvernorat, Délégation, Secteur : sont obtenus par superpositions des shapefiles des
limites administratives à la carte.
Carte : c'est le nom entier de la carte, ce champ semble inutile dans ce cas mais ce
prototype de base de données peut être utilisé pour rassembler les données
toponymiques de plusieurs cartes dans une seule base de données, dans ce cas, ce champ
sérums indispensables.
Historique : c'est un champ qui peut être mis à jour ultérieurement après une recherche
Après avoir alimenté la base de données, nous avons obtenu un tableau contenant 17 colonnes et
Figure 10 : extrait de la base de données visualisant les champs nom, type, lieux_dits, lieux_non_dits,
code, et les coordonnées en Lambert et en UTM.
23
Machine Translated by Google
24
Machine Translated by Google
5. Conclusion :
La conception du prototype de la base de données toponymiques constitue une étape cruciale
dans le développement de notre système. Dans ce chapitre, nous avons examiné en détail
chaque aspect de cette conception, en commençant par la carte de référence qui sert de
fondement à la base de données. Cette carte, en tant que source primaire de données
La méthodologie adoptée a été discutée en détail, mettant en évidence les étapes clés du
processus de conception, de la modélisation des données à la création des relations entre les
entités. Cette méthodologie fournira un cadre solide pour la construction de notre base de
données.
Enfin, nous avons fourni une description détaillée des entités qui seront stockées dans notre
base de données. Ces entités, représentant divers éléments géographiques, serviront de base
pour notre prototype. Leur conception soignée garantit que la base de données sera en mesure
toponymiques.
25
Machine Translated by Google
Chapitre 4 :
Demande de
l'apprentissage automatiquepour la
détection des noms noms des
lieux
26
Machine Translated by Google
1. Introduction :
Dans ce chapitre, nous allons utiliser l'intelligence artificielle pour détecter automatiquement
les noms des lieux à partir de la carte de référence. Nous allons traiter deux modèles, le modèle
Matlab et le modèle Tesseract pour voir les résultats obtenus tout en résultat comment nous
avons préparé les données pour être exploitées dans les modèles.
Ensuite, nous allons évaluer les deux modèles avec des mesures de performances utilisées pour
quantifier la précision des modèles OCR.
27
Machine Translated by Google
28
Machine Translated by Google
3. Mesures de performances :
Un modèle OCR fournit généralement des mesures de précision de reconnaissance lorsqu'il est
Ces mesures de précision peuvent varier considérablement en fonction des données d'entrée et
du cas d'utilisation spécifique. La précision des modèles OCR peut être assez élevée pour des
textes bien prétraités et propres, mais elle peut diminuer pour des documents plus complexes
ou bruyants.
Pour évaluer nos résultats, nous allons utiliser deux mesures de performances :
3.1. Taux d'erreur de caractère :
Le "Character Error Rate" (CER) est couramment appelé "Taux d'Erreur de Caractères" en
[7]. Le CER quantifie le pourcentage d'erreurs de caractères entre le texte reconnu (généré par
CER = (S+D+I) / N où
I : Le nombre d'erreurs d'insertion (caractères en excès qui ne devraient pas être là).
N : Le nombre total de caractères dans le texte de référence.
Après avoir calculé le CER, il est comparé par les tests de référence suivants :
Le "Word Error Rate" (WER), qui mesure le taux d'erreurs de mots dans la reconnaissance
"Taux d'Erreur de Mots" ou simplement "TER" pour abréger. Il se calcule avec la formule
I : Le nombre d'erreurs d'insertion (mots en excès qui ne devraient pas être là).
N : Le nombre total de mots dans le texte de référence.
29
Machine Translated by Google
4.Modèle MATLAB :
MATLAB est une plateforme de programmation conçue spécifiquement pour les ingénieurs et
les scientifiques afin d'analyser et de concevoir des systèmes et des produits qui transforment
notre monde. Le cœur de MATLAB est le langage MATLAB qui se base sur les matrices et
offre une manière des plus intuitives d'exprimer les concepts mathématiques en informatique.
MATLAB a servi pour traiter un modèle OCR visant la détection automatique des noms
Ce modèle vise à détecter les régions textuelles dans la carte à fin d'appliquer le principe de
l'OCR pour extraire le texte (les noms des lieux) sous forme machineencodé.
La procédure pour obtenir en fin les noms des lieux consiste en 5 étapes :
Le détecteur de caractéristiques MSER fonctionne bien pour trouver des régions de texte. il est
efficace en raison de la couleur constante et du fort contraste du texte.
Etape 2 : suppression des régions non textuelles en fonction des propriétés géométriques de
base.
Bien que l'algorithme MSER détecte la plupart du texte, il détecte également de nombreuses
autres régions stables dans l'image qui ne sont pas du texte. On peut donc utiliser une approche
basé sur des règles pour supprimer les régions non textuelles en exploitant des propriétés
géométriques du texte pour filtrer les régions non textuelles. Il existe plusieurs propriétés
géométriques qui sont utiles pour discriminer entre les régions de texte et les régions non
Etape 3 : suppression des régions non textuelles en fonction de la variation de la largeur des
caractéristiques.
Une autre mesure utilisée pour discriminer entre le texte et les régions non
les textuelles sont la largeur des traits. La largeur des traits est une mesure de la largeur des courbes
et des lignes qui composent un caractère. Les régions de texte ont tendance à avoir peu de
30
Machine Translated by Google
variation de la largeur des traits, tandis que les régions non textuelles ont tendance à avoir des
Etape 4 : Fusion des régions de texte pour obtenir le résultat final de détection.
À ce stade, tous les résultats de détection sont composés de caractères de texte individuels. Verser
utiliser ces résultats dans des tâches de reconnaissance, telles que la reconnaissance optique de
caractères (OCR), les caractères de texte individuels doivent être regroupés en mots ou en lignes
de texte. Cela permet la reconnaissance des mots réels dans une image, qui contient des
caractères (OCR).
Après avoir détecté les régions de texte, utilisez la fonction OCR pour reconnaître le texte à
l'intérieur de chaque zone englobante. A noter qu'en l'absence de détection préalable des
Dans certaines régions de texte, la sortie de la fonction OCR serait considérablement plus bruyante.
Le tableau suivant illustre les noms des lieux détectés par ce modèle et leurs équivalents sur la
carte :
FR FR 1h00 0,50
0,92 0,22
5. Modèle Tesseract :
Visual Studio Code est un éditeur de code source léger mais puissant qui s'exécute sur les
ordinateurs et est disponible pour Windows, macOS et Linux. Il inclut une prise en charge
31
Machine Translated by Google
extensions pour d'autres langages et environnements d'exécution (comme C++, C#, Java,
Python, PHP, Go, .NET).
Cet environnement a permis d'exécuter un code en python pour détecter les toponymes en
utilisant le modèle Tesseract OCR.
Nous allons utiliser un script python qui permet de lire une image, effectuer des traitements
pour préparer l'image à être traitée par le module "pytesseract" à fin d'afficher le résultat sous
forme textuelle.
La première étape est de faire un zoom sur la carte et de la découper en portion où le texte est
clair et lisible, puis le script va transformer l'image d'entrée en binaire (noir et blanc), ensuite
des filtres vont nettoyer l'image des bruits (le fond de la carte) pour obtenir une image claire le
plus possible. En fin l'image va être traitée par "pytesseract" pour afficher le résultat sous forme
de texte encodé machine.
Les résultats et les mesures de performances de ce modèle sont résumés dans le tableau
suivant :
32
Machine Translated by Google
FR FR 1h00 0,50
0,84 0,20
33
Machine Translated by Google
dont un seul a une bonne précision pour le CER de l'ordre de 0.00%, c'estàdire 100% de
CER de précision moyenne (entre 2% et 10%) qui sont Al'Mallasin (Al Mallasin), Minit Or
Dhwil (Mit Om Dhwil), Bir al Hisyal (Bir al Hisyan) et le titre de la carte MAN/ZIL BOU
ZALFA NE (MANZIL BOU ZALFA NE). Leurs valeurs pour le CER sont respectivement
9%, 7%, 8% et 5%.
Le reste des toponymes détectés ont de mauvaise précision ayant un CER supérieur à 10%
Le nombre et la précision des toponymes repérés sont faibles à cause de l'échelle de la carte
qui rend le texte difficile à détecter aussi bien l'hétérogénéité et l'encombrement de l'écriture
à la carte.
Le modèle Tesseract a affiché 20 toponymes avec un CER très varié, dont 6 avec une précision
de 100% (Bou Dokhan, ArRghin, OM Dhwil azZawya, Minit Om Dhwil, Gombar et Wlad
Les autres toponymes ont une précision inférieure à 90% (CER > 10%).
7. Conclusion :
L'intelligence artificielle offre l'opportunité d'automatiser des taches manuelles dans le but de
gagnez le temps et d'optimiser les performances des résultats souhaités comme dans notre cas.
Dans ce chapitre nous avons traité deux modèles OCR dans l'intention de détecter les noms
Normalement, les modèles OCR sont utilisés pour détecter du texte à partir des documents
dont le texte est clair, aligné et uniforme avec un fond de préférence blanc, ce qui n'est pas le
cas d'une carte.
Le premier modèle, MATLAB offre un code qui permet de traiter une image pour la préparation
à être employé par le système de reconnaissance optique de caractère. Dans notre cas,
l'image d'entrée est la carte entière, les résultats obtenus sont plus au moins loin de la réalité
des toponymes en plus que le nombre des noms des lieux détectés est très minime par rapport
aux nombres de noms de lieux existants sur la carte. Ceci peut être expliqué par le fait que la
34
Machine Translated by Google
carte est de petite échelle (les toponymes sont de très petite taille), le bruit (le fond chargé de
la carte, les courbes de niveaux et la variété des couleurs et des lignes qui peuvent couper les
toponymes) aussi bien que le contraste et l'hétérogénéité de l'écriture des toponymes (écriture
oblique ou en serpent, écriture de différentes tailles et contrastes, écriture de différentes
couleurs).
Le deuxième modèle, nous avons exploité le système Tesseract pour détecter les toponymes à
à partir de la carte. Pour ce modèle, plusieurs traitements ont été appliqués à la carte avant
d'être abordé par Tesseract.
En premier lieu, pour s'éloigner du problème de l'échelle de la carte, nous avons utilisé le
zoom et le découpage pour obtenir des extraits dont le texte est plus clair et prononcé.
Puis nous avons transformé l'image en mode binaire (texte blanc sur un fond noir) pour
augmenter la clarté du texte.
Enfin, l'image est soumise à un traitement de nettoyage du bruit pour garder uniquement le
texte représentant du toponyme.
Les résultats obtenus sont aussi minimes et plus au moins erronés pour les mêmes causes du
modèle précédent.
Pour augmenter les performances de ces modèles, il faut les rendre plus puissants, de plus
nous pouvons chercher d'autres traitements à réaliser pour rendre les images plus susceptibles
d'être employé par un système OCR. L'échelle de la carte soumise à l'OCR joue aussi un
rôle important dans la qualité des résultats obtenus.
35
Machine Translated by Google
Conclusion générale
Dans le cadre de ce projet, nous avons réalisé un prototype d'une base de données de la
toponymie en se basant sur la carte MANZIL BOU ZALFA NE 1 :25000 qui contient les
toponymes et les données relatives telles que les coordonnées X et Y, le type, etc...
Ce prototype de base de données permet le stockage, la gestion et la mise à jour des données
appui pour réaliser une base de données de la toponymie du territoire tunisien, c'est à dire de
réaliser une base de données toponymiques de type et unique qui va être appliquée à toutes les cartes
de la Tunisie ce qui va nous donner enfin une toponymie normalisée et bien structurée de tout
le pays.
Puis nous avons appliqué l'apprentissage automatique des machines dans la détection des
Nous avons choisi le système de reconnaissance optique des caractères, l'un des modèles le
plus utilisé dans le cas de détection du texte à partir des images. Deux modèles ont été traités :
Le premier modèle est proposé par la documentation du logiciel MATLAB, c'est un modèle
robuste qui permet de prendre en entrée une image (dans notre cas c'est la carte), d'effectuer
des prétraitements de nettoyage et de filtrage, de distinguer les zones textuelles dans la carte
Le deuxième modèle c'est un code en python qui, de même, contient une partie de traitement
Pytesseract est un modèle OCR en python qui permet de prendre en entrée une image contenant
Les prétraitements dans ce cas sont tous d'abord un découpage de la carte en portion avec une
échelle plus petite qui va rendre l'écriture plus claire, puis des modules de nettoyage du bruit
qui tente à ne laisser sur l'image que les zones textuelles, et un module qui va rendre l'image
en mode binaire de façon que le fond de l'image soit noir alors que le texte soit en blanc pour
Les résultats de ces deux modèles sont quantitativement très faibles, c'est à dire le nombre des
36
Machine Translated by Google
Qualitativement, les deux modèles sont arrivés à détecter quelques toponymes avec 0%
d'erreur, des toponymes avec une précision moyenne, et d'autres avec une précision très faible.
Ces modèles peuvent être améliorés dans le futur en imposant de les adapter à l'écriture
particulière et irrégulière des cartes et en améliorant la performance des modules de nettoyage
des bruits pour arriver enfin à des résultats plus adéquats.
37
Machine Translated by Google
Références bibliographiques
1. Schlegel, moi ; Extraction automatisée d'étiquettes à partir de cartes historiques à grande échelle ;
Conférence des Nations Unies sur la normalisation des noms géographiques ; 4 août
2017
6. Ray Smith ; Un aperçu du moteur OCR Tesseract ; Proc. Neuvième Int. Conférence
pages 629633
7. Kenneth Leung ; Évaluez la qualité de la sortie OCR avec le taux d'erreur de caractères (CER) et
Taux d'erreur sur les mots (WER) ; Vers la science des données ; 24 juin 2021
8. Tableau commenté des signes conventionnels utilisés pour les niveaux au 1 :25000 ;
Webographie
https://www.mathworks.com/discovery/whatismatlab.html
https://code.visualstudio.com/docs
https://docs.postgresql.fr/15/introwhatis.html
https://resources.arcgis.com/fr/help/gettingstarted/articles/026n00000014000000.htm
https://datascientest.com/opticalcharacterrecognition
https://www.mathworks.com/help/vision/ug/automaticallydetectandrecognizetextin
naturalimages.html
https://tesseractocr.github.io/tessdoc/Installation.html
https://pypi.org/project/pytesseract/
https://jzid.jimdofree.com/logicielg%C3%A9omatiqua/
https://towardsdatascience.com/evaluatingocroutputqualitywithcharactererrorratecerandworderrorrate
wer853175297510#5aec
https://stackoverflow.com/questions/70300189/howtokeeponlyblackcolortextinthe
imageusingopencvpython
https://www.otc.nat.tn/