Vous êtes sur la page 1sur 15

Université de

Tizi-Ouzou
* LE CORPUS
* OUTILS INFORMATIQUES EN RECHERCHE TERMINOGRAPHIQUE
AHMED AZOUR
Le corpus

 Définition
1.Ensemble de textes établi selon un principe de
documentation exhaustive, un critère thématique ou
exemplaire en vue de leur étude linguistique.
http://www.cnrtl.fr/definition/corpus

2. Ensemble des sources orales et écrites relatives au


domaine étudié et qui sont utilisées dans un travail
terminologique. (grand dictionnaire terminologique).
Méthodologie de recherche
terminologique thématique :
Étapes
 1- Collecte de la documentation: Mise en forme
d’un corpus en format éléctronique, normalisation
et conversion, si nécessaire (Marie-Claude
l’Homme, 2004). Il s’agit de choisir les documents
qui serviront au dépouillement terminologique et
mettre ainsi en place un corpus de base. Il faut
donc bien cibler le domaine.
 2- Dépouillement terminologique/ Extraction de
candidats-termes et autres unités
terminologiquement pertinentes au moyen de
logiciels d’extraction. Cela peut se faire
manuellement ou à l’aide d’un logiciel de
dépouillement.
 3- Collecte de données sur les termes: Recherche
et extraction de contextes contenant de
l’information utile au moyen de concordanciers
(ibidem et passim). Selon Auger (Méthodologie
de la recherche terminologique1978 : 32), il faut
recueillir toutes les données nécessaires au
traitement de la nomenclature, soit : la catégorie
lexicale et grammaticale, le domaine, une
definition, une définition, des contextes
(terminologiques, langagiers ou métalinguistiques)
et des illustrations, le cas échéant.
 .
 4- Analyse et synthèse des données recueillies. Opération
de validation des données recueillies pour l’étude. Cela
permettra au terminographe de se doter d’une
terminologie bilingue.
 5. Découpage et selection des contextes : Le
terminologue découper les contextes des termes choisis.
Une unite terminologique sera mieux comprise grâce à un
environnement contextual. Généralement, le
terminologue va faire le tri entre les différents contextes et
sélectionne les plus pertinents.
 6- Encodage des données sur un support: Encodage des
données sur support électronique (logiciels de terminologie et
autres supports). Organisation des données terminologiques.
(encodage : Transcription d'un message dans une forme
communicable).
Comment procéder?
Étapes
 1. Mise en forme du corpus: Le terminographe
rassemble les textes en format électronique
exploitable par les logiciels. A des fins de
traduction, le terminographe réunit les textes sous
forme de corpus alignés bilingues.
 2. Repérage des termes: Une tâche confiée à un
extracteur de termes
 3. Collecte de données: Utilisation d’un
concordancier qui retrouve les occurrences du
terme et extrait les contextes dans lesquels il
apparait.
 4. Encodage des données terminologiques:
Utilisation des bases et des logiciels
terminologiques pour l’organisation des
terminologies extraites et analysées. (Marie-
Claude l’Homme, 2004).
 5. Organisation des données terminologiques:
Pour la diffusion de l’information.
 6. Gestion des données terminologiques:
Correction, mise à jour, enrichissement, etc.
Travail du terminographe

 Description des termes à des fins de publication


dans un dictionnaire spécialisé ou une banque
de terminologie.
 Sa tâche principale est de réunir les textes, de
sélectionner les termes, de recueillir des
renseignements sur ces termes et des les analyser
pour les décrire.
Fréquence et terminologie

 En plus du domaine qui est un élément


fondamental, la fréquence des termes dans un
textes aident beaucoup le terminographe dans
sa démarche de repérage des candidats-termes.
Recherche des textes en
format électronique
 Documents d’entreprises;
 Sites des organismes publics;
 Rapports internes;
 Manuels
Note: toujours vérifier la fiabilité de la source.
Quelques outils
terminologiques
 wibitext
 Logiciel pour repérer la terminologie bilingue
dans des sites spécialisés avec choix du domaine.
(Accès libre en ligne);
On peut afficher les deux pages web (ang-fr) ŝur une
seule page.
Bien que gratuit et accessible à tous pour l'instant, le
site Web de WeBiText deviendra éventuellement
payant.


 http://www.tsrali.com/Main.aspx?cc=true
 (TransSearch) (version d’essai gratuite de 5 jours).
À vérifier.
Extraction terminologique à partir
de corpus bilingues
 Exemple de méthodologie (étapes)
1. Élaboration des corpus: constitution d’une base
de documents.
Exp: Retenir 5 textes en français avec 5 textes en
anglais et deux textes de référence.
2. Outils utilisés pour l’extraction et l’analyse
Exemple: Concordanciers
3. Traitement des corpus: listes des fréquences,
concordances et tris conceptuels.
4. Phase d’extraction et d’analyse des termes (mots
clés).
5. Élaboration d’un glossaire bilingue (anglais-
français pour notre cours).
6. Analyse des résultats.
Par exemple Est-ce que tous les termes alignés ont
eu un équivalent dans le corpus sélectionné? Le
pourcentage, procédure suivie pour chercher des
équivalents aux canddats termes dans d’autres
sources, etc.

Vous aimerez peut-être aussi