Memoire M2 TALN

MÉMOIRE DE FIN D’ÉTUDES
présenté pour l’obtention du diplôme de

Master en Linguistique et Informatique
Discipline: UFR Lettres et Sciences Humaines Appliquées

Spécialité: Linguistique et Informatique
L'ANALYSE DES TEXTES DE BREVETS

Extraction de connaissances utiles à la "conception inventive" à
partir de textes de brevets
par
Dildar KEREM-WU
Mémoire préparé sous la direction de :

M. François ROUSSELOT, Maître de Conférences, DE,
Université de Strasbourg, Strasbourg
Devant le Jury :
− Madame Amalia TODIRASCU-COURTIER, Maître de conférences,
Université de Strasbourg, Strasbourg
− Monsieur Thierry GRASS, Maître de conférences, Université de
Strasbourg, Strasbourg
Présenté le : 14 Septembre 2009
1
2
Résumé :
Ce travail s'inscrit dans le domaine de l'acquisition automatique ou semi-automatique

des connaissances à partir des textes. Il s'agit d'une nouvelle approche qui repose sur le
repérage des marqueurs linguistiques qui sont liés aux connaissances de la conception
inventive appelée la TRIZ (Théorie de Résolution des Problèmes d'Invention). Pour aboutir à
l'extraction des informations particulièrement pertinentes, nous explorerons un corpus de
brevets en utilisant des techniques d'analyse linguistiques. Le travail consiste à analyser et à
collecter les marqueurs linguistiques susceptibles d'être des candidats pour la localisation des
notions présupposées de la TRIZ. Ensuite, un algorithme établi permet l'extraction
automatique des connaissances à l'aide de ces marqueurs.
La multiplicité des brevets ainsi que la diversité des domaines concernés entraînent que
les textes de brevets constituent des ressources riches, mais difficiles à traiter. Nous montrons
par cette étude qu'il est possible d'accéder au contenu des brevets et d'en extraire des
informations souhaitées sans restriction de domaines.
Mots-clés :
l'Analyse des Textes de Brevets, l'Analyse Textuelle, la Fouille de Contenu, TALN

(Traitement Automatique de la Langue Naturelle), l’Acquisition de Connaissances,
l'Organisation de Connaissances, la TRIZ, l'Analyse de Contradictions, l'Extraction de
Contradictions
3
Abstract :
This research relates to automatic or semi-automatic acquisition of knowledge from

texts. More specifically, we present a new approach that helps to locate the TRIZ-linked
knowledge by using the linguistic markers. The extraction of precise information is realized
by using the techniques of linguistic analysis. This work consists of analyzing and collecting
the linguistic markers that are likely to locate the notions associated to the TRIZ. An
algorithm will then be established to carry out the automatic extraction task.
The resources in the patent text are rich, but the analysis would be a difficult task. This
is due to the multiplicity of the patents as well as the diversity of the technical fields
concerned. We try to show through this work that it is possible to analyze the contents of
patents and extract desired information without restriction of technical fields.
Keywords :
Patent Analysis, Text Analysis, Text-mining, Natural Language Processing, Knowledge

Acquisition, Knowledge Organization, the TRIZ, Analysis of Contradiction, Contradiction
Extraction
4
REMERCIEMENTS
Ma gratitude va tout d'abord à M. François ROUSSELOT, mon directeur de mémoire,

pour ses conseils avisés, sa patience, sa disponibilité, ses encouragements et la confiance qu'il
m'a accordée tout au long de ce travail.
Je tiens à remercier tous les membres de jury qui ont accepté d’évaluer mon travail.
Je remercie également toute l'équipe pédagogique de l'UFR Lettres & Sciences

Humaines Appliquées, et les intervenants professionnels responsables de la formation de
Master en Linguistique et Informatique. Je tiens en particulier à remercier Madame Marie-
Paul JACQUES pour ses conseils et ses lumières dans mon domaine.
Mes remerciements vont également à l'institut National des Sciences Appliquées de

Strasbourg ainsi qu'au Laboratoire de Génie de la Conception pour avoir proposé ce thème de
recherche doublé d'un stage qui m'a permis de réaliser ce travail.
Je témoigne toute ma reconnaissance à :
Alexis Bultey (LGéco), pour ses aides chaleureuses et professionnelles ;
Denis Cavallucci (LGéco), pour ses conseils avisés au sujet de la TRIZ ;
Kata Gabor (LGéco), pour le temps qu’elle m’a consacré tout au long de cette période
en répondant à toutes mes interrogations ;
Mes amies Anne-Marie, Derya, Julidie, pour le temps consacré à la relecture.
Enfin, mes remerciements vont à ma famille qui est la source de toutes mes forces.
Merci !
5
LISTE DES ABRÉVIATIONS
TAL : Traitement Automatique Des Langues

TALN : Traitement Automatique Des Langues Naturelles
TRIZ : L'acronyme russe signifie Théorie de Résolution des Problèmes d'Invention
INSA : Institut National des Sciences Appliquées
LGéco : Laboratoire de Génie de la Conception
XML : Extensible Markup Language
HTML : Hypertext Markup Language
DTD : Document Type Definition
TF : Term Frequency
TF-IDF : Term Frequency and Inverse Document Frequency
SAO : Subject-Action-Object
Perl : Practical Extraction and Report Language
et al. : et alii (Latin: et les autres)
6
Table des matières
REMERCIEMENTS...................................................................................................................5
LISTE DES ABRÉVIATIONS ..................................................................................................6
INTRODUCTION GENERALE ..............................................................................................9
Contexte de l'étude...........................................................................................................11
Les problématiques abordées...........................................................................................14
La problématique liée à la conception inventive.......................................................14
La problématique liée à l'analyse des textes de brevets............................................15
La structure du mémoire..................................................................................................18
PARTIE I - L'ÉTAT DES LIEUX ............................................................................................20
Chapitre 1. L'analyse des textes...........................................................................................21
1.1. Préambule.................................................................................................................21
1.2. Présentation des approches dans l'analyse des textes ..............................................21
1.2.1.a. L'analyse statistique textuelle.............................................................................21
1.2.1.b. Problèmes méthodologiques...............................................................................22
1.2.2.a. L'analyse linguistique.........................................................................................23
1.3. Bilan..........................................................................................................................28
Chapitre 2. L'analyse des textes de brevets...........................................................................29
2.1. Préambule.................................................................................................................29
2.2. Présentation des approches dans l'analyse des textes de brevets .............................30
2.2.1.a. La méthode quantitative......................................................................................30
2.2.2.a. La méthode qualitative........................................................................................32
2.3. Bilan..........................................................................................................................35
Chapitre 3. La TRIZ et l'analyse des textes de brevets associée à celle-ci ..........................36
3.1. Préambule.................................................................................................................36
3.2. La TRIZ, une théorie de résolution des problèmes inventifs....................................36
3.3. L'étude comparative d'outils d'analyse associés à la TRIZ ......................................38
3.4. Problèmes méthodologiques.....................................................................................40
3.5. Bilan..........................................................................................................................41
PARTIE II – MÉTHODOLOGIE.............................................................................................44
Chapitre 4. Le corpus de référence.......................................................................................45
4.1. Préambule.................................................................................................................45
4.2. Construction du corpus.............................................................................................45
4.3. Le pré-traitement du corpus......................................................................................47
4.4. Les caractéristiques du document en question..........................................................47
4.4.a. Les caractéristiques de la structure........................................................................48
4.4.b. Les caractéristiques de textes.................................................................................48
4.5. Bilan..........................................................................................................................49
Chapitre 5. L'analyse préliminaire des textes .......................................................................50
5.1. Préambule.................................................................................................................50
5.3. Les notions recherchées exprimées dans les textes de brevets ................................50
5.2. Choix des outils........................................................................................................53
5.4. Premières collections des marqueurs candidats........................................................54
5.5. Bilan..........................................................................................................................59
7
Chapitre 6. L'analyse approfondie........................................................................................60
6.1. Préambule.................................................................................................................60
6.2. Les procédés de l'analyse approfondie.....................................................................60
6.2.a. Les marqueurs verbaux .........................................................................................62
6.2.b. L'utilisation de verbes modaux..............................................................................66
6.2.c. Les verbes qui marquent la relation « partie_tout »...............................................67
6.2.d. Les marqueurs adverbiaux ...................................................................................69
6.2.e. Les marqueurs adjectivaux....................................................................................71
6.2.f. Les marqueurs nominaux.......................................................................................74
6.2.g. Les marqueurs discursifs retenus...........................................................................76
6.2.h. Les autres marqueurs propres aux textes de brevets..............................................78
6.3. Bilan..........................................................................................................................82
Chapitre 7. L'annotation et l'extraction.................................................................................83
7.1. Préambule.................................................................................................................83
7.2. L'annotation et l'extraction........................................................................................83
7.2.a. Les procédés d'annotation......................................................................................84
7.2.b. L'extraction d'informations à l'aide de graphes.....................................................85
7.2.c. L'exportation des textes annotés............................................................................88
7.3. Évaluation préliminaire............................................................................................90
7.4. Les difficultés et les limites .....................................................................................93
7.5. Bilan..........................................................................................................................94
PERSPECTIVES ET CONCLUSION......................................................................................94
BIBLIOGRAPHIE................................................................................................................97
GLOSSAIRE...........................................................................................................................100
Annexe 1 Listes des marqueurs sélectionnés.........................................................................103
Annexe 2 Les graphes utilisés et leurs ordres définis dans le préférence d'outil NOOJ........113
Annexe 3 Les scriptes Perl....................................................................................................115
Annexe 4 Les sources du corpus...........................................................................................117
Annexe 5 La disponibilité des brevets..................................................................................123
8
Tableaux et Figures
Tableau 1 : Les résultats d'un calcul statistique TF, IDF et TF-IDF sur le corpus..................55
Tableau 2 : Les résultats d'évaluation.......................................................................................90
Figure 1: La résolution de problèmes selon la TRIZ................................................................12

Figure 2: Les réseaux de problèmes et solutions selon ZANNI et al........................................13
Figure 3: Une représentation de l'arbre syntaxique.................................................................24
Figure 4: Règle de <CoLocation> présentée dans JAVAVEILLE............................................26
Figure 5: Une illustration de relations des notions de la TRIZ ...............................................37
Figure 7: Un exemple d'application de l'outil PAT-Analyzer....................................................40
Figure 8 : Organigramme d'analyse et d'annotation................................................................43
Figure 9 : Un aperçu de segments répétés de terme « cause » dans LIKES...........................57
Figure 10: Aperçu des concordances triées de gauche et de droite dans Wordsmith Tools.....60
Figure 11 : Exemple de graphe ItisJJtothat.nog ......................................................................84
Figure 12 : Les résultats du graphe ItisJJtothat.nog
Figure 13 : Le graphe générique pour retrouver les valeurs opposées
Figure 14 : L'annotation du graphe générique
9
INTRODUCTION GENERALE
Les brevets constituent une source d'informations abondantes où s'ancrent des

connaissances technologiques et scientifiques. Celles-ci sont souvent utiles pour les
concepteurs. Dans le cadre de la conception invective, le concepteur est fréquemment amené à
effectuer des recherches dans les brevets. Cette tâche est fastidieuse et longue, et toute
méthode visant à faciliter le travail est la bienvenue. À ce titre, des travaux portant sur
l'analyse automatique ou semi-automatique des brevets sont nombreux et sont développés
selon des voies différentes. Néanmoins, des outils d'analyse existants effectuent les recherches
d'une façon aléatoire et on dispose de très peu d'outils d'analyse complète dont les objectifs
opérationnels correspondent aux préoccupations réelles des concepteurs voulant innover. Il
apparaît qu'actuellement émerge un réel besoin d'outils conformes aux attentes des
concepteurs.
En réponse à cette nouvelle attente, nous proposons une approche particulière de

l'analyse des brevets par le dépouillement de contenu. Nous proposons d'explorer le contenu
des brevets en nous appuyant sur une analyse linguistique à partir d'un corpus des textes de
brevets. L'objectif est d’exploiter des ressources linguistiques afin d'identifier, dans les
brevets, certaines notions de la théorie TRIZ1 qui sont jugées indispensables par les
concepteurs au cours du processus de conception.
Ce travail se situe dans la discipline de traitement automatique des langues (TAL). Plus
précisément, il se situe dans le domaine de l'aide à l'acquisition automatique ou semi-
automatique des connaissances à partir des textes.
Les textes constituent les sources essentielles des connaissances, leur analyse est une
phase incontournable où divers types de techniques d'analyse sont appliqués (analyse
statistique, analyse syntaxique, repérage des marqueurs, etc.). Cependant, l'efficacité des
1 L'acronyme russe signifie Théorie de Résolution des Problèmes d'Invention. L'un de fondements de cette
méthode repose sur l'identification et l'élimination de contradictions dans un problème technique. On
reviendra sur cette théorie en détail ultérieurement.
10
outils d'analyse des textes dépend en grande partie de méthodologie. Notre méthodologie
repose sur le repérage de marqueurs linguistiques. Dans ce mémoire, notre définition des
marqueurs linguistiques se lit comme étant « des formes linguistiques qui se comportent
comme porteurs ou pointeurs des contextes riches en connaissances de la TRIZ».
En linguistique, les marqueurs linguistiques sont des unités lexicales simples ou

composées (morphèmes, mots, expressions et locutions, patrons syntaxiques) qui décrivent
des réalisations possibles de séquences textuelles. La notion de marqueur amène à considérer
qu'une langue utilise des règles ou régularités que l'on peut expliciter. Par exemple,
morphologiquement, le rajout d'un « s » à la fin d'un nom marque la forme plurielle de ce
nom. Syntaxiquement, la structure « X comprises Y » marque une relation d'appartenance où
le Y appartient à X. Sémantiquement, l'utilisation de connecteurs tel que « cependant,
néanmoins » marque une relation de contraste entre la première énonciation et la suivante.
La technique du repérage des marqueurs dans le TAL postule que l'observation de ces
caractéristiques de la langue nous permet de révéler les relations existantes entre les éléments
linguistiques, de comprendre les fonctionnements de la langue et d'associer des sens en les
interprétant sémantiquement.
L'investigation de marqueurs à partir de textes fut d'abord proposée par Marti Hearst
(HEARST 1992). Dans ce travail, les marqueurs comme « such as, including, and/or , etc »
sont exploités pour déclencher le repérage de relations hiérarchisées. Depuis, de nombreuses
recherches en relation avec cette méthode sont réalisées.
Une autre méthode qui repose également sur le repérage de marqueurs est proposée par
J. P. Desclès (DESCLÈS et al. 1991). Cette méthode est nommée « exploration contextuelle »
et sa première réalisation informatique est l'outil SECAT où l'on traite des valeurs aspecto-
temporelles pour tous les temps (qui recouvrent la période allant de l'indicatif au passé) en
français. C'est une analyse sémantique du texte guidée par le repérage d'indices linguistiques
déclencheurs dont l'emploi est représentatif des notions étudiées. Cependant, la méthode ne
dispose pas de notions prédéfinies, il convient par conséquent de déterminer les notions à
étudier pour chaque tâche de traitement.
11
Nous nous sommes beaucoup inspiré de travaux existants. Toutefois, notre approche est
sensiblement différente de modèles d'inspirations dans la mesure où les marqueurs
linguistiques que nous cherchons dans les textes de brevets sont spécifiques. Ils constituent
les marqueurs de concepts présupposés basés sur le modèle de connaissances de la TRIZ : des
paramètres, des éléments, et des valeurs. Ces concepts sont issus d'une théorie qui a déjà
fait la preuve de son efficacité et de son universalité dans le monde de la conception. Ils sont
génériques (non liés à un domaine spécifique). Par conséquent, à l'aide de ces marqueurs
linguistiques, nous arriverons à réaliser la manipulation d'un texte de brevet, et à ressortir
d'une façon automatique les informations souhaitées indépendamment des domaines traités.
Pourquoi s'intéresse-t-on à identifier les notions de la théorie TRIZ dans les brevets ?
Pourquoi faut-il partir des textes pour arriver au recueil automatique ou semi-automatique de
connaissances ? Que peuvent apporter les connaissances linguistiques dans ce domaine ?
Nous allons éclaircir ces questions en exposant dans les paragraphes suivants le contexte de
l'étude et les problématiques abordées.
Contexte de l'étude
Ce mémoire est un projet initialement proposé par le Laboratoire de Génie de la

Conception (LGéco) de l'INSA (Institut National des Sciences Appliquées) situé à Strasbourg.
Dans ce laboratoire, la conception constitue le thème de recherche centrale. La « conception
inventive » issue de la TRIZ décrite plus loin en fait partie.
La conception invention, connue également sous la dénomination « La TRIZ », a été

élaborée et énoncée par Guenrich Altshuller (ALTSHULLER 1998, ALTSHULLER 2004).
La TRIZ est une approche qui présente l'évolution des artefacts. Elle affirme qu’à l'origine de
tout problème d'inventivité, il existe une contradiction. Cette théorie postule que l'invention et
la création d'un artefact demeurent dans l'analyse et l'identification de caractéristiques
insatisfaisantes de celui-ci (problème) suivi par l'élimination de ces caractéristiques
(solutions) sans compromis. Selon la terminologie de la TRIZ, ce processus associe
l'identification et l'élimination de contradictions. La voie principale de résolution d'un
12
problème inventif consiste à formuler le problème standard ou général à partir d'un problème
spécifique, puis d'identifier les contradictions. Il existe, une fois ces contradictions
déterminées, des modèles de connaissances pour leur associer des solutions.
Figure 1: la résolution de problèmes selon la TRIZ
La théorie est fondée d'après une étude basée sur l'analyse manuelle d'un grand nombre
de brevets. Le fondateur a relevé un certain type de régularités dans les brevets ainsi que
l'existence de bons nombre d'effets permettant de résoudre les problèmes d'invention. Il a
remarqué des régularités dans l'évolution des artefacts techniques, des modèles d'évolution,
des lois. Il a également inféré qu’en appliquant les principes fondamentaux, il est possible de
résoudre environ 1500 contradictions techniques. Il a établi les modèles de connaissances
comprenant les 40 Principes, les 39 Paramètres, la Matrice de Contradictions et la méthode
ARIZ2 . Selon la conclusion d'Altshuller, 99 % des inventions sont basées sur la résolution de
problèmes techniques déjà existants.
La TRIZ a apporté une vue spécifique sur le processus de l'invention où la résolution de

problèmes inventifs provient d'analyse de problèmes, de l'extraction et de l'élimination de
contradictions techniques.
2 ARIZ est l'acronyme russe de (Алгоритм решения изобретательских задач) signifiant l'Algorithme de
Solution de Problème d'Invention. Les 40 principes, les 39 paramètres, la matrice de contradiction , les lois
d'évolution et la méthode ARIZ peuvent être consultés en ligne : http://www.triz-journal.com/
13
Les chercheurs au LGéco ont travaillé depuis des années sur la modélisation de cette
théorie. Une ontologie des concepts de la TRIZ a été développée (ZANNI et al. 2008a) au
sein du laboratoire LGéco. Un autre chercheur, Alexis Bultey (BULTEY 2007), a travaillé sur
un modèle d'ontologie basé sur l'analyse des concepts de « substance-field »3 en utilisant les
logiques des descriptions afin de stimuler la résolution des problèmes. Les autres (ZANNI et
al. 2008b) proposent des prototypes pour le traitement de problèmes complexes d'invention.
D'après ces auteurs, une solution peut conduire à une autre contradiction et ce réseau est
susceptible d'aboutir finalement à une boucle.
Figure 2: Les réseaux de problèmes et solutions selon ZANNI et al.
Une autre étude (ROUSSELOT et al. 2008) envisage d'effectuer un futur travail qui
reposera sur la création d'un réseau de problèmes ou sur des solutions partielles en fouillant
dans les textes de brevets pour des concepts pertinents en conception : problème, solution
partielle, contradiction (élément-paramètre-valeur).
3 La substance-field est appelée « VEPOLE » dans la TRIZ où « Vé » représente la substance et « Pole » le

champ.
14
Des travaux antérieurs ont démontrés le besoin de formalisation de concepts de la TRIZ.
Ils ont de même constaté qu'un outil servant à localiser des contradictions essentielles d'un
système s'avère indispensable.
C'est dans ce contexte que nous effectuerons notre recherche. Nous envisageons de
fouiller dans les textes de brevets afin de localiser les concepts liés à la contradiction, à savoir
éléments, paramètres et valeurs. L'accès au contenu des brevets est basé sur une méthode
purement linguistique : le repérage des marqueurs.
Les problématiques abordées
Le sujet de ce mémoire est en effet un thème de recherche complexe. Il s'articule autour

de deux problématiques globales : la première est celle liée à la conception inventive, et la
deuxième est celle liée à l'analyse des textes de brevets.
La problématique liée à la conception inventive
Denis Cavallucci, spécialiste de la TRIZ au LGéco, dans sa thèse en 1999

(CAVALLUCCI 1999) a proposé l’intégration de la méthode TRIZ dans les méthodes de la
conception. Depuis lors, il a introduit la méthode TRIZ dans le monde de la conception en
France. Comme le mentionne Denis Cavallucci, les points forts de cette méthode sont sa
pertinence dans l'étape de créativité ; c'est une méthode qui résout un problème où l'origine est
la contradiction. Cependant, le moyen d'arriver à identifier les contradictions dans un
problème technique concret reste vague dans la littérature TRIZ. Il n'y a pas de directives
précises pour la formulation du problème et l'interprétation des directions données en TRIZ.
Ceci entraîne une perte d'efficacité de la méthode.
Nous avons également signalé que les notions essentielles de TRIZ tant les problèmes,
que les solutions, ou les contradictions sont des notions indépendantes d'un domaine
particulier. Cependant, on notera que la réutilisation de connaissances employées ou créées au
15
cours des résolutions des contradictions n'est pas prise en compte dans la TRIZ. Une
réorganisation des connaissances de TRIZ est très fortement souhaitable. Les textes de brevets
constituent la source de cette théorie. Un texte de brevet est rédigé dans le style d'une
rhétorique spécifique à l'égard de problèmes et de solutions : on présente d'abord les défauts
d'artefact (insatisfactions ou problèmes) et ensuite les solutions apportées (améliorations ou
éliminations d'insatisfactions). Ce qui se traduit par le fait que des modèles présents dans les
brevets fournissent des solutions génériques à l'égard de la résolution de problèmes
d'invention. Alors, il est souhaitable de retourner à la source afin de réaliser une
réorganisation.
La problématique liée à l'analyse des textes de brevets
Dans le champ de la linguistique, les approches qui utilisent l'analyse manuelle des
textes se sont manifestées dans le milieu des années 1980. Les avances technologiques ont
permis au champ d'avancer rapidement pendant les décennies passées. L'analyse des textes4
aujourd'hui est un champ interdisciplinaire qui comprend la recherche documentaire, la
traduction automatique, le résumé automatique, l'acquisition des connaissances à partir de
textes, l'apprentissage de machine, la statistique et la linguistique informatique.
Par exemple, dans le cas de l'acquisition des connaissances à partir de textes, le texte
véhicule les connaissances qui peuvent être extraites et présentées d'une manière structurée.
Ainsi, en traduction automatique, le texte doit être étudié afin de choisir les termes les plus
appropriés associés dans le contexte. Tandis qu'en résumé automatique, l'étude du texte a pour
finalité de localiser la partie qui reflète le mieux les idées principales.
Toutes ces applications passent d'abord par une analyse des textes. En conséquence,
l'analyse des textes doit viser des buts différents en utilisant des techniques d'analyse diverses.
Les brevets sont des documents textuels semi-structurés. Chaque brevet fait un état de
l'art de l'artefact en soulignant les problèmes techniques existants et les solutions apportées.
4 Dans ce mémoire, par l'analyse des textes, nous entendons ici « l'analyse textuelle assistée par l'ordinateur ».
Elle est basée sur l'analyse de corpus.
16
Cependant, les brevets couvrent des domaines divers (chimie, mécanique, biologie, etc.), de
plus, ils sont rédigés par des auteurs différents. Partant de ce fait, les styles et les termes
utilisés varient selon l'auteur ou le domaine concerné. Ce type de textes constitue un champ
encore plus complexe dans l'analyse des textes.
Au cours de l'étude, nous avons remarqué que les outils informatiques développés
jusqu'à aujourd'hui diminuent le temps consacré pour la lecture des brevets, notamment en ce
qui concerne les métas-données5. Il existe également des outils qui permettent aux
concepteurs de résoudre les problèmes d'invention, mais leur efficacité n'est pas systématique
et ils sont peu nombreux. En revanche, il y a pléthore de logiciels employés dans le cadre de
la propriété industrielle, en guise de logiciel d'analyse statistique, graphique et administrative.
Une description de la plupart d'entre eux peut être consultée sur la toile6. Ils sont néanmoins
sophistiqués et difficiles à manipuler. De plus, ils sont coûteux et demandent souvent une
expertise dans le secteur de la propriété industrielle (DOU 2005).
La tendance actuelle consiste à intégrer des méthodes différentes, dont les méthodes
quantitatives (basées sur les statistiques) et les méthodes qualitatives (basées sur la
linguistique). Nous citerons l'approche hybride de chercheurs taiwanais (LIU et al. 2006) qui
combine le « data-mining7 » et le « text-mining8 » pour réduire le temps accordé à la
recherche de brevets en excluant ceux qui ne sont pas pertinents. Mais les résultats de ces
recherches ne sont pas toujours encourageants.
Dans notre contexte de l'étude, les préoccupations des concepteurs reposent sur la
résolution d'un problème inventif, et la TRIZ est une méthode qui guide les concepteurs à la
résolution du problème. Par conséquent, l'idéal est de disposer d'un outil qui formalise les
connaissances de la TRIZ contenues dans les brevets et qui est susceptible de ressortir d'une
façon automatique ces informations pour la résolution des problèmes.
5 Pour un document numérique, les notices contiennent des informations sur la source du document (titre,
auteur, date, sujet, éditeurs, etc.), la nature du document, le contenu informationnel (eg: mots-clés) sont des
métas-données.
6 http://www.ipmenu.com/ipsoftware.htm
7 Il s'agit des techniques d'extraction appliquées à des données structurées.
8 Il s'agit des techniques d'extraction appliquées à des données textuelles non structurées.
17
On pourrait dès lors proposer l'utilisation des techniques de TAL adaptées au contexte
spécifique de la TRIZ. Des recherches qui s'orientent vers cette direction ont commencé. Un
exemple concret est celui des chercheurs chinois (LIANG & TAN 2007). Ils ont travaillé sur
une approche basée sur le « text-mining ». En mettant en application le traitement
automatique des langues et les expressions régulières en Perl9, les textes de brevets sont
segmentés et formalisés. Ensuite, une recherche sur des mots-clefs qui expriment les notions
de « fonction », de « but », d' « amélioration » est effectuée. Selon ces chercheurs, les
principes de la TRIZ sont localisés souvent dans la partie du résumé et de la description. Cette
étude n'est pas très convaincante, car elle ne s'intéresse qu'aux occurrences des principes de la
TRIZ dans les textes. Ces principes sont tellement abstraits qu'il est très difficile de les
repérer. En Europe également, les recherches sont en cours. Malheureusement, dans tous ces
travaux la résolution d'une contradiction n'avait pas été mise en évidence, comme on le verra
plus loin.
Entre autres, nous avons été également confronté à d'autres problèmes dans les textes de
brevets :
a) le premier concerne la spécificité du langage des textes de brevets. Il s'agit d'un
document caractérisé par des phrases longues (parfois une phrase peut contenir une
centaine de mots et se composer de plusieurs thèmes), des répétitions (par exemple, la
partie « résumé » correspond dans la plupart de cas à la première revendication), des
noms composés très complexes, des terminologies spécifiques du domaine et des
expressions vagues (celles-ci ont pour vocation d'élargir la protection juridique de
l'invention). Un brevet constitue également un support contenant des intelligences
commerciales, dont il n'est pas rare que les inventeurs utilisent des expressions peu
courantes afin d'en préserver les secrets. De plus, la structure interne de brevets fait
que chaque partie possède ses propres traits linguistiques. Toutes ces caractéristiques
du langage sont sources d'une grande difficulté pour l'analyse et la performance de
l'outil d'analyse.
b) le second concerne la structure interne d'un brevet, lequel est un document fortement
structuré, dont chaque partie tend vers un but particulier et contient des connaissances
spécifiques. Par exemple, la partie « descriptions » est un document purement
9 Un langage de programmations souvent utilisé par les linguistes pour le traitement des textes.
18
technique parce qu'il décrit les caractères de l'artefact et la partie « revendications »
constitue un document juridique dans la mesure où il protège l'artefact et son
inventeur. Il faut déjà définir quelles sont les connaissances à recueillir. Après ce stade,
il conviendra également de réfléchir sur la possibilité d'affiner les recherches en
prenant en compte ladite structure spécifique des textes.
c) le troisième consiste dans la diversité de domaines techniques traités dans les textes de
brevets. Chaque domaine emploie ses propres termes techniques et possède ses
propres façons d'expression. Il convient de s'interroger s'il est possible d'effectuer une
analyse textuelle sans le prendre en compte.
En sus de ces difficultés, nous ne mentionnerons qu'en un trait de plume les autres
inconvénients tels que les répétitions, les fautes de frappe ou les fautes de grammaire qui sont
présentes dans les textes de brevets.
Tous ces caractères en font une analyse bien complexe.
En considération de tous ces problèmes et dans l'optique de réutiliser les connaissances

existantes dans les brevets, nous proposons une approche qui applique des techniques de TAL
au contexte de la TRIZ. Notre approche est fondée sur la supposition que l'existence de
certains marqueurs linguistiques peut servir à indiquer et localiser des informations précises.
De même que nous exploiterons les caractéristiques, les styles et les typographies des textes
de brevets, nous procéderons, également, à des analyses sémantiques en exploitant la théorie
TRIZ. Nous détecterons les contradictions par le collectage de marqueurs qui sont associés
aux paramètres, aux éléments, et aux valeurs. Notre objectif est d'une part aider les
concepteurs à cerner les contradictions présentes dans les textes de brevets et d'autre part
faciliter l'extraction des connaissances et la recherche d'information relatives aux brevets.
19
La structure du mémoire
Ce mémoire débutera par une étude sur les travaux existants portant à la fois sur
l'analyse des textes et celle des textes de brevets. Nous essayerons de souligner dans cette
partie l'originalité de notre approche. Antérieurement à cette étude, nous avons déjà effectué
un l'état de l'art sur la disponibilité de brevets lequel sera présenté dans l'annexe 5.
Ensuite nous présenterons la méthodologie. Nous commencerons par une présentation

des démarches effectuées pour la constitution du corpus. Celui-ci contient cent brevets en
anglais tirés de domaines différents. Par la suite viendront l'analyse et l'interprétation des
phénomènes linguistiques observés dans les textes de brevets. A ce niveau, les résultats
d'analyse dépendent en grande partie de ses bonnes interprétations. Nous poursuivrons cette
étude par la présentation de l'étape d'annotation et d'extraction des textes à l'aide de marqueurs
collectés. Il s'agit d'une part de pouvoir représenter les observations dans une description
formelle, et, d'autre part d'arriver à réaliser semi automatiquement l'extraction d'une façon
pertinente. Pour une meilleure présentation des notions annotées, les textes sont transformés
en un texte HTML10 où des couleurs différentes sont définies pour représenter des notions
diverses. Enfin, les premiers résultats, un début d'évaluation et les difficultés rencontrées
seront présentés.
Une conclusion et les perspectives viendront clore ce mémorandum.
10 Hypertext Markup Language, c'est un langage de balisage qui permet d’écrire de l'hypertexte.
20
PARTIE I - L'ÉTAT DES LIEUX
21
Chapitre 1. L'analyse des textes
1.1. Préambule
Étudier un texte est une pratique ancienne. Depuis toujours, le texte est considéré
comme une sorte d'inventaire ou un stockage des connaissances. L'être humain a de tout
temps cherché à acquérir du savoir au travers des textes. Cependant, la masse et le volume
d'informations qui existent en format électronique aujourd'hui entrainent que l'analyse des
textes assistée par l'ordinateur innove par rapport à l'analyse manuelle.
Dans ce chapitre, nous présenterons deux approches centrales dans l'analyse des textes:
l'analyse statistique textuelle d'une part et l'analyse linguistique d'autre part. Nous conclurons
ce chapitre en exposant les limites de ces approches.
1.2. Présentation des approches dans l'analyse des textes
L'analyse des textes se divise en deux branches: l'analyse statistique textuelle d'une part
et l'analyse linguistique d'autre part.
1.2.1.a. L'analyse statistique textuelle
L'analyse statistique textuelle (text-mining en anglais) est connue également sous le

vocable d’«analyse quantitative ». C'est une discipline en rapport avec le texte. Elle est
appliquée dans la linguistique, l'analyse du discours, l'analyse du contenu, la recherche
documentaire ou l'intelligence artificielle. La statistique textuelle a pour objectif d'accéder aux
significations de segments qui composent le texte. Elle précise le contenu du texte par des
calculs statistiques, mais il n'y a pas de grammaires, ni de syntaxes.
22
La loi de Zipf11 est l'une des plus anciennes théories statistiques d'analyse des textes.
Les techniques classiques utilisées dans l'analyse textuelle sont :

• la segmentation qui revient à délimiter des unités minimales dans un texte (les
délimiteurs peuvent être l'espace, le chariot, les symboles, etc. ) ;
• le décomptage qui consiste à recenser les formes, les lemmes, les fréquences de termes
(TF, TF-IDF), les cooccurrences, les segments répétés, etc.
À titre d'exemple, la technique de « segments répétés » qui compte et regroupe les

segments dans un texte dont la fréquence est supérieure ou égale à deux, sert à identifier des
unités linguistiques récurrentes et possédant leur propre sens comme les locutions, les noms
composés ou les expressions figées (LEBART & SALEM 1994).
Une autre forme d'analyse quantitative de textes est représentée par la concordance, qui
est la liste des occurrences d 'une ou de plusieurs formes visibles à l'intérieur du texte
(SINCLAIR 1991).
1.2.1.b. Problèmes méthodologiques
L'analyse statistique constitue une méthode efficace pour traiter un gros volume
d'informations, mais elle reste limitée.
Par exemple, dans le cas de comptages de fréquences, des synonymes ayant un sens
identique, mais des formes linguistiques différentes sont traités comme des mots différents. Il
en va de même pour les mots polysémies qui partagent une forme identique, mais possèdent
de multiples sens.
L'analyse statistique opère sur les mots à la surface des textes et elle est souvent isolée
du contexte. Le sens lui échappe. Or un concept ou une notion recherchés sont souvent
11 La loi de Zipf est un résultat d'observations empiriques de la fréquence des mots dans un texte. Elle pose le
postulat suivant : la fréquence d'occurrences « f(n) » est égale à « k/n » où K est une constante. (G.K. Zipf
1935, cité par LEBART & SALEM 1994)
23
fortement liés au contexte. L'analyse au niveau superficiel rend difficile, voire impossible, le
traitement du sens implicite. De plus, la langue naturelle est tellement complexe et changeante
que le sens dépend quelquefois non seulement de la forme, mais également des connaissances
du monde.
Malgré tout, c'est une méthode qui peut être exploitée comme une aide complémentaire
ou préparatoire avant d'effectuer une analyse linguistique approfondie. Celle-ci peut ensuite
affiner les résultats d'analyse statistique.
1.2.2.a. L'analyse linguistique
L'analyse linguistique est dite « analyse qualitative ». La technique implique souvent

l'utilisation des connaissances linguistiques (morphologique, syntaxique et sémantique) pour
effectuer une analyse fine du contenu.
L'analyse morphologique
L'analyse morphologique effectue l'analyse au niveau des termes. Elle emploie un

dictionnaire et un lemmatiseur (qui découpe les textes en unités lexicales en leurs formes
canoniques) pour attacher des connaissances aux termes. L'outil TREETAGGER que nous
présenterons dans le chapitre 5 fait partie des instruments utilisés pour l'analyse
morphologique.
Nous nous sommes plus spécifiquement limité à l'analyse morphologique reposant sur le
repérage de marqueurs. Elle étudie la formation interne des termes afin de pouvoir associer le
sens avec la forme. La recherche de Nathalie Grabar et al. (GRABAR & HAMON 2004) en
constitue une illustration. Les auteurs repèrent les relations d'antonymie en exploitant des
préfixes comme « dé-, non-, anti-, ir-, ... »; les relations d'hyperonymie avec préfixes comme
« hyper- »; la localisation temporelle à l'aide de « pré-, post-, ... »; la relation transversale à
l'aide de suffixes tels que « -eur » et « -age, ade, erie, -ment, ... ». L'exploitation des indices
morphologiques a pour but de relier sémantiquement les termes d'un domaine.
24
Il est à noter que cette méthode est non applicable pour les langues isolantes 12 comme le
chinois ou le vietnamien.
L'analyse syntaxique
Elle intervient au niveau de la phrase en utilisant les règles de grammaire pour sa

représentation. L'analyseur syntaxique (parser en anglais) permet de produire des arbres
syntaxiques (figure xx). La structure syntaxique montre d'une façon précise les règles dont les
unités linguistiques sont combinées dans les textes, et elle permet également d'établir les
relations de dépendance afin d'arriver à exploiter le sens de la phrase. La représentation est
souvent élaborée soit à partir d'arbres syntaxiques (CHOMSKY 1965), soit par la grammaire
de dépendance (c'est-à-dire les arbres syntaxiques représentés à plat).
P
GN GV
V GN
pronom verbe déterminant nom
Il poursuit la fille
Figure 3: Une représentation de l'arbre syntaxique
Une analyse syntaxique appropriée est coûteuse en temps et en ressources. C'est la

raison pour laquelle il existe d'autres méthodes telles l'analyse simple qui applique le
« chunker »13 , ou encore l'exploitation de certains patrons (par exemple, structure « N of N »,
ou les groupes nominaux) sans recourir aux structures profondes de la phrase. Certains
chercheurs exploitent également des marqueurs pour extraire des patrons syntaxiques.
Dans sa thèse, P. Séguéla (SÉGUÉLA, 2001) a développé un système nommé

« Caméléon » dont des patrons syntaxiques sont utilisés pour désigner des relations
12 Dans une langue isolante, les mots restent invariables quelle que soit leur fonction syntaxique.
13 découpage des phrases en "morceaux" non récursifs pour indiquer les relations entre les éléments
25
sémantiques entre les termes. Simone Teufel et al. (TEUFEL & MOENS 2002) choisissent
dans les textes des « gold sentence » à savoir, les phrases susceptibles d'être extraites. Le
choix de « gold sentence » est basé sur la position de la phrase, sa longueur, la présence des
termes/marqueurs (thématique, mots-clés), ... A partir de l'observation des traits
caractéristiques de ces phrases, l'auteur constitue des règles pour extraire un résumé des
textes.
L'analyse sémantique
Dès les années 1990, une autre approche « l'analyse sémantique » a émergé afin de
pouvoir mieux accéder aux sens et contenu des textes.
Il s'agit de l'étude de sens. Elle associe le sens au terme en se basant sur le contexte dans
lequel il est inséré. L'analyse sémantique est appliquée soit dans le domaine de l'analyse du
discours, soit pour établir des relations entre les termes ou entre les concepts14 (par exemple,
les graphes conceptuels). Ces dernières ont pour but de construire à l'avenir des terminologies,
des thésaurus ou des ontologies.
Dans ce type d'analyse, c'est principalement la méthode utilisant le repérage des

marqueurs linguistiques ou les indices textuels qui a attiré notre attention.
Marti Hearst (HEARST 1992) a montré que dans les textes non structurés, il est
possible de rechercher des relations lexicales spécifiques qui sont fréquemment exprimées à
travers le texte. Après l'élaboration d'une liste de termes qui reflètent la relation recherchée,
les régularités d'expressions sont regroupées dans des schémas représentatifs (soit en
exploitant des schémas manuellement soit par les études de cooccurrences dans le contexte).
Ainsi, l'auteur a établi des relations hyponymies par la structure « NP15 such as NP1,
NP2, ...Npn » dont il découle que l'indice « such as » constitue le déclencheur de
l'identification de cette relation.
14 Des relations entre les termes ou les concepts sont généralement: des relations synonymies « X est équivalent
à », des relations antonymies « X est l'opposé de Y », des relations hyponymies « X est une spécialisation de
Y», des relations hyperonymie « X est une généralisation de Y », ou des relations parties_touts « X est une
partie de Y ».
15 Syntagme nominale
26
Une autre étude de Simone Teufel (TEUFEL 1998) porte sur le repérage de marqueurs
de méta-discours, l'objectif consiste à relever l'organisation sémantique et logique du texte.
Daniela Garcia a présenté dans sa thèse (GARCIA 1998) le système COATIS qui
exploite des indicateurs linguistiques permettant d'identifier des relations causales. Le
système utilise la méthode de l'exploration contextuelle pour repérer les relations causales
exprimées par les verbes et leurs arguments. Un autre travail (FLORES 2006) effectue une
analyse linguistique sémantique et repère des relations de contrôle identifiées par la présence
de marqueurs linguistiques.
Le système JAVAVEILLE émanant de la thèse (BOUHAFS HAFSIA 2005) est

également basé sur l'exploration contextuelle. A partir des notions prédéfinies, les marqueurs
verbaux, nominaux, adjectivaux, adverbiaux, etc. sont collectés. (Par exemple, pour la notion
de « CoLocation », il collecte des marqueurs comme rencontrer, s'entretenir, réunion,
conférences.) Ensuite ces marqueurs sont définis par des contraintes spécifiques (par exemple,
l'existence des indices tels qu’entre, avec, à, ...) pour effectuer des annotations sémantiques.
Le système est conçu pour la veille technologique16.
Figure 4: Règle de <CoLocation> présentés dans JAVAVEILLE
16 Surveillance de l'environnement industriel et commercial de l'entreprise.
27
L'efficacité d'une analyse morphologique est liée à la qualité de dictionnaire ou du

lemmatiseur. Quant à l'analyse morphologique basée sur les marqueurs, elle n'est pas capable
de détecter les relations implicites qui ne sont pas exprimées par les caractères
morphologiques (suffixe/préfixe/infixe, etc). Toutefois, c'est une approche exploitable venant
en complément d'autres approches.
La grande difficulté d'analyse syntaxique est l'ambiguïté de la langue naturelle. Les

synonymes et les mots composés sont également des challenges. Ainsi, différentes structures
syntaxiques peuvent exprimer le même sens sur le plan de la sémantique. De même, un terme
peut revêtir plusieurs sens ou plusieurs catégories lexicales, certaines phrases sont
syntaxiquement claires, mais sémantiquement ambiguës. En conséquence, si les structures
syntaxiques seules n'enlèvent pas l'ambiguïté, il y a lieu de recourir au contexte. De plus, il
existe des relations implicites entre les termes qui ne sont pas signalées par la structure
syntaxique, ceci constitue encore une difficulté supplémentaire.
Dans l'analyse sémantique, l'attachement du sens aux termes ou phrases est parfois
subjectif. Quels sont les critères pour attribuer les sens ? Comme le signale Ch. J. Fillmore
(FILLMORE 1968): « le texte est un ensemble de phrases, mais qui entretient des rapports
implicites avec ce qu'on appelle encore extra linguistique ». Ces connaissances
extralinguistiques ou connaissances du monde sont intuitives chez les êtres humains, mais ce
n'est pas le cas pour les machines.
Dans le cas du repérage des marqueurs linguistiques, l'acquisition et les critères de

sélection des marqueurs dépendent en grande partie des besoins de l'utilisateur, chacun
dispose de sa propre définition de concepts à rechercher et chacun établit des marqueurs
différents. Nous avons également noté que beaucoup de travaux ont pour but de signaler des
relations entre les termes ou sont liés à l'organisation du discours. Il est indéniable que la
méthode de l'exploration contextuelle offre une manière efficace pour mieux accéder au
contenu. Néanmoins, les notions à rechercher sont identifiées par une étude sur le corpus en
fonction des besoins de l'utilisateur. Elles sont spécifiques en ce que concerne l'usage.
28
Les problèmes du domaine de dépendance et les traitements d'ambiguïtés sont toujours
des défis, en particulier, dans l'analyse des textes de brevets en raison de leur diversité.
1.3. Bilan
Il apparaît que tant l'analyse statistique que l'analyse linguistique connaissent tant tôt des
avantages et tant tôt des inconvénients. Elles sont complémentaires de sorte que pour parvenir
à extraire des informations précises répondant aux besoins de l'utilisateur, l'essentiel des
travaux se fait en combinant les deux méthodes. Nous pensons que pour un meilleur accès aux
contenus des textes et extraire au mieux les connaissances, il faut prendre en compte les
statistiques, les interactions des éléments linguistiques (morphologie, syntaxes, sémantique) et
les contextes. Le tout à partir d'un bon point de départ qui définit les notions à rechercher.
L'analyse des textes de brevets est encore un domaine plus complexe en raison de sa
structure externe et interne. Ainsi, les brevets consistent en des informations textuelles non
seulement structurées (page de bibliographie), mais également non-structurées. De plus,
chaque partie tend vers un but particulier à savoir le résumé de l'invention, sa description
détaillée, les revendications afférentes à sa protection juridique. Elle contient en outre des
connaissances spécifiques comme les problèmes techniques et les solutions apportées qui sont
exprimées dans la partie descriptive. De là découlent des questions du type : comment faut-il
procéder à l'analyse ? Quelles sont les connaissances à acquérir dans les textes ?
C'est ainsi que nous avons décidé de faire un état des lieux de l'analyse des textes de
brevets séparément. Le chapitre deux est une représentation des méthodes dans l'analyse des
textes en général, et le chapitre trois est consacré aux méthodes d'analyse qui sont liées à la
théorie TRIZ.
29
Chapitre 2. L'analyse des textes de brevets
2.1. Préambule
Un brevet réserve des avantages juridiques et économiques à son titulaire. Pour le

déterminer, nous emprunterons à l'Organisation Mondiale de la Propriété Intellectuelle
(OMPI) sa définition, à savoir « le brevet confère un droit exclusif sur une invention, qui est
un produit ou un procédé offrant, en règle générale, une nouvelle manière de faire quelque
chose ou apportant une nouvelle solution technique à un problème »17 .
Pour qu'une invention soit brevetée, elle doit remplir certaines conditions. Elle doit avoir
une utilité pratique, comporter un élément de nouveauté, qui ne fait pas partie du fonds de
connaissances existantes dans le domaine technique considéré. L'invention doit aussi
impliquer une activité inventive. Enfin, son objet doit être « brevetable » selon la loi de
chaque pays18.
Il découle déjà de leur définition que les textes de brevets constituent des connaissances
extrêmement enrichissantes. Durant ces dernières années, de grands efforts ont été déployés
pour mettre en valeur les connaissances dans les brevets. Cependant, il échet de remarquer
que les recherches réalisées sur l'analyse automatique des brevets sont éparpillées et
décevantes.
C'est pour cela que nous avons choisi de consacrer ce chapitre à l'état des lieux dans ce
domaine. Nous y présenterons les approches dans l'analyse des textes de brevets en général
ainsi que certains outils plus proches de notre thème. Le chapitre sera clos par une analyse des
problèmes méthodologiques.
17 http://www.wipo.int
18 Selon L'article 52 de la Convention sur le brevet européen (CBE 1973), ne sont pas considérés comme des inventions, et par conséquent
ne peuvent pas être brevetables :
• Les découvertes, les théories scientifiques et les méthodes mathématiques ;
• Les créations esthétiques ;
• Les plans, les principes et les méthodes intellectuelles en matière de jeu ou d’économie ;
• Les programmes d’ordinateur ;
• Les présentations d’informations.
30
2.2. Présentation des approches dans l'analyse des textes de brevets
Les brevets sont des sources d’informations spécifiques. D'après une investigation de
chercheur auprès du groupe Vertex Pharmaceutical Anthony J. Trippe (TRIPPE 2003), il
n'existe pas encore d'instrument performant et générique qui s'appliquerait aisément dans des
domaines divers. En attendant le développement d’une telle aide, l'auteur préconise aux
utilisateurs de définir clairement leurs besoins avant de déterminer leurs choix. De ce fait, des
outils d'analyse de textes de brevets sont dédiés à la mise en évidence des valeurs diverses, et
on notera que très peu d'entre eux visent à extraire des informations ou des connaissances
contenues dans les brevets.
Deux méthodes se dessinent clairement dans ce champ : l'analyse qualitative d'une part
et l'analyse quantitative d'autre part.
2.2.1.a. La méthode quantitative
La méthode d'analyse quantitative consiste en un traitement statistique qui s'applique

avec l'approche « data-mining » et « text-mining ».
L'approche data-mining est nommée également analyse des données statistiques laquelle
comporte deux grands groupes de méthodes. Les deux méthodes sont complémentaires. Les
résultats d'analyse sont classiquement représentés en forme de nuages, histogrammes,
spirales, cercles, etc. Ces formes permettent d'interpréter vite les résultats d'analyses.
Les deux groupes de méthodes sont :
• les méthodes d'analyse factorielle. (l'analyse en composants principaux, l'analyse
discriminante, l'analyse canonique...) ;
• les méthodes de classification automatique. (les méthodes ascendantes, les méthodes
descendantes, les méthodes de partitionnement...) .
Le text-mining est également connu sous le vocable de « statistique textuelle ». Comme

nous l'avons mentionné dans chapitre 1, cette méthode effectue des calculs statistiques aux
données textuelles.
31
La méthode d'analyse quantitative appliquée aux brevets présente le résultat de l'analyse
par des diagrammes en barres, des diagrammes à secteurs, des graphiques en radar, etc. Ce
genre de représentation est désigné sous le vocable « cartes des brevets ». Elle permet de
comprendre et d'évaluer facilement de larges volumes d'information de brevets.
De tous les éléments de brevet, il apparaît que c'est la page de couverture 19 qui est
majoritairement exploitée par la méthode d'analyse quantitative. A titre d'exemple, la méthode
bibliométrie est l'une de composantes de la méthode de l'analyse quantitative réputée pour la
détection de tendances de dépôts de brevets.
Certains chercheurs estiment que l'analyse bibliométrie constitue une approche

prometteuse. Selon Philippe Bereau et Henry Dou (BEREAU & DOU 1997), il existe une
dissociation entre l’analyse des champs structurés (Titre, Auteur, ...) et celle des données
textuelles non structurées. Les champs structurés sont bien adaptés au traitement bibliométrie.
Les contenus textuels ont besoin d'autres traitements. Et c'est dans ce cadre que les auteurs ont
adapté le logiciel « Neuro Text » pour présenter une approche complémentaire liée à
l’utilisation d’un système d’analyse spécifique basé sur la classification neuronale non
supervisée de Kohonen20. La classification se fonde sur la proximité de classe. Les brevets
qui sont censés concerner les mêmes termes sont collectés dans la même classe. Elle permet
d’améliorer la pertinence de la base en mettant l'accent sur des mots communs dans des
phrases ou dans des unités de sens. Les auteurs considèrent cette méthode comme une aide
complémentaire pour réduire le temps de lecture des brevets. La méthode est classique. Elle
classifie, par regroupement, de mots de mêmes racines, des synonymes ou des équivalences
entre plusieurs mots.
19 La page de couverture de brevet contient des métas-données ou des données structurées (c'est-à- dire des données qui sont déjà annotées,
comme par exemple des données en XML ). Ce sont généralement des informations bibliographiques telles que le titre de l'invention, la
date de dépôt, la date de priorité, le domaine technique concerné, le nom et l'adresse des/du demandeur (s) et des/de l'inventeur (s). Il
contient également un résumé et un dessin représentatif (le dessin n'est pas obligatoire). La partie « bibliographique » est un moyen
essentiel d'identifier, de localiser et de retrouver les documents de brevet.
20 Définition fournie dans (BEREAU & DOU 1997), les réseaux de Kohonen produisent une représentation sous la forme de grille à deux
dimensions d'états à N-dimensions. Cela permet de représenter les relations sémantiques entre les documents introduits en entrée.
32
La méthode quantitative tente tout d'abord d'extraire des informations du contenu, puis
de les regrouper en classe, et pour finir de les représenter. Son intérêt consiste à fournir aux
utilisateurs une meilleure visualisation du contenu. Cependant, celui-ci n’est pas analysé en
profondeur. Les connaissances enfermées dans les brevets ne sont pas efficacement
représentées par cette méthode. La méthode quantitative met en valeur des informations
structurées, mais pour accéder aux contenus, il nous faut appliquer des méthodes d'analyse
plus raffinées. Les méthodes basées sur les connaissances linguistiques vont permettre cet
accès aux contenus.
2.2.2.a. La méthode qualitative
La méthode d'analyse qualitative repose sur l'approche du traitement automatique des

langues naturelles en s'appuyant sur l'analyse linguistique. Elle présente le contenu des
différents documents de brevet de façon plus précise où les résultats sont représentés avec
leurs caractéristiques. La méthode consiste généralement à un prétraitement de textes
(lemmatisation, étiquetage, segmentation, et reconnaissance des entités nommées ou des
concepts), un module de règles, et parfois des statistiques. Certaines applications utilisent des
ontologies.
Afin de mieux cerner cette méthode, nous avons sélectionné deux outils représentatifs
qui reposent sur des approches différentes dans l'analyse qualitative des textes de brevets.
Le système VIGITEXT
Le VIGITEXT (GOUJON 1999) est un système d'analyse qui se base sur l'approche de
l'exploitation contextuelle et l'analyse sémantique du document. Il est construit pour faciliter
la consultation de bases documentaires techniques et scientifiques dans le domaine de la veille
technologie. L'idée de « notion générale » est le noyau de ce système, à partir duquel une base
de connaissances linguistique est construite. Les notions de recherches sont liées à la
33
description de : /changement/, /amélioration/, /détérioration/, /augmentation/, /diminution/,
/production/, /utilisation/ et /résistance/. Ce système s'appuie sur 170 indicateurs linguistiques
et 67 règles d’exploration contextuelle.
L'outil est à la fois autonome puisqu’il n'impose pas d'avoir recours à d'autres analyses
extérieures du système, et interactif parce que le programme peut être ajouté ou complété avec
de nouvelles connaissances linguistiques. Cependant, le système prend en compte seulement
les documents exploités par les veilleurs, à savoir, les résumés et le titre. Les autres parties
textuelles ne sont étudiées.
Le Pat-Annote
Le Pat-Annote (GHOULA et al. 2007a; 2007b) se base sur les principes du web
sémantique. Il vise à faciliter la génération automatique des annotations sémantiques sur les
brevets accessibles en ligne. Il est appliqué au domaine biomédical. Les auteurs revendiquent
que l'outil puisse être adapté à d'autres domaines dans l'avenir.
Les documents de brevets sont transformés de format HTML en XML. Ensuite, une
annotation sémantique est lancée et les résultats regroupés dans une base. Elle repose sur
deux ontologies :
1. Patonto : une ontologie de brevets qui représente sémantiquement les documents de
brevets. Elle est constituée de trois sous-ontologies :
a) Patent Content Form (Formule de contenu de brevet) ;
b) Auxiliary-Data (Données secondaires) ;
c) Patent Media Content (Contenu d'image/d'illustration) ;
2. Une ontologie de domaine ( elle est relative au domaine biomédical).
L'approche basée sur le web sémantique (Pat-Annote) est relativement nouvelle dans le
domaine de TALN. Il est indéniable qu'elle représente mieux le contenu d'un texte.
Néanmoins, on peut regretter que cette approche soit coûteuse et elle reste également limitée
dans son application.
34
La dépendance du domaine, l'application spécifique d'outils, l'inadéquation des données

ou concepts de recherche sont des difficultés que nous soulignerons par cette étude.
Premièrement, malgré tous les attraits des outils développés, il ne faut pas oublier que
les brevets couvrent de nombreux domaines. Par conséquent, un instrument qui est
indépendant du domaine traité est fortement souhaitable. A cet égard, nous n'avons pas encore
remarqué l'existence d'une recherche qui serait faite effectivement sans distinction du
domaine.
Deuxièmement, la critique principale concerne la décision de notions de recherche. Le

VIGITEXT définit les notions en fonction des besoins de veilleurs. Il ne s'appuie pas sur un
modèle de connaissances. Par conséquent, le choix de notions de recherche est absolument
subjectif. Le Pat-Annote exploite la structure interne de brevets ainsi que les terminologies du
domaine. Il se contente d'une annotation sémantique basée sur les ontologies. Il n'y a pas des
notions spécifiques à rechercher. Les connaissances encodées dans les brevets sont
abondantes, dispersées et diverses. Il est primordial de réfléchir avant tout sur les
connaissances à rechercher pour en tirer un maximum de bénéfices.
Troisièmement, l'application spécifique d'outils est une autre critique que nous
avançons. Par exemple, le système VIGITEXT analyse seulement le résumé et le titre du
brevet parce qu'il est adapté à un usage de veille. Il a tendance à négliger les autres parties
importantes des brevets telles que la partie « description » qui démontre les problèmes
techniques posés ou encore la partie « revendication » qui détaille les nouveautés d'invention.
Le Pat-Annote est appliqué au domaine biomédical. Il représente les brevets par une
annotation sémantique. Cette annotation repose d'une part sur la structure interne du brevet et
d'autre part sur une ontologie du domaine. Il est spécifique parce qu'il dépend la disponibilité
d'ontologie du domaine.
L'émergence d'un instrument universel qui serait utilisable dans tous les domaines n'a
pas encore vu le jour.
35
2.3. Bilan
Il apparaît que l'analyse des textes de brevets est très complexe et délicate. Les données
textuelles sont pléthore en quantités, en domaines et en structures. Certaines parties sont
adaptées pour l'analyse quantitative tandis que d'autres le sont pour des traitements plus
délicats. Tout dépend des besoins de l'utilisateur.
Que recherche-t-on dans l'analyse des textes ? C'est une question qu'il convient de se
poser avant de débuter. Elle nous a amené à exploiter les notions de la théorie de la TRIZ. En
conséquence, nous présenterons dans le chapitre 3 la méthode proprement dite, ainsi qu'une
étude des outils qui y sont liés.
36
Chapitre 3. La TRIZ et l'analyse des textes de brevets associée à celle-ci
3.1. Préambule
Ce chapitre traitera de l'analyse des textes de brevets associée à une approche spécifique
à la conception inventive qui se caractérise par le fait que les inventions doivent être
« inventives ». Il s'agit de la méthode TRIZ. Nous énumèrerons quelques outils sélectionnés
en vue d'une étude comparative. Les problèmes méthodologiques et l'originalité constituée par
l'approche choisie viendront clore ce chapitre.
3.2. La TRIZ, une théorie de résolution des problèmes inventifs
La TRIZ (ALTSHULLER 1998, ALTSHULLER 2004) affirme que l'inventivité et la

créativité peuvent s'apprendre. Cette théorie repose sur deux fondements :
• les lois d'évolution (huit lois au total) qui postulent que l'évolution technologique est
prévisible ;
• et la contradiction qui présume que le moteur d'évolution d'un artefact technique est la
contradiction; ceci signifie que chaque problème d'invention suppose une
contradiction qu'il faut résoudre. Dans le cadre de cette recherche, c'est la
contradiction qui nous intéresse.
Pour arriver à la contradiction, il faut repérer les paramètres, les éléments ou les valeurs
concernés. En effet, selon la TRIZ, chaque système dispose de ses propres paramètres. Les
éléments sont des composants ou des parties du système. Ils comprennent des paramètres
d'action sur lesquels il est possible d'agir, ainsi que des paramètres d'évaluation dont la valeur
est intangible. Les valeurs sont les propriétés des paramètres. Le changement des paramètres
d’un élément a une influence positive ou négative sur d’autres paramètres. Ce cas de figure
37
est appelé la contradiction. Par exemple, dans le cas d'une serrure de porte d’un véhicule, la
force mécanique appliquée sur la serrure (élément) doit être assez forte (valeur) pour
assurer l'isolation du bruit (paramètre) mais elle doit être en même temps faible (valeur)
pour faciliter l'ouverture (paramètre) de celle-ci. Par conséquent, pour la résolution d'un
problème inventif, il est indispensable pour un inventeur de repérer et de résoudre la
contradiction.
Figure 5: Une illustration de relations des notions de la TRIZ
La TRIZ exclut les solutions de compromis. Il faut toujours imaginer le « Résultat Idéal
Final ». Quand un système a épuisé son évolution normale, les contradictions du système
forment une boucle insoluble et une loi d'évolution s'applique. Alors, elle revendique le
changement total de point de vue sur le système : un saut technologique est à effectuer, il faut
changer radicalement de point de vue.
En comparaison avec des approches traditionnelles de résolution de problèmes tels que :

• l'approche « brainstorming » qui est très liée aux compétences des individus;
• l'approche par essais-erreur qui accepte les compromis entre les éléments des systèmes
tout en cherchant une solution d’une manière aléatoire;
• l'approche plan d'expériences qui est complexe et ne permet de rechercher une solution
que dans une direction connue ;
La méthode TRIZ est une approche qui guide la recherche d'une solution. Elle a pu
surmonter les limites d'autres méthodes dans la résolution de problème d'invention.
38
Aujourd'hui, la TRIZ est appliquée au niveau international pour la création et l'amélioration
de produits, de services et de systèmes.
3.3. L'étude comparative d'outils d'analyse associés à la TRIZ
Suite à la reconnaissance de l'efficacité de la TRIZ dans le monde, les travaux qui

portent sur l'exploitation de cette méthode dans l'analyse des textes de brevets ont émergé.
Cependant, ils sont encore lacunaires et peu convaincants.
Certains outils ont pour seule finalité l'analyse en vue de la constitution de bases de
connaissances. On citera à ce titre la compagnie belge CREAX21 laquelle a réalisée un
programme de recherche dans lequel sont analysés tous les brevets américains accordés
pendant la période de 1985 à 2002 (MANN & DEWULF 2003a, 2003b). L'objectif consiste à
réorganiser la base de connaissances de la théorie TRIZ. Une base de données fonctionnelles
peut être utilisée en ligne22. Cette phase d'analyse est réalisée manuellement par les analystes.
Un outil intitulé « InnovationSuite » est ensuite développé, basé sur ce travail. Il

comprend trois modules :
• le Classique de CreaTRIZ, pour les applications techniques;
• CreaTRIZ, pour les affaires et l'administration;
• Potentiel Évolutif pour une utilisation pédagogique.
D'autres outils appliquent la méthode de text-mining pour effectuer la classification des

concepts. C'est le cas d’« Invention Machine Goldfire Platform »23, basée à Boston. La
spécialité de cet instrument consiste à réaliser l'analyse des textes de brevets par une analyse
syntaxique : chaque phrase est traduite dans une triade de SAO (le Sujet, l'Action, l'Objet).
D'autres chercheurs proposent des analyses basées sur l'ontologie, comme « Multi-Agent
Platform » (SOO et al. 2005) qui se sert des multi-modules, à savoir: l'agent d'ontologie,
21 http://www.creax.com
22 http://www.creax.com/function_database.htm
23 http://www.invention-rnachine.com
39
l'agent de thésaurus, l'agent d'invention (TRIZ), l'agent de coordination, l'agent de solution de
problèmes et l'agent de brevets; pour la réalisation d'extractions d'informations de brevets
dans un domaine spécifique.
L'outil PAT-Analyzer (CASCINI & RUSSO 2007a, 2007b), développé à l'Université de

Florence, est certainement la technique la plus avancée disponible actuellement pour le
traitement des brevets. Ce travail est aussi le plus proche du nôtre dans ses objectifs et ses
méthodes. PAT-Analyzer est un résultat de plusieurs approches combinées : l'approche
sémantique, l'approche fonctionnelle et le text-mining intégré.
Le résultat d'analyse est en diagramme fonctionnel. La méthode essentielle de cet outil

est l'adaptation de l'analyse fonctionnelle qui est supportée par l'analyse sémantique. Dans le
système, il existe une base de connaissances, une liste de synonymes, une liste de Sujet-
Action-Objet (S.A.O.) .
L'outil analyse des brevets selon le modèle de la TRIZ et cherche à en extraire des
contradictions. Il procède à une analyse structurelle et fonctionnelle du texte, qui comprend :
- l'identification des composants de l'invention ; (élément dans notre
terminologie)
- la classification des composants identifiés dans l'étape précédente en terme de
leur niveau d'abstraction ;
- l'établissement des liaisons fonctionnelles entre les composants .
Le système est capable d'identifier le sous-système et le super-système, des composants

de système interne et externe et de déterminer les interactions fonctionnelles entre les
composants. En exploitant les citations, il est également capable de relever la nouveauté d'une
conception.
En identifiant le SAO, les mots d'actions peuvent être soulignés par rapport à des
analyses.
40
Figure 7: Un exemple d'application de l'outil PAT-Analyzer
41
3.4. Problèmes méthodologiques
Nous avons vu dans cette étude que les outils d'analyse des textes de brevets associés à
la TRIZ ne sont pas nombreux.
Quelles sont les connaissances de la TRIZ à exploiter par les techniques de TAL? Dans
notre hypothèse, il s'agit des concepts liés à la contradiction. Il faut identifier les
contradictions afin de faciliter les travaux initiaux des concepteurs en fournissant une
formulation structurée de problème d'invention.
Cependant, notre étude relève que les outils existants ne vont pas jusqu'à la découverte
de la contradiction. D'après la TRIZ, le but d'identification des composants d'un système est
de souligner les causes, les effets, les liens entre celles-ci, et, d'identifier éventuellement les
contradictions qui ont lieu dans le système. Certains travaux ( PAT-Analyser ) quoique à
même d'identifier les systèmes et les composants, ne vont pas jusqu'à traiter les
contradictions. Les résultats de recherche réellement en lien avec la TRIZ sont relativement
faibles.
La critique principale que nous portons sur le PAT-Analyser repose sur son utilisation
des fonctions S-V-O (sujet, verbe, objet) pour représenter l'information obtenue. Cette
représentation, quoique consistante en elle-même, ne fournit pas des informations suffisantes
pour les experts. De plus, les descriptions fonctionnelles ne sont pas très utiles pour traiter les
contradictions.
La dépendance du domaine est une autre remarque que nous faisons pour la plupart des
outils. Nous n'avons pas encore repéré d'instrument qui soit indépendant. Cette difficulté
ressort cependant unanimement de l'analyse des textes de brevets.
Nous avons également constaté que le manque de compétences dans la linguistique

limite la performance des outils.
42
3.5. Bilan
Cette étude a mis en lumière que des outils existants n'ont pas de notions présupposées
à rechercher. En effet, même quand certains déclarent avoir des notions de recherche bien
définies (par exemple: VIGITEXT, PAT-Analyzer), ce n'est pas toujours satisfaisant au niveau
des résultats. Après notre recherche, nous sommes convaincu qu'à partir du moment où les
notions de recherches sont bien définies, l'instrument développé pourra s'appliquer dans tous
les domaines et pour tous types de textes. C'est la caractéristique la plus importante que revêt
notre approche.
Après notre recherche sur l'état des lieux d'outils d'analyse des brevets, nous avons
réalisé que notre approche peut être utile dans la mesure où elle est bien positionnée dans sa
recherche de motifs dès lors qu'elle repose sur des concepts précis (tels que les éléments, les
paramètres, les valeurs) et sur une méthode de repérage des marqueurs linguistiques
génériques contrairement à la plupart des autres moyens.
Un outil qui identifie les contradictions afin de faciliter les travaux initiaux des
concepteurs est souhaité, mais inexistant. L'originalité de notre travail repose sur le fait
d'avoir décelé ce besoin. Le noyau de notre recherche est la collecte et la localisation des
contradictions existantes pour décharger le concepteur et pour mieux gérer le processus de la
résolution de problèmes d'invention.
Notre approche présente le mérite d'être universelle. Les concepts de recherche sont des
concepts génériques dans la résolution de problèmes. Pour tout problème, la solution consiste
à résoudre une contradiction existante au cœur même du problème. La collecte de ces
concepts permet de ne pas être tributaire d'un domaine particulier. Nous pouvons dès lors
nous positionner sur un niveau abstrait et l'application de cet outil dans les autres domaines
devient possible.
Notre approche est susceptible de déboucher sur des plateformes multi-langues, comme
l'anglais, le français et le chinois.
43
L'étude de l'état des lieux a démontré qu'un besoin réel existe dans le domaine de
l'analyse des brevets. En y répondant, nous avons avancé l'approche d'analyse des textes de
brevets qui fusionne l'analyse linguistique et la méthode TRIZ. Les parties suivantes seront
consacrées à une mise en pratique de notre approche. Dans la partie II, nous présenterons
d'abord la constitution du corpus de référence, ensuite nous justifierons nos choix des outils
employés au cours de ce travail. Enfin, nous détaillerons les processus de sélection des
marqueurs sélectionnés. Dans la partie III, nous ferons une démonstration du résultat final,
ainsi que les difficultés et les limites de notre approche.
44
Figure 8 : Organigramme d'analyse et d'annotation
45
PARTIE II – MÉTHODOLOGIE
46
Chapitre 4. Le corpus de référence
4.1. Préambule
Un corpus de référence est une grande collection des données textuelles qui sert à
effectuer des traitements automatiques des langues.
« A collection of naturally occurring language text, chosen to characterize a state or

variety of a language. » (SINCLAIRE 1991)
L'acquisition des connaissances à partir d'un corpus part du principe que les textes
constituent la source de connaissances. La mise en place de méthodes d'analyse approfondie
sur le corpus permet d'accéder aux connaissances recherchées.
Pour la constitution d'un corpus, il est important de définir les critères de sélection, de
connaître la taille souhaitée, et de garder une trace des données sélectionnées. Ce chapitre est
consacré à une description détaillée de la constitution du corpus, son pré-traitement ainsi
qu'une présentation des caractéristiques de documents en question.
4.2. Construction du corpus
Le corpus est constitué de cent brevets d'invention rédigés en anglais. Nous avons opté
de travailler sur la langue anglaise en raison de la disponibilité des textes. Néanmoins, il est à
noter que notre approche est transposable dans les autres langues.
D'après les statistiques de Wordsmith, le corpus contient 1,148,548 mots.
47
Il est homogène en ce qui concerne le genre des textes. Néanmoins, les domaines
d'inventions concernés dans les brevets sont hétérogènes. Cette qualité découle du fait que les
notions recherchées dans les textes sont générales.
Les brevets sont des brevets électroniques sur la toile. Ils sont d'abord sélectionnés selon
des critères différents associés aux lectures de chaque brevet. Ils sont ensuite assemblés dans
un seul fichier au format brut24.
Pour la sélection des brevets, nous avons opté pour le choix des brevets publiés entre
2000 et 2009 en espérant que nous ne nous sommes pas trop éloigné des développements
technologiques de ces dernières années. Les brevets sont recherchés sur le site de
http://www.google.com/patents et http://www.patents.com. Nous avons exclu ceux concernant
les compositions des médicaments, les ADN, les plantes, car ils ne représentent que peu
d’informations utiles pour notre thème de recherche. De plus, nous souhaitons prendre
seulement en compte les brevets qui reflètent des nouveautés. Par conséquent, nous avons
sélectionné les brevets à l'aide de mots clés, tels que: discovery, discovered surprisingly,
novel, new. Les informations concernant les notions de la TRIZ, les effets physiques ou
chimiques constituent également un critère de sélection. Par exemple des brevets qui
contiennent des informations sur : electro-hydraulic, porous, pressure, catalytic, polymer,
light, the Curie point, etc. Enfin, une lecture approfondie est effectuée afin d'éliminer les
brevets qui ne donnent pas suffisamment d'information concernant le thème de la recherche.
4.3. Le pré-traitement du corpus
Ensuite, le corpus est traité en lui appliquant des balisages XML25. Un document DTD26
est défini pour le fichier XML, et la source de tous les brevets est notée dans un fichier à part.
L'intérêt de balisages XML consiste à faciliter la réutilisation, la navigation du corpus ainsi
24 En informatique, un fichier texte brut est un fichier dont le contenu représente uniquement une suite de
caractères imprimable d'espace et de retour à la ligne.
25 Extensible Markup Language, un langage informatique qui définit une syntaxe générique pour formater les
données avec des balises simples et compréhensibles par l'homme.
26 Définition de type de document en français. C'est un document qui permet de décrire le modèle de
document , par exemple, pour XML.
48
que l'extraction des données dans le corpus. Celui-ci est balisé selon les parties différentes
présentes dans les brevets telles que les informations bibliographiques, l'abrégé, les
descriptions et les revendications.
Les balisages définis pour le corpus sont :

• <pats> est le balisage d'entête; il contient les 100 brevets sélectionnés ;
• <pat> est la balise pour chaque brevet entier. Elle contient des sous-parties comme
<title> pour le titre, <patinfo> pour les informations bibliographiques, <abstract>
pour la partie « abrégé », <claims> pour la partie de revendications, et <description>
pour la partie de descriptions ;
• dans la sous-partie de la balise <patinfo> on trouve des balisages comme <id> pour
le numéro d'identification, et <date> pour la date de publication ;
• dans la sous-partie de la balise <descriptions>, il existe <field> qui représente
l'indication du domaine, <background> qui représente l'art antérieur du domaine,
<drawings> qui représente la présentation des figures, et <detailed_description> qui
représente la description précise de l'invention .
4.4. Les caractéristiques du document en question
Le document de brevets est structuré et son texte possède des traits particuliers. En vue
de cette propriété de document en question, il nous paraît capital d'exposer ces particularités
en les distinguant: les caractéristiques de la structure et les caractéristiques de textes.
4.4.a. Les caractéristiques de la structure
Dans le cadre d'une recherche non applicative en matière de textes de brevets, Brigitte
GUYOT, en matière de sociologie de l’information, et Sylvie NORMAND, dans le domaine
la linguistique (BRIGITTE 2004) ont montrées qu'un document de brevet possède plusieurs
couches qui s’ajoutent les unes aux autres. C'est pourquoi un tel document peut être considéré
comme revêtant en même temps une valeur scientifique, inventive et juridique. Dans notre
49
observation, un texte de brevet est généralement structuré en six thématiques:
1) le titre, il s'agit souvent d'une phrase introductive de la description de l'invention. Il
donne une vague indication du sujet ;
2) le résumé, où l'on expose la description des utilisations et les caractéristiques
techniques essentielles de l'invention. Il comporte généralement moins de 250 mots ;
3) l'état de l'art de l'artefact, il décrit les problèmes techniques et les solutions partielles
existantes afin de révéler les besoins de l'invention actuelle ;
4) l'objectif de l'invention pour exposer la solution ou une améliorations technique
appropriée par le brevet ;
5) une description détaillée de l'invention (un document technique) où l'on précise les
composants, leurs fonctions et les caractéristiques de l'invention ;
6) les revendications sont un document juridique qui définit les protections légales pour
l'inventeur. Dans la plupart des cas, la première revendication est identique au résumé
et elle revendique la caractéristique la plus importante de l'artefact .
En fonction du thème traité, chaque partie dispose de traits linguistiques spécifiques d'où
provient l'importance de la définition des notions de recherche. De plus, cette caractéristique
peut être utile pour la classification thématique de documents.
4.4.b. Les caractéristiques de textes
La spécificité de textes de ce type de documents demeure la variété de domaines. Les

textes peuvent contenir des termes peu fréquents dans le langage général et ils sont très
spécifiques au domaine. Cette dépendance du domaine constitue la difficulté majeure de
l'analyse de brevets. Au niveau de la linguistique, les textes comportent des phrases longues
et parfois elles évoquent plusieurs thèmes. Il n'est pas rare de rencontrer un paragraphe de
centaine de mots qui est composé d'une seule phrase. Les noms composés complexes sont
fréquemment employés pour exprimer le maximum d'informations avec un minimum de mots.
Les verbes sont généralement des participes à l'usage adjectival (l'attribut ou l'épithète27). On
note également que les adjectifs sont coutumièrement des épithètes. Ainsi, la juxtaposition
des adjectifs ou des adverbes est récurrente. La complexité linguistique défavorise l'analyse
27 Il apporte au nom qui suit une qualité particulière sans avoir besoin de l'intermédiaire d'un élément verbal.
50
basée sur la syntaxe. En outre, les répétitions, les énumérations, les symboles, les
abréviations sont des formes usitées. Cela rend encore plus difficile le traitement des textes en
ce qui concerne la segmentation, l'indexation ou le calcul statique.
Cette observation nous a permis d'orienter l'analyse vers le repérage de marqueurs

linguistiques lié à la conception inventive.
En effet, les marqueurs doivent être autonomes du domaine. Ils doivent représenter une
des notions recherchée dans notre étude et être présents d'une façon générale dans les textes.
Nous sommes convaincu que l'approche adaptée nous permettra de résoudre les problèmes
posés au niveau de l'analyse des textes de brevets.
4.5. Bilan
En partant de l'hypothèse que les notions et les marqueurs linguistiques demeurent

indépendants du domaine traité, la caractéristique de notre corpus réside ainsi dans la diversité
des domaines abordés.
Nous procéderons dans les chapitres 5 et 6 à l'analyse de corpus en nous appuyant sur
l'étude et l'observation des textes. Cette analyse démontrera que cette autonomie de domaine
est parfaitement réalisable.
51
Chapitre 5. L'analyse préliminaire des textes
5.1. Préambule
Lorsque le corpus est prêt, il convient d'entamer la phase de l'analyse. Dans ce chapitre,
nous présenterons les notions exprimées dans les textes. Nous exposerons les démarches
adaptées pour l'analyse. Nous justifierons notre choix d'outils appliqués, et nous détaillerons
le procédé pour une première sélection de marqueurs linguistiques.
5.3. Les notions recherchées exprimées dans les textes de brevets
Nous recherchons dans les textes les marqueurs linguistiques pour localiser des
contradictions de la TRIZ. De ce fait, nous avons besoin de localiser les paramètres, les
valeurs et les éléments.
Pour ce faire, nous avons décidé d'effectuer un travail collectif:

− une partie du travail consiste à chercher les marqueurs. C'est l'objectif du présent
mémoire ;
− l'autre vise à localiser les paragraphes intéressants en utilisant les marqueurs et les
méthodes de la classification automatique. C'est la mission qui incombe à l'équipe de LGéco.
Le travail de l'équipe LGéco vise à filtrer les paragraphes, à localiser les paragraphes qui
contiennent des informations pertinentes et à réduire la quantité de texte à analyser. Diviser le
travail en deux tâches permet de renforcer la fiabilité de l'extraction et de faciliter la recherche
des contradictions. Elles sont complémentaires.
52
La recherche de marqueurs est le travail concerné par ce mémoire. A première vue, on
constate que dans les textes de brevets :
- les éléments sont exprimés par groupes nominaux ( l'usage des pronoms est
généralement exclu afin d'éviter toute ambiguïté) ;
- les valeurs par des adjectifs, des verbes ( il s'agit le plus souvent de participes à l'usage
adjectival, et rarement de verbes) et des adverbes ;
- les paramètres sont traduits soit par des noms, soit par des verbes.
Les marqueurs de relation partie_tout peuvent éventuellement nous aider à les identifier
les éléments. Cependant, les paramètres et les valeurs sont plus difficiles à repérer du fait
qu’ils sont formulés par des formes grammaticales différentes.
Les paramètres sont généralement désignés par des verbes. Certains noms peuvent
également traduire les paramètres (velocity, resistance). Les valeurs sont désignées
généralement par des adjectifs. Mais on constate l'existence de certains noms qui reflètent les
valeurs (augmentation, concentration), de même que des adverbes (inexpensively, forcedly),
ou encore des valeurs numériques et des verbes (reduced, increased). Parfois une valeur peut
indiquer concomitamment un paramètre (dans steady performance, l'adjectif steady peut
indiquer un paramètre steadiness). Afin de repérer les notions, nous envisageons de
commencer par la constitution des listes de marqueurs signalant les notions recherchées.
Les contradictions sont exprimées par des oppositions (les valeurs opposées) qui se
manifestent au niveau grammatical, lexical ou syntaxique. Cela ne semble pas évident à
repérer. Les valeurs opposées attachées au même paramètre sont soient incomplètes, soient
très distancées ( plusieurs paragraphes ). De plus, il existe très peu de brevets qui expriment la
totalité d'une contradiction. Dans la plupart des cas, on retrouve seulement une valeur d'un
certain paramètre à la fois ( eg. une amélioration ou une détérioration ). Il nous semble que la
solution consiste à construire un dictionnaire d'oppositions.
Bien que le risque de perdre beaucoup d'information existe, nous conserverons

seulement les marqueurs sûrs et validés par les experts. Il est inutile de feindre disposer des
listes complètes de marqueurs. En effet, une liste préparée manuellement ne jamais complète.
53
Notre modeste objectif tend d'une part à alléger les travaux des experts, et d'autre part à
prévoir la faisabilité d'une projection des marqueurs sur d'autres corpus à afin de repérer un
maximum desdits marqueurs. Il faut évidemment prendre en considération que cette méthode
produira de faibles résultats au niveau du rappel si elle est appliquée aux textes hors corpus de
référence.
De même, il convient de souligner que selon la TRIZ, il existe des éléments différents
dans un système technique. Les éléments intéressants sont ceux qui subissent un
changement. Celui-ci se réalise sur ses paramètres (deux paramètres entrent en jeu : le
paramètre d'action et le paramètre d'évaluation). Les paramètres ont leurs valeurs qui
peuvent avoir des influences soit positives soit négatives. Appliquer une certaine action sur le
paramètre d'action, provoque l'amélioration ou la détérioration du paramètre d'évaluation d'où
la venue de la contradiction. En conséquence, pour l'annotation et l'extraction, nous nous
intéressons seulement aux marqueurs montrant des interactions entre les trois notions de
recherche (des changements, des actions, ou des influences positives ou négatives).
Afin de mieux cerner l'analyse, nous allons entreprendre les démarches suivantes :
1) l'identification des marqueurs potentiels au cours de l'analyse préliminaire ;
2) l'analyse approfondie basée sur les contextes afin de raffiner les marqueurs. Cette
étape nous permettra d'affirmer les rôles sémantiques de marqueurs et d'établir des
relations entre eux ;
3) l'annotation à l'aide de l'outil NOOJ et l'affichage de résultats en couleurs pour une
meilleure visualisation.
5.2. Choix des outils
L'analyse est assistée par des outils informatiques. Chacun dispose de ses propres
avantages et ses propres désavantages. De ce fait, d'après une analyse des besoins, nous avons
choisi quatre outils différents que nous avons estimé utiles pour accomplir cette étude.
54
LInguistic and Knowledge Engineering Station
LIKES (LInguistic and Knowledge Engineering Station) est une station de travail
destinée aux linguistes. Elle possède de nombreuses fonctionnalités : normalisation, les
segments répétés, concordancier, etc. LIKES est capable de traiter aujourd'hui un gros corpus
d'un million de mots. Ses fonctions les plus intéressantes sont la possibilité de retourner dans
le corpus pour voir le contexte28 ainsi que le calcul de segments répétés. Ceux-ci présentent
les segments qui ont même tête29 dans une structure arborescente. Pour nous, LIKES est
l'outil principal pour effectuer l'observation de marqueurs linguistiques, mais il est restrictif
pour les annotations. Cette limitation dans la phase de formalisation, nous a amené à opter
pour NOOJ.
NOOJ
NOOJ a été développé en particulier pour répondre aux besoins linguistiques et
pédagogiques. C'est un environnement de développement linguistique capable de définir des
dictionnaires, des grammaires électroniques30 et de réaliser des annotations sur un texte donné.
C'est un outil pour construire et gérer des descriptions formalisées des langues naturelles. Il
est choisi pour sa fonctionnalité de graphes et la fonctionnalité d'annotations automatiques en
format XML.
Oxford WordSmith Tools

Oxford WordSmith Tools est un ensemble d'outils permettant étudier le "comportement "
des mots dans les textes. Les outils sont essentiellement utilisés par des lexicologues31, ainsi
que des professeurs, des chercheurs et des étudiants. Ce qui nous a intéressé dans l’Oxford
Wordsmith Tools est sa fonction de tri dans l'outil concordancier. Cette fonction nous permet
de trier les résultats de concordances par ordre alphabétique. Elle peut trier concomitamment
le contexte gauche et le contexte droit. Cette fonction a permis d'étudier les comportements de
nos marqueurs linguistiques d'une façon claire et nette.
28 Le contexte est la phrase, le paragraphe et le texte contenant l'occurrence.

29 Une tête est un mot ou une suite de mots communs à plusieurs segments répétés différents.
30 Modélisation de la grammaire en construisant des descriptions formelles.
31 La lexicographie consiste à étudier, définir, classer les mots ou les expressions afin de constituer un
dictionnaire.
55
TREETAGGER
TREETAGGER est un étiqueteur32 qui prend en entrée un texte et fournit en sortie des
informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules,
ou des informations de lemmatisation33). TREETAGGER nous a permis l'étiquetage de notre
corpus afin d'y étudier les catégories lexicales. Par exemple, il aide à déterminer les
distributions lexicales ou encore il permet d'appliquer des scripts afin d'extraire les listes
d'adjectifs, d'adverbes et de verbes. Notre dictionnaire dans le NOOJ est également constitué
de résultats de TREETAGGER. Cependant, l'étiqueteur fonctionne sur les calculs
probabilistes34. Il conduit inévitablement à des fautes d'étiquetage. C'est pourquoi il convient
d'utiliser par ailleurs des indices linguistiques afin d'éviter d'être trop dépendant de
l'étiquetage.
5.4. Premières collections des marqueurs candidats
Avant de procéder à une analyse du corpus par des outils, il nous paraît judicieux
d’étudier d'abord toutes les catégories lexicales du corpus. A l'aide de l'outil TREETAGGER,
le corpus de 100 brevets a été étiqueté.
L'exemple ci-dessous illustre les résultats d'étiquetage:

Magnetic JJ magnetic
random JJ random
access NN access
memory NN memory
having VHG have
digit NN digit
lines NNS line
and CC and
bit NN bit
32 Dispositif linguistique qui associe des informations (étiquettes) à des mots.

33 La lemmatisation d'une forme d'un mot consiste à en prendre sa forme canonique.
34 Pour résoudre les ambiguïtés de la langue, il calcule la probabilité qu'un mot appartienne à une classe donnée
dans un certain contexte.
56
La première colonne consiste en unités lexicales qui apparaissent dans le corpus. La
deuxième colonne révèle la catégorie grammaticale des unités lexicales. La troisième colonne
indique les lemmes, c'est-à-dire les formes canoniques d'un mot. Par exemple, pour un nom,
son lemme est sa forme singulière. Les trois colonnes sont séparées par des tabulations.
Basés sur le résultat, les collègues au LGéco ont effectué des calculs statistiques TF, IDF
et TF-IDF afin de nous aider à la première sélection. C'est une méthode de pondération qui est
utilisée souvent dans la fouille de textes pour mesurer l'importance d'un mot à un document
extrait d'un corpus. Le calcul est basé sur les mots qui sont apparus au minimum deux fois
dans le corpus et qui possèdent des catégories comme noms (exception: les noms propres),
verbes, adjectifs et adverbes.
JJ cross-sectional0.000583771161704612 1.70043971814109 0.000992667669667888 nb of pats = 40 WNet1

NN description 0.000486475968087177 0.0450878895285382 2.19341747074033e-005 nb of pats = 126 WNet1
VVN position 0.000389180774469741 1.04508788952854 0.000406728114235664 nb of pats = 63 WNet1
NN angle 0.000583771161704612 1.34994247105696 0.000788057484563315 nb of pats = 51 WNet1
VVN understand 0.000291885580852306 0.64732838168153 0.000188945820689296 nb of pats = 83 WNet1
NN bit 0.00700525394045534 4.21501289097085 0.0295272356635436 nb of pats = 7 WNet1
NNS term 0.000389180774469741 1.49880585697144 0.00058330642419593 nb of pats = 46 WNet1
NNS magnitude 0.000486475968087177 4.70043971814109 0.0022866509623181 nb of pats = 5 WNet1
VV deposit 0.000291885580852306 4.4374053123073 0.00129521462705992 nb of pats = 6 WNet1
JJ perpendicular 0.00233508464681845 2.37851162325373 0.00555402597373901 nb of pats = 25 WNet1
NN reference 0.000194590387234871 0.127550049720511 2.48200135669412e-005 nb of pats = 119 WNet1
JJ additional 0.0033080365829928 0.812914447399505 0.00268915073084094 nb of pats = 74 WNet1
VVZ decrease 0.000194590387234871 2.49880585697144 0.000486243599332836 nb of pats = 23 Wnet1
JJ uniaxial 0.00116754232340922 5.02236781302845 0.00586382698543894 nb of pats = 4 WNet0

NN transverse 0.000583771161704612 4.4374053123073 0.00259042925411985 nb of pats = 6 WNet0
NNS multi-state 0.000291885580852306 7.02236781302845 0.00204972790806435 nb of pats = 1 WNet0
NN generating 0.00707628581290991 2.63005039024969 0.0186109882637621 nb of pats = 21 WNet0
Tableau 1 : Les résultats d'un calcul statistique TF, IDF et TF-IDF sur le corpus
Sur le tableau ci-dessus, la première colonne représente la catégorie grammaticale, la

deuxième le lemme, la troisième la fréquence de termes (TF qui mesure la fréquence du terme
dans le document), la quatrième la fréquence inverse de document (IDF qui mesure
l'importance du terme dans l'ensemble), la cinquième le calcul de tf-idf (TF-IDF qui calcule le
poids d'un mot en multipliant les deux mesures), la sixième le nombre de brevets contenant le
terme calculé et la dernière montre l'existence de terme sur le WordNet (1=vrai, 0=faux).
57
Les résultats de statistique ont démontré que plus les termes sont fréquents dans les
brevets (eg, description, reference), moins ils sont importants. D'après notre observation, il
s'agit effectivement des termes spécifiques à la rédaction d'un texte de brevets. Ainsi, les
termes qui sont importants et qui sont non existants dans le WordNet sont intéressants
(comme uniaxiale, transverse, multi-state, ...) et méritent d'être vérifiés dans le corpus.
Il est à noter que le collectage final de marqueurs est lié à une analyse linguistique basée
sur le contexte. Les statistiques à ce stade constituent seulement une aide supplémentaire pour
établir une première sélection.
Pour notre part, nous avons extrait35 tous les verbes, les adjectifs, les adverbes et les
noms de corpus afin de construire d'abord des listes élémentaires à partir de catégories
lexicales. Dans cette étape, toutes les catégories sont considérées comme étant des candidats
potentiels de marqueurs. Pour que les candidats termes soient corrects, ils devront être
analysés avec soin dans leurs contextes.
En raison de la taille de notre corpus qui contient plus d'un million de mots, il est
impossible d'étudier successivement tous les termes. Il est impératif de disposer d'outils
d'analyse susceptibles de nous permettre de raffiner de façon optimale nos listes. L'outil
LIKES est employé dans ce but. Nous avons déjà évoqué la fonction de segments répétés de
LIKES. Elle nous a permis de voir globalement les structures et les contextes des candidats
termes.
L'exemple suivant de l'analyse sur le verbe « cause » illustre concrètement les processus
de la première sélection :
L'étape un consiste à examiner tous les segments répétés de ce terme dans les textes.
35 le script nommé extrairecat.pl pour l'extraction des unités grammaticales est inclus dans l'annexe3.
58
Figure 9 : Un aperçu de segments répétés de terme « cause » dans LIKES
Ensuite, à l'aide de segments répétés, il faut vérifier dans les textes l'existence des
informations profitables. Le terme « cause » se révèle productif, il fonctionne non seulement
comme un pointeur de paramètres, mais également comme un pointeur de valeurs :
• les noms qui suivent le terme « cause » tant que deformation, load, increase, changes,
breakdown, compression, damage, deposition, fluctuation, injury, instability,
movement of, polarization, seperation, reflection, refraction, sont des candidats termes
pour paramètres.
• Les verbes qui suivent « cause » peuvent également indiquer des changements, donc
des valeurs. Eg: cause sth to rise; fall; flex; accelerate; move up and down; absorb
and radiate; oscillate; occur; get bigger, etc.
• Les noms qui suivent « caused by » sont susceptibles de mentionner des paramètres
changes, roughness, load, factor, activation, current flowing, loss, force, time,
variation, upwelling, heating, ...
• quand les noms suivent directement « causing », ils sont souvent des paramètres
breakdown, degradation, initiation,...
L'étape suivante est de regrouper les termes analysés et détectés avant de consulter les
autres collègues et les spécialistes de la TRIZ lors de la réunion hebdomadaire. Dans
l'hypothèse où les termes sont confirmé par les spécialistes précités qui valident l'existence
59
d'informations assez intéressantes, ils sont retenus dans notre première collection de
marqueurs.
Une ébauche de cette collection se dessine comme suit :

− les noms retenus qui sont porteurs de paramètres : pressure, rate, speed, capacity,
consumption, efficiency, ratio, stability, temperature, length, weight, width, emission, noise,
cost, effect, loss, stability, strength, time, discharge, resistance, resistivity, performance,
velocity, etc.
− les adjectifs retenus qui sont porteurs de valeurs : rapid, sudden, abrupt, gradual,
rotational, torsional, significant,slight,large, small, excessive, exceeded, substantial,drastic,
great, greater, dramatic,expensive, inexpensive, sharp, angular, three-dimensional, radial,
linear, pivotal, outward, lateral, upper, lower, rearward, upward, vertical, transverse, inward,
liquid, solid, fluid, axial, vertical, longitudinal, unidirectional, etc.
− les verbes retenus qui sont porteurs de valeurs et pointeurs de paramètres en même
temps : cause, increase, decrease, avoid, control, detect, effect, achieve, permit, prevent,
produce, provide, require, request, restrain, sense, result, suppress, accomplish, allow, attain,
catalyze, enable, experience, obtain, promote, realize, cover, illustrate, undergo, show, have,
assist, convert, limit, reduce, minimize, maximize, inhibit, resist, receive, execute, absorber,
acquire, etc.
− les adverbes retenus qui sont porteurs de valeurs et pointeurs de paramètres :
significantly, slightly, highly, effectively, substantially, expensively, inexpensively, simply ,
differently , efficaciously, easily, effectively, drastically, erroneously, efficiently, elaborately,
effectually, exceedingly, etc.
− les termes retenus qui indiquent des relations entre les éléments : comprises,
comprising, consisting of, includes, including, consisting, consists of, consisting essentially
of, characterized by, containing, having, which consists of, which comprises, which contains,
constituting, adapted to, configured to, etc.
Les vérifications sur le corpus et le repérage d'autres marqueurs à l'aide de termes

sélectionnés nous ont donné la possibilité de construire les premières listes de marqueurs
(verbes, adjectives, adverbes et noms). Seuls les termes qualifiés de pointeurs ou porteurs des
informations intéressantes pour la TRIZ sont retenus.
60
5.5. Bilan
Les premières listes établies ont favorisé la diminution de panorama d'investigation de

marqueurs. Mais ils ont apporté des informations excessivement redondantes. Il faut trier le
collectage de marqueurs en gardant ceux qui fournissent des informations précises. L'analyse
méticuleuse du contenu permettra ce raffinement. Dès que les marqueurs sont définitifs, il
conviendras de procéder à l'annotation et d'effectuer une évaluation préliminaire. Lesdites
tâches sont détaillées dans le chapitre suivant.
61
Chapitre 6. L'analyse approfondie
6.1. Préambule
L'analyse approfondie vérifie les comportements des marqueurs sélectionnés tout en se

basant sur l'observation du corpus. Quand tous les marqueurs sont confirmés, l'annotation du
corpus doit être réalisée. L'annotation dépend de trois éléments:
• les marqueurs ;
• l'existence de certains indices ;
• l'accompagnement de notions de recherche avec au minimum deux notions.
Le présent chapitre est dédié à une démonstration des procédés de l 'analyse approfondie
en représentant séparément les marqueurs collectés.
6.2. Les procédés de l'analyse approfondie
L'analyse approfondie constitue un stade central parce que dans cette phase les
connaissances linguistiques sont primordiales, notamment une bonne connaissance
linguistique en anglais est requise. C'est une étape fastidieuse et complexe parce que
l'observation et le collectage des marqueurs linguistiques sont principalement basés sur
observations humaines et la tâche demande des compétences multiples (informatique36 ,
manipulation d'outil, etc.). Ainsi, les résultats d'analyse dépendent en grande partie de la
bonne interprétation et parfois le recours aux connaissances de l'expert en TRIZ est
nécessaire.
L'utilisation concomitante de l'outil LIKES et l'outil Oxford Wordsmith Tools est

exercée pour cette analyse plus fine. Dans cette phase, les listes des termes candidats se sont
36 Parfois le langage Perl doit être appliqué pour traiter certaines tâches automatiquement. Perl est un langage
de programmation. Il est appliqué couramment par les linguistes pour l'extraction d'informations à partir de
textes.
62
affinées par une observation minutieuse de sens et de comportements de chaque terme dans
son contexte.
Figure 10 : Un aperçu des concordances triées de gauche et de droite dans Wordsmith Tools
Compte tenu du fait que nous nous intéressons seulement aux paramètres qui subissent
des changements et qui disposent des valeurs ou des éléments dans les contextes, l'analyse
entamée a révélé que les paramètres sont les plus faciles à repérer parmi les trois notions. De
plus, nous disposons d'une liste de paramètres physiques fournis dans la littérature de la TRIZ,
elle nous facilitera la recherche. Corollairement, nous avons choisi de détecter les marqueurs
de valeurs ou d'éléments grâce à la liste de paramètres établie à partir de la première sélection
et réciproquement.
Dans la mesure où les catégories lexicales peuvent avoir des propriétés de plusieurs
notions à l'unisson, il devient difficile de classer directement les marqueurs selon leurs critères
sémantiques. De ce fait, nous avons préféré les classer d'abord en fonction de leurs catégories
lexicales. Ainsi, les marqueurs qui sont susceptibles d'être localisés par d'autres sont exclus de
la liste. Dans l'étape de l'annotation, au fur et à mesure de l'accompagnement de notions, nous
attribuerons des valeurs sémantiques : éléments, valeurs, paramètres.
Dans notre analyse, nous avons retenu 60 verbes, 137 adverbes, 473 adjectifs, 273 noms
et d'autres marqueurs discursifs que nous avons jugé utiles.
63
6.2.a. Les marqueurs verbaux
Les recherches entreprises ont démontré que les verbes utilisés dans les brevets sont,
dans la plupart des cas, des verbes d'action. Dans notre cas de étude, ce sont les verbes de
changements ou les verbes indiquant un changement de statut qui nous intéressent. Il nous
semble qu'ils sont le plus productifs comme porteurs de valeurs et pointeurs de paramètres.
Il existe déjà des travaux sur les verbes. Voir à ce titre le Framenet37 et le Verbnet38. Les
chercheurs travaillent sur les structures des verbes (appelés aussi « agents » quand il s'agit de
sémantique). Les structures montrent que les placements des arguments de verbes ne sont pas
dus au hasard. Il y a un ordre à respecter. Avec une liste exhaustive de verbes (les agents), il y
a moyen de localiser les arguments (les paramètres, les valeurs ou les éléments dans notre
terminologie) en fonction de leur ordre dans une structure syntactique. Cependant, ces travaux
sont basés sur l'étude de la langue générale. Nous ne pouvons pas bénéficier pleinement de
leurs travaux tenir compte de la spécificité du langage de brevet. Par exemple, le terme
« explode » est encadré dans la classe de « Change_position_on_a_scale » avec les autres
termes comme « increase, decrease, ... », mais dans notre corpus, le terme « explode » est
utilisé pour la description de figures, il est en participe comme un épithète adjective, et sa
structure est « FIG.XX is an/a <RB> exploded view/drawing of ELEMENT39 », comme :
1) [0014]FIG. 5 is a partially exploded, isometric view of a portable electronic device with the
latching mechanism shown in FIG. 1;
2) FIG. 22 is an exploded view of socket 2158 according to some embodiments.
Bien que les travaux mentionnés ci-dessus soient une source d'inspiration, il n'est pas
envisageable de localiser les arguments (les éléments, les valeurs ou les paramètres) selon
leurs classifications. Dans notre étude, il importe de collecter d'abord les arguments, ensuite
d'établir leurs relations avant de pouvoir profiter de leurs structures syntaxiques.
37 http://framenet.icsi.berkeley.edu/
38 http://verbs.colorado.edu/~mpalmer/projects/verbnet.html
39 RB indique la catégorie adverbe. Il est optionnel dans cette structure. ELEMENT représente les composants
de système.
64
Nous avons tout d'abord élaboré une liste élémentaire de verbes. Dans cette phase
d'analyse, nous examinons le contexte de verbes. Nous exploitons en même temps la liste de
paramètres afin de repérer d'autres marqueurs verbaux. Dans les exemples suivants apparaît le
déroulement de l'opération.
Exemple 1: Voici un extrait de concordances de « reduce » qui démontre les

déroulements de l'observation basée sur les concordances. (le terme en gras, les paramètres en
bleu)
a shape anisotropy of approximately one hundred Oe would be reduced to approximately 75 Oe

a predetermined moving plane or two-dimensional rotational forces can be reduced to almost 0.
the sum of reaction forces acting on the base can be reduced to almost 0. T
These measurements can be reduced to equilibrium vapor and liquid compositions in the cell by
the vacuum pressure can be reduced to 20 torr and the microwave power can be raised to about 3
then the number of gages per seat can be reduced to three providing a good model of ...
The mud turbine can utilize a gearbox to reduce the revolutions per minutes.
The ESP process treats water to reduce the conductivity of the water to reduce the leakage current.
The overall objective is to reduce the unnecessary biopsies and interventions, and increase the ....
energy can be trapped around the resonator to reduce the radiation loss in the resonator
materials were mixed in a glove box under a flow of dry nitrogen after the pressure was reduced
Nous avons repéré 496 concordances pour ce terme. Après l'étude de contexte, il échet
de souligner que ce terme nous indique en règle générale l'existence de paramètres. Il
mentionne parfois des limitations numériques de valeurs par l'indice « to » dans la structure
« MD be + reduced + to + valeurs numériques ». Il indique également les oppositions. Les
termes « increase » et « raise » sont des oppositions qui accompagnent « reduce » à maintes
reprises. En conséquente, nous avons gardé ce terme dans notre liste.
Exemple 2 : Certains verbes en passif sont employés pour indiquer les relations entre
les éléments ou les fonctions d'un élément. Dans ce cas, ils sont suivis par des groupes
nominaux (les relations) ou des verbes à infinitif (les fonctions).
65
Dans le corpus, pour la structure « GN_Element + V_passive + to », nous avons
recensé 230 concordances pour « adapted », 297 pour « attached », 456 pour « connected »,
305 pour « coupled », 115 pour « configured » et 60 pour « mounted »... ...
3) A system, comprising: at least one processor adapted to be supported by a user while the user is
in locomotion on foot, on a surface, the at least one processor being configured to identify an amount of
force exerted by at least one foot of the user on the surface during at least one footstep taken by the user .
29. The system of claim 28, wherein the at least one processor is configured to identify an average amount
of force exerted by the at least one foot of the user on the surface during the at least one footstep .
Ce groupe de verbes ne suscite l'intérêt que dans le cas où ils sont suivis par des verbes
indiquant les fonctions d'éléments. Toutefois, ce sont des marqueurs discutables (ils
n'indiquent pas de changements). Dès lors, nous les avons gardé à part dans la liste de
marqueurs incertains.
Exemple 3 : Ici, il ne s'agit plus de changements, mais d'un empêchement de

changement. D'après l'expert, l'existence de paramètres « rotational position, volume
capacity » indique des informations intéressantes. Elle est conforme à la logique de la TRIZ
( if ... then ... ) : si la capacité de volume est achevée, il y aura un changement de la position.
Pour cette raison, le verbe « maintain » est retenu comme un marqueur, et son indice est
défini comme « until ».
4) The moment created by the counterbalance weight about the axis of rotation maintains the static
filling rotational position until the specified volume capacity is achieved.
Paramètre: static filling rotational position
valeur: maintain
paraphrase possible: when the specified volume capacity is achieved, the rotational position will
change.
Cependant, le marqueur « maintain » n'indique pas dans tous les cas des paramètres. Il
indique quelquefois des éléments. Par conséquent, il posera des problèmes dans l'étape
d'annotation en ce qui concerne l'attribution de valeurs sémantiques. Cet exemple démontre
les difficultés au cours de l'étude qui concernent l'identification de notions et la décision de
66
l'attribution de valeurs sémantiques. De telles situations sont pléthores et l'avis d'expert est
primordial.
Exemple 4 : Ce cas de figure signale l'utilisation d'oppositions de verbes dans les textes
de brevets. Cette caractéristique s'applique non seulement pour les verbes, mais également
pour les adverbes et les adjectifs.
6) That is, even if at least one of the first and second stages move, the center of gravity of the stage
device does not move, and the reaction force are reliably canceled.
Étant donné que cet usage concerne plus fréquemment l'utilisation adjectivale de verbes
et que les adjectifs sont les plus représentatifs de l'usage d'opposition, nous détaillerons cette
caractéristique dans les paragraphes consacrés aux marqueurs adjectifs.
Conformément à ce qui a été illustré par les exemples précités, les repérages de
marqueurs se déroulent par référence au contexte, et corrélativement par référence à
l'existence d'autres marqueurs. Les conseils de l'expert sont également décisifs. A partir de
l'analyse illustrée, une liste de verbes contenant principalement les verbes de changements est
élaborée. Toutefois, il faut être conscient que cette liste de verbes est seulement une liste
restreinte, des futurs recherche sur les verbes et leurs synonymes seront plus productives.
La liste des 60 verbes :

increase decrease release damage
raise change yield size
measure shape form enable
maximize augment minimize diminish
keep differentiate modify remove
create produce yield procreate
transfer transmit enhance ameliorate
obtain cause deflect stop
maintain deteriorate degrade eliminate
emit enlarge extrude facilitate
allow permit stop halt
resist intensify stabilize restrict
retain save spend segment
deform separate combine detect
displace preserve disable prevent
67
6.2.b. L'utilisation de verbes modaux
Nous avons également remarqué l'utilisation fréquente des verbes modaux dans les
textes. Grammaticalement, les verbes modaux sont généralement encodés de sens de degrés
(nécessité ou certitude). Par « modaux », on entend ici les modaux centraux qui sont can,
could, may, might, will, shall, would, should, must. Dans notre corpus les modaux sont suivis,
dans la plupart des cas, par des verbes (passifs ou actifs) ou des adjectifs.
Par exemple, le marqueur de paramètre d'évaluation se manifeste par la structure

suivante : les modaux accompagnés de « be » et d'adjectifs, et des indices « for » ou « to ».
Dans cette structure, ce qui est placé entre « be » et « les indices » représente les valeurs, et ce
qui est suivi d'indices représente les paramètres d'évaluation. À noter que cette structure
figure seulement dans la partie de « description ». En appliquant l'expression régulière
<MD> 40(<RB>+<E>) <JJ> (to+for), on obtient :
1) In a factory installation having multiple gravity conveyors, it may be desirable to have controller
38 or 38' control more than one of the gravity conveyors. In this manner, changes in the timing or control
logic for each conveyor can be accomplished by making changes to a single controller.
Paramètre d'évaluation: multi control
2) FIGS. 3 and 4 with the sole exception that the time is changed from 20 seconds to 30 seconds. The
length of time for timer B03 is a matter of preference, although it may generally be desirable to increase
this time for conveyors having greater length.
Paramètres d'action: time & length
Valeurs: increased & greater
Toutefois, les adjectifs ne sont pas tous profitables dans cette structure. Il faut prédéfinir
les adjectifs placés devant « to, for ».
Cette structure peut sûrement nous indiquer l'existence de paramètres, nous avons
décider d'attribuer la valeur sémantique « paramètre » à tous ce qui suivent « to, for » dans
l'étape d'annotation. Cependant, les autres notions (éléments, valeurs) existantes dans cette
structure ne seront pas annotées.
40 <MD>=modal, <RB>=adverbe, <JJ>=adjectif, etc. Pour plus de détail, voir annexe4.
68
En ce qui concerne les verbes modaux, nous avons décidé de nous limiter à la rétention
de quelques structures en fonction de l'indice qui les suit. Le surplus nous semblait peu
exploitable.
6.2.c. Les verbes qui marquent la relation « partie_tout »
Nous avons aperçu le phénomène de relations « partie_tout » exprimé habituellement

dans les textes par certains verbes. Les relations « partie_tout » indiquent qu’un élément fait
partie de l'autre. D’où son nom : partie_tout. La plupart de marqueurs de cette relation que
nous avons identifiés sont :
− be comprised of/comprises/comprising/comprised
− characterized by comprising
− includes/including/further including
− has/having
− be provided with/provides for+v-ing/for+Noun
− defining
− containing
− consisting/consist of
Les marqueurs de relation « partie_tout » sont fortement intéressants si l'on veut

seulement découvrir les relations hiérarchiques des composants. Comme nous l'avons signalé,
dans notre contexte de l'étude, un élément est intéressant s'il subit des changements. En
conséquence, il faut que ces marqueurs soient accompagnés dans leurs contextes par des
paramètres ou des valeurs. Dans les exemples suivants, l'existence des valeurs (en rouge) ou
des paramètres (en bleu) rend les éléments intéressants (en soulignage).
1) A connection assembly having a first connector and a second connector which can be connected
to or disconnected from one another by being adjusted along a longitudinal axis, wherein the first
connector comprises a first housing which is provided with an elastically deformable locking arm
comprising an end connected to the first housing and a free end, as well as a first stop; the second
connector comprises a second housing which is provided with a second stop;
2) There is provided a cochlear implant for improving the hearing ability of a patient suffered from
hearing impairment comprising an internal receiving unit implanted into the body, which comprises a
receiving part for receiving external signal, an active electrode and a reference electrode, characterized in
that the active electrode is constructed with a single electrode wire having different thickness in at least
two different regions.
69
Les éléments se limitant à une description sont exclus de la sélection, comme les
suivants :
3) A latching mechanism (10) for a portable electronic device (30) includes a main body (12), a
latching member (16), a resilient member (14), and an operating member (18).
4) One embodiment of the invention provides an electrical submersible pump that includes a motor
section and a centrifugal pump section. A seal section and rotary gas separator may also be included.
Les marqueurs de relation partie_tout sont également répétitifs. Ils nous donneront trop
de bruit. Nous avons préféré annoter les éléments basés sur l'existence d'autres marqueurs.
Ainsi, les marqueurs de « partie_tout » sont supprimés de la sélection. .
6.2.d. Les marqueurs adverbiaux
Dans cette catégorie, les adverbes sont souvent à la fois pointeurs de paramètre et
porteurs de valeurs. Les adverbes forment une catégorie très productive et difficile à traiter
dans le TALN, notamment quand le sens de l'énoncé dépend de la portée de l'adverbe.
Il existe certains travaux qui visent à la classification d'adverbes afin de faciliter les
tâches de TALN. D'après certains chercheurs, la classification d'adverbes peut aider à définir
des restrictions concernant la préférence d'accompagnement des autres catégories lexicales.
C'est un moyen utile pour provoquer la désambiguïsation de la langue naturelle.
Huang S. F. (HUANG 1975) fournis une classification semblable d'adverbes basés sur
leurs usages sémantiques. Il distingue :
• les adverbes qui indiquent l'état d'esprit comme « carefully, willingly »
• les adverbes qui expriment une évaluation de la participation de l'acteur dans des cas
comme « clumsily » dans « he clumsily stepped on the snail » ;
• les adverbes qui décrivent les aspects du résultat d'un événement comme dans « he
spelled the word correctly » ; ...
70
Il a également décrit un certain nombre de restrictions d'accompagnements entre les
adverbes et d'autres parties du discours, dont quelques exemples :
• les adverbes de manière ou de direction peuvent modifier des verbes de mouvement ;
• les adverbes de résultat sont nécessaires aux verbes de réalisation et
d'accomplissement ;
• le temps et les adverbes locatifs se produisent d'habitude dans les phrases d'action et
spécifient les circonstances temporelles et spatiales des événements ;
• les adverbes de degré expriment l'intensité et ils sont souvent accompagnés par des
adjectifs d'intensité ;
• les adverbes conjonctifs sont utilisés presque de la même façon que les conjonctions ;
Nous avons adapté cette classification mentionnée ci-dessus.
Les extraits suivants montrent les utilisations d'adverbes (en gras) dans les textes :
1) EP0978609 shows a rotatable claw that can be held in a closed position by a pawl. The pawl is
mounted on a cam and during an initial part of opening of the latch, the cam rotates relative to the pawl
thereby initially slightly increasing and then significantly reducing the seal load.
2) Thus, the undercut can be resiliently deformed within the space there around when the injection
core mold is released. As a result, the injection core mold can be forcedly released from the molded
preform.
3) A heat sink/heat spreader structure utilizing thermoelectric effects to efficiently transport thermal
energy from a variety of heat sources including integrated circuits and other electronic components.
4) The sidewalls of the conveyor define an upper edge which is above a conveying surface of the
loader to prevent packages from being laterally dislodged therefrom.
5) The magnetic fields are typically generated by conducting currents through electrically
conductive lines.
6) The ferromagnetic cladding layer 320 can have a thickness of approximately twenty-five
nanometers.
Dans les exemples 1) – 3), les adverbes d'évaluation sont suivis par des verbes (présent,
progressive ou passive) et cette combinaison indique des valeurs. Ce cas de structure est
intéressant.
71
Dans les textes de brevets, on se sert également des adverbes locatif pour indiquer la
proximité. Ainsi, les adverbes de l'intensité sont placés devant les verbes pour les rapports ou
les connexions entre deux éléments, ou les restrictions fonctionnelles. Dans cette
circonstance, ces adverbes ne sont pas intéressants pour nous, car ils ne reflètent pas les
notions que nous cherchons comme dans l'exemple 4) – 6).
Pour arriver à la précision d'extraction, il faut disposer d'une liste d'adverbes. Dans cette
étude, nous avons cantonné la sélection de marqueurs adverbiaux aux adverbes d'évaluation
suivants :
advantageously appreciably arbitrarily arguably

beneficially characteristically considerably conveniently
correctly cost-effectively critically dangerously
deliberately desirably distinctly dramatically
differently efficaciously easily effectively
... ...
Les adverbes conjonctifs sont traités séparément étant les marqueurs discursifs retenus.
Les autres classes comme les adverbes de manière ou de direction, les adverbes de résultat, les
adverbes de degré sont aussi très présentes dans les textes sans qu'on puisse mesurer leurs
véritables importances sauf à être expert.
6.2.e. Les marqueurs adjectivaux
Les adjectifs sont souvent les porteurs des valeurs de la TRIZ. Nous avons collecté ceux
qui sont utilisés pour décrire le degré, la qualité, la taille, la température, la durée, le volume,
la forme, la vitesse, la tension, etc.
Exemples de marqueurs adjectifs ( en gras) :
1) The system and method verifies not only the steady state performance of instruments, but also the
dynamic performance of instruments and the transient behavior of the processes. In one embodiment, the
system performs testing of the wiring system connecting the end devices located at the process.
Paramètre: performance
72
valeurs: steady & dynamic
2) The present invention is a dynamic transient pressure detection system for detecting and recording
variations in pressure inside operating fluid chambers. One or more dynamic pressure sensors are installed
inside an operating fluid chamber. Pressure is continuously measured and recorded with a high degree of
accuracy.
Paramètre: accuracy
valeur: high
L'utilisation comparative indique également des valeurs. Les adjectifs simples ont leurs
propriétés morphologiques (rajoute de -er à la fin de terme) et ils sont pré-définis dans le
dictionnaire comme JJR (adjectif comparatif). Pour les adjectifs complexes, leurs indicateurs
sont « more, less, worse, better,». L'indice « than » qui suit les adjectifs en comparative nous
indique parfois un paramètre, parfois un élément. La variation de notions qui sont placées
après l'indice « than » rendra difficile l'étape d'annotation en ce qui concerne l'attribution de
valeurs sémantiques.
Exemple:
3) The width of the illumination area in the longitudinal direction is larger than that of the pattern
area on the reticle R and smaller than the maximum width of a light-shielding area.
Les adjectifs sont souvent utilisés pour des restrictions en négative. On se sert alors des
formes négatives des adjectifs, par exemple, colorless, non-magnetic, etc. Il est possible de
localiser les valeurs dans les textes grâce à ces marqueurs morphologiques (-less, non-). Nous
avons extrait des listes d'adjectifs en sens négatif de textes en exploitant cette caractéristique
morphologique. Cependant, il ne nous est pas permis de décider s'il s'agit d'une valeur
positive ou négative; cette prérogative est réservée aux experts.
Exemple :
4) Subsequently, the solution is dispersed or circularized helically upward between cathode 20a and
anode 21a via low profile, disk shaped, non conductive, electrode spacing, vortical flow inducing elements
40a and 41a.
73
5) For soft ferromagnetic materials the permeability is a strong non-linear function of the applied
magnetic field.
Nous avons également noté l'usage fréquent des oppositions d'adjectifs dans le corpus.
L'usage antonymie d'adjectifs a fait l'objet d'études par différents auteurs. La constatation
découle de l'étude de Gross, Fischer et Miller (GROSS et al. 1989) qui concerne la
cooccurrence des paires antonymies. Selon eux, les paires antonymies ont tendance à
apparaitre dans la même phrase, contrairement aux opposées sémantiques. Celles-ci sont
dénommés par les auteurs « antonymes indirects ».
Dans notre étude, nous avons retrouvé des cooccurrences phrastiques des paires
antonymies fréquemment exprimées par des adjectifs, ainsi que des oppositions sémantiques
distancées qui sont exprimées par des marqueurs discursifs ou par des patrons syntaxiques.
Il est à noter que le phénomène d'antonyme concerne dans de nombreux cas les
adjectifs, mais il n'est pas rare de relever ce phénomène dans les catégories d' adverbes, de
verbes (y compris les verbes participes à l'usage adjectif), et de noms.
À notre connaissance, cette particularité d'utilisation des oppositions dans les textes de
brevets n'a pas encore été étudiée. Pour nous, ce décèlement de l'usage est fortement
intéressant parce qu'il permet de localiser les valeurs et leurs opposés. Cela a conduit à
construire un dictionnaire d'oppositions. Nous avons évité d'employer le terme « antonyme »
du fait que les valeurs peuvent être parfois sémantiquement opposées sans être des paires
antonymies comme nous l'avons signalé plus haut.
Nous avons collecté des termes avec leurs oppositions dans le dictionnaire
( majoritairement des adjectifs ), auxquels nous avons rajouté en outre leurs propriétés.
Voici un extrait de dictionnaire:

accurate,JJ+anti=inaccurate
inaccurate,JJ+anti=accurate
big,JJ+anti=little
little,JJ+anti=big
74
big,JJ+anti=small
small,JJ+anti=big
Voici un extrait des adjectifs de la liste:

effective efficient effluent erasable
erroneous excessive expensive extreme
fatty feasible flammable flat
flexible flowable frictional hard
harmful harmless hazardous immense
Parmi les marqueurs adjectivaux, nous avons collecté également certains participes de
verbes à l'usage adjectival s'agissant dans la généralité des cas des épithètes. En revanche,
ceux qui sont des attributs et qui peuvent être repérés par l’intermédiaire d'autres marqueurs
ne sont pas listés. Par exemple, la structure « verbe modal + be + adverbe + participe », nous
donne des valeurs comme « automated, adapted, replaced, etc », ce sont des attributs
généralement repérables par d'autres moyens et ils sont exclus de la liste.
6) On a four level stack mold, space is at a premium and ejector assemblies should therefore be of a
design that consumes as little of the available space as possible and which can be readily adapted to the
central set of cavities.
Il existe d'autres structures qui favorisent l'indication de l'information recherchée (deux

adverbes suivis par un adjectif, par exemple). L'exploitation plus fine d'adjectifs est
effectivement envisagée prochainement.
6.2.f. Les marqueurs nominaux
Les usages des noms dans les brevets sont complexes. Les agents de brevets utilisent des
noms composés très complexes afin de véhiculer un maximum d'information dans une phrase.
Exemple des noms composés :

1) a microwave plasma CVD reactor
2) a biased enhanced nucleation treatment
75
3) a uniform temperature distribution
4) The stationary and movable mold members
De ce fait, il faut choisir seulement les noms qui sont les porteurs des paramètres ou des
valeurs. Les 39 paramètres de la TRIZ nous ont déjà fourni une liste sûre de paramètres. Nous
avons également extrait d'autres marqueurs à l'aide de marqueurs verbaux.
Les noms qui sont sémantiquement liés à la quantité, la qualité ou l'intensité sont en
règle générale des porteurs de valeurs :
accession accretion accumulation aggrandisement
aggrandizement amplification appreciation augmentation
broadening complement concentration decrement
diminution elevation enlargement escalation
exaggeration expansion gain growth
Exemples:
5) The alloy coated single crystal substrate is positioned in a microwave plasma CVD reactor and
upon being subjected to a biased enhanced nucleation treatment in the presence of a gaseous mixture of
methane, hydrogen, and other optional gases with a biased voltage of negative 100 to 400 volts supports
the growth of a large single crystal diamond on its coated surface.
Valeurs; growth (getting bigger)
Les noms dérivationnels qui portent des suffixes « ity » ou « ness » constituent dans la
majorité des cas des paramètres. Néanmoins, la sélection basée sur les caractéristiques
morphologiques peut conduire à des tempéraments (eg. ability, generality, reality ...), de sorte
qu'il faut toujours procéder à une sélection :
deformity density diffusivity dimensionality
discontinuity ambiguity durability ellipticity
eccentricity elasticity emissivity flammability
flexibility fluidity homogeneity humidity
immunity impermeability indivisibility instability
instrumentality integrity intensity interconnectivity
irregularity lethality liability linearity
76
7) In addition, the balance between the gates including two gates or more is maintained by
regulating the temperature of the body of the probe assembly by means of the body heater. Further, instead
of the disadvantage of varying the dimension of the gate diameter itself as performed conventionally,
merely the extent of opening of the valve pin may be regulated or narrowed, so as to narrow the vicinity of
the fit bore corresponding to the gradually curved region.
Paramètre: vicinity
valeur: narrow
Ils peuvent parallèlement indiquer des valeurs parce qu'ils sont formés à leur base
adjective indiquant sémantiquement « avoir la caractéristique ou le statut d'être + la base
adjectivale». Le problème qui se pose est de décider comment attribuer des valeurs
sémantiques quand à l'unisson les marqueurs indiquent des notions différentes ?
Exemples:
6) It is difficult to get a good seal between the nozzle outlet or tip and the adjacent gate surfaces
because the surface area of the mating components must be kept small to avoid too much heat loss.
Further, the mating components are subject to wear because of thermal expansion and contraction during
the molding process.
Valeurs: expansion (high temperature) &. contraction (low temperature)
On peut également annoter le paramètre: thermal expansion & thermal contraction
Le phénomène de l'opposition entre deux noms est également constaté.

L'enrichissement du dictionnaire de l'opposition nous semblent une direction non négligeable.
6.2.g. Les marqueurs discursifs retenus
Des marqueurs discursifs figurants dans les textes de brevets méritent également d'être
exploités. Au terme de l'analyse, lesdits marqueurs sont inclus dans les graphes de NOOJ pour
l'annotation. Nous citerons, dans cette partie, quelques marqueurs parmi d'autres.
77
1) Le marqueur if
Le marqueur if est un marqueur de condition. Il nous fournit dans une même

structure les valeurs et les paramètres. Nous avons repéré 1217 concordances de if
dans notre corpus. Cependant, la structure syntactique de if est très variée. Nos
observations sur le corpus nous ont permis de retenir certaines structures de if .
Exemple:
la structure if xxx (élément) be adj (valeur), then xxx (paramètre)
If water use is low, then the system is sized on loading rate and is loading rate
limited. If water use is high, then the system will be HRT limited and will be
comparatively much larger than a loading rate limited system.
If the seat is unoccupied, then the interrogation frequency can be substantially
reduced in comparison to when the seat is occupied.
2) Le marqueur : thus
Le marqueur thus est un marqueur de conséquence. Il est utilisé comme indication

de paramètres.
Exemple: thus, + paramètre
Thus, during impact most of the energy is lost as a result of the high stresses and
deformations of the golf ball (0.001 to 0.20), as opposed to the small deformations of the
metallic club face (0.025 to 0.050 inch).
78
3) Le marqueur : however
Le marqueur however est un marqueur de contraste qui nous éclaire sur les
problèmes posés.
Exemple :
There is general agreement that, in the laminar flow regime characteristic of microfluidic
channels, mixing is limited to diffusion. Because of the dimensions involved, wherein
diffusional free path lengths are roughly equal the device dimensions, diffusional mixing can
be very effective for solutes. This condition enables ribbon flow, T-sensor, and other useful
microfluidic phenomena. However, for larger analytes such as cells, bacteria, viral particles,
and for macromolecular complexes and linear polymers, diffusional mixing is slow and
processes for capture or depletion of these species require prolonged incubation.
4) Les marqueurs: so that / so as to / in order to
Ils nous indiquent le but d'une action. Il s'agit en l'espèce des marqueurs des
paramètres.
Exemple:
These outside electrodes are permanently magnetized so that the magnetizations of the
magnetic layers next to the junction and the interconnection layer are both oriented in the
same direction.
The solution is quickly cooled down to an intermediate temperature between dissolution and
gelling temperatures, where a special additive can be added to the solution in order to
improve bead porosity.
Compte tenu du fait que l'intérêt de cette étude ne porte pas sur l'organisation du
discours, nous n'avons pas exploité tous les marqueurs discursifs. Cependant, ceux-ci peuvent
être utiles à l'avenir pour procéder aux pré-traitements du corpus par le filtrage du contenu.
79
6.2.h. Les autres marqueurs propres aux textes de brevets
Comme les textes de brevets représentent également une protection pour les inventeurs,
ils sont considérés comme des documents juridiques, principalement quand il s'agit de
revendications. Kristen Osenga (OSENGA 2006) a décrit en détail la façon dont la
linguistique est impliquée dans la rédaction de revendications. L'étude précitée et une analyse
de sous-parties de textes de brevets ont permis de découvrir que chaque partie dispose de
marqueurs linguistiques pour marquer les rôles engagés dans les paragraphes.
A titre d''illustration :
1) L'indication du domaine
Dans la partie « description », l'indication du domaine se fait généralement par

« The present invention relates (generally) to ..., (more particularly / more
specifically / but not exclusively ) ».
Exemple:
This invention relates to pollution control and more specifically, to an improved anaerobic
digester system for animal waste treatment with biogas production and recovery
2) L'introduction d'un problème
Et « A problem with ... is that ... » est souvent utilisé pour marquer l'introduction
d'un problème.
Exemple:
A problem with this form of distal end emplacement through the bladder wall is that it is only
unidirectional; that is, it only resists the inadvertent pulling out of the tip of the catheter from
the method used to place the transaxle into neutral gear to enable movement of the tractor
without the motor running.
80
3) L'introduction d'aspects d'utilisation d'un artefact
Une illustration caractéristique des phrases pour introduire des exemples

d'utilisation d'un artefact est : The following examples ... illustrate/illustrative....
Exemple:
The following examples are illustrative of various aspects of the invention, and do not limit
the broad aspects of the invention as disclosed herein.
4) Pour marquer les protections revendiquées
Dans la partie de « revendication », on trouve des marqueurs comme comprising;

wherein; characterized in that, qui introduisent les protections revendiquées ou
les caractéristiques d'inventions. Ajoutons que ces marqueurs deviennent plus
intéressants quand il s'agit de la première revendication.
Exemple:
The wind generator as claimed in claim 3, characterized in that the wind generator
comprises two blades 11, each of them being integral with a bellcrank lever 12.
The system of claim 1, wherein the vapor generating chamber and the fluid ducts are
surrounded by lagging materials.
81
L'usage du langage « means+function »
L'utilisation du langage « means+function »41 apparaît intéressant. Il est représenté par la

structure syntaxique: GN for V_ing GN. (GN est le groupe nominal et V_ing est le verbe en
progressive). Celle-ci représente les éléments (GN), et les valeurs (V_ing) du point de vue de
la TRIZ. Néanmoins, c'est seulement lorsqu'elle est suivie d'un verbe de changement qu'elle
est exploitable dans le cadre de notre étude.
Pour pouvoir profiter de cette structure, il faut donner des restrictions contextuelles en
définissant la liste de verbes suscitant la préposition for. Par exemple, GN for V_ing
(optimizing, directing, verifying, determining, detecting, preventing, sensing, applying,
treating, generating, emitting, removing) GN:
1) A system and method for treating bone abnormalities

2) a model for optimizing the transport fluid
3) a broad load-distributing layer within cancellous bone for applying retraction forces
4) a light emitting device chip for emitting light from near ultraviolet to blue light
5) The anchor valve includes a check valve with a flapper for preventing a contaminant from
entering the fluid supply system
Les marqueurs de la précision et la restriction
Quand il s'agit de la précision, des marqueurs comme « sufficient to, at least » sont
utilisés pour indiquer une restriction. On utilise également des restrictions numériques dans
les brevets. Il est conseillé, par les agents de brevets, d'utiliser les restrictions numériques
quand la différenciation de la mesure est critique par rapport à celle mentionnée dans « l'art
antérieur ».
Dans certaines conditions, il y a même des résultats inattendus par les changements de
chiffres. On remarque la structure « about/from XX to (about) XX » pour les restrictions
41 U.S. Department of Commerce & United States Patent and Trademark Office (2007) Manual of patent
examining procedure (MPEP) Revision 6 of the Eighth Edition,
http://www.uspto.gov/web/offices/pac/mpep/index.htm (dernière consultation : le 29 aout 2009)
82
numériques. Cette structure peut signaler un changement de valeurs, mais il est délicat de
déterminer si elle est positive ou négative.
1) The glass particles preferably comprise about 0.5 to about 40 weight percent of the mixture.
L'adverbe « at least » est parfois employé pour la restriction numérique, mais

uniquement dans la partie des revendications afin d'agrandir les protections.
2) The model train of claim 22, wherein the42 at least one command designates a desired direction of
travel of the model train.
Quant à l'emploi de la préposition « without », elle ne doit pas indiquer d'ambiguïtés : il

faut toujours être précis. Une structure « verbe modal + be + verbe passif » suivit de l'indice
« without » (la restriction est que la structure et l'indice doivent être dans la même phrase)
présente de l'intérêt. Elle peut nous indiquer les paramètres d'évaluations. Cependant, elle
produit parfois des bruits.
Exemple utile :
3) The operation of the third embodiment will now be described. A skin layer resin 26 is injected into
the cavity C as shown in the drawings, and then the stepped portion 36a of the valve member 36 is pressed
against a seat 10c to thereby finish the injection of the skin layer resin 26 into the cavity, C. A core layer
resin 28 is injected from a resin passage 36b of the valve member 36 slightly before, or simultaneously
with, this pressing operation. By doing so, sandwich molded product 38 can be produced without
hesitation marks on its surface. In this third embodiment, the core layer resin 28 can be positively injected
into the inside of the skin layer resin 26 and, therefore, a phenomenon (called a burst-through
phenomenon), wherein the core layer resin 28 breaks through the skin layer resin 26 to the outer surface, is
prevented.
Exemple inutile :
4) [0026] While specific configurations and arrangements are discussed, it should be understood
that this is done for illustrative purposes only. A person skilled in the pertinent art will recognize that other
configurations and arrangements can be used without departing from the spirit and scope of the present
invention. It will be apparent to a person skilled in the pertinent art that this invention can also be
employed in a variety of other applications.
42 L'article placé devant at least constitue soit une faute de grammaire soit une faute de frappe. Des fautes de ce
genre sont fréquentes dans les textes. Ceci représente également un problème pour le traitement automatique
des langues.
83
En raison de la spécificité de l 'utilisation de « without » dans les brevets, cette structure
est tolérée comme un marqueur en dépit de fait qu'elle fournisse quelquefois des informations
redondantes.
6.3. Bilan
Le collectage des marqueurs constitue un processus dont l'élaboration nécessite un fort

coût au niveau des ressources humaines. Ainsi, il est complexe parce qu'il nécessite non
seulement les connaissances linguistiques, mais également l'expertise en conception
inventive.
Cette méthode linguistique appliquée sur les textes de brevets a attesté notre hypothèse
qu'à l'aide de marqueurs linguistiques, il est possible localiser les informations souhaitées
(paramètres, valeurs, éléments) sans restriction du domaine.
Cependant, au cour de l'analyse, nous avons ressenti que l'attribution de valeurs

sémantique dans la phase d'annotation sera extrêmement difficile compte tenu du fait que les
marqueurs expriment parfois plusieurs notions synchroniquement.
L'étape suivante prendra part à l'extraction des connaissances. Nous y présenterons

l'extraction et les résultats, ainsi qu'une évaluation pour valider cette étude.
84
Chapitre 7. L'annotation et l'extraction
7.1. Préambule
Nous détaillerons la réalisation des annotations, et illustrerons le travail à l'aide de

quelques graphes représentatifs. Ensuite l'extraction et l'affichage des textes seront mis en
évidence. Nous présenterons également une évaluation préliminaire et nous terminerons en
exposant les difficultés rencontrées et les limites de cette approche.
7.2. L'annotation et l'extraction
Les brevets présentent des inventions, des artefacts qui sont inventés, modifiés,
améliorés. Néanmoins, toutes les modifications ne sont pas utiles et vouloir extraire toutes les
notions liées aux changements risque d'aboutir à des redondances. L'efficacité de notre travail
nous amène à adapter les principes de l'exploration contextuelle en nous fondant non
seulement sur les marqueurs, mais également sur l'existence de certains indices pour attribuer
une valeur sémantique. L'attribution de valeurs sémantiques n'est pas une tâche triviale.
7.2.a. Les procédés d'annotation
Initialement, il fût envisagé d'effectuer les annotations en LIKES. Mais, ce procédé se

révèle parfois instable. De plus, il reconnait seulement les expressions régulières, ce qui
oblige parfois d'annoter les textes manuellement. C'est pourquoi que nous avons adopté l'outil
NOOJ nonobstant le fait que cela impliquât des tâches supplémentaires comme la
construction de dictionnaires ou encore l'édition des graphes. NOOJ représente un outil sur
lequel il est possible de définir une grammaire en graphe et d'annoter le texte en utilisant
lesdits graphes. Si la grammaire syntaxique est bien définie avec des contraintes contextuelles
85
précises, le texte est susceptible d'être annoté semi-automatiquement.
Le dictionnaire est construit à partir des résultats de TREETAGGER. Pour ce faire, il

suffit de changer le format après avoir corrigé manuellement lesdits résultats et de les
importer dans le NOOJ.
Voici un extraire de dictionnaire construit pour le NOOJ:

abandoned,abandon,VVN
abasis,abasis,NN
abate,abate,VV
Abbas,Abbas,NP
abbreviated,abbreviate,VVD
abbreviated,abbreviate,VVN
À partir de nos travaux précédents, nous avons tout d'abord élaboré des graphes à l'aide
de listes des adjectifs, noms, verbes et adverbes préalablement recueillis et triés.
Dans la mesure où le plus souvent les éléments, les valeurs et les paramètres ne sont pas
trop éloignés les uns des autres, la priorité dans l'annotation consistera à annoter d'abord ceux
qui sont accompagnés. La difficulté sera d'attribuer des valeurs sémantiques. Dans le cas où
les phrases contenant des notions variées sont complexes, nous prendrons le parti d'accorder
la valeur sémantique la plus sûre pour toute la phrase. Nous risquerons de perdre d'autres
notions à l'intérieur de la phase, mais nous arriverons à signaler la notions la plus pertinente.
7.2.b. L'extraction d'informations à l'aide de graphes
Le graphe suivant explique la façon d'annoter.
86
Figure 11 : Exemple de graphe ItisJJtothat.nog
Il impose l'existence des valeurs et des paramètres dans une même phrase pour aboutir à
l'annotation. Les indices servent des contraintes syntactiques à respecter. Ainsi, lorsque les
indices « It is » ou « it is », « this makes it » ou « This makes it », « It makes it » ou « it
makes it » se trouvent à gauche de la liste de marqueurs adjectifs, la partie intermédiaire est
annotée value. De même, si l'on repère dans le contexte droit de la liste d'adjectifs les indices
« to » ou « that », alors celles qui les suivent sont intitulées parameter. Les adjectifs peuvent
être modifiés ou non par des adverbes. Comme nous l'avons signalé dans 7.2.a, nous avons
opté pour l'annotation parameter pour toute la partie suivant « that, to », malgré le fait de
perdre les autres notions à son intérieur.
Ce graphe aboutit au résultat suivant :
87
Figure 12 : Les résultats du graphe ItisJJtothat.nog
Dans les résultats de graphes, les lignes 4, 5, et 6 produisent des bruits : same effects as
in the proceding embodiments . Il est possible d'améliorer les résultats en imposant la non-
existence de certains termes spécifiques à la rédaction de brevets (embodiment, figure, view,
invention, etc).
En raison de l'usage fréquent des oppositions d'adjectifs dans le corpus, nous avons
construit le dictionnaire d'opposition (nommé opposition.dic). Une sélection des termes avec
leurs oppositions est incluse dans le dictionnaire, auquel nous avons rajouté en outre leurs
propriétés . Pour pouvoir localiser les valeurs opposées, nous avons édité un graphe qui
recherche dans une ou deux phrases le terme et son opposition correspondante. Ce graphe et
le dictionnaire ont donné des résultats encourageants, car les valeurs opposées, et par
conséquent, la contradiction, ressortent clairement.
88
Figure 13 : Le graphe générique pour retrouver les valeurs opposées
Ce graphe va relever dans le dictionnaire la catégorie OPP43, ensuite il cherchera dans

les chaines suivantes l'existence de l'opposition prédéfinie dans le dictionnaire. En cas de
succès, il annote la partie contradiction, et les deux oppositions des valeurs. Cette annotation
pourra chercher l'existence d'opposition dans une ou deux phrases.
Ce graphe nous donne l'annotation suivante :
Figure 14 : L'annotation du graphe générique
43 Cette catégorie est définie par nous même, et elle représente « les oppositions ».
89
L'outil NOOJ permet d'appliquer les grammaires définies (les graphes) au corpus et
ensuite de l'annoter. Cependant, l'annotation s'avère difficile lors de la rencontre de marqueurs
qui sont à la fois porteurs et pointeurs de notions. Pour éviter la perte d'informations
pertinentes, les valeurs sémantiques sont accordées aux notions les plus sûres. Le risque réside
dans le fait qu'à l'extraction, les résultats de rappel seront fortement influencés.
Pour pouvoir mieux visualiser les annotations, les démarches suivantes consisteront à
exporter et afficher le corpus annoté.
7.2.c. L'exportation des textes annotés
Dès l'application de l'outil pour l'annotation, le texte annoté en format XML est
susceptible d'être exporté. Ensuite, un programme Perl est en mesure de le changer en format
HTML et de le colorier 44.
En premier lieu, le texte annoté est exporté. Ci après un exemple de texte annoté et
exporté en format XML.
The degree of mixing was quantified by statistically analyzing the <PARAMETER

TYPE="Parameter"><VALUE TYPE="Value">concentration</VALUE> of the liquid from one of the
inlets at all cells</PARAMETER> in a cross-section 0.5 mm downstream of the confluence. The base flow
rate from both inlets is set to be the same so that the ideal <VALUE
TYPE="Value">concentration</VALUE>, i.e. for a completely mixed solution, was 0.50 in every cell.
The present invention provides <ELEMENT TYPE="Element">an injection mold having an

injection core mold</ELEMENT> for <PARAMETER TYPE="Parameter">defining the inner wall of a lip
portion in a preform having an undercut</PARAMETER>, <OPP TYPE="opposite">a first lip cavity
mold for defining the outer wall of the lip portion <VALUE TYPE="Value">having no</VALUE>
undercut, and <ELEMENT TYPE="Element">a second lip cavity mold</ELEMENT> for <PARAMETER
44 Les couleurs dans l'annotation représentent:

• Les paramètres en bleu;
• Les valeurs en rouge;
• Les éléments en vert;;
• Les paramètres d'évaluation en violet;
• La contradiction en jaune;
90
TYPE="Parameter">defining the outer wall of the lip portion <VALUE
TYPE="Value">having</VALUE> the undercut</PARAMETER></OPP>.
Ensuite, un script Perl est appliqué afin d'afficher le texte en couleur. L'intérêt d'une
présentation des résultats colorés permet une meilleure visualisation pour les concepteurs.
L'utilisation de format HTML est d'un emploi moins fastidieux que le format XML dès lors
que la manipulation est réalisée par une simple application d'un script Perl, tandis que dans le
format XML, il faut systématiquement définir à chaque annotation les couleurs choisies.
Voici un aperçu de l'affichage en couleurs :
The degree of mixing was quantified by statistically analyzing the concentration of the liquid from
one of the inlets at all cells in a cross-section 0.5 mm downstream of the confluence. The base flow rate
from both inlets is set to be the same so that the ideal concentration , i.e. for a completely mixed solution,
was 0.50 in every cell.
The present invention provides an injection mold having an injection core mold for defining the inner
wall of a lip portion in a preform having an undercut , a first lip cavity mold for defining the outer wall of
the lip portion having no undercut, and a second lip cavity mold for defining the outer wall of the lip
portion having the undercut .
A partir des résultats, nous avons constaté que certaines annotations sont fausses. C'est
dû à la complexité de textes de brevets. Les symboles, les chiffres, les formules ont influencé
les résultats d'annotation. L'autre faute d'annotation que nous avons constaté est liée au fait
que le NOOJ effectue l'annotation en cascade. Donc, si l'ordre de grammaires n'est pas bien
défini, certaines annotations ne peuvent pas être effectuées. L'ordre de grammaires joue un
rôle important.
Nous avons raffiné les annotations et nous avons défini l'ordre de grammaires à exécuter
par le NOOJ. Pour valider notre travail, nous avons procédé une évaluation.
91
7.3. Évaluation préliminaire
Cette évaluation est préliminaire en raison du manque de disponibilité de validation

d'expert à ce stade.
Pour ce faire, 10 brevets hors corpus tirés des références de trois brevets différentes ont
été sélectionnés. Nous les présenterons en trois groupes:
 Pat_Gp1 contient trois brevets qui sont tirés de références de brevet US7470405
Microchannel reactor with active oscillatory forcing, que sont:
 01: US20040221902: Microfluidic mixing using flow pulsing
 02: US20070183935: Microfluidic mixing and analytical apparatus
 03: US20050161326: Microfluidic treatment method and device
 Pat_Gp2 contient quatre brevets qui sont tirés de références de brevet US7046713
Discharge laser with porous layer covering anode discharge surface, que sont:
 01: US20040022292: High rep-rate laser with improved electrodes
 02: US20040071178: Anodes for fluorine gas discharge lasers
 03: US20040165638: Electrodes for fluorine gas discharge lasers
 04: US20050018737: Discharge laser with porous insulating layer
covering anode discharge surface
 Pat_Gp3 contient trois brevets qui sont tirés de références de brevet US7372041B1
Neutron detectors and related methods, que sont:
 01: US20060131503: X-ray detector
 02: US20060258766: Irradiated butene-1 polymer compositions
 03: US20060285627: Use of boron or enriched boron 10 in UO2
Nous avons procédé au repérage manuel des paramètres, des valeurs et des éléments sur
la partie de résumé et la première revendication des brevets cités. Ensuite, les paramètres, les
valeurs et les éléments ont fait l'objet d'un repérage automatique. A partir de l'ensemble des
résultats obtenus, nous avons évalué la pertinence de notre recherche par les critères de
mesure des performances qui sont le rappel et la précision.
92
Le rappel est défini par le nombre de notions retrouvées pertinentes par l'annotation
automatique au regard du nombre de notions retrouvées pertinentes manuellement dans les 10
brevets.
Nombre de paramètres retrouvés pertinents automatique

Rappel de paramètre = -------------------------------------------------------------------------------
Nombre de paramètres retrouvés pertinents manuellement
La précision est le nombre de notions retrouvées pertinents par l'annotation automatique

au regard du nombre total de notions proposées par l'annotation automatique.
Nombre de paramètres pertinents retrouvés automatiquement

Précision de paramètre = ---------------------------------------------------------------------------------
Nombre total de paramètres proposés automatiquement
RAPPEL PRECISION
PARAMETRE 46,00% 75,00%
ELEMENT 13,00% 60,00%
VALEUR 26,00% 79,00%
Tableau 2 : Les résultats d'évaluation
Cette évaluation a montré que les taux de rappel ne sont pas satisfaisants. En revanche,
les taux de précision sont encourageants. C'est dû au fait que nous cherchons les notions qui
ont des interactions entre elles, donc les structures linguistiques de celles-ci sont fortement
contraintes.
Ainsi, le fait d'opter pour la précision de localisation d'informations afin d'éviter le

maximum de bruits nous a conduit à attribuer des valeurs sémantiques seulement en cas de
certitude. Nous avons inévitablement perdu beaucoup d'autres informations qui sont
ambiguës.
93
De plus, l'annotation se termine avant d'aboutir aux notions concernées. Elle a été
fortement influencée par le manque de structures linguistiques, par l'existence de symboles,
par des chiffres et des tirets, etc. De ce fait, beaucoup d'informations n'ont pas été annotées.
Les résultats montrent également que les trois notions ne présentent pas les mêmes
difficultés. Cette différence de degré de difficultés est due au fait que nous avons privilégié
d'accorder des valeurs sémantiques parameter dans la situation où nous rencontrons des
structures complexes contenant plusieurs notions.
Il est primordial d'élaborer des schémas d'annotation et d'extraction plus fins même si
cela implique une tâche longue et fastidieuse. Ainsi, des futures analyses minutieuses sur le
comportement des marqueurs sur d'autres corpus nous permettront d'obtenir davantage des
résultats satisfaisants. Il faut également noter qu'il est nécessaire d'avoir une annotation
manuelle d'un corpus effectuée par les experts pour pouvoir améliorer les résultats.
7.4. Les difficultés et les limites
Cette étude a permis de relever que l'analyse des textes de brevets n'est pas une tâche
évidente. Elle demande des connaissances multidisciplinaires. Par exemple, la constitution de
corpus, les expressions régulières, les scripts Perl, la construction des dictionnaires, l'édition
des graphes, nécessitent la mise en œuvre de compétences multiples.
Une difficulté majeure concerne l'embarras de l'identification de notions et l'attribution

de valeurs sémantiques. Les notions recherchées, claires pour un expert, ne sont pas
forcément évidentes pour un linguiste. Il est capital d'avoir les conseils d'experts de la TRIZ
tout au long de l'analyse. De plus, les paramètres, les valeurs et les contradictions sont
exprimés par des formes grammaticales différentes. Cette caractéristique pose des problèmes
pour l'identification des notions. Les phénomènes linguistiques dans les textes sont complexes
et parfois difficiles à traiter. A titre d'exemple, on notera que dans le cas d'adjectifs, certaines
paires d'oppositions jouent un rôle spécifique dans les brevets, comme : inner/outer,
94
upper/lower, right/left. Ce sont les paires utilisées pour distinguer un même composant
d'artefact. Quelle est importance de ces paires pour les concepteurs ? Convient-il de les
annoter ? Dans l'affirmative, leur répétition fréquente peut forcément influencer la précision
d'extraction.
En certains cas, les paramètres, les valeurs et leurs opposés ne sont pas toujours
indiqués dans les brevets. Il convient de faire appel aux spécialistes du domaine lesquels
peuvent constituer les valeurs afin d’arriver à la contradiction. De plus, nous sommes
contraint de bénéficier systématiquement d'une validation de spécialiste pour être en mesure
de poursuivre l'analyse et l'annotation.
Les brevets complexes qui évitent intentionnellement l’utilisation des termes du

domaine pour garder leur secret d'invention ne sont pas faciles à traiter. Les contradictions ne
sont pas toujours marquées dans les brevets. Comment savoir si un brevet est inventif et s’il a
résolu une contradiction ?45
Il est clair que disposer de listes exhaustives de marqueurs ne semble pas réaliste. Notre
souhait était d'avoir la possibilité de recourir à des marqueurs qui peuvent servir à localiser
avec certitude les notions de la TRIZ recherchées. La difficulté majeure réside dans le fait de
pouvoir construire une base de marqueurs qui donnent peu de silence et peu de bruit.
45 Selon la TRIZ, il existe cinq niveaux d'inventivité. Le niveaux 1 s'applique aux solutions apparentes, le
niveau 2 concerne des améliorations mineures , le niveau 3 a un lien avec des améliorations fondamentales,
le niveau 4 démontre un nouveau concept et le niveau 5 est la découverte. Les brevets inventifs sont ceux de
niveaux 4 et 5, mais ils ne sont pas nombreux et ils sont difficile à localiser.
95
7.5. Bilan
Ce travail constitue une matière dense. Cependant, malgré les difficultés et les limites
inévitables, cette expérience nous a prodigué des résultats encourageants. Dans le cadre de
cette étape d'annotation, nous avons élaboré deux dictionnaires et édité 46 graphes dans le
NOOJ. Nous avons eu la possibilité de localiser les valeurs et leurs opposés grâce à
l'utilisation d'un dictionnaire d'opposition et d'un graphe générique. Le projet mériterait d'être
approfondi et affiné. C'est pourquoi nous présenterons dans la partie suivante une conclusion
générale ainsi que les perspectives pour consolider cette étude.
96
PERSPECTIVES ET CONCLUSION
L'analyse des textes est soit restreinte à un domaine, soit limitée dans sa pertinence.
C'est une discipline qui a besoin non seulement des connaissances linguistiques, mais aussi de
connaissances extralinguistiques. La complexité de l'analyse des textes réside dans l'encodage
correct de l'ensemble de ces connaissances. Quant à l'analyse des textes de brevets, le grand
défi de celle-ci réside dans la dépendance de domaine et la définition de notions de
recherches.
Nous avons procédé à la fouille dans les textes de brevets en nous appuyant de la
connaissance de la TRIZ. Les notions de recherche sont les concepts liés à la contradiction, à
savoir éléments, paramètres et valeurs. L'accès au contenu des brevets est basé sur une
méthode linguistique: le repérage des marqueurs. Nous avons réalisé l'annotation et
l'extraction des connaissances à l'aide de marqueurs linguistiques. Nous avons également
constitué des dictionnaires spécifiques. Profiter des marqueurs linguistiques dans les textes
permettent d'en extraire les informations recherchées avec pertinence.
Au cours de l'étude, nous avons noté l'importance de verbes comme marqueurs dans les
textes de brevets. Cependant, il faut définir toutes les constructions syntactiques possibles de
tous les verbes choisis. C'est en définissant les structures syntactiques de ces verbes que nous
pouvions annoter correctement les éléments, les valeurs ou les paramètres. Une direction
envisageable est de se référer à la façon dont Beth Levin (LEVIN 1993) a effectué la
classification des verbes. D'après son travail, il existe des verbes qui séparent, qui
désassemblent, qui coupent, qui obtiennent, qui combinent, ... Nous avons effectué une
expérimentation sur les verbes « increase, decrease, reduce », et nous avons eu dans leurs
contextes des paramètres qui sont en rapport avec des changements de quantité, de qualité ou
de concentrations comme : densification, deformation, degradation, hydrogenation,
magnetization, quantification, consumption, deflection, emission, accuracy, life
expectancy, complexity, porosity, uniformity, luminance, resistance, depth, hardness, yield,
charge, energy, heat, loss, ratio, temperature, volume, etc. Il sera intéressant de réfléchir si
l'on peut éventuellement raffiner les verbes en procédant à leur classifications selon des
verbes qui changent la densité, qui changent la quantité, qui changent la qualité, etc. Un
97
travail plus pointu sur tous les verbes (y compris les potentiels candidats de marqueurs)
donnera vraisemblablement dans le futur des résultats nettement plus précis.
Le dictionnaire d'oppositions nous a fourni l'un des résultats les plus encourageants. Il
sera envisageable de l'élargir afin d’améliorer le repérage des oppositions. Si l'on réussit à
constituer un dictionnaire exhaustif des oppositions, la localisation de valeurs opposées nous
indiquera directement les contradictions. Notre essai a déjà montré l'efficacité de cette
méthode. Il faut également réfléchir sur les oppositions syntaxiques (eg. so as to et so as not
to, however, even if, etc.). Nous n'avons pas traité ce phénomène. Toutefois, il est à noter que
l'opposition syntaxique est également fréquente dans les textes. C'est une direction non
négligeable parce que les contradictions qui sont évidentes dans les brevets sont repérables
par le biais de cette recherche.
Dans les brevets, nous avons remarqué que beaucoup d'informations se répètent. Dans la
plupart de brevets, la partie « abstract » correspond à la première revendication. Dans la
partie « description », on remarque également des répétitions. Ainsi, dans la partie
« background », on trouve surtout les problèmes techniques et les solutions apportées. Cette
partie applique les quarante principes de la TRIZ. Dans la partie « claims », on repère les
caractéristiques d'invention qui montrent les nouveautés de l'invention. Il est clair que pour
pouvoir vraiment localiser les informations utiles et économiser le temps de lecture, il faut
d'abord réaliser un filtrage du contenu. Une des hypothèses avancées consiste à combiner
l'analyse statistique avec l'analyse linguistique. Par exemple, par une classification de brevets,
nous pouvons d'abord localiser les parties de textes qui sont susceptibles de relever des
informations souhaitées. Une fois, cette partie validée, il est possible d'y effectuer une 'analyse
fine permettant de localiser des informations demandées par les concepteurs. Une autre
hypothèse réside toujours dans le repérage des marqueurs pour sélectionner préalablement les
zones d'argumentation. Cette méthode est proposée par Simone Teuffel dans sa thèse
(TEUFFEL 1999). Grâce aux marqueurs linguistiques, l'auteur arrive à sélectionner les
régions d'argumentation dans les articles scientifiques afin de localiser les questions posées,
les solutions apportées,... Cette méthode reste une manière intéressante pour filtrer le contenu
des brevets avant de procéder à leur analyse approfondie.
98
Pour l'instant, nous avons seulement travaillé sur les textes en anglais, mais dès que
nous disposerons des listes exhaustives des marqueurs, nous pourrons effectivement utiliser
d'autres langues (comme le français ou le chinois) basées sur nos listes déjà établies L'usage
d'autres langues permettra vraisemblablement d'identifier de nouveaux marqueurs. De plus,
aujourd'hui, beaucoup d'entreprises préfèrent déposer leurs brevets dans des pays comme la
Chine ou le Japon afin d'en préserver les secrets d'invention. L'idée de travailler sur le chinois
est donc séduisante pour découvrir de nouvelles connaissances.
On notera enfin l'importance de s'abstraire du domaine et de localiser les brevets qui

résoudront le même problème d'invention apparaissant lors d’un domaine différent.
Ce travail est une expérience exploratoire. Comme nous l'avons vu, l'utilisation des
connaissances linguistiques pour le repérage des notions génériques est effectivement une
direction de recherche pour l'analyse des brevets ainsi que la réorganisation des connaissances
de la TRIZ. En effet, le repérage de marqueurs linguistiques est souvent employé dans le
traitement automatique des langues pour l'extraction d'informations. Cependant, cette
technique n'a pas été utilisée pour l'analyse des textes de brevets ou l'extraction de
connaissances liées à la TRIZ. Elle induit effectivement une façon très originale de fouiller le
contenu de textes dans les brevets.
La recherche nous a fourni des résultats encourageants. Des études et des analyses
approfondies de brevets nous permettront prochainement d'améliorer notre approche. Les
futures recherches nous amèneront forcément à des résultats plus concrets. Il est clair que
nous ne pouvons pas réaliser l'automatisation totale d'analyse (il y aura toujours des bruits et
des silences). Notre modeste objectif est d'extraire le maximum d'informations utiles dans les
textes de brevets afin que le programme permette d’aider à mieux préparer le travail du
concepteur.
99
BIBLIOGRAPHIE
Altshuller G. (2004) Et soudain apparut l'inventeur : Les idées de TRIZ . Paris, Ed.
Seredinski 166p. (The art of Inventing – And Suddenly the Inventor Appeared, Moscow:
Detskays Literatura, 1st edition: 1984) ISBN-10: 2952139415
Altshuller G. (1998). 40 Principles: TRIZ keys to technical innovation. (Lev Shulyak &
Steven Rodman, Trans.). Worcester, MA: Technical Innovation Center, INC. 141p. (1st edition
1998) ISBN-10: 0964074036
Bereau P. et Dou H. (1997) La classification neuronale pour la détection de nouvelles

tendances de recherche et le développement de nouveaux produits (CIFRE ANRT et CRRM),
accessible en ligne http://crrm.u-3mrs.fr/sfba/ile-rousse/1997/defsession.html
Brigitte G., Sylvie N. (2004) Le document brevet, un passage entre plusieurs mondes, Paris.
Accessible en ligne http://archivesic.ccsd.cnrs.fr/sic_00001096/en/
Bouhafs Hafsia A. (2005) Utilisation de la méthode d'exploration contextuelle pour une

extraction d'information sur le web dédiées à la veille. Réalisation du système informatique
JavaVeille. Thèse de doctorat, Université Paris IV – Sorbonne, disponible en ligne sur
http://www.lalic.paris4.sorbonne.fr/Theses/These-Asma-BOUHAFS-HAFSIA.pdf
Bultey A., Bertrand de Beuvron F., Rousselot F. (2007) A substance-field ontology to support
the TRIZ thinking approach IJCAT 30 (1/2) Pages: 113-124
Cascini G., Russo D., Zini M. (2007) Computer-aided patent analysis: finding invention
pecularities Proceedings of the 2nd IFIP Working Conference on Computer Aided Innovation,
Brighton (MI), USA, 8-9 October,, published on “Trends in Computer-Aided Innovation”,
Springer, ISBN 978-0-387-75455-0, pp. 167-178.
Cascini G., Russo D. (2007) Computer-aided analysis of patents and search for TRIZ
contradictions International Journal of Product Development, Special Issue: Creativity and
Innovation Employing TRIZ, Vol. 4, Nos. 1/2, pp. 52-67.
Cavallucci D. (1999) Contribution à la conception de nouveaux systèmes mécaniques par

intégration méthodologique Thèse de Doctorat, Université Louis Pasteur Strasbourg, France
Chomsky N. (1965) Aspects of the theory of syntax MIT Press, USA. Pages 261, ISBN-10: 0-
262-53007-4, ISBN-13: 978-0-262-53007-1
Desclés J-P. et al. (1991). Exploration Contextuelle et sémantique : un système expert qui
trouve les valeurs sémantiques des temps de l'indicatif dans un texte. In Knowledge modeling
and expertise transfer, pp.371-400, D. Herin-Aime, R. Dieng, J-P. Regourd, J.P. Angoujard
(éds), Amsterdam.
Desclés J-P. (1997). Systèmes d'exploration contextuelle. Co-texte et calcul du sens. (ed
Claude Guimier), Presses Universitaires de Caen, pp.215-232.
100
Dou H., Leveille V., Manullang S., Dou JM Jr. (2005) Patent analysis for competitive
technical intelligence and innovative thinking Data Science Journal, Volume 4, Pages: 209-
236
Fillmore C. J. (1968) The Case for Case In: Bach & Harms (Ed.): Universals in Linguistic
Theory. New York: Holt, Rinehart, and Winston, Pages: 88.
Garcia D. (1998) Analyse automatique des textes pour l'organisation causale des actions,
système COATIS. Thèse de doctorat, Paris-Sorbonne (Paris IV)
Ghoula N., Khelif K. et Dieng-Kuntz R. (2007) Supporting Patent Mining by using Ontology-
based Semantic Annotations. Proceedings of IEEE/WIC/ACM International Conference on
Web Intelligence, Silicon Valley, USA
Ghoula N., Khelif K., Dieng-Kuntz R. (2008) Vers une fouille sémantique des brevets :
application au domaine biomédical Actes de 8èmes Journées Francophones: Extractioin et
Gestion des Connaissances, INRIA Sophia Antipolis - Méditerranée, pp 19-30
Goujon B. (2000) Utilisation de l'exploration contextuelle pour l'aide à la veille

technologique, Thèse de doctorat, sous la direction de Jean-Pierre Descles, Paris-Sorbonne
(Paris-IV), 2000-04-01
Gross D., Fischer U. et Miller G. A. (1989). Antonymy and the representation of adjectival
meanings Journal of Memory and Language,28(1) pp.92-106.
Grabar N. et Hamon T. (2004) Repérage de relations sémantiques entre termes : sur la piste
de la morphologie Actes des 15ème Journées Francophones d'Ingénierie des Connaissances
(IC'2004) pages 237-248. Lyon. Presses Universitaires de Grenoble.
Hearst M. (1992) Automatic Acquisition of Hyponyms from Large Text Corpora. In

Proceedings of the 14th international Conference On Computational Linguistics (COLING),
pp 539-545. Nantes.
Huang S. F. (1975) A Study of Adverbs. Mouton, the Hague. 96p. ISBN 9027933634
Lebart L., Salem A. (1994). Statistique textuelle, Paris, Dunod, 342 p.
Levin B. (1993) English Verb Classes and Alternations: A Preliminary Investigation,

University of Chicago Press, Chicago, IL.
Liang Y. H., Tan R. H. (2007) A text-mining-based patent analysis in product innovative

process IFIP International Federation for Information Processing, Volume 250, Trends in
Computer-Aided Innovation, ed. Leon-Rovira N. p.89-96
Liu S. H., Liao H. L., Hsieh C. C. (2006) Development of a patent matching system using a
hybrid approach Advances in Intelligent Systems Research, JCIS-2006 Proceedings, ISBN
101
978-90-78677-01-7
Mann D., Dewulf S. (2003 ) Updating TRIZ: 1985-2002 Patent Research Findings (CREAX
Belgique) TRIZCON2003: 5th Annual International Conference of Altshuller Institute for
TRIZ Studies, Philadelphia, PA, USA
Mann D., Dewulf S. (2003) Updating the Contradiction Matrix (CREAX Belgique)
TRIZCON2003: 5th Annual International Conference of Altshuller Institute for TRIZ Studies,
Philadelphia, PA, USA
Osenga K. (2006) Linguistics and Claim Construction. 38 Rutgers University Law Journal 61.
Abstract available at http://papers.ssrn.com/sol3/papers.cfm?abstract_id=882431.
Rousselot F., Cavallucci D. (2008) Extraction et d'exploitation des connaissances utiles à la

conception contenues dans les textes (Rapport intern) LGéco, L'insa, Strasbourg
Séguéla P. (2001) Construction de modèles de connaissances par analyse linguistique de

relations lexicales dans les documents techniques. Thèse de Doctorat en Informatique,
Université Tou-louse III Paul Sabatier.
Sinclair J. (1991) Corpus, Concordance, Collocation, Oxford, Oxford University Press
Soo V. W. et al. (2005) A cooperative multi-agent platform for invention based on ontology
and patent document analysis Computer Supported Cooperative Work in Design, Proceedings
of the Ninth International Conference, Page(s): 411 - 416 Vol. 1, ISBN 1-84600-002-5
Teufel S., Moens M. (2002) Summarizing Scientific Articles -- Experiments with Relevance
and Rhetorical Status In Computational Linguistics, 28 (4): 409-445, 2002
Teufel S. (1998) Meta-discourse markers and problem-structuring in scientific articles

Workshop on Discourse Structure and Discourse Markers, ACL 1998, Montreal
Teufel S. (1999) Argumentative Zoning: Information Extraction from Scientific Text Ph.D.
thesis, School of Cognitive Science, University of Edinburgh, UK CitRAZ (citation relations
and Argumentative Zoning)
Trippe A.J. (2003) Patinformatics: tasks to tools World Patent Information, Volume 25,
Number 3, Pages 211-221
Zanni C., Cavallucci D., Rousselot F. (2009) An ontological basis for computer aided
innovation Computers in Industry, ISSN 01663615
Zanni C., Rousselot F., Cavallucci D. (2008) KAID: a tool for conducting the use of inventive
conception in leading complex studies Actes de SKIMA 08, Katmandu, Nepal
102
GLOSSAIRE
L'ambiguité : est la propriété de certains énoncés qui présentent plusieurs sens. (i.e. à une
même forme, on peut associer plusieurs interprétations). Cette propriété est due à l'absence de
certaines informations qui permettent normalement d'ôter toutes ambiguïtés.
http://www.limsi.fr/Individu/gendner/analyse_texte/2002/03-ambiguite.html
Analyse textuelle : Analyser un texte est une manière de le comprendre. Il faut passer d'une
forme (un ensemble de graphes) à une représentation conceptuelle (les idées exprimées par le
texte). Lorsqu'il s'agit d'analyse automatique, cela revient à représenter les informations
présentes dans les textes formellement et de les traiter automatiquement. Cette représentation
passe par l'identification des parties du textes et l'étude des relations qu'elles entretiennent.
Des méthodes qui permettent d'extraire des informations des données textuelles sont : pattern
matching, méthodes statistique, méthodes mixtes, etc.
http://www.limsi.fr/Individu/gendner/analyse_texte/2002/01-introduction.html
L'anaphore : Il y a anaphore lorsqu'une unité ne désigne pas un référent par elle-même, mais
seulement par le biais d'un élément antérieur, qui est donc, en termes traditionnels, son
“antécédent”. Dans le cas prototypique de l'anaphore (avec le pronom il par exemple), on
observe une relation de coréférence entre l'expression anaphorique et son antécédent (i.e. ils
désignent le même référent). ex. : Pierre est content : il a été reçu à son examen. Cependant,
une anaphore n'est pas nécessairement coréférentielle. Le référent d'une expression
anaphorique n'est pas toujours dénoté explicitement par un terme antérieur, mais peut
s'appuyer sur son contexte.
http://www.limsi.fr/Individu/gendner/analyse_texte/2002/03-ambiguite.html
Contexte : signifie "ce qui entoure un élément". Il peut désigner suivant les cas, le contexte
temporel, géographique, culturel, social (comme c'est le cas ici) ou un contexte linguistique
comme par exemple le contexte syntaxique (les catégories syntaxiques qui entourent un
élément) ou le contexte lexical (les mots qui entourent un élément - dans ce cas, parfois
appelé co-texte.)
http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html
Document Type Definition (DTD), ou Définition de Type de Document : est un document

permettant de décrire un modèle de document SGML ou XML. Une DTD indique les noms
des éléments pouvant apparaître et leur contenu, c'est-à-dire les sous-éléments et les attributs.
En dehors des attributs, le contenu est spécifié en indiquant le nom, l'ordre et le nombre
d'occurrences autorisées des sous-éléments. L'ensemble constitue la définition des hiérarchies
valides d'éléments et de texte. Une DTD peut être divisée en 2 parties : le sous-ensemble
« interne », placé dans le document SGML ou XML lui-même, est une modification, une
extension ou un paramétrage s'appliquant au sous-ensemble « externe ». Le sous-ensemble
interne est optionnel.
103
http://fr.wikipedia.org/wiki/DTD
Expression régulière : permet de matcher (repérer) un ensemble de formes. Les expressions

régulières utilisent des caractères génériques qui permettent de faire des généralisations sur
les formes recherchées.
HTML (Hypertext Markup Language): est le format de données conçu pour représenter les
pages web. C’est un langage de balisage qui permet d’écrire de l'hypertexte. HTML permet
aussi de structurer sémantiquement et de mettre en forme le contenu des pages, d’inclure des
ressources multimédias dont des images, des formulaires de saisie, et des éléments
programmables tels que des applets. Il permet de créer des documents interopérables avec des
équipements très variés de manière conforme aux exigences de l'accessibilité du web. Il est
souvent utilisé conjointement avec des langages de programmation (JavaScript) et des formats
de présentation (feuilles de style en cascade).
http://fr.wikipedia.org/wiki/Hypertext_Markup_Language
Langue isolante : est en typologie morphologique une langue qui est extrêmement
analytique, c'est-à-dire où tous les mots restent invariables quelle que soit leur fonction
syntaxique. Les langues isolantes sont traditionnellement opposées aux langues agglutinantes,
aux langues fusionnelles ou flexionnelles, et surtout aux langues polysynthétiques. Des
exemples typiques de langues isolantes sont le chinois et le vietnamien. Les nuances y sont
généralement rendues par le contexte et l'intonation.
http://fr.wikipedia.org/wiki/Langue_isolante
Lexicologie : étude du lexique, du vocabulaire d'une langue, dans ses relations avec les autres
composants de la langue phonologique et surtout syntaxique. Etude de la structure du lexique:
relation entre les mots: synonymie, antonymie, mots apparentés ou non ...(ex: influence /
influencer vs infirme <- infirmus: faible / infirmier <- enfermier puis refait sur infirme.
Morphologie : Étude de la structure des mots (étymologiquement: étude de la forme) .

Occurrence : Toute les fois qu'un élément linguistique figure dans un texte, on parle
d'occurence.
Perl ( Practical Extraction and Report Language ) : est un langage de programmation créé
par Larry Wall en 1987 et reprenant des fonctionnalités du langage C et des langages de
scripts sed, awk et shell. Perl est né du besoin de disposer d'un langage optimisé pour
104
l'extraction d'informations de fichiers textes et la génération de rapports.
http://fr.wikipedia.org/wiki/Perl_(langage)
Phonétique : Description des unités sonores de base.

Phonologie : Étude du rôle des sons dans le système linguistique.

Sémantique : Étude de la signification (lien avec les réalités dont on parle).

Syntaxe : Étude des combinaisons et des relations entre les formes qui composent la phrase.
Elle s'occupe de constituances, de dépendances et de séquencialités (i.e. ordre des mots).
Texte brut: En informatique, un fichier texte brut est un fichier dont le contenu représente
uniquement une suite de caractères imprimables d'espace et de retour à la ligne. On peut
l'appeler également un fichier texte simple ou fichier ASCII.
http://fr.wikipedia.org/wiki/Fichier_texte
Veille technologique: Surveillance de l'environnement industriel et commercial de

l'entreprise permettant son adaptation simultanée aux changements de ce dernier.
http://www.cnrtl.fr/definition/veille
105
Annexe 1 Listes des marqueurs sélectionnés
La liste des verbes (60 verbes)
increase decrease release damage

raise change yield size
measure shape form enable
maximize augment minimize diminish
change differentiate modify remove
create produce yield procreate
transfer transmit enhance ameliorate
obtain receive deflect stop
maintain deteriate degrade eliminate
emit enlarge extrude facilitate
allow permit stop halt
resist intensify stabilize restrict
retain save spend segment
deform seperate combine detect
displace preserve disable prevent
106
La liste des adjectifs (437 adjectives)
accurate adequate allowable bulky

cheap circumferential cleanable cold
complex costly defective deformable
disastrous distinct drastic durable
effective efficient effluent erasable
erroneous excessive expensive extreme
facile fast fatty feasible
flammable flat flexible flowable
frictional great hard harmful
harmless hazardous heavy high
hollow hot ignitable immense
impure inaccurate inadequate incapable
incompressible inductive ineffective inevitable
inexpensive infeasible intense large
largescale lengthy limitless liquid
long loose low maximal
maximum minimal minimum molten
narrow noisy novel obscure
opaque optimal optimum poor
precise protectable protective pure
qualitative quantitative quick rapid
rare raw rechargeable recyclable
reliable remarkable renewable resilient
resistant resistive retractable reuseable
reversible rewritable rigid rigorous
robust rough sacrificial safe
serious severe shallow sharp
107
short significant simple slight
slow small smooth soft
solid soluble stable static
steady stiff straight strong
sudden thick thin threatening
tight unsafe unstable unsteady
unusable unusual usable useable
useful useless weak wet
wide antiferromagnetic anti-parallel anti-wrinkle
antimicrobial antistatic anti-short water-based
satellite-based lead-based carbon-based userbased
ceramic-based land-based ground-based alcohol-based
zero-dimensional one-dimensional two-dimensional three-dimensional
multi-dimensional 3-dimensional non-dimensional glutamine-free
leak-free artifact-free acid-free dicy-free
shockfree stainless endless motionless
colorless leadless electroless keyless
coreless powerless limitless brushless
harmless dimensionless odorless useless
constantless frameless tankless oilless
lifeless gearless stainless noiseless
napless less-expensive less-specialized less-concentrated
plate-like chocolate-like film-like wavelike
azeotrope-like trapezoid-like wave-like delta-like
gel-like bolt-like solid-like chemo-mechanical
shell-like wire-like rectangle-like petal-like
powder-like spring-like drum-like rubber-like
star-like semicircle-like disc-like crystal-like
nonmagnetic non-reactive nonconductive non-monomeric
108
non-conductive non-parallel non-ionomeric non-uniform
non-rotational non-ionic non-photosensitive non-linear
non-circular non-aromatic non-metallic non-specific
non-rotatable non-integral non-woven non-destructive
non-symmetrical non-automotive non-flammable non-toxic
nonlinear non-hazardous non-selective non-intrusive
non-repetitive non-porous non-stoichiometric non-corrosive
non-productive non-manual non-trained non-flat
non-ideal non-photosensitive nonmetallic nontoxic
non-standard non-invasive noncoherent non-strained

non-negligible non-vibratory non-fibrous non-redundant
non-transient non-variable non-damaging nonselective
non-selected nonhazardous non-deformable non-volatile
non-simple non-dimensional non-radiative non-stringent
non-food non-fatty non-crosslinked non-removable
non-limitative nonhomogenous non-polar non-permanent
non-restrictive non-azeotropic nonwoven non-shape-selective
non-smooth non-neuronal non-flowable non-identical
non-tropical non-athletic non-polymeric non-exclusive
non-edible non-nonomeric non-limiting non-obvious
non-ionomeric non-parallel non-integral non-absorbable
non-coaxial non-sticking non-liquid non-ferrous
non-sticky nutrient-poor heat-resistant tamper-resistant
impact-resistant anion-selective cation-selective shape-selective
mass-selective non-selective color-selective univalentcation-selective
nonselective u-shaped ion-selective univalention-selective

fan-shaped hook-shaped disk-shaped non-shape-selective
plate-shaped toroidally-shaped fan-shaped cup-shaped
109
l-shaped triangular-shaped disc-shaped doughnut-shaped
helical-shaped pillow-shaped rod-shaped cylindrically-shaped
s-shaped anisotropic-shaped v-shaped punctured-disk-shaped
winged-shaped slit-shaped rod-shaped tubeshaped

ring-shaped pyramidal-shaped pre-shaped blob-shaped
cubically-shaped spiral-shaped chevron-shaped ringshaped
funnel-shaped nanometer-sized different-sized small-sized
large-sized chestnut-sized pressure-tight fluid-pressure-tight
fluid-tight gas-tight air-tight undesirable
unstable unable unavailable uncomfortable
unpredictable unreliable unusable unfavorable
undetectable unavoidable unsaturated uncured
unexpected unaffected unoccupied unreacted
unauthorized untreated unpolarized unmodified
unblocked unfractured unactuated uncontrolled
unpredictable uncomplicated unpaired unpatterned
unconnected unconverted untensioned unfocused
unanticipated unpublished unskilled unforced
unauthorized un-wanted unperturbed unsigned
unmeasured unattended uncoked unrestrained
unshared unaltered unchallenged unchanged
unwanted unbalanced unintended undisturbed
unappreciated unmarked unexamined uninflated
undated unheated uncompressed unaided
uninterrupted unsynchronized unsolved unexposed
undrained
110
La liste des noms (273 noms)
accession accretion accrual accruement

accumulation aggrandisement aggrandizement amplification
appreciation augmentation boost broadening
complement concentration decrement diminution
elevation enlargement escalation exaggeration
expansion gain growth hike
inclusion increment intensification leap
maximation maximisation maximization maximum
minimalisation minimalization minimum multiplication
proliferation pullulation reduction relaxation
rise segmentation split split-up
step-down step-up strengthening supplement
supplementation surge upsurge widening
removal adherence fluorescence prevalence
adhesion compression consumption deflection
decomposition deposition dimension distribution
emission expansion extension fraction
function interaction resolution position
precision production proportion protection
refraction suction tension necessity
utility multiplicity impurity functionality
facility security vicinity purity
absorptivity acceptability accessability adaptability
affinity affordability availability biodegradability
functionality capability capacity clarity
cohesivity commodity compatibility complexity
compressibility concentricity conductivity conformity
111
continuity controllability crystallinity deformability
deformity density diffusivity dimensionality
discontinuity ambiguity anelasticity durability
eccentricity elasticity electronegativity ellipticity
emissivity excitotoxicity extrudability flammability
flexibility fluidity homogeneity humidity
immunity impermeability indivisibility instability
instrumentality integrity intensity interconnectivity
irregularity lethality liability linearity
longevity lubricity manufacturability mobility
monochromaticity monodispersity morbidity mortality
mutagenicity neurotoxicity nonlinearity obscurity
opacity osmolality paraselectivity permeability
permittivity periodicity playability polarity
polydispersity porosity portability praticality
predictability printability processability productivity
propensity quality quantitativity radioactivity
redispersibility reflectivity relexivity reliability
reproducibility resistability resistivity retentivity
reversibility rigidity salinity scalability
scarcity selectivity sensitivity serviceability
severity shape-selectivity simplicity solubility
specificity stability suitability susceptibility
superconductivity toxicity trackability transportability
turbidity unavailability uniformity variability
velocity versatility viscosity visibility
volatility wettability accuracy buoyancy
efficiency frequency life expectancy solvency
transparency vibrancy acidness brightness
112
cleanliness closeness compactness completeness
drowsiness dryness fineness fitness
flatness fluid-tightness evenness hardness
heaviness insanitariness lightness openness
preciseness richness robustness roughness
scratchiness shallowness skewness slipperiness
smallness smoothness softness soundness
steepness stickiness stiffness straightness
thickness thinness tightness toughness
unevenness weakness wetness whiteness
wholeness depth length strength
width difficulty non-extensivity safty
variety
113
La liste des adverbes (137 adverbes)
abnormally abruptly absolutely acceptably

accurately acutely additionally adequately
advantageously appreciably arbitrarily arguably
beneficially brightly characteristically cheaply
circumferentially clearly considerably conveniently
correctly cost-effectively critically dangerously
deeply deliberately desirably differently
distinctly dramatically drastically early
easily effectively effectually efficaciously
efficiently elaborately erroneously exceedingly
excessively explicitly extremely favourably
finely firmly forcefully forcibly
greatly hard hardly heavily
high highly identically impermissibly
importantly increasingly incrementally indiscriminately
inevitably inexpensively inherently initially
intentionally interestingly invariably irreversibly
largely lightly little long
markedly maximally measurably minimally
mutually necessarily negligibly newly
optimally phenomenally poorly potentially
precisely promptly properly purposefully
qualitatively quantitatively quite radially
randomly rapidly rarely readily
reasonably reliably remarkably resiliently
roughly safely satisfactorily securely
seriously severely sharply short
114
shortly significantly slightly specularly
stably steadily strictly strongly
suddenly sufficiently suitably surprisingly
tenaciously thin tightly totally
unacceptably unconditionally undoubtedly unevenly
unexpectedly unfortunately uniquely unnecessarily
unusually uselessly valuably vastly
weakly
115
Annexe 2 Les graphes utilisés et leurs ordres définis dans le
préférence d'outil NOOJ
1. oppositions.nog
2. asBecomesJJR.nog
3. Asvirgule.nog
4. atinDTJJRnn.nog
5. BY(the)useof.nog
6. transmit.nog
7. ParametCause.nog
8. Cause2.nog
9. ifVVNvirgule.nog
10. itisJJtothat.nog
11. itsnecessaryfor.nog
12. JJRRBR.nog
13. madeofFrom.nog
14. MDbeWF.nog
15. mdRBved.nog
16. NNofNN.nog
17. No1inorderto.nog
18. No2inorderto.nog
19. ParametMDRB.nog
20. protect.nog
21. RBVVG.nog
22. remove.nog
23. required.nog
24. sufficiently.nog
25. THEuseof.nog
26. TOavoidDoing.nog
27. wherein.nog
28. without.nog
29. tendency.nog
116
30. List VVchange.nog
31. ValueRBVVd.nog
32. VVNbywithNN.nog
33. VVD.nog
34. WHICHisTOveVed.nog
35. characterized.nog
36. VVchangINGVED.nog
37. VVChangSING.nog
38. suchthat.nog
39. ABSableto.nog
40. ABSfor-ing.nog
41. AbsNNof.nog
42. being.nog
43. Hasinthat.nog
44. NPincreasedNP.nog
45. vibrationV.nog
46. VchangIN.nog
117
Annexe 3 Les scriptes Perl
extraire.pl
#! /usr/bin/perl -w
use strict;
use locale;
my $paragraphe;
my $a = "<abstract>";
my $b = "<\/abstract>";
open (F, "corpus_brevet.txt"); #open le dossier pour analyser

open (G, ">extr_abstract.txt"); #pour afficher les resultat dans un fichier txt;
$/ = "<pat>"; # standard input separator
while($paragraphe = <F>){
chomp $paragraphe;
if ($paragraphe =~ /$a(.+)$b/s) {
print "$a $1";
print (G $a, $1, "\n")}
else {
print "die\n";
}
};
close (F);
close (G);
extrairecat.pl
use locale;
my ( @formes, @categories, @lemmes );
open (F, "output_brevet.txt"); #open le dossier pour analyser
while (my $ligne = <F>){

chomp $ligne;
my @t = split ( /\t/, $ligne );
push ( @formes, $t[0] );
push ( @categories, $t[1] );
push ( @lemmes, $t[2] );
}
for ( my $i = 0 ; $i <= $#formes ; $i++ ){
if($categories[$i] eq "RB"){
print $formes[$i], "\n"
}
};
118
change_style.pl
#! /usr/bin/perl -w
use strict;
use locale;
open (F, "output_brevet.txt"); #open le dossier pour analyser
open (G, ">change_brevettag.txt"); #pour afficher les resultat dans un fichier txt;
my $ligne; #ligne de fichier
my @temp;
my @form; #stocke les formes
my @cat; #stocke les catégorie
my @lemme; #stocke les lemmes
my $indice; #indice pour parcourir le tableau
while ($ligne = <F>) {

chomp $ligne;
@temp = split (/\t/, $ligne);
push (@form, $temp[0]);
push (@cat, $temp[1]);
push (@lemme, $temp[2]);
}
for ($indice=0;$indice<=$#form;$indice++){
print ( G "$form[$indice],$lemme[$indice],$cat[$indice] \n");
};
color.pl
open (OUT, ">$ARGV[0].html");
while (<>) {
chomp;
$x = $_;
$x =~ s/<.DOCTYPE .+/\n<html>\n<body>/;
$x =~ s/<.xml version.+/<\!DOCTYPE html PUBLIC>/;
$x =~ s/<S>/ /g;
$x =~ s/<\/S>/<\/s> /g;
$x =~ s/>/> /g;
$x =~ s/</ </g;
$x =~ s/(<VALUE TYPE=\"Value\".+?<\/VALUE>)/$1<\/span> /gs;
$x =~ s/(<PARAMETER TYPE=\"Parameter\".+?<\/PARAMETER>)/$1<\/span> /gs;
$x =~ s/(<ELEMENT TYPE=\"Element\".+?<\/ELEMENT>)/$1<\/span> /gs;
$x =~ s/(<PA TYPE=\"Pa\".+?<\/PA>)/$1<\/span> /gs;
$x =~ s/(<PE TYPE=\"Pe\".+?<\/PE>)/$1<\/span> /gs;
$x =~ s/(<OPP TYPE=\"opposite\".+?<\/OPP>)/$1<\/span> /gs;
print OUT "\n<html>\n<body>$x\n";
}
print OUT "\n</body>\n</html>";
119
Annexe 4 Les sources du corpus
No. Titre ID Date de publication

pat001 Magnetic random access memory having US6430085 August 06, 2002
digit lines and bit lines with shape and
induced anisotropy ferromagnetic
cladding layer and method of
manufacture
pat002 Alcohol vapor dryer system US6161300 December 19, 2000
pat003 controlled gravity accumulation conveyor US6640953 November 04, 2003
pat004 Control and motor arrangement for use US7307394 December 11, 2007
in model train
pat005 Anaerobic digester system for animal US7320753 January 22, 2008
waste stabilization and biogas recovery
pat006 Golf ball covers and mantles comprising US7297075 November 20, 2007
glass particles
pat007 Liquid flow meter US7313955 January 01, 2008
pat008 Stage device and exposure apparatus US6417914 July 09, 2002
pat009 Magnetic memory US6831855 December 14, 2004
pat010 Extendable gravity loader US6484862 November 26, 2002
pat011 Multiple material golf club head US6491592 December 10, 2002
pat012 Monitoring activity of a user in US6611789 August 26, 2003
locomotion on foot
pat013 Antiparallel magnetoresistive memory US6777730 August 17, 2004
cells
pat014 Closed loop control of the induction US6566636 May 20, 2003
heating process using miniature magnetic
sensors
pat015 Connection assembly US7381085 June 03, 2008
pat016 Electrochemical water purifier US7374655 May 20, 2008
pat017 Fiber optic sensor for detecting multiple US7336862 February 26, 2008
parameters in a harsh environment
pat018 Heat sink/heat spreader structures and US6686532 February 03, 2004
methods of manufacture
pat019 Means for removing unwanted ion from US7339163 March 04, 2008
an ion transport system and mass
spectrometer
pat020 Methods and systems for automated US7327859 February 05, 2008
fingerprint recognition
120
pat021 Nanostructured thermoelectric materials US6605772 August 12, 2003
and devices
pat022 Predictive maintenance and management US7319939 January 15, 2008
of aging of installed cables
pat023 Snap lock connector US7189097 March 13, 2007
pat024 System and method for determining the US6167765 January 02, 2001
flow rate of blood in a vessel using
doppler frequency signals
pat025 Thermoelectric generators US6620994 September 16, 2003
pat026 Vortexer US7296924 November 20, 2007
pat027 Architecture for electric machine US6965183 November 15, 2005
pat028 Combined occupant weight and spatial US7359527 April 15, 2008
sensing in a vehicle
pat029 Dielectric resonator device, dielectric US7274273 September 25, 2007
filter, duplexer, and high-frequency
communication apparatus
pat030 Eyeglasses preset for connection to US7073905 July 11, 2006
cellular telephones for transmitting and
receiving calls
pat031 Flow measurement apparatus having US7237440 July 03, 2007
strain-based sensors and ultrasonic
sensors
pat032 High throughput darkfield/brightfield US7259844 August 21, 2007
wafer inspection system using advanced
optical techniques
pat033 Refrigeration system including US7310953 December 25, 2007
thermoelectric module
pat034 Steering damper for a hydraulic power- US6467392 October 22, 2002
assisted steering system
pat035 Thermoelectric-cooling temperature US6334311 January 01, 2002
control apparatus for semiconductor
device fabrication facility
pat036 Use of miniature magnetic sensors for US6455825 September 24, 2002
real-time control of the induction heating
process
pat037 Weight measuring systems and methods US7330784 February 12, 2008
for vehicles
pat038 Monolithic ceramic capacitor with US6567259 May 20, 2003
barium titinate dielectric curie point
optimized for active implantable medical
devices operating at 37.degree. C.
121
pat039 Neutron detectors and related methods US7372041 May 13, 2008
pat040 Dynamic transient pressure detection US7357034 April 15, 2008
system
pat041 Passive sensors for automatic faucets and US7396000 July 08, 2008
bathroom flushers
pat042 Method of fracturing a subterranean US20080190603 August 14, 2008
formation at optimized and pre-
determined conditions
pat043 Composites and methods for treating US20060095138 May 04, 2006
bone
pat044 Methods of decoupling diffusion effects US6833698 December 21, 2004
from relaxation times to determine
properties of porous media containing
fluids
pat045 Ethylene/Tetrafluoroethylene/fluorinated US6589597 July 08, 2003
vinyl monomer copolymer powder and
molding method therefor
pat046 Magnetorheological polymer gels US6527972 March 04, 2003
pat047 Phyllosilicate Slurry For Papermaking US20070131372 June 14, 2007
pat048 Method of making heat-resistant US6488979 December 03, 2002
chocolate and chocolate-like
compositions with reduced apparent
viscosity
pat049 Ultrasonic probe and inspection US20090005685 January 01, 2009
apparatus equipped with the ultrasonic
probe
pat050 Rotate-to- advance catheterization system US20090005645 January 01, 2009
pat051 Bye receptive polymer coating for US20090005244 January 01, 2009
graphic decoration
pat052 Turret fusing apparatus US20090003899 January 01, 2009
pat053 Sheet Type Phosphors, Preparation US20090002810 January 01, 2009
Method Thereof, And Light Emitting
Devices Using These Phosphors
pat054 Biological information imaging US20090002685 January 01, 2009
apparatus, biological information
analyzing method, and biological
information imaging method
pat055 Process of manufacturing para-xylene US20090000988 January 01, 2009
pat056 Azeotrope Compositions of US20090005618 January 01, 2009
Octafluorocyclobutane and Uses Thereof
pat057 Shaped Body Comprising a Microporous US20090005600 January 01, 2009
122
Material and at Least One Silicon-
Containing Binding Agent Method for
Production and Use Thereof as Catalyst
in Particular in a Method for Continuous
Synthesis of Methylamines
pat058 Composites comprising elastomer, US20090005493 January 01, 2009
layered filler and tackifier
pat059 Extruded Personal Washing Bars With US20090005290 January 01, 2009
Plate-Like Inclusions
pat060 Replacement Solvents Having Improved US20090005282 January 01, 2009
Properties and Methods of Using the
Same
pat061 Catalytic Oxidative Dehydrogenation and US20090004076 January 01, 2009
Microchannel Reactors for Catalytic
Oxidative Dehydrogenation
pat062 Packaging system with hollow package US20090002961 January 01, 2009
pat063 Anchor Valve for Security US20090000666 January 01, 2009
pat064 Low moisture absorptive circuitized US7470990 December 30, 2008
substrate with reduced thermal
expansion, method of making same,
electrical assembly utilizing same, and
information handling system utilizing
same
pat065 Direct epoxidation process using a mixed US7470801 December 30, 2008
catalyst system
pat066 Diene elastomers with cyclic vinyl units US7470760 December 30, 2008
and processes for obtaining same
pat067 Microchannel reactor with active US7470405 December 30, 2008
oscillatory forcing
pat068 System for production and purification of US20080318763 December 25, 2008
biofuel
pat069 Cochlear Implant US20090005836 January 01, 2009
pat070 Hydrocratic generator US20070152452 July 05, 2007
pat071 Production of purified water and high US7083730 August 01, 2006
value chemicals from salt water
pat072 Production of oriented material or US7459178 December 02, 2008
composite material through centrifugal
burning
pat073 Cooling bearings, motors and other US20070157749 July 12, 2007
rotating heat generating components
pat074 Hydrodynamic bearing runner for use in US20070110561 May 17, 2007
123
tilting pad thrust bearing assemblies for
electric submersible pumps
pat075 Latching mechanism for portable US20090002955 January 01, 2009
electronic device
pat076 Mechanism of astroicyte-neuron US20080299109 December 04, 2008
signaling
pat077 Driving Mechanism US20090000408 January 01, 2009
pat078 Apparatus and method for producing US7207499 April 24, 2007
porous polymer particles
pat079 Wind generator of the type with US7198469 April 03, 2007
automatic power regulation
pat080 Centrifugal engine US20070014669 January 18, 2007
pat081 Tunnel junction type josephson device US6157044 December 05, 2000
pat082 Method of manufacturing oxide US6034036 March 07, 2000
superconductors
pat083 Hydrostatic transmission US6014861 January 18, 2000
pat084 Pressurized electro-hydraulic processing US20030201167 October 30, 2003
means
pat085 Coaxial cable US7105739 September 12, 2006
pat086 Thin layered micro optics polarization US20060193048 August 31, 2006
converter
pat087 Discharge laser with porous layer US7046713 May 16, 2006
covering anode discharge surface
pat088 Ion source for a mass spectrometer US20080048107 February 28, 2008
pat089 Solar augmentation system US20080314436 December 25, 2008
pat090 Electroactive polymer electrodes US7468575 December 23, 2008
pat091 Supersonic diffuser US7469710 December 30, 2008
pat092 Method and apparatus for operating US7467612 December 23, 2008
traveling spark igniter at high pressure
pat093 Virtual Electrode Mineral Particle US20080277508 November 13, 2008
Disintegrator
pat094 Method for the production of US6623559 September 23, 2003
semiconductor quantum particles
pat095 Magnetic Latch Mechanism US20080265588 October 30, 2008
pat096 Mobile station and transmission power US20080318614 December 25, 2008
control method in mobile station
pat097 Novel needle driver for magnetic US20080255444 October 16, 2008
resonance elastography
124
pat098 Injection Molded Article US20090004416 January 01, 2009
pat099 Generation of timestamps within field US20080079595 April 03, 2008
devices
pat100 Materials and methods for the US20090004093 January 01, 2009
manufacture of large crystal diamonds
125
Annexe 5 La disponibilité des brevets
Grâce aux développements de la technologie informatique, les brevets sont maintenant

disponibles en base de données. On distingue principalement deux sortes de base de données :
la base de données en CD-ROM et la base de données en ligne.
Sur CD-ROM, il est possible d'accéder aux données de brevet dans son texte intégral
incluant les images. Les bases de données de CD-ROM sont particulièrement adaptées aux
fins de recherches documentaires. La connexion extérieure est superfétatoire et les utilisateurs
peuvent travailler avec simplement un CD-ROM et l'ordinateur.
Les bases de données en ligne sont disponibles pour que tout un chacun puisse accéder à
internet. Les bases de données en ligne peuvent être interrogées via des bases de données
gratuites ou des bases de données commerciales. On peut avoir accès au texte intégral des
documents de brevets publiés.
De nombreux bureaux de brevets nationaux ont lancé des bases de données en ligne
gratuites et ouvertes au public. Les services gratuits sont utiles pour des recherches simples
qui sont basées :
• sur des mots-clefs ;
• sur des numéros de brevets connus ;
• sur des noms du ou des inventeurs ;
• sur des noms du ou des candidats ;
• sur des mots clefs dans les titres, etc.
Parmi lesdites bases en ligne, nous avons sélectionné ceux où les brevets sont
essentiellement disponibles gratuitement :
• L’Office Européen des Brevets (OEB): Contient quelques 30 millions de documents

de brevet, il offre l’accès aux informations sur les brevets du monde entier dans sa
base de données esp@cenet . Chaque bureau national des brevets dispose de son
propre accès pour esp@cenet. ( http://www.epo.org/index_fr.html )
126
• Institut National de la Propriété Industrielle (INPI): L'INPI propose sur son site le
service de recherche de brevets qui donne accès à toutes les demandes de brevets
français, européens et PCT (Patents Cooperation Treaty) depuis 1978 ainsi que les
brevets français délivrés depuis 1989. Il est possible d'afficher les textes intégraux
dont certains peuvent même être téléchargés en format PDF.
( http://fr.espacenet.com/ )
• US Patent and Trademark Office ( USPTO ) : Il s’agit d’une base de données qui
permet de lister tous les brevets américains publiés dans le monde entier en incluant le
premier brevet américain délivré en 1790.
Concernant la base de données des brevets américains délivrés à compter de janvier
1976, on peut accéder aux données bibliographiques, aux données textuelles et aux
données d'images par un simple clic sur le lien hypertexte. Ainsi, on peut obtenir le
full-page image de chaque page de brevet.
Les brevets délivrés entre 1790 et décembre 1975 : il s’agit de données relatives aux
numéros de brevets, aux dates de délivrance et leurs classifications américaines. Par un
clic sur le lien hypertexte, le full-page image de chaque page de brevet s'affiche.
( http://www.uspto.gov )
• Google Patents : Tous les brevets disponibles sur Google Patents proviennent de
l'USPTO. Actuellement, les brevets internationaux ne sont pas inclus dans cette base
de données. (http://www.google.com/patents )
• Office de Propriété Intellectuelle du Canada (OPIC) : Depuis le 1er octobre 1989,

les brevets canadiens peuvent être interrogés sur ce site. Cette base de données sur les
brevets canadiens contient les brevets canadiens délivrés à partir de 15 août 1978. On
y obtient des données bibliographiques, des données textuelles et des données
d'images.
Elle contient également les brevets canadiens délivrés avant le 15 août 1978 où des
données bibliographiques, des textes, des titres et des images peuvent être consultés.
Cependant, cette base de données ne contient ni des textes d'abrégés, ni des textes de
127
revendications.
Les documents de brevets canadiens déposés avant le 1er octobre1989 sont classés
selon la classification canadienne des brevets. En revanche, les documents de brevets
déposés depuis le 1er octobre 1989 sont classés selon la classification internationale
des brevets (CIB).
( http://brevets-patents.ic.gc.ca )
• ZHUANLI BAIDU : Zhuanli Baidu est un site chinois lancé le 1er janvier 2008 qui
offre le seul service de recherche de brevets gratuit en ligne. Le moteur de recherche
est le résultat d'une collaboration entre le Centre d'Information des Brevets Chinois, le
Bureau des Brevets Chinois et le moteur de recherche Baidu. Sur cette base de
données, ont été recensés 2.7 millions de brevets chinois. En tapant les mots-clés, les
résultats appropriés apparaîtront sur la page. Un nouveau clic sur le lien hypertexte
concerné donnera accès au brevet recherché. Pour consulter les documents complets
du brevet, il y a lieu de télécharger un logiciel permettant de visualiser le document
complet (en *.tif). ( http://www.zhuanli.baidu.com )
• National Center for Industrial Property Information and Training (INPIT) : Ce

centre national possède une bibliothèque numérique de propriété industrielle laquelle
ouvre l'accès aux brevets dans la base de donnée du Bureau de Brevets japonais.
( http://www.ipdl.inpit.go.jp )
Il existe un certain nombre de bases de données commerciales, où la consultation est

payante. L'offre de service commerciale augmente la valeur des informations de brevets. Les
services sont basés sur l'exigence des clients et les honoraires sont souvent élevés.
128
129

Memoire M2 TALN

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Memoire M2 TALN

Transféré par

Droits d'auteur :

Formats disponibles

MÉMOIRE DE FIN D’ÉTUDES

présenté pour l’obtention du diplôme de

Discipline: UFR Lettres et Sciences Humaines Appliquées

L'ANALYSE DES TEXTES DE BREVETS

Mémoire préparé sous la direction de :

Présenté le : 14 Septembre 2009

Ce travail s'inscrit dans le domaine de l'acquisition automatique ou semi-automatique

l'Analyse des Textes de Brevets, l'Analyse Textuelle, la Fouille de Contenu, TALN

This research relates to automatic or semi-automatic acquisition of knowledge from

Patent Analysis, Text Analysis, Text-mining, Natural Language Processing, Knowledge

Ma gratitude va tout d'abord à M. François ROUSSELOT, mon directeur de mémoire,

Je remercie également toute l'équipe pédagogique de l'UFR Lettres & Sciences

Mes remerciements vont également à l'institut National des Sciences Appliquées de

Je témoigne toute ma reconnaissance à :

Alexis Bultey (LGéco), pour ses aides chaleureuses et professionnelles ;

Denis Cavallucci (LGéco), pour ses conseils avisés au sujet de la TRIZ ;

Mes amies Anne-Marie, Derya, Julidie, pour le temps consacré à la relecture.

TAL : Traitement Automatique Des Langues

Figure 1: La résolution de problèmes selon la TRIZ................................................................12

Les brevets constituent une source d'informations abondantes où s'ancrent des

En réponse à cette nouvelle attente, nous proposons une approche particulière de

En linguistique, les marqueurs linguistiques sont des unités lexicales simples ou

Ce mémoire est un projet initialement proposé par le Laboratoire de Génie de la

La conception invention, connue également sous la dénomination « La TRIZ », a été

Figure 1: la résolution de problèmes selon la TRIZ

La TRIZ a apporté une vue spécifique sur le processus de l'invention où la résolution de

Figure 2: Les réseaux de problèmes et solutions selon ZANNI et al.

3 La substance-field est appelée « VEPOLE » dans la TRIZ où « Vé » représente la substance et « Pole » le

Les problématiques abordées

Le sujet de ce mémoire est en effet un thème de recherche complexe. Il s'articule autour

La problématique liée à la conception inventive

Denis Cavallucci, spécialiste de la TRIZ au LGéco, dans sa thèse en 1999

La problématique liée à l'analyse des textes de brevets

Tous ces caractères en font une analyse bien complexe.

En considération de tous ces problèmes et dans l'optique de réutiliser les connaissances

Ensuite nous présenterons la méthodologie. Nous commencerons par une présentation

Une conclusion et les perspectives viendront clore ce mémorandum.

1.2. Présentation des approches dans l'analyse des textes

1.2.1.a. L'analyse statistique textuelle

L'analyse statistique textuelle (text-mining en anglais) est connue également sous le

Les techniques classiques utilisées dans l'analyse textuelle sont :

À titre d'exemple, la technique de « segments répétés » qui compte et regroupe les

1.2.1.b. Problèmes méthodologiques

1.2.2.a. L'analyse linguistique

L'analyse linguistique est dite « analyse qualitative ». La technique implique souvent

L'analyse morphologique effectue l'analyse au niveau des termes. Elle emploie un

Elle intervient au niveau de la phrase en utilisant les règles de grammaire pour sa

pronom verbe déterminant nom

Figure 3: Une représentation de l'arbre syntaxique

Une analyse syntaxique appropriée est coûteuse en temps et en ressources. C'est la

Dans sa thèse, P. Séguéla (SÉGUÉLA, 2001) a développé un système nommé

Dans ce type d'analyse, c'est principalement la méthode utilisant le repérage des

Le système JAVAVEILLE émanant de la thèse (BOUHAFS HAFSIA 2005) est

Figure 4: Règle de <CoLocation> présentés dans JAVAVEILLE

16 Surveillance de l'environnement industriel et commercial de l'entreprise.

L'efficacité d'une analyse morphologique est liée à la qualité de dictionnaire ou du

La grande difficulté d'analyse syntaxique est l'ambiguïté de la langue naturelle. Les

Dans le cas du repérage des marqueurs linguistiques, l'acquisition et les critères de

Un brevet réserve des avantages juridiques et économiques à son titulaire. Pour le

2.2.1.a. La méthode quantitative

La méthode d'analyse quantitative consiste en un traitement statistique qui s'applique

Le text-mining est également connu sous le vocable de « statistique textuelle ». Comme

Certains chercheurs estiment que l'analyse bibliométrie constitue une approche