Vous êtes sur la page 1sur 12

ACCÈS AUX BREVETS EN LANGAGE NATUREL

Le système CIB-LN de l'INPI


Sabine Darrigade et al.

A.D.B.S. | Documentaliste-Sciences de l'Information

2001/2 - Vol. 38
pages 100 à 111

ISSN 0012-4508

Article disponible en ligne à l'adresse:


--------------------------------------------------------------------------------------------------------------------
http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2001-2-page-100.htm
--------------------------------------------------------------------------------------------------------------------

Pour citer cet article :


--------------------------------------------------------------------------------------------------------------------
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


Darrigade Sabineet al., « Accès aux brevets en langage naturel » Le système CIB-LN de l'INPI,
Documentaliste-Sciences de l'Information, 2001/2 Vol. 38, p. 100-111. DOI : 10.3917/docsi.382.0100
--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour A.D.B.S..


© A.D.B.S.. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des
conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre
établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que
ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en
France. Il est précisé que son stockage dans une base de données est également interdit.
ÉTUDE

C’est pour répondre à la demande d’un public non spécialiste, par SABINE DARRIGADE,
usager occasionnel de ses services d’information issus des titres de propriété MICHELE LYON-BOUGEAT
industrielle, que l’INPI a développé un système d’accès en langage naturel aux et BERNARD MARX
données brevets. Cet article présente l’objectif de cette réalisation de l’Institut avec la collaboration
national de la propriété industrielle et décrit les étapes successives de son d’Annie Buisson, Marcel Cantet,
Robert Ilcinkas et Évelyne Oziol
développement, avec les évolutions des méthodes et des techniques mises en œuvre.
Institut national de la propriété
Il expose enfin les caractéristiques du service CIB-LN fondé sur la Classification industrielle (INPI)
internationale des brevets et sur une analyse et un enrichissement des questions
librement posées dans le langage courant des usagers.

Accès aux brevets


en langage naturel
Le système CIB-LN de l’INPI
L’ACTUALITE QUOTIDIENNE ATTIRE
NOTRE ATTENTION sur les enjeux et les défis
de la propriété industrielle : brevetabilité du vivant
et des logiciels, médicaments brevetés et médica-
ments génériques, procès en contrefaçon, etc. Ces
débats de société mettent en lumière l’information
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

en propriété industrielle et en particulier l’infor-

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


mation relative aux brevets, qui n’est pas toujours
bien connue, reconnue, rédigée, recherchée et
exploitée.
Le souci d’une meilleure connaissance de cette
information impose que l’accès en soit aisé, et
adapté à chacune des nombreuses et différentes
catégories d’utilisateurs : conseils en propriété
industrielle, services de propriété industrielle des
grandes entreprises, PME/PMI, recherche
publique, écoles d’ingénieurs, étudiants en droit,
etc.
Si les spécialistes de l’information profession-
nelle disposent, depuis plus de vingt-cinq ans,
d’accès en ligne performants aux banques de don-
nées sur les brevets (brevets nationaux, brevets
européens, demandes internationales), ce n’était
pas le cas, jusqu’à une époque récente, pour les
autres utilisateurs potentiels. La mise à disposi-
tion de ces données sur Internet les a rendues
libres d’accès et souvent gratuites, sans pour
autant offrir aux publics occasionnels des

100 • Documentaliste - Sciences de l’information 2001, vol. 38, n° 2


méthodes efficaces de recherche ni sensibiliser de Offrir un accès aux usagers non professionnels
nouveaux usagers à l’utilisation de cette informa- Le premier public, les usagers professionnels,
tion technique. pratique depuis de nombreuses années les banques
C’est pour répondre à cette demande, pour de données de propriété industrielle (brevets,
créer le chaînon manquant entre une information marques et, plus récemment, dessins et modèles)
considérable et un nombre chaque jour croissant sur les serveurs tels que Questel.Orbit, STN Inter-
d’usagers potentiels qui n’utilisent guère ou pas du national et Dialog.
tout cette information que l’Institut national de Le second, en particulier en France, a accédé
la propriété industrielle (INPI) a développé un plus tardivement à ces données avec le Minitel et
système d’accès aux données brevets « en langage le cédérom. En 1988, a été offert un accès aux
naturel », c’est-à-dire par l’expression entièrement informations sur les marques françaises et les
libre d’une question dans le langage courant de demandes internationales en
l’usager qui n’a pas à se préoccuper de quelque vigueur puis, après leur créa-
organisation du vocabulaire et de la syntaxe. tion, sur les marques commu-
Michèle Lyon-Bougeat est
chargée de mission au Département
Nous présenterons d’abord l’objectif de cette nautaires (ICIMARQUES 08 36
réalisation, situé dans les missions de l’INPI et 29 36 30) ; et aux informations des brevets,
dans la complémentarité des services d’informa- relatives aux entreprises fran- Sabine Darrigade et
tion déjà existants. Les différentes étapes de son çaises immatriculées au Registre Bernard Marx sont respective-
développement sont ensuite décrites, avec les évo- du commerce et des sociétés ment chef de produit bases de don-
lutions des méthodes et des techniques, inévi- (3617 EURIDILE). Pour ce nées et adjoint au chef du Départe-
tables dans un travail qui s’est étendu sur plu- même public, une demande ment de la documentation et de
sieurs années. Les caractéristiques de ce service guidée était aussi proposée en l’information de l’Institut national de
et de son utilisation actuelle seront enfin préci- local par le cédérom BREF : la propriété industrielle (INPI, 26 bis
sées, ainsi que les développements futurs - la spé- données bibliographi-ques, rue de Saint-Pétersbourg, F-75800
cificité d’une telle réalisation, comme de tout sys- abrégé en français et dessin de
Paris Cedex 08, téléphone +33 (0)1 53
tème à base de connaissances, étant son évolution la première page des brevets
04 55 75, télécopie +33 (0)1 42 94 02
continue. français, européens et des
demandes internationales. 16, courriel marx.b@inpi.fr).
Les brevets ne pouvaient pas Annie Buisson et Évelyne Oziol sont
échapper à l’attrait du Minitel !

1
ingénieurs au Département des bre-
Les objectifs Et, de fait, un service fut ouvert
vets, Marcel Cantet et Robert Ilcinkas
en 1990 (3617 INFOBREVET),
sont respectivement responsable de
d’un accès en langage qui fournissait un accès facilité
Recherche et développement et res-
aux trois derniers mois de
naturel demandes publiées et de brevets ponsable du Service de recherche
délivrés, français et européens. d’informations stratégiques et
La diffusion des informations issues des titres La méthode d’accès était la Clas- concurrentielles au Département de
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

de propriété industrielle et de l’immatriculation sification internationale des bre-

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


la documentation et de l’information.
des entreprises est la mission première de l’INPI, vets (CIB) [3], utilisée par la
définie par le Code de la propriété intellectuelle [1]. plupart des offices nationaux et internationaux de
Depuis longtemps déjà, cela ne signifie pas seule- brevets (voir le hors texte pages suivantes). L’orga-
ment que l’Institut doit permettre l’accès aux docu- nisation de la CIB est complexe, mais un chemi-
ments papier dans les salles de lecture et, pour les nement était proposé par écrans successifs de hié-
documents les plus anciens, aux archives. Cela rarchie descendante : sections, sous-sections,
implique aussi la mise à disposition de différents classes, sous-classes, etc. À chaque niveau, le
services d’information, sur différents supports, nombre de brevets était indiqué et, en raison du
pour répondre aux besoins toujours plus spéci- nombre limité de brevets proposés (environ
fiques des usagers que l’on peut regrouper, de 30 000), l’utilisateur obtenait rapidement, par
façon manichéenne et caricaturale, en deux caté- choix successifs, un petit nombre de résultats lui
gories : permettant d’accéder au contenu des références
- les utilisateurs professionnels fréquents habi- des brevets français et européens.
tués à la pratique de logiciels de recherche puis- Ce service fut néanmoins peu utilisé et fermé
sants mais complexes et au paiement de l’infor- après quelques années. Les raisons de cet échec :
mation ; une définition incertaine d’Infobrevet, service à la
- le public occasionnel, mal défini (PMI, ingé- fois insuffisant pour les professionnels qui dispo-
nieurs, recherche publique, étudiants), non habi- saient déjà par ailleurs d’outils efficaces de veille et
tué au paiement de l’information mais exploitant trop complexe pour les autres publics pour qui la
plutôt les sources d’information gratuite de l’In- CIB, même explicitée par le développé de ses inti-
ternet [2]. tulés, n’est pas un instrument de recherche

Documentaliste - Sciences de l’information 2001, vol. 38, n° 2 • 101


ÉTUDE ACCÈS AUX BREVETS EN LANGAGE NATUREL

très facile à manier. Le rappel de cet échec brevets devraient être exhaustifs, toute omission
indique bien que, si la CIB est un élément incon- pouvant s’avérer lourde de conséquences. Il y a
tournable de l’information sur les brevets, il faut trois possibilités de recherche à partir du contenu
savoir l’appréhender ! technique du brevet : par les mots du titre et de
Ce public occasionnel des données de propriété l’abrégé, par le texte intégral, par les indices de la
industrielle a vu enfin ses demandes satisfaites CIB.
avec les accès Internet. Par exemple à partir du Dans la recherche des mots du titre et de
site de l’INPI ou par des accès directs : informa- l’abrégé, la rédaction libre de ces deux informa-
tions sur les brevets (inpi.fr), transfert de techno- tions par le déposant lui-même ne sont pas gages
logies (transinove.com), marques (icimarques. d’une information pertinente et complète, au
com), dessins et modèles (inpi.fr), entreprises contraire. C’est pourquoi l’essentiel de la valeur
(euridile.com) [4]. ajoutée par des producteurs de banques de don-
Il n’en reste pas moins que, si la structure de nées comme Derwent revient à enrichir titre et
l’information relative aux marques, aux dessins et abrégé des termes essentiels qui ne s’y trouvent
modèles et aux entreprises est relativement simple pas. De plus, le langage du déposant, à la fois dans
et permet, à partir de trois ou quatre index, d’ef- le choix des termes et dans les relations qui exis-
fectuer une recherche efficace, il n’en va pas de tent entre ces termes, ne correspond pas obliga-
même pour les brevets où les accès professionnels toirement au langage de celui qui interroge.
recourent jusqu’à trente ou quarante index diffé- La recherche des termes du texte intégral pré-
rents [5]. sente les mêmes inconvénients de rédaction libre
que la précédente avec, en plus, un bruit très
Problématique de la recherche important engendré par le très grand volume
sur les brevets d’informations non contrôlées. Même si le bruit
Mise à part l’interrogation d’index spécifiques est inhérent à toute recherche exhaustive, il y a
comme ceux des dates, des numéros de bulletin, quand même des limites à ne pas dépasser !
des noms d’inventeurs ou de déposants, le pro- Au terme de cette réflexion apparaît la néces-
blème posé est l’interrogation efficace du domaine sité de rapprocher deux éléments très différents,
technique, donc du contenu du brevet. Dans de voire opposés : la libre expression de la question
nombreux cas, les résultats d’une recherche de (d’un non-spécialiste) et la CIB, classification

La Classification internationale des brevets


Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

Le système d’accès aux brevets en donc indispensable au système des brevets. des pays membres de l’Arrangement de

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


langage naturel utilisant la Compte tenu de l’usage international qui Strasbourg. Une nouvelle édition est
Classification internationale des est fait de la documentation brevets, il est publiée tous les cinq ans pour tenir comp-
brevets comme interface entre nécessaire de disposer d’un codage com- te de l’évolution technologique et de l’af-
l’expression de la question et les mun à un maximum d’administrations du flux de nouvelles inventions (400 000 envi-
brevets détenus, il est utile d’en monde entier publiant ces documents, et ron s’ajoutent chaque année à la
présenter les caractéristiques. qui soit par ailleurs indépendant de la documentation), avec environ 5 % de modi-
langue du document de brevet. fications par rapport à l’édition précédente.
De cette constatation est née la Classifi- Les modifications sont effectuées sur la
a divulgation de l’information tech- cation internationale des brevets (CIB), ins- base du contenu des brevets déjà déposés

L nique contenue dans les documents de


brevet (demandes de brevet, brevets
ou titres similaires délivrés par les admi-
tituée en 1971 par l’Arrangement de Stras-
bourg sur la Classification internationale
des brevets. Entrée en application en 1974,
auprès des offices. La septième édition est
en vigueur pour les documents de brevets
publiés depuis le 1er janvier 2000.
nistrations compétentes) est une compo- la CIB est administrée par l’Organisation
sante fondamentale du système des bre- mondiale de la propriété intellectuelle Fonctionnement du système
vets. Elle n’a toutefois de véritable sens que (OMPI), à Genève. Elle est publiée en deux
si l’information concernée peut être facile- versions authentiques, les versions fran- Avant d’être publié par une administra-
ment retrouvée au sein de la documenta- çaise et anglaise, mais elle est aussi éditée tion, un document de brevet est étudié par
tion internationale qui contient approxi- dans d’autres langues (allemand, espagnol, un examinateur spécialiste du domaine
mativement trente millions de documents. russe, japonais, etc.). technique concerné, qui détermine le ou les
Le codage des informations techniques Actuellement, la CIB fait l’objet d’une indices de la CIB représentant l’invention,
contenues dans les documents de brevet est révision continue par les offices de brevets c’est-à-dire l’information (Suite page 104)

102 • Documentaliste - Sciences de l’information 2000, vol. 38, n° 2


indispensable pour atteindre l’objet d’une inven-
tion et utilisée dans toutes les banques de don-
nées brevets. Mais elle est de grande complexité :
69 000 entrées, 15 niveaux hiérarchiques, sans
oublier un vocabulaire et un formalisme difficiles
à appréhender par l’utilisateur final [6].
2 Réalisation du système
d’accès en langage
naturel
La CIB présente l’avantage de proposer des
indices et des traductions des intitulés exactement L’importance du travail à réaliser et la difficulté
équivalents dans différentes langues : français, de définir a priori les caractéristiques exactes d’un
anglais, allemand, espagnol, etc. Ceci permet, une système qui ne devait être opérationnel que plu-
fois le travail effectué dans une langue, de passer sieurs années plus tard ont déterminé deux étapes
à moindres temps et coût dans une autre langue, successives : la mise au point d’un prototype et la
toutes les composantes de l’indexation (notam- réalisation du système lui-même, envisageable seu-
ment sa profondeur en fonction des différents sec- lement après l’évaluation des réponses obtenues à
teurs techniques sur lesquels peut porter la partir du prototype. Pour effectuer ce travail, l’INPI
recherche) étant déjà réunies. a fait appel à une société spécialiste en informa-
L’accès en langage naturel à l’information bre- tique linguistique, GSI-Erli (devenue ensuite Erli
vets passe donc par l’indexation de la CIB à l’aide puis LexiQuest), créée en 1977 et bénéficiant de
d’une équation de recherche issue de la question vingt ans d’expérience dans le traitement du lan-
enrichie aux niveaux sémantique et syntaxique. gage naturel. LexiQuest a mené à bien d’impor-
Le résultat intermédiaire obtenu est un (ou des) tantes réalisations linguistiques comme l’annuaire
indice(s) CIB. La navigation permet éventuelle- électronique de France Télécom, l’accès aux pages
ment d’obtenir des codes plus spécifiques, plus jaunes dans plusieurs langues et le langage
génériques ou voisins, qui donneront accès aux contrôlé pour l’industrie aérospatiale [7] [8].
numéros des brevets, à leur référence et au texte L’ensemble du travail a demandé l’engagement
intégral. important d’une équipe de l’INPI (spécialistes de
la Classification internationale des brevets, des
banques de données et de l’informatique) pour
définir avec Erli les caractéristiques du sys-

LE GROUPE PRINCIPAL A61F 9/00 ET SES SOUS-GROUPES, PRÉCÉDÉS DU TITRE DE LA SOUS-CLASSE A61F

A 61 F FILTRES IMPLANTABLES DANS LES VAISSEAUX SAN- 9 / 013 ••pour la compensation de la réfraction oculaire (A61F
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


GUINS ; PROTHÈSES ; DISPOSITIFS D’ORTHOPÉDIE, DE 9/008 a priorité)[6,7]
SOINS OU DE CONTRACEPTION ; FOMENTATION ; TRAITE- 9 / 02 •Lunettes protectrices
MENT OU PROTECTION DES YEUX OU DES OREILLES ;
BANDAGES, PANSEMENTS OU GARNITURES ABSOR- 9 / 04 •Masques pour les yeux
BANTES ; NÉCESSAIRES DE PREMIER SECOURS (pro- 9 / 06 ••Masques, écrans ou cagoules pour soudeurs (dispositifs
thèses dentaires A61C) [6] de sécurité pour la soudure en général F16P 1/00)
9 / 00 Procédés ou dispositifs pour le traitement des yeux ; Dispo- 9 / 08 •Dispositifs ou méthodes permettant au patient de voir en
sitifs pour mettre en place des verres de contact ; Dispositifs remplaçant la perception directe de la vue par une autre
pour corriger le strabisme ; Appareils pour guider les
aveugles ; Dispositifs protecteurs pour les yeux, portés sur Organisation hiérarchique du groupe A61F 9/00 et de ses sous-groupes
le corps ou dans la main (casquettes protégeant les yeux
A42B 1/06 ; visières pour casques A42B 3/22 ; accessoires
pour aider les invalides à se déplacer A61H 3/00 ; bains A61F 9/00
d’œil A61H 35/02 ; lunettes de soleil ou lunettes d’automobi- 9/008 9/04
liste ayant les mêmes caractéristiques que des lunettes 9/007 9/011
G02C) 9/06
9/013 9/01
9 / 007 •Procédés ou dispositifs pour la chirurgie de l’œil [6] 9/009
9 / 008 ••utilisant un laser [7] 9/02
9/08
9 / 009 •••Dispositifs auxiliaires destinés à réaliser un contact avec
le globe oculaire et un couplage de la lumière laser [7]
9 / 01 •••Traitement de la cornée [7]
9 / 011 •••Procédés ou dispositifs invasifs [7]

Documentaliste - Sciences de l’information 2000, vol. 38, n° 2 • 103


ÉTUDE ACCÈS AUX BREVETS EN LANGAGE NATUREL

tème, valider les résultats de chaque étape du La CIB, d’autre part, a été « disséquée » d’un
travail, et demander les corrections et améliora- point de vue morpho-lexical : répartition des
tions du système. termes par catégories morphologiques (noms,
adjectifs, verbes, etc.), étude des mots composés,
Mise au point du prototype des sigles et abréviations, des noms propres, des
Cette phase a duré un an (juillet 1993 - juillet polysèmes, des termes inconnus, des fautes ortho-
1994). Il s’agissait de construire un sous-ensemble graphiques et dactylographiques. La structure syn-
du futur système défini à partir des caractéristiques taxique de la classification a été aussi étudiée : syn-
horizontales (secteurs techniques) et verticales tagmes nominaux simples, groupes pré-
(niveau de l’indexation) de la CIB. Deux sections positionnels complexes, rattachements réguliers et
sur huit ont été choisies pour la couverture tech- irréguliers, structures de coordination, etc. Cette
nique : A : Nécessités courantes de la vie et B : Tech- étude a permis d’identifier les spécificités de la
niques industrielles diverses ; Transports. Le niveau CIB qui rendent difficile son traitement : libellés
d’indexation pris en compte pour le prototype a mixtes procédés/produits/appareils, libellés dont la
été limité à la sous-classe, soit 763 intitulés. compréhension nécessite la prise en compte du
Le prototype a été réalisé sur la base de l’in- niveau hiérarchique supérieur, renvois et notes [9].
dexation structurée, en trois étapes : étude des L’indexation structurée intègre les termes
besoins des usagers et examen de la CIB, réalisa- extraits des intitulés indexés et des questions ana-
tion proprement dite du prototype, et recomman- lysées, les fonctions syntaxico-sémantiques de ces
dations. termes et la structure de dépendance des termes
Études des besoins des usagers et de la CIB. entre eux [10].
L’analyse de la formulation des questions par les Réalisation du prototype. Le prototype a été
utilisateurs a été effectuée à partir d’un corpus de réalisé à partir de l’analyse du corpus de questions
129 questions recueillies par différentes voies et de l’indexation structurée du périmètre restreint
(messagerie électronique, téléphone, télécopie). de la classification précédemment précisé. Il a
Elle a permis d’effectuer une étude sémantique fourni des réponses, c’est-à-dire un ou plusieurs
(termes employés définissant le sujet) et syn- indices CIB à chacune des questions. Ces réponses
taxique (nombre de termes et structure de l’en- n’étaient que partiellement satisfaisantes (environ
semble des mots) des questions. 40 % de résultats exacts), mais l’essentiel était de

La Classification internationale des brevets (Suite de la page 102) suivi de /00, par exemple C07D 265/00, G10K
11/00.
ajoutée à l’état connu de la technique. L’at- A Nécessités courantes de la vie Les groupes principaux sont encore sub-
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

tribution des symboles par les administra- B Techniques industrielles diverses ; divisés en sous-groupes qui reprennent le

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


tions chargées de délivrer les brevets assu- Transports symbole de leur groupe principal jusqu’à la
re objectivité et continuité dans le codage C Chimie ; Métallurgie barre oblique incluse, mais le double zéro
de l’information. D Textiles ; Papier (00) y est remplacé par un nombre qui peut
Dans le monde, plus d’une centaine d’of- E Constructions fixes avoir de deux à cinq chiffres, tel que C07D
fices de brevets apposent les symboles de la F Mécanique ; Éclairage ; Chauffage ; 265/02, G10K 11/165.
CIB sur les documents qu’ils publient. Armement ; Sautage La septième édition (janvier 2000) de la
G Physique CIB comprend 118 classes, 628 sous-classes,
H Électricité 7 340 groupes principaux et 61 750 sous-
Structure Un Guide d’utilisation faisant partie inté- groupes. Comme les documents de brevet
Les symboles de la CIB sont des chaînes grante de la CIB en donne le mode d’emploi. sont en principe classés au niveau du grou-
alphanumériques indépendantes de la Chaque section est divisée en un certain pe principal ou du sous-groupe, il y a en fait
langue du document de brevet ; ils corres- nombre de classes, par exemple A01, B29 plus de 69 000 entrées possibles pour clas-
pondent chacun à une définition précise. (lettre de la section + nombre à deux ser ou chercher un document.
La CIB couvre tous les domaines tech- chiffres). Chaque sous-groupe est précédé d’un ou
niques susceptibles de faire l’objet de bre- Chaque classe est elle-même constituée plusieurs points (jusqu’à 10) et c’est uni-
vets, soit de manière détaillée, soit de de sous-classes (symbole de la classe + une quement le nombre de points qui détermine
manière générale. Elle est subdivisée selon lettre) telles que C07D, D21H, G10K. la position hiérarchique du sous-groupe.
une structure hiérarchique (arborescente) À leur tour, les sous-classes sont subdi- Ainsi un sous-groupe à deux points dépend
dont le niveau le plus élevé est la section. Il visées en groupes principaux dont le sym- d’un sous-groupe à un point qui lui-même
y a huit sections représentées chacune par bole reprend celui de la sous-classe auquel dépend de son groupe principal à lire dans
une lettre : on ajoute un nombre de un à trois chiffres le contexte de la sous-classe, et ainsi de

104 • Documentaliste - Sciences de l’information 2001, vol. 38, n° 2


comprendre si les résultats obtenus à partir de ce
traitement pouvaient être améliorés, en particu- Figure 1 - Prise en compte de la CIB par le système CIB-LN
lier, par une prise en compte de l’indexation de la
totalité ou d’une plus grande partie de la CIB.
Recommandations. À l’issue de l’évaluation des
réponses fournies par le prototype, les recom-
mandations formulées ont porté sur la « surface
utile » de la CIB à prendre en compte, sur les infor-
mations complémentaires de cette classification à
inclure ou à exclure de l’indexation, et sur le trai-
tement de l’indexation elle-même.
L’étude détaillée des réponses obtenues à partir
du prototype a montré, en effet, que l’interroga-
tion pouvait être améliorée par les développements
et les ajouts du vocabulaire des questions et l’in-
sertion des notes et renvois des sections non prises
en compte dans le prototype. Les difficultés
venaient de l’absence de désambiguïsation séman-
tique comme de vocabulaire précis dans les
niveaux de la CIB (polysémies, périphrases, etc.).
Différentes entrées supplémentaires pouvaient être
ajoutées dans le futur système : rubriques guidées
et/ou schémas généraux, groupes principaux et Réalisation du système complet
sous-groupes. Cette phase a duré trois ans, de 1995 à 1997, et
C’est pourquoi l’INPI a décidé de poursuivre le a été décomposée en trois étapes : spécifications
travail et de réaliser un système complet d’accès à détaillées, mise au point des différents modules,
l’information brevets en langage naturel utilisant la enfin tests et mise au point.
Classification internationale des brevets : le sys- Spécifications détaillées. La première étape de
tème CIB-LN. ces spécifications a été de définir exactement

suite. À noter qu’un groupe à n points peut dessus, le groupe A61F 9/01 concerne uni- le libellé, sont en fait classés ailleurs ;
se trouver séparé du groupe à n-1 points quement le traitement chirurgical de la cor- - règles à suivre pour le classement, en
dont il dépend par d’autres groupes paral- née (procédés et dispositifs) utilisant un particulier règles de priorité qui indiquent
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

lèles à n points et leurs propres sous- laser, puisque ce groupe dépend du groupe quelle entrée doit être choisie lorsqu’un

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


groupes. A61F 9/008 lui-même indenté sous A61F objet technique répond à la définition de
À titre d’illustration, le groupe principal 9/007. plus d’une entrée (voir le groupe A61F 9/013
A61F 9/00 et ses sous-groupes sont repro- Destinée à couvrir des inventions qui par dans l’exemple ci-contre) ;
duits ci-contre, précédés du titre de la sous- essence ne sont pas connues lors de son éla- - définition particulière de certains
classe A61F. L’organisation hiérarchique de boration, la CIB utilise des expressions tech- termes.
ce groupe et de ses sous-groupes peut être niques, mais aussi beaucoup de périphrases De tels correctifs apportés à une entrée
représentée par le diagramme proposé. descriptives aptes à couvrir les futures s’appliquent systématiquement aux entrées
Ce schéma montre que le nombre de inventions en les définissant sans ambiguï- qui en dépendent hiérarchiquement.
deux à cinq chiffres (exemple /007) placé té soit de manière détaillée, soit de maniè- Ajoutons encore que certaines sous-
après la barre oblique dans le numéro du re plus générale. classes comportent des schémas généraux,
groupe n’a aucun rapport avec la position Les libellés des sous-classes, des qui jouent le rôle de tables des matières indi-
hiérarchique de ce dernier ; il ne peut donc groupes principaux et des sous-groupes quant les thèmes généraux couverts par la
pas être utilisé pour effectuer des tronca- décrivent précisément le contenu de ces sous-classe et donnant les numéros de
tures lors de recherches. entrées et doivent être utilisés en respec- groupes principaux correspondants. Par
Pour faciliter la lecture des entrées, leur tant exactement le contenu du texte. ailleurs, plusieurs groupes principaux peu-
libellé est réduit autant que possible, mais Toutefois, le contenu des entrées est vent être rassemblés sous un même chapeau
il ne faut jamais perdre de vue qu’il contient éventuellement modifié par des indications nommé rubrique-guide qui ne comporte pas
implicitement le texte de toutes les entrées complémentaires : de symbole alphanumérique mais indique
hiérarchiquement supérieures, ce qui signi- - « renvois » qui indiquent entre paren- les sujets communs à ces groupes principaux
fie que les libellés ne sont en général pas thèses que certains sujets, qui devraient et contient éventuellement des renvois qui
autosuffisants. Ainsi, dans l’exemple cité ci- normalement se trouver à cet endroit d’après leur sont applicables. (Suite page suivante)

Documentaliste - Sciences de l’information 2001, vol. 38, n° 2 • 105


ÉTUDE ACCÈS AUX BREVETS EN LANGAGE NATUREL

les contours du système, définition issue de dexation, etc.


l’évaluation du prototype. Ces contours ne sont L’indexation structurée du prototype a montré
pas définis par les huit sections de la CIB et un son intérêt mais aussi ses limites, en particulier
seul niveau d’indexation, mais par une structure dans le traitement des questions complexes. Le
complexe (excluant la chimie parce que ce type système complet a donc été développé avec un sys-
de recherche n’est pas adapté à ce domaine), et tème d’indexation dite « à plat » (tous les termes
dont le résultat au niveau du groupe principal ont le même statut par rapport au document et ont
(7 265 entrées) demande la prise en compte du les mêmes relations entre eux) qui associe le
vocabulaire de certains sous-groupes (figure 1) moteur linguistique de LexiQuest au moteur docu-
[11]. mentaire Topic de la société Verity.
Il est en effet possible de lancer une recherche Les autres travaux de ces spécifications ont
sur les sous-groupes, puis de remonter au niveau porté sur l’interface de dialogue et de navigation,
des groupes principaux qui constitueront le niveau sur le chargement de la version 6 de la CIB (le pro-
des réponses à partir duquel une navigation et une totype avait été réalisé avec la version précédente,
recherche pourront être réalisées sur les niveaux CIB 5), et la stratégie de construction de la base de
descendants. connaissances.
La deuxième étape très importante de ces spé- Mise au point des différents modules. Ce tra-
cifications a été la définition d’un corpus de test de vail a porté sur la construction de la base de
376 questions et son évaluation, c’est-à-dire le connaissances, c’est-à-dire l’enrichissement du
choix du (ou des) indice(s) de la CIB répondant à vocabulaire de la question en langage naturel par
chacune de ces questions avec deux niveaux de son intégration dans un réseau sémantique hié-
pertinence (bon, acceptable). Ce sont ces réponses rarchique : générique, spécifique, synonyme, asso-
qui constituent le référentiel permettant à chaque cié. Cette constitution progressive de la base de
nouveau test d’attribuer un facteur positif, nul ou connaissances s’est effectuée par des validations
négatif aux différentes versions du système. successives en utilisant le corpus de référence. La
L’analyse de la CIB faite pour le prototype a per- mise en œuvre de la navigation à partir des indices
mis de sélectionner les différents éléments à de la classification obtenus et la conception de l’in-
prendre en compte dans l’indexation : intitulés de terface entre la CIB et les banques de données bre-
la classification, index des mots clés, codes d’in- vets ont aussi fait partie de cette étape.

La Classification internationale des brevets (Suite de la page 105) la mise en œuvre des procédés peuvent être
classés avec les procédés s’ils n’ont pas d’en-
À côté de la CIB proprement dite, il exis- pour classer les inventions : soit le classe- trée propre.
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

te un index des mots clés destiné à faciliter ment est axé sur la fonction (les inventions

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


la recherche d’un classement à partir d’un sont rangées selon leur structure intrin-
La CIB et l’accès à l’information brevets
mot. sèque, par exemple les composés chimiques
sont répertoriés selon leur formule chi- L’aperçu du système de la CIB qui est
mique), soit il est axé selon leur domaine donné ci-dessus montre qu’il s’agit d’un sys-
Détermination du classement
d’application (dans l’industrie automobile, tème fortement structuré, avec un formalis-
Pour attribuer un classement à un docu- dans l’industrie textile, etc.). La CIB est un me très développé. Les offices de brevet qui
ment de brevet, l’examinateur doit étudier système mixte, mais elle est majoritairement utilisent la CIB ont réaffirmé récemment leur
l’invention de manière globale et non classer axée sur la fonction afin de faciliter les attachement à ce système car, si son utilisa-
ses parties constitutives. Il cherche le grou- recherches d’antériorité dans le cadre de la tion peut paraître difficile au premier abord,
pe le plus indenté dans la hiérarchie dont la procédure de délivrance des brevets en évi- elle reste aujourd’hui encore irremplaçable
définition correspond encore à l’invention, tant l’atomisation des informations par en dépit des progrès incontestables des
ce qui signifie qu’un document peut être clas- domaine d’application. Le classificateur, lors- autres techniques de recherche, notamment
sé dans un groupe principal si aucun groupe qu’il a le choix entre classement selon la parce que les symboles sont attribués par
à un point ne peut être attribué. fonction et classement selon l’application, des professionnels et qu’elle permet de sur-
Dans la mesure du possible, la CIB est devra en outre donner la priorité au premier, monter l’obstacle des langues.
conçue pour qu’un symbole suffise à carac- à moins que l’application ne soit détermi- C’est la raison pour laquelle l’INPI
tériser une invention, mais un document nante pour la structure de l’invention. considère la CIB comme l’intermédiaire
peut comporter plusieurs symboles pour Lorsqu’ils ne sont pas explicitement pré- incontournable de l’accès à l’information
représenter des variantes, par exemple un vus dans des entrées spécifiques, les procé- brevets et a développé un outil d’interroga-
produit et son procédé de fabrication, etc. dés de fabrication sont classés avec les pro- tion en langage naturel pour la mettre à la
Il existe deux philosophies principales duits fabriqués ; de même, les appareils pour portée des usagers non spécialistes.

106 • Documentaliste - Sciences de l’information 2001, vol. 38, n° 2


Tests et mise au point. Les tests ont été pour- dans les vingt premières réponses données. L’obli-
suivis en même temps qu’étaient réalisées l’ergo- gation d’une recherche professionnelle exhaustive
nomie de l’interface utilisateur, les méthodes de de l’information brevets privilégie un taux de rap-
tri et de présentation des réponses à l’utilisateur et pel important en acceptant un bruit inévitable.
la collecte des indices CIB pour leur transfert dans Le lien a été effectué sur le site web de l’INPI
les bases de données. réalisé par la société Jouve qui, à part les rensei-
Lors de la mise en ligne opérationnelle du sys- gnements généraux sur l’Institut et sur la pro-
tème, le taux de rappel (proportion de documents priété industrielle, permet la recherche de brevets
pertinents retrouvés par rapport à l’ensemble des ainsi que le lien vers les autres services d’infor-
documents pertinents existant dans la base pour mation : marques, dessins et modèles, entreprises
une question donnée) était d’environ 79 % et près [12].
de 55 % des réponses attendues apparaissaient

Figure 2 - Données indexées pour un groupe principal


Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


Figure 3 - Architecture de l’application CIB-LN

Documentaliste - Sciences de l’information 2001, vol. 38, n° 2 • 107


ÉTUDE ACCÈS AUX BREVETS EN LANGAGE NATUREL

ou d’autres intitulés voisins. L’écran de visualisation

3 L’application
en ligne
La question de l’usager est formulée en langage
présente, d’une part, la hiérarchie dans laquelle s’ins-
crit l’indice sélectionné et, d’autre part, les différents
groupes principaux voisins du groupe principal
sélectionné (figure 3).
Après sélection d’un ou de plusieurs indices, l’uti-
courant, elle est analysée (mots composés, mots lisateur peut obtenir les numéros de brevets fran-
vides, etc.) et enrichie par des synonymes issus d’une çais, européens et les demandes internationales com-
terminologie vivante qui est progressivement déve- portant ces indices. Il sélectionne ensuite ceux dont
loppée. La requête, ainsi exprimée par une série de il souhaite obtenir les données bibliographiques puis
termes et par les relations entre ces termes, accède le texte intégral. Cette recherche est effectuée sur
à la CIB indexée, c’est-à-dire aux termes des diffé- un peu plus de deux ans d’antériorité, soit environ
rents libellés pris en compte : sous-groupe, groupe 300 000 documents. Les demandes publiées de bre-
principal et sous-classe, renvois correspondants et vets français ayant été numérisées, il est possible
mots clés extraits de l’index des mots clés (figure 2). d’obtenir, à partir de la référence, le texte intégral
Le résultat est exprimé par le nombre d’indices et en format fac-similé du document (voir l’exemple
d’intitulés de la CIB obtenus (entrées) au niveau du proposé ci-dessous).
groupe principal et par la visualisation des trente Les liens avec le service esp@cenet de l’Office
premiers, par ordre de pertinence décroissante. Cet européen des brevets (OEB) et les banques de brevets
indice de pertinence, non visible par l’usager, intègre d’autres pays permettent l’accès à plus de 30 millions
le nombre de termes de la question obtenus dans la de références dont certaines, en fonction du pays et
réponse et la pondération spécifique à chaque terme de l’antériorité, donnent accès au texte intégral.
(des termes tels qu’appareil ou procédé ont une pon- Actuellement le nombre de visites au système
dération faible). À partir des indices et intitulés obte- CIB-LN est d’environ 7 000 par mois (figure 4). À
nus (groupe principal ou sous-classe), l’utilisateur ces visites correspondent environ 25 000 questions
peut naviguer dans la classification afin de préciser mensuelles (figure 5). La forte augmentation consta-
son sujet au niveau de sous-groupe(s) spécifique(s) tée entre octobre et novembre 2000 est due au chan-

Exemple de recherche de brevets en langage


naturel avec CIB-LN
Étapes d’une recherche sur l’expression : dérailleur de vélo - L’écran propose d’une part la hiérarchie des symboles de la

1 - Sur le site INPI (www.inpi.fr), on clique sur la fonction 2 CIB permettant la navigation à partir de l’intitulé choisi,
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


« Recherche Brevets ». d’autre part la sélection d’un ou de plusieurs intitulés : indice sélectionné,
- L’expression « dérailleur de vélo » est introduite dans l’espace de indices spécifiques et voisins. On sélectionne le sous groupe
formulation de question. Le moteur de recherche propose en réponse B62M-25/04. (Figure II)
149 entrées (sur 7 268, nombre total des groupes principaux). On clique
sur la première réponse, la plus pertinente. (Figure I)

Figure I - Entrées CIB proposées par le moteur de recherche Figure II - Hiérarchie et libellés des symboles CIB

108 • Documentaliste - Sciences de l’information 2001, vol. 38, n° 2


gement de présentation de la recherche des brevets
sur le site.

4 Les développements
de l’application CIB-LN
Le développement minimal est d’enrichir le voca-
Figure 4 - Évolution des visites du système CIB-LN

bulaire du lexique par les termes des nouvelles ques-


tions, d’identifier et d’analyser les questions qui sont
restées sans réponse ou n’ont obtenu que des répon-
ses non satisfaisantes. Pour cela des outils de suivi
extraient automatiquement les questions n’ayant pas
obtenu de réponse ainsi que des échantillons de
réponses, afin d’en suivre la pertinence.
Des développements plus importants sont en
cours portant, d’une part, sur une nouvelle version
du logiciel d’indexation, d’autre part, sur le déve-
loppement du système d’accès dans d’autres langues.
La nouvelle version du logiciel LexiRespond amé-
liorera l’indexation des intitulés de la CIB ainsi que
l’analyse linguistique des questions : identification
des mots simples et des mots composés, des diffé-
rentes structures grammaticales (nom, verbe, adjec-
tif, etc.) et de leur pertinence.

Figure III - Première page du brevet obtenu

- Les brevets sont recherchés, soit sur le site INPI (brevets


3 français, européens et demandes internationales), soit sur le
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


site esp@cenet de l’OEB (brevets européens, brevets des pays membres
de l’OEB, brevets américains, japonais, etc.).
- Dans le site INPI, des numéros et des titres de brevets français, euro-
péens et de demande internationale sont proposés. On sélectionne un bre-
vet français.
- On obtient le texte intégral de cette demande de brevet
avec dessins. (Figure III)

On peut remarquer que les termes de la recherche ne figurent ni dans le


titre ni dans l’abrégé : c’est le classement précis de la CIB qui a permis d’ob-
tenir ce document.

Documentaliste - Sciences de l’information 2001, vol. 38, n° 2 • 109


ÉTUDE ACCÈS AUX BREVETS EN LANGAGE NATUREL

Différents scores sont calculés, qui repèrent le Références


pourcentage des termes de la question correspon-
[1] Code de la propriété intellectuelle, article L.411-1. Paris,
dant à un intitulé indexé mais aussi le pourcentage
Direction des Journaux officiels, 1999. P. 63
des termes de l’intitulé indexé correspondant aux
[2] Innover grâce au brevet, Yann de Kermadec. Paris, INSEP
termes de la question. La combinaison de ces deux
Éditions, mars 1999. 150 p.
calculs conduit à une meilleure pertinence des résul-
[3] Classification internationale des brevets. 7e éd. Genève,
tats à laquelle on ne parviendrait pas par une simple
Organisation mondiale de la propriété intellectuelle, 1999.
intersection entre les termes enrichis de la question
9 vol.
et des intitulés de la CIB.
[4] La propriété industrielle : sources et ressources d’infor-
Ces notions sont affinées par un facteur de per-
mation, Bernard Marx. Paris, Nathan Université, ADBS Édi-
tinence à quatre niveaux attribué aux termes. De
tions, 2000. 128 p. (Collection 128 ; 252. Domaine Informa-
façon analogue à la réalisation initiale de l’accès en
tion/documentation)
langage naturel, ce développement important du
[5] Techniques linguistiques et statistiques pour sélection-
système donnera lieu à un grand nombre de tests
ner l’information pertinente, Pierre Le Loarer, Étienne Nor-
qui permettront d’évaluer les améliorations dues à
mier. In : IDT 96, 13e congrès, Paris, 21-23 mai 1996, Textes des
chacun des facteurs.
communications. P. 115-120
Ce retour à l’utilisation de l’indexation structurée,
[6] Besoin en traitements automatiques du langage naturel
exploitant plus facilement de grandes quantités de
pour la recherche d’information sur les réseaux, Philippe Thé-
données qu’il y a quelques années, distingue en par-
ret. In : La recherche d’information sur les réseaux, cours
ticulier LexiRespond d’autres systèmes d’accès en
INRIA, 30 septembre - 4 octobre 1996, Trégastel, coord. par
langage naturel [13].
Jean-Claude Le Moal et Bernard Hidoine. Paris, ADBS Éditions,
L’autre développement important est l’utilisation
1996. P. 127-164
du système en langage naturel dans d’autres langues.
[7] Lexiware, logiciel d’analyse linguistique, Bernard Nor-
Il a été indiqué précédemment que le système est
mier. In : Valorisation des gisements d’information, actes de la
constitué de deux ensembles : CIB indexée et ques-
journée d’étude organisée par le GFII, Paris, 27 mars 1998.
tions analysées. La structure identique de la CIB
Paris, Groupement français de l’industrie de l’information,
dans différentes langues dont le français et l’anglais
1998. 18 p.
permet, le travail étant réalisé en français, d’obtenir
[8] LexiQuest, an overview of national language solutions for
l’indexation en langue anglaise avec un minimum
text mining, Bernard Normier. In : Voyage d’étude du GFII à
d’investissement, sans rapport avec le premier.
Londres : interventions des mercredi 6 et jeudi 7 décembre
L’autre travail linguistique, c’est-à-dire l’analyse
2000 au Salon Online information. Paris, Groupement fran-
de la question en anglais, devra être effectué avec
çais de l’industrie de l’information, 2001. P. 71-90
les dictionnaires techniques disponibles et en tenant
[9] Language related problems in the IPC and search systems
compte des différences d’expression syntaxique de
using natural language, Michèle Lyon. World Patent Infor-
l’anglais par rapport au français. Une des difficultés
mation, 1999, vol. 21, 1999, p. 89-95
à résoudre sera, comme en français, la désambiguï-
[10] Indexation automatique, recherche d’information et éva-
sation des termes identiques ayant des spécifications
Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.

luation, Pierre Le Loarer. In : Le traitement électronique du


différentes dans différents secteurs d’activité, par

Document téléchargé depuis www.cairn.info - - - 105.153.67.65 - 03/11/2012 03h56. © A.D.B.S.


document, cours INRIA, 2-7 octobre 1994, Aix-en-Provence,
exemple : fraise (français), horn (anglais).
coord. par Jean-Claude Le Moal et Bernard Hidoine. Paris,
L’Office des brevets du Royaume-Uni (The Patent
ADBS Éditions, 1994. P. 149-201.
Office) et l’OEB se sont récemment déclarés inté-
[11] Entrées à inclure/exclure du système CIB-LN, Marie-Gen-
ressés par l’utilisation du système en langue anglaise
tiane Rivaille. Erli-SES-02 (V2.3.), 13 juin 1995
et ce travail commencera durant l’année 2001.
[12] Interrogation en langage naturel de la CIB, Valéry Comte.
AVRIL 2001
Mémoire de DEA « Veille technologique et IST », Université
Aix Marseille 3, juin 1998. 97 p.
[13] Une expérience d’utilisation d’un système d’information
Figure 5 - Évolution du nombre de requêtes sur le système CIB-LN
en langage naturel, Sylvie Dalbin, Bruno Salléras. Documen-
taliste - Sciences de l’Information, décembre 2000, vol. 37,
n° 5-6, p. 312-324.

110 • Documentaliste - Sciences de l’information 2001, vol. 38, n° 2