Manuel Lexique

Manuel de Lexique 3
Document version 3.1 Boris New1, Christophe Pallier2
Laboratoire de Psychologie exprimentale UMR 8581 CNRS, Universit Paris Descartes, 71, avenue Edouard Vaillant, 92774 Boulogne Billancourt Cedex, France Unit de neuroimagerie cognitive INSERM U562 Service Hospitalier Frdric Joliot, CEA F91401 Orsay FRANCE
E-mail :boris.new AT psycho.univ-paris5.fr Remerciements: Nous remercions Agns Bontemps-New qui a eu l'ide de constituer un corpus base de dialogues films. Nous remercions le projet Technolangue qui nous a permis de financer une partie de Lexique 3. Nous tenons aussi remercier l'ATILF, Jacques Dendien, Jean-Marie Pierrel, Claude de Loupy, et Jean Veronis pour leur prcieuse aide. Mots cls : Reconnaissance de mots, Frquence, Base de donne
Manuel Lexique 3 - Error! Use the Home tab to apply Titre 2 to the text that you want to appear here.
Introduction rapide pour le nouveau venu

Si vous cherchez une information particulire et ne connaissez rien Lexique, nous vous conseillons de procder de la faon suivante : lisez ce manuel (dans les grandes lignes) afin de o o o dterminer dans quelle base se trouve linformation que vous cherchez (le plus souvent cest la base Lexique3) comprendre comment cette base est structure (quel sont le ou les champs dont vous avez besoin) dterminer quelle recherche vous allez utiliser (online ou offline). Essayez dabord la recherche online et si vous ne pouvez utiliser celle-ci pour avoir linformation qui vous intresse, essayez alors linterrogation offline. (Undows)
Si vous avez un problme, faites dabord une recherche sur le forum. Si vous ne trouvez pas de rponse votre question, nhsitez pas la poster.
Comment citer Lexique ?

Lexique tant souvent mis jour, faites attention bien citer la version de Lexique que vous avez utilis. (p.ex. Lexique 3.01 ou Lexique 2.50, etc.) New B., Pallier C., Ferrand L., Matos R. (2001) Une base de donnes lexicales du franais contemporain sur internet: LEXIQUE, L'Anne Psychologique, 101, 447-462. http://www.lexique.org New, B., Pallier, C., Brysbaert, M., Ferrand, L. (2004) Lexique 2 : A New French Lexical Database. Behavior Research Methods, Instruments, & Computers, 36 (3), 516-524.
Historique de cette documentation

Dfinition des nouveaux champs de Lexique 3.6 et 3.7. Nouvelle dfinition des frquences de sous-titres Nouvelles dfinitions pour les champs sur le nombre de dfinitions 3.02 Rajout de "Comment citer Lexique?" Avertissement concernant la frquence des sous-titres 3.01 Rajout d'explications propos du code phontique utilis Suppression de la partie sur les frquences 3.00 Introduction de o ouvert/ferm; suppression de o d'origine trangre Changement de caractre pour le schwa Annexe dcrivant l'historique du champs "Phonologie" Dfinition du nouveau champs cgramlem 3.00b3 Nombre de mots des corpora recalcul Rajout de la catgorie grammaticale LIA (liaison euphonique) 3.00b2 Refonte de la conclusion et du dbut de l'tat de l'art 3.00b1 Mise jour afin de rendre compte des nouveauts de Lexique 3 3.1 3.03
TABLE DES MATIERES

Introduction rapide pour le nouveau venu 1 ETAT DE L'ART DES BASES DE DONNEES LEXICALES EN FRANAIS 2 CONSTITUTION DES CORPUS 2.1 Le corpus de textes (Frantext) 2.2 Le corpus de films (ou corpus de sous-titres) 3 ETIQUETAGE GRAMMATICAL DU CORPUS 4 ESTIMATION DE LA FIABILITE DES FREQUENCES 5 AVANTAGES DU CORPUS DE SOUS-TITRES 6 ORGANISATION DE LA BASE LEXIQUE 3 6.1 Organisation de la table Lexique3 6.2 Organisation de la table lex3.lemmes.txt 7 LES AUTRES BASES 8 LES OUTILS 8.1 Les outils "en ligne" 8.1.1 La recherche de frquence dans les corpus 8.1.2 La recherche par mots 8.1.3 La recherche par proprit 8.2 Open Lexique 8.3 Les outils "hors ligne" : Undows 9 DISPONIBILITE ET SITE WEB 10 LICENCE 11 CONCLUSION 2 6 8 8 8 9 9 10 10 10 19 19 19 20 20 20 20 23 24 25 25 25
Bibliographie Annexe A: Open Lexique - Noms des champs Annexe B: Historique de l'obtention des codes phonologiques de Lexique
27 29 30
TABLE DES TABLEAUX Tableau 1 Prsentation d'un extrait de Lexique3.txt .............................................................................................. 11 Tableau 2 Codes phonmiques.............................................................................................................................. 12 Tableau 3: Codes des catgories grammaticales ................................................................................................... 13 Tableau 4: Nombre et exemples de lemmes selon leur frquence (corpus de sous-titres) .................................... 14 Tableau 5: Informations complmentaires sur les verbes ..................................................................................... 14 Tableau 6: Nombre de mots dans Lexique 3 en fonction du nombre de syllabes et du nombre de lettres ............ 15 Tableau 7 Prsentation des oprateurs utiliss dans recherches simples ............................................................... 21 Tableau 8 Prsentation des oprateurs utiliss dans les expressions rgulires .................................................... 22
TABLE DES FIGURES Figure 1 Exemple de requte de type "Recherche par Mots" ................................................................................ 20 Figure 2 Exemple de requte effectue sur la base Lexique3. .............................................................................. 22 Figure 3 Rsultats obtenus suite la requte prsente dans la Figure 2 .............................................................. 23 Figure 4 Exemple de recherche utilisant les possibilits d'Open Lexique. ............................................................ 23 Figure 5 Exemples de requtes effectu "hors ligne" ............................................................................................ 24
Ce manuel explique pourquoi et comment utiliser la base de donnes Lexique 3. Si Lexique 1 et 2 avaient apport quelques avantages importants par rapport aux bases de donnes existant l'poque (prsence des formes flchies, actualisation, diffrents indices de frquence), il y avait encore des amliorations possibles. En effet, les frquences taient bases sur de la langue crites exclusivement (et pas de frquences orales), il n'tait pas possible d'obtenir les frquences de cooccurrences de mots (ou frquences d'expressions), les mots composs n'taient pas prsents, et nous n'avions pas accs aux frquences des diffrentes formes grammaticales d'un mme mot (p.ex. frquence de danse utilis comme nom ou utilis comme verbe). Ce sont tous ces avantages que cette nouvelle version de Lexique apporte. En rsum voici les principales nouveauts de Lexique 3 par rapport Lexique 2: Nouvelles frquences crites et orales (bases sur des sous-titres de films) Nouvelles entres de mots rcents ou populaires (ex: internet, mail, tlcharger) Frquences des films plus ralistes Frquences des homonymes et homographes (la "danse" vs je "danse") Frquence des syntagmes de n'importe quelle longueur (ex: la verte prairie) Formes orthographiques syllabes Nouvelles formes phonologiques (15 000) Prsence des mots composs (ex: garde-chasse) Frquences des chiffres et des nombres
1 Etat de l'art des bases de donnes lexicales en franais

La premire base de donnes lexicales informatise mis disposition des psycholinguistes fut Brulex (Content, Mousty et Radeau, 1990) . Brulex regroupait les 35 746 entres lexicales du Petit Robert et leurs frquences selon le TLF (Imbs, 1971). Ces frquences taient estimes sur un corpus de textes littraires datant de 1919 1964 et comprenant 26 millions de mots. Brulex connaissait cependant trois limitations importantes. La premire tait labsence des formes flchies telles que les verbes conjugus ou certaines formes crites plurielles ou fminines. Cela pose problme par exemple pour toutes les tudes concernant les formes flchies en franais ou pour estimer des frquences dunits telles que les syllabes, les lettres, les bigrammes, ou les phonmes. La seconde tait que les frquences taient bases uniquement sur des textes relativement anciens de surcrot (le plus rcent datant de 1964). La troisime de ces
limitations tait l'absence de mise jour. Les auteurs avaient clairement indiqus que leur base ne serait pas mise jour par de nouvelles champs ou des corrections aux donnes dj existantes. Manulex ou NOVLEX sont deux bases de donnes plus rcente (Lambert et Chesnet, 2001), qui fournissent les formes flchies et leurs frquences. En revanche, elles se fondent sur des corpus de manuels scolaires pour les enfants (Novlex: CE2, 417000 mots; Manulex: CP-CM2, 1,9 millions de mots). Morphalou (Romary, Salmon-Alt et Francopoulo, 2004) est une base encore plus rcentes comprenant 539 413 formes ainsi que des informations morpho-syntaxiques (catgorie grammaticale, genre, nombre et lemme). Cependant Morphalou ne contient ni les mots composs (garde-chasse, pomme de terre), ni les frquences de ces entres. Vocolex est encore une autre base de donnes qui fournit un ensemble d'indicateurs statistiques sur les similarits entre mots de la langue franaise. MHATLex (Prennou et Calms, 2000) est une base payante qui contient 81 000 lemmes et 854 000 formes flchies ainsi leurs reprsentations phonologiques, des informations morpho-syntaxiques et frquentielles. Afin d'avoir une base de donnes comprenant les formes flchies, ainsi que des estimations de frquences plus actuelles, nous avons cr la base de donnes Lexique 1 puis Lexique 2. Les frquences de Lexique 1 & 2 furent constitues partir d'une slection de textes publis aprs 1950 du corpus de textes Frantext. Lexique 2 comprenait ainsi 130 000 formes flchies ainsi que leur frquence. Si Lexique 2 apportait un certain nombre d'innovations comparativement aux bases de donnes existantes, il subsistait encore quelques limitations. Ainsi, les mots composs n'taient pas prsents dans la base. Un autre dfaut provenait du fait que n'ayant pas eu accs aux textes, nous n'avions pas la frquence des formes homographes telles que danse (dans sa forme nominale (la danse) et dans sa forme verbale (je danse)). Nous avons donc dvelopp Lexique 3 afin de lever ces limitations. Pour avoir la frquence des formes homographes, il nous fallait avoir accs d'importants corpus de textes. Nous avons donc demand aux auteurs de Frantext, l'autorisation d'utiliser la partie la plus rcente de leur corpus. Cependant, Frantext est un corpus de textes littraires (ex d'auteurs: Franoise Sagan, Michel Tournier, mais aussi Georges Perec ou Marguerite Duras). Il y a donc un style assez soutenu et le vocabulaire utilis ne reflte peut-tre pas toujours l'usage de la langue franaise. Pour cette raison, nous avons recherch un deuxime corpus refltant davantage l'usage de la langue. Nous avons d'abord pens au corpus du journal "Le Monde" mais le style utilis tait encore une fois assez labor et, du coup, paraissait loign de l'usage courant de la langue franaise. Ensuite, nous avons eu l'ide de tlcharger un corpus de pages web. Pour autant le contenu textuel des pages web n'est pas utilisable directement en raison des menus, des mentions lgales, etc. Il exige donc un important travail de prtraitement des donnes diffrent pour chaque site web tlcharg. Ce travail de prtraitement rendait donc difficile l'obtention d'un gros corpus. En troisime tentative, nous avons essay de scanner des livres ou des journaux populaires tels que des romans de gare ou des journaux tl. L encore, la tche s'est rvle ardue en raison de la mise en page relativement
complexe des magazines. Se posait aussi le problme du temps de scannage des ouvrages afin d'obtenir un corpus consquent. Enfin, nous avons eu l'ide de travailler sur des dialogues de films et de sries et plus prcisment sur les soustitres. En effet les sous-titres de films et de sries prsentent trois avantages non ngligeables: -ils existent dj sous forme numrique de fichiers textes -ils proviennent de films et de sries souvent amricaines trs populaires (ex: Ally McBeal, 24h) qui correspondent donc ce qui peut tre entendu en regardant la tlvision. -enfin, ils correspondent des dialogues parls et peuvent, de ce fait, servir estimer l'usage de la langue parle
2 Constitution des corpus

2.1 Le corpus de textes (Frantext)
L'Atilf nous a donn accs 218 textes littraires (romans) publis entre 1950 et 2000 : cela reprsente un corpus de 14,7 millions ditems.
2.2 Le corpus de films (ou corpus de sous-titres)

Ce corpu Attention ce sont deux corpus de sous-titres diffrents qui ont t utiliss pour Lexique avant la version 3.40 et celui utilis pour la version 3.40 et les versions ultrieures. Tous les dtails sur la constitution de ce corpus sont dans larticle ci-joint : New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The use of film subtitles to estimate word frequencies. Applied Psycholinguistics. Nous avons tlcharg les sous-titres de 9474 films ou saisons de sries reprsentant en tout 50 millions de mots. Ces films ont t classs en 4 catgories :
1. sous-titres de films franais : 1.9 millions de mots (e.g., Camille Claudel, Cest arrive près de chez vous), 2. sous-titres de films anglo-saxons : 26.5 millions de mots (e.g., Arizona Dream, Schindlers List), 3. sous-titres de films et series anglo-saxonnes: 19.5 millions de mots (e.g., Friends, Ally Mc Beal), and 4. sous-titres de films europens non anglo-saxons 2.5 million words (e.g., Cria Cuervos, Good Bye Lenin!).
Comme beaucoup de sous-titres avaient t obtenues par reconnaissance automatique de caractres, nous avons d'abord du effectuer un gros travail de slection et de correction des fautes d'OCR. (p.ex. "i" remplac par "l"). Nous avons calcul la frquence des mots pour chacun de ces sous-corpus. Une fois ceci effectu, nous avons calcul la frquence moyenne de chacun de ces mots traver les 4 corpus. De cette faon, nos frquences taient bases sur le corpus le plus large possible et nous vitions une trop forte influence des films et sries amricaines trs fortement reprsents. Lavantage de ce corpus est de se baser davantage sur le langage oral que le corpus de livres. En effet les soustitres de films sont composs quasiment uniquement de dialogues trs proches de ce quentendent les gens la tlvision. Ces frquences ont montr dans plusieurs analyses un avantage, assez souvent non ngligeables, en terme dexplication de la variance des temps de raction de tche de dcision lexicale par rapport aux frquences de livres.
2.3 Etiquetage grammatical du corpus

Afin d'tiqueter grammaticalement nos corpus, nous avons utilis l'tiqueteur Cordial Analyseur. Pour l'instant, Cordial semble parmi les tout meilleurs catgoriseurs grammaticaux pour le franais. Nous avons obtenu une liste de 293 000 items distincts incluant les mots composs ainsi que leur frquence Ces items comprenaient des symboles (dont la ponctuation), des abrviations, des mots trangers et des noms propres. Pour "nettoyer" cette liste, nous avons employ Aspell, le dictionnaire Francais-Gutenberg 1.0 (Pythoud, 1996) et le dictionnaire Le Grand Robert (Robert, 1996). Le rsultat de ce filtrage a produit une liste de 157 920 items.
3 Estimation de la fiabilit des frquences

La frquence des mots est un facteur trs important dans la reconnaissance des mots. Les mots utiliss couramment sont plus facilement et plus rapidement reconnus que les mots utiliss plus rarement. Beaucoup d'tude montrent que c'est le facteur expliquant le plus de variance dans la tche de dcision lexicale. Cet effet n'existe pas uniquement entre les mots trs frquents et les mots trs peu frquent (comme entre porte et osselet) mais il joue aussi pour des diffrences plus subtiles (comme entre danger et nuage). C'est donc un facteur extrmement important contrler ds lors que l'on veut mettre en vidence l'importance d'un autre facteur dans la reconnaissance de mots. Gernsbacher (1984) a suggr que les frquences bases sur des corpus crit (comme les frquences de Brulex ou de Lexique 1 et 2) n'taient pas de trs bons estimateurs de la frquence d'usage. Elle a notamment argument que ces frquences crites "classiques" ne prennent pas en compte la frquence d'occurrence parle. De plus ces frquences reposent souvent sur des corpus anciens et non actualiss. Elle a ainsi montr que la familiarit pouvait tre un meilleur prdicteur des temps de dcision lexicale (notamment pour les mots de basse
10
frquence) que les frquences utilises l'poque. Il ressort donc de ces tudes qu'il est crucial d'avoir les frquences les plus actualises et les plus proches de l'usage parl possible. Dans Lexique 3, nous proposons deux estimateurs des frquences dusage : le premier est fond sur un sousensemble de de textes littraires rcents (romans) tirs du corpus Frantext; le second repose sur un corpus de sous-titres de films.
4 Avantages du corpus de sous-titres

Un premier avantage de la prsence de ce corpus de sous-titres est qu'il contient beaucoup de films trs rcents ce qui permet d'avoir du vocabulaire plus actuels. Il a permis d'ajouter un grand nombre d'entres rcentes qui avaient beaucoup moins de chance de se trouver dans des textes littraires. C'est le cas de mots tels que techno, tlchargement, internautes, internet. Un second avantage provient du fait que les frquences de termes caractristiques du langage parl tels que Salut, Bonjour, Au revoir, Oui, ou Non sont au moins 5 fois plus frquents dans le corpus de sous-titres que dans le corpus de livres. Enfin, un dernier avantage provient du fait qu'il sera trs facile de ractualiser ce corpus trs rgulirement.
5 Organisation de la base Lexique 3

Lexique 3 est fournie sous forme de fichiers textes, les champs tant spars par des tabulations. Cela permet de les importer facilement avec la plupart des logiciels.
5.1 Organisation de la table Lexique3

La Tableau 1 prsente les diffrents champs de cette table pour quelques items.
Manuel de Lexique 3 - Error! Use the Home tab to apply Titre 2 to the text that you want to appear here. Tableau 1 Prsentation d'un extrait de Lexique3.txt
1_ortho dansant dansante dansantes dansants danse danse dans danse dansent 2_phono d@s@ d@s@t d@s@t d@s@ d@s d@s d@se d@se d@s 3_lemme danser dansant dansant dansant danse danser danser danser danser 4_cgram VER ADJ ADJ ADJ NOM VER VER VER VER
11
5_genre 6_nombre 7_freqlemfilms 8_freqlemlivres 9_freqfilms 10_freqlivres 11_infover 12_nbhomogr 13_nbhomoph 14_islem 108.14 92.57 2.34 5.54 par:pas; 2 3 0 f s 1.65 6.89 0.48 1.76 1 2 0 f p 1.65 6.89 0.21 1.96 1 2 0 m p 1.65 6.89 0.37 0.61 1 3 0 f s 41.06 35.14 38.62 29.19 2 8 1 2 8 0 108.14 92.57 18.46 9.8 imp:pre:2s; m s 108.14 92.57 5.27 4.32 par:pas; 1 4 0 f s 108.14 92.57 0.11 0.27 par:pas; 1 4 0 108.14 92.57 3.14 5.54 ind:pre:3p; 1 8 0
1_ortho 15_nblettres 16_nbphon 17_cvcv dansant 7 4 CVCCVCC dansante 8 5 CVCCVCCV dansantes 9 5 CVCCVCCVC dansants 8 4 CVCCVCCC danse 5 3 CVCCV danse 5 3 CVCCV dans 5 4 CVCC danse 6 4 CVCCV dansent 7 3 CVCCVCC
18_p_cvcv CVCV CVCVC CVCVC CVCV CVC CVC CVCV CVCV CVC
19_voisorth20_voisphon21_puorth22_puphon23_syll 24_nbsyll 25_cv-cv 3 14 5 4 d@-s@ 2 CV-CV 1 3 0 0 d@-s@t 2 CV-CVC 0 3 0 0 d@-s@t 2 CV-CVC 1 14 0 4 d@-s@ 2 CV-CV 6 18 5 3 d@s 1 CVC 6 18 5 3 d@s 1 CVC 4 54 0 4 d@-se 2 CV-CV 2 54 0 4 d@-se 2 CV-CV 2 18 0 3 d@s 1 CVC
26_orthrenv 27_phonrenv tnasnad @s@d etnasnad t@s@d setnasnad t@s@d stnasnad @s@d esnad s@d esnad s@d snad es@d esnad es@d tnesnad s@d
28_orthosyll dan-sant dan-san-te dan-san-tes dan-sants dan-se dan-se dan-s dan-se dan-sent
Lgende: ortho: le mot; phon: les formes phonologiques du mot; lemme: les lemmes de ce mot; cgram: les catgories grammaticales de ce mot; genre: le genre; nombre: le nombre; freqlemfilms: la frquence du lemme selon le corpus de sous-titres (par million doccurrences); freqlemlivres: la frquence du lemme selon le corpus de livres (par million doccurrences); freqfilms: la frquence du mot selon le corpus de sous-titres (par million doccurrences); freqlivres: la frquence du mot selon le corpus de livres (par million doccurrences);infover: modes, temps, et personnes possibles pour les verbes; nbhomogr: nombre d'homographes; nbhomoph: nombre d'homophones; islem: indique si c'est un lemme ou pas; nblettres: le nombre de lettres; nbphons: nombre de phonmes; cvcv: la structure orthographique; p-cvcv: la structure phonologique; voisorth: nombre de voisins orthographiques; voisphon: nombre de voisins phonologiques; puorth: point d'unicit orthographique; puphon: point d'unicit phonologique; syll: forme phonologique syllabe; nbsyll: nombre de syllabes ; cv-cv : structure phonologique syllabe; orthrenv: forme orthograhique inverse; phonrenv: forme phonologique inverse; orthosyll: forme orthographique syllabe
Manuel de Lexique 3 - Error! Use the Home tab to apply Titre 2 to the text that you want to appear here.
12
-Mot (ortho): La graphie est la forme orthographique du mot (p. ex.chienne) Attention, les mots correspondent seulement aux mots qui sont apparus au moins une fois dans notre corpus (16 + 50 millions de mots). Il peut ainsi y avoir des lemmes de certains mots apparus dans le corpus qui ne sont pas lists comme entres indpendante car il ny sont pas apparus en tant que tels (seul le mot driv tait dans le corpus). Lexique 2 comprenait 129 000 entres tandis que Lexique 3 en comprenait 135 000 et Lexique 3.5 142 000. -Phonie (phon): Reprsentation phonologique du mot. Les codes phonmiques utiliss sont prsents dans le Tableau 2. L'historique complet de la gnration de ce champs est prsent dans l'Annexe B: Historique de l'obtention des codes phonologiques de Lexique. Tableau 2 Codes phonmiques
Voyelles Codes Lexique Exemples a i y u o O e E 2 9 5 1 @ 3 Semi-Voyelles j 8 w yeux, paille y (semi-voyelle) huit, lui oui, nouer ui (semi-voyelle) w (semi-voyelle) bat, plat lit, mis lu roue peau, mot loge, fort t paire, treize abordera deux uf, peur cinq, linge ange on, savon Sons nomms A I U Ou o (ferm) o (ouvert) e-ferm e-ouvert schwa lidable e-ferm e-ouvert in (voy. Nasale) an (voy. nasale) on (voy. nasale) Codes Lexique p b t d k g f v s z S Z m n N l R x G
Consonnes Exemples pre, soupe bon, robe terre, vite dans, aide carr, laque gare, bague feu, neuf vous, rve sale, dessous zro, maison chat, tche gilet, mijoter main, femme nous, tonne agneau, vigne lent, sol rue, venir jota camping Sons nomms p (occlusive) b (occlusive) t (occlusive) d (occlusive) k (occlusive) g (occlusive) f (fricative) v (fricative) s (fricative) z (fricative) ch (fricative) ge (fricative) m (cons. nasale) n (cons. nasale) gn (c. nasale palat.) l (liquide) R jota (emprunt espagn.) ng (emprunt angl.)
un, parfum un (voy. nasale)
parvenu schwa non lidable
Lemme (lemme) : Le lemme est la forme canonique, cest dire linfinitif pour un verbe, la masculin singulier pour un nom ou un adjectif. Par exemple, l'item chienne a pour lemme chien.
Classe grammaticale (cgram) : Les diffrents codes utiliss pour reprsenter les catgories grammaticales sont prsents dans le Tableau 3.
13
Tableau 3: Codes des catgories grammaticales Abrviations ADJ ADJ:dem ADJ:ind ADJ:int ADJ:num ADJ:pos ADV ART:def ART:inf AUX CON LIA NOM ONO PRE PRO:dem PRO:ind PRO:int PRO:per PRO:pos PRO:rel VER Catgorie grammaticale Adjectif Adjectif dmonstratif Adjectif indfini Adjectif interrogatif Adjectif numrique Adjectif possessif Adverbe Article dfini Article indfini Auxiliaire Conjonction Liaison euphonique (l') Nom commun Onomatope Prposition Pronom dmonstratif Pronom indfini Pronom interrogatif Pronom personnel Pronom possessif Pronom relatif Verbe
- Genre (genre) : Un mot peut tre masculin (m) ou fminin (f). - Nombre (nombre) : Un mot peut tre singulier (s) ou pluriel (p) - Frquence du lemme par million selon le corpus de films (freqlemfilm2) : Elle correspond la somme des frquences des formes flchies de chaque lemme fournie par notre slection de films. Ex: freq (arbre) = freq ("arbre") + freq ("arbres") Pour advantage de dtails sur cette frquence : New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The use of film subtitles to estimate word frequencies. Applied Psycholinguistics. Attention cette frquence a chang partir de Lexique 3.40. (Elle est alors base sur un plus gros corpus et un moyennage sur les sous-corpus)
14
Tableau 4: Nombre et exemples de lemmes selon leur frquence (corpus de sous-titres)

Limite infrieure 1 000 100 50 20 Limite suprieure 30 000 1 000 100 50 Nombre de Noms lemmes 117 589 porte, voiture, caf, police 490 coin, conseil, danger 1 165 secteur, sable, nuage 1 137 Adjectifs Verbes aller, faire, voir fermer, couper, courir laver, traverser, regretter creuser, exciter Adverbes
dsol, grand, bon calme, idiot, sympa malin, joyeux, curieux
10
20
atmosphre, classique, fminin, fidle boucher, dsigner, bouquin, individu trangler pupitre, ther filmographie, radiologue, osselet dconcertant, morose quatorial, moutonnier
beaucoup, mme, souvent doucement, ailleurs, pourtant parfaitement, dsormais, lentement soudain, clairement, volontiers
1 0
10 1
8 800 30 730
vexer, assouvir, firement, btement exporter harponner, auroler hyginiquement
- Frquence du lemme par million selon le corpus de livres (freqlemlivre) : Elle correspond la somme des frquences des formes flchies de chaque lemme fournie par notre slection de livres de Frantext, normalise par une division par 14,8 (le corpus original comprenant 14,7 millions d'occurrences). - Frquence par million selon le corpus de films (freqfilm2) : Elle correspond la frquence par million d'occurrences du mot selon notre corpus de sous-titres. Contrairement Lexique 2, danse aura deux entres et deux frquences, une pour sa forme nominale (p.ex. la danse) et une pour sa forme verbale (je danse). Attention, cette frquence a chang partir de Lexique 3.40. - Frquence par million selon le corpus de livres (freqlivre) : Elle correspond la frquence par million d'occurrences du mot selon notre corpus de livres. (14,7 millions de mots). - Informations verbales (infover): Ce sont les informations de mode, de temps, et de personne que sont susceptibles de prendre les formes verbales Tableau 5: Informations complmentaires sur les verbes Mode ind cnd sub par inf imp indicatif conditionnel subjonctif participe infinitif impratif Personne 1s 2s 3s 1p 2p 3p 1re personne du singulier 2me personne du singulier 3me personne du singulier 1re personne du pluriel 2me personne du pluriel 3me personne du pluriel Temps pre fut imp pas prsent futur imparfait pass
- Nombre d'homographes (nbhomogr): Nombre d'entres ayant la mme forme orthographique mais pouvant diffrer de par leur catgorie grammaticale ou de par leur lemme. - Nombre d'homophones (nbhomoph): Nombre d'entres ayant la mme forme phonologique.
15
- Nombre de lettres (nblettres) Tableau 6: Nombre de mots (lemmes et formes flchies) dans Lexique 3 en fonction du nombre de syllabes et du nombre de lettres F.flchies 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Tot Nombre de syllabes 1 2 3 4 5 6 7 8 9 46 0 1 0 0 0 0 0 0 122 5 4 0 0 0 0 0 0 630 77 11 2 0 0 0 0 0 1592 1038 9 3 0 0 0 0 0 2596 4024 222 0 3 0 0 0 0 2423 8639 1875 5 0 1 0 0 0 1319 11478 5905 136 1 7 0 0 0 450 10207 11022 788 3 0 0 0 0 77 6300 13334 2174 49 2 0 2 0 8 3050 11511 3693 211 5 1 0 0 1 1009 7572 4574 463 13 3 0 2 1 328 3747 4038 728 37 1 0 0 0 97 1487 2680 848 81 5 1 0 0 31 484 1406 706 123 7 0 0 0 6 137 617 468 143 16 0 0 0 4 39 241 244 121 13 0 0 0 1 21 59 106 76 21 2 0 0 0 6 29 52 46 9 1 0 0 0 4 10 23 31 11 6 0 0 0 0 5 8 7 7 4 0 0 0 0 8 4 6 4 2 0 0 0 0 1 4 4 1 2 0 0 0 0 0 1 2 0 3 0 0 0 0 0 0 0 2 0 1 0 0 0 0 1 0 0 1 0 9266 46296 57394 20473 3928 711 108 32 12
N o m b r e d e l e t t r e s
10 13 Tot 0 0 47 0 0 131 0 0 720 0 0 2642 0 0 6845 0 0 12943 0 0 18846 0 0 22470 0 0 21938 1 0 18480 1 0 13638 0 0 8880 0 0 5199 0 0 2757 0 0 1387 0 0 662 0 0 286 0 1 144 0 0 85 0 0 31 0 0 24 0 0 12 0 0 6 0 0 3 0 0 2 12 14 138178
16
Lemmes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Tot
N o m b r e d e l e t t r e s
Nombre de syllabes 1 2 3 4 5 6 41 0 1 0 0 0 103 5 4 0 0 0 486 57 8 1 0 0 967 604 8 2 0 0 1211 1957 98 0 0 0 659 3541 695 3 0 1 177 3906 1913 60 0 0 29 2535 3420 336 0 0 2 1152 3802 796 22 0 1 456 2863 1359 109 0 0 174 1447 1591 248 6 0 66 752 1278 393 26 0 34 317 764 435 68 0 9 124 435 324 94 0 2 48 225 210 109 0 2 11 75 111 88 0 0 1 36 58 57 0 0 1 20 30 34 0 0 1 9 16 22 0 0 0 0 3 5 0 0 0 0 9 4 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 3676 14500 15514 6990 1970 515
7 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 4 0 6 0 15 0 11 0 16 1 6 1 10 4 4 3 1 2 3 2 0 2 1 0 0 1 77 17
9 Tot 0 42 0 112 0 552 0 1581 0 3266 0 4899 0 6056 0 6320 0 5775 0 4788 0 3466 0 2515 0 1622 0 992 0 609 0 298 0 169 0 92 0 62 0 15 0 16 0 7 0 2 1 2 0 2 1 43260
- Nombre de phonmes (nbphons) : C'est le nombre de phonmes d'aprs la reprsentation phonologique prsente dans le champ phon. - Structure orthographique (cvcv) : Elle dcrit la structure orthographique. Les voyelles sont notes V, les consonnes sont notes par C. Ainsi chienne est reprsente par ccvvccv. -Structure de la forme phonologique (p-cvcv) : C'est un dcoupage du mot en voyelles (V) et consonnes (C) selon sa reprsentation phonologique. - Nombre de voisins orthographiques (voisorth) : Le nombre de voisins orthographiques calculs partir toutes les entres de la base. Les voisins orthographiques dun mot sont les mots qui peuvent tre crs en changeant une lettre sans modifier pour autant la position des autres lettres (Coltheart, Davelaar, Jonasson et Besner, 1977). Par exemple, les mots vid, et aid sont tous des voisins orthographiques du mot aid. Les diffrents voisins de chaque mot sont prsents dans la table Voisins (que l'on peut tlcharger sur http://www.lexique.org). - Nombre de voisins phonologiques (voisphon) : Les voisins phonologiques d'un mot sont des mots qui peuvent tre crs en changeant un phonme sans modifier les autres. Ils ont aussi t calculs partir de toutes les entres phonologiques de la base Lexique3.
17
-Point dunicit orthographique (puorth) : Le point dunicit orthographique correspond au rang de la lettre en partant de la gauche partir duquel le mot peut tre identifi sans ambigut. Nous avons calcul les points d'unicit sur la base des lemmes pour que les formes plurielles ne parasitent pas les calculs (sinon toutes les formes ayant un pluriel ont un point d'unicit gale leur longueur). Pour les formes orthographiques n'tant pas lemmes, le point d'unicit orthographique est de 0.[avant la version 2.60 les voisins ntaient pas calculs sur les lemmes mais sur toutes les entres de Lexique3s] - Point dunicit phonologique (puphon) : Le point dunicit phonologique correspond au rang du phonme en partant de la gauche partir duquel le mot peut tre identifi sans ambigut. Le point d'unicit phonologique a aussi t calcul sur la base des lemmes. Pour certains lemmes trs rares nous n'avions pas leurs reprsentations phonologiques (les reprsentations phonologiques ont t calcules sur les formes orthographiques). Pour les formes orthographiques n'tant pas lemmes, le point d'unicit phonologique est de 0. - Syllabation (syll) : Les formes phonologiques ont t syllabes selon un algorithme de syllabation dcrit dans Dufour, Peereman, Pallier et Radeau (sous presse). Une version mise jour de larticle dcrivant lalgorithme utilis est prsente ladresse suivante En rsum, nous avons retenu la syllabation adopte par Pallier (1994). La syllabation est calcule sur la reprsentation phonologique prsente dans Lexique dont on a enlev les schwas finaux. Cette syllabation est base sur le principe gnral d'une segmentation syllabique entre deux consonnes sauf dans les cas des occlusives + liquides ou d'une fricative labio-dentale suivie d'une liquide. Le script de syllabation (syllabation.awk) est distribu avec lexique. - Nombre de syllabes (nbsyll) - Structure phonologique syllabique (cv-cv) : Elle dcrit la structure phonologique du mot syllab. Les consonnes sont notes C, les voyelles sont notes V et les semi-voyelles Y - Reprsentation orthographique inverse (orthrenv) : Ex: erbra (arbre). Ce type de champs, une fois tri, est trs utile pour les personnes travaillant sur les terminaisons (p.ex. en morphologie) - Reprsentation phonologique inverse (phonrenv) : Ex: RbRa (aRbR). Mme champs que prcdemment mais pour la reprsentation phonologique. -Reprsentation orthographique syllabe (orthosyll): Champs encore exprimental donnant la reprsentation orthographique syllabe (Ex mai-son). L'algorithme utilis montre quelque diffrences avec l'algorithme de syllabation utilise sur les formes phonologiques (p.ex. les schwas finaux sont compts comme des voyelles). Il fait notamment des erreurs sur les mots composs et quand deux voyelles se suivent (pays, yaourt, voyant, truand). -Catgories grammaticales possibles de la forme orthographique (cgramortho): Champs qui indique les diffrentes catgories grammaticales possibles pour une reprsentation orthographique donne. P.ex. danse sera catgorise comme "NOM,VER" c'est--dire un mot qui peut tre soit un nom, soit un verbe.
18
-Pourcentage de personnes connaissant la dfinition du lemme (deflem). Ce champs indique le pourcentage de personnes ayant dit quil connaissait le lemme du mot sur le site Combien de mots connaissez-vous ? . Cet indicateur peut donc constituer une sorte de frquence subjective objective en quelques sortes ;-). -Nombre de personnes ayant rpondu pour la dfinition de ce lemme (defobs). Ce champs indique le nombre de personnes partir duquel nous avons construit le pourcentage du champs prcdent (deflem). -Distance de Levenshtein orthographique (old20) Rcemment Yarkoni, Balota et Yap (2008) ont remis essay d'amliorer l'indice de voisinage donn par le nombre de voisins. Pour cela, pour un mot donn, ils ont calcul sa distance de Levenshtein 1 en fonction de tous les autres mots anglais. Enfin, ils ont calcul la distance moyenne des 20 mots les plus proches. Dans une srie de rgressions multiples ils trouvent que cette distance de Levenshtein moyenne explique davantage de variance que le nombre de voisins orthographiques. Nous avons ici calcul la distance de Levenshtein des 20 mots les plus proches en ayant calcul pralablement la distance de Levenshtein de chaque mot avec les 125 653 entres orthographiquement diffrentes de la base Lexique 3.6. -Distance de Levenshtein phonologique (pld20) Ce champs est l'quivalent de la distance de Levenshtein orthographique appliqu la reprsentation phonologique. phonologiques diffrentes de Lexique 3.6. -Morphologie Drivationnelle (morphoder) Ce champs donne la dcomposition en morphmes drivationnels d'un mot donn. Ainsi plumage est dcompos en plume-age. Ce champs est le rsultat du programme Drif (Namer, 2003; http://www.cnrtl.fr/outils/DeriF/). Attention pour la version actuelle de ce programme de nombreux suffixes et prfixes tant encore non traits ou traits partiellement). Par exemple, abandonner n'est pas sgment comme abandon-er mais comme un monomorphmique (abandonner). Nous sommes donc vivement intresss par toute contribution concernant ce champs. -Nombre de morphmes (drivationnels) (nbmorph) C'est le nombre de morphmes drivationnels directement calcul partir du champs prcdent. Le Tableau 7 prsente en rsum les principales caractristiques de tous les champs sous formes numriques. Tableau 7: Minimum, 1 champs numriques
er
(calcul en fonction des 71 358 formes
quartile, mdiane, moyenne, 3
me
quartile et maximum pour les 3eme Qu 7.71 13.31
Champs Frquence du lemme (films) Frquence du lemmes (livres)
Min 1er Qu Mdiane Moyenne 0 0.12 1.02 64.83 0 0.54 2.64 48.37
Max 33959.88 38943.65
Distance de Levenshtein: Nombre de transformations (ajout, suppression, remplacement) pour arriver
d'une chane de caractres une autre. P.ex. la distance de Levenshtein entre jupe et juge est de 1 et de 2 entre jupe et juger.
19
Frquence des films Frquence des livres Nombre d'homographes Nombre d'homophones Nombre de lettres Nombre de phonmes Nombre de voisins orthographique Nombre de voisins phonologiques Point d'unicit orthographique Point d'unicit phonologique Nombre de syllabes
0 0 1 1 1 1 0 0 0 0 1
0 0.07 1 2 7 5 0 0 0 0 2
0.06 0.2 1 2 9 6 1 2 0 4 3
6.67 6.74 1.27 3.45 8.86 6.44 1.43 3.93 2.38 3.55 2.76
0.42 1.01 1 4 10 8 2 5 5 6 3
26198.37 38943.65 6 24 25 20 26 38 21 17 9
5.2 Organisation de la table lex3.lemmes.txt

L'quivalent de la base Lemmes.txt pour Lexique 2 peut tre gnrer quand on tlcharge Lexique 3. Il suffit de double-cliquer sur le fichier Lemmes.bat et cela gnrera la base lex3.lemmes.txt. Lex3.lemmes.txt est organise de la mme faon que la base Lemmes de Lexique 2. Vous pouvez donc avoir sa description dans le manuel de Lexique 2.
6 Les autres bases

Au fur et mesure, nous avons cr dautres bases de donnes. Vous pouvez cliquer sur les liens afin de disposer dune explication plus dtaille. Frquence Frantext : la base avec les frquences brutes (mots et nonmots) Voisins : une base de voisins orthographiques Anagrammes : une base danagrammes Prenoms : une base de prnoms Corpatext : un corpus de textes
7 Les Outils
Afin de rendre Lexique disponible au plus grand public, nous avons mis disposition plusieurs outils gratuits permettant de l'interroger. Il existe trois moteurs de recherche "en ligne" facilement utilisables: un moteur permettant de connatre la frquence de n'importe quelle chane de caractres dans l'un des deux corpus (corpus de sous-titres ou corpus de livres),un moteur permettant de faire des requtes partir d'une simple liste de mots, et enfin un moteur permettant de connatre tous les mots partageant certaines proprits.
20
7.1 Les outils "en ligne"

7.1.1 La recherche de frquence dans les corpus C'est un nouvel outil de recherche disponible avec Lexique 3 qui permet de connatre la frquence de n'importe quelle chane de caractres. Il est ainsi possible de savoir dans combien de fois apparaissent sel et poivre dans la mme phrase. Il est aussi possible de savoir dans combien de phrases apparat le syntagme "pomme d'Adam" ou encore "la pomme d'Adam". Cela permet d'effectuer tout un pan de nouvelles recherches qui n'taient pas possible auparavant telles que des recherches concernant les relations associatives ou smantiques entre les termes, ou encore des recherches sur les expressions idiomatiques (broyer du noir, monts et merveilles). 7.1.2 La recherche par mots Ce moteur permet aux personnes dsirant obtenir une certaine caractristique donne pour une liste de mots de l'obtenir instantanment. Ce moteur permet l'utilisateur de choisir sa base, taper son ou ses mots et de lancer sa recherche. Celle-ci apparat alors dans un tableau qu'il peut par exemple copier et coller dans un tableur tel qu'Excel. La figure Erreur ! Source du renvoi introuvable. prsente un exemple d'un tel type de requte.
Figure 1 Exemple de requte de type "Recherche par Mots"
7.1.3 La recherche par proprit Le deuxime moteur de recherche permet d'effectuer des recherches par proprits sur Lexique et d'autres bases simultanment. Pour cela, l'utilisateur choisit la ou les bases sur lesquelles il dsire procder son interrogation. Dans un deuxime temps, il choisit le type de recherche qu'il dsire effectuer : il peut effectuer : 1) soit une recherche simple permettant d'utiliser quelques oprateurs basiques Ces oprateurs sont prsents dans le tableau cidessous.
21
Tableau 8 Prsentation des oprateurs utiliss dans recherches simples Symbole * . < > = < > ou > < Signification Toute chane de caractres Tout caractre Infrieur Suprieur Egal Infrieur et Suprieur Exemple a* a.o <10 >30 =10 <10 >30 Rsultat arbre, arbuste ado Mots frquence infrieure 10 Mots de frquence suprieure 30 Mots de frquence gale 10 Mots de frquence infrieure 10 et suprieure 30
2) soit une recherche utilisant la fois les oprateurs disponibles en recherche simple et les expressions rgulires. Les expressions rgulires permettent d'effectuer des recherches trs complexes de chanes de caractres. Tous les oprateurs disponibles dans la recherche par "Expressions Rgulires" sont prsents dans le Erreur ! Source du renvoi introuvable.. Un exemple de recherche complexe utilisant les expressions rgulires est la recherche ^[âeiouy]*[aeiouy][âeiouy]*$ qui permet de rechercher tous les mots ne contenant qu'une seule voyelle. Ensuite il slectionne les champs sur lesquels il effectue sa recherche puis tape l'expression recherche. L'utilisateur peut aussi choisir les colonnes qu'il dsire afficher et sur quelle colonne il dsire qu'un tri soit effectu. Une requte est prsente dans la Erreur ! Source du renvoi introuvable.. Cette requte utilise les expressions rgulires et demande tous les mots commenant par la lettre a suivie d'un f ou d'un g, qui soient nom ou adjectif, dont la frquence est suprieure 10 occurrences par million et dont la reprsentation phonmique comprend la fricative /f/. Cette requte demande en outre que les rsultats soient tris selon leur frquence par ordre croissant et de n'afficher que 4 colonnes (le mot, sa reprsentation phonmique, sa catgorie grammaticale et sa frquence).
22
Tableau 9 Prsentation des oprateurs utiliss dans les expressions rgulires

Symbole ^ $ . [xyz] [x-z] [^xyz] * Signification Dbut de chane Fin de chane Tout caractre Les caractres x, y ou z La tranche de caractres de x z Tous les caractres sauf xyz Dsigne le caractre qui prcde rpt un nombre quelconque de fois, y compris zro Dsigne le caractre qui prcde rpt au moins une fois Dsigne le caractre qui prcde rpt au plus une fois ou dsigne le caractre qui prcde exactement n fois Exemple â e$ â..e$ a[bc] a[l-n] [âeiyou] m* Rsultat arbre, arbuste tente, mare arme, acte raccroch, abruti amener, alourdi, anneau Toutes les consonnes emmener, amender, entasser emmener, amender amender, entasser buvant, parlant patronne mais pas patron
+ ? | {n}
m+ m? (buv|parl)ant nn{2}
Figure 2 Exemple de requte effectue sur la base Lexique3.
Le nombre de rsultats et les entres correspondant la requte sont alors affichs dans un tableau que l'utilisateur pourra copier et coller dans un tableur par exemple, afin de les retravailler. Pour de ne pas rendre les recherches trop lourdes pour le serveur, nous avons limit celles-ci 2 000. Si la requte de l'utilisateur dpasse les 500 rsultats, celui-ci pourra naviguer 2 000 par 2 000. La Erreur ! Source du renvoi introuvable. prsente les rsultats obtenus suite la requte prsente dans la Erreur ! Source du renvoi introuvable..
23
Figure 3 Rsultats obtenus suite la requte prsente dans la Erreur ! Source du renvoi introuvable.
De plus, deux pages html prsentent beaucoup d'exemples d'utilisation la fois de la recherche simple et de la recherche par expressions rgulires.
7.2 Open Lexique

Un des problmes de toute base de donnes est le souhait d'avoir la base la plus riche possible. Or, le fait de rajouter de nouveaux champs pose certains problmes : la taille de la base de donnes devient de plus en plus importante et la base devient de ce fait de plus en plus lente tlcharger, interroger et corriger. Afin de rsoudre ce problme nous avons dvelopp Open Lexique : il s'agit d'un moteur de recherche permettant d'interroger plusieurs bases de donnes simultanment. Cet outil nous permet donc d'ajouter des bases de donnes et des informations aux entres lexicales de Lexique sans pour autant alourdir notre base. Cela rend aussi Lexique facilement extensible. La Erreur ! Source du renvoi introuvable. prsente un exemple de requte utilisant Open Lexique o nous demandons tous les mots de 2 syllabes selon Lexique3 qui ont 3 homographes selon Brulex. Figure 4 Exemple de recherche utilisant les possibilits d'Open Lexique. Nous demandons ici tous les mots de 2 syllabes selon Lexique3 qui ont 3 homographes selon Brulex.
24
Pour l'instant, les bases interrogeables en plus des bases de Lexiqu3 et de Lexique 2 sont les bases Manulex (Lt et al., 2004), la base d'Alario et Ferrand (1999), Brulex (Content et al., 1990) et la base sur l'ge d'acquisition de Ferrand, Grainger et New (sous presse). Open Lexique permet donc aux utilisateurs de Lexique d'accder, pour certains items, l'ge d'acquisition, le nombre de voisins orthographiques et phonologiques, le nombre d'homographes et d'homophones, le nombre d'homonymes smantiques, la valence d'imagerie, etc.
7.3 Les outils "hors ligne" : Undows

Compte tenu des diffrentes limites imposes par les moteurs "en ligne", nous avons mis disposition tout un ensemble d'outils permettant d'effectuer des recherches beaucoup plus puissantes que celles "en ligne". Ainsi, nous avons regroup dans une application facilement utilisable dnomme Undows
(http://undows.lexique.org/) des outils libres tels que gawk, perl, bash, et les textutils. Nous avons choisi d'utiliser les outils awk et perl car ce sont des langages de programmation spcialiss dans le traitement de donnes de type "texte". Ces langages permettent d'effectuer facilement des requtes simples de types "slection de donnes" ou des programmes beaucoup plus complexes. En dmarrant cette application, l'utilisateur a accs plusieurs exemples de recherches courantes effectuer sur Lexique telles qu'une recherche sur tous les mots ayant la catgorie grammaticale NOM, tous les mots commenant par b, tous les mots finissant par t, ou tous les mots compris dans une certaine gamme de frquence. La Erreur ! Source du renvoi introuvable. prsente des exemples de requtes effectues avec ces outils.
Figure 5 Exemples de requtes effectu "hors ligne" Des exemples de scripts awk ou perl sont aussi inclus qui permettent de faire des oprations plus complexes telles que l'criture des mots de la base l'envers, le calcul des points d'unicit, l'algorithme de syllabation utilis
25
pour la constitution des formes syllabes de Lexique, le calcul des voisins (orthographiques ou phonologiques) et de leurs frquences, etc. De plus nous mettons disposition de nombreuses documentations avec les outils "hors ligne". Cet ensemble de documentation comprend toutes les documentations officielles des outils disponibles ainsi que deux documentations que nous avons rdiges. Nous avons notamment crit une rubrique "Foire Aux Questions" essayant de rpondre aux principales questions des utilisateurs concernant l'utilisation de Undows avec Lexique ainsi qu'une documentation expliquant comment utiliser le langage awk afin d'interroger Lexique.
8 Disponibilit et site web

Afin de faciliter l'accs Lexique, nous avons cr un site web disponible l'adresse suivante: http://www.lexique.org. Depuis la premire version de Lexique rendu publique le 19 octobre 2000, la communaut d'utilisateurs de Lexique n'a cess de grandir. Aujourd'hui, notre site accueille, chaque mois, 3000 visiteurs en moyenne. Depuis cette premire version, la base Lexique en elle-mme, le site et les outils permettant de l'interroger ont t mis jour et enrichis rgulirement. Nous avons aussi dvelopp de nouveaux outils permettant aux utilisateurs d'interroger Lexique sans tre connects internet.
9 Licence
Un des objectifs de Lexique est de rendre disponible publiquement une base de donnes qui soit la plus grande et la plus fiable possible. Pour cela Lexique est publi sous une licence qui autorise toute personne utiliser, copier, et mme modifier la base, du moment que celle-ci reste sous cette mme licence. Cette licence correspond la "Licence Publique Gnrale" existant dans le monde des logiciels libres. Nous avons choisi cette licence afin de garantir la gratuit des futures versions de Lexique, ainsi que pour encourager les diffrents utilisateurs participer l'laboration de cette base, ce qui a dj t le cas avec la collaboration de Peereman et Dufour (sous presse) pour ne citer qu'un exemple. Cette licence prsente aussi l'avantage de garantir une certaine prennit cette base. En effet, la clbre base de donnes dveloppe par l'Institut de Nimejgen, Celex a toujours t distribue sous une licence propritaire. Maintenant que les sources de financement de ce projet ont t coupes, le dveloppement de Celex semble dfinitivement arrt. C'est un problme auquel ne sera pas confront Lexique. Cette licence garantit que si un jour le projet ne devait plus tre soutenu par les auteurs l'origine du projet, un autre laboratoire pourrait tout fait tlcharger la base, la modifier et la redistribuer.
10 Conclusion
Depuis plus d'une dizaine d'annes, les psycholinguistes travaillant sur l'anglais, l'allemand ou le hollandais disposaient de Celex, une base de donnes donnant les frquences des formes ambigus grammaticalement, des formes flchies, et des frquences des mots l'crit et l'oral. Si Brulex puis Lexique 1 & 2 ont permis
26
progressivement de combler ce retard il restait encore un certains nombres de caractristiques absentes pour la langue franaise (frquences orales, frquences des homographes). Lexique 3 permet non seulement de rattraper ce retard mais apporte aussi un certain nombre de nouveauts par rapport aux bases de donnes existantes. D'autre part, les estimations de la frquence d'usage l'oral sont bases sur un corpus plus important que ceux disponibles jusqu'alors. (19 millions de mots vs 5 millions de mots pour Celex anglais). Lexique 3 dispose aussi d'un nouvel outil permettant de chercher la frquence de cooccurrence de n'importe quelle suite de mots. A notre connaissance, c'est la premire fois qu'un outil de ce type est disponible pour des corpus aussi larges. Enfin, la faon dont le corpus estimant l'usage de la langue oral permettra d'tendre et de mettre jour ces frquences trs facilement. En effet la langue tait quelque chose de vivant, il est trs important de ne pas disposer de frquences figes mais au contraire d'avoir des frquences qui suivent l'volution de cette langue
27
Bibliographie
Alario F-X., Ferrand L., Laganaro M., New B., Frauenfelder U., & Segui J. (2004) Predictors of Picture Naming Speed. Behavior Research Methods, Instruments, & Computers,36 (1), 140-155. Baayen, R. H., Dijkstra, T., & Schreuder, R. (1997). Singulars and plurals in Dutch: Evidence for a parallel dual-route model. Journal of Memory and Language, 37, 94117. Black, A.W. and Lenzo, K. and Pagel, V. (1998). Issues in building general Letter to Sound Rules. Proceedings of 3rd ESCA/COCSADA Workshop on Speech Synthesis, 77-81. Bonin, P., Chalard, M., Mot, A., & Fayol, M. (2001). Age-of-acquisition and word frequency in the lexical decision task: Further evidence from the French language. Current Psychology of Cognition, 20, 401-443. Bonin, P., Barry, C., Mot, A., & Chalard, M. (2004). The influence of age of acquisition in word reading and other tasks: A never ending story? Journal of Memory and Language, 50, 456-476. Coltheart, M., Davelaar, E., Jonasson, J.T., & Besner, D. (1977). Access to the internal lexicon. In S. Dornic (Ed.), Attention and Performance (Vol. 6, pp. 535-555). New York : Academic Press. Content, A., Mousty, P., & Radeau, M. (1990). BRULEX: Une base de donnes lexicales informatise pour le Franais crit et parl [A lexical computerized database for written and spoken French]. LAnne Psychologique, 90, 551-566. Dufour, S., Peereman, R., Pallier, C, Radeau, M. (2002). VoColex: A lexical database on phonological similarity between French words. L'Anne Psychologique, 102, 725-746. Gernsbacher, M. A. (1984). Resolving 20 years of inconsistent interactions between lexical familiarity and orthography, concreteness, and polysemy. Journal of Experimental Psychology: General, 113, 256-281. Keller, E., & Zellner, B. (1998). Motivations for the prosodic predictive chain. Proceedings of ESCA Symposium on Speech Synthesis, 76, 137-141. Lambert, E., & Chesnet, D. (2001). NOVLEX: Une base de donnes lexicales pour les lves de primaire. LAnne Psychologique, 101, 277-288. [Available: http://www2.mshs.univ-poitiers.fr/novlex/] Lt, B., Sprenger-Charolles, L., & Col, P. (2004). MANULEX: A grade-level lexical database from French elementary school readers. Behavior Research Methods, Instruments, & Computers, 36, 156-166.
28
Monsell S. (1991). The nature and locus of word frequency effects in reading, in D. Besner (Edit) et G. Humphreys (Edit), Basic processes in reading: Visual word recognition, Hillsdale, NJ, (Lawrence Erlbaum Associates), 148-197. Morrison C., Ellis A. (1995). Roles of word frequency and age of acquisition in word naming and lexical decision, Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, (1), 116-133. Namer F. (2003). Automatiser l'analyse morpho-smantique non affixale: le systme DriF. Cahiers de Grammaire, Nabil Hathout, Michel Roch et Nicole Serna (ds). Toulouse: ERSS, pp.31-48. New, B., Brysbaert, M., Segui, Ferrand, L., Rastle, K. (2004) The Processing of singular and plural nouns in French and English. Journal of Memory and Language, 51, 568585. Pagel, V. and Black, A.W. and Lenzo, K. (1998). Letter-to-Sound Rules for Accented Lexicon Compression. Proceedings of ICSLP'98, 252-255. Peereman, R., & Dufour, S. (2003). Un correctif aux notations phontiques de la base de donnes LEXIQUE [A corrective to the phonetic notations of the LEXIQUE database]. LAnne Psychologique, 103, 103-108. Pythoud, C. (1996). Problmes de la correction automatique de lorthographie lexicale du Franais travers une tude de cas: Le correcteur orthographique ispell et le dictionnaire FranaisIREQ [Automatic spellchecking problems: The ispell program and the FrenchIREQ dictionary] available at
http://www.vuil.ch/ling/frgvt.html. Mmoire de licence, Universit de Lausanne. Robert P. (1996). Le Grand Robert Electronique, Havas Interactive. Romary L., Salmon-Alt S., Francopoulo G. (2004). Standards going concrete : from LMF to Morphalou. Workshop on Electronic Dictionaries, Coling Geneva, Switzerland. Yarkoni, T, Balota, D.A., & Yap, M.J. (2008). Moving Beyond Coltheart's N: A New Measure of Orthographic Similarity. Psychonomic Bulletin & Review, 15, 971-979.
29
Annexe A: Open Lexique - Noms des champs

A quoi correspond les diffrents champs de telle ou telle base (comment les informations ont-elles t obtenues) ? 400 images (Alario & Ferrand) : Article dAlario et Ferrand 400AoA (Ferrand, Grainger & New) : Article de Ferrand, Grainger & New Anagrammes (Lexique) : Page Web de la base Anagramme Brulex (Content, Mousty & Radeau) : Documentation Brulex Graphemes (Lexique 2) : Ce document Lemmes (Lexique 2) : Ce document Manulex Lemmas (Lt, Sprenger-Charolles, & Col) : Page Web Manulex Manulex Wordforms (Lt, Sprenger-Charolles, Col) : Page Web Manulex Prnoms (Mike Campbell) : Page Web de Prnoms Surface (Lexique 2) : Ce document Voisins (Lexique) : Page Web de Voisins Frquence subjective et valeur d'imagerie (Desrochers & Bergeron): Ce document
30
Annexe B: Historique de l'obtention des codes phonologiques de Lexique

Le problme de l'obtention des codes phonologiques de Lexique provient du fait que Lexique a toujours compris un grand nombre de formes flchies. Nous n'avons donc pas pu utiliser de dictionnaire comme c'tait le cas pour Brulex.
Lexique 1
Pour Lexique 1, nous avons driv la forme phonologique de nos entres grce au logiciel LAIPTTS 1.13 (Keller & Zellner, 1998). Ce logiciel utilise un noyau de 500 rgles de conversion graphme-phonme rendant compte de plus de 86% des prononciations. Afin de traiter les exceptions, il dispose aussi dun dictionnaire compos de 6 000 mots ayant des prononciations exceptionnelles. Sur 4 000 phrases du quotidien Le Monde, lauteur rapporte que son logiciel a un taux derreur de 0,001 %. Cependant, ce logiciel (LAIPTTS) tait un logiciel prvu pour gnrer de la parole partir de textes continus et non de mots isols (cadre dans lequel nous l'avons utilis).
Lexique 2
Pour Lexique 2, Peereman et Dufour (sous presse) ont examin, les codes phonmiques de Lexique 1 en les comparant aux notations phonmiques donnes par Brulex (elles-mmes bases sur le dictionnaire Le Petit Robert). Ils ont ainsi dtect 2 500 diffrences (sur les 30 000 entres que contient Brulex) de codifications phonmiques entre Lexique et Brulex. Ces 2 500 diffrences relevaient soit de mots prononciation exceptionnelle, soit de problmes de rgles de conversion utilises par le logiciel. Ils ont donc corrig ces entres. Ils ont aussi retrait l'ensemble des codes phonmiques pour le positionnement des schwas. Afin de rendre les codes phonmiques les plus cohrents possibles, les auteurs de ces corrections ont aussi supprim la distinction entre les deux types de "a" et les deux types de "o", les deux types de "r", l'arrt glottique, ainsi que la marque d'aspiration "h". Le site http://leadserv.u-bourgogne.fr/bases/lexiquecorr/ met disposition un document dcrivant les corrections ralises, les scripts de correction utiliss ainsi que l'ensemble des correctifs. Ces corrections ont t intgres la version 2 de Lexique.
Lexique 3
Pour Lexique 3, les reprsentations phonologiques ont t obtenues partir de Lexique 2 pour les entres qui le permettaient. Pour les entres ne le permettant pas, nous avons utilis le logiciel Multitel Elite 2.0.1 (Pagel,
31
Black et Lenzo, 1998; Black, Lenzo et Pagel, 1998). Comme pour tout logiciel de "text to speech" adapt la parole continue et employant un systme de rgles, des erreurs ont pu tre introduites, notamment sur les mots d'origine trangre. Nous en avons d'ores et dj corrig un certain nombre mais il peut en rester. Si vous en trouvez, n'hsitez pas en faire part sur le forum de Lexique
Lexique 3.2
Pour Lexique 3.2, Christian Lachaud a effectu un grand nombre de corrections. Il a tout d'abord rintroduit aprs un gros travail de vrification manuelle la diffrence entre o ouvert (not o) et o ferm (not O). Il a supprim la prsence du phonme h qui indiquait la possibilit d'une liaison ou pas. En outre, il a corrig environ 1400 entres (1% du Lexique) pour des problmes diverses:
Pourquoi ces codes phontiques ?

Nous avons commenc par utiliser les codes du premier logiciel de text2speech que nous avons employ. (LAIPTTS). Ensuite nous avons lgrement chang ces codes pour le rendre plus pratique (remplacement du schwa * par pour que les recherches soient plus faciles) Nous n'utilisons pas API car nos fichiers sont des fichiers textes (nous passerons l'unicode, une fois que celuici sera parfaitement support par toutes les applications), et pas X-Sampa car nous voulons que chaque phonme soit reprsent par un seul caractre. Nous voulions aussi que tous ces caractres soient facilement utilisables par des anglo-saxons. Normalement, notre code phontique est relativement proche de X-Sampa. Voici les changements de X-Sampa vers Lexique :
X-Sampa e~ a~ o~ 9~ A N J H @
Lexique 5 @ 1 a G N 8

Manuel Lexique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Manuel Lexique

Transféré par

Droits d'auteur :

Formats disponibles

Manuel de Lexique 3

Document version 3.1 Boris New1, Christophe Pallier2

Introduction rapide pour le nouveau venu

Comment citer Lexique ?

Historique de cette documentation

TABLE DES MATIERES

1 Etat de l'art des bases de donnes lexicales en franais

2 Constitution des corpus

2.2 Le corpus de films (ou corpus de sous-titres)

2.3 Etiquetage grammatical du corpus

3 Estimation de la fiabilit des frquences

4 Avantages du corpus de sous-titres

5 Organisation de la base Lexique 3

5.1 Organisation de la table Lexique3

un, parfum un (voy. nasale)

parvenu schwa non lidable

Tableau 4: Nombre et exemples de lemmes selon leur frquence (corpus de sous-titres)

dsol, grand, bon calme, idiot, sympa malin, joyeux, curieux

vexer, assouvir, firement, btement exporter harponner, auroler hyginiquement

(calcul en fonction des 71 358 formes

quartile, mdiane, moyenne, 3

quartile et maximum pour les 3eme Qu 7.71 13.31

Champs Frquence du lemme (films) Frquence du lemmes (livres)

Max 33959.88 38943.65

Distance de Levenshtein: Nombre de transformations (ajout, suppression, remplacement) pour arriver

5.2 Organisation de la table lex3.lemmes.txt

6 Les autres bases

7.1 Les outils "en ligne"

Figure 1 Exemple de requte de type "Recherche par Mots"

Tableau 9 Prsentation des oprateurs utiliss dans les expressions rgulires

Figure 2 Exemple de requte effectue sur la base Lexique3.

7.2 Open Lexique

7.3 Les outils "hors ligne" : Undows

8 Disponibilit et site web

Annexe A: Open Lexique - Noms des champs

Annexe B: Historique de l'obtention des codes phonologiques de Lexique

Pourquoi ces codes phontiques ?

Vous aimerez peut-être aussi