Académique Documents
Professionnel Documents
Culture Documents
Une étude détaillée de l’œuvre de Jules Verne basée sur des recherches
textométriques.
Notre intérêt a consisté à faire une approche différente de l’œuvre vernienne par
l’intermédiaire de l’analyse lexicométrique et statistique. En nous appuyant sur les
possibilités offertes par les nouvelles technologies, nous avons fait un travail détaillé de
la presque intégralité du corpus Verne. Plus de sept millions de mots !
La précision statistique a pu confirmer, d’une certaine façon, ce que des études
littéraires assez subjectives avaient prononcé par rapport à l’œuvre de Verne, et en même
temps, dévoiler quelques particularités de son discours.
Nous avons été confrontés, donc, à un volume énorme de données qui, pour la
première fois, a fait l’objet d’une étude intégrale. Cette étude pourra ouvrir les voies à
d’autres recherches prêtes à comparer par exemple l’œuvre de Verne avec celle de son
fils Michel afin d’éclaircir les petites lacunes existantes quant à la paternité réelle de
certains livres.
Ce travail pourrait de même servir de modèle pour étudier d’autres auteurs depuis
une perspective textométrique.
À ne pas rater si vous aimez la précision !
Disponibles sur le web et faisant partie du domaine public, les ouvrages de Jules
Verne sont, pour la plupart, facilement accessibles sous différents formats numérisés, ce
1
Parus originalement sous les titres suivants : Un voyage en ballon et Les Premiers Navires de la Marine
mexicaine.
2
Une liste complète et avec plus de détails a été insérée dans les annexes (N° 1 Les œuvres de Jules
Verne).
3
Ce roman paraîtra pour la première fois en 1989 chez Le Cherche midi éditeur.
4
Avec beaucoup de modifications, les premiers chapitres de cette recherche ont été publiés sous forme
d’article. « Panorama d’un corpus millionnaire ». In: Hechos y proyecciones del lenguaje. Pasto, Colombie,
2011, pp. 241-265.
qui permet d’établir un corpus de textes assez important susceptible d’être étudié grâce
aux outils de l’analyse statistique dont nous disposons aujourd’hui.
Pour l’établissement du corpus « Verne » nous avons exclu, d’une part, l’œuvre
poétique de ses deux cahiers condensée dans un livre, Poésies inédites, paru en 1989 aux
éditions « Le Cherche midi ». Du point de vue statistique, ce seul texte peut être considéré
comme marginal étant donné la prédominance de la production romanesque. D’autre part,
malgré nos efforts, nous n’avons trouvé qu’un moindre échantillon de l’œuvre théâtrale
de Verne. Ici encore, nous avons décidé d’écarter cette production pour trois raisons
principales : tout d’abord, une partie importante des pièces a été réalisée à partir d’un
travail collaboratif et n’est pas de la seule main de notre auteur. Ensuite, la répétition des
noms des personnages dans les textes fausse à coup sûr les statistiques concernant la
distribution des noms propres dans l’ensemble du corpus. Finalement, étant donné qu’un
nombre non négligeable de pièces dérive des romans des « Voyages Extraordinaires »,
nous estimons que l’intérêt essentiel de la production vernienne revient aux romans.
Nous avons constitué un corpus contenant la majorité des romans et nouvelles que
nous avons pu trouver tout au long de nos recherches5.
L’annexe N° 2 contient la liste des ouvrages retenus dans le corpus constituant la
base de données sur laquelle sera menée notre analyse lexicométrique ; ces ouvrages sont
présentés dans l’ordre chronologique6 supposé ou confirmé de leur rédaction et non de
publication. Classés de cette façon, ils peuvent nous révéler des informations précieuses
quant à l’évolution de l’écriture. Il contient, de même, les abréviations utilisées pour
identifier les textes numérisés tout au long de ce travail et le genre auquel ils
appartiennent.
Même si les œuvres de Jules Verne appartiennent au domaine public, il convient
néanmoins de signaler que les versions numérisées ont été empruntées aux sites web
suivants :
http://jv.gilead.org.il
http://www.ebooksgratuits.com
http://www.scribd.com
http://beq.www.ebooksgratuits.com/vents/verne.htm
Histoire des grands voyages et des grands voyageurs, et bien évidemment à la quasi-totalité des pièces de
théâtre. À cette liste, il faudrait ajouter deux livres inachevés : Un prêtre en 1839 (1845) et Jédédias Jamet
(1847). Malgré ces lacunes, il est impératif de signaler que le corpus, mises à part les pièces de théâtre,
englobe plus de 90% de l’œuvre vernienne.
8
Année moyenne d’écriture des nouvelles de cette période : 1853.
1876-77 Les Indes noires INDES ROMAN 18
1877-78 Un capitaine de quinze ans 15ANS ROMAN 19
1878-79 Les Tribulations d'un Chinois en Chine TRIBULAT ROMAN 20
1879 La Maison à vapeur. Voyage à travers VAPEUR ROMAN 21
l'Inde septentrionale
1880 ESSAIS ESSAIS ESSAIS 22
Salon de 1857 -Edgar Poe et ses œuvres
-A propos du Géant -Géographie
illustrée de la France et des ses colonies
(extrait) -Les Méridiens et le calendrier-
Vingt-quatre minutes en ballon -Une
ville idéale (1875b) -Inauguration du
Cirque municipal d’Amiens -Souvenirs
d’enfance et de jeunesse
NOUVELLES 1870-1890 NOUV_2 NOUVELLES 23
1880 La Fantaisie du docteur Ox -Les
Révoltés de la Bounty -Dix heures de
chasse - Fritt-Flac - Les Aventures de la
famille Raton - Gil Braltar -Mr Re Dièze
et Mlle Mi Bémol
1880-81 La Jangada, Huit cents lieues sur JANGADA ROMAN 24
l'Amazone
1881 Ecole de robinsons ROBINSON ROMAN 25
1881-82 Le rayon vert RAYON ROMAN 26
1882 Kéraban le Têtu KERABAN ROMAN 27
1883 L'Archipel en feu ARCHIPEL ROMAN 28
1883-84 Mathias Sandorf SANDORF ROMAN 29
1884-89 Le Château des Carpathes CARPATH ROMAN 30
1885 Robur le Conquérant ROBUR ROMAN 31
1885 Un billet de loterie. Le numéro 9672 BILLET ROMAN 32
1885-86 Nord contre Sud NORSUD ROMAN 33
1886 Chemin de France CHEMIN ROMAN 34
1886-87 Deux ans de vacances VACANC ROMAN 35
1887-88 Famille Sans-Nom SANSNOM ROMAN 36
1888-89 Sans dessus dessous DESSUS ROMAN 37
1889 César Cascabel. CASCABEL ROMAN 38
1890 Mistress Branican MISTRESS ROMAN 39
1890-91 Claudius Bombarnac BOMBARN ROMAN 40
1891-92 P'tit Bonhomme PETITBON ROMAN 41
1892-93 Mirifiques aventures de Maître Antifer ANTIFER ROMAN 42
1893 Île à Hélice HELICE ROMAN 43
1893-94 Un Drame en Livonie LIVONIE ROMAN 44
1894 Le superbe Orénoque ORENOQ ROMAN 45
1894-95 Face au Drapeau DRAPEAU ROMAN 46
1895 Clovis Dardentor CLOVIS ROMAN 47
1895-96 Sphinx de Glaces SPHINX ROMAN 48
1896 Le village aérien VILAERIEN ROMAN 49
1896-97 Seconde patrie PATRIE ROMAN 50
1897 Le testament d’un excentrique TESTAM ROMAN 51
1898 Les Frères Kip KIP ROMAN 52
1899 Les Histoires de Jean-Marie Cabidoulin CABIDOUL ROMAN 53
1899-00 Le Volcan d’Or VOLCAN ROMAN 54
1900 Bourses de Voyage BOURSES ROMAN 55
1901 La Chasse au météore METEORE ROMAN 56
1901 Le Phare du bout du monde PHARE ROMAN 57
1902 L'Invasion de la mer INVASION ROMAN 58
1903 Maître du monde MAITRE ROMAN 59
Étant donné que dans ce corpus général, nous concentrons nos analyses et
commentaires notamment sur les romans, un sous-corpus regroupant les nouvelles a été
créé dans le but de connaître plus en détail les caractéristiques de ce genre chez notre
auteur10.
Un troisième corpus, dénommé « complémentaire », beaucoup plus réduit et
présenté dans un chapitre à part, contient des textes dits « remaniés » ; d’autres parus dans
la collection Voyages Extraordinaires sous le nom de Verne mais sortis de la plume
d’autres écrivains ; et, finalement quelques-uns écrits en collaboration ou transformés par
l’auteur.
9
Ce graphique a été obtenu à partir du logiciel Hyperbase que nous présentons plus bas.
10
Ce sous corpus « Nouvelles » sera présenté plus bas.
Chapitre II Les outils et les méthodes
d’exploitation du corpus
2.1. Outils informatiques à utiliser
La statistique textuelle ne cesse d’évoluer depuis les quatre dernières décennies.
Les méthodes lexicométriques se sont développées, s’appuyant notamment sur de
nouvelles exploitations que permettent, à l’heure actuelle, des logiciels assez performants
en matière de traitement textuel.
Les logiciels ne mettent plus seulement en équation les « mots » mais
ils traitent aussi les lemmes, les codes grammaticaux, les
enchaînements syntaxiques et les corrélats sémantiques ; ils offrent
désormais, et pour la première fois, un outil de traitement statistique
complet du discours.11
11
Margareta Kastberg Sjöblom, L’écriture de J. M. Le Clézio. Des mots aux thèmes, Honoré Champion,
Paris, 2006, p. 13.
12
Produit par la Société Synapse Développement (Toulouse) qui est capable de relever, entre autres, « pour
chaque mot la catégorie, la sous-catégorie, le genre, le nombre, la fonction, et s’il s’agit d’un verbe le temps,
le mode et la personne ». E. Brunet, Hyperbase, Manuel de référence, version 8.0, BCL, Nice, 2009, p.
143.
13
Damon Mayaffre, Paroles de président. Jacques Chirac (1995-2003) et le discours présidentiel sous la
Ve République, Paris, 2004, p. 16. De manière synthétique, nous pourrions dire qu’Hyperbase possède une
double fonction : documentaire et statistique. La fonction documentaire permet l’accès facile et ordonné
aux textes, voire une lecture linéaire, chronologique ou libre des textes. Hyperbase rend possible
l’indexation des mots, lemmes et codes, les premiers étant présentés sous forme alphabétique, et surtout la
navigation de passage en passage reliés par des traits caractéristiques choisis selon nos besoins. Le logiciel
est capable de produire des listes de phrases ayant un mot ou un code de notre intérêt. Il peut servir de
moteur de recherche d’un mot ou d’une chaîne de caractères sous de multiples combinaisons. La seconde
fonction d’Hyperbase peut nous permettre, entre autres, de connaître le degré d’utilisation d’un trait
linguistique, d’avoir accès à la représentation graphique de la distribution des termes et au calcul de la
distance entre textes, en passant par l’analyse factorielle de correspondances et analyses arborées, notions
statistiques qui seront expliquées plus loin. Cette fonction ne laisse pas de côté, la possibilité de connaître
certains détails liés à la richesse et accroissement chronologique du vocabulaire, le repérage de phrases clés
d’un texte et bien d’autres. Les calculs de cette fonction se présentent sous forme de graphiques pour
faciliter leur interprétation. Voir D. Mayaffre, Paroles de président…, op. cit., p. 16 et suiv. et E. Brunet,
Hyperbase, Manuel de référence, op. cit.
14
Il existe deux autres logiciels académiques pour les traitements textométriques : Weblex et Lexico, tous
les deux accessibles sur internet.
2.2. Une méthode à suivre
Grâce aux technologies nouvelles, le traitement systématique et organisé de
plusieurs millions de mots à la fois est désormais possible. La qualité des résultats est
déterminée par des lois mathématiques et impartialement rigoureuses. Ce fait permet donc
de faire des analyses beaucoup plus précises du corpus. Ces travaux de statistique lexicale
initiés en France par Charles Muller dans les années 70 du siècle passé, ont été suivis par
bien d’autres chercheurs parmi lesquels nous trouvons les noms d’E. Brunet, A. Salem,
J.-M. Adam, D. Labbé, et même des mathématiciens comme X. Luong. Dès lors, la
statistique lexicale a trouvé sa place au sein de la linguistique textuelle.
La lexicométrie ou statistique lexicale s’est d’abord définie comme
analyse chiffrée du vocabulaire d’un texte, avant qu’on ne parle de
logométrie – comme étude globale d’un discours – ou encore de
textométrie, comme analyse d’un texte. Le terme de stylométrie, qui
précède les travaux de linguistique quantitative, a été redéfini
comme stylistique appuyée sur les dénombrements et fonde sa
spécificité dans la caractérisation d’une écriture.15
Loin de la simple analyse intuitive, nous avons cru pertinent de faire appel à la
textométrie afin de maîtriser de manière plus contrôlée les plus de 6 millions de mots que
contiennent les 59 fichiers de notre base de données initiale, à laquelle s’ajoute une base
de données complémentaire de plus d’un million d’occurrences.
Avec les précisions de la statistique, et grâce à une démarche contrastive, les
termes dénotant l’imprécision comme « plus ou moins », « à peu près », et d’autres
tendent à disparaître pour céder la place à des interprétations plus ponctuelles lors de la
« lecture » des résultats. Au lieu de dire par exemple que Jules Verne emploie moins le
mot « amour » dans ses romans que dans ses nouvelles, nous dirions que sur les 291
occurrences du vocable « amour », Verne sous-utilise, en effet, dans les romans le vocable
« amour » car 31 occurrences seulement se retrouvent dans les nouvelles qui constituent
à peine 2 textes sur les 59 proposés. Cette méthode laisse alors peu d’espace à
l’imprécision et à l’empirisme et ouvre la voie à une description rigoureuse et si, l’on
veut, plus neutre du corpus. Les résultats dérivent donc des calculs statistiques16 qui seront
présentés sous la forme de graphiques montrant des histogrammes facilement
compréhensibles visuellement.
Un corpus comme le nôtre, doit se soumettre à certaines exigences : être conformé
par des versions intégrales des textes, constitué dans l’ordre chronologique d’écriture,
sous-divisé par genres, et avoir un seul écrivain-cible inséré dans une tranche
chronologique précise. Tout ceci en contraste avec une norme externe, par exemple avec
la base de Frantext par rapport à laquelle Hyperbase fait certains calculs. Il est possible
aussi de créer une norme endogène de référence constituée par un ensemble de textes.
Une partie plus ou moins grande est évaluée par rapport à cette norme de référence. « Les
résultats obtenus sont toujours relatifs à cette norme prédéterminée. Le calcul de l’écart
réduit est d’ailleurs à la base de nombre d’opérations mathématiques implémentées dans
le logiciel. Il permet la mesure de la différence quantitative entre une fréquence théorique
15
Véronique Magri M., Le Voyage à pas comptés, Honoré Champion, Paris, 2009, p. 19.
16
Etant donnée la complexité de certains calculs et ayant compris manifestement le peu d’intérêt qu’ils
pourraient avoir pour ce travail, nous préférons présenter les résultats et donner une brève explication sur
les objectifs du calcul réalisé, si nécessaire. Pour plus de détails voir Charles Muller, Principes et Méthodes
de Statistique lexicale, Champion, Paris, 1992. ; Benoît Habert et al., Les linguistiques de corpus, Armand
Colin, Paris, 1997.
et une fréquence observée dans un corpus donné »17. Son appréciation se fera toujours
par rapport au corpus-norme sélectionné.
Une fois que le corpus est établi, il est segmenté automatiquement en formes
graphiques. Les occurrences sont comptabilisées, puis lemmatisées et regroupées par
l’analyseur Cordial.
Les flexions verbales de même que les variations en genre et en
nombre sont neutralisées pour réduire les unités graphiques à leur
forme canonique : l’infinitif pour les formes verbales, le singulier
pour les substantifs, le masculin singulier pour l’adjectif… [Le
logiciel] fournit en somme pour chaque forme la graphie, le lemme
de rattachement, le codage grammatical autrement dit sa catégorie
grammaticale, sa fonction dans la phrase, une information d’ordre
sémantique qui classe la forme dans un champ lexical. Hyperbase
redistribue ainsi ces données dans les champs appropriés et procède
à leur dénombrement.18
Pour une phrase du premier chapitre d’Hatteras, voici l’exemple de l’étiquetage
effectué par Cordial :
17
Véronique Magri M., Le Voyage à pas comptés, op. cit., p. 21.
18
Véronique Magri M., Le Voyage à pas comptés, op. cit., p. 22.
Curieux : substantif, nom commun, masculin, groupe objet direct
; : ponctuation
19
Voir Annexe N°3 Le vocabulaire de Jules Verne
20
Pour les nouvelles nous savons qu’elles datent de la décade des années 50.
Chapitre. II Les fréquences
21
M. Kastberg, L’écriture de J.M.G. Le Clézio, op. cit., p. 50.
22
Etienne Brunet, Le Vocabulaire de Victor Hugo, Paris-Genève, Champion-Slaktine, 1998, p. 35.
23
Version lemmatisée 8.0 (juillet 2008).
Tableau N° 2. Pourcentage des fréquences sur V chez quelques auteurs du XIXème siècle24
Auteur Hapax + BF MF HF THF
Hugo 13 26 17 44
Sand 8 23 16 53
Stendhal 15 27 19 39
Lamartine 15 25 17 43
Nerval 20 24 15 41
Proust 15 23 18 44
Verne 13 27 17 43
Verne25 10 26 18 46
35000
30000
25000
nombre de mots
20000
Série1
15000
10000
5000
0
F1 F2-F10 F11-F20 F21-F30 F31-F40 F41-F50 F51-F60 F61-F70 F71-F80 F81-F90 F91-100 F101- F1000- F>2000
999 2000
Fréquences
24
D’après les bases de données établies par E. Brunet, Hyperbase. UMR 6039, Bases, Corpus et Langage
(CNRS-Université de Nice Sophia-Antipolis). L’annexe N° 4 contient les pourcentages en détail.
25
D’après les résultats de notre base de données.
Fréquences sur N
1%
1%
1
3% 5% 2
7%
3
36%
10% 4
5
6
7
8
9%
9
10% 9% 10
9%
11
À partir des hapax, la fréquence des mots diminue de manière régulière comme
nous pouvons l’apprécier dans la figure No 2, dans laquelle nous avons regroupé les
données en classes de fréquences pour que la figure soit plus compréhensible. À titre
d’exemple, les 9 premières fréquences après les hapax sont : f2 : 9.569, f3 : 5.352, f4 :
3.711, f5 : 2.789, f6 : 2.241, f7 : 1.808, f8 : 1.479, f9 : 1.310. Cette tendance se maintient
jusqu’à la fréquence 20, au-delà il y toujours une tendance à la baisse des effectifs mais
avec beaucoup d’irrégularités que l’on ne peut malheureusement apprécier dans la figure
N° 326. Margareta Kastberg, dans son étude sur J.M.G. Le Clézio (p. 44), auteur qui
accuse d’ailleurs une influence importante de Verne dans son œuvre, constate la même
tendance. Cela correspond grosso modo au schéma traditionnel de corpus littéraire
narratif.
26
Voir annexe No 5 La distribution des fréquences
27
Etienne Brunet, Comptes d’auteurs, Tome I, Honoré Champion, Paris, 2009, p. 91
Figure N° 4. Les Hapax (les formes)
A l’exception d’Hatteras, tous les textes écrits entre 1850 et 1869 y inclus 20000
Lieues sous les mers, sont très riches en hapax. « Les hapax ne mesurent pas la richesse
lexicale d’un texte mais l’hétérogénéité du vocabulaire »28. En ce sens, nous remarquons
une autre plage importante d’hapax dans les œuvres écrites entre 1878 et 1885,
notamment dans les essais et le deuxième recueil de nouvelles. Une troisième vague
d’hapax plus irrégulière et décroissante apparaît entre 1888 et 1897. Par le nombre
d’hapax dans cette période, se détachent facilement des textes comme Sans dessus
dessous, Bombarnac, Hélice et Clovis Dardentor.
Les 26.777 hapax présents se distribuent de façon inégale quant au genre : les deux
recueils de nouvelles et les essais présentent des écarts réduits assez importants par
rapport à la plupart des romans29. À savoir : « l’écart réduit est l’écart à la moyenne
pondérée en fonction de la longueur respective de chaque œuvre »30.
Dans les essais, les listes de noms propres à fréquence 1 y sont assez récurrentes :
Voici deux ans déjà, les artistes de toutes nations étaient conviés à
l’Exposition universelle. Après leur lutte avec le monde entier, le
gouvernement voulut accorder ces deux années de repos aux
peintres et aux sculpteurs français ; ils le méritaient bien, pour être
restés vainqueurs dans cette arène où combattaient Landseer, Rauch,
Cornelius, Mulready, Leys, Eastlake et Tideman. (Essais, Salon de
1857. Article préliminaire)
28
Véronique Magri, Le discours sur l’Autre, Honoré Champion, Paris, 1995, p. 68
29
Voir annexe N° 6 Richesse lexicale et Hapax
30
Véronique Magri, Le discours sur l’Autre, op. cit., p. 60.
Dans les romans, de longues explications introduisent un vocabulaire unique, très
attaché au décor du texte en question. C’est le cas de 20 000 Lieues sous les mers à propos
de la faune marine :
Sur nos pas, comme des compagnies de bécassines dans un marais,
se levaient des volées de poissons curieux du genre des monoptères,
dont les sujets n’ont d’autre nageoire que celle de la queue. Je
reconnus le javanais, véritable serpent long de huit décimètres, au
ventre livide, que l’on confondrait facilement avec le congre sans
les lignes d’or de ses flancs. Dans le genre des stromatées, dont le
corps est très-comprimé et ovale, j’observai des parus aux couleurs
éclatantes portant comme une faux leur nageoire dorsale, poissons
comestibles qui, séchés et marinés, forment un mets excellent connu
sous le nom de karawade ; puis des tranquebars, appartenant au
genre des apsiphoroïdes, dont le corps est recouvert d’une cuirasse
écailleuse à huit pans longitudinaux. (Mers, III, II partie).
Plus simplement des mots d’origine étrangère cités une seule fois :
Je cherchai à grouper ces lettres de manière à former des mots.
Impossible. Qu’on les réunit par deux, trois, ou cinq, ou six, cela ne
donnait absolument rien d’intelligible ; il y avait bien les
quatorzième ; quinzième et seizième lettres qui faisaient le mot
anglais « ice », et la quatre-vingt-quatrième, la quatre-vingt-
cinquième et la quatre-vingt-sixième formaient le mot « sir ». Enfin,
dans le corps du document, et à la deuxième et à la troisième ligne,
je remarquai aussi les mots latins « rota », « mutabile », « ira »,
« neo », « atra ». (Centre, IV).
31
A ce propos voir le travail de Robert Pourvoyeur, L’invention des noms étrangers chez Jules Verne. In :
Modernités de Jules Verne, PUF, Paris, 1988. Pour l’auteur, le nombre de mots employés par le romancier
dans son œuvre est si important qu’il conclut que Verne a contribué de façon décisive à multiplier le nombre
de vocables anglo-saxons en français.
And last night of the company’s performing the season
Dress circle, 5s. Boxes, 4s Pit, 2s.Gallery, 1s.
Orchestra stalls, 6s. Private boxes, L 2 s. 6 d l2 2 s. & L 11s 6 d.
Doors open at half past six, the performance to commence at seven… (Reculons,
XLII).
« [Verne] n’hésite pas à utiliser le mot anglais même là où existe déjà un mot
français parfaitement adéquat et bien connu par ailleurs » nous dit Robert Pourvoyeur32.
Mot français avec son équivalent : « plus de la moitié relève de l’Église libre d’Écosse –
Free Church of Scotland… » (Antifer, XII) ; Ou sans l’équivalent : « Jonathan, chargé de la
bourse de voyage, se perdait au milieu de ces pièces d’argent et de cuivre, crown, half-crown, two-
shilling, six-pence, four-pence, three-pence, et penny … » (Reculons, XIV). Il est clair qu’ici nous ne
pouvons assurer que la plupart ou tous les mots d’origine étrangère soient classés dans la liste d’hapax,
la seule certitude est une importante attirance pour les basses fréquences.
34
Une méthode plus synthétique que de simples histogrammes est constituée par l’analyse factorielle de
correspondances (AFC) qui permet de soumettre au calcul une série de formes qui seront traitées ensemble
selon les méthodes multidimensionnelles. Les variables traitées sont mises en relation d’après leur distance
intratextuelle. Dans l’AFC les grands écarts sont pondérés afin de produire un résultat proportionné et
lisible sous la forme d’un schéma où tous les éléments représentent un système qui montre les rapports
entre eux. Ces rapports sont estimés d’après la zone en commun partagée par ces éléments. Un exemple
facile à comprendre serait le schéma des œuvres composant le corpus Verne (Voir Figure 9) qui montre de
façon synthétique la distance lexicale entre les textes : les plus proches partagent plus de lexique commun
que ceux qui sont plus éloignés.
35
Lettre au fils d’Hetzel, 19 sept. 1893, citée par Simone Vierne, Jules Verne : Une vie ; une œuvre, une
époque, Edit. Ballard, Paris, 1986, p. 103.
Phare, Drapeau et Invasion se situant autour du groupe 11 —groupe des plus hautes
fréquences— correspondent à des romans de la dernière étape de Verne.
En regardant en détail chaque livre, on peut se rendre compte que ceux qui
contiennent le plus d’hapax sont les plus déficitaires en hautes fréquences, comme
démontré pour Reculons et Essais dans les histogrammes suivants.
Cette constatation est valable aussi à l’inverse. Des textes accusant un faible
nombre d’hapax présentent des groupes de fréquences élevées excédentaires. C’est le cas,
pour l’exemple qui suit, de L’Île mystérieuse et Seconde patrie.
Chapitre III. La richesse du vocabulaire
La notion de « richesse lexicale » répond pour Muller à une « appréciation toute
subjective d’ailleurs qui ne se fonde généralement sur aucune donnée sûre, et qui traduit
plutôt la présence dans le texte de quelques vocables jugés rares, ou au contraire l’absence
de tels éléments du lexique »36. Il ajoute plus loin : « Appliqué à un texte, le terme de
richesse lexicale est donc défini par le nombre des vocables, et rien de plus »37. Un texte
est donc plus riche lexicalement qu’un autre s’il contient plus de mots différents.
La richesse du vocabulaire, qui peut nous donner une idée de la culture de l’auteur,
varie selon le genre et le thème traité, sorte de spécialisation du vocabulaire qui nous fait
penser à plusieurs textes de Jules Verne dont le sujet fait appel constamment à des champs
lexicaux assez distincts. De la terre à la lune a recours à un vocabulaire spécifique et
riche en termes de balistique et en connaissances sur notre satellite, vocabulaire tout à fait
différent par rapport à celui du Superbe Orénoque, par exemple, dont l’histoire se passe
dans la jungle vénézuélienne bien loin des calculs des voyages spatiaux, ou à celui du
Voyage au centre de la Terre qui s’enfonce dans la géologie, la paléontologie, la
minéralogie, et les théories de l’évolution.
36
Charles Muller, Principes et méthodes de statistique lexicale, op. cit., p. 115.
37
Ibid., p. 116.