Vous êtes sur la page 1sur 24

Les Voyages extraordinaires sous le

regard des statistiques lexicales

Une étude détaillée de l’œuvre de Jules Verne basée sur des recherches
textométriques.

Notre intérêt a consisté à faire une approche différente de l’œuvre vernienne par
l’intermédiaire de l’analyse lexicométrique et statistique. En nous appuyant sur les
possibilités offertes par les nouvelles technologies, nous avons fait un travail détaillé de
la presque intégralité du corpus Verne. Plus de sept millions de mots !
La précision statistique a pu confirmer, d’une certaine façon, ce que des études
littéraires assez subjectives avaient prononcé par rapport à l’œuvre de Verne, et en même
temps, dévoiler quelques particularités de son discours.
Nous avons été confrontés, donc, à un volume énorme de données qui, pour la
première fois, a fait l’objet d’une étude intégrale. Cette étude pourra ouvrir les voies à
d’autres recherches prêtes à comparer par exemple l’œuvre de Verne avec celle de son
fils Michel afin d’éclaircir les petites lacunes existantes quant à la paternité réelle de
certains livres.
Ce travail pourrait de même servir de modèle pour étudier d’autres auteurs depuis
une perspective textométrique.
À ne pas rater si vous aimez la précision !

Voici l’aperçu les premiers chapitres…

Table des matières

Note préliminaire ...........................................................................................................4


Section I .........................................................................................................................5
Le corpus Jules Verne....................................................................................................5
Chapitre I Jules Verne, un demi-siècle de production littéraire ..............................5
Chapitre II Les outils et les méthodes d’exploitation du corpus ...........................11
Section II .....................................................................................................................15
Le vocabulaire de Jules Verne .....................................................................................15
Chapitre I. L’étendue du corpus ..............................................................................15
Chapitre. II Les fréquences .....................................................................................16
Chapitre V. Progression et régression de mots ..... ¡Error! Marcador no definido.
Chapitre VI La distance lexicale ......................... ¡Error! Marcador no definido.
Section III ................................................................... ¡Error! Marcador no definido.
La phrase vernienne et son rythme ............................. ¡Error! Marcador no definido.
Chapitre I. La longueur du mot ........................... ¡Error! Marcador no definido.
Chapitre II. La ponctuation forte ......................... ¡Error! Marcador no definido.
Chapitre III. La segmentation interne de la phrase . ¡Error! Marcador no definido.
Conclusion ...................................................................... ¡Error! Marcador no definido.
Section IV ................................................................... ¡Error! Marcador no definido.
Les parties du discours ............................................... ¡Error! Marcador no definido.
Chapitre I. La distribution des catégories grammaticales..... ¡Error! Marcador no
definido.
Chapitre II Le syntagme nominal ......................... ¡Error! Marcador no definido.
Chapitre III. Les pronoms ................................... ¡Error! Marcador no definido.
Conclusions .................................................................... ¡Error! Marcador no definido.
Section V .................................................................... ¡Error! Marcador no definido.
Sémantique lexicale .................................................... ¡Error! Marcador no definido.
Chapitre I. Les spécificités chez Verne ................ ¡Error! Marcador no definido.
Section VI ................................................................... ¡Error! Marcador no definido.
Une vision d’ensemble : la thématique, les topologies, les connexions intertextuelles
.................................................................................... ¡Error! Marcador no definido.
Chapitre I Structure thématique ............................ ¡Error! Marcador no definido.
Chapitre II La distance et la connexion lexicales à partir des thématiques ... ¡Error!
Marcador no definido.
Conclusion ...................................................................... ¡Error! Marcador no definido.
Conclusion Générale....................................................... ¡Error! Marcador no definido.
Les annexes..................................................................... ¡Error! Marcador no definido.
Note préliminaire
Ce texte est le fruit d’une thèse doctorale soutenue en 2013 à l’Université Nice
Sophia Antipolis.
Dans notre recherche, le premier volume incluait une composante linguistique
comportant une analyse textométrique du corpus afin de compléter la vision d’ensemble
dans une optique statistique servant à élargir le regard porté sur le discours de Jules Verne.
En nous appuyant sur les possibilités offertes par les nouvelles technologies, nous avons
fait un travail détaillé portant sur presque l’intégralité du corpus Verne.
Le deuxième volume visait à explorer l’influence de la Franc-maçonnerie dans
l’écriture vernienne. À cet égard, nous pouvons dire que depuis quelques années, de
nouvelles tendances dans l’interprétation de ses textes viennent ajouter un ingrédient
supplémentaire à l’éventail de recettes nous permettant d’interpréter autrement l’écrivain
nantais. La critique littéraire pose ses regards sur un Jules Verne différent et dont l’œuvre
est influencée par l’ésotérisme, conception bien éloignée de la vision que la tradition lui
avait accordée. Nous trouvons capital de signaler qu’une composante philosophique
proche de certaines sociétés secrètes imprègne l’œuvre de Verne au point de mériter une
étude plus approfondie. Ce deuxième volume a été l’objet d’une publication par Hermésia
(2021) sous le titre : Le grand secret maçonnique de Jules Verne.
Ce livre correspond, donc, au premier volume de notre thèse et constitue un
ouvrage dont le contenu peut être considéré indépendant du deuxième.
Section I
Le corpus Jules Verne
Chapitre I Jules Verne, un demi-siècle de
production littéraire
En 1851, Jules Verne publie ses deux premières nouvelles : Un drame dans les
airs et Un drame au Mexique1, toutes les deux écrites une année auparavant. Ces textes
déterminent le début d’une carrière littéraire qui s’étend tout au long de la deuxième
moitié du XIXe siècle et qui ne s’arrêtera même pas avec le décès de l’écrivain en 1905,
compte tenu de quelques textes inédits parus par la suite. Néanmoins, une longue série de
pièces de théâtre va précéder ce début significatif pour l’étudiant en droit qui est
déterminé à tourner sa vie vers la littérature2.
Les années qui vont suivre voient s’accroître la production de Verne dans une
décennie marquée par une préférence pour le théâtre. Ainsi, à partir de 1852 jusqu’en
1860, il écrit des opéras-comiques, des opérettes, des comédies… Pendant cette même
période, l’auteur nantais fait une importante incursion dans le texte narratif et produit un
grand nombre de nouvelles dont certaines ne paraîtront que quelques années plus tard
dans la collection « Voyages Extraordinaires », voire plus d’un siècle après la date connue
d’écriture.
En 1859, suite à un voyage avec son ami Hignard, J. Verne écrit Voyage à
reculons en Angleterre et en Écosse3, préambule de la série de romans qui sera inaugurée
à partir de 1862, année de la rencontre avec l’éditeur Hetzel. Plus de cinquante romans
sortiront de la plume de l’auteur nantais. Engagé auprès de l’éditeur Hetzel comme nous
le savons, Verne produit « à toute vapeur » une quantité importante de romans au
détriment des pièces de théâtre et des nouvelles pour lesquelles il avait investi beaucoup
d’efforts au début de sa carrière littéraire.
Quant aux pièces de théâtre de cette nouvelle étape « hetzelienne » une bonne
partie est sur ses romans à l’exception des Sabines (opéra écrit avec Charles Wallut).
Parmi les essais et discours, nous trouvons les ouvrages suivants : Salon 1857,
Les Méridiens et le calendrier, Vingt-quatre minutes en ballon, Une ville idéale,
Inauguration du Cirque municipal d’Amiens et Souvenirs d’enfance et de jeunesse.
À cette riche liste d’ouvrages, il faut ajouter aussi de nombreuses chansons et des
poèmes.

1.1. Le corpus Jules Verne4

Disponibles sur le web et faisant partie du domaine public, les ouvrages de Jules
Verne sont, pour la plupart, facilement accessibles sous différents formats numérisés, ce

1
Parus originalement sous les titres suivants : Un voyage en ballon et Les Premiers Navires de la Marine
mexicaine.
2
Une liste complète et avec plus de détails a été insérée dans les annexes (N° 1 Les œuvres de Jules
Verne).
3
Ce roman paraîtra pour la première fois en 1989 chez Le Cherche midi éditeur.
4
Avec beaucoup de modifications, les premiers chapitres de cette recherche ont été publiés sous forme
d’article. « Panorama d’un corpus millionnaire ». In: Hechos y proyecciones del lenguaje. Pasto, Colombie,
2011, pp. 241-265.
qui permet d’établir un corpus de textes assez important susceptible d’être étudié grâce
aux outils de l’analyse statistique dont nous disposons aujourd’hui.
Pour l’établissement du corpus « Verne » nous avons exclu, d’une part, l’œuvre
poétique de ses deux cahiers condensée dans un livre, Poésies inédites, paru en 1989 aux
éditions « Le Cherche midi ». Du point de vue statistique, ce seul texte peut être considéré
comme marginal étant donné la prédominance de la production romanesque. D’autre part,
malgré nos efforts, nous n’avons trouvé qu’un moindre échantillon de l’œuvre théâtrale
de Verne. Ici encore, nous avons décidé d’écarter cette production pour trois raisons
principales : tout d’abord, une partie importante des pièces a été réalisée à partir d’un
travail collaboratif et n’est pas de la seule main de notre auteur. Ensuite, la répétition des
noms des personnages dans les textes fausse à coup sûr les statistiques concernant la
distribution des noms propres dans l’ensemble du corpus. Finalement, étant donné qu’un
nombre non négligeable de pièces dérive des romans des « Voyages Extraordinaires »,
nous estimons que l’intérêt essentiel de la production vernienne revient aux romans.
Nous avons constitué un corpus contenant la majorité des romans et nouvelles que
nous avons pu trouver tout au long de nos recherches5.
L’annexe N° 2 contient la liste des ouvrages retenus dans le corpus constituant la
base de données sur laquelle sera menée notre analyse lexicométrique ; ces ouvrages sont
présentés dans l’ordre chronologique6 supposé ou confirmé de leur rédaction et non de
publication. Classés de cette façon, ils peuvent nous révéler des informations précieuses
quant à l’évolution de l’écriture. Il contient, de même, les abréviations utilisées pour
identifier les textes numérisés tout au long de ce travail et le genre auquel ils
appartiennent.
Même si les œuvres de Jules Verne appartiennent au domaine public, il convient
néanmoins de signaler que les versions numérisées ont été empruntées aux sites web
suivants :
http://jv.gilead.org.il
http://www.ebooksgratuits.com
http://www.scribd.com
http://beq.www.ebooksgratuits.com/vents/verne.htm

Les versions téléchargées pour les exploitations informatisées correspondent aux


versions intégrales publiées chez Hetzel, et non aux versions adaptées ou résumées qui se
sont tant popularisées après le succès de Verne.

1.2. Le corpus général


Nous avons essayé de rassembler un maximum de textes afin de présenter
l’intégralité de la production romanesque de Verne, à laquelle bien entendu, nous avons
ajouté un nombre important de nouvelles et essais. Dans la liste d’essais, nous avons
regroupé, entre autres, des discours, des souvenirs et des articles7.
5
Pour certains textes dont la version numérisée n’était pas disponible, nous avons converti la version
imprimée à partir d’un scanner intégral des textes, puis utilisé le logiciel Omnipage pour transformer la
version pdf résultante en format word (et dans le pire des cas, nous nous sommes servi du crayon-scanner
pour les paragraphes les plus encombrants ou nous avons retapé s’il le fallait), et finalement lu et corrigé
les textes en les comparant avec les originaux pour éviter des erreurs. Ceci a été le cas de Voyage à reculons
en Angleterre et en Écosse, travail qui nous a pris plusieurs semaines.
6
Cette chronologie suit le plus fidèlement possible celle établie par Jean-Paul Dekiss, Jules Verne
Enchanteur, Edit. du Félin, Paris, 1999, et par la Société Jules Verne.
7
Malgré nos efforts, nous n’avons pas pu accéder aux versions numérisées de textes de parution
relativement récente, tels que Paris au XXe siècle, San Carlos et d’autres nouvelles, L’Oncle Robinson,
Dans le tableau 1, nous présentons le corpus tel qu’il a été conçu pour le traitement
statistique car les contraintes du logiciel utilisé nous ont obligé à disposer le corpus de
façon à ne pas dépasser 75 textes. Or, nous avons gardé, bien évidemment, la même
chronologie des romans, que nous considérons comme la production majeure de l’auteur
du point de vue statistique, puis nous avons distribué les nouvelles en deux périodes
(1850-1870 et 1870-1890) et nous les avons disposées dans l’ordre correspondant. Pour
les essais, nous avons procédé de manière similaire, les rassemblant en un seul fichier. La
collection de nouvelles de la première période se situe donc en premier rang de notre
corpus reconstitué car la plupart des textes ont été écrits dans la décennie des années 50 ;
quant à la deuxième, elle se situe, d’après l’ordre chronologique, dans la case
correspondant à 1880. La même année correspond aux essais.
Bref, le corpus reconstitué contient donc 59 fichiers dont 56 représentent des
romans, et les trois restants 18 nouvelles et 9 essais. Le corpus est, certes, un peu
déséquilibré, mais il nous permettra de conserver un corpus homogène pour le genre
narratif. Romans et nouvelles présentent sans doute des points communs nombreux.

Tableau N° 1. Le corpus reconstitué


ANNEE TITRE MOT GENRE CODE
NOUVELLES 1850-18708 NOUV_1 NOUVELLES 01
1850- Un Drame dans les airs -Un drame au
1870 Mexique -Martin Paz -Pierre Jean -
Maître Zacharius -Hivernage dans les
glaces -Le mariage de Mr Anselme des
Tilleuls -Joyeuses misères de trois
voyageurs en Scandinavie -Le Comte de
Chanteleine -Les Forceurs de blocus-Le
Humbug
1859 Voyage à reculons en Angleterre et en RECULONS ROMAN 02
Écosse
1862 Cinq semaines en ballon BALLON ROMAN 03
1863 Voyages et Aventures du capitaine HATTERAS ROMAN 04
Hatteras
1864 Voyage au centre de la Terre TERRE ROMAN 05
1864-65 De la Terre à la Lune. Trajet direct en… TERRELUNE ROMAN 06
1865 Les Enfants du capitaine Grant GRANT ROMAN 07
1866-69 Vingt mille lieues sous les mers MERS ROMAN 08
1868-69 Autour de la Lune AUTOURLU ROMAN 09
1869 Une ville Flottante FLOTTANTE ROMAN 10
1870 Les Aventures de trois Russes et de trois 3RUSSES ROMAN 11
Anglais dans l'Afrique australe
1870-74 Le Chancellor CHANCELL ROMAN 12
1871 Le pays des fourrures FOURRURE ROMAN 13
1872 Le tour du monde en 80 jours MONDE ROMAN 14
1873-74 L'Île mystérieuse ILEMYST ROMAN 15
1874-76 Les Aventures d'Hector Servadac SERVADAC ROMAN 16
autour du monde solaire
1875 Michel Strogoff. De Moscou à Irkoutsk STROGOFF ROMAN 17

Histoire des grands voyages et des grands voyageurs, et bien évidemment à la quasi-totalité des pièces de
théâtre. À cette liste, il faudrait ajouter deux livres inachevés : Un prêtre en 1839 (1845) et Jédédias Jamet
(1847). Malgré ces lacunes, il est impératif de signaler que le corpus, mises à part les pièces de théâtre,
englobe plus de 90% de l’œuvre vernienne.
8
Année moyenne d’écriture des nouvelles de cette période : 1853.
1876-77 Les Indes noires INDES ROMAN 18
1877-78 Un capitaine de quinze ans 15ANS ROMAN 19
1878-79 Les Tribulations d'un Chinois en Chine TRIBULAT ROMAN 20
1879 La Maison à vapeur. Voyage à travers VAPEUR ROMAN 21
l'Inde septentrionale
1880 ESSAIS ESSAIS ESSAIS 22
Salon de 1857 -Edgar Poe et ses œuvres
-A propos du Géant -Géographie
illustrée de la France et des ses colonies
(extrait) -Les Méridiens et le calendrier-
Vingt-quatre minutes en ballon -Une
ville idéale (1875b) -Inauguration du
Cirque municipal d’Amiens -Souvenirs
d’enfance et de jeunesse
NOUVELLES 1870-1890 NOUV_2 NOUVELLES 23
1880 La Fantaisie du docteur Ox -Les
Révoltés de la Bounty -Dix heures de
chasse - Fritt-Flac - Les Aventures de la
famille Raton - Gil Braltar -Mr Re Dièze
et Mlle Mi Bémol
1880-81 La Jangada, Huit cents lieues sur JANGADA ROMAN 24
l'Amazone
1881 Ecole de robinsons ROBINSON ROMAN 25
1881-82 Le rayon vert RAYON ROMAN 26
1882 Kéraban le Têtu KERABAN ROMAN 27
1883 L'Archipel en feu ARCHIPEL ROMAN 28
1883-84 Mathias Sandorf SANDORF ROMAN 29
1884-89 Le Château des Carpathes CARPATH ROMAN 30
1885 Robur le Conquérant ROBUR ROMAN 31
1885 Un billet de loterie. Le numéro 9672 BILLET ROMAN 32
1885-86 Nord contre Sud NORSUD ROMAN 33
1886 Chemin de France CHEMIN ROMAN 34
1886-87 Deux ans de vacances VACANC ROMAN 35
1887-88 Famille Sans-Nom SANSNOM ROMAN 36
1888-89 Sans dessus dessous DESSUS ROMAN 37
1889 César Cascabel. CASCABEL ROMAN 38
1890 Mistress Branican MISTRESS ROMAN 39
1890-91 Claudius Bombarnac BOMBARN ROMAN 40
1891-92 P'tit Bonhomme PETITBON ROMAN 41
1892-93 Mirifiques aventures de Maître Antifer ANTIFER ROMAN 42
1893 Île à Hélice HELICE ROMAN 43
1893-94 Un Drame en Livonie LIVONIE ROMAN 44
1894 Le superbe Orénoque ORENOQ ROMAN 45
1894-95 Face au Drapeau DRAPEAU ROMAN 46
1895 Clovis Dardentor CLOVIS ROMAN 47
1895-96 Sphinx de Glaces SPHINX ROMAN 48
1896 Le village aérien VILAERIEN ROMAN 49
1896-97 Seconde patrie PATRIE ROMAN 50
1897 Le testament d’un excentrique TESTAM ROMAN 51
1898 Les Frères Kip KIP ROMAN 52
1899 Les Histoires de Jean-Marie Cabidoulin CABIDOUL ROMAN 53
1899-00 Le Volcan d’Or VOLCAN ROMAN 54
1900 Bourses de Voyage BOURSES ROMAN 55
1901 La Chasse au météore METEORE ROMAN 56
1901 Le Phare du bout du monde PHARE ROMAN 57
1902 L'Invasion de la mer INVASION ROMAN 58
1903 Maître du monde MAITRE ROMAN 59

Le fait d’avoir regroupé les nouvelles et essais comme indiqué précédemment


nous permet aussi d’équilibrer la taille des textes étant donné que certains ne dépassent
pas la douzaine de pages face à des romans de plus de 500 pages, tâche qui facilite la
pondération des calculs. La figure N° 1 présente l’étendue de chaque texte. À titre
d’exemple, le N° 10, Une ville flottante, représente le texte le plus court avec 50 556
occurrences, devant L’Ile mystérieuse avec 245.927 occurrences. Il est évident de
constater que les œuvres les plus longues sont constituées par le trio : l’Ile mystérieuse,
Les enfants du Capitaine Grant et Mathias Sandorf. Les plus courtes sont représentées
par : Une ville flottante, Sans dessus dessous, Un billet de loterie, Le rayon vert, Le phare
du bout du monde et Maître du monde.
Figure N° 19 Etendue du corpus Jules Verne

Étant donné que dans ce corpus général, nous concentrons nos analyses et
commentaires notamment sur les romans, un sous-corpus regroupant les nouvelles a été
créé dans le but de connaître plus en détail les caractéristiques de ce genre chez notre
auteur10.
Un troisième corpus, dénommé « complémentaire », beaucoup plus réduit et
présenté dans un chapitre à part, contient des textes dits « remaniés » ; d’autres parus dans
la collection Voyages Extraordinaires sous le nom de Verne mais sortis de la plume
d’autres écrivains ; et, finalement quelques-uns écrits en collaboration ou transformés par
l’auteur.

9
Ce graphique a été obtenu à partir du logiciel Hyperbase que nous présentons plus bas.
10
Ce sous corpus « Nouvelles » sera présenté plus bas.
Chapitre II Les outils et les méthodes
d’exploitation du corpus
2.1. Outils informatiques à utiliser
La statistique textuelle ne cesse d’évoluer depuis les quatre dernières décennies.
Les méthodes lexicométriques se sont développées, s’appuyant notamment sur de
nouvelles exploitations que permettent, à l’heure actuelle, des logiciels assez performants
en matière de traitement textuel.
Les logiciels ne mettent plus seulement en équation les « mots » mais
ils traitent aussi les lemmes, les codes grammaticaux, les
enchaînements syntaxiques et les corrélats sémantiques ; ils offrent
désormais, et pour la première fois, un outil de traitement statistique
complet du discours.11

Hyperbase, le logiciel sur lequel nous appuyons notre démarche textométrique, a


été conçu par Etienne Brunet et produit par l’UMR 6039, Bases, Corpus et Langage
(CNRS-Université de Nice Sophia-Antipolis). Ce logiciel est associé à l’étiqueteur
Cordial12, et permet, de façon intégrale et simultanée, la lemmatisation et l’étiquetage
morpho-syntaxique des textes : le texte brut est traité tel qu’il a été écrit ; le programme
produit un texte lemmatisé, par lequel les mots sont ramenés à leur forme canonique
("vient" = "venir") ; les mots reviennent donc à leur catégorie ou fonction ("vient" = verbe
à la troisième personne du singulier au présent) et pour les structures syntaxiques, le
discours est ramené à ses enchaînements syntagmatiques ("le ballon s’éleva" =
déterminant+nom+verbe…)13.
Nous avons utilisé deux versions du Logiciel Hyperbase : Une version non
lemmatisée (7.1) pour les premières approches du corpus et une deuxième lemmatisée
(8.0), s’appuyant sur le lemmatiseur Cordial qui facilite les traitements statistiques14.

11
Margareta Kastberg Sjöblom, L’écriture de J. M. Le Clézio. Des mots aux thèmes, Honoré Champion,
Paris, 2006, p. 13.
12
Produit par la Société Synapse Développement (Toulouse) qui est capable de relever, entre autres, « pour
chaque mot la catégorie, la sous-catégorie, le genre, le nombre, la fonction, et s’il s’agit d’un verbe le temps,
le mode et la personne ». E. Brunet, Hyperbase, Manuel de référence, version 8.0, BCL, Nice, 2009, p.
143.
13
Damon Mayaffre, Paroles de président. Jacques Chirac (1995-2003) et le discours présidentiel sous la
Ve République, Paris, 2004, p. 16. De manière synthétique, nous pourrions dire qu’Hyperbase possède une
double fonction : documentaire et statistique. La fonction documentaire permet l’accès facile et ordonné
aux textes, voire une lecture linéaire, chronologique ou libre des textes. Hyperbase rend possible
l’indexation des mots, lemmes et codes, les premiers étant présentés sous forme alphabétique, et surtout la
navigation de passage en passage reliés par des traits caractéristiques choisis selon nos besoins. Le logiciel
est capable de produire des listes de phrases ayant un mot ou un code de notre intérêt. Il peut servir de
moteur de recherche d’un mot ou d’une chaîne de caractères sous de multiples combinaisons. La seconde
fonction d’Hyperbase peut nous permettre, entre autres, de connaître le degré d’utilisation d’un trait
linguistique, d’avoir accès à la représentation graphique de la distribution des termes et au calcul de la
distance entre textes, en passant par l’analyse factorielle de correspondances et analyses arborées, notions
statistiques qui seront expliquées plus loin. Cette fonction ne laisse pas de côté, la possibilité de connaître
certains détails liés à la richesse et accroissement chronologique du vocabulaire, le repérage de phrases clés
d’un texte et bien d’autres. Les calculs de cette fonction se présentent sous forme de graphiques pour
faciliter leur interprétation. Voir D. Mayaffre, Paroles de président…, op. cit., p. 16 et suiv. et E. Brunet,
Hyperbase, Manuel de référence, op. cit.
14
Il existe deux autres logiciels académiques pour les traitements textométriques : Weblex et Lexico, tous
les deux accessibles sur internet.
2.2. Une méthode à suivre
Grâce aux technologies nouvelles, le traitement systématique et organisé de
plusieurs millions de mots à la fois est désormais possible. La qualité des résultats est
déterminée par des lois mathématiques et impartialement rigoureuses. Ce fait permet donc
de faire des analyses beaucoup plus précises du corpus. Ces travaux de statistique lexicale
initiés en France par Charles Muller dans les années 70 du siècle passé, ont été suivis par
bien d’autres chercheurs parmi lesquels nous trouvons les noms d’E. Brunet, A. Salem,
J.-M. Adam, D. Labbé, et même des mathématiciens comme X. Luong. Dès lors, la
statistique lexicale a trouvé sa place au sein de la linguistique textuelle.
La lexicométrie ou statistique lexicale s’est d’abord définie comme
analyse chiffrée du vocabulaire d’un texte, avant qu’on ne parle de
logométrie – comme étude globale d’un discours – ou encore de
textométrie, comme analyse d’un texte. Le terme de stylométrie, qui
précède les travaux de linguistique quantitative, a été redéfini
comme stylistique appuyée sur les dénombrements et fonde sa
spécificité dans la caractérisation d’une écriture.15

Loin de la simple analyse intuitive, nous avons cru pertinent de faire appel à la
textométrie afin de maîtriser de manière plus contrôlée les plus de 6 millions de mots que
contiennent les 59 fichiers de notre base de données initiale, à laquelle s’ajoute une base
de données complémentaire de plus d’un million d’occurrences.
Avec les précisions de la statistique, et grâce à une démarche contrastive, les
termes dénotant l’imprécision comme « plus ou moins », « à peu près », et d’autres
tendent à disparaître pour céder la place à des interprétations plus ponctuelles lors de la
« lecture » des résultats. Au lieu de dire par exemple que Jules Verne emploie moins le
mot « amour » dans ses romans que dans ses nouvelles, nous dirions que sur les 291
occurrences du vocable « amour », Verne sous-utilise, en effet, dans les romans le vocable
« amour » car 31 occurrences seulement se retrouvent dans les nouvelles qui constituent
à peine 2 textes sur les 59 proposés. Cette méthode laisse alors peu d’espace à
l’imprécision et à l’empirisme et ouvre la voie à une description rigoureuse et si, l’on
veut, plus neutre du corpus. Les résultats dérivent donc des calculs statistiques16 qui seront
présentés sous la forme de graphiques montrant des histogrammes facilement
compréhensibles visuellement.
Un corpus comme le nôtre, doit se soumettre à certaines exigences : être conformé
par des versions intégrales des textes, constitué dans l’ordre chronologique d’écriture,
sous-divisé par genres, et avoir un seul écrivain-cible inséré dans une tranche
chronologique précise. Tout ceci en contraste avec une norme externe, par exemple avec
la base de Frantext par rapport à laquelle Hyperbase fait certains calculs. Il est possible
aussi de créer une norme endogène de référence constituée par un ensemble de textes.
Une partie plus ou moins grande est évaluée par rapport à cette norme de référence. « Les
résultats obtenus sont toujours relatifs à cette norme prédéterminée. Le calcul de l’écart
réduit est d’ailleurs à la base de nombre d’opérations mathématiques implémentées dans
le logiciel. Il permet la mesure de la différence quantitative entre une fréquence théorique
15
Véronique Magri M., Le Voyage à pas comptés, Honoré Champion, Paris, 2009, p. 19.
16
Etant donnée la complexité de certains calculs et ayant compris manifestement le peu d’intérêt qu’ils
pourraient avoir pour ce travail, nous préférons présenter les résultats et donner une brève explication sur
les objectifs du calcul réalisé, si nécessaire. Pour plus de détails voir Charles Muller, Principes et Méthodes
de Statistique lexicale, Champion, Paris, 1992. ; Benoît Habert et al., Les linguistiques de corpus, Armand
Colin, Paris, 1997.
et une fréquence observée dans un corpus donné »17. Son appréciation se fera toujours
par rapport au corpus-norme sélectionné.
Une fois que le corpus est établi, il est segmenté automatiquement en formes
graphiques. Les occurrences sont comptabilisées, puis lemmatisées et regroupées par
l’analyseur Cordial.
Les flexions verbales de même que les variations en genre et en
nombre sont neutralisées pour réduire les unités graphiques à leur
forme canonique : l’infinitif pour les formes verbales, le singulier
pour les substantifs, le masculin singulier pour l’adjectif… [Le
logiciel] fournit en somme pour chaque forme la graphie, le lemme
de rattachement, le codage grammatical autrement dit sa catégorie
grammaticale, sa fonction dans la phrase, une information d’ordre
sémantique qui classe la forme dans un champ lexical. Hyperbase
redistribue ainsi ces données dans les champs appropriés et procède
à leur dénombrement.18
Pour une phrase du premier chapitre d’Hatteras, voici l’exemple de l’étiquetage
effectué par Cordial :

Les omnibus Le_7 omnibus_2 _Da__p_T _Nc___T Afp_p_T


multicolores , qui multicolore_3 , qui_5 _Ypw_Pr__nS_Vmip3pV
longent le mur longer_1 le_7 mur_2 _Da_msD _Nc_ms_D _Afpms_D
extérieur des extérieur_3 de_le_7 _Da__p_D _Nc_mp_D _Ypw
bassins , bassin_2 , déverser_1 à_9 _Vmii3pV _Sp___K _Dt__s_K
déversaient à chaque_7 minute_2 _Nc_fs_K _Ds3_spD _Nc_fs_D
chaque minute leur leur_7 cargaison_2 de_9 _Sp___D _Nc_m__D _Yps
cargaison de curieux_2
curieux ;

Les : Déterminant, article, pluriel, groupe sujet


Omnibus : substantif, nom commun, groupe sujet
Multicolores : adjectif, qualificatif, positif, pluriel, groupe sujet
, : ponctuation
Qui : pronom, relatif, sujet, sujet
Longent : verbe principal, indicatif, présent, 3ème personne, pluriel, base de proposition
Le : déterminant, article, masculin, singulier, groupe objet direct
Mur : substantif, nom commun, masculin, singulier, groupe objet direct
Extérieur : adjectif, qualificatif, positif, masculin, singulier, groupe objet direct
Des : déterminant, article, pluriel, groupe objet direct,
Bassins : substantif, nom commun, masculin, pluriel, groupe objet direct
, : ponctuation
Déversaient : verbe principal, indicatif, 3ème personne, pluriel, base de proposition
A : préposition, circonstanciel de temps
Chaque : déterminant, indéfini, singulier, circonstanciel de temps
Minute : substantif, nom commun, féminin, singulier, circonstanciel de temps
Leur : déterminant, 3ème personne, singulier, pluriel, groupe objet direct
Cargaison : substantif, nom commun, féminin, singulier, groupe, objet direct
De : préposition, groupe, objet direct

17
Véronique Magri M., Le Voyage à pas comptés, op. cit., p. 21.
18
Véronique Magri M., Le Voyage à pas comptés, op. cit., p. 22.
Curieux : substantif, nom commun, masculin, groupe objet direct
; : ponctuation

Quelques imperfections d’identification peuvent être détectées après l’étiquetage,


mais leur nombre est négligeable eu égard à la masse des données exploitées.
Section II
Le vocabulaire de Jules Verne
Chapitre I. L’étendue du corpus
Quelques notions statistiques doivent être présentées avant de parler de l’étendue
du corpus proprement dite. La fréquence absolue est le nombre d’apparitions concrètes
(occurrences) d’une forme dans le corpus. Elle sera synonyme du terme effectif. D’autre
part, la fréquence relative est le rapport entre l’effectif de la classe et l’effectif total.
D’après les conseils de Charles Muller, une bonne répartition du corpus nous
permettra des analyses plus rigoureuses dans le sens où une différence de taille importante
peut nuire à certains traitements. Le texte le plus court de notre corpus (Une Ile flottante
avec 50.556 occurrences) possède une taille à peine cinq fois plus petite que le texte le
plus long (L’Ile mystérieuse avec 245.927 occurrences), rapport qui donne au corpus une
certaine homogénéité, souhaitée notamment par Dominique Labbé, spécialement pour le
calcul de la distance lexicale. D. Labbé préconise que cette relation ne soit pas supérieure
à dix.
Le corpus Verne contient un total de 6.591.870 occurrences et 77.156 vocables
distribués sur 59 textes19. Dans la figure N° 1, à quelques exceptions près, nous constatons
une certaine homogénéité liée à la taille des textes. Les plus courts, entre les 50.556 et
62.589 occurrences, sont : Flottante (50.556), Sans Dessus (60.082), Billet (60.808),
Rayon vert (61.224), Reculons (62.121), Maître (62.235), Phare (62.589). Parmi les plus
longs, avec plus de 165.000 occurrences, nous trouvons : Fourrures (166.374), Hatteras
(169.795), Mers (175.248), Nouvelles 1 (179.846), Sandorf (197.459), Grant (241.887)
et Ile Mystérieuse (245.927), textes pour la plupart inscrits dans la première période de
production littéraire de l’auteur. La taille moyenne d’occurrences par texte serait 111.726.
Les textes avec le nombre le plus bas de vocables sont : Phare (5.879), Billet
(6.361), Chemin (6.471), Chancellor (6.564) et Cabidoulin (6.936). En revanche, ceux
qui accusent le nombre le plus important de vocables sont : Ile Mystérieuse (14.318),
Mers (14.834), Nouvelles 1 (15.149), Grant (17.146). Nous constatons ainsi, avec ces
derniers textes, une volonté d’affirmation dans la carrière littéraire de Verne car tous ces
romans sont produits avant 1874, sous les douze premières années de tutelle hetzelienne20.
L’auteur veut à tout prix imposer son style, creuser dans le chantier de la science et épuiser
le nouveau filon qu’il a découvert dans ses « Voyages Extraordinaires ». Dans ce sens, il
ne cesse de montrer un vocabulaire varié et surtout nouveau.
Ces chiffres revêtent une importance capitale pour le calcul de la fréquence
relative. Prenons comme cas de figure deux textes : Reculons (62.121 occurrences et
9.009 vocables) et Robinsons (71.512 occurrences et 7.694 vocables). Malgré la tendance
générale selon laquelle il y a un rapport logique entre N et V, ces textes montrent qu’il
est important de considérer l’étendue étant donné que parfois des textes plus courts
peuvent présenter une liste plus importante de vocables. Ce sujet sera développé plus bas
dans le chapitre « Richesse du vocabulaire ».

19
Voir Annexe N°3 Le vocabulaire de Jules Verne
20
Pour les nouvelles nous savons qu’elles datent de la décade des années 50.
Chapitre. II Les fréquences

2.1 Division des fréquences


La notion de fréquence permettra de classer les mots d’après la distribution
suivante :
Hapax ou vocables de fréquence 1 (rencontrés une seule fois dans le corpus)
Basses fréquences : 2-100
Moyennes fréquences : 101-999
Hautes fréquences : 1.000-2.000
Très hautes fréquences : >2.000
Par rapport au nombre de vocables, nous avons repéré tout d’abord les hapax en
nombre de 26.777 ; pour les basses fréquences un nombre total de 45.574 ; Les moyennes
fréquences, 4.288 ; les hautes fréquences 238 formes et pour les très hautes fréquences,
279 occurrences, pour un total de 77.156 formes différentes.
Les hapax représentent 35  du vocabulaire mais à peine 1  du corpus (voir
Figure 2). La version lemmatisée de la base compte un total de 17.032 hapax sur 46.382 lemmes, ce
qui correspond à 37  du vocabulaire. Ce 37  est comparable aux valeurs obtenues par
Hyperbase pour d’autres auteurs de l’époque : Balzac 33 , Maupassant 34 , Flaubert
38 , Chateaubriand 40 21.
Les basses fréquences, calculées sur V (voir Figure N° 3), constituent 59  du
vocabulaire et 10  du texte. Les moyennes fréquences 5,56  du vocabulaire et 26 
du corpus. Quant aux hautes fréquences elles ne représentent que 0,31  du vocabulaire
mais 18  du corpus. Pour les très hautes fréquences, même si elles constituent à peine
0,36 du vocabulaire, elles en représentent 46  du corpus. Ces résultats, si nous le
comparons avec les pourcentages du Tableau N° 2, permettent de percevoir une tendance
chez Verne à employer plus de mots à haute et très haute fréquence et à moins recourir à
ceux présentant une basse fréquence. Il faut, nonobstant, signaler que cette différence
obéit, sans doute, à la taille du corpus considéré. Dans la mesure où un corpus est plus
grand, le nombre de mots à haute et très haute fréquence tend à augmenter et,
contrairement, « la proportion des mots à fréquence 1 tend à décroître »22. En effet, le
plus semblable au nôtre des corpus proposés par E. Brunet, quant à la taille, est celui de
Sand (5.564.812 occ.), et nous constatons, dans ce cas, le plus bas pourcentage de mots à
basse fréquence et le plus haut pourcentage de mots à très haute fréquence. La base Verne
proposée par E. Brunet23 (3.656.992 occ.), permettrait de faire des comparaisons avec
celle de Victor Hugo (3.656.982 occ.) en raison de leur taille : identique pourcentage pour
les basses et les hautes fréquences, et proportions semblables pour les moyennes et très
hautes fréquences. La conclusion à en tirer, c’est la tendance générale, et logique si l’on
veut, chez les auteurs proposés, y compris Verne, à avoir recours aux très hautes
fréquences, constante déterminée pour les corpus de grande taille. Verne se maintient
dans les moyennes des calculs, exception faite pour les basses fréquences où il est, dans
les deux tables proposées, un peu au-dessous de la moyenne.
Le tableau N° 2 est le résumé des pourcentages des fréquences des mots chez
quelques auteurs du XIXème siècle.

21
M. Kastberg, L’écriture de J.M.G. Le Clézio, op. cit., p. 50.
22
Etienne Brunet, Le Vocabulaire de Victor Hugo, Paris-Genève, Champion-Slaktine, 1998, p. 35.
23
Version lemmatisée 8.0 (juillet 2008).
Tableau N° 2. Pourcentage des fréquences sur V chez quelques auteurs du XIXème siècle24
Auteur Hapax + BF MF HF THF
Hugo 13 26 17 44
Sand 8 23 16 53
Stendhal 15 27 19 39
Lamartine 15 25 17 43
Nerval 20 24 15 41
Proust 15 23 18 44
Verne 13 27 17 43

Verne25 10 26 18 46

Distribution des fréquences

35000

30000

25000
nombre de mots

20000

Série1

15000

10000

5000

0
F1 F2-F10 F11-F20 F21-F30 F31-F40 F41-F50 F51-F60 F61-F70 F71-F80 F81-F90 F91-100 F101- F1000- F>2000
999 2000
Fréquences

Figure N° 2. Distribution des fréquences sur V

24
D’après les bases de données établies par E. Brunet, Hyperbase. UMR 6039, Bases, Corpus et Langage
(CNRS-Université de Nice Sophia-Antipolis). L’annexe N° 4 contient les pourcentages en détail.
25
D’après les résultats de notre base de données.
Fréquences sur N
1%
1%
1
3% 5% 2
7%
3
36%
10% 4
5
6
7
8
9%
9
10% 9% 10
9%
11

Figure N° 3. Distribution des fréquences sur


N
(BF = 1 + 2 + 3 + 4; MF = 5 + 6 + 7; HF = 8 + 9; THF = 10 +
11)

À partir des hapax, la fréquence des mots diminue de manière régulière comme
nous pouvons l’apprécier dans la figure No 2, dans laquelle nous avons regroupé les
données en classes de fréquences pour que la figure soit plus compréhensible. À titre
d’exemple, les 9 premières fréquences après les hapax sont : f2 : 9.569, f3 : 5.352, f4 :
3.711, f5 : 2.789, f6 : 2.241, f7 : 1.808, f8 : 1.479, f9 : 1.310. Cette tendance se maintient
jusqu’à la fréquence 20, au-delà il y toujours une tendance à la baisse des effectifs mais
avec beaucoup d’irrégularités que l’on ne peut malheureusement apprécier dans la figure
N° 326. Margareta Kastberg, dans son étude sur J.M.G. Le Clézio (p. 44), auteur qui
accuse d’ailleurs une influence importante de Verne dans son œuvre, constate la même
tendance. Cela correspond grosso modo au schéma traditionnel de corpus littéraire
narratif.

2.2. Les hapax


Avec les hapax « nous sommes aux frontières du dictionnaire, là où convergent
les mots étrangers, les noms propres, les régionalismes, l’argot, les mots techniques… et
aussi les mots estropiés qui souffrent d’une lettre tordue ou perdue »27. Chez Verne, un
nombre important de dates et chiffres isolés fait partie de la liste d’hapax (528806, 1899,
1901, 1904, 1911, 1939, 1986, 2021). Il y a de même, certaines formes verbales peu
employées (abrégea, abrégée, abrégées, abrégera, abrégerons, abreuvent, abreuvèrent,
abstienne, abstiens) ; beaucoup de noms propres (Alvarez, Amakata, Abydos, Blarney,
Chang) ; de mots empruntés de l’argot (de la boxe : ronfleur (cloche, sonnette)) ; du
vocabulaire maritime : pagale (en pagale : précipitamment), militaire : subversions
(bouleversements, renversements de l’ordre établi) ; des régionalismes (ieuvres
(pieuvres), gypsie (tsigane))…

26
Voir annexe No 5 La distribution des fréquences
27
Etienne Brunet, Comptes d’auteurs, Tome I, Honoré Champion, Paris, 2009, p. 91
Figure N° 4. Les Hapax (les formes)

A l’exception d’Hatteras, tous les textes écrits entre 1850 et 1869 y inclus 20000
Lieues sous les mers, sont très riches en hapax. « Les hapax ne mesurent pas la richesse
lexicale d’un texte mais l’hétérogénéité du vocabulaire »28. En ce sens, nous remarquons
une autre plage importante d’hapax dans les œuvres écrites entre 1878 et 1885,
notamment dans les essais et le deuxième recueil de nouvelles. Une troisième vague
d’hapax plus irrégulière et décroissante apparaît entre 1888 et 1897. Par le nombre
d’hapax dans cette période, se détachent facilement des textes comme Sans dessus
dessous, Bombarnac, Hélice et Clovis Dardentor.
Les 26.777 hapax présents se distribuent de façon inégale quant au genre : les deux
recueils de nouvelles et les essais présentent des écarts réduits assez importants par
rapport à la plupart des romans29. À savoir : « l’écart réduit est l’écart à la moyenne
pondérée en fonction de la longueur respective de chaque œuvre »30.
Dans les essais, les listes de noms propres à fréquence 1 y sont assez récurrentes :
Voici deux ans déjà, les artistes de toutes nations étaient conviés à
l’Exposition universelle. Après leur lutte avec le monde entier, le
gouvernement voulut accorder ces deux années de repos aux
peintres et aux sculpteurs français ; ils le méritaient bien, pour être
restés vainqueurs dans cette arène où combattaient Landseer, Rauch,
Cornelius, Mulready, Leys, Eastlake et Tideman. (Essais, Salon de
1857. Article préliminaire)

Le même cas peut être cité dans les nouvelles :


Parcourir les œuvres des professeurs Afzelius, Walhenberg,
Svanberg, Gefer, Frier, Nillson ! Mettre le pied dans les universités
de Lund et d’Upsal ! Mais, c’est le rêve de ma vie, et la réalisation
de mes plus chers désirs ! (Nouvelles 1, Joyeuses misères de trois
voyageurs en Scandinavie, p. 5)

28
Véronique Magri, Le discours sur l’Autre, Honoré Champion, Paris, 1995, p. 68
29
Voir annexe N° 6 Richesse lexicale et Hapax
30
Véronique Magri, Le discours sur l’Autre, op. cit., p. 60.
Dans les romans, de longues explications introduisent un vocabulaire unique, très
attaché au décor du texte en question. C’est le cas de 20 000 Lieues sous les mers à propos
de la faune marine :
Sur nos pas, comme des compagnies de bécassines dans un marais,
se levaient des volées de poissons curieux du genre des monoptères,
dont les sujets n’ont d’autre nageoire que celle de la queue. Je
reconnus le javanais, véritable serpent long de huit décimètres, au
ventre livide, que l’on confondrait facilement avec le congre sans
les lignes d’or de ses flancs. Dans le genre des stromatées, dont le
corps est très-comprimé et ovale, j’observai des parus aux couleurs
éclatantes portant comme une faux leur nageoire dorsale, poissons
comestibles qui, séchés et marinés, forment un mets excellent connu
sous le nom de karawade ; puis des tranquebars, appartenant au
genre des apsiphoroïdes, dont le corps est recouvert d’une cuirasse
écailleuse à huit pans longitudinaux. (Mers, III, II partie).

Les romans scientifiques procurent aussi une liste importante d’hapax :


J’aime mieux admettre l’existence de quelque animal dont la
structure se rapproche de la structure humaine, de quelque singe des
premières époques géologiques, de quelque Protopithèque, de
quelque Mésopithèque semblable à celui que découvrit M. Lartet
dans le gîte ossifère de Sansan ! (Centre, XXXIX).

Plus simplement des mots d’origine étrangère cités une seule fois :
Je cherchai à grouper ces lettres de manière à former des mots.
Impossible. Qu’on les réunit par deux, trois, ou cinq, ou six, cela ne
donnait absolument rien d’intelligible ; il y avait bien les
quatorzième ; quinzième et seizième lettres qui faisaient le mot
anglais « ice », et la quatre-vingt-quatrième, la quatre-vingt-
cinquième et la quatre-vingt-sixième formaient le mot « sir ». Enfin,
dans le corps du document, et à la deuxième et à la troisième ligne,
je remarquai aussi les mots latins « rota », « mutabile », « ira »,
« neo », « atra ». (Centre, IV).

Ou même un simple programme de théâtre écrit entièrement en langue


étrangère31 :
…Fleanc (son to Banquo) Miss Denvil
Suvard (Earl of Northumberland) Mr. Kastings
Seton (an officer attending on Macbeth) Mr. Paulo
Physician, Mr. Karcout Wounded officer Mr Dawson
Officers, Mr J. Collet, Mr. Dahy, etc.
Apparition, Mr Johnston, Miss B. Adams, Miss A. Denvil…
Act I
Camp near Fores. Site of Sweno’s pillar. A heath. A room in
Macbeth’s castle at Inverness. Exterior of same.
Act II
Court within Macbeth’s castle at Inverness…
Saturday next; September 14th,
For the Benefit of Mr. James Anderson

31
A ce propos voir le travail de Robert Pourvoyeur, L’invention des noms étrangers chez Jules Verne. In :
Modernités de Jules Verne, PUF, Paris, 1988. Pour l’auteur, le nombre de mots employés par le romancier
dans son œuvre est si important qu’il conclut que Verne a contribué de façon décisive à multiplier le nombre
de vocables anglo-saxons en français.
And last night of the company’s performing the season
Dress circle, 5s. Boxes, 4s Pit, 2s.Gallery, 1s.
Orchestra stalls, 6s. Private boxes, L 2 s. 6 d l2 2 s. & L 11s 6 d.
Doors open at half past six, the performance to commence at seven… (Reculons,
XLII).

« [Verne] n’hésite pas à utiliser le mot anglais même là où existe déjà un mot
français parfaitement adéquat et bien connu par ailleurs » nous dit Robert Pourvoyeur32.
Mot français avec son équivalent : « plus de la moitié relève de l’Église libre d’Écosse –
Free Church of Scotland… » (Antifer, XII) ; Ou sans l’équivalent : « Jonathan, chargé de la
bourse de voyage, se perdait au milieu de ces pièces d’argent et de cuivre, crown, half-crown, two-
shilling, six-pence, four-pence, three-pence, et penny … » (Reculons, XIV). Il est clair qu’ici nous ne
pouvons assurer que la plupart ou tous les mots d’origine étrangère soient classés dans la liste d’hapax,
la seule certitude est une importante attirance pour les basses fréquences.

2.3. Les groupes de fréquences


Hyperbase, lors de la constitution de la base, range les mots selon qu’ils sont rares
ou fréquents. On distingue onze classes de fréquences : la première consacrée aux mots
rares (qui ont moins de 500 occurrences dans le corpus FRANTEXT), quatre autres
considérées de basses fréquences (groupes 2-5), cinq groupes de hautes fréquences (g6-
g10) et finalement le groupe 11 « des plus hautes fréquences », dans lequel se trouvent
généralement la plupart des mots-outils et qui occupe une position médiane33. Dans le
premier groupe, celui de mots rares, il y a un total de 36.022 occurrences et pour le groupe
11, un total de 1.723.144 occurrences.

Figure N° 5. Les groupes de fréquences


32
Robert Pourvoyeur, L’invention des noms étrangers chez Jules Verne, op cit., (p. 71).
33
Etienne Brunet, Hyperbase, Manuel de référence, p. 74, 2009.
Si nous regardons l’ensemble des textes mis en rapport avec les groupes de
fréquences et traités par la méthode factorielle34, nous aurons une distribution globale des
œuvres montrant une préférence pour tel ou tel groupe de fréquences de mots. Dans la
figure N° 5, nous distinguons les deux facteurs organisés de la manière suivante : le
premier distingue, à partir de l’axe vertical, les œuvres riches en mots à basses fréquences
pour les textes se situant sur la droite ; sur la gauche, un nombre élevé de textes associés
à une présence de mots à hautes fréquences. Le deuxième facteur, distingue sur l’axe
horizontal deux types de textes : ceux riches en fréquences extrêmes (sur le haut), c’est-
à-dire, très hautes et très basses, et ceux avec une prépondérance de fréquences moyennes
(en bas). Il y a quatre quadrants organisés par rapport à la distribution des fréquences dont
les plus basses se trouvent dans le quadrant supérieur droit correspondant en bon nombre
aux premières productions de l’auteur. Dans ce groupe se détachent fortement le
deuxième recueil de nouvelles et les essais. Nous constatons de nouveau un remarquable
intérêt de la part de l’auteur pour utiliser un vocabulaire peu répétitif, intérêt qui diminue
si nous continuons à regarder dans le sens des aiguilles de la montre. Le deuxième
quadrant (inférieur droit), montre qu’une seconde vague de basses fréquences est présente
dans des textes produits entre 1890 et 1897 en pleine époque de réconciliation avec son
fils Michel et juste après une période d’événements catastrophiques pour l’auteur dont
nous parlerons plus bas. Dans la liste des œuvres à signaler nous trouvons : Petit
bonhomme, Clovis, Hélice, Testament, Village aérien, Carpathes et Bombarnac, ces deux
dernières datant de 1884-89 et 1890-92 pour lesquelles Jules Verne montre un intérêt
spécial : « Les livres sur lesquels je comptais, Bombarnac, Carpathes, le public n’en veut
pas. C’est décourageant. Il est vrai, on ne peut toujours avoir la vogue. Je le sais »35. Se
distingue aussi ici le premier recueil de nouvelles. Le troisième quadrant (inférieur
gauche) réunit les œuvres utilisant des mots à haute fréquence et qui correspondent
notamment aux derniers textes de l’auteur dans lesquels nous pouvons citer Orénoque,
Sphinx, Kip, Maître et Patrie. L’auteur a déjà épuisé tous les filons des aventures et ne se
montre que répétitif depuis bien longtemps. En 1881 il écrit Robinsons dont le sujet du
naufragé a été largement traité dans L’Île mystérieuse, sujet repris dans Deux ans de
vacances (dernier quadrant, supérieur gauche). Il en est de même pour Hatteras dont le
sujet du voyage au pôle Nord est traité à plusieurs reprises et pour Branican, dont
l’omniprésente recherche d’un capitaine disparu dans le territoire australien est un sujet
usé dans Les Enfants du Capitaine Grant. Servadac reprend le sujet des voyages
spatiaux ; Un capitaine de quinze ans revient au thème africain et au voyage depuis la
Nouvelle Zélande. Il s’agit donc de romans peu particuliers, facilement classables dans
des cases thématiques déjà traités par l’auteur. Chronologiquement, aucun de ces romans
ne se situe parmi les premiers textes de l’auteur. C’est juste après que Verne acquiert un
succès notoire avec 20000 lieues sous les mers qu’apparaissent les premiers romans
présentant un vocabulaire caractérisé par une répétition des mots à très haute fréquence.

34
Une méthode plus synthétique que de simples histogrammes est constituée par l’analyse factorielle de
correspondances (AFC) qui permet de soumettre au calcul une série de formes qui seront traitées ensemble
selon les méthodes multidimensionnelles. Les variables traitées sont mises en relation d’après leur distance
intratextuelle. Dans l’AFC les grands écarts sont pondérés afin de produire un résultat proportionné et
lisible sous la forme d’un schéma où tous les éléments représentent un système qui montre les rapports
entre eux. Ces rapports sont estimés d’après la zone en commun partagée par ces éléments. Un exemple
facile à comprendre serait le schéma des œuvres composant le corpus Verne (Voir Figure 9) qui montre de
façon synthétique la distance lexicale entre les textes : les plus proches partagent plus de lexique commun
que ceux qui sont plus éloignés.
35
Lettre au fils d’Hetzel, 19 sept. 1893, citée par Simone Vierne, Jules Verne : Une vie ; une œuvre, une
époque, Edit. Ballard, Paris, 1986, p. 103.
Phare, Drapeau et Invasion se situant autour du groupe 11 —groupe des plus hautes
fréquences— correspondent à des romans de la dernière étape de Verne.
En regardant en détail chaque livre, on peut se rendre compte que ceux qui
contiennent le plus d’hapax sont les plus déficitaires en hautes fréquences, comme
démontré pour Reculons et Essais dans les histogrammes suivants.

Cette constatation est valable aussi à l’inverse. Des textes accusant un faible
nombre d’hapax présentent des groupes de fréquences élevées excédentaires. C’est le cas,
pour l’exemple qui suit, de L’Île mystérieuse et Seconde patrie.
Chapitre III. La richesse du vocabulaire
La notion de « richesse lexicale » répond pour Muller à une « appréciation toute
subjective d’ailleurs qui ne se fonde généralement sur aucune donnée sûre, et qui traduit
plutôt la présence dans le texte de quelques vocables jugés rares, ou au contraire l’absence
de tels éléments du lexique »36. Il ajoute plus loin : « Appliqué à un texte, le terme de
richesse lexicale est donc défini par le nombre des vocables, et rien de plus »37. Un texte
est donc plus riche lexicalement qu’un autre s’il contient plus de mots différents.
La richesse du vocabulaire, qui peut nous donner une idée de la culture de l’auteur,
varie selon le genre et le thème traité, sorte de spécialisation du vocabulaire qui nous fait
penser à plusieurs textes de Jules Verne dont le sujet fait appel constamment à des champs
lexicaux assez distincts. De la terre à la lune a recours à un vocabulaire spécifique et
riche en termes de balistique et en connaissances sur notre satellite, vocabulaire tout à fait
différent par rapport à celui du Superbe Orénoque, par exemple, dont l’histoire se passe
dans la jungle vénézuélienne bien loin des calculs des voyages spatiaux, ou à celui du
Voyage au centre de la Terre qui s’enfonce dans la géologie, la paléontologie, la
minéralogie, et les théories de l’évolution.

Les Voyages extraordinaires sous le


regard des statistiques lexicales
est disponible sur AMAZON
https://www.amazon.fr/Voyages-extraordinaires-regard-statistiques-
lexicales/dp/B096TN75PH/ref=tmm_pap_swatch_0?_encoding=UTF8&qid=1673031507&sr=8-1

36
Charles Muller, Principes et méthodes de statistique lexicale, op. cit., p. 115.
37
Ibid., p. 116.

Vous aimerez peut-être aussi