Vous êtes sur la page 1sur 20

Manuscrit auteur, publi dans "Journal of Quantitative Linguistics 8, 3 (2000) 213-231"

La distance intertextuelle et lattribution dauteur Corneille et Molire


(Version prliminaire en franais de larticle "Inter-Textual Distance and Authorship Attribution. Corneille and Molire" paru dans : Journal of Quantitative Linguistics. 8-3, December 2001, p 213-231). Cyril LABBE Universit Grenoble I cyril.labbe@imag.fr Dominique LABBE Institut d'Etudes Politiques de Grenoble dominique.labbe@iep.upmf-grenoble.fr halshs-00137675, version 1 - 21 Mar 2007

Rsum : La distance intertextuelle quantifie les proximits entre plusieurs textes. Elle peut tre mesure grce un indice normalis et une chelle de la distance. Ces outils peuvent tre utiliss pour l'attribution d'auteur. Une application est prsente sur l'un des cas clbre de la littrature franaise : Corneille et Molire. Le calcul fait clairement la diffrence entre les deux oeuvres mais il dmontre aussi que Corneille a contribu de nombreux chefs d'oeuvre de Molire.

` Molire aurait confi Nicolas Despraux : Je dois beaucoup au Menteur. Lorsquil parut javais bien envie dcrire, mais jtais incertain de ce que jcrirais ; mes ides taient confuses : cet ouvrage vint les fixer . Andr Le Gall, Corneille, Paris, Flammarion, 1997, p 469.

La recherche de lauteur dun texte inconnu ou douteux est lun des plus vieux problmes de la statistique applique la littrature. Il sagit toujours de rapprocher ce texte dautres dont les auteurs sont certains et dont on souponne quils ont pu participer sa rdaction. halshs-00137675, version 1 - 21 Mar 2007 Habituellement, ltude porte sur les mots les plus frquents ou sur une slection de ceux-ci, souvent les mots outils (function words). Voir ce sujet (Holmes, 1995 et Baayen et al, 1996). Nous proposons ci-dessous un calcul qui prend en compte la totalit des textes et donne une mesure standardise de la distance existant entre eux. La question est connue sous le nom de connexion lexicale . Celle-ci est dfinie comme lintersection du vocabulaire de deux textes (Muller 1977, p 145-154). La connexion est donc le complmentaire de la distance, terme plus familier en statistique et que nous retenons pour cette raison. Pour comprendre la porte de ce calcul, il faut rappeler la diffrence existant entre mot et mot diffrent (ou vocable). Le mot est le plus petit lment mesurable dun texte et le vocable, forme llment de base du vocabulaire. Par exemple, le plus long roman en langue franaise, Les misrables, compte un demi-million de mots (cest sa taille ou son tendue , note N) et son vocabulaire (not V) comporte moins de 10.000 vocables. Jusqu maintenant, ltude de la connexion a t faite sur le vocabulaire sans tenir compte de la frquence des mots (par exemple Brunet, 1988). Nous proposons ici de considrer la frquence demploi de chacun des vocables, cest--dire lensemble de ltendue des textes compars. Dans le terme distance intertextuelle , ladjectif textuel indique donc que les calculs portent sur lensemble des textes (N) et non sur leur seul vocabulaire (V). Aprs avoir prsent le calcul nous proposons une application lun des cas les plus clbres de la littrature franaise : Corneille et Molire.

La distance intertextuelle

Pour pouvoir dire si deux textes sont plutt proches ou plutt loigns , quant lutilisation du vocabulaire, il faut transformer la mesure absolue de leur distance en un indice. On recherche donc un indice : insensible aux diffrences de taille entre les textes compars ; applicable plusieurs textes et, potentiellement, tous les textes dune mme langue ; variant uniformment entre 0 (mme vocabulaire et frquence semblable de chacun des mots dans les deux textes) et 1 (aucun vocable en commun) sans saut ni effet de seuil autour de certaines valeurs ; halshs-00137675, version 1 - 21 Mar 2007 symtrique (soit deux textes A et B alors (A,B) = (B,A)) ; aussi transitif que possible : quand on agrge le vocabulaire de deux textes, les distances de ce nouveau vis--vis des autres textes doit reflter lordre des distances antrieures (si (A,B) > (A,C) > (B,C) alors (A,B) > {A,(BC)] ) ; aussi "robuste" que possible (ie une modification marginale dans le vocabulaire d'un des deux textes doit se traduire par une variation marginale de leur distance)

Quand on examine les travaux classiques en ce domaine, on trouve habituellement les calculs suivants :

Soit deux textes A et B et, Va et Vb : nombre de vocables dans A et B (vocabulaire) ; Fia : frquence du vocable i dans A ; Fib : frquence du vocable i dans B. Na et Nb : nombre de mots dans A et B (taille) ; avec Na = Fia et Nb = Fib La distance absolue entre A et B sera la surface des deux textes moins leur intersection, cest--dire la somme des diffrences entre les frquences absolues de chacun des mots des deux textes.

Na

Nb

Na Nb

La distance relative pourra tre calcule de deux manires :

(1) ( a, b ) =
ou :

Va

Fia Fib +

Vb

Fib Fia

Na + Nb

(2) ( a , b )
halshs-00137675, version 1 - 21 Mar 2007

Fia F , b 1 Va = + 2 Na

Vb

Fib Fia Nb

La formule (2) est, la notation prs, celle qui est suggre par E. Brunet dans Brunet (1988). La distance maximale absolue est gale Na + Nb. Ces formules classiques ont soulev deux objections : (1) et (2) ne sont quivalentes que quand les textes ont des tailles gales (Na = Nb). Si les deux textes compars ne partagent aucun vocable, les formules (1) et (2) donnent bien un indice de 1 quelle que soit la taille des textes (ce qui est une des conditions requises pour lindice idal). En revanche, le minimum thorique ne peut atteindre zro que dans le cas particulier de tailles gales. En effet, plus les textes compars seront de tailles diffrentes, plus le numrateur minimal possible sloignera de zro. Par exemple, dans le discours politique qubcois : le texte de 1965 qui est le plus court du corpus a une taille de 1 006 mots et un vocabulaire de 419 vocables alors que le texte de 1984 (le plus long du corpus) contient 12 828 mots et 2 790 vocables. Physiquement parlant, les 2 790 vocables du texte de 1984 ne peuvent pas tous entrer dans le texte de 1965. Mme si le petit texte tait totalement inclus dans le grand, la distance ne serait pas nulle, puisque le calcul porte galement sur les (2 790 419) vocables absents du plus petit et ne pouvant pas tous y figurer. dans (1) comme dans (2), lintersection des deux textes est compte deux fois. On donne donc plus dimportance aux vocables communs quaux vocables propres chacun des textes. Comment surmonter ces deux objections pour une donner une mesure plus fine de la distance entre plusieurs textes ?

Une approximation de la distance intertextuelle Il est propos de simuler la rduction du plus grand des deux textes la taille du plus petit. Soit B cette rduction de B en fonction de la taille de A :

Na

Nb

Nb

A
halshs-00137675, version 1 - 21 Mar 2007
Na Nb

Soit U(a,b), le coefficient de proportionnalit entre A et B :

U ( a, b ) =

Na Nb

Tout mot de frquence Fi dans B aura une frquence attendue (esprance mathmatique) dans A gale : Eia(u) = Fib * U(a,b) Do lon tire que :
N' b =

E
Vb

ia(u)

= Na

On propose donc de remplacer dans les formules (1) et (2) les termes Fib par Eia(u) et Nb par Nb. Le minimum thorique (zro) sera atteint quand le petit texte sera une sorte de modle rduit du grand. Dans ce cas, tous les vocables de A se retrouvent dans B avec une frquence telle que : Fia = Eia(u) Le numrateur de la formule (2) sera gal zro et le dnominateur : Na + Nb = 2 Na Cest en effet leffectif maximum des mots que les deux textes peuvent avoir en commun sils ont mme dimension, mme vocabulaire et pour chacun des vocables, mme frquence.

Le maximum thorique (lunit) devrait tre atteint quand les deux textes nont aucun mot en commun. Au numrateur, comme au dnominateur, figureront Na et Nb. Toutefois, cette nouvelle formulation ne rpond pas lobjection concernant le double compte de lintersection des deux textes et ne rsout pas totalement le problme physique mentionn ci-dessus : tous les vocables de B ne peuvent pas thoriquement figurer dans A. Pour tenir compte de ces deux objections, il est propos de : - ne considrer quune seule fois lintersection des deux textes ; - limiter le calcul lensemble des vocables de A mais aux seuls vocables de B dont la frquence est telle que lon en attend au moins 1 dans A (Eia(u) 1). La somme de ces esprances donne Nb.

halshs-00137675, version 1 - 21 Mar 2007

C D (texte A)

E (texte B)

La procdure de calcul se droule en trois temps (voir figure ci-dessus). Pour les Va vocables (ensemble C), la contribution la distance est gale :
DVa, b(u) =

Va

Fia E ia(u)

Pour que lindice maximal soit effectivement gal 1 (quand A et B nont aucun vocable en commun) et toujours infrieur lunit si leur intersection nest pas vide, il faut considrer successivement : les J mots de A pour lesquels : Fia Eia(u) . Ce premier ensemble comprend C (mots pour lesquels Eja(u)= 0), et la partie de D que lon peut rattacher A. Pour ce groupe de mots, la distance maximale thorique possible, qui devra figurer au dnominateur de lindice, sera atteinte quand les J mots seront tous absents de B. Elle est donc gale :

Dmax(j) =

F
J

ia

les K mots de A pour lesquels, : Eia(u) > Fia. Cest la partie de D que lon peut rattacher B. Pour ce second ensemble, le maximum thorique possible est gal :

Dmax(k) =

E
k

ia(u)

Il faut enfin envisager lensemble E compos des vocables de B absents de A et qui devraient sy trouver si les deux textes taient identiques (lesprance mathmatique du nombre de leurs occurrences dans A en fonction de leur frquence dans B est au moins gale lunit).

Il y a L vocables qui rpondent aux deux conditions : Fia = 0 (absent de A) ; Eia(u) 1 (frquence attendue dans A, en fonction de la frquence dans B, au moins gale lunit). halshs-00137675, version 1 - 21 Mar 2007 Pour ces L vocables, la distance observe et la distance maximale thorique seront identiques. Do :
Dmax (L) =

E
L

ia(u)

La distance absolue sparant A et B sera gale la somme des trois contributions pour les J, K, L vocables. Et la distance relative sobtiendra en divisant cette somme par celle des trois maxima :

(3) D( a, b ) =

Fia Eia ( u ) +

Fia Eia ( u ) + Eia ( u )


l

D max( j ) + D max( k ) + D max( l )

Dans le cas dune intersection (D) vide, les premiers membres du numrateur et du dnominateur seront gaux Na, le second membre sera nul et les troisimes gaux Nb. Ce qui donne bien un indice de 1. On remarquera que le mme rsultat, aux arrondis prs, peut tre obtenu en soustrayant les frquences relatives de chacun des vocables dans les deux textes compars, condition de limiter le calcul tout le vocabulaire du plus petit des deux textes et ceux des vocables qui, dans le plus grand, ont une frquence suffisante pour quon en attende au moins un sil avait la taille du plus petit. Les arrondis introduisent une lgre incertitude dans les rsultats. Alors que les frquences observes sont toujours des entiers, les frquences thoriques auront presque toujours des dcimales qui entreront dans la distance. Ce dfaut sera dautant plus sensible que les mots de basses frquences occuperont une surface importante, ce qui est le cas quand les textes sont brefs. Pour limiter partiellement ce premier inconvnient, on napplique pas le calcul de trop 7

petits textes. Dans lapplication ci-dessous, le plus petit texte comporte 3.500 mots (il sagit de la premire comdie de Molire) et le plus long 20.300 (La toison dor de Corneille)1. De manire plus gnrale, il est prfrable de ne pas traiter de taille infrieure 1.000 et de sen tenir une chelle des dimensions infrieur 1/10 environ. Pour les mmes raisons, il faut liminer du numrateur tous les rsultats infrieurs 0.5. Echelle des distances Le calcul a t appliqu divers corpus (tous dpouills selon la mme norme) ce qui permet dtablir empiriquement une chelle des distances (Table I). Table I. Echelle normalise des distances entre textes2
Un auteur Auteurs diffrents

halshs-00137675, version 1 - 21 Mar 2007

.65 Noyau minimal commun pour des textes dans une mme langue

Noyau minimal commun pour des textes crits dun mme auteur

.40
Genres diffrents, thmes loigns

Genres diffrents, thmes loigns

.30

Genre semblable = thmes diffrents Genres diffrents = thmes proches

.25 Genre semblable = thmes diffrents Genres diffrents = thmes proches .20 Mme auteur, mme genre, mme thme Attribution dauteur certaine Mme genre, mme thme Attribution dauteur possible

.10

pour un mme auteur, on constate toujours des distances infrieures celles qui peuvent exister entre deux auteurs diffrents (quand ils traitent dun mme thme peu prs
1 2

Note 2007 : la pice la plus longue est lAvare (21 033 mots) Note 2007 : cette chelle a t calibre avec des chantillons dont les longueurs taient comprises entre 5000 et 20000 mots.

la mme poque). La procdure de reconnaissance dauteur ncessite donc un choix raisonn des textes compars pour neutraliser autant que possible les effets du genre et des thmes qui augmentent les distances. Les distances infrieures .20 ne se constatent gnralement que chez un mme auteur et pour des textes appartenant un mme genre avec des thmes proches. En cas dauteur inconnu, lattribution dauteur est quasi-certaine. Si les deux textes ont officiellement des auteurs diffrents, lun des deux sest inspir de lautre Entre 0,20 et 0,25 stend une zone grise o la parent entre les textes demeure forte. Si lauteur est unique, les thmes ou les genres changent. Si lun des auteurs est inconnu, lattribution est probable mais ne pourra tre avre que si lon peut dmontrer quil nexiste pas dautres textes plus proches et si dautres indices, notamment stylistiques, viennent halshs-00137675, version 1 - 21 Mar 2007 conforter la conclusion. Au-dessus de 0,25 les genres et/ou les thmes sont trop loigns pour quon puisse

valablement utiliser ces textes pour une attribution dauteur.

A titre dillustration, nous proposons une application du calcul aux pices de thtre de Corneille et Molire. En effet, ds lorigine, des rumeurs ont couru sur la paternit des pices de Molire. Ces rumeurs ont notamment t nourries par un avertissement de lditeur plac en tte de la publication dune des pices (Psych, 1671), avertissement qui attribuait Corneille les deux tiers des vers alors que la pice avait t joue auparavant sous le seul nom de Molire (cette pice ainsi que lavertissement de lditeur sont reproduits dans le deuxime volume des uvres compltes de Corneille publies dans la Plade chez Gallimard). Depuis lors, la question a refait surface plusieurs reprises, le nom de Corneille tant le plus souvent cit comme plume de lombre . Au dbut du XXe sicle, le pote P. Louys et plus rcemment deux auteurs belges ont soulign la parent frappante entre les deux oeuvres (Wouters et Ville de Goyer, 1990).

Le thtre de Molire

Le calcul de la distance intertextuelle apporte quelques informations intressantes ce sujet. Voici dabord, titre dexemple, les distances sparant les pices de Molire les plus connues et les plus joues (tableau II).

Table II. Distances entre les principales uvres de Molire


L'cole des femmes Ecole des femmes 0 Le Tartuffe Dom Juan Le Misanthrope L'avare Bourgeois gentilh. Femmes savantes Malade imaginaire Tartuffe 0,183 0 Dom Juan 0,205 0,199 0 Le Misanthrope 0,194 0,167 0,204 0 L'avare 0,200 0,199 0,170 0,210 0 Bourgeois gentilh. 0,231 0,230 0,207 0,239 0,194 0 Femmes savantes 0,198 0,170 0,219 0,173 0,214 0,234 0 Malade imaginaire 0,223 0,219 0,205 0,239 0,187 0,196 0,226 0

Le calcul fait donc apparatre une nette proximit entre toutes ces pices malgr la grande diversit des thmes traits. Cependant, certaines distances dpassent 0,20. Elles sparent lEcole des femmes, le Tartuffe, le Misanthrope et les Femmes savantes qui sont crites en halshs-00137675, version 1 - 21 Mar 2007 vers et Dom Juan, lAvare, le Bourgeois gentilhomme et le Malade imaginaire qui sont en prose. Au total, en tenant compte de cette diffrence, il est vident que tous ces chefs duvre sont du mme auteur Cela est particulirement net dans certains cas. Ainsi, le Tartuffe et Dom Juan les deux pices qui firent scandale lors de leur prsentation sont lune en vers (Tartuffe), lautre en prose (Dom Juan). De plus, la seconde comporte plusieurs passages en patois ce qui augmente encore la distance. Malgr cela, leur proximit est grande (0,199) ce qui indique avec certitude un auteur unique et une contemporanit de la rdaction (la mme remarque vaut galement pour lAvare et Tartuffe, etc). Le nombre des uvres de Molire est trop important pour que lon puisse reproduire ici la matrice des distances (33 lignes * 33 colonnes). La moyenne des distances sparant chaque pice toutes les autres fournit une indication de synthse (Table III). La moyenne gnrale est de 0,249, avec un coefficient de variation relative faible (15%). Luvre de Molire est donc assez homogne (moins que celle de Corneille mais plus que celle de Racine par exemple) alors que la moiti des pices sont en vers et lautre moiti en prose et que lauteur nhsitait pas introduire de nombreux mots en latin, en patois ou de son invention comme le turc du Bourgeois gentilhomme.

10

Table III. Distance moyenne dune pice toutes les autres dans le thtre de Molire.
Titre L'Avare Dom Juan L'Ecole des femmes Le Tartuffe Le Misanthrope L'Ecole des maris Femmes savantes Dpit amoureux Malade imaginaire Fourberies de Scapin L'tourdi Monsieur de Pourceaugnac Bourgeois gentilhomme Georges Dandin Princesse d'Elide Le Sicilien ou lamour peintre Amphytrion L'amour mdecin Mdecin malgr lui Amants magnifiques Les fcheux Sganarelle Mlicerte Comtesse d'Escarbagnas Mariage forc L'impromptu Prcieuses ridicules Mdecin volant Critique de l'Ecole Dom Garcie La jalousie Psych Corneille Psych Molire Moyenne Molire Date de cration 1668 1665 1662 1664 1666 1661 1672 1658 1673 1671 1656 1669 1670 1668 1664 1667 1668 1665 1666 1670 1661 1660 1666 1671 1664 1663 1660 1659 1663 1661 1660 Nature Prose Prose Vers Vers Vers Vers Vers Vers Prose Prose Vers Prose Prose Prose Vers & prose Prose Vers libres Prose Prose Prose Vers Vers Vers Prose Prose Prose Prose Prose Prose Vers Prose Vers Vers Distance moyenne 0,216 0,220 0,220 0,224 0,229 0,230 0,232 0,235 0,235 0,237 0,238 0,239 0,239 0,240 0,241 0,243 0,244 0,245 0,246 0,252 0,255 0,256 0,256 0,257 0,265 0,266 0,267 0,279 0,280 0,284 0,310 0,293 0,305 0,249

halshs-00137675, version 1 - 21 Mar 2007

Les uvres schelonnent de manire caractristique : les principaux chefs duvre lAvare, Dom Juan, lEcole des femmes, lEcole des maris, les Femmes savantes, le Tartuffe, le Misanthrope, le Malade imaginaire figurent au centre et des distances moyennes trs faibles (il en serait de mme du Bourgeois sans les turqueries places la fin de la pice). En revanche, dautres pices sont plus dcales : les premires comdies que jouaient Molire avant de sinstaller Paris (La jalousie du barbouill et le Mdecin volant) ou comme les petites pices de circonstance, limage de la Critique de lcole des femmes et de lImpromptu de Versailles. Se trouvent galement dans ce cas : les Prcieuses ridicules qui fut le premier succs de Molire et Dom Garcie, comdie en vers srieuse qui fut un chec. En dehors de ces quelques pices, il est pratiquement certain que toute luvre est bien de la mme plume.

11

Le bas du tableau montre que la collaboration avec Corneille apparat fortement dcale par rapport au reste de luvre, mais il comporte une surprise : la partie de Psych attribue Molire est encore plus dcale que celle due la plume de Corneille Au fond, la seule conclusion quon puisse tirer de ce dernier constat concerne le caractre atypique de Psych dans luvre de Molire (comme dans celle de Corneille dailleurs).

Corneille et Molire

Nous avons opr la fusion des deux uvres dans un corpus unique (voir la liste en annexe). Outre Psych, ce corpus comporte 64 pices, soit 917.000 mots, dont la rdaction stend sur 44 ans (1630-1673). Il mle comdies, tragdies, pices en vers et en prose, et halshs-00137675, version 1 - 21 Mar 2007 aborde des thmes extraordinairement divers. Lensemble reste malgr tout assez homogne (distance moyenne entre les pices : 0,280), plus homogne que la seule uvre thtrale de Racine (0,289) pourtant entirement versifie en alexandrins et que tous les corpus de cette taille mme auteur unique quil nous a t donn de traiter jusqu maintenant Pour obtenir une vision densemble, deux expriences de classification ont t menes. En premier lieu, on a procd une classification automatique ascendante sur la matrice des distances. Les deux pices les plus proches sont regroupes et les distances de ce nouvel ensemble avec toutes les autres pices sont recalcules pour le regroupement suivant. Les tapes de la classification sont rsumes dans un dendrogramme (figure ci-dessous). Lordre des regroupements se lit de la gauche vers la droite avec, en ordonnes, les distances correspondantes aux diffrents niveaux dagrgation (lorigine est place 0,15 afin de rendre le graphe lisible mais cela ne doit pas faire oublier la grande proximit de la plupart de ces pices). Cette exprience montre que les oeuvres sont distinctes quoique proches : les deux corpus se rejoignent 0,280. Il y a donc une parent avec au moins une partie des pices de Corneille. Mais surtout, il s'opre un curieux chass-crois entre les deux oeuvres : une pice de Molire s'inscrit au milieu des pices de Corneille : Dom Garcie. Cette pice est donc trs probablement de la main de Corneille. Sa proximit avec Pertharite (1651) ne laisse pas de doute sur lpoque o Corneille laurait crite (aprs lchec de Pertharite, Corneille a abandonn le thtre pendant prs de dix ans) deux comdies de Corneille (Le Menteur et la Suite du Menteur) viennent se placer au milieu des pices de Molire. Ce qui surprend relativement puisque ces comdies (les deux dernires crites officiellement par Corneille) datent de 1642-43 alors que les premires 12

pices de Molire sont supposes avoir t crites au plus tt en 1656 et nont t joues Paris qu partir de 1660. Autrement dit, puisque Corneille est l'auteur inconteste des deux Menteurs, il est trs probablement aussi celui du bloc de pices situes sur le dendrogramme la gauche de ces deux pices et qui sont toutes fort proches les unes des autres : le Tartuffe, le Misanthrope, les Femmes savantes, L'tourdi, le Dpit amoureux, l'Ecole des maris, l'Ecole des femmes, Sganarelle, Amphytrion, la Princesse d'Elide, Mlicerte et les Fcheux. C'est-dire toutes les pices en vers de Molire En revanche, la parent est moins vidente pour les pices en prose, bien qu'on puisse remarquer qu'elle rejoignent les pices en vers une distance infrieure celle o les deux Psych rejoignent l'oeuvre de Corneille. La chose est donc trs possible mais moins claire que pour les pices en vers. halshs-00137675, version 1 - 21 Mar 2007 Ces constats d'ensemble suggrent d'examiner plus en dtail les proximits existantes notamment autour des deux Menteurs (Table IV). Outre les pices en vers, Dom Juan et lAvare figurent en-dessous du seuil de 0,25 et peuvent donc tre supposs avoir t crits par le mme auteur que les Menteurs La partie de Psych crite par Corneille ainsi que Dom Garcie suggrent mme un seuil plus lev (0,273), cest--dire une collaboration probable de Corneille Amphitryon, aux Fourberies de Scapin, voire au Malade imaginaire (mais ici, le latin de cuisine et les intermdes en italiens contribuent augmenter la distance). Les deux Menteurs ont probablement fourni le modle pour les pices de Molire, spcialement celles en vers, ce qui explique que la classification rattache ces deux Menteurs luvre de Molire et non celle de Corneille. Cependant, toutes les distances sur le tableau IV excdent nettement 0.20 (sauf lEtourdi) de telle sorte que la paternit de Corneille sur les comdies en vers de Molire est probable et non certaine. Le temps est une explication possible. En effet, les comdies en vers de Molire ont t crites 20 ans et plus aprs les Menteurs. Pour vrifier ces conclusions, nous avons eu recours une seconde technique de classification : lanalyse arbore qui classe les textes ou groupes de textes, non plus deux deux, mais en considrant, pour chacun, la meilleure reprsentation possible de sa distance par rapport tous les autres (Barthlmy et Gunoche, 1988, Luong, 1994, Juilland et Luong,1997). Chaque texte constitue une terminaison (feuille) qui est relie aux autres par des branches plus ou moins longues et par des sections de tronc. La proximit relative de deux textes se mesure par le chemin parcourir pour les unir (graphe ci-dessous).

13

halshs-00137675, version 1 - 21 Mar 2007

14

Table IV. Distances des deux Menteurs avec les pices de Molire
Texte Le Menteur 1 Le Menteur 2 Psych Corneille Psych Molire La jalousie Mdecin volant L'tourdi Dpit amoureux Prcieuses ridicules Sganarelle Dom Garcie L'cole des maris Les fcheux L'cole des femmes Critique de l'cole L'impromptu Mariage forc Princesse d'Elide Le Tartuffe Dom Juan L'amour mdecin Le Misanthrope Mdecin malgr lui Mlicerte Le sicilien Amphytrion Georges Dandin L'Avare M. de Pourceaugnac Amants magnifiques Bourgeois gentilhomme Fourberies de Scapin Ctesse d'Escarbagnas Femmes savantes Malade imaginaire Moyenne Molire Le Menteur 1 0,000 0,180 0,288 0,329 0,341 0,310 0,205 0,215 0,315 0,259 0,280 0,223 0,248 0,226 0,323 0,321 0,322 0,251 0,242 0,259 0,292 0,252 0,298 0,257 0,277 0,253 0,292 0,256 0,292 0,282 0,294 0,269 0,311 0,260 0,282 0,275 Le Menteur 2 0,180 0,000 0,273 0,325 0,331 0,293 0,206 0,212 0,314 0,253 0,273 0,217 0,248 0,217 0,319 0,316 0,302 0,243 0,228 0,248 0,289 0,234 0,289 0,250 0,260 0,256 0,279 0,244 0,283 0,279 0,280 0,263 0,300 0,248 0,270 0,266

halshs-00137675, version 1 - 21 Mar 2007

15

37 61 53 49 57 52 15 42 45 58 39 12 11 14 17 24 20 09 25 31 29 0 5 22 32 04 3 26 01 03 08 2 7 2 83 0 0 2 10 07 40 16 62 50 44 46 66 51 54 56 34 4 3 0 6 35 41 64 59 55 63 67 60 38 65 47 48

halshs-00137675, version 1 - 21 Mar 2007

36
Le graphique est d lobligeance de M. Xuan Luong de lUniversit de Nice. Pour les titres des pices, se reporter lannexe. Pour amliorer la lisibilit, ce graphe a t tabli en retranchant 0,15 toutes les distances. Tout comme le dendrogramme ci-dessus, il exagre donc les proximits entre les feuilles terminales et lloignement des principaux noeuds.

Les pices de Corneille (numrotes de 1 33) figurent pratiquement toutes en bas gauche du graphe ; celles de Molire (de 37 67) se trouvent presque toutes dans la partie haute du graphe. En bas, droite, figurent en gras, quatre anomalies : les deux parties de Psych crites par Corneille (n 34) et par Molire (n 35) ; Dom Garcie (43) et le cinquime acte de la Comdie des Tuileries (06) qui est une commande crite par Corneille pour le Cardinal de Richelieu. Pour les comdies de Molire, le graphe partage nettement celles crites en prose (le groupe situ tout en haut) et celles crites en vers (au milieu). Lanalyse arbore de X. Luong confirme surtout la principale conclusion de la classification hirarchique : les deux Menteurs de Corneille (15 et 16) se placent pratiquement au centre de luvre de Molire alors quils sont nettement plus loigns du reste de celle de Corneille. Autrement dit, le rdacteur de ces deux pices est trs probablement aussi celui de la plupart des uvres signes par Molire

16

La contribution trs probable de P. Corneille tous les chefs doeuvre de Molire nenlve rien limportance historique de ce dernier. Il fut en quelque sorte le premier entrepreneur de spectacle moderne, la fois directeur de troupe, metteur en scne, acteur et, comme on le voit, excellent chasseur de scnarios Naturellement, on peut aussi voir dans ces rsultats la preuve de linfluence considrable de P. Corneille sur le thtre du XVIIe sicle et considrer que Molire a repris le projet dune vaste satire des murs de son poque, projet que Corneille avait sembl abandonner aprs lchec du deuxime Menteur On peut ajouter que Molire mettait en scne et jouait rgulirement les pices de Corneille, ce qui a pu contribuer son imprgnation et le conduire crire comme son auteur prfr dont il connaissait par cur des milliers de vers. Des tudes plus approfondies seront ncessaires pour rpondre en dtail ces objections halshs-00137675, version 1 - 21 Mar 2007 notre calcul. Nous ferons dailleurs remarquer quon ne pourra vraiment affirmer que Corneille est bien lauteur principal des pices de Molire quaprs avoir examin les pices des principaux auteurs contemporains susceptibles davoir jou le mme rle auprs de lillustre comdien notamment pour la rdaction de certaines des comdies en prose trop loignes pour avoir t luvre de Corneille (comme les Prcieuses ridicules) Notre analyse ne prtend donc pas clore un dbat sculaire. Elle dbouche aussi sur plusieurs questions intressantes. On peut se demander notamment quelles sont les particularits du style ou du vocabulaire de Corneille que lon retrouve chez Molire et, loppos, quelles sont les diffrences et les singularits.

Au-del de cet exemple, nous esprons que dautres travaux viendront confirmer la grande puissance de la distance intertextuelle, combine la classification automatique, comme outil pour lattribution dauteur. A ce sujet, nous voudrions souligner quun tel calcul exige au pralable que les graphies des textes compars aient t normalises mais aussi, notre avis, que les mots aient t lemmatiss , cest--dire rattachs leurs entres de dictionnaire ou vocables (voir Labb, 1990). Par exemple, comparer de la prose et de la posie, sans rduire les majuscules initiales des vers, engendre automatiquement une distance denviron au moins un septime entre ces deux sous-corpus puisque, en moyenne, un vers contient entre cinq et sept mots Ds lors on peut tre certain quun tel calcul, effectu sur un corpus non normalis, mettra dun ct toutes les uvres en prose et, de lautre, tous les pomes, sans que le contenu soit forcment en cause. Dautres exemples viennent lesprit : dans sa correspondance un auteur utilisera 17

abondamment les abrviations (M. pour monsieur, les initiales des noms et des prnoms, etc.) facilits quil proscrira de ses uvres Est-il lgitime de considrer quil sagit dune diffrence de vocabulaire ? Tout calcul de la distance exige donc au pralable que lon se mette daccord sur une norme unique de mesure un peu comparable au mtre talon

Bibliographie
BARTHELEMY Jean-Pierre, GUENOCHE Alain (1988), Les arbres et les reprsentations des proximits, Paris, Masson. BARTHELEMY Jean-Pierre, LUONG Xuan (1998), "Reprsenter les donnes textuelles par des arbres", in Sylvie MELLET (ed), 4e journes internationales d'analyse statitistique des donnes textuelles, Universit de Nice, 1998, p. 49-71.

halshs-00137675, version 1 - 21 Mar 2007

BINONGO Jos N., SMITH M.W.A. (1999), The Application of Principal Component Analysis to Stylometry, Literary and Linguistic Computing, 14-4, p 445-465. BRUNET Etienne (1988), "Une mesure de la distance intertextuelle : la connexion lexicale", Le nombre et le texte. Revue informatique et statistique dans les sciences humaines, Universit de Lige. FORSYTH Richard S. (1999), Stylochronometry with Substings, or : a Poet Young and Old , Literary and Linguistic Computing, 14-4, p 467-477. HOLMES David (1995), The Federalist revisited : new directions in autorship attribution , Literary and Linguistic Computing, 10-2, p 111-127. JACCART P. (1908), "Nouvelles recherches sur la distribution florale", Bull. Soc. Vand. Sci. Nat., 44. JUILLARD Michel, LUONG Xuan (1997), Words in the Hood : a New Look at the Distribution of Word in Texts , Literary and Linguistic Computing, 12-2, p 71-78. LABBE Dominique, MONIERE Denis (2000), La connexion intertextuelle. Application au discours gouvernemental qubcois , Martin RAJMAN et Jean-Cdric CHAPPELIER (eds), Actes des 5e journes internationales danalyse des donnes textuelles, Lausanne, Ecole polytechnique fdrale, vol 1, p 85-94. LUONG Xuan (1994), Lanalyse arbore des donnes textuelles : mode demploi , Travaux du cercle linguistique de Nice, 1994, 16, p 25-42. MULLER Charles, BRUNET Etienne (1988), La statistique rsout-elle les problmes dattribution ? , Strumenti Critici, septembre 1988, p 367-387. MULLER Charles (1997), Principes et mthodes de statistique lexicale, Paris, Hachette universit, 1977. ROBERTS F.S. et Al (1971), Measurement Theory, Addison-Wesley, Reading. TOMASSONE Richard et Al (1988), Discrimination WOUTERS Hippolyte, VILLE DE GOYET, Christine de (1990), Molire ou lauteur imaginaire ?, Bruxelles, Eds Complexe.

18

Annexe I. Les uvres de Corneille et de Molire


Corneille 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Psych 34 35 36 Molire 37 38 39 40 41 42 43 44 45 Mlite Clitandre La Veuve La Galerie du Palais La Suivante Comdie des Tuileries Mde La Place Royale L'illusion comique Le Cid Cinna Horace Polyeucte Pompe Le Menteur 1 Le Menteur 2 Rodogune Thodore Hraclius Andromde Don Sanche Nicomde Pertharite Oedipe Toison d'Or Sertorius Sophonisbe Othon Agsilas Atilla Tite et Brnice Pulchrie Surna Psych Corneille Psych Molire Psych Quinault La jalousie Mdecin volant L'tourdi Dpit amoureux Prcieuses ridicules Sganarelle Dom Garcie L'cole des maris Les fcheux Anne de cration 1630 1631 1631 1632 1633 1634 1635 1634 1636 1636 1641 1640 1641 1642 1642 1643 1644 1645 1647 1650 1650 1651 1651 1659 1661 1662 1663 1664 1666 1667 1670 1672 1674 1671 1671 1671 1660 1660 1660 1660 1660 1660 1661 1661 1661 Genre Comdie en vers Comdie en vers Comdie en vers Comdie en vers Comdie en vers Comdie en vers Tragdie en vers Comdie en vers Comdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Comdie en vers Comdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Tragdie en vers Comdie en vers Comdie en vers Comdie en vers Comdie en prose Comdie en prose Comdie en vers Comdie en vers Comdie en prose Comdie en vers Comdie en vers Comdie en vers Comdie en vers Longueur (mots) 16 690 14 402 17 661 16 140 15 160 3 627 14 269 13 801 15 428 16 677 16 126 16 482 16 472 16 492 16 653 17 675 16 842 17 121 17 433 15 514 16 947 16 923 17 121 18 618 20 343 17 675 16 858 16 971 18 227 16 788 16 697 16 630 16 545 10 067

halshs-00137675, version 1 - 21 Mar 2007

4 816 1 299
3 501 3 876 18 671 16 242 6 648 6 042 17 049 10 536 7 922

19

halshs-00137675, version 1 - 21 Mar 2007

46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67

L'cole des femmes Critique de l'cole L'impromptu Mariage forc Princesse d'Elide Le Tartuffe Dom Juan L'amour mdecin Le Misanthrope Mdecin malgr lui Mlicerte Le sicilien Amphytrion Georges Dandin L'avare M. de Pourceaugnac Amants magnifiques Bourgeois gentilhomme Fourberies de Scapin Comtesse d'Escarbagnas Femmes savantes Malade imaginaire

1662 1663 1663 1664 1664 1664 1665 1665 1666 1666 1666 1667 1668 1668 1668 1669 1670 1670 1671 1671 1672 1673

Comdie en vers Comdie en prose Comdie en prose Comdie en prose Comdie en vers et prose Comdie en vers Comdie en prose Comdie en prose Comdie en vers Comdie en prose Comdie en vers Comdie en prose Comdie en vers libre Comdie en prose Comdie en prose Comdie en prose Comdie en vers et prose Comdie en prose Comdie en prose Comdie en prose Comdie en vers Comdie en prose

16 625 8 610 7 168 6 058 11 333 18 271 17 452 6 147 17 180 9 317 5 540 5 375 15 117 11 009 21 033 11 803 11 983 17 132 14 245 5 564 16 863 19 919

20