Vous êtes sur la page 1sur 22

Corpus

8 | 2009
Corpus de textes, textes en corpus

Corpus de textes, textes en corpus. Problmatique


et prsentation.

Jean-Michel Adam et Jean-Marie Viprey

diteur
Bases ; corpus et langage - UMR 6039

dition lectronique dition imprime


URL : http://corpus.revues.org/1672 Date de publication : 15 novembre 2009
ISSN : 1765-3126 Pagination : 5-25
ISSN : 1638-9808

Rfrence lectronique
Jean-Michel Adam et Jean-Marie Viprey, Corpus de textes, textes en corpus. Problmatique et
prsentation. , Corpus [En ligne], 8 | 2009, mis en ligne le 22 janvier 2012, consult le 30 septembre
2016. URL : http://corpus.revues.org/1672

Ce document est un fac-simil de l'dition imprime.

Tous droits rservs


Corpus de textes, textes en corpus.
Problmatique et prsentation.

Jean-Michel ADAM
Universit de Lausanne
Jean-Marie VIPREY
Universit de Franche-Comt

En prenant linitiative de ce volume de Corpus, nous avions


choisi de procder un appel assez large, afin de faire le point
sur des tendances actuelles des travaux sur corpus ancrs dans
la textualit des faits de discours. En nous associant, nous
pensions attirer des chercheurs dhorizons diffrents et notre
attente na pas t due. Les propositions furent trs
nombreuses et de slection en slection, en regrettant quelques
contributions abandonnes pour des raisons de dlais de
rdaction, nous avons finalement retenu neuf contributions qui
nous semblent reprsentatives.
Autour de lanalyse de discours et des disciplines et
sciences des textes, nous avons entrepris, depuis plus de dix
ans, une rflexion pistmologique qui croise lanalyse textuelle
et compare des discours dveloppe Lausanne et lanalyse
informatique des donnes textuelles du ple Archives, Bases,
Corpus de la Maison des Sciences de lHomme de Franche-
Comt. Nous avons en commun une rflexion qui porte sur les
concepts de texte, de discours, darchive et de corpus et, la
question qui est au centre de nos travaux de linguistique
textuelle : Quest-ce quun texte ? , le ple 3 de la M.S.H.
ajoute : Quest-ce quun texte lre numrique ? . Nous
avons galement en commun la question que posait Jean-Marie
Viprey dans le numro 21 de Semen : Quelle place pour les
sciences des textes dans lanalyse de discours ? (2006a : 167-
182).
Si les conditions dun dialogue de lanalyse textuelle
des discours et de lanalyse des donnes textuelles sont runies,

Corpus n8 Corpus de textes, textes en corpus


(2009), 5-25
J.-M. ADAM, J.M. VIPREY

cest en raison, dune part, de leur recentrage sur des donnes


rsolument textuelles et, dautre part, du fait que travaillant sur
des textes de plus en plus nombreux, diffrents, complexes et
ouverts, nous exigeons quils soient trs solidement tablis et
que soient runies les conditions dun traitement informatis et
dune circulation scientifiquement contrle de cette masse de
nouvelles donnes textuelles. Le traitement informatis de ces
donnes implique la cration de rseaux de collaborations entre
des quipes de recherche travaillant une vritable refonte des
sciences et disciplines acadmiques des textes.
Tandis que nous, linguistes, mettons laccent sur la
dfinition des units lmentaires, sur le traitement de la
linarit des textes, sur les enchanements transphrastiques et
sur la combinatoire dunits de rangs de complexit suprieure
la phrase, les recherches informatises insistent sur la
structure non-squentielle et rticulaire des textes. Cest ce que
font deux articles de Langages n163 (2006), consacr aux
Unit(s) du texte et coordonn par Dominique Legallois du
CRISCO de Caen. Dans ce numro, Jean-Marie Viprey aborde
lorganisation non-squentielle des textes en portant son
attention sur une composante lexicale de la cohsion textuelle
indniablement nglige par les linguistiques du texte, mme
quand elles intgrent le concept encore trop rudimentaire
disotopie. Il montre que la cooccurrence ou la collocation est
un facteur primordial de textualit : La collocation modifie et
constitue les vocables en tant que tels, non tellement comme
individus que comme constituants dun tout engren, influant
ainsi sur la cohsion par lintermdiaire du palier lexical
intgralement considr (et non dissmin phrase par phrase)
(2006b : 73). Dominique Legallois montre que la rptition de
trois lexmes ou plus dans certaines phrases dun texte est
responsable dune organisation rticulaire en parfaite
congruence avec ltymologie du mot texte. Cest bien un tissu
de phrases enchevtres, une trame, une texture, toute une
constitution et une conception dun objet complexe que met en
vidence lanalyse de la rptition lexicale dans les discours
(2006 : 70). Ces travaux ne remettent pas en cause le caractre
structurant de la linarit textuelle, mais ils prouvent que la
textualit doit rsolument tre pense comme la combinaison de

6
Corpus de textes, textes en corpus

parcours linaires et rticulaires. Cette problmatique est au


cur de larticle de MARIE-LAURE FLOREA dont nous
reparlerons plus loin.
Lobjectif interdisciplinaire que nous souhaitions voir
reprsent et problmatis la t dans quelques articles, en
particulier par NATHALIE GARRIC et VALRIE CAPDEVIELLE-
MOUGNIBAS qui montrent parfaitement comment lanalyse de
discours peut guider un cheminement vers un lieu de
rencontre interdisciplinaire dans les Sciences Humaines et
Sociales . partir de leur exprience de linguiste et de
psychologue, elles discutent lintrt de lutilisation
interdisciplinaire de la pratique de corpus et de lanalyse
textuelle des discours . Le fait que des littraires, philologues
ou gnticiens, des linguistes, des psychologues et des
informaticiens, des spcialistes des discours mdiatiques ou des
discours sociaux aient contribu ce volume, souvent en co-
crivant un article, est la preuve du rle fdrateur des questions
que nous avons mis en dbat.
Trois questions de notre appel ont reu des rponses
partielles :
Dans quelle mesure le texte est-il amen incorporer des
lments jusquici dsigns comme plus ou moins extrieurs
lui (pritexte, pitexte, intertexte, hypertexte, etc.), et
comment les chercheurs grent-ils ce quil est convenu
dappeler en consquence l ouvert du texte ?
Dans ce cadre, quelles solutions thoriques et pratiques se
prsentent pour grer la variation textuelle ?
Que faire de la philologie numrique , peut-on et doit-on
normaliser les procdures dtablissement des ressources
textuelles, pourquoi et comment ?
Les travaux quon va lire se rfrent plusieurs de ces
concepts que Jean-Marie Viprey qualifie fort justement de
rgulateurs ou transactionnels [] indispensables au jeu
des disciplines humanistes entre elles, mme si certains ont []
une ou plusieurs acceptions dures dans ces mmes disciplines
(2006a : 168). Parmi les concepts mis en circulation, nous
croiserons ceux de texte, de genres de discours,
dintertextualit, de co(n)texte, dunits danalyse et de
construction des corpus.

7
J.-M. ADAM, J.M. VIPREY

1. Texte et variations
Le concept de texte, attach au participe pass du verbe texere
(textus ce qui est tiss, tress), possde une connotation de fixit
et de fermeture structurale qui ne correspond ni la ralit de
lcriture mdivale, ni celle des uvres de la Renaissance
comme lont dmontr magistralement aussi bien Bernard
Cerquiglini que Michel Jeanneret.
Dans un chapitre de son Essai de potique mdivale
(1972), Paul Zumthor mettait en cause les concepts dauteur et
de texte unique auxquels il proposait de prfrer ceux
danonymat et de mouvance. Bernard Cerquiglini a prolong
cette analyse en soutenant que le texte mdival nexiste que
sous forme de variations manuscrites de copistes, qui donnent
parfois lieu des continuations. Lcriture mdivale raboute,
tisse nouveau et perptuellement des uvres, uvre sans
cesse (Cerquiglini 1989 : 59).
Lcriture de la Renaissance se caractrise par un
recyclage intertextuel incessant et elle a tendance contester et
ruser avec les effets stabilisateurs de limprimerie et []
prserver, dans une large mesure, la mobilit de lre du
manuscrit (Jeanneret 1994 : 25). Michel Jeanneret a montr
que de Montaigne et Ronsard Erasme, certes la mobilit
existe au sein des versions imprimes ; si les premires tapes
de la gense sont perdues, celle-ci continue au fur et mesure
des ditions. Loin dimmobiliser le texte, limpression le
propulse dun tat lautre, elle pouse lhistoire de ses
mtamorphoses (1994 : 25). Ce que rsume cette rponse
dErasme un correspondant qui se plaignait de devoir acheter
des ditions en variation perptuelle et se demandait pourquoi
publier un ouvrage avant quil ne soit rellement achev : De
mme que, tant que nous vivons, nous ne cessons de travailler
nous rendre meilleurs, de mme nous ne cessons de corriger et
de complter les uvres de notre esprit quen cessant aussi de
vivre (Lettre dErasme John Botzheim, 1552 ; cite par
Jeanneret 1994 : 35).
Au XVIIe sicle, propos des ditions 1623, 1626 et
1633 du Francion de Charles Sorel et des trois ditions
successives de lAdonis de La Fontaine (manuscrit dapparat

8
Corpus de textes, textes en corpus

offert Fouquet en 1658 et ditions de 1669 et 1671), Patrick


Dandrey aboutit cette conclusion : chacune des ditions
antrieures peut tre rtrospectivement considre comme une
sorte de brouillon avant-textuel de la suivante. propos de
ce mme grand sicle , larticle que nous avions demand
DELPHINE DENIS est exemplaire. Tout en retraant lhistoire
ditoriale particulirement complexe de LAstre dHonor
dUrf, cet article est loccasion dune mise au point importante
qui, sans rcuser lapproche philologique au profit de lectures
hypertextuelles , parvient magistralement repenser la
philologie moderne dans un contexte pistmologique qui invite
aux dcloisonnements fructueux que nous appelions de nos
vux en prenant linitiative de ce volume.
Les variations ditoriales portent sur des changements
socio-historiques des conditions de circulation et de lecture des
textes. Leur analyse nous permet de comprendre quun texte
nest pas seulement un objet spatial ayant la stabilit de ses trois
dimensions (gauche-droite de la ligne, haut-bas de la page, et
paisseur du volume ddition), mais quil possde une
quatrime dimension qui fait de lui un objet temporellement
changeant dans le temps de son criture (du vivant de lauteur)
et un objet qui parcourt ditorialement le temps et lespace
socioculturel avant de parvenir ses lecteurs. La stabilit et
labstraction de lobjet-texte sont mises mal dans le processus
mdiateur de ldition, comme Jacques Neefs le synthtise fort
clairement :
Quand les uvres, et leur texte, sont livrs
limprim, surtout quand cela est fait avec
privilge , autorisation, imprimatur , bon
tirer, il semble quelles accdent une existence
stable. Pourtant, les ditions vont varier, souvent
considrablement, dans le temps et pas
seulement par modifications voulues par les
auteurs ou par variation de la qualit
typographique. [] Si lappartenance des
uvres un moment singulier (la manire dont
elles se profilent dans une culture faite de tout le
pass quelle se donnent) est le mode mme de
leur surgissement, leur appartenance tout aussi
forte aux temps indfinis et illimits que ces

9
J.-M. ADAM, J.M. VIPREY

uvres traversent (la manire dont elles sont


actives, reformes par les lectures, agissantes
dans les nouvelles littratures qui sont leur
avenir) est le mode de leur existence en tant
quuvres dart ou de pense, cest--dire
irrductibles ce quelles ont pu dire un temps,
ce quelles peuvent sembler dire dans une
poque. (1990 : 7-8).
Dans une perspective gntique, Almuth Grsillon
(2008 : 302-303) reprend deux remarques de Michel Jeanneret :
[] luvre ne concide pas avec un texte mais plusieurs, elle
tient ses variantes autant qu ses constantes, elle se donne
saisir comme un objet muable, dont lhistoire fait partie
intgrante. [] Une uvre ne se rduit pas lune de ses
manifestations ; elle rside aussi dans la somme et la
diffrence de ses divers tats ; la production signifie autant
que le produit fini (1994 : 27). Ce changement de paradigme
sapplique aussi bien luvre potique de Francis Ponge
quaux contes de Perrault et LAstre, aux variations
journalistiques des noncs cits et des articles recycls dans
divers titres quaux tats mdiatiques des discours politiques
(enregistrements oraux, publications crites, prsence sur sites
de partis).
En consquence, comme le disent aussi bien Grsillon
que Cerquiglini : Lanalyse doit tre comparative, et non pas
archologique. Et ceci dautant plus que larchologie rduit
lunique ce qui prend sens de sa diffrence (Cerquiglini 1989 :
68)1. De nombreux articles du prsent volume sinterrogent sur
la constitution de corpora constrastifs. GEORGETA CISLARU et
FRDRIQUE SITRI soulignent trs clairement que les
spcificits dun genre discursif ne sont rellement accessibles
que par la comparaison des genres . Les procdures de
contextualisation dcrites par VINCENT CAPT, JERME JACQUIN
et RAPHAL MICHELI visent contraster des ensembles de texte
au sein dun corpus dfini.

1 Sur la mthodologie de la dmarche comparative, voir Ute Heidmann 2005a


& 2005b.

10
Corpus de textes, textes en corpus

Par ailleurs, admettre que lcriture ne produit pas des


variantes, mais quelle est variance remet en cause le rle
dappendice (Grsillon 1994 : 17) que la critique littraire fait
jouer aux variantes rejetes dans les appareils de notes. Une
attention comparative aux tats stabiliss de textes entiers ou de
segments textuels identifiables comme units textuelles est tout
le contraire de la rduction des diffrents tats textuels
lunicit dun texte possdant des variantes considres comme
autant de segments isols. Cela vaut certes pour les textes
littraires mais tout autant pour les discours politiques. la
diffrence de la philologie classique, lobjectif du chercheur
nest pas dtablir un tat stable et suppos vrai dun texte, avec
pour vise ultime son exgse. Il sagit bien de rompre autant
avec le positivisme de la philologie classique quavec
lidalisme subjectiviste de lhermneutique.
Pour prendre un exemple plus simple que LAstre, et
complmentaire, les rcritures auctoriales et les ditions
successives des contes de Perrault aboutissent des tats
textuels auxquels nous avons matriellement accs. En dautres
termes, un texte dnomm La Belle au bois dormant ou
LAstre a connu des variations auctoriales et ditoriales
lies un certain tat de la circulation des textes dans des
formations discursives aux caractristiques socio-historiques
changeantes :
Schma 1

11
J.-M. ADAM, J.M. VIPREY

Au concept de texte conu comme unit close sur elle-


mme et acheve, il sagit de substituer un concept de texte en
variation, soumis des mises en texte dont rsultent des tats
successifs, identifiables et regroupables en corpus. Pour La
Belle au bois dormant, paratre dans le Mercure galant de
fvrier 1696 (T2), cest apparatre dans un co(n)texte socio-
discursif (D2) trs diffrent de La Belle au bois dormant-T1,
premier conte du manuscrit dapparat des Contes de la mre
Loye de 1695, envoy la nice du roi de France ; contexte
(D1) lui-mme trs diffrent de celui de La Belle au bois
dormant-T3, premier conte des Histoires ou Contes du temps
pass, paru chez Barbin en 1697 (D3). Dans cette livraison du
Mercure galant, La Belle au bois dormant est publi en lieu et
place dun rcit que les lectrices et lecteurs avaient lhabitude
de trouver sous le titre Histoire . Maurice Lever dfinit ainsi
le genre de ces Histoires auxquelles se substitue le conte :
Chacune delles trouve son point de dpart dans un
vnement mondain, souvent mineur, que le narrateur
dveloppe ensuite au gr de sa fantaisie. [] Sous leur
apparente frivolit, ces historiettes visent souvent illustrer une
petite leon de morale. [] Le code de la galanterie est mis en
apologues, chacun deux proposant un petit problme
sentimental, avec des exemples suivre ou viter, des
recettes, des conseils. Cela tient la fois du courrier du cur et
du divertissement de salon (1996 : 186-187). Cette
dtermination co(n)textuelle explique certains choix dcriture
qui distinguent fortement T2 par rapport T1 et T3 (analyse
dtaille dans Adam 2009).
Lattention aux rcritures auctoriales successives est ici
mme illustr par larticle de THOMAS LEBARB propos des
manuscrits de Stendhal. Cette tude porte sur des avant-textes
qui ne prsentent pas encore une nature textuelle tablie, cest-
-dire auxquels le critre de jugement de compltude, dont
parlent VINCENT CAPT, JERME JACQUIN et RAPHAL MICHELI,
sapplique difficilement. Le schma 1 ne prend pas en compte
des tats avant-textuels, mais bien des textes satisfaisant au
jugement de compltude pour des raisons pritextuelles et de
matrialisation manuscrite allographe ou ditoriale. Il a pour but
de mettre en avant, non pas lexistence de variantes dun texte

12
Corpus de textes, textes en corpus

unique, mais de variations textuelles dune uvre donne. Le


passage dun tat de texte T1 des tats T2 et T3 ne transforme
pas T2 ou T3 en variantes de T1, mais en dautres textes. T1 ou
T2 ne sont pas infrieurs T3 dans une vision tlologique
mliorative aboutissant luvre parfaite. T4 et T5 ne sont pas
infrieurs T3 dans un sens de dgradation du texte publi
initial. Ces tats textuels permettent de traiter le sens comme un
phnomne diffrentiel :
Cest l o a varie , l o a se
diffrencie que se construit le sens (variable et
variant) inter-changer ; [] ce nest pas une
analyse du cohsif/cohrent qui permet de
fonder une smantique. Mais peut-tre, plutt, la
prise en compte du diffrentiel en variance,
o senracinerait une smiotique de
laltration , une smiotique diffrentielle .
(Peytard 1993 : 147)
Dfinissant sa smiotique de laltration comme une
attention au fait de dire autrement, Jean Peytard ajoutait :
Il nest de version dfinitive dun texte que celle
sur laquelle on sarrte, comme ne varietur, pour
en montrer la constante stabilit acquise certes
aprs quelques variations. Nest-ce pas dans le
cours de cette mouvance, de ces variations, quil
convient de se situer pour apercevoir le sens, qui
nest jamais, semble-t-il, une fois pour toutes
donn, mais constamment effet et source
daltrations ? (1993 : 176)
Cest cet intrt commun pour le fonctionnement
variationnel du texte qui, comme le dit DELPHINE DENIS,
contribue au rapprochement entre linguistique textuelle ainsi
redfinie, analyse de discours et philologie, rebours dune
conception troite de cette dernire comme entreprise de
rduction des textes empiriques un texte idal, que les alas de
leur transmission auraient opacifi .

2. Discours, contextualisations et gnricit


Le schma 1 signale quen D1 ou D3, accompagnant les
textualisations T1-1695 ou T3-1697, dans la mmoire des

13
J.-M. ADAM, J.M. VIPREY

lecteurs du XVIIe sicle, circulent, entre autres, des (inter)textes


latins, des contes de La Fontaine et de Fnelon, des nouvelles
de Basile, etc. Ces (inter)textes, qui ne font plus partie de notre
mmoire interdiscursive, taient dj ignors par ceux du XIXe
sicle (D4) et ceux du XXe sicle (D5). En revanche, les contes
des Grimm faisaient partie de D4 en 1862 et leurs versions Walt
Disney de D5 en 2010. Si tout texte crit se prte des lectures
renouveles, superficielles ou profondes, de la part de lecteurs
quauteur et diteur nont pu que conjecturer, cest parce que les
textualisations successives sont soumises des re(con)textua-
lisations infinies (dans le sens de CAPT, JACQUIN et MICHELI).
Pour saisir la socialit de ces re(con)textualisations
infinies, NATHALIE GARRIC et VALRIE CAPDEVIELLE-
MOUGNIBAS, renvoient au Michel Foucault de Larchologie
du savoir et elles ancrent clairement leur propos dans le champ
de lanalyse de discours. Illustrant ce que nous venons de dire,
elles prennent prioritairement en compte les rgularits qui
dlimitent des familles dnoncs caractristiques dune
pratique discursive , ces rgularits propres des formations
discursives fonctionnent comme des normes qui rglent les
discours, normes qui sincarnent dans des genres.
On comprend ainsi que la textualit est plus complexe
que le texte, au sens troit du terme. Le schma 2 rend compte
de cette complexit et de cette ouverture :
Schma 2

Pritextualit
Mtatextualit Langue(s)

Co-textualit TEXTE Interdiscursivit

Systmes de genres
CORPUS Intertextualit (gnricit)

Pour nous, la textualit est un systme ouvert de


relations entre des faits de co-textualit, de pritextualit et de
mtatextualit insparables de faits dintertextualit et de
gnricit. La textualit est dfinissable comme la relation dun

14
Corpus de textes, textes en corpus

texte aux noncs pritextuels qui en dlimitent les frontires


(DELPHINE DENIS examine en ce sens ladjonction, en 1610,
dune ptre au Roi absente de ldition originale de
LAstre). La composition dun recueil de pomes ou de
nouvelles, comme dune hyperstructure journalistique affecte la
co-textualit. Nous entendons par l lensemble des relations
quun texte entretient avec les textes co-prsents dans un mme
volume ou dans la mme aire scripturale dune page ou dune
double page de quotidien ou de magazine. Le systme de genres
et la langue dune poque donne sont les deux composantes de
base de linterdiscursivit. Ni le systme de genre ni la langue
ne sont stables et ce sont leurs changements qui font varier les
tats de textes successifs et conditionnent leur rception.
Ici encore lexemple de LAstre est utile et on
comprend que, ds 1712, lavertissement de La Nouvelle Astre
puisse proclamer que Cent ans dans une Langue vivante,
mettent tout hors de mode . Mais ces changements de la
langue vivante , sajoute lensemble complexe des savoirs
encyclopdiques du lectorat qui, comme le montre DELPHINE
DENIS, conditionnent les rcritures ditoriales. Nous
dfinissons linterdiscursivit comme un ensemble de formes
socio-discursives et historiques disponibles tant la production
qu linterprtation dans une communaut dauteurs, dditeurs
et de lecteurs. Nous distinguons linterdiscursivit comme
systme de genres et rpertoire de formes langagires partags
et lintertextualit comme ensemble de (fragments de) textes
disponibles dans les mmoires dune communaut discursive et
dindividus donns. Lintertextualit est un partage de textes ou
de segments de textes prcis, identifiables et citables, alors que
linterdiscours est un partage de formes et de normes
langagires, constitues dnoncs et mme de textes
emblmatiques de ces normes et formes. Lintertextualit est,
en ce sens, un sous-ensemble de linterdiscursivit.
En tant que textes identifiables, les co-textes, les
intertextes et les (re)textualisations ditoriales successives
peuvent tre regroups au sein dun corpus de travail. Ce point
mthodologique essentiel est galement illustr par larticle de
DELPHINE DENIS. La contextualisation de LAstre est ralise
au moyen de la constitution dun corpus raisonn de documents

15
J.-M. ADAM, J.M. VIPREY

de nature htrogne qui constituent autant de ressources


hypertextuelles susceptibles dtre enrichies au gr des
recherches et des dcouvertes.

3. Texte, discours, langue


Comme le souligne ici-mme PATRICK CHARAUDEAU, les
concepts de texte (T) et de discours (D) gagnent tre
soigneusement distingus en gardant bien en tte qu un mme
texte est porteur de divers discours et qu un mme discours
peut irriguer des textes diffrents . Ainsi, le discours galant
peut irriguer aussi bien La Belle au bois dormant de Perrault
que La Princesse de Montpensier de Madame de La Fayette, le
genre des Histoires tragiques peut traverser aussi bien La Barbe
bleue que les nouvelles crites par Jean-Pierre Camus et
Franois de Rosset quelques annes auparavant. En ce sens,
CHARAUDEAU a raison de dire Le discours nest pas le texte
mais il est port par des textes. Le discours est un parcours de
signifiance qui se trouve inscrit dans un texte, et qui dpend de
ses conditions de production et des locuteurs qui le produisent
et linterprtent . Ds lors, constituer un corpus en vue dune
dmarche danalyse de discours peut aussi bien se faire partir
dun texte central (ce quillustre DELPHINE DENIS avec le cas de
LAstre) que sur la base dun genre runissant des textes qui
lactualisent pleinement ou partiellement ; corpus dfini dans
des balises temporelles troites (dfinition dun genre un
moment historique de son volution) ou larges (volution dun
genre).
Dfinissant, la suite de Franois Rastier (2005 : 31), le
texte comme lunit minimale et le corpus comme lensemble
dans lequel cette unit fait sens, VINCENT CAPT, JERME
JACQUIN et RAPHAL MICHELI proposent de croiser trois
sphres de contextualisation : gnrique, auctoriale et
thmatique. Leur approche clarifie la question du contexte que
posent galement GEORGETA CISLARU et FRDRIQUE SITRI,
mais de faon plus classique, en parlant de donnes extra-
textuelles et d extrieurs aux textes. CAPT, JACQUIN et
MICHELI font de la contextualisation un processus commun aux
participants un change, aux lecteurs et aux analystes-

16
Corpus de textes, textes en corpus

chercheurs. Faisant du genre le facteur principal de


contextualisation, ils considrent les contextualisations
auctoriale et thmatique relativement la contextualisation
gnrique. Dans leur pratique, CISLARU et SITRI recourent
galement au critre gnrique, en notant que sous linfluence
des travaux du Cercle de Bakhtine le cadre gnrique, ressenti
comme plus opratoire, tend se substituer au cadre
institutionnel , et au critre thmatique lorsquelles procdent
une analyse contrastive des indices interprtatifs motionnels
dans leur corpus dcrits de signalement et un corpus de presse
crite traitant de risques et dangers divers : Dans cette
optique, les crits de signalement peuvent sintgrer une srie
de genres thmatiques assimilant discours scuritaires,
discours protectionnistes, discours de dfense, etc. ; le thme
correspondant dans ce cadre un discours sur . Ce mme
critre thmatique intervient explicitement dans les
paramtres externes considrs par PATRICK CHARAUDEAU,
ct du dispositif nonciatif . Il dcoupe la thmatique
en capital et hirarchisation thmatiques. De son ct, la
perspective choisie par THOMAS LEBARB est dabord oriente
vers une contextualisation auctoriale (articule autour du nom
de Stendhal), complte dans ltablissement des sous-corpus
par des considrations gnriques (genre du Journal, Textes sur
lart, etc.). On peut galement considrer que le corpus travaill
par NATHALIE GARRIC et VALRIE CAPDEVIELLE-MOUGNIBAS
est rgl par une contextualisation gnrique (bilans de savoir et
entretiens semi-directifs), les contextualisation auctoriale et
thmatique tant respectivement redfinies travers des
catgories comme : apprenti / lycen / fminin / masculin et
chec / russite / maintien / rupture .
Comme le pose galement larticle de PATRICK
CHARAUDEAU, ltablissement dun corpus en vue dune
analyse de la langue (linguistique de la langue) et celui dun
corpus de discours doivent tre soigneusement distingus.
Larticle que nous avions demand MICHLE MONTE2 montre

2 A la suite de plusieurs de ses articles et de limportant volume collectif


dirig par Sylivie Mellet : Concession et dialogisme. Les connecteurs
concessifs lpreuve des corpus (Berne, Peter Lang, 2008).

17
J.-M. ADAM, J.M. VIPREY

parfaitement que : La prise en compte du texte comme


ensemble cohrent [] claire le fonctionnement de la
langue . Pour prciser le noyau smantique des connecteurs
concessifs pourtant, pour autant, nanmoins, toutefois et
cependant et le fonctionnement de lapostrophe, elle croise des
donnes de corpus diachroniquement varis, idiolectalement et
gnriquement diffrents. De cette diversit demploi et de la
co(n)textualisation des occurrences des marqueurs considrs
surgissent des valeurs que les tudes classiques ne pouvaient
que manquer. Elles prenaient pour fait de langue des faits de
discours restreints, en procdant des jugements dacceptabilit
oprant sur des oprations de permutation effectues sur des
exemples rduits et souvent fabriqus.
Lintrt mthodologique de la dmarche propose part
de deux hypothses fortes. Dabord la constitution dun corpus
aussi vari de formes attestes nous confronte autant la
diversit des donnes textuelles qu la variabilit de la langue.
Par ailleurs, lhypothse monosmique dune valeur smantique
propre prsente dans tous les emplois dune forme linguistique
donne nous oblige ne pas nous en tenir un classement
superficiel de cette apparente diversit et chercher la forme
schmatique abstraite, stable et plastique la fois qui puisse
tre fdratrice de tous ces emplois . Les variations
pragmatico-discursives observes soriginent dans une valeur
commune quon peut dire linguistique dans la mesure o
elle tend dgager un systme de marqueurs concessifs ayant,
dans un tat de langue donn, des valeurs relatives. Ainsi
mene, lapproche sur corpus la fois relativise la notion de
singularit textuelle en valorisant la famille de textes plutt que
telle ralisation particulire, et revalorise le texte comme totalit
multidimentionnelle o les facteurs de cohsion et de cohrence
peuvent tre tudis indpendamment mais ne prennent sens
que dans leur mise en relation .

4. Ouvert du texte, variation, spatialit


Les rflexions lis la variation textuelle, claires sous langle
particulier de la mise en corpus, ont le mrite de dboucher sur
un problme dordres progressivement logistique,

18
Corpus de textes, textes en corpus

mthodologique, thorique, et finalement pistmologique,


problme qui concentre une bonne partie du questionnement de
cette livraison : quelle part joue la spatialit dans la dfinition
diffrentielle du texte (vs discours, document, nonc
notamment), telle que travaille ici dans plusieurs
contributions ?
La contribution de MARIE-LAURE FLOREA est cet
gard tout fait centrale, tant par les avances quelle
synthtise, que par les questions, objections et rponses quen
retour elle ne peut que susciter. La distinction typologique texte
linaire / texte tabulaire remet bel et bien en cause les
conceptions les plus dates du texte comme linarit, que
dnoncent efficacement les dfinitions cites3. La modularit a
t intgre la description textuelle ds la fin des annes 80, et
cest aujourdhui un problme terminologique que de distinguer
les deux acceptions de module qui saffrontent implicitement
chez M.-L. FLOREA. De mme que nous allons pouvoir
approfondir, dans le programme de la linguistique textuelle
(Viprey 2006 ; Legallois 2006 ; Adam 2008, en particulier
pages 179-182), la distinction des rgimes de textualit linaire
et tabulaire. Car la dmonstration de lauteure conduit bien se
demander si ces deux rgimes sactualisent dans une typologie
dichotomique (textes linaires vs textes tabulaires) susceptible
la fois de naturaliser outrancirement le texte, et surtout de faire
perdre de vue la tabularit de tout texte (ce nest certes pas ce
que fait M.-L. FLOREA).
Derrire cette discussion, tant pour la servir en propre
que pour llargir, nous apercevons bien la ncessit den
revenir toujours aux distinctions conceptuelles (et
secondairement terminologiques) dj voques ci-dessus et
reprise dans la question : quelle chelle parler de texte ? Ce
sont ces questions de spatialit qui nous amnent tout
spcialement invoquer les dbats si fructueux relays par
Adam-Heidmann 2005. Revenons un instant sur le terme
module : lorsque M.-L. FLOREA nomme ainsi les lments

3 Dates en effet, car mme ceux des auteurs cits aujourdhui disparus ont eu
le temps dy revenir la lumire des avances collectives (on pense
notamment Denis Slatka).

19
J.-M. ADAM, J.M. VIPREY

dune double page de manuel ou dune hyperstructure


ncrologique, on peut se demander si ce nest pas ce que vise
Viprey 2009 lorsquil propose de considrer le texte comme
couture dnoncs (et de faire passer par ce dernier
terme / concept la plurismioticit, si inconfortable finalement
pour le texte proprement dit).
Les suggestions de lauteure pour remdier une
conception du corpus, qui ne se conoit que de faon linaire
rencontrent dj un dbut de ralisation dans mainte entreprise
de numrisation, notamment de bases de presse et plus
largement bien sr dans lintense activit de la Text Encoding
Initiative (TEI), o les informations sur la localisation (dans le
volume, la page, la colonne, la ligne) sont recueillies et
normalises dans le format XML simposant toute archive, et
rendues ainsi disponibles pour des tudes quantitatives aussi
bien que qualitatives (au sens o le formule
CHARAUDEAU) : allant de simples comptages contrastifs (le
vocabulaire de telle ou telle zone spatiale de la Une des
journaux), lexamen (lui aussi statistique) des mises en
relation (dordres innombrables) susceptible dintresser une
recherche comme celle ici dcrite4.
Car on ne saurait en effet en rester sinon une
conception, du moins une exploitation linaire des corpus, qui
a bel et bien prvalu dans la priode que lon peut qualifier de
ttonnante dont sort progressivement la linguistique de
corpus. Grce aux mtadonnes enregistres dans la
documentation de chaque pice, laccs ces pices (aussi bien
manuel , par interrogation simple dans un logiciel de lecture,
quautomatis dans la perspective dexplorations assistes
statistiquement) se fait dsormais, dans les logiciels de la

4 Cf. par exemple le Petit Comtois http://laseldi.univ-fcomte.fr/petit_comtois .


La thse de doctorat de Virginie Lethier, responsable de ce projet et de
sa mise en ligne, porte la fois sur les questions de philologie
numrique parmi lesquelles cette prise en charge des coordonnes dun
nonc dans lespace, et sur certains aspects de leur exploitation en vue
ici dune mise en uvre critique des notions de rubriquage et daire
scripturale.

20
Corpus de textes, textes en corpus

gnration actuelle5, sur des paramtres varis et multivaris qui


dlinarisent le corpus et rpondent de manire non
accessoire dautres questions de ce volume (articulation
quantitatif / qualitatif notamment) toutes relies, parfois de
manire trs profonde donc partiellement masque, ce quil
faut concevoir comme spatialit textuelle.
La contribution de NADINE LUCAS explore donc les
marges conceptuelles de notre appel contribution, tout en lui
apportant, parfois obliquement, des clairages trs stimulants.
Cest notamment le cas lorsquelle aborde la spatialit, voque
ci-dessus, sous la rection ferme du point de vue dune
linguistique informatique soucieuse de textualit. Sa
proposition, qui mritera dtre relie la teneur entire du n6
de la prsente revue6, ainsi quaux travaux en cours
dachvement dans le volet conceptuel du projet Textomtrie
financ par lANR7, privilgie le focus recherche
(dlimitation et qualification dun espace de recherche, en
relation avec les segments typo-dispositionnels, paramtrable
selon des critres que lon peut relier la modularit sans que
le concept soit mentionn). Elle se situe sans quivoque dans
une perspective linaire sur le texte (dbut, fin), o sinscrit
galement la notion de fentre dobservation (qui se
subordonne fortement les lments usuellement reprs comme
constitutifs du modulaire, par exemple ici les parties dun
article de presse), pour dboucher nanmoins sur un ensemble
notionnel, granularit et rsolution, qui nous replace au cur
de la discussion anime par M.-L. FLOREA. En effet, NADINE
LUCAS fait dabord se succder des lments vraiment
comparables par grains (articles de longueurs croissantes), pour
passer ensuite un dispositif analogue, mutatis mutandis, ce
qutait tout lheure la page de journal : le dossier de presse.
Cest alors quelle introduit la discussion dcisive, grce cette
citation de Lvy & Lussault 2003 : [] autre chose que la

5 Ce qui manque le plus, ce ne sont pas les logiciels dexploitation


(textomtriques), mais les environnements raisonns dtablissement
des donnes (philologiques), et surtout leur mise en commun.
6 Corpus n6, Interprtation, contextes, codage, coord. Bndicte Pincemin.
7 http://textometrie.ens-lsh.fr/ coord. Serge Heiden.

21
J.-M. ADAM, J.M. VIPREY

taille change, quand change la taille . Elle rintroduit


symptomatiquement les illustrations initialement vacues
titre exprimental et nous montre comment la prise en charge
de ce dispositif met en pril le respect des proprits du modle
prouv (ici thme / rhme), en obligeant de fait le
reconsidrer dans la perspective (voque et mise de ct au
dbut de larticle) de larticulation micro / macrostructure.
Reste savoir si la rsolution optimale, dont NADINE LUCAS
indique quelle est sans doute la convergence dune recherche
(a) par modle et dune recherche (b) plus ad hoc et empirique,
peut intgrer et quelles conditions, surtout dans loptique
(b) , granularit et rglages dchelle.

5. Quest-ce qui a chang ?


Notre appel se concluait sur cette question un peu nave et
programmatiquement risque. On constatera quelle na t
explicitement prise en charge que de faon marginale. Cela ne
nous dispense pas desquisser de modestes lments de rponse,
en guise de synthse.
Si cette livraison fait bien tat de multiples impacts du
travail en corpus sur lappareil conceptuel et ses agencements
internes, on ne peut pas en dire autant des consquences sur les
modalits interprtatives et, plus largement, sur lensemble des
aspects dontiques des praxis voques. La suspension de
lactivit interprtative dans le cours du travail sur corpus
informatis, conue comme condition dune relance
hermneutique mieux contrle et plus conforme aux vux
dun Jean Bollack ou dun Franois Rastier, reste dcrire et
conceptualiser. Lapprofondissement de la question mme de la
construction de linterprtation, traite de facto et per factum
par les deux binmes dauteures (GARRIC / CAPDEVIELLE-
MOUGNIBAS et CISLARU / SITRI), attend son heure avec une
vritable gnralisation des principes de lAnalyse Textuelle des
Discours.
Si nous estimons ce volume assez reprsentatif, cest
justement parce que les quatre grandes rubriques de cette courte
prsentation rsument en effet l o a change . Un progrs
dcisif concerne donc la prise en charge de la pluralit / plasticit

22
Corpus de textes, textes en corpus

de lobjet texte sous le geste philologique renouvel, quil


intgre la variation stricto sensu, la contextualisation lato
sensu, louverture gnrique, ou encore la rflexivit de toute
mise en corpus des fins intelligibles. Cette avance entretient
des liens rciproques de conditionnement avec les perces
technologiques certes, mais surtout avec leur traduction dans les
domaines thoriques amont (normes informatiques, XML-
TEI, etc.) et aval (reviviscence des recherches
interdisciplinaires sur corpus en sciences humaines), et la
manire dont ces liens se construisent, ici atteste, rendent
prudemment optimiste. Ils permettent enfin, en effet, de croire
fermement que les nouvelles spatialisations textuelles, qui
nattendent nullement leur thorisation complte pour envahir le
futur immdiat des pratiques culturelles humaines, font et feront
lobjet de lattention des spcialistes les mieux placs pour
cela : les chercheurs confronts aux matrialits multiformes du
texte dans leurs qutes discursives.

6. Plan du volume.
Nous avons divis le volume en deux parties. La premire
regroupe les synthses critiques et pistmologiques de
PATRICK CHARAUDEAU sur la problmatique gnrale de la
construction des corpus en analyse de discours et de DELPHINE
DENIS sur la philologie moderne et la question de ldition dun
texte de lAncien Rgime aussi complexe que LAstre
dHonor DUrf. Suivent deux articles auxquels lcriture en
binome confre lclairage critique de deux angles
disciplinaires convergents, lun propos dcrits de travail (les
signalements denfants en danger) (GEORGETA CISLARU et
FRDRIQUE SITRI), lautre sur des noncs suscits (bilans de
savoir rdigs par des lycens et des apprentis) (NATHALIE
GARRIC et VALRIE CAPDEVIELLE-MOUGNIBAS).
La seconde partie regroupe des rflexions
mthodologiques appliques des corpus. Cest le cas de
larticle sur les Sphres de contextualisation de VINCENT
CAPT, JERME JACQUIN et RAPHAL MICHELI, de MICHLE
MONTE sur le traitement de connecteurs concessifs et de
lapostrophe, de MARIE-LAURE FLOREA sur la tabularit, de

23
J.-M. ADAM, J.M. VIPREY

NADINE LUCAS sur les problmes dchelle des units de


traitement et enfin de THOMAS LEBARB sur le traitement de
brouillons et manuscrits de Stendhal.

Rfrences bibliographiques
Adam Jean-Michel (2005). Les sciences de ltablissement
des textes et la question de la variation , in J.-M. Adam &
U. Heidmann (ds), Sciences du texte et analyse de
discours. Enjeux dune interdisciplinarit. Genve :
Slatkine, pp. 69-96.
Adam Jean-Michel (2008). La linguistique textuelle.
Introduction lanalyse textuelle des discours. Paris :
Armand Colin.
Adam Jean-Michel (2009). Rcritures et variation : pour une
gntique linguistique et textuelle , Modles linguistiques
Tome XXX-1, volume 59 : 25-52.
Adam Jean-Michel et Heidmann Ute (2009). Le texte littraire.
Pour une approche interdisciplinaire. Louvain-la-Neuve :
Bruylant.
Cerquiglini Bernard (1989). Eloge de la variante. Histoire
critique de la philologie. Paris : Seuil.
Gresillon Almuth (1994). Elments de critique gntique.
Paris : PUF.
Heidmann Ute (2005a). Comparatisme et analyse de discours.
La comparaison diffrentielle comme mthode , in J.-M.
Adam & U. Heidmann (ds), Sciences du texte et analyse
de discours. Enjeux dune interdisciplinarit. Genve :
Slatkine, pp. 99-118.
Heidmann Ute (2005b). Epistmologie et pratique de la
comparaison diffrentielle , in M. Burger & C. Calame
(ds), Comparer les comparatismes. Lausanne : Etudes de
Lettres, pp. 141-159.
Jeanneret Michel (1994). Chantiers de la Renaissance. Les
variations de limprim au XVIe sicle . Genesis 6 : 25-
45.

24
Corpus de textes, textes en corpus

Legallois Dominique (2006a). Le texte et le problme de son


et ses units : propositions pour une dclinaison ,
Langages 163 : 3-9.
Legallois Dominique (2006b). Des phrases entre elles
lunit rticulaire du texte , Langages 163 : 56-70.
Lever Maurice (1996). Romanciers du grand sicle. Paris :
Fayard.
Lvy Jacques et Lussault Michel, dir. (2003). Dictionnaire de la
gographie et de l'espace des socits. Paris : Belin.
Mayaffre Damon (2002). Les corpus rflexifs : entre
architextualit et hypertextualit , Corpus 1 : 51-69.
Neefs Jacques (1990). Manuscrits littraires : comparaisons et
histoire littraire , in D. J. Bevan & P. M. Wetherill (ds),
Sur la gntique textuelle. Amsterdam-Atlanta : Rodopi,
pp. 7-18.
Peytard Jean (1993). Dune smiotique de laltration ,
Semen 8 :145-177.
Rastier Franois (2005). Enjeux pistmologiques de la
linguistique de corpus , in G. Willliams (d.), La
linguistique de corpus, Rennes : PUR, pp. 31-45.
Viprey Jean-Marie (2006a). Quelle place pour les sciences
des textes dans lAnalyse de Discours ? , Semen 21 : 167-
182.
Viprey Jean-Marie (2006b). Structure non-squentielle des
textes , Langages 163 : 71-85.
Viprey Jean-Marie (2009) Language / Discourse : textual
analysis, computer and statistics , Belgian Journal of
Linguistics 23 (1) : 191-206.
Zumthor Paul (1972). Essai de potique mdivale. Paris :
Seuil.

25