Vous êtes sur la page 1sur 23

AUX SOURCES DE LA CORPUS LINGUISTICS: FIRTH ET LA LONDON SCHOOL

Jacqueline Lon Armand Colin | Langages


2008/3 - n 171 pages 12 33

ISSN 0458-726X
Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Article disponible en ligne l'adresse:

-------------------------------------------------------------------------------------------------------------------http://www.cairn.info/revue-langages-2008-3-page-12.htm

--------------------------------------------------------------------------------------------------------------------

Pour citer cet article :

-------------------------------------------------------------------------------------------------------------------Lon Jacqueline, Aux sources de la Corpus Linguistics : Firth et la London School, Langages, 2008/3 n 171, p. 12-33. DOI : 10.3917/lang.171.0012

--------------------------------------------------------------------------------------------------------------------

Distribution ectronique Cairn.info pour Armand Colin. Armand Colin. Tous droits rerv pour tous pays.

La reproduction ou reprentation de cet article, notamment par photocopie, n'est autoris que dans les limites des conditions gales d'utilisation du site ou, le cas hnt, des conditions gales de la licence souscrite par votre ablissement. Toute autre reproduction ou reprentation, en tout ou partie, sous quelque forme et de quelque manie que ce soit, est interdite sauf accord prlable et rit de l'iteur, en dehors des cas prus par la lislation en vigueur en France. Il est prisque son stockage dans une base de donns est alement interdit.

Jacqueline Lon (Histoire des thories linguistiques, CNRS, Universit Paris 7)

Aux sources de la Corpus Linguistics : Firth et la London School


INTRODUCTION
Lorsquil est apparu en 1984, comme titre dun ouvrage collectif (Aarts & Meijs 1984), le terme Corpus Linguistics dsignait un ensemble de travaux britanniques, scandinaves et nerlandais sur des corpus informatiss de langlais. Si on peut considrer que, depuis, la Corpus Linguistics sest constitue en vritable communaut, assurant sa visibilit grce de nombreux colloques et ouvrages collectifs, la cration dune revue internationale International Journal of Corpus Linguistics et dune collection Studies in Corpus Linguistics, elle nest cependant pas homogne et certains ont voulu y distinguer deux courants distincts, le courant corpus-based 1 dirig par Geoffrey Leech, professeur mrite lUniversit de Lancaster, le second corpus-driven autour de John Sinclair, rcemment disparu et anciennement professeur mrite lUniversit de Birmingham. Il faut prciser que cette distinction entre deux courants est revendique essentiellement par les tenants de la tendance Sinclair qui tiennent particulirement se dmarquer de la tendance Leech. Ainsi Stubbs (1993) ou Tognini-Bonelli (2001) opposent les deux courants par leur mthodologie : alors que loption corpus-based du courant Leech tient le corpus comme un simple rservoir dexemples destin tester ou vrifier des positions thoriques existantes, loption corpus-driven , quils prconisent, postule quaucune position thorique a priori ne prside aux observations sur corpus, la thorie tant induite du corpus. Cette position, adopte par ses disciples (Francis 1993, Tognini-Bonelli 2001), selon laquelle il faut laisser parler le texte , o la grammaire merge du texte sans a priori thorique, est dj prsente chez Sinclair : large quantities of raw text are processed
1. Le terme corpus-based est effectivement utilis par le courant Leech pour se nommer. Voir le titre de louvrage cosign par Garside et al. en 1987 : The Computational Analysis of English : a Corpus-based Approach.

12

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

directly in order to present the researcher with objective evidence (Sinclair 1991 : 1). On peut se demander si cette distinction entre deux courants a des fondements thoriques ou bien si elle est dordre purement conjoncturel et politique quand on sait que les protagonistes des deux bords, tous deux dorigine britannique et issus de la London School, utilisent parfois les mmes corpus et partagent certains supports de publications. Il est en effet possible de situer lorigine de ces deux courants la seconde gnration de linguistes de la London School fonde par John Rupert Firth et Daniel Jones, qui, au moment de lessor sans prcdent de la linguistique britannique dans les annes 1960, se sont confronts linformatisation. De fait, la constitution des premiers corpus informatiss ou pr-informatiss et la mise au point de mthodes dinvestigation linguistique de donnes textuelles ont questionn la linguistique empirique sur plusieurs points : Quest-ce quune linguistique de lusage ? Comment dfinir lusage ? Son tude implique-t-elle ltude de la variation ? Est-il apprhendable seulement partir de textes (oraux et crits) authentiques, ou faut-il aussi solliciter, laide de tests, la capacit des locuteurs valuer leurs productions ? Que signifie la notion de reprsentativit dun corpus ? La question se pose trs diffremment selon quon considre quune collection de textes intgraux constitue un chantillon de la langue ou bien que la constitution dun corpus reprsentatif est le produit dune construction systmatique du linguiste. Quelle place tiennent les langages restreints ou les sous-langages dans ltude de lusage ? Quel rapport entretiennent-ils avec le langage en gnral ? Doivent-ils tre considrs comme plus reprsentatifs et/ou plus accessibles lanalyse que le langage en gnral ? Y a-t-il une diffrence de conception de lusage et des corpus selon quon sintresse au sens lexical ou la syntaxe ? Dans cet article, nous examinerons la faon dont les pionniers de la Corpus linguistics et hritiers de la London School, Randolph Quirk dune part, M.A.K. Halliday et John Sinclair dautre part, ont diversement apprhend ces questions en interprtant, dans les annes 1960, un certain nombre de notions hrites de la tradition empirique britannique, institues ou remanies par J.-R. Firth : contexte de situation et langages restreints, collocation et thorie du sens, niveaux imbriqus du lexique et de la grammaire, tude de lusage partir de donnes authentiques, texte et/ou corpus. Nous verrons comment ces rinterprtations se sont faites aussi avec le concours dinfluences diverses, tradition lexicographique franaise ou bien distributionnalisme no-bloomfieldien. Nous verrons enfin comment ces options ont prsid la constitution des premiers corpus informatiss de langlais et ont conduit aux divergences actuelles.

L a ng age s 171

13

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus

1. FIRTH, LA LONDON SCHOOL 2 ET LA TRADITION EMPIRIQUE BRITANNIQUE


1.1. La London School
Les deux courants de la Corpus Linguistics ont leur origine dans la London School. Toutefois, seul le courant Sinclair sinscrit explicitement dans la continuit de la tradition de la linguistique empiriste britannique et revendique lhritage firthien, alors que le courant Leech se veut en rupture radicale pour postuler la cration dune nouvelle linguistique. Le tableau (1) permet de reprer, outre les fondateurs Daniel Jones et John Rupert Firth, les chefs de file de deuxime et troisime gnrations impliqus dans les deux courants de la Corpus Linguistics . On consultera en annexe une prsentation critique des biographies de ces linguistes.
(1)
London School
Fondateurs 2e gnration Daniel Jones (1881-1967) et John Rupert Firth (1890-1960) M.A.K. Halliday (n en 1925) John Sinclair (1933-2007) Chef de file du courant corpus-driven Randolph Quirk (n en 1920) Geoffrey Leech (n en 1936) Chef de file du courant corpus-based

3e gnration

Les linguistes de la London School partagent un certain nombre de traits communs : formation en phontique hrite de Henry Sweet (1845-1912) et Daniel Jones (1881-1967), importance accorde ltude du langage parl, apprentissage de langues non europennes, attachement la linguistique applique indissociable de la linguistique thorique, rle crucial dans leur formation de la School of Oriental and African Studies (SOAS), et de lUniversity College of London (UCL) 3. Lintrt pour la linguistique descriptive (ou empirique), centre sur ltude de lusage, est une caractristique largement partage au sein des linguistes britanniques. Cest une science applique, oriente vers la pratique : enseignement des langues, traduction, confection de grammaires et de dictionnaires, vulgarisation et enseignement de la linguistique, traitement automatique des langues, etc. Nen seront pas moins discutes certaines grandes questions qui se posent la linguistique dans les annes 1950-60 : dans le sillage de la thorie de
2. Font partie de la London School, outre ses fondateurs Firth et Jones, les disciples de Firth, cest-dire la quasi totalit des membres du Department of General Linguistics de la SOAS (School of Oriental and African Studies) : W.S. Allen, C.E. Bazell, J.T. Bendor-Samuel, J. Carnochan, J. Ellis, M.A.K. Halliday, E.J.A. Henderson, J. Lyons, A. McIntosh, T.F. Mitchell, F.R. Palmer, R. Quirk, R.H. Robins, J. Sinclair, R.K. Sprigg, N. Waterson. Firth, lui-mme, parle du London group ou du London group of the School of Oriental and African Studies (voir par exemple 1968 [1957a] : 52 note 46). 3. Pour certaines caractristiques de la linguistique britannique, voir Durand & Robinson (1974).

14

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

linformation, le rle des probabilits dans le langage, sa nature probabiliste ou bien le caractre continu et non discret de certaines proprits ; suite aux travaux de Chomsky, les rapports entre grammaticalit et acceptabilit dune part, entre usage, perception de lusage et intuition dautre part. Dans les deuxime et troisime gnrations, alors que les positions de Halliday puis Sinclair sont ancres dans la tradition firthienne, celles de Quirk sont beaucoup plus diversifies, de telle sorte que Leech ne fait plus du tout rfrence Firth. Ces divergences, on le verra, ne seront pas sans consquences sur la construction des premiers corpus.

1.2. Notions firthiennes aux sources de la Corpus Linguistics : contexte de situation, polysystmisme, collocation, langages restreints et texte
Firth na pas rdig douvrage majeur et les notions quil introduit, au fil darticles dont la moiti na t publie quaprs sa mort (Firth 1957, Palmer 1968), ne sont souvent quesquisses, parfois de faon contradictoire. Toutefois son approche tout fait originale, bien que restant dans la tradition intellectuelle britannique, a marqu de faon dcisive lessor de la linguistique en Grande-Bretagne dans les annes 1960 et est encore trs prsente dans les dveloppements divers que lui ont donns ses disciples et collgues. La notion de collocation et en particulier de meaning by collocation , centrale dans luvre de Firth, est trs importante pour comprendre les options corpus-driven de la tendance Sinclair. Principalement labore dans un texte de 1951, elle est conue dans lapproche polysystmique de Firth comme sens lexical, lun des cinq niveaux o se dtermine le sens les autres tant les niveaux phontique, morphologique, syntaxique et smantique. Le sens dune unit un certain niveau est la fonction que joue cette unit au niveau suprieur 4. Le sens lexical rside dans lusage des mots en contexte, et non dans une smantique du mot a priori, conceptualiste, logique ou psychologique. Cest pourquoi la notion de collocation est troitement lie un des principes centraux de luvre de Firth, savoir le contexte de situation emprunt Wegener, Malinowski et Gardiner, pour lequel Firth (1957 [1950]) proposera une bauche de catgories descriptives (actions verbales et non verbales des participants, objets et effets des actions) ; ses notions de communaut de locuteurs ( speech community ) et de polydialectes seront reprises par les ethnographes de la communication, Dell Hymes et Joseph Gumperz, et par certains no-firthiens (Halliday et al. 1964) pour laborer leur notion de registre (cf. 2 ci-dessous).
4. Le polysystmisme de Firth soppose la fois aux structuralistes europens, en particulier au monosystmisme de Meillet pour qui le langage est un systme cohrent, homogne o tout se tient , et aux distributionalistes amricains qui prtendent traiter tous les niveaux du langage par les mmes procds de substitution et de segmentation (Firth 1968 [1957a]).

L a ng age s 171

15

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus


La notion de collocation voluera dans luvre de Firth 5. Dsignant tout dabord la cooccurrence de deux lments linguistiques quelconques (morphme, mot, syntagme ou expression quelconque) dans toute tendue de texte, elle se concentrera ensuite sur lattente mutuelle ( mutual expectancy ou collocability ) quun mot fait porter sur un autre. Lun des sens de night est quil peut entrer en collocation avec dark et lun des sens de dark est quil peut entrer en collocation avec night , comme lindique lextrait suivant souvent cit par les corpus linguists du courant Sinclair :
(2)
Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Meaning by collocation is an abstraction at the syntagmatic level and is not directly concerned with the conceptual or idea approach to the meaning of words. One of the meanings of night is its collocability with dark, and of dark, of course, collocation with night (Firth 1957 [1951] : 196).

Alors que les collocations pouvaient concerner nimporte quel fragment de texte ( any stretch of text ), la focalisation sur le mot apparat au moment o Firth donne des pistes mthodologiques pour ltude des collocations en vue dapplications pratiques comme lenseignement des langues, la traduction ou la confection de dictionnaires. Ce sont en effet les collocations dun mot pivot regroupes en configurations qui permettent dtablir le sens de ce mot (Firth [1956] et [1957b]). Pour circonscrire ltude des collocations, Firth propose les langages restreints (restricted languages) cohrents avec sa conception des objectifs de la linguistique descriptive, qui est de dcrire non le langage dans son ensemble (the language as a whole), mais des langages restreints plus facilement apprhendables au travers de micro-grammaires et micro-glossaires. Ensembles de textes ou texte unique (comme la Magna Carta du Moyen-ge ou la Dclaration dindpendance amricaine), textes techniques, scientifiques ou bien littraires, les langages restreints doivent tre apprhendables au travers de textes authentiques et intgraux. Lattestation dans des textes authentiques est en effet essentielle lapproche du sens : An approach to the meaning of words, pieces, and sentences by the statement of characteristic collocations ensures that the isolate word or piece as such is attested in established texts (Firth 1957 : xi). Limportance du texte est un thme trs prsent dans la tradition britannique. Henry Sweet la souligne dans ses travaux sur lenseignement de langlais lorsquil promeut lide dune mthode inductive denseignement de la grammaire selon laquelle les enseignants doivent trouver leurs exemples dans des textes naturels (Howatt 1984). Chez Firth, le rle du texte est li sa conception de lusage, quil emprunte Wittgenstein comme on le voit dans la citation (3). Le sens dun mot est constitu par son usage, savoir comme occurrence dans un texte dans un contexte situationnel spcifique :
(3) The placing of a text as a constituent in a context of situation contributes to the statement of meaning since situations are set up to recognize use. As

5. Pour la gense de la notion de collocation dans luvre de Firth, voir Lon ( paratre).

16

Aux sources de la Corpus Linguistics : Firth et la London School Wittgenstein says, the meaning of words lies in their use. (Phil. Investigations, 80, 109) One cannot guess how a word functions. One has to look at its use, and learn from that (Wittgenstein 1953, 109) (Firth 1968 [1957b] : 179)

1.3. Grammaire des mots, lexique-grammaire et patterns


Un autre aspect de la tradition britannique quon retrouvera dans la Corpus linguistics est lide dune non-sparation entre lexique et grammaire. Henry Sweet (1884) prconise une lexicographical syntax pour rendre compte de formes telles que get qui doivent tre traites la fois comme grammaticales et lexicales. Dans le cadre de lenseignement de langlais, Harold Palmer publie en 1938 A Grammar of English Words dont le titre mme tmoigne dun souci dinterface entre lexique et grammaire. Par ailleurs, cet auteur propose dutiliser des construction patterns et en particulier des verb patterns , cest-dire de favoriser lapprentissage des groupes de mots (syntagmes, phrases, collocations) plutt que celui des mots isols 6. Cette ide de patterns fera son chemin chez Halliday, qui publiera en 1966 un ouvrage avec Angus McIntosh Angus, intitul Patterns of Language, puis chez les corpus linguists (voir 2).

2. M.A.K. HALLIDAY ET JOHN SINCLAIR : LE SENS LEXICAL PAR LES COLLOCATIONS


Voyons maintenant comment le courant Halliday-Sinclair a t amen entreprendre la construction de corpus lors de linformatisation du langage des annes 1960. Dans son travail de thse dirig par Firth, Halliday (1959) tudie la frquence des classes syntaxiques dans un dialecte chinois afin de dterminer si la non-apparition ou la faible apparition dune structure dans le corpus tait due au hasard, si ctait une preuve de sa non-grammaticalit, ou bien une preuve de sa raret. En proposant de mettre en parallle grammaticalness (grammaticalit) et lexicalness (lexicalit), il jetait les premiers jalons de sa conception probabiliste du langage, et mettait en uvre lide dun continuum entre lexique et grammaire, dj prsente dans la tradition britannique, et cohrente avec la conception polysystmique de Firth 7. Lexique et grammaire participent alors dun mme niveau, le lexicogrammar . En mme temps quil met en place les conditions thoriques pour tudier systmatiquement le meaning by collocation de Firth, cest--dire le sens des
6. Certains corpus linguists (Mitchell 1975, Kennedy 1998, Sinclair et al. 2004) ont dailleurs vu dans Palmer le vritable inventeur des collocations, bien quil nait jamais t cit ni par Firth, ni par Halliday ou Sinclair, du moins dans les annes 1960. Toutefois il faut signaler que, bien quil utilise le terme, sa conception des collocations, simple combinaison de mots, nimplique pas, comme chez Firth et ses successeurs, une thorie du sens. 7. Sur ce point, Halliday sest directement confront Chomsky lors du 9e congrs des linguistes en 1962 en critiquant la notion de grammaticalit qui devait tre pense non en termes absolus mais en termes de degrs et complte par celle de lexicalit (Chomsky 1964).

L a ng age s 171

17

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus


mots en contexte et dans lusage, Halliday propose dtudier les ensembles lexicaux (lexical sets) partir des configurations collocationnelles (collocational patterning). Ces configurations vont tre obtenues par lapplication de chanes de Markov, en dfinissant des paramtres : un item-noyau ou node et un span , cest--dire le nombre ditems droite et gauche dans le texte qui vont servir de contexte. Halliday, qui a particip dans les annes 1950 aux premires expriences britanniques de traduction automatique, au sein du Cambridge Language Research Unit, centres sur llaboration de langues intermdiaires base de smantique lexicale, est dj un pionnier du traitement automatique des langues (Lon 2000). Cest pourquoi il soutient et surpervise le projet OSTI (UK Government Office for Scientific and Technical Information) entrepris en 1963 par Sinclair, alors jeune chercheur lUniversit ddimbourg. Ce projet est destin ltude par ordinateur des patterns de collocations dans des enregistrements danglais oral et crit 8. Les options thoriques sont publies en 1966 (Halliday 1966, Sinclair 1966), puis les rsultats en 1970 (Sinclair et al. 2004 [1970]) 9. La recherche des patterns de collocation, au cur du projet OSTI, reste du domaine spculatif, sans projet immdiat dapplication concrte. Lobjectif de Sinclair est de dcrire les collocations dans le langage en gnral, en se posant la question de leur rapport avec le sens lexical :
(4) the formal meaning of an item A is that it has a strong tendency to occur nearby items B, C, D, less strong with items E, F, slight with G, H, I, and none at all with any other item. (Sinclair 1966 : 417)

En suivant lhypothse de Halliday dun continuum entre lexique et grammaire, Sinclair considre que les rles respectifs de la grammaire et du lexique sont redfinir, et que le reprage automatique des collocations ne doit tenir compte ni des catgories grammaticales, ni des frontires grammaticales, propositionnelles, ou mme phrastiques. Les collocations hard work et work hard doivent tre considres comme quivalentes mme si dans le premier cas work est un nom, et dans le second cas un verbe. De plus, il ny a pas de raison pour considrer comme identiques les collocations obtenues pour les diffrentes formes dun mme lemme : par exemple drive, drives, drove, driven, driving ont chacun leur configuration propre 10.
8. Collaborent au projet OSTI Susan Jones et Robert Daley. Le comit de pilotage est compos de P.J. Wexler, H.E. Daniels, M.A.K. Halliday, G.W. Hart, S.H. Hollingdale, J. McDaniel, R. Needham, G.E. Perren. 9. Cette tude des collocations lexicales rencontre les proccupations de la lexicologie et des tudes statistiques du vocabulaire dont les premires applications sur ordinateur sont dj assez avances en France. P.J. Wexler, prsident du comit de pilotage dOSTI, assiste en 1957 au colloque du CNRS o se dcide la cration du Trsor de la Langue Franaise. Aprs une visite en 1963 au Laboratoire danalyse lexicologique cr par Quemada Besanon, Halliday et Sinclair publient dans les Cahiers de Lexicologie. Enfin la notion statistique de disponibilit du lexique du Franais lmentaire (Gougenheim et al. 1954), cite par Halliday, nest pas sans rapport avec la notion probabiliste de lexicalness . 10. Cette position tait dj chez Firth : It is important, however, to regard each word separately at first, and not as a member of a paradigm. The collocations of light (n.s.) separate it from lights (n.s.) and light (n. adj.) from lighter and lightest (Firth 1968 [1957b] : 181).

18

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

(5)

A literary text has meaning only by comparison with a particular language at a particular time. Any stretch of language has meaning only as a sample of an enormously large body of text ; it represents the results of a complicated selection process, and each selection has meaning by virtue of all the other selections which might have been made, but have been rejected. So a poem is a sample of a language ; perhaps not a representative sample, but only carrying meaning because it can be referred to a description of a whole language. (Sinclair 1965 : 76-77)

Lapproche probabiliste du sens, quil partage avec Halliday, le conduit considrer quen tablissant des patterns de collocations partir de grands corpus de textes, on peut tablir le sens dune expression non de faon absolue mais plutt comme une tendance probable. Ceci aura des consquences sur la constitution dun corpus, toujours augmentable et jamais fini. Cest pourquoi, ds les annes 1960, Sinclair est oppos la mthode dchantillonnage et aux genres a priori ; dailleurs, ds le rapport OSTI, il entrevoit la possibilit dtablir une typologie des textes partir de traits linguistiques sur des donnes textuelles de grande taille, au lieu de travailler partir des genres. Les options thoriques et mthodologiques de Sinclair, conception probabiliste et textes authentiques et intgraux, exigent un maximum de donnes et des capacits de traitement automatique inexistantes dans les annes 1960 11. Sinclair interrompt ses recherches ds la publication du rapport OSTI en 1970 pour se consacrer lanalyse du discours et ne reprendra les travaux sur les collocations que dans les annes 1980 avec le projet COBUILD (Collins Birmingham University International Language Database), vaste base de donnes lexicales destine confectionner des dictionnaires partir dun ensemble de textes authentiques et intgraux, la Birmingham Collection of English texts (BCE). Pour Sinclair, les corpus sont des textes, une collection de textes intgraux non finie, et les patterns lexicaux reprs dans le corpus sont des cooccurrences
11. Faute de pouvoir traiter par ordinateur des textes suffisamment longs pour obtenir des rsultats statistiques fiables, Sinclair (1970) a recours des textes supplmentaires, produits par des informateurs partir de mots cls, dont il dplore dailleurs le caractre artificiel et improbable en situation de production spontane. Ses donnes sont composes des lments suivants : 135 000 mots de conversations spontanes (anglais britannique oral) ; le million de mots du corpus Brown (anglais amricain crit) ; 12 000 mots de textes scientifiques ; 25 000 mots de textes littraires ; 13 000 mots produits par des informateurs.

L a ng age s 171

19

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Conformment lhritage firthien, la recherche des collocations doit seffectuer dans des textes intgraux et authentiques et non partir de corpus constitus dchantillons. Cest dans son premier article, consacr une tude stylistique ( When is a poem like a sunset ? ), que Sinclair (1965) prsente sa conception du sens dune expression linguistique dans un texte. Le sens doit tre conu comme potentiel, dpendant de choix faits dans lensemble du texte. Chaque texte est un chantillon de lensemble dune langue (en loccurrence, un pome est un chantillon dune langue) ; cet chantillon-texte nest peut-tre pas reprsentatif mais il na de sens que par rapport la description de lensemble dune langue :

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus


de mots indpendamment de leurs catgories et de leur liens syntaxiques. Le contexte de situation est dsormais rduit au texte et laisse de ct la dimension sociolinguistique esquisse par Firth dans son ide de speech community . Pour Halliday, au contraire, cet aspect reste trs important. Il le dveloppe dans les annes 1960 avec la notion de registre , et dans les annes 1970 avec la mise au point de sa thorie sociosmiotique lors de sa collaboration avec le sociolinguiste Basil Bernstein. Il faut noter que les registres connatront un parcours spcifique dans la Corpus Linguistics , en particulier dans les travaux de Biber (1988), pour lequel les registres et les genres ne sont pas dfinis a priori mais partir de configurations de traits linguistiques aboutissant une typologie des textes.

3. RANDOLPH QUIRK ET LE SURVEY OF ENGLISH USAGE : UNE CERTAINE IDE DE LUSAGE


Examinons maintenant les sources du courant Leech, savoir les travaux de Randolph Quirk dont Leech a t llve. Ceux-ci sont davantage orients vers la grammaire que vers le lexique, et poursuivent demble des objectifs pratiques. Quand Quirk entreprend en 1959 de rassembler les donnes de son Survey of English Usage (SEU ci-aprs) au University College of London, il poursuit un objectif essentiellement didactique, celui de fabriquer des grammaires pour faire face la demande accrue denseignement de langlais comme langue trangre dans les annes daprs la seconde guerre mondiale (Quirk 1960) 12. Contrairement Sinclair qui ne reconnat comme mentors que les no-firthiens Halliday et McIntosh, Quirk situe ses travaux dans une filiation multiple. Il est vrai que son intrt pour la grammaire lcarte des proccupations principales des no-firthiens pour le sens, et en particulier le sens lexical en contexte (le meaning by collocation ). Quand il cite Firth, cest sur des aspects marginaux, comme lide dun dictionnaire de lusage de langlais parl prconise par Firth lors dune confrence de 1935 ; ou bien les colligations , cooccurrences de catgories grammaticales, tout juste esquisses par Firth comme quivalents grammaticaux des collocations. Quant il voque les expected collocations , cest pour les relier immdiatement aux relations de dpendances proposes par Hjelmslev (interdpendance, dtermination, constellation), ce qui prive la notion firthienne de collocation de la question du sens qui lui est fondamentalement associe. Toutefois, Quirk se rattache la ligne de lempirisme britannique par limportance quil donne la lexicographical syntax dHenry Sweet, la recherche de patterns grammaticaux, et la tradition des dictionnaires de langlais fonds sur lusage de la fin du XIXe sicle comme le National English Dictionary de James Murray. Il conoit une grammaire fabrique partir dun corpus dusage, savoir des donnes en nombre, attestes, enregistres ou
12. Les premiers membres du SEU sont A. P. Duckworth, J.P.L. Rusiecki, J. Svartvik auxquels se joindront V. Adams, D. Crystal, D. Davy, S. Greenbaum, G. Leech et J. Mulholland.

20

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

transcrites, quil appelle a corpus of natural usage (Quirk 1958b : 166) ; a body of full and objective data , a copious body of actually recorded usage (Quirk 1960 : 40) 13. Linfluence amricaine est par ailleurs considrable. Quirk rencontre plusieurs no-bloomfieldiens lors de son sjour aux USA en 1951-52 aprs son doctorat en syntaxe : en particulier Charles Fries qui il doit lide dutiliser des conversations enregistres, totalement cohrente avec la tradition britannique favorisant ltude du langage parl, et Freeman Twaddell avec lequel il collaborera lors de la constitution du corpus Brown ; il empruntera Harris les tests de substituabilit et le recours des informateurs. Enfin, il emprunte Hockett son ide de grammaire de lauditeur 14. Lobjectif de Quirk est la construction dune grammaire descriptive et prescriptive, fonde sur lusage grammatical permettant dobtenir des structures descriptives (descriptive patterns) aussi systmatiques que possible afin dtablir des prescriptions nouvelles objectivement fondes. Pour Quirk, lusage nest pas une notion qui va de soi et il va sattacher distinguer lusage observ dans les corpus, la norme prescrite par les grammaires et les dictionnaires, et la croyance des locuteurs 15. lpoque, le dbat est (dj) vif sur les notions chomskyennes de grammaticalit , acceptabilit et intuition des locuteurs , et Quirk accorde beaucoup dattention lcart entre lintuition des locuteurs (et des linguistes) et leur usage, cest--dire entre les formes quils acceptent comme bien formes et celles quils produisent vraiment. Dans son tude sur les relatives restrictives, Quirk observe que des educated English speakers utilisent trs majoritairement who en cas dantcdent humain, alors quils ne font pas la diffrence entre who et that dans un test dacceptabilit (Quirk 1958a). Cette frquente inadquation entre les croyances des locuteurs et leur
13. Lanecdote rapporte par Svartvik (2005) et reprise par Sinclair (2004), selon laquelle cest Nelson Francis qui a utilis le premier le terme de corpus savre donc errone. Outre lexpression latine corpus inscriptionum utilise par Firth (1968 [1956]), cest probablement Quirk qui, le premier, utilise le terme dans le sens qui nous intresse ici. Il faut de plus souligner que le terme, dj en usage chez les no-bloomfieldiens, est disponible dans la communaut des linguistes et pour Quirk en particulier. 14. Fries (1952) avait constitu un corpus danglais amricain oral partir de 50 heures denregistrement de conversations spontanes de 300 locuteurs diffrents. Son objectif tait dtudier la structure de langlais en usage partir de la recherche de classes de mots laide de la mthode inductive de procdures de dcouverte, chre aux no-bloomfieldiens. 15. Par comparaison, Le Bon Usage (1re dition 1936) ne dfinit pas lusage de faon explicite. Dans la prface la 12e dition de 1986, Andr Goosse, qui propose une refonte complte de louvrage, prcise que son objectif est le maniement dune bonne langue crite et de registre soutenu. Cette langue est celle des crivains, dont Grevisse est, selon les prfaciers, le remarqueur (le Vaugelas du 20e sicle) ou le greffier. Il ny a aucune indication de construction systmatique de corpus sinon la mention que les exemples sont tirs de la littrature (environ 500 auteurs) auxquels Goosse a ajout des exemples en langue crite non littraire, extraits dessais dhistoriens, folkloristes ou musiciens. Goosse signale galement quil a tenu compte des parlers rgionaux (pays francophones et rgionalismes franais) et a ajout quelques exemples tirs de loral ; mais l encore, aucune indication de mthode. Contrairement Quirk et al., les faits grammaticaux sont emprunts aux ouvrages de grammaire existants et ne sont aucunement induits des exemples.

L a ng age s 171

21

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus


usage rel conduit Quirk mettre en uvre des tests pour apprcier cet cart, et considrer lacceptabilit comme un phnomne multiface et continu qui ne peut se rduire un jugement strict en oui ou non. Dans certains cas, il parlera dailleurs de prfrence de lusage pour telle et telle forme plutt que de rgles. Les tests ne sont quune partie du dispositif dtude de lusage. Pour Quirk, les tests de substitution mis au point par Harris (blancs remplir par les informateurs, ou dj remplis et soumis leur approbation) sont efficaces pour dterminer les cas dimpossibilit, mais ils ne sont pas capables de distinguer ce qui est marginalement possible de ce qui est rellement normal, entre ce que lon accepte comme auditeur et ce quon produit comme locuteur. Quant aux structures linguistiques complexes et aux variations grammaticales, elles ne peuvent sapprhender quen prenant en compte des variables contextuelles dans un corpus de langage naturel associ des tudes statistiques. Ltude des variations est essentielle : il existe des variations par rapport une norme, et il ny a pas de variation sans cause linguistique ; toute variation, mme apparemment mineure, doit tre explique et apparatre dans la grammaire. Alors quavec des tests de substitution, le linguiste peut se trouver confront une prolifration de formes quil aura faussement tendance interprter comme des variantes libres, les productions orales spontanes offrent des cas de variation intressants. Ainsi dans but it was essential that they [t] should try, ce qui est intressant, cest le lapsus du locuteur [t] dans la mesure o il permet au linguiste de se demander quel syntagme aurait t ralis si le locuteur avait utilis try ou tried et ce qui la conduit rejeter lune et lautre forme en faveur de should try. Selon Quirk, ce nest qu laide de tests dlicitation quil est possible de rpondre ces questions (Quirk 1984 : 185). Quirk partage lhypothse dun continuum entre lexique et grammaire, thmatise par Halliday. Toutefois, alors que Halliday (1961, 1966) oppose un modle du lexique probabiliste (avec un choix ouvert de possibilits) un modle de grammaire dterministe (avec un choix ferm de possibilits), Quirk (1964) parle de gradient y compris pour les classes grammaticales. Entre in spite of qui constitue une quasi-prposition et on the table near the door , compltement libre, il y a diffrentes ralisations, in spite of the hotel , at the sight of the hotel et in the lounge of the hotel qui se situent sur un continuum et qui conduisent ranger, partir dune dizaine de traits distinctifs, une classe grammaticale, les prpositions, parmi les classes ouvertes en anglais 16. Enfin Quirk est sensible lide de micro-grammaires contenue dans lide de langages restreints formule par Firth, mme sil ne le cite pas. Ainsi, il reconnat lexistence dune grammaire des groupes nominaux en anglais scientifique eight fixed open hearth steel melting furnaces diffrente de celle de
16. However convenient sharp dissociation may be between grammar and lexis, closed system and open class, it is important to realize here as elsewhere that, between the poles realizable P1N1P2N2 sequences, there is a continuum or gradient, and that in fact it is largely through the productive power of these sequences that we keep the form-class preposition open-ended in English. (Quirk 1968 [1964] : 149).

22

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

langlais duqu eight furnaces, of a fixed type with open hearth, for the melting of steel (Quirk 1962 : 164) 17. En rsum, les donnes utilises par Quirk en vue de la fabrication dune grammaire ont diverses origines : des donnes artificielles produites en situation exprimentale, et des donnes attestes crites ou orales. Le SEU doit tre un corpus construit par le linguiste, systmatique, chantillonn et reprsentatif, dont lobjectif est de rendre compte en synchronie du langage parl et crit de locuteurs britanniques duqus adultes, et dlaborer des expriences slectives susceptibles dtablir les rgles des variations et des usages rares, des fins prescriptives 18. Les variations sont apprhendes au travers dun certain nombre de genres, littrature, textes techniques, scientifiques, juridiques, politiques, religieux, journalistiques. Dans Quirk (1960), le projet initial tait de compiler 200 textes (crits et oraux) de diffrents genres de 5 000 mots chacun pour un total dun million de mots.

4. DES PR-CORPUS AUX GRANDS CORPUS : DEUX DEVENIRS DISTINCTS


Nous allons maintenant examiner comment les options prises par Halliday et Sinclair dune part, et Quirk dautre part, au moment des premiers traitements automatiques du langage ont abouti aux deux courants actuels :
(6)
Courant Leech ou corpus-based
1959 1963 1967 1970 1972 1975 1978 A grammar of Contemporary English , Quirk, Greenbaum, Leech, Svartvik London-Lund Corpus of Spoken English (LLC) Svartvik et al. Lancaster-Oslo-Bergen Corpus of British English (LOB), Leech et Johansson Survey of English Usage (SEU) Quirk dbut Corpus Brown publication du Corpus Brown , Kucera et Francis 1967 publication du rapport OSTI, Sinclair et al. dbut projet OSTI (UK Government Office for Scientific and Technical Information)

Courant Sinclair ou corpus-driven

17. Lorsquil se rfre explicitement aux restricted languages , Quirk les assimile une sorte de Basic English, contrairement Firth qui distinguait nettement les deux : Basic English should, I think, be placed in the second category and though a language with limitations, especially of vocabulary and syntax, it is not really in my sense a restricted language. A restricted language is limited by its use and its micro-glossary may be rich and its micro-grammar specialized. (Firth 1968 [1956] : 111). 18. The full range of co-existing varieties and strata of educated English, spoken as well as written at the present time (Quirk 1960 : 50).

L a ng age s 171

23

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus


Courant Leech ou corpus-based
1980

Courant Sinclair ou corpus-driven


dbut projet COBUILD (Collins Birmingham University International Language Database), Sinclair. The Birmingham Collection of English Texts (BCE), Sinclair et Renouf publication de la 1 re dition du COBUILD English Dictionary

1987 1987 1989 1990 fin de linformatisation du SEU ICE (International Corpus of English) successeur du SEU, Greenbaum

4.1. Le courant Leech : du SEU au Brown corpus et aprs


Bien que Quirk et ses collaborateurs aient fabriqu des procdures informatises pour explorer les donnes du SEU ds les annes 1960, la base de donnes elle-mme na t informatise qu la fin des annes 1980, notamment avec la cration de lICE (International Corpus of English) en 1990, corpus de textes organis par genres pour les diverses varits danglais dans le monde. Toutefois, certains considrent le SEU comme une tape de transition entre les descriptions non informatises fondes sur les corpus et les corpus actuels ; Kennedy (1998) le tient mme pour un des premiers exemples de corpus quilibr usage gnral. On peut considrer que le Brown Corpus, estim plus ou moins juste titre comme le premier corpus informatis, constitue en fait une des formes de linformatisation du SEU. On peut dailleurs montrer que la filiation entre le SEU et le corpus Brown est en effet assez directe (Lon 2005) 19. De nombreuses rencontres ont eu lieu entre Quirk et lquipe amricaine de Providence, Freeman Twaddell, Nelson Francis et Henry Kucera ; et Quirk a particip la mise au point des spcifications du corpus. Bien que ce fait ne soit jamais mentionn par les corpus linguists , le corpus Brown a t ralis sur le modle initialement prvu pour le SEU : 500 chantillons de textes de 2 000 mots chacun, correspondant 15 genres diffrents pour un total dun million de mots (cf. 3 ci-dessus). Par ailleurs, les traitements effectus sur le Brown et publis en 1967 (Kucera & Francis 1967) consistent essentiellement en comptages de vocabulaire, et ses ambitions linguistiques sont bien en de des explorations effectues partir du SEU. En effet, entre 1960 et 1980, une quarantaine darticles utilisent le SEU pour des travaux sur la grammaire ou la prosodie (voir la bibliographie tablie par Altenberg en 1991). Par ailleurs, partir de 1972, plusieurs versions dune grammaire de langlais partir de lusage ont t confectionnes sur la base du SEU (Quirk et al.
19. Lon (2005) a montr, outre la filiation entre le SEU et le Corpus Brown, que dautres corpus informatiss ont exist avant le Brown : le Trsor de la Langue Franaise dont la cration a t dcide ds 1957 ; ou le Rand Corpus, conu en 1949 par la Rand Corporation des fins de traduction automatique.

24

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

1972) 20. Dans les annes 1970, cest sur le modle du SEU et du corpus Brown que se poursuivent les travaux de compilation des variations de langlais, avec les grands corpus dvelopps essentiellement en Scandinavie par les lves de Quirk. Leech, de lUniversit de Lancaster, Svartvik, de lUniversit Lund, et des Norvgiens dOslo et de Bergen entreprennent en 1975 la construction du London-Lund Corpus of Spoken English (LLC) et en 1978 celle du Lancaster-OsloBergen Corpus of British English (LOB). Dans les annes 1990, quand les corpus informatiss de trs grande dimension deviendront disponibles, ces corpus vont tre considrs comme des grands ensembles de donnes permettant deffectuer des explorations de toutes sortes, que ce soient des dcomptes statistiques ou des recherches de structures selon des hypothses linguistiques dfinies. Alors que la construction de ces corpus et les techniques dexploration relvent du traitement automatique des langues, les tenants du courant corpus-based , Leech en tte, vont revendiquer une position thorique en linguistique. Les grands corpus informatiss sont considrs non seulement comme une mthodologie mais comme une nouvelle linguistique ( a new philosophical approach this new kind of linguistics a new kind of knowledge a new way of thinking about language (Leech 1992 : 106)). On peut reprer trois types darguments sur lesquels ils fondent leur position : (i) Pour riger ces travaux en nouvelle linguistique, ils les opposent successivement plusieurs autres modles. Dans lintroduction de Garside et al. (1987), ouvrage rdit en 1990, Leech institue lapproche par corpus comme une nouvelle convergence de disciplines (tudes sur corpus, tudes de langlais et linguistique computationnelle), comparable ce qui se serait pass pour lintelligence artificielle dans les annes 1950-60, et favorable lmergence dun nouveau paradigme. Plus modestement, Sampson, dans le mme ouvrage, tient lapproche par corpus comme lun des deux courants de la linguistique computationnelle : fonde sur lutilisation de grands corpus informatiss de donnes authentiques et de mthodes probabilistes, elle sopposerait au courant logico-dductif, et lutilisation de rgles, dinfrences logiques et de bases de connaissance. Dans les deux cas, les auteurs prdisent que lapproche par corpus, encore minoritaire dans les annes 1980, deviendra dominante dans les dcennies suivantes. Dans un second temps, Leech (1992) dissocie la Corpus Linguistics du domaine strictement computationnel en la positionnant comme un vritable paradigme linguistique. Il loppose point par point au programme chomskyen des annes 1950-60 : tude de la performance plutt que de la comptence ; description linguistique plutt que recherche des universaux, utilisation de
20. Il convient toutefois de signaler que la version de 1985 de cette grammaire a t svrement critique par Sinclair (1991) critique reprise par Stubbs (1993). Selon Sinclair, les donnes du corpus SEU ont servi essentiellement fournir des comptages de frquence de formes grammaticales selon les genres. La plupart des exemples choisis sont invents et trs peu sont extraits du corpus, sans que soit discut le rapport entre thorie, description et donnes.

L a ng age s 171

25

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus


modles quantitatifs et pas seulement qualitatifs ; approche empiriste plutt que rationaliste. (ii) Ils forgent un rcit destin les lgitimer historiquement : Chomsky, par ses critiques des corpus dans les annes 1950-60, a interrompu les travaux dans le domaine pendant 30 ans. (iii) Ils mettent lordinateur au cur du dispositif ( the new master is the computer , Leech 1992 : 105), et se donnent pour prcurseur le corpus Brown, en convoquant en lieu et place dhypothses thoriques un ensemble organis de donnes et de mthodes. De fait, les rsultats invoqus obissent aux critres du Traitement Automatique des Langues. Selon Leech (1991), la Computer Corpus Linguistics est une mthodologie robuste, autonome, indpendante de toute thorie linguistique ; elle est devenue un lment cl du dveloppement du traitement automatique des langues. Dans le mme ordre dides, Sampson (2001) refuse de sparer linguistique computationnelle et linguistique en gnral. Ainsi, la linguistique computationnelle, et en particulier la Corpus Linguistics , appartient de plein droit la linguistique empirique et les jeunes linguistes devraient tous recevoir une formation en informatique et en statistiques. On a pu montrer (Lon 2005, 2007) que ces arguments taient peu fonds et quils visaient essentiellement riger un ensemble de mthodes en nouveau paradigme. En particulier, il est tout fait surprenant de voir que cette position prtend faire rupture avec un modle (Chomsky 1957-65) vieux de plus de trente ans et auquel se sont opposs pendant des dcennies un certain nombre de linguistes, notamment au sein de modles fonctionnalistes.

4.2. Le courant Sinclair et la continuit firthienne


Linterruption du projet Sinclair pendant une vingtaine dannes na pas provoqu de changement de programme. Comme il le rappelle lui-mme dans un interview (Sinclair et al. 2004 [1970]), Sinclair utilise le terme texte jusqu la fin des annes 1980, et le terme corpus seulement partir des annes 1990, sans dailleurs abandonner le terme texte puisquil utilise la collocation large text corpora Sinclair (1991 : 1). Lorsque, en plein essor de la Corpus Linguistics , Sinclair (1996) propose une typologie des corpus pour le projet EAGLES (voir la dfinition cite par Alex Geyken dans le prsent numro), il privilgie encore les corpus constitus de collections de textes intgraux, et tient toujours ltude de la variation pour secondaire. Cette option se traduit par le fait quil considre les corpus construits sur la base dchantillons, et ceux construits partir des langages restreints, comme des corpus spciaux, cest--dire comme des dviations par rapport au langage normal, noyau central de la description et que reprsentent les corpus de rfrence. La possibilit de tester ses hypothses sur de grandes masses de donnes ainsi que le statut thorique accord au texte a conduit Sinclair abandonner la confiance absolue quil accordait aux statistiques dans les annes 1960 pour

26

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

Lidiom principle et lexistence dans le langage dlments prfabriqus a donn lieu des discussions sur la notion chomskyenne de crativit linguistique . Il permet de rhabiliter le rle de la mmoire dans lapprentissage et la production du langage (Lon 2007). De plus, selon Kennedy (1998), on peut trs bien concevoir lutilisation dlments partiellement lexicaliss sans pour autant mettre en cause le caractre innovateur du langage 22.
21. over the years I have lost most of my original confidence in it [t-score] and in other statistical procedures. If something like the co-occurrence of two or more words is statistically significant, this tells me that there is but a small chance of it being accidental. But I dont expect it to be accidental anyway. One of the worrying aspects from the beginning, what really made me suspicious, was the frequent finding that the actual co-occurrence of words in texts is many times the prediction that is made on a statistical basis. Not just slightly over the estimate, but hundreds or thousands of times more frequent than the expected. Statistical prediction based on chance seems just irrelevant (Sinclair 2004 : xxi). 22. Cet argument est aussi avanc par Joseph (2003). Lide mme de crativit linguistique infinie oblige Chomsky rejeter tout modle collocationnel du langage alors que pour Sinclair et ses disciples, le phnomne des collocations nimplique pas absence de crativit. De plus, lexistence de segments pr-fabriqus contribue rfuter une sparation nette dans le cerveau entre lexique et rgles de grammaire. On trouve un argument comparable dans Gross (1982). Pour les formes figes, qui sont aussi nombreuses dans le lexique que les formes libres, le sens des mots nintervient pas ; elles sont donc apprises par cur et ce mode dapprentissage apparat comme important dans la matrise de la syntaxe dune langue. Pour ces formes, le rle de la syntaxe est dailleurs limit la prosodie, afin de dterminer une scansion des squences de phonmes. Le rythme impos aux phrases faciliterait alors leur mmorisation.

L a ng age s 171

27

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

voluer vers une position plus circonspecte, notamment dans lvaluation du caractre statistiquement significatif dune collocation 21. De plus, avec laccessibilit aux grands corpus de textes, certaines des ides esquisses par Firth ont pu tre mises en uvre au sein du programme de Sinclair. On se souvient ( 1.2) que cest au moment o il envisage les aspects mthodologiques dune tude systmatique des collocations que Firth abandonne lide dune unit linguistique suprieure au mot (pieces ou combinaisons de mots) pour revenir au mot. Dans les annes 1960, Sinclair part du mot, et ce nest qu partir des annes 1990, avec les rsultats que lui fournissent de grosses masses de donnes textuelles, quil est en mesure denvisager le syntagme et non plus le mot comme unit de sens. Cela lamne envisager les patterns de collocations comme des lments pr-fabriqus, des sortes de prt--parler, la disposition des locuteurs. Le meaning by collocation sen trouve rinterprt : la collocation dark night a un sens pour elle-mme ; ce nest plus une restriction du sens de night par dark ou de dark par night comme le suggre la citation de Firth (cf. citation 2 plus haut). Sinclair (1991) oppose deux principes dinterprtation du sens dans un texte : lopen choice principle, selon lequel le locuteur dispose dun grand choix de possibilits lexicales, uniquement restreintes par des contraintes grammaticales ; et lidiom principle, selon lequel le locuteur ne dispose souvent que dun choix limit de syntagmes en partie pr-fabriqus.

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Construction des faits en linguistique : la place des corpus

CONCLUSION
Pour conclure, reprenons les divergences entre les conceptions qui prsident la mise en place de ce quon peut considrer comme les deux premiers prcorpus informatiss, savoir lOSTI et le SEU, afin de faire quelques suggestions sur limpact quelles ont eu sur les dveloppements ultrieurs. On a vu que les positions de Quirk et de Sinclair ne se situent pas de la mme faon par rapport lhritage firthien. En mettant en uvre des outils pour tudier le sens par collocation au travers de corpus non clos de textes authentiques et intgraux, la filiation de Sinclair Firth est directe et entire. Toutefois, les phnomnes de variations associs aux restricted languages nintressent pas Sinclair. Ce seront dautres no-firthiens autour de Halliday et de sa sociosmiotique qui sempareront de la question en forgeant la notion de registre qui cheminera de faon relativement distincte vers la Corpus Linguistics . Quirk, au contraire, dlaisse le sens pour la grammaire, trs peu explore par Firth, et accorde une grande place la variation. Au travers notamment dune approche multiface de lusage impliquant des emprunts aux mthodes de la sociolinguistique et de la psycholinguistique, ltude de la variation suppose lexploitation dun corpus construit par le linguiste, chantillonn selon des genres a priori. Genres a priori, chantillons de mme taille quels que soient les genres, et donnes obtenues exprimentalement sont autant de points incompatibles avec lapproche que Sinclair qualifiera plus tard de naturalness 23. Toutefois, ltude du rapport entre grammaires des sous-langages, hrites en partie des microgrammaires des langages restreints de Firth, et grammaire du langage en gnral, deviendra un des thmes privilgis de la Corpus Linguistics du courant Leech (Sampson 2001, entre autres). Selon ce courant, la place centrale de la variation est conserve dans le dveloppement des corpus consacrs au recensement des varits danglais dans le monde, mais, en quittant le territoire britannique pour les tats-Unis et la Scandinavie, la continuit du projet thorique de Quirk semble de moins en moins visible. Il est significatif que ce soit le corpus Brown, cest--dire la version informatise de lorganisation quilibre du SEU, qui soit tenu pour pionnier, et non les hypothses de Quirk. partir du corpus Brown, les projets de corpus ont t dtachs de tout projet linguistique spcifique pour devenir des bases de donnes autonomes et gnrales. Adopts comme mthodologie part entire pour le traitement automatique des langues, ils ont donn la priorit lexigence technique de robustesse. Sinscrivant dans la continuit firthienne et la constance collocationnelle , le groupe de Sinclair na nul besoin de se lgitimer, mais a besoin nanmoins de se dmarquer des tenants du courant Leech. Quant ces derniers, sils veulent apparatre comme un groupe cohrent avec un projet scientifique spcifique, ils sont obligs de se forger une lgitimit en rigeant la Corpus Linguistics comme nouvelle science du langage.
23. The details of choice shown in any segment of a text depend some of them on choices made elsewhere in the text, and so no example is ever complete unless it is a whole text. the term naturalness is simply a cover term for the constraints that determine the precise relationship of any fragment of text with the surrounding text (Sinclair 1991 : 6) [cest nous qui soulignons].

28

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School

Annexe : Les linguistes de la London School (Palmer F. R. 1994, Bo et al. 2000, Brown & Law 2002) : John Rupert Firth (1890-1960) 1920-28 : orientaliste, professeur danglais lUniversit du Penjab en Inde. 1928-38 : University College of London (UCL), Dept of Phonetics dirig par Daniel Jones. 1938-56 : SOAS (School of Oriental and African Studies). 1944-56 : premire chaire de linguistique gnrale en Grande-Bretagne. A institutionnalis la linguistique en GB. Pendant la 2nde guerre mondiale, Firth a organis des cours intensifs de japonais pour larme britannique. Randolph Quirk (n en 1920) MA en Old English puis en phontique avec Daniel Jones lUCL, et en linguistique la SOAS avec Firth. PhD en syntaxe. 1951-52 : post-doc aux USA : Bernard Bloch Yale ; Freeman Twadell Brown ; Jakobson Harvard ; Charles Fries et Ken Pike Ann Arbor. 1947-58 : lecturer en anglais lUCL, puis reader, lecturer enfin professor lUniversit de Durham. 1960-68 : professeur lUCL. 1960 : The Survey of English Usage. M.A.K. Halliday (n en 1925) Engag dans larme 17 ans en 1942, apprend le chinois la SOAS puis entre dans lIntelligence Service. BA externe Cambridge, puis fait un PhD surpervis par Firth, Robins et Wang-Lie sur un modle danalyse grammatical dun texte chinois mdival. 1954-1958 : assistant Lecturer en chinois Cambridge. 1956-1958 : fait partie du CLRU (Cambridge Language Research Unit), groupe pionnier en traduction automatique. A dvelopp des modles smantiques de traduction automatique partir de thesaurus. 1958-1963 : professeur de linguistique gnrale Edinburgh. 1963-1971 : professeur de linguistique gnrale lUniversity College, Londres. 1971-1976 : plusieurs postes en GB et aux USA. 1976-1987 : professeur de linguistique gnrale Sydney (Australie). John McHardy Sinclair (1933-2007) A fait ses tudes dimbourg, anglais et littrature. Il a rencontr Firth brivement en 1958 mais na jamais t son lve.
Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

L a ng age s 171

29

Construction des faits en linguistique : la place des corpus


1963 : dbut du projet OSTI (UK Government Office for Scientific and Technical Information) sous la supervision de Halliday dimbourg, publi en 1970. 1965-2000 : professeur danglais moderne et de linguistique lUniversit de Birmingham. 1980 : dbut du COBUILD. 1re publication 1987. 2000-2007 : prsident of the Tuscan Word Centre Florence. Geoffrey Leech (n en 1936)
Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

A fait toutes ses tudes, y compris son PhD, lUCL. A suivi les cours de Firth, sans tre directement son lve, et de Daniel Jones, alors g de 80 ans. 1962-1969 : assistant lecturer lUCL. Rencontre R. Quirk. 1969-1996 : professeur lUniversit de Lancaster. Un des auteurs avec Quirk, Svartvik et Greenbaum de A grammar of Contemporary English (1972) fonde sur le SEU (Survey of English Usage). 1977 : fondation de lICAME (International Computer Archive of Modern English) comprenant Quirk, Svartvik, Johansson et Leech. Directeur du LOB (London-Oslo-Bergen) en collaboration avec Stig Johansson, lve de Svartvik et tabli Oslo. Au sein de la premire gnration, une place particulire doit tre accorde John Rupert Firth qui joua un rle de pionnier et de fondateur de la London School. Aprs une formation dhistorien lUniversit de Leeds, il sest intress la phontique aprs de longs sjours en Inde et en Afrique pendant la premire guerre mondiale et au dbut de sa carrire (il fut professeur danglais Lahore de 1920 1929). De 1929 1938, il enseigna la phontique lUCL sous la direction de Daniel Jones, puis la SOAS, avant dtre nomm la premire chaire britannique de linguistique gnrale cre lUCL en 1944. Sa familiarisation en Inde et en Afrique avec des langues non-europennes, dont certaines sans littrature, lont conduit sintresser lanthropologie et se d-europaniser comme il le signale dans une note manuscrite (Rebori 2002) ; cette d-europanisation pourrait contribuer expliquer sa prise de distance lgard des thories linguistiques europennes, voire occidentales en gnral (cf. 3). Pour la seconde gnration, ne dans les annes 1920, un des lments dterminants a t la seconde guerre mondiale telle que la mene une puissance coloniale comme la Grande-Bretagne. Mobiliss dans larme pendant leurs tudes, ces linguistes ont d mettre contribution leur connaissance des langues, en apprendre de nouvelles ou les approfondir, ce qui a dtermin en grande partie leur carrire ultrieure. Ainsi M.A.K. Halliday (n en 1925) a appris le chinois la SOAS pour tre mobilis dans lIntelligence Service, puis a fait sa thse sur une grammaire chinoise. Il faut ajouter que beaucoup de ces linguistes sont bilingues, tant ns dans des rgions de Grande-Bretagne o taient encore parls des langues celtiques ou des dialectes locaux. Cest le cas de Quirk (n en 1920) qui parle un dialecte du Yorkshire. Les tats-Unis nont

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

30

Aux sources de la Corpus Linguistics : Firth et la London School

pas jou un rle dterminant dans la formation des linguistes de cette seconde gnration ; cest pourquoi le parcours de Quirk est assez singulier : aprs des tudes dancien anglais et de phontique lUCL, il fait une thse en syntaxe, et complte sa formation aux tats-Unis par un sjour post-doctoral. Les linguistes de la troisime gnration, ns dans les annes 1930, nont rencontr Jones et Firth quoccasionnellement sans tre vritablement leurs lves. Geoffrey Leech (n en 1936) est un lve de Quirk ; John McHardy Sinclair (1933-2007) a commenc ses travaux de recherche lUniversit dEdinburgh avec M.A.K. Halliday.
Rfrences
AARTS J., MEIJS W. 1984. Corpus Linguistics : Recent Developments in the Use of Computer Corpora in English Language Research . Amsterdam : Rodopi. ALTENBERG B. 1991. A Bibliography of Publications Relating to English Computer Corpora . Johansson S., Stenstrom A.-B. (ds ), English Computer Corpora : Selected Papers and Research Guide. Berlin : Mouton, 355-96. BIBER D. 1988. Variation across Speech and Writing . Cambridge : CUP. BO L.-J., DURAND J., LON J. 2000. J.-R. Firth . Colombat B. (d.), Histoire pistmologie Langage Corpus reprsentatif des grammaires et traditions linguistiques , Hors Srie 3 (2), 481-482. BROWN K., LAW V. (ds). 2002. Linguistics in Britain : Personal Histories . Oxford : The Philological Society. CHOMSKY N. 1964. The Logical Basis of Linguistic Theory . Lunt H. (d.), Proceedings of the 9th International Congress of Linguists 1962 . La Haye : Mouton, 914-978. DURAND J., ROBINSON D. (ds). 1974. La linguistique en Grande-Bretagne dans les annes 60 , Langages, 34. FIRTH J.-R. 1957. Papers in Linguistics (1934-1951). Oxford : Oxford University Press. FIRTH J.-R. 1957 [1950]. Personality and Language in Society , 177-189. FIRTH J.-R. 1957 [1951]. Modes of Meaning , 190-215. FIRTH J.-R. 1968 [1956]. Descriptive Linguistics and the Study of English . Palmer (d.), 96-113. FIRTH J.-R. 1968 [1957a]. Structural Linguistics . Palmer (d.), 35-52 FIRTH J.-R. 1968 [1957b]. A Synopsis of Linguistic Theory 1930-55 . Palmer (d.), 168205. FRANCIS G. 1993. A Corpus-Driven Approach to Grammar Principles, Methods and Examples . Baker M., Francis G., Tognini-Bonelli E. (ds), Text and Technology. In Honour of John Sinclair. Amsterdam : John Benjamins, 137-156. GARSIDE R., LEECH G., SAMPSON G. 1987. The Computational Analysis of English : a CorpusBased Approach. Londres-New York : Longman. GREVISSE M., GOOSSE A. 1986. Le bon usage. Grammaire franaise . Paris-Gembloux : Duculot, (12e d.). GROSS M. 1982. Une classification des phrases figes du franais . Revue qubcoise de linguistique, 11 (2), 151-185. GOUGENHEIM G., MICHEA R., RIVENC P., SAUVAGEOT A. 1954. Llaboration du franais lmentaire. Paris : Didier. HALLIDAY M.A.K. 1959. The Language of the Chinese Secret History of the Mongols . Oxford : The Philological Society. HALLIDAY M.A.K. 1961. Categories of the Theory of Grammar . Word, 17 (3), 241-92. HALLIDAY M.A.K. 1966. Lexis as a Linguistic Level . Bazell C.E., Catford J.C., Halliday M.A.K. Robins R.H. (ds), In Memory of J.-R. Firth. Londres : Longman, 148-162.
Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

L a ng age s 171

31

Construction des faits en linguistique : la place des corpus


HALLIDAY M.A.K., MCINTOSH A., STREVENS P. 1964. The Linguistic Sciences and Language Teaching. Londres : Longmans, Green and co. HOWATT A.P.R. 1984 [2004]. History of English Language Teaching . Oxford : Oxford University Press. JOSEPH J.E. 2003. Rethinking Linguistic Creativity . Davis H., Taylor T. (ds), Rethinking Linguistics. Londres-New York : Routledge Curzon, 121-150. KENNEDY G. 1998. An Introduction to Corpus Linguistics . Londres-New York : Longman. KUCERA H., Francis N. 1967. Computational Analysis of Present Day American English . Providence : Brown University Press. LEECH G. 1991. The State of the Art in Corpus Linguistics . Aijmer K., Altenberg B. (ds.), English Corpus Linguistics : Studies in Honour of Jan Svartvik . Londres-New York : Longman, 8-29. LEECH G. 1992. Corpora and Theories of Linguistic Performance . Svartvik J. (d.), Directions in Corpus Linguistics. Proceedings of Nobel Symposium, 4-8 August 1991 . Berlin-New York : Mouton de Gruyter, 105-122. LON J. 2000. Traduction automatique et formalisation du langage. les tentatives du Cambridge Language Research Unit (1955-1960) . Desmet P., Jooken L., Schmitter P., Swiggers P. (ds), The History of Linguistics and Grammatical Praxis. Louvain-Paris : Peeters, 369-394. LON J. 2005. Claimed and Unclaimed Sources of Corpus Linguistics . The Henry Sweet Society Bulletin of History of Linguistics, 44, 34-48. Reprint en 2007, Krishnamurthy R., Teubert W. (ds), Corpus Linguistics : Critical Concepts in Linguistics . Londres-New York : Routledge, 1, 326-341. LON J. 2007. Empiricism versus Rationalism Revisited. Current Corpus Linguistics and Chomskys arguments against Corpus, Statistics and Probabilities in the 1950-1960s . Matteos S., Schmitter P. (ds), Linguistische und epistemologische Konzepte diachron . Mnster : Nodus Publikationen, 157-176. LON J. ( paratre). Meaning by Collocation. The Firthian Filiation of Corpus Linguistics . Kibbee D. (d.) Proceedings of ICHoLS X, 10th International Conference on the History of Language Sciences. Amsterdam : John Benjamins. MCINTOSH A., HALLIDAY M.A.K. 1966. Patterns of Language. Londres-Harlow : Longmans, Green and co. MITCHELL T.F. 1975. Principles of Firthian Linguistics. Londres : Longman. PALMER F.R. (d.). 1968. Selected Papers of J.-R. Firth 1952-59. Londres-Harlow : Longmans, Green and co. PALMER F.R. 1994. Firth and the London School . Asher N. (d.), The Encyclopedia of Language and Linguistics. Oxford : Pergamon Press, 1257-1260. PALMER H.E. 1938. A Grammar of English Words. Londres : Longmans Green and co. QUIRK R. 1958a. From Descriptive to Prescriptive : an Example . English Language Teaching, 12, 109-113. QUIRK R. 1958b. Substitutions and Syntactical Research . Archivum Linguisticum, 10, 161-166. QUIRK R. 1960. Towards a Description of English Usage . Transactions of the Philological Society, 40-61. QUIRK R. 1962. The Use of English. Londres : Longman. QUIRK R., MULHOLLAND J. 1968 [1964]. Complex Prepositions and Related Sequences . Quirk R. (d.), Essays on the English Language : Medieval and Modern. Londres : Longman, 148-160. QUIRK R., GREENBAUM S., LEECH G., SVARTVIK J. 1972. A Grammar of Contemporary English. Londres : Longman. QUIRK R. 1984. Recent Work on Adverbial Realisation and Position . Aarts J., Meijs W. (ds), Corpus Linguistics : Recent Developments in the Use of Computer Corpora in English Language Research. Amsterdam : Rodopi, 185-192.

32

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Aux sources de la Corpus Linguistics : Firth et la London School


REBORI V. 2002. The Legacy of J.-R. Firth. A Report on Recent Research . Historiographia Linguistica, 29 (1-2), 165-190. SAMPSON G. 2001. Empirical Linguistics. Londres-New York : Continuum. SINCLAIR J. 1965. When is a Poem like a Sunset ? . A Review of English Literature, 6 (2), 76-91. SINCLAIR J. 1966. Beginning the Study of Lexis . Bazell C.E., Catford J.C., Halliday M.A.K. Robins R.H. (ds), In memory of J.-R. Firth. Londres : Longman, 410-30. SINCLAIR J. 1991. Corpus, Concordance, Collocation. Oxford : Oxford University Press. SINCLAIR J. 1996. http ://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html. SINCLAIR J., JONES S., DALEY R. 2004. The OSTI Report (1970). Krishnamurthy R. (d). Londres-New York : Continuum. STUBBS M. 1993. British Traditions in Text Analysis From Firth to Sinclair . Baker M., Francis G., Tognini-Bonelli E. (ds), Text and Technology. In Honour of John Sinclair. Amsterdam : John Benjamins, 1-36. SVARTVIK J. 2005. A Life in Linguistics . The European English Messenger, 14 (1), 34-44. SWEET H. 1884. Practical Study of Language . Transactions of the Philological Society , 577-599. TOGNINI-BONELLI E. 2001. Corpus Linguistics at Work. Amsterdam : John Benjamins.

L a ng age s 171

33

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin

Document téléchargé depuis www.cairn.info - - - 79.116.242.244 - 26/02/2014 17h47. © Armand Colin