Académique Documents
Professionnel Documents
Culture Documents
58 | 2018
L’enseignement et l’apprentissage de l’écrit
académique à l’aide de corpus numériques
The Teaching and Learning of Academic Writing with the Aid of Numeric
Corpora
Édition électronique
URL : http://journals.openedition.org/lidil/5001
DOI : 10.4000/lidil.5001
ISSN : 1960-6052
Éditeur
UGA Éditions/Université Grenoble Alpes
Édition imprimée
ISBN : 978-2-37747-064-8
ISSN : 1146-6480
Référence électronique
Cristelle Cavalla et Laura Hartwell (dir.), Lidil, 58 | 2018, « L’enseignement et l’apprentissage de l’écrit
académique à l’aide de corpus numériques » [En ligne], mis en ligne le 02 novembre 2018, consulté le
24 septembre 2020. URL : http://journals.openedition.org/lidil/5001 ; DOI : https://doi.org/10.4000/
lidil.5001
© Lidil
1
L’exploitation des corpus à des fins didactiques demeurent un vaste terrain d’étude. Ce
numéro offre une collection de 6 articles d’étude de cas en milieu universitaire
s’appuyant sur de solides bases théoriques. La richesse linguistique étudiée (français,
anglais, allemand) apporte une ouverture exceptionnelle dans le cadre de la didactique
des langues étrangères. Ce recueil d’articles, qui s’inscrit dans les traditions croisées de
la linguistique, des langues de spécialité, de l’informatique et des sciences de
l’éducation, offre l’occasion de présenter des applications pertinentes de la linguistique
de corpus par des spécialistes et leur réception par les utilisateurs.
REMERCIEMENTS
Ont été sollicités pour évaluer les articles de ce numéro thématique :
Dominique Bétrix Köhler, Alex Boulton, Claire Chaplier, Jeanne-Marie Debaisieux,
Nadia Yassine-Diab, Mamadou Dramé, Françoise Dufour, Sylviane Granger, Francis
Grossmann, Alice Henderson, Jean-Marc Mangiante, Luis Meneses, Alain Polguère,
Fanny Rinck, Jean-Pascal Simon, Élodie Vargas.
Lidil, 58 | 2018
2
SOMMAIRE
Présentation
Cristelle Cavalla et Laura Hartwell
L’exploitation des corpus numériques dans les formations d’anglais scientifique en ligne :
une étude de cas
Natalie Kübler et Clive E. Hamilton
The BAWE Quicklinks Project: A New DDL Resource for University Students
Benet Vincent et Hilary Nesi
Routines verbales pour les français langue étrangère : des corpus d’experts aux corpus
d’apprenants
Rui Yan, Agnès Tutin et Thi Thu Hoai Tran
Corpus-Based Teaching of German Compound Nouns and Lexical Bundles for Improving
Academic Writing Skills
Marina Kogan, Anna Yaroshevich et Olga Ni
Questionner des corpus pour questionner la langue. L’exemple des virgules en allemand
Eva Schaeffer-Lacroix
Varia
Notes de lecture
Lidil, 58 | 2018
3
Lidil, 58 | 2018
4
Présentation
Presentation
Lidil, 58 | 2018
5
Lidil, 58 | 2018
6
Lidil, 58 | 2018
7
14 Without repeating the benefits of large digital corpora for linguistic description (cf.
Lidil no. 31, Corpus oraux et diversité des approches, coordinated by Marie Savelli), this
publication is an opportunity to discover new ways to support scholarly writing
through the use of digital corpora. In didactic terms, the articles gathered here deal
with the direct or indirect use of digital corpora by both teachers and learners in a
university context. In recent years, the development of greater storage and especially
computer tools allowing online query options accessible by non-specialists has enabled
the development of digital corpora for educational purposes. Indeed, the articles in this
issue explore the use of these digital resources for the teaching and learning of
academic language and, in some cases, scientific phraseology.
15 Following Boulton and Tyne’s book (2014) on the use of corpora in language classes,
these contributions provide answers about the actual use of digital corpora by
university teaching teams: How do they use them and why? We will see that linguistic
and didactic approaches echo from one language to another and that language
didactics federate these different studies.
16 Concerning academic English, Clive Hamilton and Natalie Kübler, who teach at the
Diderot University in Paris, are developing courses, based on corpora of scientific
English, for French-speaking students who specialize in different disciplines. The case
of students directly using online corpora remains uncommon in French universities
and this case study helps to better understand the issues.
17 Benet Vincent and Hilary Nesi, from Coventry University, teach academic English to
international students using a BAWE-based interface to introduce hypertext links
designed to guide and assist learners in their academic writing. The question of the
insertion of such tools in language classes is raised, making it possible to highlight the
specificities of the tool and the teacher’s feedback, as well as the complementarity
qualities of these approaches.
18 Concerning academic French, Rui Yan, Agnès Tutin, and Thi Thu Hoai Tran, from
Grenoble Alpes and Artois Universities, are involved in the teaching of French as a
foreign language and more particularly in identifying the verbal routines of French
academic writing. Their study of a learner corpus reveals the students’ most common
errors related to verbal routines. A corpus of academic French texts by experts made it
possible to compare and highlight the relevant routines to be taught. Their article
concludes with examples of reflective exercises for learners based on extracts from the
expert corpus, which clearly show how these routines structure academic French.
19 Thi Thu Hoai Tran, from the Université d’Artois, and Achille Falaise, from the
Université Paris Diderot, are interested in French as a Foreign Language. While one
(A. Falaise) is developing a dictionary-like, corpus-based computer tool with the
objective of helping university students with their writing, the other (T. T. H. Tran) is
introducing the tool to international students learning French. These experiments have
allowed an in-depth didactic reflection on improving the tool. This is an example of a
successful collaboration between an educator-linguist and a natural language
processor.
20 Marina Kogan, Anna Yaroshevich, and Olga Ni, from the Peter the Great University of
St Petersburg, teach German to future Russian engineers. By focusing on the most
frequent lexical sequences and by attempting an approach by direct learner
Lidil, 58 | 2018
8
consultation of the corpus, the authors develop activities based on a digital corpus to
support teaching and learning in accordance with the learners’ specialties.
21 This thematic issue concludes with the contribution of Eva Schaeffer-Lacroix, who
teaches German at the ÉSPÉ11 de Paris to future German teachers. Here, she presents
students’ reactions to introductory consultations of a digital corpus, tracing their
reflection on the practice and understanding of the use of the comma in German. She
then invites readers to think about the contributions of inductive and deductive
approaches in such a context.
22 We thank the authors and evaluators for their gracious contributions to this issue. We
hope that the research on digital corpora for teaching foreign languages in university
settings will be a promising entry point for the general use of digital corpora within
language teaching.
BIBLIOGRAPHIE
BOULTON, Alex & TYNE, Henry. (2014). Des documents authentiques aux corpus : Démarches pour
l’apprentissage des langues. Paris : Didier.
CHAMBERS, Angela. (2010). L’apprentissage de l’écriture en langue seconde à l’aide d’un corpus
spécialisé. Revue française de linguistique appliquée, 15(2), 9-20.
COXHEAD, Averil. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213-238.
DABÈNE, Michel & REUTER, Yves (dir.). (1998). Pratiques, de l’écrit et modes d’accès au savoir dans
l’enseignement supérieur, Lidil, 17.
FLØTTUM, Kjersti, DAHL, Trine & KINN, Torodd. (2006). Academic Voices. Amsterdam : John
Benjamins Publishing Company.
HUNSTON, Susan & FRANCIS, Gill. (2000). Pattern Grammar: A Corpus-Driven Approach to the Lexical
Grammar of English. Amsterdam : John Benjamins Publishing Company.
HYLAND, Kenneth & BONDI, Marina (dir.). (2006). Academic Discourse across Disciplines. Berne : Peter
Lang.
SINCLAIR, John. (1991). Corpus, Concordance, Collocation: Describing English Language. Oxford : Oxford
University Press.
QUIRK, Randolph, GREENBAUM, Sidney, LEECH, Geoffrey & SVARTVIK, Jan. (1985). A Comprehensive
Grammar of the English Language. Londres : Longman Publishing Company.
SAVELLI, Marie (dir.). (2005). Corpus oraux et diversité des approches, Lidil, 31. Disponible en ligne sur
<https://journals.openedition.org/lidil/125>.
Lidil, 58 | 2018
9
SWALES, John M. (1990/2004). Genre Analysis: English in Academic and Research Settings. Cambridge :
Cambridge University Press.
TUTIN, Agnès & GROSSMANN, Francis (dir.). (2014). L’écrit scientifique : du lexique au discours. Rennes :
Presses universitaires de Rennes.
NOTES
1. BAWE : <http://ota.ahds.ac.uk/…>, voir aussi : <www.coventry.ac.uk/bawe>.
2. Michigan Corpora : <https://lsa.umich.edu/eli/…/micase-micusp.html>.
3. Scientext : <http://scientext.msh-alpes.fr/scientext-site/spip.php?article1>.
4. ScienQuest : <http://corpora.aiakide.net/scientext18/>.
5. TAL : Traitement automatique des langues.
6. École supérieure du professorat et de l’éducation.
7. BAWE: <http://ota.ahds.ac.uk/…>, see also: <www.coventry.ac.uk/bawe>.
8. Michigan Corpora: <https://lsa.umich.edu/eli/…/micase-micusp.html>.
9. Scientext: <http://scientext.msh-alpes.fr/scientext-site/spip.php?article1>.
10. ScienQuest: <http://corpora.aiakide.net/scientext18/>.
11. École supérieure du professorat et de l’éducation.
AUTEURS
CRISTELLE CAVALLA
DILTEC, Université Sorbonne Nouvelle – Paris 3
LAURA HARTWELL
LIDILEM, Université Grenoble Alpes
Lidil, 58 | 2018
10
1. Introduction
1 Depuis une dizaine d’années, la nécessité absolue d’enseigner l’anglais de spécialité
comme atout professionnalisant dans les universités françaises fait consensus (Van der
Yeught, 2014). Cependant, et c’est encore Van der Yeught qui le souligne,
l’homogénéité de ce que l’on appelle le secteur LANSAD (Langues pour spécialistes
d’autres disciplines) n’est qu’apparente. Les programmes et les approches mises en
œuvre dans le secteur sont en effet assez hétérogènes, ce qui est dû en partie à la
difficulté de fédérer un secteur mal reconnu par rapport aux secteurs disciplinaires en
LLCE et LEA, et en partie au fait que le LANSAD s’organise de manière très différente
selon les établissements (Braud, Millot, Sarré & Wozniak, 2015 ; Brudermann, Mattioli,
Roussel & Sarre, 2016) : LANSAD centralisé dans un service langues ou un centre de
ressources en langues, LANSAD comme département d’une UFR de langues ou d’une
UFR LEA, LANSAD réparti par UFR disciplinaires, sans coordination entre enseignants
LANSAD de celles-ci. En outre, le LANSAD est l’un des secteurs qui emploient le plus
grand nombre de personnels non titulaires ayant des statuts très variés (lecteur, maître
de langue, contractuel enseignant, vacataire, tuteurs étudiants, ATER), ce qui rend la
spécialisation et la pérennité des programmes très complexes. Enfin, il s’agit d’un
secteur qui recrute essentiellement des PRAG/PRCE et beaucoup moins d’enseignants-
chercheurs (7 % dont 1 % de PU selon Brudermann, Mattioli, Roussel et Sarre (2015)).
Par conséquent, les pouvoirs décisionnaires en ont une représentation biaisée. En effet,
pour la grande majorité des instances universitaires, le LANSAD ne s’inscrit pas dans la
Lidil, 58 | 2018
11
recherche, car il s’agit uniquement pour celles-ci d’enseigner les langues aux
spécialistes d’autres disciplines, une activité souvent considérée comme ancillaire, ce
qui, comme le soulignent à juste titre Brudermann, Mattioli, Roussel et Sarre (2015,
parag. 24), entre en contradiction avec les mission d’enseignement de l’université qui
doit adosser son enseignement à la recherche. En outre, dans un domaine dans lequel
les besoins sont aussi immenses, tirer parti des résultats d’une recherche dynamique
permettrait sans doute d’améliorer l’offre de formation.
2 Or, et malgré les aprioris constatés dans le monde universitaire, le LANSAD a développé
depuis la fin du siècle dernier une recherche dynamique et foisonnante tant dans le
domaine de la didactique des langues que dans celui de l’anglais de spécialité
proprement dit, ainsi que dans d’autres langues de spécialité (comme en témoignent les
associations du GERES pour l’espagnol et du GERALS pour l’allemand), ainsi que toute la
recherche développée depuis longtemps en didactique du FLE et, plus récemment,
en FOU (français sur objectifs universitaires) et FOS (français sur objectifs spécifiques).
Dans le monde anglophone, la recherche en ESP (English for Specific Purposes) et EAP
(English for Academic Purposes) s’est développée depuis plus d’une trentaine d’années,
notamment grâce à l’apport de la linguistique de corpus et des possibilités que celle-ci
offre à la fois pour l’analyse et la description proprement dites des différents genres
textuels (Swales, 1990), mais aussi pour l’apprentissage sur corpus (qui est l’équivalent
français proposé par Boulton et Tyne (2014) du terme data-driven learning de
Johns (1991)). Un nombre croissant d’études ont permis de mettre en exergue les
spécificités de l’anglais universitaire, sous des angles multiples : voir, entre autres,
Hardy et Römer (2013) ; Hyland (2000) ; Poudat et Follette (2012) ; Bordet (2015) pour les
variations disciplinaires ; Clyne (1987) ; Fløttum, Dahl et Kinn (2006) ; Hartwell et
Jacques (2014) pour les variations entre langues ; Biber, Conrad, Reppen, Byrd et
Helt (2002) ; Carter-Thomas et Rowley-Jolivet (2001) ; Hamilton et Carter-Thomas (2017)
pour les variations entre langue orale et écrite en anglais scientifique. Ces traits
caractéristiques symbolisent, en quelque sorte, le noyau dur ou l’ultime compétence à
acquérir, par celui qui souhaite intégrer une nouvelle communauté de discours (Swales,
1990, 2016).
3 Cependant, ces traits spécifiques ne sont pas toujours pris en compte dans
l’enseignement des langues de spécialité, comme le soulignent Chaplier et
O’Connell (2015). En outre, les besoins en LANSAD devraient se décliner en fonction
d’une analyse tenant compte des domaines et des situations de communication comme
le plaident Nesi (2015) et Van der Yeught (2014). Celui-ci souligne par exemple les
différences culturelles et institutionnelles dans le domaine du droit ou celui de la
comptabilité entre la France et les pays anglophones. Une maitrise fine de la langue du
droit en anglais exige que l’apprenant acquière des compétences juridiques dans la
common law, qui diffère fortement du droit français par exemple. On peut penser que
dans les disciplines scientifiques, ce type de problème ne se pose pas, mais d’autres
difficultés se présentent à l’apprenant francophone. Enfin, les besoins
communicationnels peuvent être variés, par exemple, rédiger un article scientifique en
anglais, négocier un contrat, prendre la parole dans une réunion, rédiger un rapport
d’activité d’une grande entreprise, passer un entretien d’embauche au téléphone.
Toutes ces situations de communications sont liées à des communautés de discours qui
se reconnaissent dans des genres textuels spécifiques que nos étudiants doivent
apprendre à maîtriser, afin d’être légitimés dans les communautés de discours. Or,
Lidil, 58 | 2018
12
Swales (2016) revient sur cette notion pour l’élargir bien au-delà de la simple
communauté de spécialistes d’un domaine.
4 Bien que de nombreuses études récentes aient abordé le problème du contenu à
enseigner en LANSAD, Brudermann, Mattioli, Roussel et Sarre (2016), Faure (2013),
Wozniak et Millot (2015), Chaplier et O’Connell (2015) et Van der Yeught (2014)
indiquent que le problème principal résiderait dans le manque de formation des
intervenants qui doivent préparer ces contenus faisant appel à une grande variété de
situations de communications, et donc de genres dans des domaines spécialisés, sans
pour autant qu’ils aient des connaissances antérieures propres à ces genres, ou même, à
la notion de langue de spécialité. À ce propos, l’identification des obstacles à
surmonter, de ce fait, n’est plus à refaire. Nonobstant, force est de constater que la mise
en place de changements pédagogiques nécessaires s’installe très lentement en raison
du fait qu’elle appelle davantage de moyens humains et techniques (Delabroye, Kübler,
Leyboldt & Perret, 2011), d’une part, et parce que le soutien des politiques linguistiques
institutionnelles locales n’est pas toujours présent, d’autre part.
5 Des enjeux numériques s’ajoutent désormais à toute réflexion didactique, dans un
contexte d’accélération du processus d’internationalisation des formations.
L’avènement et l’accessibilité accrue des grands corpus numériques en anglais ont créé
un terrain propice aux expérimentations pédagogiques. Ainsi avons-nous vu ces
dernières années une augmentation des appels à favoriser le data driven learning ou
apprentissage basé sur corpus (voir Johns, 1991 ; Kübler & Foucou, 2000 ; Boulton &
Tyne, 2014). Ces expérimentations ont donné lieu à de nombreux matériaux didactisés
qui semblent désormais de plus en plus répandus. À titre indicatif, nous trouvons à
l’interface du lexique et de la phraséologie, l’Academic Word List élaborée par
Coxhead (2000), l’Academic Keyword List (Paquot, 2010), l’ Academic Phrasebank de
l’université de Manchester et le projet ARTES (voir Kübler & Pecman, 2012), pour n’en
lister que quelques-uns.
6 Toutefois, nous voyons apparaitre, de manière progressive, un discret appel à favoriser
des corpus disciplinaires spécialisés. En effet, Hyland et Tse (2007) soulignent
l’importance de l’élaboration d’un répertoire lexical disciplinaire en lieu et place d’un
répertoire lexical transdisciplinaire, notamment pour ceux qui poursuivent un cursus
d’anglais scientifique. Nesi (2015) souligne également le mérite de ces corpus
spécialisés. Elle affirme ne plus avoir recours uniquement aux grands corpus pour la
création de matériel pédagogique en anglais de spécialité, mais aussi à des corpus
spécialisés, ce qui n’est pas une tendance sui generis. D’autres, comme Charles (2012,
2014), mettent en avant la nécessité d’amener les apprenants à collecter leurs propres
corpus spécialisés, de manière à coïncider au plus près avec la réalité du terrain
disciplinaire auquel ceux-ci seront confrontés.
7 Notre article s’intéresse donc à deux aspects : l’exploitation concrète de corpus
spécialisés en cours d’anglais scientifique, d’une part, et le regard porté par les
principaux intéressés, c’est-à-dire les étudiants, face aux recours grandissant de ces
ressources numériques, d’autre part. Nous tenterons donc, à la fin de cette
contribution, d’apporter un début de réponse à trois questions qui nous paraissent
essentielles :
1. La langue de spécialité devrait-elle être introduite tôt dans la formation d’anglais des
étudiants spécialistes d’autres disciplines ?
2. L’exploitation des corpus spécialisés devrait-elle être intégrée dans ces formations ?
Lidil, 58 | 2018
13
3. À partir d’un cas précis, comment les enseignants et les étudiants peuvent-ils travailler
concrètement avec ces corpus spécialisés ?
8 Sont détaillés, dans la section suivante, les deux dispositifs d’enseignements, mis en
place pour étudier ces deux aspects principaux. Puis, nous abordons l’appropriation de
ces nouvelles ressources à la lumière des retours anonymes des étudiants.
2.2. L’expérimentation
10 Plusieurs paramètres sont identiques dans les deux groupes d’essai (mastérants et
doctorants). Tout d’abord, les tâches d’évaluation sont au nombre de trois : une
évaluation orale et deux évaluations écrites. Ces dernières se présentent sous la forme
d’un abstract ou résumé scientifique que les participants doivent rédiger et soumettre
dès la première séance. Cette rédaction est ensuite resoumise à la fin de la formation
avec des modifications et corrections apportées par le participant, sans que ce dernier
ait bénéficié d’un retour individuel de l’intervenant. Ces écrits permettent, après une
analyse comparée détaillée des deux tâches, de rendre compte de la progression (ou de
l’absence de progression) de chaque participant. L’évaluation orale intervient lors de la
dernière séance et se présente sous la forme d’un exposé. Nous demandons également à
l’ensemble des participants de créer leur propre corpus spécialisé, composé de 5 à
10 articles minimum, selon la thématique de recherche de chacun. Enfin, les
participants bénéficient tous d’une démonstration du logiciel AntConc (Anthony, 2014).
Lidil, 58 | 2018
14
11 Dans la lignée de Renouf (1997, p. 256) qui fait la distinction entre exploiting to teach et
teaching to exploit, ou de Beeby, Ines et Sanchez-Gijon (2009) qui, au sujet de l’utilisation
des corpus dans la formation des traducteurs distinguent entre learning to use corpora to
translate et learning to translate using corpora, deux approches ont été expérimentées : la
première exploite donc les corpus pour créer du matériau pédagogique, la second
apprend aux étudiants comment utiliser les corpus pour produire en L2. Les deux
sections suivantes décrivent ces approches, ainsi que les paramètres qui diffèrent selon
les groupes.
Lidil, 58 | 2018
15
calculé sur la base de 10 000 mots. Ainsi, la fréquence observée de cet adverbe est de
15 occurrences tous les 10 000 mots chez les étudiants francophones (corpus D9_FLC),
alors que cette fréquence s’élève à 1 sur 10 000 chez les étudiants anglophones (corpus
LOCNESS) et presque 5 sur 10 000 chez les chercheurs expérimentés en anglais L1
(corpus EIIDA). Ces illustrations en cours de langue ont pour objectif d’évaluer le niveau
d’appropriation de ces traits discursifs distinctifs chez les étudiants, à travers une
sensibilisation d’usage réel par opposition à un enseignement basé exclusivement sur la
grammaire des adverbes, par exemple.
16 Un autre aspect lexical mis en lumière dans ce cours réside dans la prééminence
observée de certains verbes dans le domaine de spécialité des étudiants. Ces
observations proviennent du corpus établi à partir des manuels en biochimie et chimio-
informatique. La liste extraite de ces manuels et fournie aux étudiants comporte les
185 verbes les plus fréquemment utilisés dans ces écrits disciplinaires. Nous estimons,
par conséquent, que les étudiants doivent connaitre ces verbes et savoir les manier de
manière appropriée, en respectant les schémas lexico-grammaticaux propres au
domaine et à l’anglais scientifique. La figure 2 offre un aperçu des 30 premiers verbes
issus du corpus, par ordre de fréquence. Dans ce dispositif, les étudiants bénéficient
également d’informations relatives à la fréquence absolue de chaque verbe dans le
corpus. De plus, cette liste contient des verbes appartenant à la fois à ce que l’on
nomme le lexique scientifique transdisciplinaire ou la langue scientifique générale (voir
Drouin, 2007 ; Tutin, 2007 ; Pecman, 2007) d’une part, et ce qui relèverait du lexique
disciplinaire spécialisé (voir Coxhead & Hirsch, 2007 ; Ha & Hyland, 2017 ; Nation,
Cohead, Chung & Quero, 2016) d’autre part. Par exemple, parmi les 185 verbes attestés,
seuls 99 apparaissent dans d’autres listes préalablement établies, comme par exemple l’
Academic Keyword List. En effet, certains verbes, n’apparaissant sur aucune liste parmi
celles que nous avons pu consulter, s’avèrent très fréquents dans le corpus
disciplinaire : tels les verbes spécialisés to dock, to anneal dans lesquels le premier
renvoie à une procédure de modélisation moléculaire, tandis que le deuxième insiste
sur le caractère combinatoire de l’ADN. Le corpus spécialisé facilite ainsi le repérage de
ces phénomènes terminologiques dont la connaissance est indispensable tant à
l’enseignant d’anglais de spécialité, qui n’est pas forcément initié au domaine, qu’à
l’étudiant apprenant l’anglais de sa discipline et qui est encore un apprenti dans
celle‑ci.
Lidil, 58 | 2018
16
Lidil, 58 | 2018
17
Lidil, 58 | 2018
18
22 L’ensemble des éléments mis en avant dans le dispositif du groupe A est actualisé dans
ce deuxième dispositif, à travers l’exploration des corpus. L’ancrage devient cependant
davantage contextuel. Les aspects syntaxiques sont envisagés dans une perspective
comparative entre les différentes sections de l’article scientifique. À titre d’illustration,
nous demandons aux étudiants de comparer l’emploi de la voix passive et les temps
grammaticaux dans l’abstract, l’introduction, la méthodologie et ainsi de suite, de
manière à mettre en lumière les traits saillants propres à la rédaction scientifique. Ils
découvriront alors, par exemple, que les structures passives représentent plus d’un
tiers des groupes verbaux attestés dans une seule section de l’article entière — dans
certaines disciplines — alors que leur présence dans d’autres sections est rare.
23 Nous avons reproduit ci-dessous un exemple d’exercice permettant aux doctorants de
repérer les différences d’emploi des temps dans les parties 7 « introduction »,
« méthode » et « discussion » des articles.
[…] examine the use of the present and past tense in sections B (introduction), C (methods)
and D (results and discussion) of the research paper. Use _VBP and _VBZ for present tense
queries and _VBD for past tense queries. What do you notice? […]
24 De surcroît, ce cours accorde une place importante, entre autres, à la terminologie et à
la phraséologie simple et spécialisée. Les collocations y ont donc un rôle considérable.
La figure 4, obtenue avec le logiciel AntConc, indique des concordances que les
doctorants doivent obtenir eux-mêmes, lors d’un exercice spécifique, à partir du terme
paper. Cette démarche permet aux doctorants, non seulement de visualiser les termes
les plus usités dans les corpus spécialisés, mais également le contexte immédiat dans
lequel lesdits termes sont employés. Autrement dit, à travers l’exploration des corpus,
ils sont appelés à discerner et, par la suite, à s’approprier entre le « quand » et le
« comment » des éléments interrogés.
Lidil, 58 | 2018
19
25 La mise en place de ces deux protocoles expérimentaux a été ponctuée par trois
enquêtes courtes et anonymes dans le but de recueillir les ressentis du public visé par
ces dispositifs. Trois questionnaires ont donc été intégrés à la plateforme pédagogique
Moodle et soumis aux deux groupes en début, au milieu et à la fin de la formation. Le
premier questionnaire portait principalement sur l’historique langagier des étudiants,
leurs habitudes, leurs ressentis vis-à-vis des cours en ligne et leur utilisation générale
de la langue anglaise. Les deuxième et troisième questionnaires se définissent comme
des bilans de mi- et de fin de parcours respectivement, dans lesquels les étudiants se
prononcent sur le format et le contenu aussi bien que sur les exercices et les ressources
exploitées. Les participants se prononcent également sur le temps investi dans la
formation, ainsi que les éléments qui leur ont semblé pertinents et soumettent, à la fin,
leurs suggestions d’améliorations. Les résultats qui sont présentés dans la section
suivante découlent de l’analyse de ces enquêtes.
Lidil, 58 | 2018
20
Lidil, 58 | 2018
21
30 De plus, parmi les éléments évalués favorablement se trouve le fait que l’ensemble de la
formation soit dispensé entièrement en anglais. Signalons que ce paramètre est remis
en cause par 30 % des étudiants en master et 20 % d’inscrits en doctorat, notamment
pour ce qui relève des explications théoriques (autrement dit, les explications
proprement grammaticales ou linguistiques). Rappelons, à ce propos, que si la moitié
des étudiants dans le groupe A et 70 % dans le groupe B avaient affirmé avoir un bon
niveau en anglais, ce n’était pas le cas pour les 30 % restants, ce qui permet de mieux
appréhender ce résultat. Par ailleurs, il est légitime de se demander s’il existe une
corrélation entre les différences d’avis et les différents niveaux d’anglais des
participants, mais, bien que cette hypothèse soit plausible, la nature anonyme et
discontinue du premier et du deuxième questionnaire ne permet pas de la confirmer.
Nonobstant, ce bilan de mi-parcours est jugé très important dans la mesure où les
explications lexico-grammaticales doivent être suffisamment accessibles à l’ensemble
des participants, de manière à assurer une certaine progression. Ainsi, il conviendrait
de prendre en compte le niveau considérablement hétérogène, notamment au niveau
master, et de trouver un moyen de faciliter la compréhension des explications
théoriques, surtout si la formation continue à être dispensée entièrement en anglais.
31 Le deuxième questionnaire a permis de mettre en lumière une divergence de point de
vue au niveau du contenu abordé, à proprement parler, dans les deux dispositifs. À la
question « Pensez-vous qu’il manque des cours de grammaire ? » l’ensemble des
doctorants affirme ne pas regretter l’absence de cours de grammaire traditionnels (voir
fig. 6).
32 Cet avis n’est pas partagé par 40 % des étudiants en master, parmi lesquels 20 % sont
tout à fait d’accord sur le fait qu’il manque des cours de grammaire traditionnels.
Lidil, 58 | 2018
22
33 Le dernier questionnaire soumis aux participants à la fin de la formation avait pour but
de recueillir leurs avis globaux et leurs suggestions d’amélioration. Nous ferons
néanmoins, ici, l’économie des remarques portant sur l’ergonomie, la fluidité et la
gestion du contenu à proprement parler. En effet, à la différence de l’enquête
singulièrement appréciative de mi-semestre, cette dernière est doublement nuancée.
D’une part, la formation a été évaluée très positivement à l’intérieur d’un groupe, et
d’autre part, l’apprentissage sur corpus a eu pour effet de pousser l’ensemble des
participants à exploiter librement le potentiel des ressources mises à leur disposition
pour effectuer une seule des deux dernières tâches demandées. Le décalage entre ces
deux observations est examiné en détail ci-dessous.
34 En utilisant une échelle de Likert, les participants devaient se prononcer sur la question
que nous reproduisons ci-après.
Pour ce qui est du contenu, le cours :
(i) vous a plu (échelle) ; (ii) vous a semblé utile (échelle) ; (iii) vous a demandé un
investissement considérable (échelle) ; (iv) a suscité votre intérêt (échelle).
35 Les réponses des deux groupes sont illustrées en figure 7. Il ressort de la comparaison
que l’ensemble des participants du groupe B estime que le cours à la fois leur a plu et a
suscité leur intérêt. Dans le dispositif A, seulement 63 % s’estiment satisfaits, d’une
part, et 45 % ont y trouvé un intérêt, d’autre part. Cette tendance globale à la baisse
chez les mastérants doit, bien entendu, être analysée à la lumière des participants qui
ont choisi de ne pas prendre position. Signalons qu’un écart d’investissement est
également observé dans les deux groupes où 60 % des doctorants soutiennent avoir
consacré plus de 2 heures hebdomadaires et les 40 % restant au moins 1 h 30. D’un autre
côté, seulement 40 % des mastérants ont consacré plus de 2 heures hebdomadaires au
cours. 40 % affirment avoir passé moins d’1 h 30 et les 20 % restant moins d’1 heure
hebdomadaire. Il semblerait donc qu’une corrélation existe entre les 60 % qui ont
consacré le moins de temps au cours et le 55 % qui soutiennent que le cours n’a pas
suscité leur intérêt.
Lidil, 58 | 2018
23
Lidil, 58 | 2018
24
recherches individuelles (voir section 2.2). À ces ressources se sont ajoutés les divers
points abordés en cours. Cependant, les présentations orales n’ont pas bénéficié du
même engouement pour les ressources du corpus, ce qui peut se justifier par l’attention
principalement accordée aux phénomènes propres aux corpus écrits dans les deux
dispositifs.
39 Nous considérons que le recours au corpus observé, dans la réalisation de la dernière
tâche écrite, constitue un signe positif qui mérite d’être renforcé. En effet, malgré les
divergences d’appréciation sur différents points mis en avant dans les deux dispositifs,
la création et l’utilisation de petits corpus spécialisés semblent avoir conquis les deux
publics. De plus, l’analyse comparée des deux tâches écrites (c’est-à-dire, les
modifications et corrections effectuées par les participants entre la première et
deuxième tâche écrite) permet de rendre compte des avantages réels de l’approche sur
corpus.
4. Conclusion
40 Cet article a rendu compte de deux expérimentations menées dans des conditions
originales pour l’enseignement de l’anglais scientifique. Bien que de nombreuses
recherches soulignent les avantages de l’utilisation des corpus en anglais de spécialité,
rares sont celles qui évoquent un enseignement sur corpus, hybride ou complètement
en ligne. Ces expérimentations et leurs résultats nous amènent à émettre quelques
hypothèses afin de répondre aux questions posées précédemment :
1. La langue de spécialité devrait-elle être introduite de manière précoce dans la formation
LANSAD ?
2. L’exploitation de corpus devrait-elle être intégrée dans ces formations ?
41 Une prise de conscience précoce des différences entre langue générale et langue de
spécialité, ainsi que langue universitaire, nous parait indispensable, d’autant plus qu’il
s’agit de maitriser des caractéristiques linguistiques spécifiques, liées aux domaines de
spécialité et aux genres textuels, dans une langue seconde, ce qui ajoute aux difficultés.
La langue de spécialité nous parait donc pouvoir être abordée progressivement, dès la
première année d’université, en tenant compte du niveau hétérogène en anglais des
étudiants de première année. Parmi les réponses aux questionnaires, les étudiants de
master ressentent le besoin d’avoir plus de grammaire. Nous plaidons en faveur de
l’exploitation de corpus à la fois de langue générale et de langue spécialisée, mais aussi
de langue semi-spécialisée (comme les textes de vulgarisation, qui ont recours aussi à
des caractéristiques singulières) dans une approche active, de découverte de la
grammaire, mais aussi de la phraséologie de l’anglais dès la première année
d’université. L’objectif serait de faire progressivement prendre conscience aux
étudiants des différences linguistiques entre langue générale et langue de spécialité,
au-delà des questions de vocabulaire spécialisé. Par ailleurs, un deuxième objectif
consisterait à leur faire acquérir le réflexe corpus, en s’appuyant tout d’abord sur les
corpus disponibles en ligne, comme le Corpus of Contemporary American English, qui
permet des requêtes différenciées sur la langue générale et la langue universitaire dans
différents domaines. Par exemple, comme le montrent les deux expérimentations, un
travail d’observation sur le passif ou le système temporel de l’anglais est nécessaire, ce
qui fait partie de ce que les étudiants nomment « grammaire ». Ce travail d’observation
Lidil, 58 | 2018
25
peut se faire à la fois sur un corpus général et de spécialité, ce qui fera ressortir
l’emploi des temps selon le genre textuel par exemple.
42 Puis, en tirant parti des outils simples d’utilisation, comme AntConc ou Sketch Engine 8
(Kilgarriff et coll., 2014), nous proposons d’apprendre aux étudiants, à partir de la
troisième année d’université, à utiliser ces outils pour constituer leur propre corpus
spécialisé, en fonction de leurs besoins. Les deux expérimentations ont en effet montré
que les étudiants étaient capables d’utiliser spontanément les corpus pour accomplir
certaines tâches. En outre, à partir du master, et en collaboration avec les enseignants
des disciplines, il est possible de constituer avec ou sans l’aide des étudiants, des corpus
spécialisés en lien avec les enseignements disciplinaires, de manière à permettre une
acquisition plus efficace de la discipline en anglais.
43 Nous restons cependant conscients que des améliorations doivent être apportées au
dispositif, en fonction des réponses des étudiants. Nous sommes aussi conscients de
n’apporter qu’une pierre de plus à l’édifice enthousiaste que construisent depuis des
années les chercheurs en linguistique de corpus pour l’enseignement et que la
formation en anglais des spécialistes d’autres disciplines doit aussi s’appuyer sur une
analyse des besoins et tirer parti d’autres approches (Sarré & White, 2017, p. 6). Les
deux approches présentées ici, à savoir, passive et inductive, exigent de l’enseignant un
certain travail de préparation et une connaissance active de l’exploitation de corpus.
En effet, soit l’enseignant compile des corpus qu’il interroge afin de constituer du
matériau pédagogique servant de support de cours, soit il fait compiler leurs propres
corpus aux étudiants, mais doit préparer des exercices d’entrainement pour amener les
étudiants à poser les bonnes questions aux corpus, pour en reconnaitre les
informations pertinentes. Ces quelques propositions nécessitent cependant que les
instances décisionnaires acceptent de soutenir cette approche, mais aussi que les
enseignants soient formés à l’exploitation des corpus. Nous espérons avoir montré
comment des cas précis d’utilisation de corpus peuvent être mis en œuvre pour
répondre à un besoin, c’est-à-dire, accomplir une tâche pédagogique représentant un
besoin des étudiants spécialistes d’autres disciplines, tentant de répondre ainsi, comme
de nombreux autres auteurs, à la question de savoir comment les enseignants et les
apprenants peuvent travailler concrètement avec des corpus spécialisés.
BIBLIOGRAPHIE
ANTHONY, Laurence. (2014). AntConc (Version 3.4.4). Tokyo, Japon : Waseda University. Disponible en
ligne sur <www.laurenceanthony.net/software>.
BEEBY, Allison, INÉS, Patricia R. & SÁNCHEZ-GIJÓN, Pilar (dir.). (2009). Corpus Use and Translating:
Corpus Use for Learning to Translate and Learning Corpus Use to Translate (vol. 82). Amsterdam : John
Benjamins Publishing.
BIBER, Douglas, CONRAD, Susan, REPPEN, Randi, BYRD, Pat & HELT, Marie. (2002). Speaking and
Writing in the University: A Multidimensional Comparison. TESOL Quarterly, 36, 9-48.
Lidil, 58 | 2018
26
BOULTON, Alex, CARTER-THOMAS, Shirley & ROWLEY-JOLIVET, Elizabeth (dir.). (2012). Corpus-Informed
Research and Learning in ESP: Issues and Applications (vol. 52). Amsterdam: John Benjamins.
BOULTON, Alex & TYNE, Henry. (2014). Des documents authentiques aux corpus : démarches pour
l’apprentissage des langues. Paris : Didier.
BRAUD, Valérie, MILLOT, Philippe, SARRÉ, Cédric & WOZNIAK, Séverine. (2015). « You say you want a
revolution… » Contribution à la réflexion pour une politique des langues adaptée au secteur
LANSAD. Recherche et pratiques pédagogiques en langues de spécialité, 34(1), 46-66. Disponible en ligne
sur <http://apliut.revues.org/5020>.
BRUDERMANN, Cédric, MATTIOLI, Marie-Annick, ROUSSEL, Anne-Marie & SARRÉ, Cédric. (2016). Le
secteur des langues pour spécialistes d’autres disciplines dans les universités françaises :
résultats d’une enquête nationale menée par la SAES. Recherche et pratiques pédagogiques en langues
de spécialité, 35(1), 1-19. Disponible en ligne sur <http://apliut.revues.org/5564>.
CARTER-THOMAS, Shirley & ROWLEY-JOLIVET, Elizabeth. (2001). Syntactic Differences in Oral and
Written Scientific Discourse: The Role of Information Structure. ASp, 31-33, 19-37.
CHAPIER, Claire & O’CONNELL, Anne-Marie. (2015). ESP and ASP in the Domains of Science and Laws
in a French Higher Education Context: Preliminary Reflections. The European Messenger, 24(2),
61-76.
CHARLES, Maggie. (2012). “Proper Vocabulary and Juicy Collocations”: EAP Students Evaluate Do-
It-Yourself Corpus-Building. English for Specific Purposes, 31, 93-102.
CHARLES, Maggie. (2014). Getting the Corpus Habit: EAP Students’ Long-Term Use of Personal
Corpora. English for Specific Purposes, 35, 30-40.
CHARLES, Maggie, PECORARI, Diane & HUNSTON, Susan (dir.). (2009). Academic Writing: At the Interface
of Corpus and Discourse. Londres : Continuum.
CLYNE, Michael. (1987). Cultural Differences in the Organisation of Academic Texts: English and
German. Journal of Pragmatics, 11, 211-247.
COXHEAD, Averil. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213-238.
COXHEAD, Averil. (2017). Approaches and Perspectives on Teaching Vocabulary for Discipline-
Specific Academic Writing. Dans J. Flowerdew & T. Costley (dir.), Discipline-Specific Writing: Theory
into Practice (p. 62-76). Londres : Routledge/Taylor & Francis.
COXHEAD, Averil & HIRSCH, David. (2007). A Pilot Science-Specific Word List. Revue française de
linguistique appliquée, 12(2), 65-78.
DELABROYE, Jean, KÜBLER, Natalie, LEYBOLDT, Edith & PERRET, Robert. (2011). Pour une politique des
langues à l’université. Rapport interne de la Commission Langues, Université Paris Diderot.
FLØTTUM, Kjersti, DAHL, Trine & KINN, Torodd. (2006). Academic Voices: Across Languages and
Disciplines. Amsterdam : John Benjamins.
GARDNER, Dee & DAVIES, Mark. (2014). A New Academic Vocabulary List. Applied Linguistics, 35(3),
305-327.
Lidil, 58 | 2018
27
GLEDHILL, Christopher & KÜBLER, Natalie. (2016). What Can Linguistic Approaches Bring to English
for Specific Purposes? ASp, 69, 65-95.
HAMILTON, Clive E. (2015). Cartographie des erreurs en anglais L2 : vers une typologie intégrant système et
texte (Thèse de doctorat, Université Sorbonne Nouvelle – Paris 3). Disponible en ligne sur
<https://tel.archives-ouvertes.fr/tel-01378302> (consulté le 6 juin 2018).
HAMILTON, Clive E. & CARTER-THOMAS, Shirley. (2017). Competing Influences: The Impact of Mode
and Language on Verb Type and Density in French and English Scientific Discourse. Chimera :
Romance Corpora and Linguistic Studies, 4(1), 13-34.
HA, Althea Y. H. & HYLAND, Ken. (2017). What Is Technicality? A Technicality Analysis Model for
EAP Vocabulary. Journal of English for Academic Purposes, 28, 35-49.
HARTWELL, Laura M. & JACQUES, Marie-Paule. (2014). Authorial Presence in French and English:
“Pronoun + Verb” Patterns in Biology and Medicine Research Articles. Discours, 15. Disponible en
ligne sur <http://discours.revues.org/8941>.
HARDY, Jack A. & ROMËR, Ute. (2013). Revealing Disciplinary Variation in Student Writing: A Multi-
Dimensional Analysis of the Michigan Corpus of Upper-Level Student Papers (MICUSP). Corpora,
8(2), 183-207.
HOLEC, Henri. (1990). Des documents authentiques, pourquoi faire ? Mélanges pédagogiques, 65-74.
HYLAND, Ken. (2000). Disciplinary Discourses: Social Interactions in Academic Writing. Harlow :
Longman.
HYLAND, Ken & TSE, Polly (2007). Is There an “Academic Vocabulary”? TESOL Quarterly, 41(2),
235-253.
JOHNS, Tim. (1991). Should You Be Persuaded: Two Examples of Data-Driven Learning. Dans
T. Johns & P. King (dir.), Classroom Concordancing, English Language Research Journal, 4, 1-16.
KILGARRIFF, Adam, BAISA, Vít, BUŠTA, Jan, JAKUBÍČEK, Miloš, KOVÁŘ, Vojtěch, MICHELFEIT, Jan, RYCHLÝ,
Pavel & SUCHOMEL, Vít. (2014). The Sketch Engine: Ten Years On. Lexicography, 1, 7-36.
KÜBLER, Natalie & FOUCOU, Pierre-Yves. (2000). A Web-Based Environment for Teaching Technical
English. Dans L. Burnard & T. McEnery (dir.), Rethinking Language Pedagogy: Papers from the Third
International Conference on Language and Teaching (p. 65-74). Francfort-sur-le-Main : Peter Lang.
KÜBLER, Natalie & PECMAN, Mojca. (2012). The ARTES Bilingual LSP Dictionary: From Collocation to
Higher Order Phraseology. Dans S. Granger & M. Paquot (dir.), Electronic Lexicography (p. 187-209).
Oxford : Oxford University Press.
NATION, Paul, COXHEAD, Averil, CHUNG, Mihwa & QUERO, Betsy. (2016). Specialized Word Lists. Dans
I. S. P. Nation, Making and Using Word Lists for Language Learning and Testing (p. 145-151).
Amsterdam : John Benjamins.
NESI, Hillary. (2015). ESP Corpus Construction: A Plea for a Needs-Driven Approach. ASp, 68, 7-24.
PAQUOT, Magali. (2010). Academic Vocabulary in Learner Writing: From Extraction to Analysis. Londres
et New York : Continuum.
POUDAT, Céline & FOLLETTE, Peter. (2012). Corpora and Academic Writing: A Contrastive Analysis of
Research Articles in Biology and Linguistics. Dans A. Boulton, S. Carter-Thomas & E. Rowley-
Lidil, 58 | 2018
28
Jolivet (dir.), Corpus-Informed Research and Learning in ESP: Issues and Applications (p. 167-192).
Amsterdam : John Benjamins.
SARRÉ, Cédric & WHYTE, Shona (dir.). (2017). New Development in ESP Teaching and Learning Research.
France : Researchpublishing.net
SWALES, John. (1990). Genre Analysis: English in Academic and Research Settings. Cambridge :
Cambridge University Press.
SWALES, John. (2016). Reflections on the Concept of Discourse Community. ASp, 69, 7-19.
TUTIN, Agnès. (2017). Autour du lexique et de la phraséologie des écrits scientifiques. Revue
française de linguistique appliquée, 12(2), 5-14.
VAN DER YEUGHT, Michel. (2014). Développer les langues de spécialité dans le secteur LANSAD –
Scénarios possibles et parcours recommandé pour contribuer à la professionnalisation des
formations. Recherche et pratiques pédagogiques en langues de spécialité, 33(1). Disponible en ligne sur
<http://apliut.revues.org/4153>.
NOTES
1. Voir le site internet USPC-PERL <https://perl2018.wixsite.com/perl-uspc>.
2. Voir le site internet MOODLE-PERL <http://perl.uspc.fr/>.
3. Ce corpus a été recueilli dans le cadre d’une thèse de doctorat, voir Hamilton (2015).
4. Le BAWE a été développé dans les universités de Warwick, Reading et Oxford Brookes, avec le
financement de l’ESRC.
5. Le corpus LOCNESS a été réalisé par l’université catholique de Louvain.
6. EIIDA est un projet soutenu par le Labex TransferS, de l’École normale supérieure, Paris
entre 2012 à 2015.
7. Ces parties correspondent à la structure prototypique des articles de recherche dite IMRAD : à
savoir, Introduction, Méthode, Résultats et Discussion.
8. Le logiciel est désormais accessible gratuitement pour les établissements universitaires
européens pour une période de quatre ans à partir de 2018. Voir le site du logiciel
<www.sketchengine.co.uk>.
RÉSUMÉS
Cet article présente deux cas d’expérimentation concrète d’exploitation de corpus dans
l’enseignement de l’anglais de spécialité universitaire, dans des formations hybrides. Nous
adoptons deux approches : l’exploitation de corpus pour enseigner l’anglais de spécialité et
enseigner aux étudiants à utiliser les corpus pour apprendre l’anglais de spécialité, dans une
approche par tâches. Les étudiants ont répondu à des questionnaires dont l’analyse nous a
permis de comparer leurs ressentis et représentations par rapport à une formation nouvelle pour
Lidil, 58 | 2018
29
eux, et leurs productions ont été analysées. Dans cet article, nous nous concentrons sur la
présentation des expérimentations et sur l’analyse des questionnaires, afin de tenter de montrer
concrètement comment exploiter les corpus dans des formations hybrides, mais aussi de tenter
des propositions concrètes pour la formation en anglais des spécialistes d’autres disciplines à
l’université.
This paper describes two task-based experiments using corpora for ESP and EAP blended
learning. Two different approaches have been experimented: exploiting corpora to teach ESP and
teaching to exploit corpora for ESP learning. In order to analyse the students’ attitudes and
representations towards this type of language course, questionnaires were submitted to the
participants and their answers have been analysed. We will focus here on presenting the
experiments and the questionnaire analysis. We aim to show how to use corpora in blended
learning for EAP teaching. We will also make some suggestions for ESP training at university.
INDEX
Mots-clés : anglais scientifique, apprentissage hybride, apprentissage sur corpus
Keywords : academic English, blended learning, data-driven learning
AUTEURS
NATALIE KÜBLER
CLILLAC-ARP, Université Paris Diderot
CLIVE E. HAMILTON
CLILLAC-ARP, Université Paris Diderot
Lidil, 58 | 2018
30
Acknowledgements
We would like to acknowledge the helpful and constructive comments provided by the
anonymous reviewers of this paper as well as comments from attendees at the BAAL Corpus
Linguistics Special Interest Group event “New Directions in DDL” held at Coventry University on
8 June 2018. We are also grateful to John Higgins, a former colleague of Tim Johns, and pioneer in
DDL (see e.g. Higgins, 1991) whose presentation at the event drew our attention to DDL resources
and literature we were not previously aware of.
1. Introduction
1 Data-driven learning (DDL) is a method of language teaching and learning which
encourages learners to investigate corpus data and apply it in their own language
learning. While the use of corpora in language teaching has a history that reaches back
to the late 1960s (McEnery & Wilson, 1997; Chambers, 2010), DDL as an approach was
formulated by Tim Johns in the 1980s to help international university students improve
their academic writing. Since then, it has been used in a variety of ways in an attempt
to meet the needs of students (and teachers) in a range of contexts and with different
levels of access to hardware, software and corpora.
2 Tim Johns did not typically expect his students to manage their corpus investigations
on their own; he used DDL in one-to-one consultation sessions where the tutor and
student worked together to resolve specific English for Academic Purposes (EAP)
writing problems and in his “reactive” classroom materials which responded to student
questions (Johns, 1986, 1991a, 1991b). Since then, however, some approaches to DDL
Lidil, 58 | 2018
31
have treated it as a more autonomous activity (e.g. Bernardini, 2004). This has the
advantage of freeing learners to explore corpus resources wherever and whenever they
need to, but it places heavy demands on them, requiring the formulation of appropriate
corpus queries and the interpretation of the results therefrom. For this reason, this
“hard” form of DDL (Gabrielatos, 2005) has tended to be confined mainly to higher
education contexts where learners have advanced language knowledge and good study
skills.
3 Johns reported the results of some of his DDL consultation sessions and answers to
student queries in a series of “kibbitzers”.1 Each kibbitzer outlines an authentic writing
issue, such as the difference between by and using, and presents a solution (and in some
cases activities) based on corpus evidence. This kind of approach has been described as
“soft” DDL (Gabrielatos, 2005), in that kibbitzers do not require access to a corpus, and
are accessible to learners even if they have no corpus query skills. Some EAP
practitioners and materials writers have continued to develop this soft approach,
because it requires fewer resources and places fewer demands on learners, whether
working alone or in a larger class without one-to-one support (Boulton, 2010). “Soft”
corpus-informed lessons can be created relatively easily by printing out some relevant
data, for example in the form of concordance lines, and devising accompanying paper-
based tasks (see, for example, Tribble & Jones, 1990; Johns, 1991a, 1991b). Nevertheless,
the creation of such materials requires both corpus knowledge and sensitivity to
student needs; students also need to be fairly carefully introduced to such tasks and
activities to avoid potential frustration or bafflement (Quinn, 2015).
4 Corpora and corpus-compilation processes have of course greatly changed since Johns
first developed DDL. He used very small homemade corpora, mostly derived from
newspapers and popular science magazines, and a simple non-networked programme
that generated Keyword in Context (KWIC) concordance lines but little else. Most
current corpora are hundreds of times bigger than the ones Johns used, making it
possible to ascertain usage patterns for rarer language items that do not occur
sufficiently frequently in small corpora. Many general corpora are now available online
via software which offer a range of options to search for lexico-grammatical patterns as
well as single words or word combinations. Online publishing and the resulting
increased availability of computer-readable text have also made it easier for teachers
and learners to compile their own corpora. EAP practitioners such as Charles (2007,
2011, 2015), Lee & Swales (2006) and Yoon (2011), for example, have asked students to
compare language choices made in their own writing with those made by professionals,
using research articles gathered from discipline-specific online journals.
5 However, even though DDL can be approached in a variety of ways to suit different
learning contexts, it still continues to meet with resistance from teachers and learners.
This resistance is probably due to the difficulty of finding the right balance between
individual freedom and supportive guidance. Autonomous approaches encourage
learners to consult corpus resources to solve their own individual production problems
as the need arises. Without a teacher there to advise them, however, they may not
know exactly what to look for in the corpus, and they may have difficulty working with
complex corpus interfaces such as those provided by BNCweb and Sketch Engine (see,
for example, Pérez-Paredes, Sánchez-Tornel & Alcaraz Calero, 2013). In contrast, a
more guided approach to DDL is less likely to be tailored to individual needs, and may
be more limited in terms of both quantity and quality because most learners do not
Lidil, 58 | 2018
32
8 The technique adopted for this initiative was developed for Writing for a Purpose (WfAP),
a collection of online EAP writing resources created in association with the British
Council and available on their “Learn English” website (see Nesi, Gardner & Kightley,
2015). The idea in WfAP is to illustrate important features of student academic genres
and thereby provide writing guidance to EAP learners. One aspect of this guidance is to
demonstrate typical phraseologies of specific genres by using concordances drawn
from samples of relevant texts. The corpus used was the British Academic Written
English (BAWE) corpus, which contains over 6.5 million words of proficient student
writing in a wide range of genres and disciplines (Nesi & Gardner, 2012 5). This corpus
was an obvious choice for two main reasons. The first of these is that the written genres
WfAP focuses on were the ones identified in the BAWE corpus project, and were
therefore relevant to undergraduates studying in a wide range of disciplines; some
BAWE assignment genres (e.g. research reports and literature surveys) are intended as
preparation for research at higher academic levels, but by no means all university
students go on to pursue academic careers, and other assignment types (e.g. case
studies and problem questions) aim to introduce students to the type of writing they
will have to produce in other walks of life. A second compelling reason for using BAWE
is that, unlike other possible choices—the most obvious being the Michigan Corpus of
Lidil, 58 | 2018
33
Upper-Level Student Papers—this corpus is open access on Sketch Engine, meaning that
it is possible to make use of the powerful query language and sophisticated filtering of
results to create lines like those shown in Figures 1 and 2. 6 Moreover, Sketch Engine
provides an easy-to-use link creation facility (“get short permanent link”) which allows
users to make hyperlinks and direct learners to corpus outputs—concordance,
frequency lists, etc.—exemplifying a particular language feature.
Figure 1. – KWIC concordance lines used in Writing for a Purpose to illustrate conclusion patterns in
Humanities essays.
9 Using this permalink facility, some parts of the Writing for a Purpose resources refer
learners to carefully selected concordance outputs from the BAWE corpus which show
lexical and phraseological features typical of particular types of assignment and with
specific rhetorical functions. For example, the pattern it can / could be assumed / inferred
/ concluded that7 is common in the concluding sections of essays in the Humanities; to
illustrate this pattern, a hyperlink was created to take learners to the concordance
lines from the BAWE corpus shown in Figure 1. Another example is the pattern it is
important / recommended / suggested / vital that, which is frequently used by Business
students in making recommendations in Case Study assignments. Learners interested
in viewing realisations of this pattern can click on a link which takes them to the lines
shown in Figure 2. In both cases, these lines were the result of a painstaking query
construction and then concordance filtering procedure to ensure not only that the
lines in question were relevant, but also that there were not so many of them that
learners would be overwhelmed.
Figure 2. – KWIC concordance lines used in Writing for a Purpose to illustrate Business case study
recommendation patterns.
10 Learners who are directed to these sorts of corpus outputs are being encouraged to
notice for themselves (Rutherford, 1987; Schmidt, 1990) how the typical realisations
that are associated with the meanings involved are patterned in ways that may not be
simply summarised by an abstract “rule” (Boulton & Cobb, 2017). That is, their
attention can be drawn to the types of verbs that occur in the frame it can be * that, or to
the types of words/constructions that precede it (Fig. 1). This means of presentation via
Lidil, 58 | 2018
34
authentic examples may give learners the confidence to use the phraseologies
themselves as well as helping them spot when a writer is drawing a conclusion.
11 This use of hyperlinks to specially selected concordance lines to illustrate common
patterns, as in Figures 1 and 2, need not of course be confined to exemplifying
particular rhetorical functions. This facility can also be used to help learners address
issues in their own writing as and when they occur by inserting hyperlinks and
directing students to concordance lines showing more appropriate usage. By writing
the corpus queries ourselves and selecting relevant lines from those retrieved, we can
circumvent the perennial barriers to effective student use of corpora: lack of
knowledge of complex corpus query language (CQL), and lack of awareness of
phraseological features. This approach can also be of use to EAP practitioners without
corpus expertise, since we can share hyperlinks used to address common student
writing issues.
12 The exploitation of hyperlinks to give students written guidance is suggested as a
means of feedback by Hyland (2003) and explored in more detail by Gaskell and
Cobb (2004), who investigated the efficacy of inserting hyperlinks to concordances to
guide students to correct grammar errors. The concordances used in Gaskell and
Cobb’s (2004) study were retrieved from the Brown corpus using the Lextutor interface;
8
they were interested in the extent to which students benefited from the intervention
and whether students then went on to use the concordancer independently. Our
proposal, we feel, improves on Gaskell and Cobb’s approach in a number of ways.
Firstly, the issues we address are phraseological rather than simply grammatical; they
are generally what Ferris (2002) refers to as “untreatable” in that one cannot simply
look up the answer in a reference work. Secondly, the Sketch Engine interface is
considerably more versatile than the Lextutor one. We might add that the corpus we
use is more appropriate for the target students, as it is more than six times larger, is
more contemporary and is composed of texts that EAP students themselves will write.
Finally, our aim is to create a database of re-usable links that can be shared with other
teachers and lecturers.
13 The first step to creating the DDL materials discussed in this paper involves examining
written coursework produced by students studying at undergraduate and Master’s level
in a university in the UK in order to identify recurrent problems that affect
intelligibility and/or communicative force. For each such problem, we then create
queries on the Sketch Engine open-access interface to exemplify more appropriate
usage. The corpus output from these queries is progressively refined until each query
leads to a page containing a relatively manageable number 9 of concordance lines
illustrating typical uses of the relevant pattern. The intention in doing so is that the
corpus data will draw learners’ attention to differences between their own wordings
and those of proficient student writers (often in the same or similar disciplines,
producing the same or similar academic genres), in line with Johns’ original conception
of DDL realised in the form of the kibbitzer (Johns, 1986, 1991b). In order to
demonstrate this procedure, we will now consider an example of an issue addressed,
starting with the instance in a student paper.
Lidil, 58 | 2018
35
14 In this example, the student has written the following clause (emphasis added):
grammar teaching could bring a variety of negative impacts on English study. For proficient
users of English the use of the verb bring here is a very unusual choice when the verb
HAVE is so strongly associated with IMPACT on.10 Having found an apparent
phraseological issue, the next consideration is whether this is worth bringing to this
student’s attention, and, for the purposes of the project, whether this is likely to be an
issue that other learners may encounter—since an important aspect of the initiative is
the re-usability of the links we create. This question can be considered from different
perspectives. One factor is the relative complexity of the phrase in question. Detailed
discussion of how complexity may be judged is beyond the scope of this paper (see e.g.
Sinclair, 2004; Gries, 2008), but clearly this phrase contains a number of elements which
contribute to its potential complexity: HAVE + optional determiner + optional adjective +
IMPACT + on. Another factor worthy of consideration is the frequency of the phrase in
academic use. A search for IMPACT (as a noun) followed by on11 in the BAWE corpus on
Sketch Engine retrieves 714 instances, giving a normalised frequency of around 86 hits
per million words.12 This relatively high normalised frequency provides evidence that it
is worth paying some attention to this phrase (see e.g. Vincent, 2013).
15 Having decided that a particular issue is worth bringing to the attention of a learner or
learners, the next step is to create concordance lines that will make the normal
wording of the pattern or phrase salient. Clearly, this involves considering which
element(s) of the phrase or pattern in this specific case has caused difficulty, i.e. here,
the choice of verb. However, bearing in mind the variability that may be observed in
phrases (Francis, 1993; Philip, 2009), decisions here should also be made regarding
which of the possible variations will be included with respect to the error or issue that
has been identified. Do we view the realisation bring a variety of negative impacts on … in
terms of the abstract phrase HAVE + determiner + adjective + IMPACT + on or consider
specifically instances of negative IMPACT or even simply negative impacts? Such decisions
may depend on a range of factors (considered in Section 4 below), not least initial
findings in the corpus.
16 Frequent users of the Sketch Engine interface will be aware that there are a number of
query options which allow this process to be approached from different angles. The
option chosen will depend on decisions made regarding which elements of the phrase
in question are considered as particularly salient or important. In this case, as noted
already, IMPACT on gives a large number of lines; to limit this number, a “simple” search
for negative impact on was used. To make the pattern of usage more salient, the 45 lines
retrieved in this manner were “left sorted” (i.e. so that words to the left of the node are
in alphabetical order); a sample of these lines is shown in Figure 3.
Lidil, 58 | 2018
36
Figure 3. – Sample of lines retrieved from BAWE using the simple search negative impact on.
17 Having retrieved suitable examples from the corpus, the next stage is to create a
permanent link to the concordance lines using the Sketch Engine hyperlinks facility. 13
This link is then inserted directly into the learner’s assignment in an appropriate place,
with a short accompanying comment;14 the font for the verb bring is also changed to red
to draw attention to its inappropriacy. The idea, then, is for the student to notice the
added comment (in bold typeface), click on the hyperlink and then correct the issue
marked on the assignment, or at least note the issue for future reference.
18 In order to ease the introduction of the links, it seems important that students have
some awareness of concordances and, ideally, the nature of the corpus that is used.
Accordingly, the students who have received feedback in this way have been shown
how the links to Sketch Engine were included in their coursework feedback, and have
been introduced to some of the features of Sketch Engine and the BAWE corpus. This
was preceded earlier in the course with exposure to other corpus-based tools in a
session in which they investigated the potential of SkELL, Just the Word and Word and
Phrase to address similar issues.
19 Assignments we have returned to these students have generally contained between two
and five hyperlinks. In some cases these address all the phraseological problems in the
assignment, but in other cases, where assignments contain a great many errors, we
decided to select only a small number for the hyperlink treatment, so as not to
overwhelm the writers but instead to give them more time for in-depth interaction
with the corpus data, following the approach of Gaskell and Cobb (2004).
Lidil, 58 | 2018
37
the same corpus output as Figure 4 but with a larger context provided for the last
concordance line. This context is revealed by clicking on the node item; it is useful
when concordance lines which are of interest to the learner do not show full sentences
or when a larger context is necessary to decipher the meanings of certain items, e.g.
instances of anaphoric reference.
Figure 4. – Sample of lines retrieved from BAWE using the simple search HAVE * effect.
22 Figure 6, meanwhile, shows some of the same corpus output with details of the level
and first language of the author (one of the student contributors to the BAWE corpus),
and the discipline and genre of the assignment. These details are revealed by clicking
on the bar to the side of the concordance lines.
23 The information provided in Figures 5 and 6 helps students to contextualise the
phraseological information that is available in the concordance lines by providing extra
information that may help them make decisions when using the patterns. However,
this does not exhaust the interactive possibilities for the students who follow the
hyperlinks to Sketch Engine. As noted above, they may choose to sort the lines, either
to the left, the right or by the node itself, which in this case helps show the most
common patterns of determiner and adjective use with HAVE + effect. Having entered the
SketchEngine site, it is also possible that some learners will go on to explore the corpus
using other related searches, although, as Gaskell and Cobb (2004) point out, this will
likely depend on the training they have received in using the interface.
Lidil, 58 | 2018
38
Figure 5. – A selection of KWIC concordance lines for HAVE + effect with context provided for the
last concordance line.
Figure 6. – A selection of KWIC concordance lines for for HAVE + effect showing details of the
author and the text.
24 Most students at British universities study in the medium of English, and do not receive
explicit English language or writing instruction. Moreover, their writing is usually
assessed primarily for content rather than language accuracy/appropriacy. In this
environment lecturers tend to concentrate on imparting disciplinary knowledge rather
than providing language support, so they welcome any means of enabling students to
deal with language issues in their own time, outside class. However, although our
procedure is designed for use by lecturers who cannot spare class time to discuss
linguistic choices with their students, we ran an initial trial with international students
who were taking a course in academic writing, and were receiving a greater than usual
amount of language support. These students were highly motivated learners, as
evidenced by their willingness to study as exchange students in the UK, and they were
sufficiently interested in corpus-informed methods of language teaching and learning
to provide us with thoughtful feedback. Volunteers from this group (n=8) participated
in a focus group where the instructor (one of the authors) asked them whether or not
they found the hyperlinks useful, and to elaborate on any difficulties they faced.
25 The feedback from the students was very positive. The aspects of the intervention that
were consistently mentioned as being helpful were the contextualisation of the phrases
presented, the ease of contrast with their own writing and the numbers of examples
provided. They also claimed that this approach helped their retention of the target
usage. Perhaps the strongest argument in favour of the use of corpora in general, and
the hyperlink approach in particular, was that rather than relying on memorisation or
Lidil, 58 | 2018
39
simply knowing the answer, access to the corpus was seen as providing a tool that the
students could refer to in future. This final point indicates the potential of the
approach; this group of students at least became interested in exploring Sketch Engine
further. It should be borne in mind, however, that the students had already been
introduced to SkELL, Just the Word and Word and Phrase, as part of their academic writing
course; this sort of pre-exposure might well have made them more inclined to
appreciate the benefits of corpus consultation. Clearly, further research is needed to
explore in more depth the responses and attitudes of a wider range of potential student
users.
27 Our aim in creating these links is to address phraseological problems in student writing
that affect intelligibility and/or communicative force. A further important focus is on
problems that are likely to recur in the writing of other students, and ones that can be
recognised by students if they refer to the hyperlinked corpus data we supply. The
hyperlinks we create to help with such problems are being categorised and stored, so
that they can be re-used by ourselves, other EAP practitioners, and subject tutors.
28 Not all the problems we encounter can be classed as “errors” in the sense of
grammatical mistakes; some are simply unidiomatic or in an inappropriate register,
often because of the writers’ collocation choices. In the commentaries that accompany
the hyperlinks we therefore have to decide whether to label a usage as “wrong”, and
present a correction, or whether to simply offer suggestions which might enhance
readability and give the impression of greater academic literacy. For example, one
student wrote “In this short essay, there isn’t room to further discuss this important
aspect”. In our view this is grammatically correct but rather unwieldy, or unidiomatic
in the context, as evidenced by the fact that the form “there isn’t room” is not found in
the BAWE corpus. Our reusable hyperlink, <ske.li/ewj>, leads to KWIC concordance
lines which suggest a more appropriate choice of wording, shown in Figure 7.
Figure 7. – A selection of KWIC concordance lines for “beyond the scope of”.
Lidil, 58 | 2018
40
29 On the other hand, students sometimes use prepositions in ways that could be
described as ungrammatical or non-standard. The form comprising of, for example, was
marked as an error in feedback provided to one student; the accompanying hyperlink
<ske.li/ep5> leads to grammatically correct concordance lines, a sample of which are
shown in Figure 8.
30 The lines shown in Figure 8 indicate just one way of addressing the non-standard
comprising of. It would also be possible to take a different approach to this mistake, e.g.
by suggesting an alternative verb such as consist which is followed by of 15 or indicating
when the verb comprise may be followed by of.
31 Not all the grammatical errors we have found in our data are produced by early-stage
EAP learners; for example, English was the first language of the student who wrote
comprising of. So far, we have found that our approach can be used to provide guidance
to a wide range of novice academic writers, regardless of their first language and their
English language knowledge. At the same time, this range raises the question of the
extent to which it is necessary to adjust the presentation of the feedback and choice of
instances to meet the needs of learners at different proficiency levels.
32 In terms of presentation of lines, it would seem generally advisable to reduce the size of
the concordance sample when creating links for less proficient students, since
otherwise there is a danger they will be overwhelmed by the quantity of data. In our
experience, more proficient students are more tolerant of and even welcome the
provision of greater numbers of lines as they provide greater evidence of usage.
A related issue (discussed above in Section 2.2) is that of the degree of variability in the
pattern that is presented. It seems reasonable to limit the number of different forms
that lower proficiency students are exposed to; a student who uses BRING with negative
impacts on may struggle if too many variations of the pattern HAVE + IMPACT + on are
shown in the concordance lines. However, a more proficient student may be able to
handle a greater degree of variability in the lines, to the extent that they may even find
it useful to see lines including both IMPACT and EFFECT, such as those shown in Figure 9.
In order to make informed choices regarding which lines to present, it may also, of
course, be necessary to carry out a considerable amount of informal research on the
typical realisations of the given pattern.
Lidil, 58 | 2018
41
33 A further issue relating to proficiency levels is one which we have mentioned already:
the number of errors that it is advisable to address in any one piece of work. In student
writing where there are many errors it is not practical or even possible to provide links
to exemplify every error (Gaskell & Cobb, 2004). On the other hand, limiting the
number of hyperlinks to around five may give the student the impression that there
are no further issues to address. Our approach, like other DDL interventions, does not
make any claims to comprehensiveness and does not set itself up as in opposition to
other means of providing feedback on errors. It is meant to be understood and used as a
complementary approach for specific errors and infelicities that are amenable to a
phraseological treatment.
Lidil, 58 | 2018
42
to select specific genres and/or disciplines, there is an argument for limiting searches
in this way when frequently occurring patterns are exemplified.
36 A final aspect relating to generalisability and abstraction concerns the outputs that are
provided in links. So far in this paper we have only discussed the use of concordance
lines but these are of course not the only corpus outputs that might be useful to show
patterns of usage; other possibilities include collocation lists, word sketches or
frequency lists. One useful feature available on Sketch Engine (and indeed many corpus
interfaces) is “Frequency: Node forms”, which lists the types retrieved by a search in
frequency order.
Figure 10. – Screenshot of Frequency: Node forms for ability to followed by infinitive verb.
37 An example of the sort of output the node form frequency facility provides is shown in
Figure 10; the full list is available through this link: <ske.li/e2s>. The advantage of
providing this output over a sample concordance of ability to is that it is immediately
obvious which verbs most commonly occur with ability to; one can even start to classify
types of verb (e.g. verbs relating to producing/making, understanding and communicating).
Moreover, one can easily access the original concordance as well as concordances for
individual verbs from this screen if desired. At present, outputs of this sort (i.e. those
which are not concordance lines) are somewhat under-utilised in our project, which
remains a limitation of the approach, but we are interested in exploiting them more in
future (see next section).
38 As we have pointed out, the vision for this intervention is not just to help students
address phraseological issues but also to create a searchable bank of hyperlinks for re-
use by us, our colleagues and other interested parties. This is in the spirit of Johns’
(1991b, p. 36) proposal to create “ready-made DDL materials that [teachers] could adapt
with their own students in mind”16 but it should also be noted that these links are not
solely for teachers of English, but are also intended to be used by subject lecturers. The
foregoing discussion has raised issues relating not only to the creation of hyperlinked
concordances but also to their classification for ease of retrieval and re-use. This is an
on-going task, but our category names will need to enable us to identify the style or
grammar issue, and possibly also the student proficiency level, the degree of
abstraction or generalisability, and even perhaps the discipline and/or genre. Our
progress with this classification process is documented on the website of the project,
Lidil, 58 | 2018
43
where issues and their related hyperlinks are stored in entries of the directory, which
practitioners are welcome to consult.17
5. Conclusion
39 We believe that, as well as being within the spirit of DDL, the approach introduced in
this paper has a number of advantages. The first of these is the use of the BAWE corpus,
which contains the type of writing that the students concerned aspire to produce,
rather than web-scraped mega-corpora of “general English” (SkELL) or academic
corpora composed largely of research articles (Word and Phrase – academic component).
A second advantage is ease of access—the multitude of choices and the daunting nature
of corpus interfaces is largely overcome because we conduct the searches in advance
and provide links to pre-filtered concordance lines. The fact that the links are live and
allow for further exploration does not, of course, preclude further “serendipitous
learning” (Bernardini, 2004) and may in fact pique the curiosity of some students to
find out more about how to use the corpora. Finally the fact that the links are provided
in individual feedback allows students to access and learn from them at their own pace.
BIBLIOGRAPHY
Websites referred to
BAWE: <www.coventry.ac.uk/bawe>.
Just the Word: <www.just-the-word.com>.
SkELL: <https://skell.sketchengine.co.uk/run.cgi/skell>.
Sketch Engine Open Corpora: <https://the.sketchengine.co.uk/open/>.
Tim Johns’ kibbitzers (Wang Lixun): <http://ec-concord.ied.edu.hk/TimJohns/>.
Tim Johns’ kibbitzers (WordSmith Tools): <http://lexically.net/TimJohns>.
Word and Phrase: <www.wordandphrase.info>.
Writing for a Purpose: <https://learnenglish.britishcouncil.org/en/writing-purpose/>.
References
ASTON, Guy. (1997). Small and Large Corpora in Language Learning. In B. Lewandowska-
Tomaszczyk & P. J. Melia (eds), PALC ‘97: Practical Applications in Language Corpora (pp. 51–62). Łódź:
Łódź University Press.
BERNARDINI, Silvia. (2000). Systematising Serendipity: Proposals for Concordancing Large Corpora
with Language Learners. In L. Burnard & T. McEnery (eds), Rethinking Language Pedagogy from a
Corpus Perspective (pp. 225–34). Frankfurt am Main: Peter Lang.
BERNARDINI, Silvia. (2004). Corpora in the Classroom: An Overview and some Reflections on Future
Developments. In J. Sinclair (ed.), How to Use Corpora in Language Teaching (pp. 15–38). Amsterdam/
Philadelphia: John Benjamins.
Lidil, 58 | 2018
44
BOULTON, Alex. (2010). Data-Driven Learning. On Paper, in Practice. In T. Harris & M. Moreno Jaén
(eds), Corpus Linguistics in Language Teaching (pp. 17–52). Bern: Peter Lang.
BOULTON, Alex & COBB, Tom. (2017). Corpus Use in Language Learning: A Meta-Analysis. Language
Learning, 67(2), 348–93.
CHAMBERS, Angela. (2010). What Is Data-Driven Learning? In A. O’Keeffe & M. McCarthy (eds), The
Routledge Handbook of Corpus Linguistics (pp. 345–58). London: Routledge.
CHARLES, Maggie. (2007). Reconciling Top-Down and Bottom-Up Approaches to Graduate Writing:
Using a Corpus to Teach Rhetorical Functions. Journal of English for Academic Purposes, 6(4), 289–
302.
CHARLES, Maggie. (2011). Corpus Evidence for Teaching Adverbial Connectors of Contrast: however,
yet, rather, instead and in contrast. In N. Kübler (ed.), Corpora, Language, Teaching, and Resources:
From Theory to Practice (pp. 113–31). Bern: Peter Lang.
CHARLES, Maggie. (2015). Same Task, Different Corpus: The Role of Personal Corpora in EAP
Classes. In A. Leńko-Szymańska & A. Boulton (eds), Multiple Affordances of Language Corpora for
Data-Driven Learning (pp. 131–54). Amsterdam: John Benjamins.
DURRANT, Philip. (2013). Discipline and Level Specificity in University Students’ Written
Vocabulary. Applied Linguistics, 35(3), 328–56.
FERRIS, Dana. (2002). Treatment of Error in Second Language Student Writing. Ann Arbor, MI: The
University of Michigan Press.
FRANCIS, Gill. (1993). A Corpus-Driven Approach to Grammar: Principles, Methods and Examples.
In M. Baker, G. Francis & E. Tognini-Bonnelli (eds), Text and Technology: In Honour of John Sinclair
(pp. 137–56). Amsterdam: John Benjamins.
GABRIELATOS, Costas. (2005). Corpora and Language Teaching: Just a Fling or Wedding Bells?
Teaching English as a Second Language – Electronic Journal, 8(4), 1–35. Available at <https://
files.eric.ed.gov/fulltext/EJ1068106.pdf> (accessed 18 December 2017).
GASKELL, Delian & COBB, Thomas. (2004). Can Learners Use Concordance Feedback for Writing
Errors? System, 32(3), 301–19.
GRIES, Stefan. (2008). Phraseology and Linguistic Theory: A Brief Survey. In S. Granger &
F. Meunier (eds), Phraseology: An Interdisciplinary Perspective (pp. 3–26). Amsterdam/Philadelphia:
John Benjamins.
HIGGINS, John. (1991). Looking for Patterns. In T. Johns & P. King (eds), English Language Research
Journal, 4, 63–70.
HYLAND, Ken. (2003). Second Language Writing. Cambridge: Cambridge University Press.
JOHNS, Tim. (1986). Micro-Concord: A Language-Learner’s Research Tool. System, 14(2), 151–62.
JOHNS, Tim. (1991a). Should You Be Persuaded: Two Examples of Data-Driven Learning. In T. Johns
& P. King (eds), English Language Research Journal, 4, 1–16.
JOHNS, Tim. (1991b). From Printout to Handout: Grammar and Vocabulary Teaching in the
Context of Data-Driven Learning. In T. Johns & P. King (eds), English Language Research Journal, 4,
27–45.
KRISHNAMURTHY, Ramesh & KOSEM, Iztok. (2007). Issues in Creating a Corpus for EAP Pedagogy and
Research. Journal of English for Academic Purposes, 6(4), 356–73.
Lidil, 58 | 2018
45
LEE, David & SWALES, John. (2006). A Corpus-Based EAP Course for NNS Doctoral Students: Moving
from Available Specialized Corpora to Self-Compiled Corpora. English for Specific Purposes, 25(1),
56–75.
MCENERY, Anthony & WILSON, Andrew. (1997). Teaching and Language Corpora (TALC). ReCALL,
9(1), 5–14.
NESI, Hilary & GARDNER, Sheena. (2012). Genres across the Disciplines. Cambridge: Cambridge
University Press.
NESI, Hilary, GARDNER, Sheena & KIGHTLEY, Adam. (2015). Writing for a Purpose. In T. Pattison (ed.),
IATEFL 2014: Harrogate Conference Selections (pp. 145–6). Faversham, Kent: IATEFL.
PÉREZ-PAREDES, Pascual, SÁNCHEZ-TORNEL, Maria & ALCARAZ CALERO, Jose. (2013). Learners’ Search
Patterns During Corpus-Based Focus-on-Form Activities. International Journal of Corpus Linguistics,
17(4), 482–515.
PHILIP, Gill. (2009). Reassessing the Canon: “Fixed” Phrases in General Reference Corpora. In
S. Granger & F. Meunier (eds), Phraseology: An Interdisciplinary Perspective (pp. 95–108).
Amsterdam/Philadelphia: John Benjamins.
QUINN, Cynthia. (2015). Training L2 Writers to Reference Corpora as a Self-Correction Tool. ELT
Journal, 69(2), 165–77.
RUTHERFORD, William. (1987). Second Language Grammar: Learning and Teaching. London: Longman.
SCHMIDT, Richard. (1990). The Role of Consciousness in Second Language Learning. Applied
Linguistics, 11(2), 129–58.
TRIBBLE, Chris & JONES, Glyn. (1990). Concordances in the Classroom: A Resource Guide for Teachers.
London: Longman.
YOON, Choongil. (2011). Concordancing in L2 Writing Class: An Overview of Research and Issues.
Journal of English for Academic Purposes, 10(3), 130–9.
NOTES
1. Examples of kibbitzers can be found at <http://lexically.net/TimJohns> and <http://ec-
concord.ied.edu.hk/TimJohns/>.
2. See SkELL: <https://skell.sketchengine.co.uk/run.cgi/skell>.
3. See Just The Word: <www.just-the-word.com>.
4. See Word and Phrase: Frequency Lists <www.wordandphrase.info/frequencyList.asp>.
5. See also British Academic Written English Corpus (BAWE): <http://www.coventry.ac.uk/bawe>.
6. Available at Sketch Engine Open Corpora: <https://the.sketchengine.co.uk/open/>.
7. In the description of phrases and patterns we will use italics to denote wordforms and SMALL
CAPS to denote lemmas.
8. The concordancer is now located here <https://lextutor.ca/conc/eng/> and currently gives
users the option of searching a wider range of corpora than was available to Gaskell and Cobb
in 2004.
Lidil, 58 | 2018
46
9. The number of lines that may be considered “manageable” is a subjective matter and teachers
may want to take into account factors such as student level and previous exposure to
concordances. In many cases, samples of around 20-30 lines have been created. Since the
hyperlink facility is available to all, any user of the link would be able to filter this down further
and create a new link on Sketch Engine if this was thought to be too many.
10. A collocate analysis of lemmas associated with IMPACT on in the BAWE corpus (-5L to -1L,
minimum co-occurrence 3, ranking by logDice values) indicates that HAVE co-occurs in more than
half of all instances; no other verb (except will) is found in the top 50 collocates. As pointed out by
one of our reviewers, this is not the only potentially unidiomatic feature of this instance, but, as
probably the most salient one to a proficient writer of English, it is the one we are focusing on
here.
11. CQL query: [lemma="impact" & tag="N.*"] "on".
12. This does not account for the separation of IMPACT and on in instances such as the impact it had
on her writing (from BAWE document 0063d; emphasis added).
13. This facility is indicated by a “link” icon in Sketch Engine.
14. The comment in this case was“bring” isn’t the usual verb. See here for examples—the hyperlink
was added to the underlined word.
15. Our thanks to a reviewer who pointed this out.
16. We thank one of our reviewers for pointing this out.
17. The quick links of the BAWE web address is <bawequicklinks.coventry.domains>.
ABSTRACTS
This paper outlines a new initiative aimed at integrating concordances and other corpus outputs
into written feedback for learners of English for Academic Purposes (EAP). Although data-driven
learning has by now a 30-year history, it has yet to have a great impact on mainstream pedagogy
despite various claims regarding its efficacy and its benefits in terms of promoting learner
autonomy. This situation may be due to technical barriers to the use of corpora in teaching, in
particular the apparent complexity of most corpus interfaces to the uninitiated. We seek to
circumvent these barriers by creating concordances to help students address their written
errors. These concordances, found in the free-to-use British Academic Written English corpus,
are made available as hyperlinks pasted into student work to help them address their errors by
giving them direct access to instances of proficient academic writing. This paper will outline the
methods used to create the concordances, the types of writing issues that are most amenable to
this treatment and some initial student feedback on the first phase of an ongoing project to
identify and categorise typical phraseological problems in student writing.
Cet article a pour but de présenter une nouvelle initiative visant à intégrer des concordances et
d’autres éléments de corpus dans les réponses fournies aux apprenant.e.s afin qu’ils/elles
puissent remédier aux erreurs de rédaction d’un écrit en anglais sur objectif spécifique. Bien que
l’approche data-driven learning (DDL) existe depuis maintenant 30 ans, elle n’a pas encore eu de
réel impact sur la pédagogie courante, malgré les bénéfices déclarés quant à l’autonomie de
l’apprenant.e. Cette situation peut être due à des obstacles techniques relatifs à l’utilisation de
corpus dans l’enseignement. Les non-initié.e.s peuvent être particulièrement rebuté.e.s par
l’apparente complexité de la plupart des interfaces de corpus. Nous cherchons à remédier à ces
Lidil, 58 | 2018
47
difficultés en créant des concordances permettant aux étudiant.e.s de corriger leurs erreurs. Ces
concordances, extraites du British Academic Written English Corpus et accessibles via des liens
hypertexte collés dans le texte de l’étudiant.e, l’aident à rectifier ses erreurs en lui donnant un
accès direct à des exemples d’anglais universitaire de qualité. Cet article décrit les méthodes
utilisées pour créer ces concordances et les types de problèmes de rédaction que l’on peut traiter
de cette façon. Il inclut aussi les réactions initiales des étudiant·e·s dans le cadre de la première
phase de ce projet actuellement en cours qui vise à identifier et à catégoriser les problèmes
phraséologiques typiques rencontrés par les étudiant·e·s dans leurs travaux écrits.
INDEX
Mots-clés: data-driven learning (DDL), linguistique du corpus, rétroaction écrite, phraséologie,
hyperliens
Keywords: data-driven learning (DDL), corpus linguistics, written feedback, phraseology,
hyperlinks
AUTHORS
BENET VINCENT
Coventry University
HILARY NESI
Coventry University
Lidil, 58 | 2018
48
1. Introduction
1 Dans cet article, nous nous intéressons aux routines sémantico-rhétoriques, des
phénomènes phraséologiques au croisement de plusieurs domaines : l’analyse du
discours, la phraséologie et la syntaxe. Ces phénomènes relèvent de la « phraséologie
étendue » (Legallois & Tutin, 2013) et renvoient souvent dans l’écrit scientifique et
académique au métadiscours et au métatexte (Tutin & Grossmann, 2014). Ces routines
sont définies comme « des énoncés récurrents construits autour d’un verbe et
d’arguments remplissant différents rôles sémantiques dont une partie est actualisée
dans le discours. Chaque routine peut être associée à une fonction discursive/
rhétorique spécifique » (Tutin & Kraif, 2016, p. 121).
2 Les fonctions que les routines remplissent sont au cœur de l’énonciation et de
l’argumentation dans l’écrit académique : formuler une hypothèse (on peut supposer
que), établir une relation entre une cause et un effet (cette différence s’explique par),
exprimer une prise de position (on s’accorde à/sur), appuyer un argument par une
référence à autrui (comme le souligne X), ou justifier le bienfondé de son interprétation
(ce résultat permet d’affirmer que). La maitrise de ces routines, dont les réalisations
lexicales sont assez diversifiées, permet de faciliter l’intégration des scripteurs dans la
« communauté de discours » des chercheurs (Tutin, 2014). L’étude de ces phénomènes
linguistiques est intéressante à plusieurs titres. Elle permet, d’une part, de mettre en
évidence les stratégies rhétoriques mises en œuvre par les auteurs et de mieux
comprendre les démarches scientifiques élaborées (éléments d’argumentation, critères
de scientificité). D’autre part, elle apparait tout à fait pertinente dans une démarche
Lidil, 58 | 2018
49
Lidil, 58 | 2018
50
une liste des verbes établie par Hatier (2016) dans le cadre du projet TermITH 1, selon les
étapes suivantes :
1. Extraction des cadres de sous-catégorisation : pour chaque occurrence verbale, les cadres de
sous-catégorisation2 sont extraits automatiquement par Hatier à l’aide du corpus analysé en
dépendances syntaxiques et regroupées de façon à faire émerger les constructions
syntaxiques les plus fréquentes.
2. Repérage des acceptions : à partir des cadres extraits, Yan repère les acceptions des verbes
du LST qui apparaissent dans le corpus Transdisciplinaire-TermITH en se basant autant que
possible sur la ressource lexicographique Les verbes du français (ci‑après LVF) (Dubois &
Dubois-Charlier, 1997).
3. Classification des verbes et traitement des routines : après avoir relié cadres de sous-
catégorisation et acception, Yan propose une classification des verbes du LST en fonction de
leurs propriétés sémantiques et syntaxiques et procède à la modélisation des routines
verbales par classe de verbes.
7 Considérons les exemples (1, 2, 3) du verbe étudier dans les phrases suivantes :
(1)
En revanche avec les bébés âgés de 4 mois, il nous parait intéressant d’étudier non
seulement le délai court de 30 s mais également la mémoire à long terme après
2 min de délai. (psychologie)
(2)
Pour obtenir un transfert de compétence en sa faveur, la Commission s’empare de
ces analyses. L’exemple de la politique vitivinicole permet ainsi d’étudier le rôle
des chercheurs dans la légitimation des réformes européennes. (sciences politiques)
(3)
Mais la connaissance des élites politiques à l’aide d’une approche relationnelle est
peu étudiée malgré une littérature de qualité sur le thème plus général des élites
politiques africaines que l’on peut regrouper en deux modèles explicatifs.
(sociologie)
8 Le corpus analysé en dépendances syntaxiques nous permet d’obtenir les cadres de
sous-catégorisation suivants :
a. (~ADJMOD)3(~de VINF)étudier_VERB(OBJ -hum) (10 occurrences)
b. (~VerbSup)étudier_VERB(OBJ -hum) (66 occurrences)
c. (OBJ -hum)(PASSIF)étudier_VERB (146 occurrences)
9 Dans le premier cadre, le verbe étudier prend pour objet un nom inanimé et est précédé
d’un adjectif et de la préposition de qui introduit le verbe à l’infinitif. Dans le deuxième
cadre, le code « VerbSup » représente les verbes supports. Ici, le verbe est précédé d’un
verbe modal (permettre, devoir, pouvoir, etc.), comme le montre l’exemple (2). Quant au
troisième cadre, le verbe est utilisé au passif, construction assez fréquente dans le
corpus. À l’issue de l’extraction des cadres, les constructions syntaxiques fréquentes
associées à chaque verbe du LST ont été identifiées.
10 Ensuite, le repérage des « acceptions » constitue l’étape de base de notre modélisation
des routines, les verbes transdisciplinaires étant assez polysémiques. Nous mettons
ainsi en correspondance un cadre et une acception présente dans notre corpus. Pour
qu’une acception soit retenue et considérée comme transdisciplinaire dans le corpus
d’analyse, elle doit apparaitre au moins 20 fois dans au moins 3 des 10 disciplines. Ce
travail est fondé sur la ressource lexicographique LVF4 (Dubois & Dubois-Charlier, 1997)
— une référence linguistique pour l’étude des verbes français — qui se caractérise par
sa large couverture, non seulement en ce qui concerne le nombre de verbes français
Lidil, 58 | 2018
51
Tableau 1. – Exemples des routines verbales – verbes d’examen repérées dans les écrits
scientifiques d’experts (corpus Transdisciplinaire-TermITH).
2. <si l’on examine/analyse> (19 occurrences) impliquer le lecteur dans l’activité d’examen
pour en faire un témoin
Lidil, 58 | 2018
52
<{analyse/modèle/exemple} permet
7.
d’étudier/examiner/analyser> établir une relation causale en mettant en
(35 occurrences) évidence le bienfondé de l’étude
13 Comme on peut le constater, dans la première routine, les verbes d’examen prennent
comme sujet le pronom nous qui peut renvoyer à l’auteur (singulier ou collectif). Ici, les
routines se rapportent souvent au processus d’écriture, comme l’illustre l’exemple
suivant (4) :
(4)
Nous examinerons ensuite comment l’identité métisse est une identité
conflictuelle résultant de ces processus contradictoires d’affiliation qui placent les
individus à la frontière des groupes ethniques. (anthropologie_15216)
14 La deuxième routine (exemple 5) intègre le lecteur par le biais du pronom inclusif on et
est utilisée pour l’inviter comme témoin dans l’activité d’examen, de façon à rendre le
discours plus convaincant.
(5)
Pourtant, si l’on examine attentivement cette table de scolarité située dans
l’annexe de l’ouvrage « Population » et l’enseignement […] et partiellement
reproduite ci-dessous (cf. le tableau 1), on note le résultat contraire.
(scienceseducation_3044)
15 Quant à la troisième routine (exemple 6), comportant des verbes d’examen à l’infinitif
introduits par le verbe consister et la préposition à, elle apparait souvent dans
l’introduction de l’article, pour introduire l’objectif de l’étude.
(6)
Au-delà de la simple description, notre travail consiste, dans le cadre d’une
approche ethnographique, à analyser les stratégies par lesquelles un enseignant
expérimenté instaure les règles de la vie scolaire et les effets de son action au plan
didactique. (scienceseducation _9557)
16 Les trois routines (routines 4-6) comportant le pronom impersonnel il servent à
exprimer l’intérêt ou la nécessité de l’étude. La quatrième routine est introduite par un
adjectif de « saillance » (important, intéressant, utile, etc.), comme dans l’exemple (7)
suivant :
(7)
Pour avoir une chance de démêler les implications religieuses dans les diverses
agressions intervenues entre les orthodoxes et les uniates, il est important
d’étudier le langage de la violence manifestée lors de ces épisodes. (histoire_18593)
17 Enfin, la routine causative (exemple 8) est fréquemment introduite par le verbe modal
permettre.
(8)
Ces données permettront d’examiner la propension des systèmes éducatifs
européens à regrouper dans les mêmes écoles des élèves faibles ou défavorisés.
(scienceseducation_57)
18 L’extraction automatique des cadres de sous-catégorisation, associée à l’observation
des contextes textuels et à l’analyse linguistique, permet ainsi de modéliser les routines
verbales et de mettre en évidence les fonctions rhétoriques spécifiques au genre. Dans
une perspective didactique, nous examinerons dans la partie suivante l’emploi des
routines verbales dans les écrits des étudiants allophones.
Lidil, 58 | 2018
53
21 Pour établir un diagnostic lié à l’utilisation des routines verbales chez les apprenants
chinois par rapport aux scripteurs natifs (novices français et experts), trois corpus sont
utilisés, comme indiqué dans le tableau 2 :
Lidil, 58 | 2018
54
22 Dans le cadre de cette étude, nous avons exploité un corpus d’apprenants, appelé Sup-
Chinois, qui se compose de 28 mémoires de masterisants chinois en spécialité de
français (environ 600 000 mots), dont le sujet d’étude porte sur la traduction (9), la
littérature (12), la linguistique (1) ou des thématiques socioculturelles (6). Nous
appuyant sur ce corpus, nous souhaitons relever dans un premier temps les difficultés
liées à l’emploi des routines verbales. Le corpus d’experts, corpus Transdisciplinaire-
TermITH (Hatier et coll., 2016), d’une taille plus conséquente, permet de relever les
routines verbales les plus significatives, comme vu dans la section précédente. Ce
corpus constitue en quelque sorte un modèle d’experts que les scripteurs novices
souhaitent atteindre. Ensuite, à l’instar de Gilquin et Paquot (2008), nous pensons que,
par rapport aux corpus d’experts, les écrits des étudiants natifs fournissent des
données mieux adaptées pour cibler les difficultés des apprenants non natifs dans la
mesure où ils permettent d’effectuer une comparaison d’apprenants de niveau d’étude
équivalent. Nous avons donc aussi utilisé un corpus d’étudiants natifs, le corpus Sup-
Natifs6, composé de 41 mémoires d’étudiants de master (1 et 2) en spécialité didactique
du français. Étant plus proche du corpus Sup-Chinois, notamment aux niveaux de la
taille, du genre et du type de texte, il servira donc de référence pour la comparaison.
23 À l’aide de ces corpus, nous avons repéré les routines récurrentes chez les experts, et
observé par la suite leur fréquence et leur diversité chez les apprenants chinois et les
novices français. Nous passons maintenant au repérage des erreurs dans le corpus Sup-
Chinois.
24 Le repérage des erreurs s’est fait manuellement par Yan (2017). Ce travail a été réalisé
sur 10 verbes du LST (choisir, considérer, comparer, décrire, étudier, expliquer, montrer,
noter, proposer, supposer) qui représentent au total 1 593 occurrences dans le corpus Sup-
Chinois. Les verbes retenus sont fréquents et présentent des constructions/fonctions
importantes et variées dans l’écrit scientifique. Dans sa thèse, Yan a relevé 221 erreurs
sur 1 593 occurrences dans l’emploi de ces 10 verbes (les erreurs au niveau
morphologique, au niveau sémantique et des cooccurrences lexicales, au niveau de la
syntaxe, au niveau du registre). Parmi les erreurs relevées, nous nous concentrons ici
sur les erreurs liées aux routines verbales que l’on peut regrouper en deux grands
types : les erreurs au niveau de la syntaxe et du lexique, les erreurs au niveau du
registre.
25 Parmi les 221 cas d’erreurs recensés par Yan (2017), 75 erreurs relèvent des structures
syntaxiques erronées, soit 34 % des cas. Il s’agit de l’omission d’un élément dans la
phrase (les exemples 9 et 10), de structures déformées ou inexistantes, ou encore de
formulations maladroites.
Lidil, 58 | 2018
55
(9)
Comme explique l’auteur : « l’élément psychologique, comme l’élément pictural,
se libère insensiblement de l’objet avec lequel il faisait corps… » (littérature_5)
(Correction proposée : comme l’explique l’auteur)
(10)
Le traducteur transmet l’intention de l’auteur original (Il est à noter ici, il ne
comprend que l’intention reçue par le traducteur après la communication avec
l’auteur original…) (traduction_8) (structure erronée : il est à noter qu’ici)
26 Les cas d’omission peuvent être attribuables soit à la négligence des apprenants soit à
une maitrise insuffisante des structures syntaxiques. Dans l’exemple 9, il manque le
pronom le devant le verbe expliquer, qui renvoie à la citation entre guillemets. Dans
l’exemple 10, l’apprenant aurait dû ajouter la conjonction de subordination que pour
introduire la proposition complétive.
27 Dans l’exemple 11, le sujet est absent. La construction pousser à étudier et analyser est
rarement utilisée dans l’écrit scientifique pour établir une relation de causalité. Il
apparait qu’ici l’apprenant manque de moyens linguistiques pour justifier le choix de
son sujet portant sur l’étude du passé simple et de l’imparfait.
(11)
Après avoir lit la lecture de quelques livres linguistiques de Gosselin, Touratier,
Bres, etc., nous pousse à étudier et analyser le passé simple et l’imparfait.
(linguistique_1) (Correction proposée : La lecture des ouvrages de […] nous amène à
nous intéresser à l’étude et à l’analyse du passé simple et de l’imparfait.)
28 Par ailleurs, au-delà des problèmes d’ordre syntaxique, la maitrise insuffisante des
routines verbales dans l’écrit scientifique conduit souvent l’apprenant à construire des
formulations maladroites, comme le montrent les exemples 12 et 13 :
(12)
Se pose alors la question de savoir, comme le considère Gosselin, si le caractère
essentiel de l’imparfait est bien d’être un temps grammatical du passé ou au
contraire… (linguistique_1) (structure erronée : comme s’interroge Gosselin)
(13)
Il est hors de doute que Meschonnic considère la poétique comme une théorie
plus profonde et plus complète que la linguistique. (Correction proposée :
Meschonnic considère…) (traduction_1)
29 Ces derniers exemples peuvent être considérés comme des maladresses puisqu’ils ne
sont pas strictement erronés du point de vue linguistique. Ils montrent que les
apprenants ne disposent pas de moyens linguistiques suffisants pour exprimer
adéquatement certaines fonctions rhétoriques, qu’il s’agisse de faire référence à un
chercheur (exemple 12) ou d’introduire un point de vue personnel moins tranché dans
un discours à visée objectivante (Boch, 2013) (exemple 13). Nous croyons que ces
erreurs ou plutôt maladresses sont attribuables au fait que les apprenants sont peu
familiarisés avec le genre de l’écrit académique, en particulier aux routines spécifiques
ou fréquentes dans ce genre d’écriture.
30 Les erreurs au niveau du registre représentent 3,6 % des cas recensés dans Yan (2017)
(8 erreurs sur 221 erreurs recensées). Ces erreurs se rapportent au cas où l’apprenant
emploie une expression ou une structure appartenant à un registre inapproprié, en
mélangeant notamment des usages oraux et écrits. Il est important de souligner que ces
erreurs sont parmi les moins fréquentes, mais nous pensons qu’elles sont plus
Lidil, 58 | 2018
56
33 En dehors des erreurs, la langue de l’apprenant se distingue de celle des natifs par des
cas de sous-emploi de mots, d’expressions et de structures syntaxiques (autrement dit
« des spécificités »), lesquels « associés aux erreurs pures et simples, trahissent
l’origine allophone des apprenants » (Granger, 2007, p. 132). En effet, en construisant
leur interlangue, les apprenants peuvent commettre des erreurs grammaticales,
élaborer des traductions spécifiques et sous-employer des mots ou des expressions. Ces
cas se cumulent et se rencontrent fréquemment dans un même paragraphe. Dans le
domaine de l’English for Academic Purposes, ces spécificités sont étudiées de manière
assez systématique, notamment avec la méthode d’analyse Contrastive Interlanguage
Analysis (Granger, 1996) qui consiste à effectuer des comparaisons quantitative et
qualitative entre les productions des locuteurs natifs et non natifs ou celles entre les
différents groupes de locuteurs non natifs. Notre analyse comparative porte sur les
trois corpus présentés plus haut et se rapporte aux routines présentées dans le
tableau 1, illustrées dans le corpus d’experts Transdisciplinaire-TermITH. À titre
Lidil, 58 | 2018
57
d’exemple, nous avons calculé la fréquence relative de ces routines et observé dans un
deuxième temps la fréquence et la diversité de ces routines dans les corpus Sup-Natifs
et Sup-Chinois. Les résultats de comparaison apparaissent dans la figure 1.
Figure 1. – La proportion des routines sous-employées ou absentes chez les apprenants chinois
(en % sur le nombre total de verbes d’examen).
34 De manière générale, l’emploi des routines chez les experts se distingue par une plus
grande diversité. Dans la figure 1, on voit bien que plusieurs routines sont absentes
chez les apprenants chinois : il s’agit de V, consister à V, il convient/importe de V, si l’on V, il
est intéressant/important de V. Notons par ailleurs que les trois dernières routines sont
également absentes chez les novices français. Ces omissions peuvent être liées à des
différences au niveau du genre et de la discipline, mais semblent surtout révéler que les
étudiants français comme les apprenants chinois ont une connaissance limitée de
l’emploi de ces routines verbales. On peut avancer que ces deux publics sont confrontés
à fois à la diversité et à la complexité de ces routines verbales en tant que novices dans
ce genre discursif. Autrement dit, ils n’ont pas à leur disposition les moyens
linguistiques permettant de souligner l’intérêt ou la nécessité de l’étude, mettre en
évidence un fait saillant, etc.
35 En outre, il est intéressant de constater que les deux routines permettre de V et nous V
d’abord/ensuite/enfin sont bien présentes chez les apprenants chinois. Certaines
fonctions rhétoriques comme « annoncer le plan d’organisation » et « établir une
relation causale » posent moins de problèmes pour les apprenants chinois.
En revanche, la fonction de topicalisation (il convient/importe de V, il est intéressant/
important de V, etc.) visant à expliciter ou à mettre en relief le topique ou le focus
(Creissels, 2004) et la fonction de dialogisme (Grossmann & Tutin, 2010) consistant à
impliquer le lecteur (si l’on V) semblent ignorées, non seulement par les apprenants
chinois, mais aussi par les novices français. Ces lacunes peuvent donc s’expliquer par le
fait que ces publics n’ont pas encore construit une représentation précise du
fonctionnement du discours scientifique, étant peu familiarisés avec certaines
fonctions spécifiques au genre.
36 Si l’on observe la proportion des routines il s’agit de V, consister à V, on constate que
l’emploi des routines des novices français se rapproche davantage de celui des experts,
Lidil, 58 | 2018
58
tant en termes de diversité que de fréquence. En fait, ce type de routines qui renvoie
davantage à des procédures est moins complexe du point de vue rhétorique. En outre,
on peut supposer qu’une meilleure maitrise de la langue facilite sans conteste la
rédaction scientifique des étudiants français. Ce n’est pas le cas des étudiants chinois
qui, en outre, n’ont pas appris à argumenter dans le système éducatif chinois et sont
moins sensibilisés au genre textuel de l’écrit scientifique (Bi, 2016). L’exemple (16)
suivant semble confirmer notre hypothèse :
(16)
Il nous vaut mieux de considérer le paysage de la littérature comme une
combinaison de la littérature et le paysage, au lieu de considérer la littérature
comme un miroir solitaire qui ne reflète ou déforme que le monde extérieur.
(littérature_7) (Correction proposée : il nous semble préférable de considérer…)
37 Dans l’exemple (16), il semble que l’étudiant souhaite émettre un jugement. La
construction il nous vaux mieux de considérer est incorrect. Il est donc possible de penser
que l’étudiant ne dispose pas de moyens linguistiques pour exprimer ce sens.
38 L’analyse des erreurs associée au repérage des cas de sous-emploi nous a permis
d’identifier les principales difficultés liées à l’utilisation des routines chez les étudiants
chinois. Ces difficultés peuvent relever de deux niveaux : structures syntaxiques et
fonctionnement discursif des routines. D’abord, les structures syntaxiques des routines
verbales restent une source d’erreurs principales (l’omission d’un élément, structures
inexistantes ou maladroites). Ensuite, il apparait que les étudiants français comme les
apprenants chinois ne maitrisent pas la diversité des routines rhétoriques récurrentes
chez les experts. En effet, les routines verbales sont des éléments phraséologiques
complexes du fait de leurs variations syntagmatiques et de la spécificité des
associations lexicales. L’absence ou le sous-emploi de certaines routines verbales/
fonctions rhétoriques chez les apprenants chinois nous amène à penser que d’une part,
ils ont une connaissance limitée des routines pour exprimer leurs idées, par exemple,
les routines comportant le pronom impersonnel il (il convient/importe de V) semblent
non maitrisées par les apprenants chinois ; et d’autre part, qu’ils ne maitrisent pas
l’emploi de certaines fonctions rhétoriques complexes comme celles qui mettent en jeu
le dialogisme interlocutif et la topicalisation.
39 Si l’on compare les novices français aux apprenants chinois, on observe de réelles
différences. Comme Gilquin et Paquot (2008), nous pensons que les écrits académiques
des étudiants natifs occupent une place intermédiaire entre ceux des apprenants
chinois et ceux des experts. Le statut de novice en matière de rédaction scientifique
confronte de manière comparable les étudiants natifs et non natifs aux difficultés des
routines rhétoriques, en particulier celles qui sont spécifiques au discours scientifique.
Les étudiants natifs connaissent peut-être mieux la langue, mais ne maitrisent pas
encore les normes du genre. Les difficultés sont plus grandes pour les apprenants
chinois, du fait de leur statut d’apprenants du français, qu’il s’agisse des confusions de
registre, des erreurs syntaxiques ou des emplois maladroits.
40 Tenant compte des difficultés relevées, nous souhaitons proposer maintenant des pistes
didactiques pour enseigner les routines verbales et aider les étudiants allophones dans
la rédaction académique.
Lidil, 58 | 2018
59
4. Pistes didactiques
41 Les difficultés des apprenants chinois relèvent non seulement du lexique, mais aussi du
discours. À l’instar de Cavalla (2009), nous pensons que l’acquisition des routines
verbales ne saurait se réduire à l’acquisition d’un savoir sur les formes et leur sens,
mais qu’il faut, en outre, introduire une composante discursive. Par exemple, dans
quelle partie du texte peut-on utiliser les routines ? À quoi servent les routines ? Nos
propositions didactiques visent, d’une part, à aider les étudiants allophones à bien
repérer l’emploi des routines verbales récurrentes dans l’écrit scientifique et, d’autre
part, à les faire réfléchir sur ces éléments dans l’objectif de prendre en compte les
spécificités liées au genre du discours.
42 Notre approche didactique s’inscrit dans les travaux en data-driven learning (DDL) initiés
par Johns (1991). Le DDL vise à donner aux apprenants « un accès direct aux données
linguistiques » et à les placer au cœur de l’apprentissage, ce qui leur permet d’endosser
un rôle de « détective » et de construire par conséquent leurs propres savoirs de façon
inductive (Johns, 1991, p. 30). Selon McEnery et Xiao (2010), le corpus donne accès à une
« approche opérationnelle des trois “i” », c’est-à-dire, « Illustration – Interaction –
Induction » :
Par illustration on entend le fait de présenter à la classe d’étudiants en langues
étrangères des données réelles ; l’interaction concerne la deuxième phase du travail
des étudiants qui échangent leurs opinions et leurs observations ; enfin l’induction
permet à l’étudiant de se créer sa propre « règle » (qui sera affinée au fur et à
mesure que le corpus de données s’élargit) sur le phénomène étudié. (Di Vito, 2013,
p. 160)
43 L’utilisation des corpus en classe de langue n’est pas nouvelle. De nombreuses études
empiriques soulignent que les corpus se révèlent efficaces par rapport à d’autres
formes de pratiques, et ceci, dans différents contextes d’enseignement (Cobb &
Boulton, 2015), dans la mesure où ils facilitent l’accès aux données et favorisent une
activité d’observation et des compétences d’induction. Notre objectif est donc
d’enseigner les routines verbales à l’aide de corpus en classe de FLE. Plus concrètement,
nous avons adopté deux modes d’enseignement à l’aide des corpus en classe proposés
par Fligelstone (1993), à savoir « exploiter les corpus pour enseigner » (exploiting to
teach) ou « apprendre à exploiter les corpus » (teaching to exploit). La première peut se
rapporter aux fins d’utilisation didactique, consistant donc à « exploiter les corpus et
l’interprétation des résultats pour enseigner une langue » (Cavalla & Loiseau, 2014,
p. 165) ; la deuxième vise à former l’apprenant à travailler sur les données des corpus
ou à exploiter les corpus, par exemple, pour apprendre une langue étrangère dans le
cas qui nous intéresse ici.
44 En ce qui concerne l’approche « exploiter les corpus pour enseigner », nous avons
montré dans la section 2 comment l’exploitation du corpus Transdisciplinaire-TermITH
permettait de construire une ressource lexicale sur les routines verbales, qui servira de
matériau pédagogique pour aider les apprenants dans la rédaction scientifique. Cette
ressource regroupe les données d’environ 50 verbes et propose un accès
onomasiologique par fonction rhétorique (Yan, 2017). À l’instar de Pecman et
Kübler (2011), nous considérons que la proposition d’un accès onomasiologique par
fonction discursive est pertinente dans la conception d’un outil d’aide à la rédaction
Lidil, 58 | 2018
60
46 Comme le soulignent Cavalla et Loiseau (2014), le travail sur les concordances permet
aux étudiants de mener une réflexion métalinguistique, mettant en jeu une activité
d’observation et des compétences d’induction. L’activité réflexive des apprenants est
essentielle pour les sensibiliser au lexique.
En se posant tout haut les questions qu’il se pose tout bas, c’est-à-dire en laissant
apparaître des traces de ses activités de réflexion sur le nouveau système,
l’apprenant se donne une chance d’aboutir à des réponses, c’est-à-dire de
Lidil, 58 | 2018
61
Le pays 1 est plus impatient que il est nécessaire la répartition du capital avant de pouvoir
l’autre, il consomme toute sa d’étudier poser une condition nécessaire et
richesse puis disparait tandis que suffisante sur les paramètres qui assure
l’autre pays devient l’économie que la richesse du pays 2 est initialement
mondiale. positive.
Lidil, 58 | 2018
62
5. Conclusion
51 Dans cet article, nos objectifs étaient à la fois linguistiques et didactiques. Nous avons
présenté quelques routines verbales abordées dans la thèse de Yan (2017), mises en
évidence avec une méthode combinant les techniques de TAL et l’analyse linguistique
manuelle. Il a été montré que les routines se caractérisent non seulement par la
diversité des réalisations lexicales, mais aussi par des fonctions rhétoriques spécifiques
du genre.
52 L’analyse des productions des apprenants chinois a révélé que les difficultés liées à
l’utilisation des routines verbales relèvent non seulement des structures syntaxiques,
Lidil, 58 | 2018
63
BIBLIOGRAPHIE
ARDITTY, Joseph & VASSEUR, Marie-Thérèse. (1996). Les activités réflexives en situation de
communication exolingue. AILE, 8, 57-88.
BI, Xiao. (2016). Rhétorique de la dissertation : étude contrastive des conventions d’écriture académique en
français et en chinois (Thèse de doctorat en didactique des langues et des cultures publiée).
Université Sorbonne Paris Cité.
BOCH, Françoise. (2013). Former les doctorants à l’écriture de la thèse en exploitant les études
descriptives de l’écrit scientifique. Dans F. Komesu & L. Tenani (dir.), Écriture et discours, Revista
Linguagem em (Dis)curso, 3(13), 543-568.
BOULTON, Alex, CANUT, Emmanuelle, GUERIN, Emmanuelle, PARISSE, Christophe & TYNE, Henry.
(2013). Corpus et appropriation de L1 et L2. Linx. Revue des linguistes de l’Université Paris Nanterre,
68-69, 9-32.
CAVALLA, Cristelle. (2009). La phraséologie en classe de FLE. Les Langues modernes, 2009(1).
Disponible en ligne sur <http://www.aplv-languesmodernes.org/…article2292> (consulté le
12 novembre 2017).
CAVALLA, Cristelle. (2015). Collocations transdisciplinaires dans les écrits de doctorants FLS/FLE.
Dans F. Sitri & F. Rinck (dir.), Former à l’écrit universitaire (p. 95-110). Paris : Linx.
CAVALLA, Cristelle & LOISEAU, Mathieu. (2014). Scientext comme corpus pour l’enseignement. Dans
F. Grossmann & A. Tutin (dir.), L’écrit scientifique : du lexique au discours. Autour de Scientext
(p. 163-180). Rennes : Presses universitaires de Rennes.
CIEKANSKI, Maude. (2014). Les corpus : de nouvelles perspectives pour l’apprentissage des langues
en autonomie ? Recherches en didactique des langues et des cultures, 11(1). Disponible en ligne sur
<http://journals.openedition.org/rdlc/1710> (consulté le 17 février 2018).
COBB, Tom & BOULTON, Alex. (2015). Classroom Applications of Corpus Analysis. Dans D. Biber &
R. Reppen (dir.), Cambridge Handbook of English Corpus Linguistics (p. 478-497). Cambridge :
Cambridge University Press.
Lidil, 58 | 2018
64
CREISSELS, Denis. (2004). Cours de syntaxe générale. Topicalisation et focalisation (chapitre 17).
Disponible en ligne sur <https://fr.scribd.com/doc/280633674/Creissels-COURS-DE-SYNTAXE-
pdf> (consulté le 5 novembre 2017).
DI VITO, Sonia. (2013). L’utilisation des corpus dans l’analyse linguistique et dans l’apprentissage
du FLE. Linx, 68-69, 159-176.
DUBOIS, Jean & DUBOIS-CHARLIER, Françoise. (1997). Les verbes français. Paris : Larousse-Bordas.
FLIGELSTONE, Steven (1993). Some Reflections on the Question of Teaching, from a Corpus
Linguistics Perspective. ICAME Journal, 17, 97-109.
GILQUIN, Gaëtanelle & PAQUOT, Magali. (2008). Too Chatty: Learner Academic Writing and Register
Variation. English Text Construction, 1(1), 41-61.
GRANGER, Sylviane. (1996). From CA to CIA and Back : An Integrated Approach to Computerized
Bilingual and Learner Corpora. Dans K. Aijmer, B. Altenberg & M. Johansson (dir.), Languages in
Contrast. Text-Based Cross-Linguistic Studies (p. 37-51). Lund University Press : Lund.
GRANGER, Sylviane. (2007). Corpus d’apprenants, annotation d’erreurs et ALAO : une synergie
prometteuse. Cahiers de lexicologie, 91(2), 117-132.
GRANGER, Sylviane & PAQUOT, Magali. (2009). Lexical Verbs in Academic Discourse: A Corpus-
Driven Study of Learner Use. Dans M. Charles, D. Pecorari & S. Hunston (dir.), Academic Writing: At
the Interface of Corpus and Discourse (p. 193-214). Londres : Continuum.
GRANGER, Sylviane, GILQUIN, Gaëtanelle & MEUNIER, Fanny (dir.). (2015). The Cambridge Handbook of
Learner Corpus Research. Cambridge : Cambridge University Press.
GROSSMANN, Francis & TUTIN, Agnès. (2010). Les marqueurs verbaux de constat : un lieu de
dialogisme dans l’écrit scientifique. Dans Actes du colloque « Dialogisme : langue, discours ».
Disponible en ligne sur <www.praxiling.fr/dialogisme-langue-discours.html> (consulté le
22 décembre 2017).
HANKS, Patrick. (2013). Lexical Analysis: Norms and Exploitations. MIT Press.
HATIER, Sylvain, AUGUSTYN, Magdalena, JACQUES, Marie-Paule, TRAN, Thi Thu Hoai, TUTIN, Agnès &
YAN, Rui. (2016). French Cross-Disciplinary Scientific Lexicon: Extraction and Linguistic Analysis.
Dans T. Margalitadze & G. Meladze (dir.), Lexicography and Linguistic Diversity: Proceedings of the
XVII EURALEX International Congress (p. 355-366). Tbilissi, Géorgie : Ivane Javakhishvili Tbilisi
University Press. Disponible en ligne sur <https://euralex2016.tsu.ge/publication2016.pdf>.
HATIER, Sylvain & YAN, Rui. (2017). Analyse contrastive des patrons verbaux dans l’écrit
scientifique entre scripteurs étudiants et experts. Dans I. Eshkol-Taravella & A. Lefeuvre-
Halftermeyer (dir.), Linguistique de corpus : vues sur la constitution, l’analyse et l’outillage, CORELA,
numéro spécial HS-21. Disponible en ligne sur <http://journals.openedition.org/corela/4879>
(consulté le 20 décembre 2017).
JACQUES, Marie-Paule & RINCK, Fanny. (2017). Un « corpus de littéracie avancée » : résultat et point
de départ. Dans J. David, C. Doquet & S. Fleury (dir.), Spécificités et contraintes des grands corpus de
textes scolaires : problèmes de transcription, d’annotation et de traitement, CORPUS, 16, 217-237.
Lidil, 58 | 2018
65
JOHNS, Tim. (1991). Should You Be Persuaded: Two Examples of Data-Driven Learning. Dans
T. Johns & P. King (dir.), Classroom Concordancing, English Language Research Journal, 4, 1-16.
KÜBLER, Natalie. (2014). Mettre en œuvre la linguistique de corpus à l’université : vers une
compétence utile pour l’enseignement/apprentissage des langues ? Recherches en didactique des
langues et des cultures. Les Cahiers de l’Acedle, 11(1), 37-77.
KRAIF, Olivier & DIWERSY, Sascha. (2012). Le Lexicoscope : un outil pour l’étude de profils
combinatoires et l’extraction de constructions lexico-syntaxiques. Dans G. Antoniadis,
H. Blanchon & G. Sérasset (dir.), Actes de la conférence conjointe JEP-TALN-RECITAL 2012 (vol. 2,
p. 399-406). Grenoble : ATALA & AFCP.
LAKE, John. (2004). Using “On the Contrary”: The Conceptual Problems for EAP Students. ELT
Journal, 58(2), 137-144.
LEGALLOIS, Dominique & TUTIN, Agnès. (2013). Présentation – Vers une extension du domaine de la
phraséologie. Langages, 189(1), 3-25.
MCENERY, Tony & XIAO, Richard. (2010). What Corpora Can Offer in Language Teaching and
Learning. Dans E. Hinkel (dir.), Handbook of Research in Second Language Teaching and Learning
(p. 364-380). Londres : Routledge.
PAQUOT, Magali. (2010). Academic Vocabulary in Learner Writing: From Extraction to Analysis. Londres :
Continuum International Publishing Group.
PECMAN, Mojca & KÜBLER, Natalie. (2011). ARTES: An Online Lexical Database for Research and
Teaching in Specialized Translation and Communication. Dans Proceedings from International
Workshop on Lexical Resources (WoLeR) (p. 87-93). Ljubljana, Slovénie.
TRAN, Thi Thu Hoai. (2014). Développement d’une aide à l’écrit scientifique. Description de la phraséologie
scientifique et réflexion didactique pour l’enseignement à des étudiants non natifs (Thèse de doctorat en
sciences du langage). Université Grenoble Alpes, Grenoble.
TUTIN, Agnès. (2014). La phraséologie transdisciplinaire des écrits scientifiques : des collocations
aux routines sémantico-rhétoriques. Dans A. Tutin & F. Grossmann (dir.), L’écrit scientifique : du
lexique au discours. Autour de Scientext (p. 27-44). Rennes : Presses universitaires de Rennes.
TUTIN, Agnès & GROSSMANN, Francis. (2014). L’écrit scientifique : du lexique au discours. Autour de
Scientext. Rennes : Presses universitaires de Rennes.
TUTIN, Agnès & KRAIF, Olivier. (2016). Routines sémantico-rhétoriques dans l’écrit scientifique de
sciences humaines : l’apport des arbres lexico-syntaxiques récurrents. Lidil, 53, 119-141.
YAN, Rui. (2017). Étude des constructions verbales scientifiques dans une perspective didactique :
utilisation des corpus dans le diagnostic des besoins langagiers du FLE à l’aide des techniques de TAL
(Thèse de doctorat en sciences du langage). Université Grenoble Alpes, Grenoble.
Lidil, 58 | 2018
66
NOTES
1. TermITH (Terminologie et Indexation de Textes en sciences Humaines) : ANR-12-CORD-0029
CONTINT. ATILF, INIST, LIDILEM, LINA, INRIA NGE et Saclay : <www.atilf.fr/ressources/termith/>
(consulté le 20 décembre 2017).
2. Les cadres de sous-catégorisation sont un ensemble des relations de dépendances impliquant
le verbe étudié. Le travail de l’extraction des cadres a été effectué par Sylvain Hatier (2016).
3. ~ signifie que le pivot (soit le verbe étudier dans l’exemple) est en position de dépendant.
ADJMOD représente un modifieur adjectival.
4. Il existe en deux versions (papier et électronique) : <http://rali.iro.umontreal.ca/rali/?q=fr/
LVF> (consulté le 2 décembre 2017).
5. Lexicoscope permet d’extraire à la fois des concordances et des lexicogrammes, c’est-à-dire des
tables de cooccurrences ; la technique est basée sur la mesure d’association — le loglike. Il est
accessible en ligne sur <http://phraseotext.u-grenoble3.fr/lexicoscope/index.php>.
6. Il s’agit d’un sous-corpus du corpus Littéracie avancée (Jacques & Rinck, 2017), constitué pour
analyser les compétences rédactionnelles en français langue maternelle à un niveau avancé et
développer, par la suite, des ressources didactiques.
RÉSUMÉS
Dans cet article, qui porte sur l’utilisation des corpus à des fins didactiques, nous abordons les
routines langagières qui sont particulièrement présentes dans les corpus d’écrits scientifiques et
académiques en français et nous présentons les difficultés liées à l’utilisation de ce phénomène
chez les étudiants allophones. L’étude de diagnostic nous permet ensuite de proposer des
exemples d’activités développées à l’aide du corpus Transdisciplinaire-TermITH auprès
d’étudiants allophones.
In this article, which focuses on the use of corpora for didactic purposes, we will discuss the
linguistic routines that are particularly present in scientific and academic writings in French. We
will present the difficulties related to this lexicon amongst non-native speaking students. This
initial diagnostic work then allows us to propose examples of activities for foreign language
students developed with the Transdisciplinaire-TermITH corpus.
INDEX
Mots-clés : linguistique de corpus, routines, fonctions rhétoriques
Keywords : corpus linguistics, routines, rhetorical functions
AUTEURS
RUI YAN
LIDILEM, Université Grenoble Alpes
rui.yan@univ-grenoble-alpes.fr
Lidil, 58 | 2018
67
AGNÈS TUTIN
LIDILEM, Université Grenoble Alpes
agnes.tutin@univ-grenoble-alpes.fr
Lidil, 58 | 2018
68
1. Introduction
1 Ce travail s’inscrit dans la lignée de ceux de Tutin (2007), Chambers (2010) et Boulton et
Tyne (2014), qui traitent de l’introduction de corpus dans l’enseignement/
apprentissage du français en tant que langue étrangère. Dans un objectif d’aide à la
rédaction scientifique, nous nous intéressons au lexique transdisciplinaire scientifique
(Tutin, 2010) et plus précisément aux marqueurs discursifs qui servent à structurer le
texte, comme moyen pour aider les apprenants à acquérir les spécificités du discours
académique. En effet, plusieurs études ont relevé des difficultés lexicales des
apprenants pour la rédaction de productions écrites. Les erreurs peuvent être d’ordre
syntaxique ou sémantique (Paquot, 2010 ; Osborne, 1994 ; De Cock, 2004) ou relever de
la combinatoire lexicale (Simard, 1994). Les apprenants rencontrent notamment des
difficultés en utilisant des séquences récurrentes (Howarth, 1998 ; Gledhill, 2000 ;
De Cock, 2004). Cet article porte sur les expérimentations que nous avons menées
auprès des étudiants non natifs afin de les familiariser avec quelques propriétés des
écrits scientifiques en français, en recourant aux avantages des corpus informatisés et
du TAL (Traitement automatique des langues). Nous rejoignons Wray (2002) pour
affirmer qu’une connaissance des éléments phraséologiques fréquents dans ces écrits
permettrait aux étudiants d’acquérir des normes stylistiques d’un genre particulier, et
de mieux s’intégrer dans une communauté.
2 Dans ce travail, nous insistons sur l’importance des corpus dans l’enseignement/
apprentissage des phénomènes langagiers. Depuis les premiers travaux de Johns (1991)
sur le data-driven learning, plusieurs travaux démontrent le rôle des corpus en
Lidil, 58 | 2018
69
didactique des langues (Chambers, 2010 ; Boulton & Tyne, 2014). Les corpus permettent
aux étudiants de travailler sur des données authentiques, et représentent donc pour
eux un réel intérêt. Ces ressources favorisent une prise de conscience des phénomènes
linguistiques (Landure, 2013), un développement de l’autonomisation et la capacité de
responsabilisation.
3 Malgré les avantages des corpus, leur introduction en classe de langue se heurte à de
nombreuses réticences comme l’ont remarqué avec justesse Cavalla et Loiseau (2013).
Ce phénomène s’explique par les difficultés liées aux outils, mais aussi à l’enseignant et
aux apprenants. Premièrement, force est de constater que les corpus ne proposent pas
une exploitation directe des données. Deuxièmement, il manque encore des formations
destinées aux enseignants de FLE (français langue étrangère) sur l’utilisation de ces
outils. Nous sommes de même avis que Johns (1991) et Mauranen (2004) sur le rôle de
l’enseignant pour la réussite de l’utilisation des corpus en classe de langue.
L’enseignant doit avant tout prendre conscience de l’utilité de ces outils. Enfin, une
autre difficulté, d’ordre cognitif, vient des apprenants. Certes, les corpus offrent un
large choix d’exemples, mais la masse d’informations risque d’intimider les apprenants
et de les faire tomber rapidement dans la surcharge cognitive. C’est pourquoi
l’enseignant joue un rôle important dans la sélection des exemples pertinents en
fonction des objectifs d’apprentissage.
4 Notre recherche se situe donc à l’intersection de plusieurs domaines, à savoir la
linguistique de corpus, le TAL, et la didactique du français sur objectif
universitaire (FOU) (Mangiante & Parpette, 2011). Cet article décrit une investigation
visant à trouver une mise à disposition optimale des corpus pour les apprenants et les
enseignants en nous appuyant sur les remarques des utilisateurs. En effet, nous
souhaitons tirer profit des avantages du TAL pour mettre en place une ressource pour
une aide à la rédaction universitaire auprès d’un public allophone. Les
expérimentations que nous avons menées apportent des retours enrichissants pour la
conception d’un outil adaptable à un public FLE aussi bien sur le plan formel que sur le
contenu.
5 Nous présentons dans le cadre de ce travail un outil qui allie les avantages de la
linguistique de corpus, les résultats de l’analyse linguistique et les exploitations
didactiques au service de la rédaction scientifique. C’est dans cette perspective de
permettre au corpus de jouer pleinement son rôle de ressource lexicale que le projet
Dicorpus1 a débuté en 2013 (Tutin & Falaise, 2013 ; Jacques, Hartwell & Falaise, 2013 ;
Falaise, 2013). Nous présenterons dans cet article la plateforme Dicorpus, son
expérimentation et son évolution depuis 2013.
6 Nous allons tout d’abord évoquer quelques dictionnaires existants qui permettent de
différencier notre ressource. Nous passons en revue par la suite la méthodologie de
travail avant de présenter en détail notre outil Dicorpus. Enfin, nous allons décrire
deux expérimentations effectuées qui guideront les futures améliorations de notre
outil.
2. Outils existants
7 À notre connaissance, deux dictionnaires partagent le même objectif que le nôtre, c’est-
à-dire la mise en place d’un outil d’aide à la rédaction. Il nous semble nécessaire
d’analyser l’organisation de ces deux dictionnaires avant d’expliciter le fonctionnement
Lidil, 58 | 2018
70
de notre outil. Il est à noter que les deux dictionnaires ne sont pas accessibles au grand
public.
8 Le dictionnaire ARTES2 (fig. 1) est un outil d’aide à la rédaction et à la traduction en
langues de spécialité, développé par l’équipe de recherche de l’UFR EILA et du CLILLAC-
ARP de l’université Paris Diderot. Ce dictionnaire est constitué dans une perspective
contrastive. Les éléments phraséologiques (les suites de mots) sont organisés d’après
leurs fonctions discursives. Par exemple, pour introduire une transition, l’utilisateur a
à sa disposition quelques exemples correspondants.
9 Ayant la même optique fonctionnelle, le dictionnaire LEAD (Louvain English Academic
Purposes Dictionary − Granger & Paquot, 2010) se compose de 900 mots et expressions,
relevés dans un grand corpus de textes académiques (dont une sélection du British
National Corpus), ainsi que de corpus d’apprenants (English as a Foreign Language) dont la
langue maternelle est, pour une grande majorité, le français. L’objectif principal du
dictionnaire est de mettre à disposition des utilisateurs des moyens linguistiques de
base. En effet, il offre aux utilisateurs une riche description du lexique
transdisciplinaire des écrits scientifiques en anglais et porte essentiellement sur la
phraséologie, en particulier les collocations et les segments répétés.
10 Dans le LEAD (fig. 2), les utilisateurs peuvent accéder au dictionnaire par différents
modes comme le mode sémasiologique (de la forme au sens) qui permet d’effectuer une
recherche par le lemme et le mode onomasiologique (du sens à la forme) par le biais d’une
liste des fonctions rhétoriques ou organisationnelles du discours scientifique (au total
18 fonctions). Pour chaque fonction, l’utilisateur peut accéder à une liste des éléments
lexicaux typiques dans le discours scientifique et pour chaque catégorie grammaticale
(noms, verbes, adjectifs, adverbes, conjonctions et prépositions).
Lidil, 58 | 2018
71
Figure 2. – Accès onomasiologique dans LEAD (d’après Granger & Paquot, 2010, p. 323).
3. Méthodologie
12 Dans le projet Dicorpus, nous nous appuyons sur quatre ressources, qui seront
détaillées dans cette partie :
• un corpus, dans lequel l’enseignant sélectionne des exemples ;
• la base d’exemples ainsi constituée par l’enseignant ;
• une base de métadonnées lexicographiques concernant ces exemples, créée par
l’enseignant ;
• et enfin l’interface utilisateur Dicorpus, qui permet la consultation, par les apprenants, des
deux bases précédemment citées (exemples et métadonnées associées).
13 Nous avons mené deux expérimentations auprès d’étudiants non natifs pendant deux
années consécutives, en 2015-2016 et 2016-2017, dans l’objectif de comprendre
comment ceux-ci utilisent le Dicorpus, et ainsi de pouvoir proposer par la suite un outil
qui répond au mieux à leurs attentes. La préparation du dictionnaire pour la classe a
été prise en charge par une seule enseignante. Chaque groupe-classe comprend une
vingtaine d’étudiants. Ceux-ci ont passé trois séances à travailler sur Dicorpus en
classe, après quoi ils ont été invités à travailler chez eux sur cet outil. Il est à noter que
les étudiants doivent rendre un devoir qui correspond à une partie textuelle dans un
écrit universitaire, par exemple l’introduction ou la conclusion.
Lidil, 58 | 2018
72
14 Le corpus Scientext (Tutin & Grossmann, 2012) est un méta-corpus arboré, annoté avec
l’analyseur Syntex (Bourigault, 2007), et constitué de plusieurs corpus de textes
scientifiques. L’un d’entre eux est particulièrement utile pour le projet Dicorpus ; il
s’agit du corpus de textes scientifiques en français (205 documents, 5 millions de mots).
Ce corpus a été constitué dans le cadre du projet Scientext3, afin d’étudier les marques
transdisciplinaires du positionnement et du raisonnement dans les écrits scientifiques.
15 Ce corpus présente deux caractéristiques intéressantes pour la didactique du français
académique.
16 D’une part, il est représentatif du type de réalisation idéalement attendu des
apprenants. Par exemple, on peut voir que la locution « au passage » à valeur
rhétorique est beaucoup moins utilisée par les apprenants que par les scientifiques
(fig. 3), en comparant le corpus Scientext avec un corpus de mémoires de master de
SHS, rédigés par des apprenants du français (corpus de 39 mémoires, 600 000 mots,
collecté au LIDILEM).
17 D’autre part, la phraséologie du discours académique n’est pas homogène, mais varie en
fonction de la disciplines, du sous-genre, ou encore des parties textuelles), et le corpus
Scientext prend en compte ces différences.
18 Ainsi, ce corpus couvre huit disciplines (biologie, électronique, linguistique, mécanique,
médecine, psychologie, sciences de l’éducation et traitement automatique des langues).
Par exemple, la locution « au passage » à valeur rhétorique n’est, d’après notre corpus,
pratiquement jamais utilisée en psychologie, mais est attestée en TAL, en linguistique,
et particulièrement en sciences de l’éducation (fig. 4).
Lidil, 58 | 2018
73
Figure 5a. – Fréquence relative de la locution « au passage » à valeur rhétorique dans un corpus
d’apprenants (à gauche), et dans trois parties textuelles du corpus de textes scientifiques
Scientext.
Lidil, 58 | 2018
74
Figure 5b. – Fréquence relative de la locution « au passage » à valeur rhétorique dans un corpus
d’apprenants (à gauche), et dans trois parties textuelles du corpus de textes scientifiques
Scientext.
21 Le corpus Scientext a ainsi été utilisé dans plusieurs travaux portant sur l’aide à la
rédaction scientifique et à la didactique de l’écrit académique : soit seul,
indépendamment d’une plateforme (Hartwell & Jacques, 2012 ; Cavalla & Loiseau, 2013),
ou bien en lien avec le projet Dicorpus (Tutin & Falaise, 2013 ; Jacques, Hartwell &
Falaise, 2013 ; Falaise, 2013).
22 La plateforme d’exploration linguistique ScienQuest (Falaise, Tutin & Kraif, 2011) a été
initialement développée dans le cadre du projet Scientext. Elle permet d’afficher des
concordances sur corpus, à l’aide d’une interface qui permet d’éviter, dans la plupart
des cas, l’utilisation d’un langage de requêtes, et son ergonomie a été travaillée pour
être accessible à des linguistes sans formation préalable.
23 Dans le cadre du projet Dicorpus, nous avons réalisé une interface spécifique pour les
apprenants (infra « l’interface utilisateur Dicorpus »), mais nous n’avons pas encore
effectué ce travail pour les enseignants, qui doivent utiliser l’interface classique de
ScienQuest pour constituer la base d’exemples.
24 Pour constituer cette base, l’enseignant effectue donc une recherche dans ScienQuest
(étapes 1 et 2 de la fig. 6), puis filtre les résultats qui lui semblent pertinents pour les
apprenants (étape 3). Enfin, l’enseignant sauvegarde cette sélection dans un fichier
qu’il télécharge (étape 4). L’ensemble de ces fichiers constitue la base d’exemples.
Lidil, 58 | 2018
75
25 Afin d’organiser la base d’exemples, l’enseignant doit créer un autre fichier, qui
contient les métadonnées de chaque entrée lexicale, telles que la catégorie
onomasiologique (fig. 8), ainsi que les données de la notice linguistique (fig. 10 :
catégorie, position dans la phrase, portée, définition, fréquence, etc.).
26 Techniquement, cette base consiste en un unique fichier au format CSV, que
l’enseignant peut éditer avec un tableur. Chaque ligne correspond à une entrée lexicale
(par exemple la locution adverbiale au passage), et chaque colonne à une métadonnée
(catégorie onomasiologique, catégorie grammaticale, position dans la phrase, etc.).
27 L’interface ScienQuest, conçue pour des linguistes, n’est pas adaptée à des apprenants
de langue. C’est pourquoi nous avons commencé à travailler en 2013 sur une interface
« Dicorpus », adaptée aux apprenants (Tutin & Falaise, 2013 ; Jacques, Hartwell &
Falaise, 2013 ; Falaise, 2013), distincte de ScienQuest. Nous rappelons dans cette partie
les grands principes de cette interface, et dans la partie suivante, nous présenterons les
expérimentations que nous avons effectuées, ainsi que les changements fonctionnels
que ces dernières nous ont conduit à opérer depuis 2013.
28 L’interface Dicorpus est organisée en deux grandes parties (fig. 7) :
1. L’interface lexicographique. Il s’agit d’une interface dynamique, qui prend en paramètre une
base lexicographique créée par l’enseignant (cf. section précédente). Elle comprend une
partie « Accès » qui permet à l’apprenant de naviguer dans le lexique jusqu’à l’entrée
recherchée, grâce à des listes en cascade. Cet accès peut s’effectuer soit de manière
Lidil, 58 | 2018
76
onomasiologique (« accès par sens », fig. 8), soit de manière sémasiologique (« accès par
expression », fig. 9). Dans tous les cas, la fréquence de chaque expression est indiquée dans
les menus. La notice linguistique (fig. 10) est affichée à côté du composant d’accès.
2. L’interface corporale (exemples). Dans la première version de Dicorpus, développée en 2013,
il s’agissait de la visualisation standard de ScienQuest, en concordances (comme dans fig. 6,
« filtrer les résultats »). Cette visualisation a évolué dans les versions plus récentes de
Dicorpus, comme nous le décrivons dans la partie suivante.
Lidil, 58 | 2018
77
4. Expérimentations
29 Une première expérimentation sur la didactique de l’anglais 4 a permis de valider
l’intérêt pédagogique de Dicorpus pour croiser des données lexicales et corporales
(Frérot, Rossi & Falaise, 2014). Nous détaillerons ici deux expérimentations qui ont été
effectuées auprès d’étudiants locuteurs non natifs du français, dans le cadre de la
formation du DU FLEPES5, à l’université d’Artois en 2015-2016 et 2016-2017. Ces
étudiants disposent d’un bagage linguistique de niveau faible à moyen (A2 à B1) et
viennent de différents systèmes éducatifs (chinois, vietnamien, libyen, indien,
soudanais, qatari). Cette année de préparation, considérée comme charnière, permet à
ces étudiants d’acquérir un niveau de langue nécessaire pour poursuivre leurs études
l’année suivante en licence ou en master dans des universités françaises. Comme ils
viennent de différentes disciplines (FLE, génie civil, génie électricité, LEA, biologie,
économie, finance, informatique, etc.), les modules mettent l’accent sur une
préparation méthodologique, par exemple la rédaction d’un résumé, une dissertation,
etc. Notre module porte essentiellement sur les écrits universitaires. Plus précisément,
l’objectif de ce module est d’aider les étudiants à prendre en compte les normes
spécifiques « à la française » des rapports de stage ou des mémoires, qu’ils devront
rédiger plus tard dans leur cursus.
Lidil, 58 | 2018
78
Lidil, 58 | 2018
79
fonctionnalité pour chercher par des mots-clés, de les classer par ordre alphabétique
ou de différencier les catégories par des couleurs différentes.
35 Pour résumer, les étudiants apprécient ce genre de dictionnaire et le trouvent différent
par rapport aux autres dictionnaires numériques. Si l’outil est jugé utile et convivial,
l’ergonomie parait peu claire. Notamment, les étudiants souhaitent avoir une vue
d’ensemble des mots présents dans le dictionnaire. 56 % préfèrent que les exemples
soient filtrés par discipline de spécialité. « Je pense qu’il vaut mieux de choisir quelques
exemples typiques pour faciliter la consultation et la compréhension. Si les étudiants
veulent en regarder davantage, ils peuvent cliquer sur le plus. » (E)
36 L’évolution de Dicorpus concerne à la fois l’aspect technique et la conception de la base
de données, en particulier dans le choix d’un métalangage plus simplifié. Dans la partie
suivante, nous proposons des évolutions de l’outil basées sur ces retours.
5. Évolution de Dicorpus
37 À l’issue de ces expérimentations, nous avons retenu quatre problèmes principaux avec
l’interface de Dicorpus, dans sa version initiale de 2013, pour les apprenants :
• l’affichage en concordances (fig. 6, « Filtrer les résultats ») est perturbante pour des
utilisateurs non linguistes ;
• l’affichage en colonnes des accès sémasiologiques et onmasiologiques (fig. 8 et 9) ne donnent
pas une vue d’ensemble aux apprenants ;
• les liens entre les expressions ne sont pas visibles dans l’interface ;
• le classement des exemples est arbitraire (il s’agit de l’ordre d’apparition dans le corpus).
38 Nous proposons des solutions à ces problèmes, dont certaines sont déjà implémentées.
Il s’agit des améliorations liées à l’affichage des expressions et la navigation entre les
expressions, et aussi à la consultation des exemples.
39 La vue en concordances, adaptée pour des linguistes, est très inhabituelle pour des
apprenants en langue. L’affichage KWIC (Key Word In Context) est déroutant et souvent
trop court pour les apprenants, et par ailleurs, la référence exacte de chaque exemple
n’est pas détaillée : seul est affiché un code abstrait identifiant le texte. C’est pourquoi,
à l’issue de la deuxième expérimentation (2015-2016), nous avons décidé de mettre en
place une vue simplifiée pour les apprenants (fig. 11), avec un affichage plus
traditionnel des exemples.
Lidil, 58 | 2018
80
42 Dans les deux modes d’accès, l’ordre des expressions pose aussi question. Doit-on les
classer par ordre alphabétique, par ordre de fréquence, ou bien, dans le cas de l’accès
sémasiologique, par groupe onomasiologique, c’est-à-dire en regroupant les
expressions partageant la même fonction rhétorique ? On peut décider de laisser
l’utilisateur choisir son critère de tri, mais cela laisse entière la question du choix qui
sera présenté par défaut à l’utilisateur, d’autant plus important que ce dernier ne
pensera parfois pas à le modifier.
43 À l’heure actuelle, nous n’avons pas de réponse concrète à ces questions d’accessibilité
des entrées lexicales. Toutefois, les exemples nous offrent une opportunité de mettre
en place un lien entre les expressions, l’évolution qui sera détaillée dans le point
suivant.
44 Il n’y a actuellement pas de lien entre les expressions dans l’interface, alors que,
notamment dans le cas des connecteurs discursifs, celles-ci fonctionnent souvent de
manière coordonnée.
45 Pour remédier à ce problème, au moins dans les exemples, nous proposons de mettre
en valeur, sous forme de liens hypertextes, dans chaque exemple, toutes les expressions
présentes dans la base, et non plus la seule expression recherchée par l’apprenant.
L’apprenant disposera ainsi d’un troisième mode d’accès aux expressions, passant
directement par les exemples. Cette fonctionnalité sera implémentée dans la prochaine
version de Dicorpus.
46 Dans la première version de Dicorpus, les exemples étaient classés par ordre
d’apparition dans le corpus. Toutefois, nous avons identifié deux types de classements
qui peuvent s’avérer utiles d’un point de vue pédagogique :
1. Un classement en fonction de critères fournis par l’apprenant, comme la discipline ou la
partie textuelle qu’il est en train de rédiger ;
Lidil, 58 | 2018
81
2. Un classement par l’enseignant, afin de mettre en avant les exemples les plus pertinents
— actuellement, l’enseignant peut seulement retirer des exemples, mais ne peut pas classer
les exemples qu’il conserve.
49 Lorsque l’apprenant a configuré les exemples, c’est-à-dire qu’il a retiré les disciplines,
types de documents, ou parties textuelles qui ne l’intéressent pas (ou moins), les
exemples sont triés en fonction de ces critères : ceux qui satisfont tous les critères sont
affichés en premier, puis ceux qui les satisfont tous sauf un, etc. Ainsi, même si la base
ne contient pas d’exemple correspondant exactement à la configuration effectuée par
l’apprenant, des exemples seront néanmoins disponibles.
50 Quant au contenu de notre base de données, suite aux remarques des étudiants, nous
avons opté pour un métalangage plus simplifié qui concerne à la fois les paramètres
dont il faut tenir compte et leur explication. Les notions qui sont jugées compliquées
pour les étudiants sont enlevées, par exemple la « portée » des marqueurs discursifs,
bien qu’il s’agisse d’un élément important pour l’analyse linguistique, qui permet de
définir la zone d’influence de chaque connecteur. En consultant chaque connecteur
logique, l’utilisateur a à sa disposition des informations concernant sa définition, sa
fréquence dans les écrits scientifiques, sa position dans l’énoncé et ses éventuels
synonymes.
6. Conclusion
51 Ce travail tente de démontrer le lien entre l’analyse linguistique et le TAL dans
l’enseignement/apprentissage du lexique. Le dictionnaire Dicorpus représente pour
nous un moyen pour introduire les corpus en classe de langue, aussi bien auprès des
étudiants que des enseignants. Pour l’enseignant, il peut y trouver des exemples pour la
Lidil, 58 | 2018
82
conception de ses cours. Pour les apprenants, le dictionnaire peut être utilisé en totale
autonomie. Les expérimentations effectuées nous permettent d’évaluer comment nous
pouvons adapter le dictionnaire pour mieux répondre aux besoins des étudiants. Dans
l’ensemble, les étudiants semblent apprécier Dicorpus par l’interface et par le contenu
qu’ils peuvent y trouver. Nous avons pris en compte leurs retours et leurs suggestions
pour alimenter quelques fonctionnalités de l’outil. Une autre question qui émerge suite
à ces expérimentations est liée à l’évaluation de leur production écrite, et à l’évaluation
de l’apport de Dicorpus. Nous cherchons à comprendre en quoi Dicorpus peut aider les
étudiants dans la rédaction scientifique. Une autre expérimentation est à envisager
dans cette perspective où nous allons enregistrer les écrans d’ordinateur des étudiants
quand ils travaillent sur Dicorpus, ce qui permettra de vérifier comment ceux-ci
utilisent l’outil quand ils rédigent.
BIBLIOGRAPHIE
BOULTON, Alex & TYNE, Henry (dir.). (2014). Des documents authentiques aux corpus. Démarches pour
l’apprentissage des langues. Paris : Didier.
CAVALLA, Cristelle & LOISEAU, Mathieu. (2013). Scientext comme corpus pour l’enseignement. Dans
A. Tutin & F. Grossmann (dir.), L’écrit scientifique : du lexique au discours. Autour de Scientext
(p. 163-180). Rennes : Presses universitaires de Rennes.
CHAMBERS, Angela. (2010). L’apprentissage de l’écriture en langue seconde à l’aide d’un corpus
spécialisé. Revue française de linguistique appliquée, 15, 9-20.
DE COCK, Sylvie. (2004). Preferred Sequences of Words in NS and NNS Speech. Belgian Journal of
English Language and Literatures (BELL), New Series 2, 225-246.
FALAISE, Achille, TUTIN, Agnès & KRAIF, Olivier. (2011). Une interface pour l’exploitation de corpus
arborés par des non-informaticiens : la plate-forme ScienQuest du projet Scientext. Traitement
automatique des langues, 52(3), 103-128.
FRÉROT, Cécile, ROSSI, Caroline & FALAISE, Achille. (2014). Integrating Selected Corpus Data in the
Classroom: A Case-Study of English NPs for French Students in Specialized Translation. Dans
Proceedings of the 6th International Conference on Corpus Linguistics, Las Palmas de Gran Canaria,
Espagne.
GRANGER, Sylviane & PAQUOT, Magali. (2010). Customising a General EAP Dictionary to Meet
Learner Needs. Dans S. Granger & M. Paquot (dir.), eLexicography in the 21st Century: New Challenges,
New Applications (p. 87-96). Louvain-la-Neuve : Presses universitaires de Louvain.
Lidil, 58 | 2018
83
HARTWELL, Laura & JACQUES, Marie-Paule. (2012). A Corpus-Informed Text Reconstruction Resource for
Learning about the Language of Scientific Abstracts. Communication présentée à la conférence
« EUROCALL 2012 », Göteborg, Suède.
JACQUES, Marie-Paule, HARTWELL, Laura & FALAISE, Achille. (2013). TAL et linguistique de corpus
pour aider la rédaction scientifique en anglais. Dans Actes de TALN 2013 (p. 12-26), Les Sables-
d’Olonne.
JOHNS, Tim. (1991). Should You Be Persuaded: Two Examples of Data-Driven Learning. English
Language Research Journal, 4, 1‑16.
LANDURE, Corinne. (2013). Corpus et dictionnaires : prise de conscience linguistique chez des
apprenants LANSAD. Bulletin VALS-ASLA, 97, 59-76.
MANGIANTE, Jean-Marc & CHANTAL, Parpette. (2011). Le français sur objectif universitaire. Grenoble :
Presses universitaires de Grenoble.
MAURANEN, Anna. (2004). Speech Corpora in the Classroom. Dans G. Aston, S. Bernardini &
D. Stewart (dir.), Corpora and Language Learners (p. 195-211). Amsterdam : John Benjamins.
OSBORNE, John. (1994). La cohésion dans les productions écrites d’étudiants en anglais de
spécialité : un problème culturel ? ASp (la revue du GERAS), 5-6, 205-216.
PAQUOT, Magali. (2010). Academic Vocabulary in Learner Writing: From Extraction to Analysis.
Londres-New York : Continuum International Publishing Group.
SIMARD, Claude. (1994). Pour un enseignement plus systématique du lexique. Québec français, 92,
28-33.
TRAN, Thi Thu Hoai (2014). Développement d’une aide à l’écrit scientifique. Description de la phraséologie
scientifique et réflexion didactique pour l’enseignement à des étudiants non natifs (Thèse de doctorat en
sciences du langage – spécialité français langue étrangère). Université Grenoble Alpes, Grenoble.
TUTIN, Agnès. (2010). Sens et combinatoire lexicale : de la langue au discours (Thèse d’habilitation à
diriger des recherches). Université Stendhal-Grenoble 3, Grenoble.
TUTIN, Agnès (2007). Autour du lexique et de la phraséologie des écrits scientifiques. Revue
française de linguistique appliquée, 12(2), 5-14.
TUTIN, Agnès & GROSSMANN, Francis (dir.). (2012). Autour du corpus Scientext : de la constitution d’un
corpus d’écrits scientifiques à l’étude des marques du positionnement et du raisonnement. Rennes :
Presses universitaires de Rennes.
TUTIN, Agnès & FALAISE, Achille. (2013). Multiword Expressions in Scientific Discourse: A Corpus-
Driven Database. Dans Actes de eLex 2013, Tallinn, Estonie.
WRAY, Alison (2002). Formulaic Sequences and the Lexicon. Cambridge : Cambridge University Press.
ANNEXES
ANNEXE 1
Questionnaire 1. – Évaluation d’un dictionnaire d’aide à la rédaction universitaire
Pour répondre aux questions dans cette partie, veuillez consulter l’adresse suivante :
http://dicorpus.aiakide.net/ht/?b=base_marqueurs_dicorpus.
Lidil, 58 | 2018
84
Il s’agit d’un dictionnaire créé par notre équipe pour vous accompagner dans la
rédaction de rapport de stage ou de mémoire. Pour chaque connecteur logique, vous
avez des informations concernant sa catégorie syntaxique, sa fréquence, etc.
1.1. Comment trouvez-vous l’interface de ce dictionnaire ?
□ Sympa, convivial
□ Trop simple
Quelles sont vos suggestions d’amélioration ? …………………………………………………………
Pour chercher des informations pour le mot « d’abord », suivez le chemin suivant :
Mode d’accès : Accès par sens > Pour exprimer : une énumération > Expression :
d’abord. Observez le tableau de la catégorie, la position dans la phrase, etc. et les
exemples en bas de la page. Il s’agit des exemples extraits des articles scientifiques.
Cliquez sur « d’abord » dans le tableau des exemples, vous pouvez visualiser un
contexte plus large.
Vous pouvez renouveler les mêmes recherches pour d’autres connecteurs logiques.
1.2. Est-ce que vous trouvez les informations nécessaires en consultant ce
dictionnaire ?
□ Oui
□ Oui, mais pas tout
□ Non
(Veuillez préciser) car vous cherchez essentiellement ………………………………………………
1.3. Cliquez à Mode d’accès : Accès par sens > Pour exprimer : enchainement
thématique > Sous catégorie : insister sur une idée > Expression : à ce propos
Est-ce que ces notions sont faciles à comprendre ? (enchainement thématique, insister
sur une idée, etc.) (Plusieurs réponses sont possibles)
□ Oui, je les comprends
□ Non, je ne les comprends pas, car
□ Les termes sont compliqués.
□ Je ne comprends pas ce que signifie « insister sur une idée ».
1.4. Est-ce que vous comprenez la différence entre les deux modes d’accès « Accès par
sens » et « Accès par expression » ?
□ Oui
□ Oui, un peu, je comprends
que ……………………………………………………………………………………
□ Non, je ne comprends pas très bien. À mon avis, ça signifie : ………………………………….
1.5. Sur la forme, comment trouvez-vous les exemples proposés en bas de page ?
□ Un peu difficile de les trouver, car il faut descendre la page.
□ Pas difficile.
1.6. Sur le fond, est-ce que vous avez trouvé les exemples que vous souhaitez ?
□ Oui, il y a beaucoup d’exemples, c’est très bien.
□ Non, il y a trop d’exemples, je ne sais pas quel exemple choisir.
Lidil, 58 | 2018
85
ANNEXE 2
Questionnaire 2. – Évaluation d’un dictionnaire d’aide à la rédaction universitaire
1. Quels sont les dictionnaires que vous utilisez quand vous rédigez ?
2. Comment trouvez-vous l’interface de ce dictionnaire ? (sympa, convivial, trop simple,
etc.)
Quelles sont vos suggestions d’amélioration ? …………………………………………………………
3. Quelles sont les informations que vous avez trouvées en consultant ce dictionnaire ?
4. Quelles sont les notions les plus compliquées pour vous dans ce dictionnaire ?
5. Quelle est votre impression générale en consultant ce dictionnaire ? (difficile à
consulter, trop d’exemples, utile mais manque de dynamisme, etc.)
Votre propre suggestion : …………………………………………………………………………………
6. Quels sont vos objectifs en vous inscrivant à ce DU ? Quelles sont vos appréciations
en suivant cette formation ?
NOTES
1. <https://dicorpus.aiakide.net>.
2. ARTES (Aide à la rédaction des textes scientifiques) : <https://artes.eila.univ-paris-diderot.fr/
>.
3. Projet ANR Scientext piloté par Agnès Tutin et Francis Grossmann (2006-2010), adresse du
projet Scientext : <http://scientext.msh-alpes.fr/scientext-site/spip.php?article1>.
4. En utilisant le corpus de textes scientifiques anglais du méta-corpus Scientext.
5. Diplôme universitaire français langue étrangère pour la préparation aux études supérieures.
6. Les phrases entre guillemets sont les appréciations des étudiants, certaines formulations ont
été corrigées grammaticalement.
RÉSUMÉS
Nous présentons dans cet article Dicorpus, un prototype permettant d’associer une base lexicale
et un corpus en français, les expérimentations que nous avons menées sur cet outil auprès
Lidil, 58 | 2018
86
d’étudiants apprenant le français, et les modifications effectuées sur cet outil en réponse aux
besoins mis en évidence au cours des expérimentations.
This paper introduces Dicorpus, a prototype allowing the association of a French lexical base and
corpus, the experiments that we conducted on this tool with students learning French, and the
modifications made on this tool in response to the needs highlighted during the experiments.
INDEX
Mots-clés : Dicorpus, rédaction scientifique, FLE
Keywords : Dicorpus, academic writing, FFL
AUTEURS
THI THU HOAI TRAN
GRAMMATICA, EA 4521, Université d’Artois
ACHILLE FALAISE
ICAR, UMR 5191, CNRS / LLF, UMR 7110, CNRS
Lidil, 58 | 2018
87
Acknowledgements
We would like to acknowledge the DAAD lecturer Rayk Olhöft for his invaluable help at the
preliminary stage of the experiment, our German colleagues from LUH Dr Sigrun Schroth-
Wiechert and Anna Tilmans, and Dr Vitor Zakharov from St Petersburg State University for their
support during this research and discussion of its results.
The authors also express their gratitude to the guest editors for comments on an earlier version
of this paper.
1. Introduction
1 Foreign language teaching in Master’s degree engineering programs at Peter the Great
St Petersburg Polytechnic University (SPbPU) reflects the main trends in language
learning for professional purposes in universities of Russia. In Bachelor’s degree
engineering programs, students learn foreign languages only over two years, which
does not provide sufficient opportunities for language learning. Master’s degree
engineering programs require a foreign language course of two academic hours a week
within one semester. Within this four-month period, students are expected to master
both general language and language in their professional domains. With so few
teaching hours, it is essential that both class work and independent learning be
optimized. Consequently, the educational process should be structured so that students
learn to use components of certain terminological systems in a foreign language, in
Lidil, 58 | 2018
88
2. Literature Review
5 Recent decades have seen an increasing interest in using corpora in language learning
and teaching. This approach is referred to as “data-driven learning” (DDL), the term
first introduced by Tim Johns3 in 1990. Language teachers and learners today can access
many free corpora on line, including very large general corpora, genre- and domain-
specific ones, as well as parallel corpora, comparable corpora, and learner corpora.
Numerous publications on DDL and the use of corpus related resources, including the
recent surge of special journal issues on the topic (Godwin-Jones, 2017) and the first
meta-analysis in this domain conducted by Boulton and Cobb (2017), could be taken as
evidence that the predicted revolutionary change in teaching methodology and
overwhelming usage of corpora in language teaching has finally started. However, our
experience leads us to believe that Boulton’s conclusion is still true, especially for
Lidil, 58 | 2018
89
languages other than English: “Despite the considerable research interest and
multiplicity of resources available, public awareness is low: corpus consultation
remains rare even in university and research environments and it has had virtually no
impact on ‘ordinary’ learning practices elsewhere.” (Boulton, 2010a, pp. 18–9)
Furthermore, researchers point out the lack of available research on using specialized
corpora other than English (Boulton, 2010b; Yoon, 2016).
6 In Boulton’s comprehensive survey (2010c) of 93 papers, only 11 of these deal with a
language other than English, with 6 devoted to the German language. None looked at
the Russian language. Boulton and Cobb (2017) conducted a meta-analysis of data-
driven-learning studies that was limited by the necessity of containing pertinent
secondary data, English was the main target language of most of the 64 studies and only
two studies concerned German (Godwin-Jones, 2017).
7 Boulton and Cobb’s meta-analysis (2017), as well as their other comprehensive paper
(Cobb & Boulton, 2015), showed that written language was clearly the dominant focus
of corpus research. This might be due to the fact that the development of modern
computer technologies and electronic communication has caused written language
proficiency skills to be seen as a central aspect of specialists’ professional expertise.
Meta-analysis also reveals that accessible online corpora, such as the СОСА and the
BNC, are the most frequently used objects of study (Godwin-Jones, 2017, p. 19).
8 In terms of the effectiveness of DDL approaches for developing writing skills and error
correction, research data are somewhat mixed. Students’ enthusiasm for corpus work
often depends both on their level of English and the extent of training and support
available. For example, in Gaskell and Cobb’s study (2004) pre-intermediate learners of
English integrated specific language points well, but error types did not significantly
improve as a result of instruction that used concordancing. Improvement was found in
only three error types of the ten most frequent errors they had categorized. Gaskell
and Cobb developed a special tool available on their web site Compleat Lexical Tutor, 4
which they called Corpus corrector. This tool is meant to help users correct the typical
mistakes in writing. In other experimental settings, native English graduate students
majoring in French studies (O’Sullivan & Chambers, 2006) and Chinese students from a
balanced mix of humanities, medical and science backgrounds (Crosthwaite, 2017)
successfully corrected mistakes in their written works (in French and English
correspondingly) through corpus consultation. However, they had higher levels of the
foreign language competence and were familiar with the DDL fundamentals.
9 Learners’ interest in specialized corpora is largely dependent on whether relevant the
corpus is perceived by learners’ as being relevant to their needs. Using a corpus as a
reference source for academic English writing may be ineffective and demotivating if it
does not contain examples of language use in students’ specific technological/scientific
areas (Chang, 2014; Charles, 2014). An example of good practice which takes this factor
into account is Chang (2014), where Korean IT and engineering students were
encouraged to compile their own corpus, named Michelangelo, through student
selection of papers and articles from journals in their fields. Chang reported that
students appreciated the access to this additional local corpus as a complement to the
Corpus of Contemporary American English (COCA) which they used, because the COCA
does not have a sufficient number of technical articles. On the other hand, they
complained about the lack of necessary examples in the specialized corpus of a small
size, which later stimulated them to expand the corpus and refer to its updated version.
Lidil, 58 | 2018
90
Lidil, 58 | 2018
91
14 Since 2014, LUH and SPbPU have been collaborating on the development of the Deutsch,
English and Russkii (DEaR) Corpus of German, English and Russian languages for
engineering. The target audience is students and lecturers. The DEaR corpus will be an
annotated on-line corpus with different search capabilities composed primarily from
electronically published PhD and Master’s degree dissertations written by engineering
Master’s and Post-graduate students, native speakers of either German, English or
Russian. The acquisition, preparation and annotation of technical texts for the DEaR
Corpus is under way (Gärtner, Schroth-Wiechert & Kogan, 2015; Kogan, Gärtner &
Schroth-Wiechert, 2016). When the development has been finished and the legal
copyright aspects adjusted, the DEaR corpus is planned to be available online.
Currently, the German part has been developed and named Kod.ING (Korpus der
Ingenieurwissenschaften).
15 As part of the Kod.ING corpus, we have focused on the analysis of over 200 PhD theses
in the fields of Electrical Engineering (EL), Civil Engineering (BG) and Mechanical
Engineering (M) with total of seven million tokens in order to determine its relevance
for developing academic writing skills in Russian university engineering students. Our
analysis conducted with the freeware-license AntConc software 10 (Anthony, 2006)
pursued the goal of determining if the Kod.ING corpus is relevant for Russian students
who learn German in order to correct their typical errors. This goal was achieved
during the preliminary stage of the teaching experiment.
16 Following Boulton (2010b), Gaskell and Cobb (2004), we expected to detect language
problems from learners’ own writings. This was done at the preliminary stage of the
experiment, at the end of the spring term of the 2016–2017 academic year. We invited
volunteers from the Tandem project (Stratonova, 2016) to write a short essay of up to
200 words answering the question: “If I had a chance to study at a German University,
which subjects would I select and why?” Five students responded. Their essays were
carefully checked and discussed with a native German speaker. Despite many mistakes
with prepositions, articles, word choice, grammar mistakes related to verbs and link
words, word order in simple and complex sentences, patterns could not be identified.
This may be due to the small size of the student essay corpus.
17 Therefore, two problematic areas, compound nouns and lexical bundles, were chosen
for the teaching experiment. Russian learners of German used the genitive phrases
common for Russian scientific discourse instead of compound nouns common for
German scientific discourse, possibly, as a result of interlingual interference. They also
misused, underused and omitted academic lexical bundles.
18 German compound nouns can consist of two or more morphemes. These nouns can be
described as a system comprised of an attributing part and a main (attributed) part,
where the first morpheme describes the subsequent one. German compound words can
Lidil, 58 | 2018
92
be formed from any part of speech and follow one of two patterns: I) a one-word
compound noun and II) two-/multi-word collocations, as in the examples given below.
I.
Verb + Adjective (e.g. röstfrisch, tropfnass),
Adjective + Adjective (e.g. schwerkrank, lauwarm),
Noun + Adjective (e.g. hilfsbereit, hitzebeständig),
Verb + Noun (e.g. Lautstall, Schlafraum) (Dreyer & Schmitt, 2009).
II.
die Holzverarbeitung = die Verarbeitung von Holz, “woodworking”,
die Autoherstellung = die Herstellung von (den) Autos = die Herstellung der Autos,
“automobile manufacturing / motor vehicle manufacturing”,
die Energiesparung = die Sparung der Energie = die Sparung von der Energie,
“energy saving”.
19 For category II, it is important to stress that a sequence of words constitutes a single
unit at the semantic level and is often considered fixed according to dictionary entries.
Research has shown that compound words are essential to scientific discourse (cf.
Ickler, 1997), as numerous terms are compound nouns comprised of generally used
words, for example der Weißfisch (white fish as a species). Moreover, generally used
compound words can acquire a new connotation or a new meaning in certain types of
discourse. Some compound nouns can be translated into English or French quite
accurately, which is explained by similar syntactic structures of the expressions (e.g.
absolute constructions in German, no declension endings) or hyphenated spelling. This
facilitates visual reception of morphemes.
20 Translating such nouns into Russian can be difficult because of the incompatibility of
declension forms in German and Russian. Moreover, the Russian language lacks
constructions similar to absolute English constructions. The problem when translating
German compound nouns is determined by a wide range of options and combinations
of original morphemes, which is impossible in the Russian language. An excellent
example is the pair Radiowecker (radio alarm) and Weckerradio (radio which has different
functions and among the main ones is the alarm function). However, the relationship
between components of compound nouns and their sequence in similar Russian
constructions are different. For instance, das Koordinaten system is translated into
Russian as a phrase where the genitive case is used: system of coordinates. These
discrepancies can lead to students’ difficulties in using and translating the vocabulary
of scientific discourse, perhaps due to the phenomenon of interlanguage interference
which is widely studied (see, e.g., Kostina, Hackett-Jones & Bagramova, 2017) and also
mentioned in studies in different domains of language teaching (Almazova, Kostina &
Khalyapina, 2016; Almazova, Rogovaya & Gavrilova, 2018).
Lidil, 58 | 2018
93
design their teaching. For example, Valipouri and Nassaji (2013) produced the
Chemistry Academic Word List (CAWL) based on the analysis of a corpus of
1,185 chemistry research articles. They found that 27.85% of the frequent words in
their CAWL corpus had not been listed in the widely used AWL compiled by
Coxhead (2000). An Academic Formulas List (Simpson-Vlach & Ellis, 2010) and an
Engineering Academic Formulas List (Fox & Tigchelaar, 2015) have become available
recently. Though integrating corpus-based techniques into the teaching of academic
German vocabulary is “still in its infancy” (Jaworska, 2015, p. 188), academic German
teachers and researchers have also produced lists of academic lexis, including Schroth-
Wiechert (2011) and Graefen (2009). Moreover, a comprehensive academic writing
textbook exists which focuses on the most frequently used academic vocabulary and
word collocations including idiomatic and metaphorical expressions (Graefen &
Moll, 2011).
22 In our study, we decided to identify the “most frequent recurrent sequences of words”
in the Kod.ING corpus, following Biber, Conrad and Cortes’s statement that frequency
searches can help us select the “basic linguistic constructs with important functions for
the construction of discourse” (2004, p. 398). All selected lexical bundles meet the
criteria of size (Min – Max: 2 – 4), frequency (≥ 100), and range of presence in all three
field subcorpora (BG, EL, M). Of the three categories of lexical bundles (referential
expressions, discourse organizing expressions and stance expressions) proposed by
Biber, Conrad and Cortes (2004), we found Discourse organizing expressions to be the most
frequent in the Kod.ING corpus.
23 For the experiment, we also selected the most frequent recurrent compound nouns
formed from the three most frequent bases: System, Technik, and Maschine. All of them
meet the following criteria: Frequency ≥ 70; Range – in all field subcorpora (BG, EL, M).
We also included one three-word collocation (kartesisches Koordinaten system), which did
not meet the frequency criteria, but is often incorrectly used in students’ writings. We
queried the German-Russian parallel subcorpus of the Russian National Corpus (RNC 11)
for the selected lexical bundles and compound nouns from the Kod.ING corpus
(Appendix A), but none of the compound nouns and all but two lexical bundles were
found. This reflects the lack of professional terminology, including technical compound
nouns, in the General reference corpora, to which the Russian National Corpus belongs.
24 Using corpora in a teaching intervention necessarily raises the question of how to train
students to query corpora, using hands-on training (the student directly manipulating
the corpus) and/or hands-off training (the teacher preparing the corpus data). As
Vyatkina (2016b) mentions in her in-depth analysis of the available empirical research
on hands-on and hands-off DDL, there is a lack of studies that compare the outcomes of
hands-on and hands-off DDL interventions. She concludes that “hands-on and hands-
off DDL were equally effective” (p. 170) and recommends trying both types of DDL
instruction.
25 The restrictions imposed on the direct usage of the Kod.ING corpus outside LUH
exclude the hands-on option. However, we argue that awareness not only of a new
method, but also of a newly available resource is very important for students’ future,
independent learning of foreign languages. For this reason, we decided to familiarise
Lidil, 58 | 2018
94
students with the simplest queries in the parallel subcorpus of the RNC (Russian
National Corpus).
26 The RNC is the largest, national scale reference corpus in the Russian language.
Available on-line, free of charge, it is a linguistic resource, which can be used without
registration. Its planned size is 200 million word tokens taken from spoken genres,
fiction, and written media (including academic and non-academic texts) in Russian
from the mid-18th century to the present. The Russian National Corpus currently uses
four types of annotation: metatextual, morphological, accentual and semantic; the
introduction of syntactic annotation is planned for the near future. The system of
annotation is constantly being improved, which allows for quite complex syntactic and
morphological queries.
27 The RNC has 11 subcorpora of different types including a set of bidirectional parallel
text subcorpora. In the latter subcorpora, Russian is complemented by its translation
into a different language, and vice versa. The units of the original and the translated
texts (usually, a unit is a sentence) are matched through a “leveling” procedure. At the
time of publishing, nine bidirectional parallel text corpora are available including
English/Russian, German/Russian and French/Russian parallel corpora.
28 In response to their query, a user receives a list of results resembling the one in
Figure 1, which is a query for unter Berücksichtigung. One challenge for users is to find
the Russian equivalent of the German highlighted expression, as the leveled sentences
do not contain any graphic prompts.
Figure 1. – The results of an unter Berücksichtigung query in the German/Russian parallel corpus of
the RNC.
Lidil, 58 | 2018
95
provides very limited instruction about corpus use, from “a short theoretical
background followed by demonstrations of particular functions” (Boulton, 2012, p. 35)
to student practice “without training” focused on their ability to derive useful
information from impromptu concordances (Boulton, 2009, p. 40). On the other hand,
Boulton (2012) admits that, “students clearly would have liked further preparation in
corpus use […], especially ‘demonstrations’” (p. 36). Though it is obvious that students
would benefit from more extensive preliminary training to become confident with a
new tool or resource, we could only insert brief interventions with a DDL approach into
regular German language classes.
5. Design
5.1. Research questions
31 The participants of the current study were 14 Russian students of German enrolled in a
compulsory Master’s degree course of German for Specific Purposes (GSP) at SPbPU.
However, the study reports only on the 11 participants (six males, five females) who
attended all DDL sessions (including pre- and post- and delayed tests) and submitted
their homework exercises. Participants were aged from 21 to 23, with a mean of
22 years. All the participants were a group of only native speakers of Russian, with two
students having also studied English. Students had different engineering majors, such
as power plant engineering, electrical engineering, mechanical engineering, metallurgy
and material science, technosphere safety. Most students had studied German for seven
years at school prior to entering university, then the first two years of a Bachelor’s
degree programs with a two-year break until their first year in the Master’s degree
program. A start-of-year test showed that their proficiency level was low, equivalent
to A2 and A2+, with only one student approaching a B1 level according to the CEFR. 12
32 Ninety-minute GSP classes took place once a week. Classes followed the uniform
syllabus, so it was only possible to do short DDL interventions at the beginning of the
first four classes. The hands-off method of corpus-based instruction was adopted, with
hands-off exercises based on teacher-prepared worksheets used during regular classes
and as homework. Nine compound nouns and eight lexical bundles were selected for
the study at the preliminary stage of the experiment. Hands-on activities were based on
the searches of Russian equivalents of the selected lexical bundles in the bidirectional
parallel German/Russian subcorpus in the RNC.
33 DDL sessions ended in the middle of the term. At the end of the term we interviewed
the group’s teacher to understand her opinion about the impact of the DDL
Lidil, 58 | 2018
96
intervention sessions on the learning process and students’ ability to use the compound
nouns and linking expressions beyond the experiment.
Oct. 9 (S1) Oct. 16 (S2) Oct. 23 (S3) Oct. 30 (S4) Nov. 20 (S5)
35 During the first DDL session (S1), participants took a 5-minute pre-test and received a
set of instructions on the set of hands-off activities. They also were instructed about
search word functions of the parallel German/Russian subcorpus of the RNC (S2) and
participated in hands-on / hands-off corpus skill-building activities (S2-S3). The entire
set of activities was split into in-class practice and homework that included a number
of hands-on corpus skill-training tasks, as well as the self-instruction writing practice.
The training was followed one week later by a 5-minute post-test, as well as a
questionnaire concerning the corpus-based experience (S4). The delayed post-test was
conducted 3 weeks later (S5).
36 The pre-test aimed at focusing the students’ attention on the gaps in their knowledge
of the key words and collocations. The pre-test, as well as both the immediate and
delayed post-tests, contained a list of seven target items (compound words and lexical
bundles) to be translated from Russian into German. The words and collocations were
scrambled so that the tests did not replicate each other. For each correct answer, the
student received one point, with a maximum of seven points per test.
37 All test sheets contained seven compound words and lexical bundles to be translated
from Russian into German. A series of worksheets13 included exercises on translation
and concordance lines analysis (Appendix B, Figures B1, B2, B3), matching, filling-in
exercises (Appendix B, Figure B4), leading students to the final creation of their own
sentences with the key lexical bundles and compound words (Appendix B, Figure B5),
and the use of the target vocabulary in free writing. Figure B6 shows an example of
hands-on corpus skill-training task. The completed worksheets were collected on a
regular basis during DDL intervention sessions; at the beginning of every session, the
feedback on the previous homework task was provided.
6. Results
38 Three types of results will be presented here: pre-test, post-test, and delayed post-test
results analysis, students’ responses to the questionnaire on corpus work perception,
and interview data.
Lidil, 58 | 2018
97
39 Overall, the quality of the homework tasks completed after the pre-test was
satisfactory. However, the exercises focusing on lexical bundles were completed more
successfully than those focusing on the compounds. None of the participants finished
all of the tasks correctly. The mean success rate of the home task activities was about
60%. The student reports on the target-item searches in the parallel German/Russian
subcorpus of the RNC proved that they coped with the challenges of independent
hands-on corpus work as all students completed the task correctly.
40 In contrast, the results of the post-tests were not as high as expected. The
11 participants of the post-test scored from one to four points each. Overall, there is a
correlation between learners’ homework task success and test scores. Table 2 contains
information about the target items included in each test and the mean success rate in
each of the two post-tests, in other words, the correctly translated items per test
normalized to the number of subjects.
Table 2. – Test target items and the mean success rate for both post-tests.
im Gegensatz zu 3 (27.3%)
Lidil, 58 | 2018
98
41 The pre-test results show that none of the 11 participants of the experiment had
previous knowledge of the targeted lexis. Intriguingly, the results for the post-test and
delayed post-test show that success with the term die Werkzeugmaschine improved
beyond the end of instruction. The results for the delayed post-test show that only
three target items can be regarded as “learned firmly” by most participants: das
Koordinatensystem, in erster Linie, das Gleichungssystem.
42 Table 3 summarizes the results concerning the mean number of words translated
correctly and the portion of the correctly translated items to the total number of the
items of both post-tests.
Immediate post-
2.36 33.8%
test
43 The final homework task which students were asked to do between the immediate and
delayed post-tests was to write sentences of their own using eight compound nouns
and eight lexical bundles from the DDL interventions. We received only four completed
papers. Therefore, just after the delayed test we repeated our call for making up “your
own sentences”, stressing that they did not have to invent sentences using all the
selected vocabulary items. They could do the task using just the most familiar and
relevant terms. However, no one responded.
44 In total, students submitted 32 sentences with lexical bundles and 31 sentences with
compound words, as one student completed only seven sentences with compound
words. Table 4 presents the error types for this exercise.
Grammar 10
Grammar 11
Compounds Vocabulary 1
Lidil, 58 | 2018
99
45 The results lead us to conclude that, while the subjects are good at receptive activities
with the target vocabulary, they are much less confident in their writing.
46 In order to understand students’ perception of working with the Kod.ING and the RNC
corpora, they filled in a post-experiment receptivity questionnaire in Russian, partially
drawing upon Boulton (2010b) and Vyatkina (2016b). In the seven closed questions, the
students were asked to rate their satisfaction regarding RNC activities, as well as their
satisfaction with the Kod.ING corpus activities and plans for continued use, by
indicating agreement with statements on a five-point Likert scale scored from
1 (completely disagree) to 5 (completely agree). The “not sure” option was also
available. Question 1 checked that the participants had used the RNC and question 7
asked them to confirm or disprove their willingness to study specific software enabling
them to work with the Kod.ING corpus. Question 8 was open-ended and related to what
the participants particularly liked or disliked in the RNC activities. Eleven students
completed the questionnaire in the classroom immediately after the post-test. Due to
the small sample, a purely quantitative analysis of the data is not statistically valid.
However, the results are presented in Table 5 as they provide a general overview of the
students’ perceptions.
Q7. Are you ready to study specific software to work with the Kod.ING corpus? 5 6
47 On the whole, the students responded positively to working with the RNC. All the
students participated in out-of-class RNC activities (Q1) and most of the students
admitted they liked working with the corpus (Q3). Most of them indicated that they
found it easy to work with the RNC (Q2). Still, more than half the students pointed out
that they faced a number of problems during their work with it (Q5). Most students
agreed that the work done was useful (Q4) but in Q6 the results indicate that most were
not sure if they would use the new skills in their future language learning.
Lidil, 58 | 2018
100
Nevertheless, more than half the students were willing to receive further instruction to
obtain more corpus work skills (Q7).
48 The open-ended question 8 was only answered by five participants, one of whom
expressed uncertainty about the subject mentioned. The other four students
highlighted the usefulness of the RNC’s visual representation of the language data, such
as highlighting of the search expression. The ability to see a full sentence translated
was also appreciated. The participants also mentioned their curiosity about doing the
homework with the help of a new tool and the ability to investigate use of the target
German lexis in context. An unfavourable opinion was expressed towards the lack of
highlighting in the Russian translation of the sought-for expressions. Participants also
noticed that corpus work was quite time-consuming and the amount of instruction was
insufficient.
49 The teacher was interviewed at the end of the autumn term after the participants of
the experiment had passed their final exam in German for specific purposes. Only one
question was asked: “Was the impact of DDL interventions noticeable after the
experiment ended and if so, could you discuss the evidence for this?” She replied
affirmatively, adding that the DDL interventions helped students to grasp how
compound nouns work in German. The theme on compound nouns in their regular
syllabus was used as a follow-up to consolidate what students had already learned in
the DDL interventions. As a result, the teacher felt she had saved time because she did
not have to introduce the topic. She noticed that students were more confident doing
tasks on compound nouns from their regular textbook, even though the compounds in
the textbook were different from those in the experiment (e.g. Funktionstuechtigkeit,
Taktstrasse). Also, she observed that students mostly used compounds correctly in a
compulsory task during the term (writing a summary of a text relevant to their major),
and also included them appropriately in their final oral exam.
Lidil, 58 | 2018
101
(2016b, p. 166). The improvement in our study could be attributed to the follow-up
activities on the compound nouns that the teacher did within the regular syllabus.
53 One major discrepancy requires comment, that between a rather large number of
mistakes in target vocabulary in sentence-writing task (Table 4) and the teacher’s
comment that students used compound nouns quite confidently and correctly in the
following term’s writing and oral tasks. This might be due to the different nature and
focus of the writing exercises. It is probably easier and more natural for students to use
compounds from the text relevant to their scientific interests while retelling or
summarizing than to compose their own sentences.
54 It is also worth mentioning learners’ interest in doing hands-on tasks with RNC and
their intention to apply the acquired knowledge. The learners’ interest in hands-on
DDL activities leads us to conclude that direct DDL tasks should be included into even
short paper-based DDL interventions, even in non-DDL syllabi. There is a risk, however,
that paper based activities, e.g. based on the analysis of concordancing lines, though
new and unusual for learners, may not provide as much of a rewarding feeling of
discovery for learners, who are challenged to understand “how it works” when doing
hands-on corpus work. For many engineering students, it is important to start by
attempting to understand the technical aspects as they acquire the related language
skills. This is especially important in a situation like ours where direct access to the
target corpus (Kod.ING) is not possible.
55 In line with other studies (Cobb & Boulton, 2015; Vyatkina, 2016b), our research
confirms that exercises such as sentence-writing are more difficult for low-level
learners than other exercises and short DDL intervention sessions may not be enough
for some of them to modify their writing. The low return rate of sentence writing
worksheets may also be influenced by the low number of sentences relevant to
students’ specific majors in the teaching materials. This must be taken into account in
further studies.
56 The main limitations of our study concern the relatively small number of participants
and the short length of DDL interventions. It would be difficult to devote more teaching
time to these as the standard, non-DDL syllabus is already very full.
57 To conclude, while further research could examine the limits of a DDL approach, it
could also help to diversify teaching materials by including more examples from
specialized corpora that are relevant to students’ professional interests.
BIBLIOGRAPHY
ALBUL, Aleksandr I., VASIL’EVA, Ksenija K. & STRATONOVA, Galina Ja. (2008). Nemeckij jazyk: posobie po
perevodu nemeckoj nauchno-tehnicheskoj literatury (“The German Language: A textbook on Translation
German Scientific and Technical Literature”). Saint Petersburg: Izd-vo Politehn. un-ta. Available at
<http://elib.spbstu.ru/> (consulted 1 December 2017).
Lidil, 58 | 2018
102
ALMAZOVA, Nadezhda & KOGAN, Marina. (2013). Organizing Polytechnic Post-Graduate Students
Individual Work on Required Reading Corpora (within ESP Course). Университетский научный
журнал / Humanities and Science Journal, 6, 13–25. Available at <http://en.unipress.pro/
catalog.php?pid=51&aid=1093> (consulted 1 December 2017).
ALMAZOVA, Nadezhda I., KOSTINA, Ekaterina A. & Khalyapina, Liudmila P. (2016). The New Position
of Foreign Language As Education for Global Citizenship. Novosibirsk State Pedagogical University
Bulletin, 32(4), 7–17. <https://doi.org/10.15293/2226-3365.1604.01>.
ALMAZOVA, Nadezhda, ROGOVAYA, Yulia & GAVRILOVA, Anna. (2018). Prospects of Introduction of
Microlearning into the Process of Teaching Postgraduate Students a Foreign Language. In
L. Gómez Chova, A. López Martínez & I. Candel Torres (eds), INTED2018 Proceedings : 12th
International Technology, Education and Development Conference (pp. 3175–82). IATED Academy.
<https://doi.org/10.21125/inted.2018.0608>.
ANTHONY, Laurence. (2006). Developing a Freeware, Multiplatform Corpus Analysis Toolkit for the
Technical Writing Classroom. IEEE Trans. on Prof. Communication, 49(3), 275–86. <https://doi.org/
10.1109/TPC.2006.880753>.
BASOVA, Nonna. (2013). Nemeckij jazyk dlja tehnicheskih vuzov (“German for Technical Institutions of
Higher Education”). Rostov-na-Donu: Feniks.
BIBER, Douglas, CONRAD, Susan & CORTES, Viviana. (2004). If you look at …: Lexical Bundles in
University Teaching and Textbooks. Applied Linguist, 25(3), 371–405. <https://doi.org/10.1093/
applin/25.3.371>.
BOULTON, Alex. (2009). Testing the Limits of Data-Driven Learning: Language Proficiency and
Training. ReCALL, 21(1), 37–54. <https://doi.org/10.1017/S0958344009000068>.
BOULTON, Alex. (2010a). Data-Driven Learning: On Paper, in Practice. In T. Harris & M. Moreno
Jaén (eds), Corpus Linguistics in Language Teaching (pp. 17–52). Bern: Peter Lang. <https://doi.org/
10.3726/978-3-0351-0166-9>.
BOULTON, Alex. (2010b). Data-Driven Learning: Taking the Computer Out of the Equation. Language
Learning, 60(3), 534–72. <https://doi.org/10.1111/j.1467-9922.2010.00566.x>.
BOULTON, Alex. (2010c). Learning Outcomes from Corpus Consultation. In M. Moreno Jaén,
F. Serrano Valverde & M. Calzada Pérez (eds), Exploring New Paths in Language Pedagogy: Lexis and
Corpus-Based Language Teaching (pp. 129–44). London: Equinox.
BOULTON, Alex & COBB, Tom. (2017). Corpus Use in Language Learning: A Meta-Analysis. Language
Learning, 67(2), 348–93. <https://doi.org/10.1111/lang.12224>.
CHANG, Ji-Yeon. (2014). The Use of General and Specialized Corpora As Reference Sources for
Academic English Writing: A Case Study. ReCALL, 26(2), 243–59. <https://doi.org/10.1017/
S0958344014000056>.
Lidil, 58 | 2018
103
CHARLES, Maggie. (2014). Getting the Corpus Habit: EAP Students’ Long-Term Use of Personal
Corpora. English for Specific Purposes, 35, 30–40. <https://doi.org/10.1016/j.esp.2013.11.004>.
COXHEAD, Averil. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213–38. <http://
doi.org/10.2307/3587951>.
COBB, Thomas & BOULTON, Alex. (2015). Classroom Applications of Corpus Analysis. In D. Biber &
R. Reppen (eds), Cambridge Handbook of English Corpus Linguistics (pp. 478–97). Cambridge:
Cambridge University Press. <https://doi.org/10.1017/CBO9781139764377.027>.
CROSTHWAITE, Peter. (2017). Retesting the Limits of Data-Driven Learning: Feedback and Error
Correction. Computer Assisted Language Learning, 30(6), 447–73. <https://doi.org/
10.1080/09588221.2017.1312462>.
DREYER, Hilke & SCHMITT, Richard. (2009). Lehr- und Übungsbuch der deutschen Grammatik – aktuell.
Ismaning: Hueber Verlag.
FOX, Jessica & TIGCHELAAR, Magda. (2015). Creating an Engineering Academic Formulas List. The
Journal of Teaching English for Specific and Academic Purposes, 3(2), 295–304.
GÄRTNER, Tobias, SCHROTH-WIECHERT, Sigrun & KOGAN, Marina. (2015). A Corpus-Based Trilingual
Platform for Academic Technical Writing. In N. Almazova & V. Chernyavskaya (eds), Proceedings of
the International Scientific Conference (pp. 60–2). SPb.: Izd-vo Politehn. un-ta. Available at <http://
elib.spbstu.ru/dl/2/8573.pdf/en/info> (consulted 1 December 2017).
GASKELL, Delian & COBB, Thomas. (2004). Can Learners Use Concordance Feedback for Writing
Errors? System, 32(3), 301–19. <https://doi.org/10.1016/j.system.2004.04.001>.
GODWIN-JONES, Robert. (2017). Data-Informed Language Learning. Language Learning & Technology,
21(3), 9–27. Available at <http://www.lltjournal.org/item/3012> (consulted 1 December 2017).
GRAEFEN, Gabriele. (2009). Die Didaktik des wissenschaftlichen Schreibens: Möglichkeiten der
Umsetzung. GFL (German as a Foreign Language), 2–3, 106–27. Available at <www.gfl-journal.de/
2-2009/graefen.pdf> (consulted 1 December 2017).
GRAEFEN, Gabriele & MOLL, Melanie. (2011). Wissenschaftssprache Deutsch: lesen – verstehen –
schreiben. Ein Lehr- und Arbeitsbuch. Frankfurt am Main: Peter Lang.
HYLAND, Ken. (2008). As Can Be Seen: Lexical Bundles and Disciplinary Variation. English for
Specific Purposes, 27(1), 4–21. <https://doi.org/10.1016/j.esp.2007.06.001>.
HYLAND, Ken. (2012). Bundles in Academic Discourse. Annual Review of Applied Linguistics, 32, 150–
69. <https://doi.org/10.1017/S0267190512000037>.
JAWORSKA, Sylvia. (2015). Review of Recent Research (1998–2012) in German for Academic
Purposes (GAP) in Comparison with English for Academic Purposes (EAP): Cross-Influences,
Synergies and Implications for Further Research. Language Teacher, 48(2), 163–97. <https://
doi.org/10.1017/S026144481400038X>.
KOGAN, Marina, GÄRTNER, Tobias & SCHROTH-WIECHERT, Sigrun. (2016). Corpora for Engineers
Writing in a Foreign Language: Methods and Applications for Language for Specific Purposes
Corpora. In Abstracts of 12th International Conference Teaching and Language Corpora (TaLC) (pp. 102–
3). Giessen, Germany. Available at <http://www.uni-giessen.de/faculties/f05/engl/ling/talc/
home/programme/abstracts> (consulted 1 December 2017).
Lidil, 58 | 2018
104
KOSTINA, Ekaterina A., HACKETT-JONES, Aleksandra V., BAGRAMOVA, Nina V. (2017). The Impact of
Interlanguage on Students’ Bilingual Behaviour during the Process of Acquiring a Foreign
Language. Novosibirsk State Pedagogical University Bulletin, 7(4), 93–107. <https://doi.org/
10.15293/2226-3365.1704.06>.
NI, Olga. (2011). On Teaching German As a Second Foreign Language (on the Basis of English).
Voprosy Metodiki Prepodavanija v Vuze, 14, 244–8.
O’SULLIVAN, Íde & CHAMBERS, Angela. (2006). Learners’ Writing Skills in French: Corpus
Consultation and Learner Evaluation. Journal of Second Language Writing, 15(1), 49–68. <https://
doi.org/10.1016/j.jslw.2006.01.002>.
RÖMER, Ute. (2009). The Inseparability of Lexis and Grammar: Corpus Linguistic Perspectives.
Annual Review of Cognitive Linguistics, 7, 141–63. <https://doi.org/10.1075/arcl.7.06rom>.
SIMPSON-VLACH, Rita & ELLIS, Nick C. (2010). An Academic Formulas List: New Methods in
Phraseology Research. Applied Linguistics, 31(4), 487–512. <https://doi.org/10.1093/applin/
amp058>.
STRATONOVA, Galina. (2016). Interactive Distance Learning Technique for Studying Foreign
Language in the Higher Education. In D. I. Kuznetsov (ed.), Gumanitarnaja obrazovatel’naja sreda
tehnicheskogo vuza. Proceedings of the International Scientific and Methodical Conference (pp. 385–8).
Saint Petersburg: Izd-vo Politehn. un-ta. Available at <https://elibrary.ru/item.asp?id=26642172>
(consulted 1 December 2017).
VALIPOURI, Leila & NASSAJI, Hossein. (2013). A Corpus-Based Study of Academic Vocabulary in
Chemistry Research Articles. Journal of English for Academic Purposes, 12(4), 248–63. <https://
doi.org/10.1016/j.jeap.2013.07.001>.
VYATKINA, Nina. (2016a). Data-Driven Learning for Beginners: The Case of German Verb-
Preposition Collocations. ReCALL, 28(2), 207–26. <https://doi.org/10.1017/S0958344015000269>.
YOON, Choongil. (2016). Concordancers and Dictionaries As Problem-Solving Tools for ESL
Academic Writing. Language Learning & Technology, 20(1), 209–29. Available at <http://
www.lltjournal.org/item/2939> (consulted 1 December 2017).
YOON, Hyunsook & JO, Jung Won. (2014). Direct and Indirect Access to Corpora: An Exploratory
Case Study Comparing Students’ Error Correction and Learning Strategy Use in L2 Writing.
Language Learning & Technology, 18(1), 96–117. Available at <http://www.lltjournal.org/item/2842>
(consulted 1 December 2017).
APPENDIXES
APPENDIX A
List of target compounds with English translations:
Lidil, 58 | 2018
105
APPENDIX B
Worksheets for home task and classroom work (all directions are translated from
Russian)
Lidil, 58 | 2018
106
Figure B1.
Figure B2.
Lidil, 58 | 2018
107
Figure B3.
Figure B4.
Lidil, 58 | 2018
108
Figure B5.
Figure B6.
NOTES
1. See the latest available Modern Language Association’s Preliminary Report, available at
<www.mla.org/content/download/83540/2197676/2016-Enrollments-Short-Report.pdf>.
2. Deutsche Welle website: <www.dwds.de>.
3. Tim Johns (1936–2009), professor at Birmingham University, UK, the author of an often-quoted
comment that, “Reseach is too important to be left to the researchers”.
4. Compleat Lexical Tutor: <www.lextutor.ca/conc/gram/>.
5. DWDS: <www.dwds.de>.
6. GeWiss: <https://gewiss.uni-leipzig.de>.
7. MICASE: <https://quod.lib.umich.edu/cgi/c/corpus/corpus?…cc=micase>.
Lidil, 58 | 2018
109
8. BASE: <https://warwick.ac.uk/fac/soc/al/research/collections/base/>.
9. Dr Sigrun Schroth Wiechert personal page at LUH: < www.fsz.uni-hannover.de/360.html?…
5D=30310>.
10. Laurence Antony’s AntConc, a freeware corpus analysis toolkit for concordancing and text
analysis: <www.laurenceanthony.net/software/antconc/>.
11. RNC: <www.ruscorpora.ru/en/index.html>.
12. CEFR: Common European framework of reference for languages.
13. See Appendix B.
ABSTRACTS
This study highlights the problem of the lack of German specialized corpora for German for
specific purposes (GSP) courses for engineering students and describes a project aiming at the
development of such a corpus, the Kod.ING corpus. The authors show the relevance of the
Kod.ING corpus in meeting the needs of Master’s degree engineering students at St Petersburg
Polytechnic University who are studying lower-level German. At the preliminary stage of the
pedagogical experiment, nine compound nouns and eight lexical bundles were selected from the
Kod.ING corpus. These were taught to students through hands-on and hands-off data-driven
learning (DDL) activities. The immediate and delayed post-tests proved the effectiveness of short
DDL interventions in terms of acquisition of target vocabulary. The follow-up survey revealed
students’ particular interest in hands-on activities with the Russian National Corpus (RNC). In
conclusion, further research and pedagogical applications are suggested.
L’étude met en évidence le problème lié au manque de corpus spécialisés allemands pour les
cours d’allemand à des fins spécifiques (AFS) pour les étudiants en ingénierie et décrit un projet
visant à développer un tel corpus, le corpus Kod.ING. Les auteurs montrent la pertinence du
corpus Kod.ING pour répondre aux besoins des étudiants en master en ingénierie à l’Université
polytechnique de Saint-Pétersbourg, apprenant l’allemand de niveau assez faible. Au stade
préliminaire de l’expérience pédagogique, 9 noms composés et 8 « blocs lexicaux » ont été choisis
à partir du corpus Kod.ING. Ceux-ci ont été enseignés aux étudiants grâce à des activités d’ABD
pratiques et de non-intervention. Les post-tests immédiats et différés ont prouvé l’efficacité des
interventions courtes d’ABD pour l’acquisition du vocabulaire cible. L’enquête de suivi a révélé
un intérêt particulier de la part des étudiants pour des activités pratiques à partir du corpus
national de la langue russe (CNR). En conclusion, des pistes de recherches et des applications
pédagogiques sont suggérées.
INDEX
Mots-clés: apprentissage basé sur les données (ABD), corpus spécialisés, allemand à des fins
spécifiques (AFS), noms composés allemands, blocs lexicaux, compétences en rédaction
académique, corpus national de la langue russe (CNR)
Keywords: data-driven learning (DDL), specialized corpora, German for Specific purposes (GSP),
German compound nouns, lexical bundles, academic writing skills, Russian National
Corpus (RNC)
Lidil, 58 | 2018
110
AUTHORS
MARINA KOGAN
Peter the Great St Petersburg Polytechnic University, Department of Linguistics and Cross-
Cultural Communication, St Petersburg, Russia
ANNA YAROSHEVICH
Peter the Great St Petersburg Polytechnic University, Department of Linguistics and Cross-
Cultural Communication, St Petersburg, Russia
OLGA NI
Peter the Great St Petersburg Polytechnic University, Department of Linguistics and Cross-
Cultural Communication, St Petersburg, Russia
Lidil, 58 | 2018
111
Eva Schaeffer-Lacroix
1. Introduction
1 Dans le contexte de l’enseignement-apprentissage d’une langue étrangère (LE),
l’exploration d’un corpus numérique est souvent associée à l’action d’un apprenant
chercheur (Johns, 1991 ; Boulton & Tyne, 2014, p. 75 ; Schaeffer-Lacroix, 2015). Il s’agit,
entre autres, d’arriver à formuler des questions permettant d’étudier certains aspects
du fonctionnement de la langue. Si l’on opte, comme Kennedy et Miceli (2016), pour
une utilisation directe des outils de corpus par les apprenants, ces derniers doivent
arriver à transformer leurs questions linguistiques en requêtes techniques permettant
d’explorer le corpus. La mise en mots de questions par rapport à certains faits
linguistiques intéresse également les chercheurs du domaine du language awareness
(Gombert, 1996 ; Stegu, 2008 ; Landure, 2013), terme que l’on peut traduire par « prise
de conscience linguistique ». Swain (2006, p. 96), Pinto et El Euch (2015) ainsi que
Grobet et Vuksanović (2017), qui adhérent également à ce courant, travaillent plus
particulièrement sur des situations d’interaction verbale, plus précisément des
discussions métalinguistiques.
2 Il a semblé pertinent de combiner ces différentes entrées centrées soit sur les requêtes
sur corpus, soit sur le questionnement de la langue et d’en faire l’élément central d’un
module de soutien à l’écrit académique proposé à de futurs enseignants de l’allemand.
Formuler des requêtes sur corpus portant sur l’élément à réviser — en l’occurrence la
virgule — peut permettre aux apprenants scripteurs (Leblay, 2014) de tester des
références linguistiques par rapport à cet élément, de réviser et stabiliser leurs
connaissances et de les mettre en pratique lors de la phase de réécriture. Le dispositif
Lidil, 58 | 2018
112
2. Recherche-action
3 Le plan de cet article reflète le va-et-vient entre théorie et terrain qui, selon Narcy-
Combes (2005, p. 112), caractérise une recherche-action. Lors de ce type d’intervention,
les données sont recueillies selon un procédé d’observation participante (Montagne-
Macaire, 2007). Impliquée à plusieurs niveaux dans la recherche, j’y joue à la fois le rôle
de conceptrice du module d’enseignement, d’enseignante et de chercheuse.
Lidil, 58 | 2018
113
didactique et linguistique (Boch & Frier, 2015 ; Boettcher, 2016 ; Hidden, Alday &
Portine, 2016 ; Eluerd, 2017).
7 La recherche a permis de récolter des traces tangibles des actions et productions écrites
des apprenants. Elles sont complétées par des données de type interaction verbale, à
savoir les enregistrements audio des échanges en groupe entier, les discussions des
binômes lors de l’exploration du corpus documentées à l’aide de films d’écran avec
option audio et les entretiens semi-dirigés filmés qui ont clos le projet. Les écrans ont
été filmés à l’aide de Screencast-o-Matic (Big Nerd Software, n. d.). Cet outil numérique
permet de capter en même temps les actions à l’écran et les conversations qui les
accompagnent. Les analyses faites à partir des données récoltées sont de type qualitatif
(analyse fine des films d’écran, des échanges verbaux en groupe entier et des
entretiens) et quantitatif ; des calculs ont été apportés aux données issues des
productions écrites et des transcriptions des films d’écran à l’aide de l’outil de
statistique R (R Development Core Team, 2008).
8 Tout comme Gaskell et Cobb (2004), Chambers (2005), Ädel (2010) et O’Sullivan (2010), je
m’intéresse au potentiel des corpus pour soutenir la rédaction d’écrits académiques.
Selon Rinck (2011), le terme d’écrit académique recouvre des genres textuels qui varient
d’une discipline universitaire à une autre. À partir de cette définition large, il semble
légitime de dire qu’un écrit académique en LE est une production réalisée au sein d’un
module de formation universitaire qui s’adresse aux spécialistes de la langue ou aux
non-spécialistes et qui peut aussi bien viser une formation portant sur le fond que sur
la forme.
9 Le contexte précisé en section 2.1 concerne des étudiants francophones, spécialistes de
l’allemand, ayant produit deux types d’écrit académique, à savoir le compte rendu d’un
article scientifique et le commentaire portant sur l’un des comptes rendus rédigés par
des pairs (cf. la démarche d’implication des pairs pour la relecture d’écrits académiques
proposée par Lejot, 2017). Le cadrage formel pour ces deux genres textuels a été
souple : les étudiants ont été encouragés à rédiger un compte rendu sélectif d’une
demi-page environ dans lequel ils esquissent les idées principales de l’article ainsi que
les conséquences qu’ils pensent pouvoir en tirer pour leurs futures actions
d’enseignant. Le commentaire a été présenté aux participants comme un écrit assez
informel dans lequel ils entrent en discussion avec l’auteur du compte rendu.
Lidil, 58 | 2018
114
13 Aussi concluant que l’on puisse trouver l’approche inductive, il est un fait qu’elle est
souvent chronophage et que son bénéfice dépend grandement d’un accompagnement
pédagogique intense et pertinent (Schaeffer-Lacroix, 2015). Ces gestes ont un certain
coût et ne peuvent pas être offerts de façon systématique aux apprenants. L’approche
déductive incite les formés à observer la langue en se servant de références trouvées
ailleurs, par exemple, dans des ouvrages ou sites de référence. Placée dans un contexte
d’ouverture d’esprit et de questionnement des références existantes, cette approche
peut tout aussi bien mener à des résultats intéressants. Tsui (2004, p. 39) décrit une
expérience lors de laquelle des enseignants d’anglais LE ont été encouragés à formuler
des questions linguistiques dont ils pensaient devoir connaitre la réponse afin de
pouvoir fournir aux apprenants des repères grammaticaux pertinents (Tsui, 2004,
Lidil, 58 | 2018
115
14 Les chercheurs interrogent les corpus afin d’y trouver des réponses à leurs questions
scientifiques. Qui est censé poser les questions dans le contexte du DDL (data-driven
learning)2 ? Les questions correspondent en principe à des besoins des apprenants et
devraient donc être formulées par eux-mêmes. Dans la littérature, on trouve deux cas
de figure extrêmes : Leńko-Szymańska (2017) décrit une expérience lors de laquelle
c’est l’enseignant qui prend en charge la formulation des questions qui ne sont pas
explicitement motivées par des besoins recensés sur le terrain : « T 3 asks a question:
What is the common feature of these sentences? » (E pose une question : Quel est le trait
commun entre ces phrases ?). Kennedy et Miceli (2016) souhaitent rendre les
apprenants capables de formuler, de façon autonome, des « open-ended searches », donc
des requêtes sur corpus non préformatées correspondant à des questions que les
formés se posent. Les chercheuses s’attendent à ce que le développement de cette
capacité mène à l’observation et à la conceptualisation de phénomènes linguistiques.
15 Les données que j’exploite dans cet article attestent d’une maitrise perfectible de la
virgule dans pratiquement toutes les productions en allemand. Selon Favriaud (2011),
ce signe de ponctuation contribue à la structuration du texte : il informe sur le lien et
les frontières entre ses différents éléments ; la ponctuation aurait « une vertu réflexive
et réfléchissante en regard de l’écrit » (ibid.). On peut donc conclure qu’en situation
d’apprentissage de la production écrite, l’insertion (ou non) des virgules est un
domaine qui renseigne sur certaines compétences du scripteur, en l’occurrence son
degré de compréhension du fonctionnement de la langue.
16 Les recherches sur l’enseignement-apprentissage de la virgule en allemand sont
majoritairement pensées pour des contextes d’un apprentissage institutionnel de la
langue maternelle (Bredel & Primus, 2007 ; Sappok, 2011) et plus rarement de la langue
étrangère (Kirchhoff & Primus, 2016 ; Diehl, Pistorius & Fayolle Dietl, 2002). Kirchhoff
et Primus (2016, p. 78) proposent une analyse multilingue du phénomène : elles
comparent l’emploi de virgules dans cinq situations différentes en allemand, anglais,
espagnol et russe. Dans deux des situations, des différences peuvent être observées. La
première concerne ce que Boettcher (2016, p. 336) appelle le « marquage de territoire 4 »
entre une structure verbale d’accueil et un groupe subordonné, pouvant correspondre
à une complétive ou un groupe conjonctionnel. Comme l’illustre l’exemple suivant de
Kirchhoff et Primus (2016, p. 87), contrairement aux autres langues observées, en
allemand et en russe, ce marquage est effectué à l’aide d’une virgule : « Ich glaube, dass
niemand zur Party gekommen ist » ; « Я полагаю, что никто не прибыл на вечеринку » (Je
crois que personne n’est venu à la fête).
17 La deuxième différence concerne la présence ou non-présence d’une virgule devant des
groupes infinitifs en allemand (Kirchhoff & Primus, 2016, p. 88). La dernière réforme de
Lidil, 58 | 2018
116
4. Dispositif
21 J’ai proposé à deux cohortes d’apprenants (groupe 1 : n = 9 ; groupe 2 : n = 5) un atelier
d’une durée de six heures dédié à la virgule et à la prise en main de Sketch Engine. Les
deux groupes ont été, à des moments différents de l’atelier, confrontés aux catégories
de Boettcher. Le groupe 1, soumis à une approche déductive, a eu connaissance de ces
Lidil, 58 | 2018
117
Lidil, 58 | 2018
118
sélectives des films d’écran avec enregistrement audio des explorations de quatre
binômes8 et les transcriptions des enregistrements audio des échanges en groupe
entier. Ces échanges illustrent la façon dont les binômes s’emparent des outils de
corpus tout en réfléchissant ensemble sur les caractéristiques des virgules. Les
éléments pouvant soutenir des observations quantitatives ont été rassemblés dans un
fichier Excel afin de permettre des calculs avec R (R Development Core Team, 2008).
27 Afin de pouvoir analyser les productions écrites du projet à l’aide de calculs faits avec R,
j’ai choisi des catégories renseignant, entre autres, sur le genre textuel, la longueur des
textes en termes de nombre de mots, le nombre de conjonctions de subordination, la
nature d’erreur des virgules (absentes, à remplacer par un autre signe de ponctuation
ou superflues) et les catégories d’erreur inspirées par Boettcher. « NA’s » veut dire ici
« absence de données ». Le terme de « territoire » désigne des groupes syntaxiques
pouvant être bornés par une virgule ; « violation de territoire » signale la présence
non pertinente d’une virgule au sein d’un tel groupe, et « territoire non marqué » veut
dire qu’il y a absence d’une virgule à un endroit où elle est nécessaire pour marquer la
limite entre deux groupes syntaxiques. La catégorie « double partiellement marqué »
renseigne sur l’absence d’une des deux virgules d’une virgule double (paariges Komma),
p. ex., pour encadrer une incise.
28 L’analyse des comptes rendus et des commentaires a permis de constater que les
catégories « virgule absente » et « territoire non marqué » contiennent les scores
d’erreur les plus élevés (respectivement 71 et 76 erreurs). Elles sont suivies des
catégories « virgules superflues » (32 erreurs) et « violation de territoire » (26 erreurs).
Les résultats concernant les virgules absentes et la lecture cursive des productions
soutiennent la supposition que plus les apprentis scripteurs utilisent de conjonctions
de subordination, plus ils ont tendance à faire des erreurs de virgule.
29 Comme précisé supra, explorer un corpus peut être associé à une quête ayant une
valeur opérationnelle pour des apprenants d’une LE tout en étant scientifiquement
Lidil, 58 | 2018
119
30 Pendant les 15 minutes d’exploration du corpus qui leur étaient allouées, les binômes
ont réalisé entre 4 et 17 requêtes. 27 requêtes ont été effectuées par les membres du
groupe 1 (Bertille et Agnès ; Germine et Sarah9) soumis à une démarche déductive à
travers une formation préalable sur les catégories de Boettcher. 11 requêtes ont été
faites par les deux binômes du groupe 2 à qui on avait proposé une démarche
inductive : Chantal et Fanny ainsi que Habiba et Laura avaient été invitées à formuler
leurs propres questions et hypothèses.
31 On peut recenser en tout 24 requêtes de type CQL (Corpus Query Language) et 13 requêtes
de type simple, c’est-à-dire, en langage naturel, dont 8 avec indication d’un contexte.
11 requêtes sur 37 ont mené à un résultat zéro, presque toujours en raison d’une erreur
de formulation de la requête, et 8 (signalés dans le tableau comme « NA’s ») n’ont pas
été exécutées jusqu’au bout.
32 Dans les données, on peut distinguer trois types de démarche de questionnement des
données, à savoir l’exploration ouverte, l’exploration fermée et l’exploration aléatoire.
Lidil, 58 | 2018
120
35 Le terme d’exploration fermée désigne des requêtes qui restreignent la recherche à des
objets précis. Si une exploration cible de façon trop étroite son objet, elle risque de
mener à un raisonnement circulaire : chercher des virgules directement suivis d’un
pronom relatif permet simplement de constater qu’il y a un certain nombre
d’occurrences de ce type dans le corpus.
Bertille : Maintenant, on peut regarder s’il y a une virgule avec les justement avec
les groupes verbaux relatifs. […] Effectivement, la virgule apparait avant tous les
pronoms relatifs.
36 Toutefois, des requêtes fermées ne sont pas forcément sans effet heuristique : dans
l’exemple suivant, la longue liste d’occurrences obtenues confirme les représentations
déjà là de Sarah et Germine par rapport à la nécessité absolue de mettre une virgule
avant les conjonctions de subordination en allemand.
Sarah : Donc, on va essayer: avec .. les conjonctions de SUBordination.
<84 lignes de concordance s’affichent à l’écran.>
(Sarah) : Alors=
Germine : =Ouh là !
Sarah : Eh ben, là aussi, xxx
Germine : Et là, on voit que c’est o- [obligaTOIre.]
37 Une démarche d’exploration aléatoire se traduit par des gestes qui ne semblent pas
motivés par des questions pertinentes ou par des tâches reconnaissables. On observe
des requêtes qui ne paraissent pas logiques, comme celle-ci effectuée par Fanny :
<[word=","][tag="CONJ.Sub.*"] & conjonction & determiner>. Ici, l’outil est censé
trouver une virgule directement suivie par une conjonction de subordination. Ces deux
éléments sont combinés avec une conjonction et un déterminant apparaissant à une
distance de 5 mots à leur gauche ou leur droite. Le film d’écran qui documente le travail
de Chantal et de Fanny renseigne sur le fait que c’est cette dernière qui saisit, à un
rythme effréné, toutes les requêtes. Fanny a tendance à cocher plusieurs options à la
fois dont certaines sont incompatibles entre elles. Chantal reste en retrait ; elle se
contente de faire des commentaires et des suggestions. Parfois, elle essaie de freiner
l’élan de Fanny.
Fanny : Si on change(ait). On n’a qu’à mettre celui-là.
<Fanny clique sur une commande de CQL préenregistrée qui permet de chercher les
conjonctions de subordination précédées d’une virgule. Elle coche en même temps
le contexte conjunction [conjonction] et determiner [déterminant] ce qui ne permet
pas de trouver d’occurrences.>
Fanny : Cela avait marché tout à l’heure.
Chantal : Là, on ne bouge plus.
Lidil, 58 | 2018
121
39 Le test Fisher’s exact fournit les scores de probabilité suivants pour un seuil de p < 0,05 :
0,047 (exploration ouverte/fermée), 0,001 (exploration fermée/aléatoire), 0,444
(exploration ouverte/aléatoire). Les deux approches peuvent donc servir de variables
indépendantes, sauf pour la corrélation « exploration ouverte/aléatoire ».
40 Les observations des films d’écran avec son intégré montrent qu’une bonne partie des
requêtes s’enchainent sans qu’elles ne soient suivies d’observations précises des
occurrences obtenues. En particulier Fanny parait plusieurs fois pressée de formuler
des références sans prendre le temps de réfléchir : « Alors là, on a des und, doch,
sondern, aber (et, ou, mais). C’est quoi, la règle ? » Dans l’exemple ci-dessous, Germine et
Sarah recherchent tous les pronoms du corpus sans faire figurer la virgule dans la
requête. Leur interprétation des occurrences obtenues ne se concentre toutefois pas
sur les pronoms, sauf pour constater (à tort) une erreur d’étiquetage pour la forme mich
(me). À la place, les deux observent d’autres phénomènes liés à la virgule, en
l’occurrence l’incise qu’elles appellent ici « apposition ».
Sarah : [Si on] met pronom tout simple ? . Là . au lieu de mettre Rel, on met juste
Pronom.
Germine : °°On peut essayer.°°
Sarah : Sssupprimer/ .. Ah voilà, on a une sacré liste, donc tous les: pronoms/
Germine : Oui. .. Enfin, pas TOUS. (Il y a) des exemples un peu bizarres avec mich.
Sarah : Parfois, c’est . des virgules qui sont ENtre crochets, tu vois, là, c’est MEIner
MEInung NACH/ (selon mon avis)
Germine : Oui, c’est il y a (de nouveau une) virgule.
Sarah : C’est des appositions.
Germine : Oui.
Lidil, 58 | 2018
122
43 Laura (tout comme Agnès) sort du cadre de l’observation empirique des données du
corpus pour choisir la prosodie comme cadre de référence : selon elle, la virgule
correspondrait à une pause repérable à l’oral.
Laura : Je pense que la virgule, en fait, elle est assez claire : il suffit de de de se dire
la phrase, en fait, à l’oral […] parce que je pense qu’on fait automatiquement une
pause quand quand il y a une virgule.
44 L’exemple précédant soutient l’idée que la démarche inductive peut amener les
apprenants à avoir recours à des références antérieures dont certaines sont moins
pertinentes que celles offertes lors d’une démarche déductive.
45 Une autre façon d’éviter l’emploi des outils de corpus peut être observée par Fanny qui
cherche plusieurs fois sur Internet des réponses à ses questions : elle vérifie la
définition de conjonction de coordination et de subordination, et elle cherche le terme
métalinguistique correspondant à um zu (pour).
Fanny : Comment on appelle ça, um zu ? De toute façon, il faut que je révise ça . pour
le CAPES11.
46 Fanny va jusqu’à formuler dans son moteur de recherche Internet la requête
« Utilisation de la virgule en allemand » sans toutefois la mener jusqu’au bout.
Lidil, 58 | 2018
123
Lidil, 58 | 2018
124
Germine : ohne c’est pas une conjonction de subordination, non ? . Ah mais c’est
parce qu’il y a zu ? Ah non.
Sarah : Mais SI. à, dans, par, pour, envers, de, sans, sous . ça, c’est les conjonctions
de subordination.
Germine : =[Ah non,]
Sarah : c’est des conjonctions [de coordination]
Germine : ohne, °°c’est (pas)°° une conjonction de (léger rire)) subordination.
Sarah : xxx
Germine : On va le: garder en tête.
Sarah : Oui.
Germine : On va (le noter.)
Sarah : Oui, tu peux noter que: que: hein, on se posé la question du ohne.
Germine : Oui. Hein .
51 Dans cette interaction, un flottement catégoriel peut être constaté pour Sarah. En effet,
la préposition ohne (sans) peut apparaitre au sein de la locution ohne dass (sans que)
introduisant un groupe conjonctionnel et dans ohne zu (sans) introduisant un groupe
infinitif. Un questionnement comparable se trouve dans les interactions verbales de
Germine et Sarah et de Chantal et Fanny quand elles cherchent le métaterme
correspondant à um zu (pour).
7. Conclusion
52 Cette recherche a examiné la façon dont de futurs enseignants d’allemand se sont
emparés d’outils de corpus qui leur ont été présentés comme des instruments pouvant
soutenir la conceptualisation de la virgule allemande. L’exploration de ce fait
linguistique dans le corpus a eu comme conséquence que les apprenants réfléchissent,
entre autres, sur la structuration du discours et sur le rôle que jouent les conjonctions
pour cette structuration. Dans les lignes qui suivent, je présenterai les résultats que la
recherche a permis d’obtenir par rapport aux quatre questions de travail formulées en
section 3.5.
53 L’analyse des données permettant de répondre à la première des questions (« Qu’est-ce
que les enregistrements de l’écran et de la conversation des binômes lors de la prise en
main de l’outil peuvent nous apprendre sur la démarche de recherche sur corpus ? ») a
mené à l’identification de trois niveaux d’exploration du corpus, à savoir l’exploration
ouverte, fermée et aléatoire. Il s’est avéré que la combinaison des deux premiers types
d’exploration peut soutenir une démarche de réflexion sur la langue. Je me suis
attendue à ce que l’aspect technique de la formulation des requêtes pose problème aux
apprenants ; ce n’était pas vraiment le cas même si certaines difficultés subsistent.
Enquêtrice : (Cela) ne vous a pas perturbé de devoir taper comme ça un langage pas
naturel ?
Laura : Non, non. Mais c’est très simple, une fois […] qu’on trouve les codes, on sait
les employer.
54 Par contre, la formulation des questions de travail a parfois été laborieuse. Lors de
l’entretien du groupe 1, Sarah et Agnès thématisent cette difficulté en mentionnant
deux conditions différentes pour interroger un corpus de façon pertinente, la nécessité
d’avoir un doute par rapport à un fait linguistique et d’être au clair par rapport à sa
question de travail.
Sarah : [Il faut] avoir un doute ou savoir qu’on a fait une faute=
Agnès : Il faut avoir une question précise, sinon . si c’est vague, on ne trouve pas.
Lidil, 58 | 2018
125
Lidil, 58 | 2018
126
BIBLIOGRAPHIE
ÄDEL, Annelie. (2010). Using Corpora to Teach Academic Writing: Challenges for the Direct
Approach. Dans M. C. Campoy-Cubillo, B. Belles-Fortuño & M. L. Gea-Valor (dir.), Corpus-Based
Approaches to English Language Teaching (p. 39-55). Londres, New York : Continuum.
AMADIEU, Frank & TRICOT, André. (2014). Apprendre avec le numérique. Mythes et réalités. Paris : Retz.
BERNARDINI, Silvia. (2004). Corpora in the Classroom. An Overview and Some Reflections on Future
Developements. Dans J. Sinclair (dir.), How to Use Corpora in Language Teaching (p. 15-36).
Amsterdam, Philadelphie : John Benjamins Publishing Company.
BOCH, Françoise & FRIER, Catherine. (2015). Travailler le texte : ponctuation, anaphores et
collocations. Dans F. Boch & C. Frier (dir.), Écrire dans l’enseignement supérieur : des apports de la
recherche aux outils pédagogiques (p. 53-109). Grenoble : UGA Éditions.
BOULTON, Alex & TYNE, Henry. (2014). Des documents authentiques aux corpus. Paris : Didier.
BOUTET, Josiane & DEPREZ, Christine. (2002). Ici et là-bas, public et privé. Des catégories à
interroger. Cahiers de l’Institut de linguistique de Louvain, 28(3/4), 37-46.
BREDEL, Ursula & PRIMUS, Beatrice. (2007). Komma & Co: Zwiegespräch zwischen Grammatik und
Performanz. Zeitschrift für Sprachwissenschaft, 26, 81-131. <https://doi.org/10.1515/ZFS.2007.006>.
CHAMBERS, Angela. (2005). Integrating Corpus Consultation in Language Studies. Language Learning
& Technology, 9(2), 111-125. Disponible en ligne sur <www.lltjournal.org/item/2509>.
CHARAUDEAU, Patrick. (2009). Dis-moi quel est ton corpus, je te dirai quelle est ta problématique.
Corpus, 8, 37-66. Disponible en ligne sur <https://journals.openedition.org/corpus/1674>.
CHENG, Winnie, WARREN, Martin & XUN-FENG, Xu. (2003). The Language Learner As Language
Researcher: Putting Corpus Linguistics on the Timetable. System, 31(2), 173-186.
DE COCK, Sylvie & TYNE, Henry. (2014). Corpus d’apprenants et acquisition des langues. Recherches
en didactique des langues et des cultures – Les Cahiers de l’Acedle, 11(1). <https://doi.org/10.4000/rdlc.
1716>.
DIEHL, Erika, PISTORIUS, Hannelore & FAYOLLE DIETL, Annie. (2002). Grammatikerwerb im
Fremdsprachenunterricht – Ein Widerspruch in sich? Dans W. Börner & K. Vogel (dir.), Grammatik
und Fremdsprachenerwerb. Kognitive, psycholinguistische und erwerbstheoretische Perspektiven
(p. 143-163). Tübingen : Narr.
ELUERD, Roland. (2017). La Ponctuation française. Règles, usages et plaisir du texte. Paris : Garnier.
GASKELL, Delian & COBB, Thomas. (2004). Can Learners Use Concordance Feedback for Writing
Errors? System, 32(3), 301-319.
Lidil, 58 | 2018
127
GOULLIER, François. (2016). Rapport de jury CAPES Externe, section Allemand, session 2016. Ministère de
l’Éducation nationale, de l’Enseignement supérieur et de la Recherche. Disponible en ligne sur
<http://media.devenirenseignant.gouv.fr/file/externe/53/7/rj-2016-capes-externe-
allemand_628537.pdf>.
GROBET, Anne & VUKSANOVIĆ, Ivana. (2017). Variations de l’élaboration conceptuelle dans
différentes modalités d’enseignement bilingue. Bulletin VALS-ASLA (Bulletin suisse de linguistique
appliquée), vol. spécial (2), 89-100.
HIDDEN, Marie-Odile, ALDAY, Maria Victoria, PORTINE, Henri & SHAO, Baoqing. (2016). La
ponctuation en langue étrangère peut-elle devenir un objet d’apprentissage ? Dans S. Pétillon,
F. Rinck & A. Gautier (dir.), La ponctuation à l’aube du XXIe siècle. Perspectives historiques et usages
contemporains (p. 231-250). Limoges : Lambert Lucas.
JOHNS, Tim. (1991). Should You Be Persuaded: Two Samples of Data-Driven Learning Materials.
Dans T. Johns & P. King (dir.), Classroom Concordancing, English Language Research Journal, 4, 1-13.
KENNEDY, Claire & MICELI, Tiziana. (2001). An Evaluation of Intermediate Student’s Approaches to
Corpus Investigation. Language Learning & Technology, 5(3), 77-90. Disponible en ligne sur
<www.lltjournal.org/item/3045>.
KENNEDY, Claire & MICELI, Tiziana. (2016). Cultivating Effective Corpus Use by Language Learners.
Computer Assisted Language Learning, 30(1-2), 91-114. <http://dx.doi.org/
10.1080/09588221.2016.1264427>.
KIRCHHOFF, Frank & PRIMUS, Beatrice. (2016). Das Komma im mehrsprachigen Kontext [La virgule
en contexte multilingue]. Dans R. Olsen, C. Hochstadt & S. Colombo-Scheffold (dir.), Ohne Punkt
und Komma… Beiträge zu Theorie, Empirie und Didaktik der Interpunktion (p. 78-97). Berlin :
RabenStück Verlag.
LANDURE, Corinne. (2013). Corpus et dictionnaires : prise de conscience linguistique chez des
apprenants Lansad. Bulletin VALS-ASLA (Bulletin suisse de linguistique appliquée), 97, 59-76.
Disponible en ligne sur <http://doc.rero.ch/record/11876/files/
bulletin_vals_asla_2013_097.pdf>.
LEBLAY, Christophe. (2014). Les écritures intermédiaires réflexives en littératie avancée. Le français
aujourd’hui, 1(184), 103-115.
LEJOT, Ève. (2017). La relecture entre pairs en formation doctorale : de l’analyse des commentaires
à l’élaboration d’une grille d’accompagnement. Lidil, 55. Disponible en ligne sur <https://
journals.openedition.org/lidil/4255>.
MONDADA, Lorenza. (2005). Chercheurs en interaction. Comment émergent les savoirs. Lausanne :
Presses polytechniques et universitaires romandes.
NARCY-COMBES, Jean-Paul. (2005). Didactique des langues et TIC : vers une recherche-action responsable.
Paris : Éditions Ophrys.
Lidil, 58 | 2018
128
O’SULLIVAN, Íde. (2010). Using Corpora to Enhance Learners’ Academic Writing Skills in French.
Revue française de linguistique appliquée, 2(15), 21-35.
Regeln und Wörterverzeichnis. (2006). Munich et Mannheim : IDS Mannheim. Disponible en ligne sur
<www1.ids-mannheim.de/fileadmin/service/reform/regeln2006.pdf>.
RINCK, Fanny. (2011). Former à (et par) l’écrit de recherche. Quels enjeux, quelles exigences ? Le
français aujourd’hui, 3(174), 79-89. <https://doi.org/10.3917/lfa.174.0079>.
SAPPOK, Christopher. (2011). Das deutsche Komma im Spiegel von Sprachdidaktik und
Prosodieforschung – Forschungslage – “Parsing vs. Phrasing” – Experimente. Berlin, Münster : LIT.
ST JOHN, Elke. (2001). A Case for Using Parallel Corpus and Concordancer for Beginners of a
Foreign Langage. Language Learning & Technology, 5(3), 185-203. Disponible en ligne sur
<www.lltjournal.org/item/3054>.
SWAIN, Merrill. (2006). Languaging, Agency and Collaboration in Advanced Second Language
Learning. In H. Byrnes (dir.), Advanced Language Learning: The Contributions of Halliday and Vygotsky
(p. 95-108). Londres : Continuum.
TSUI, Amy Bik May. (2004). What Teachers Have Always Wanted to Know—and How Corpora Can
Help. Dans J. McH. Sinclair (dir.), How to Use Corpora in Language Teaching (p. 39-61). Amsterdam,
Philadelphie : John Benjamins Publishing.
BIBLIOGRAPHISCHES INSTITUT GMBH. (2017). Duden. Dictionnaire électronique. Disponible en ligne sur
<www.duden.de>.
BORG, Nic & O’HARA, Jeff. (2008). Edmodo. Plateforme d’apprentissage. Disponible en ligne sur
<www.edmodo.com>.
KILGARRIFF, Adam, RYCHLY, Pavel & POMIKALEK, Jan. (n. d.). Sketch Engine. Système de gestion de
corpus. Disponible en ligne sur <www.sketchengine.co.uk>.
Lidil, 58 | 2018
129
SCHMID, Helmut & LAWS, Florian. (2008). Estimation of Conditional Probabilities with Decision
Trees and an Application to Fine-Grained POS Tagging. Dans Proceedings of the 22nd International
Conference on Computational Linguistics (COLING 2008) (p. 777-784). Manchester, Angleterre.
Disponible en ligne sur <www.cis.uni-muenchen.de/~schmid/papers/Schmid-Laws.pdf>.
R DEVELOPMENT CORE TEAM. (2008). R: A Language and Environment for Statistical Computing. Vienne :
R Foundation for Statistical Computing. Disponible en ligne sur <www.R-project.org>.
ANNEXES
Conventions de transcription
Extrait de Mondada (2005, p. 31-34).
Les locuteurs non identifiés sont notés par un x.
[ note le début du chevauchement entre les locuteurs.
] note la fin du chevauchement, lorsque cela a été jugé nécessaire.
= note un enchainement rapide entre deux tours de parole.
& note la continuation du tour par le même locuteur, au-delà de l’interruption de la
ligne de la transcription pour l’introduction d’un chevauchement par un autre
locuteur.
. et .. et … notent des pauses petites, moyennes, longues.
: et :: notent des allongements syllabiques (de manière iconique par rapport à la durée,
on pourra avoir : ou ::).
- note la troncation d’un mot esquissé.
/ et \ notent les montées et descentes intonatives.
Les CAPITALES notent une accentuation.
Les degrés ° ° et °° °° notent un volume bas, murmuré, de la voix (°° °° pour un volume
très bas).
< > délimitent le segment sur lequel porte un commentaire.
xxx notent un segment incompréhensible.
(ravère) note un segment incertain.
NOTES
1. Exemple d’une requête sur corpus : pour trouver des virgules suivies d’une conjonction dans
un corpus déposé sur Sketch Engine, on formulera la ligne de commande suivante : [word=","]
[tag="CONJ.*"].
2. Tyne (2013) traduit ce sigle par « apprentissage conduit ou porté par les données ».
3. T (the teacher) ; E (l’enseignant).
4. Dans ses termes : « die Territorien der beteiligten Prädikate […] markieren » (Boettcher, 2016,
p. 337).
Lidil, 58 | 2018
130
5. Les conventions de transcription sont celles proposées dans Mondada (2005, p. 31-34) ; voir
annexe.
6. Le pivot est « le mot ou motif linguistique dont on veut étudier les occurrences en contexte »
(Pincemin, 2006).
7. Pour plus de précisions, voir De Cock et Tyne (2014).
8. Il n’y a que quatre binômes car cinq personnes sur quatorze n’ont pas pu être présentes
pendant la phase d’exploration. La neuvième personne présente a perdu son film d’écran.
9. Prénoms anonymisés.
10. Chantal se trompe ici : la plupart des conjonctions de coordination s’utilisent sans virgule.
11. CAPES : Certificat d’aptitude au professorat de l’enseignement secondaire.
RÉSUMÉS
Le concept d’apprenant chercheur attribue à l’apprenant les traits d’un linguiste cherchant à
comprendre le fonctionnement de la langue. Souvent mentionné dans le contexte de l’utilisation
des corpus pour l’enseignement-apprentissage d’une langue étrangère, ce concept nécessite de la
part des apprenants la capacité de formuler une question portant sur un fait linguistique et de
transformer cette question en une requête sur corpus. Afin d’observer la façon dont de telles
compétences peuvent se mettre en place, une expérience a été proposée à deux groupes de futurs
enseignants d’allemand ayant produit des écrits académiques pendant un module de didactique.
L’analyse d’erreurs appliquée à leurs textes a motivé le choix de proposer à ce public un travail
de conceptualisation de la virgule. Lors d’un atelier de formation linguistique et technique d’une
durée de 6 heures, les étudiants avaient l’occasion d’observer la virgule dans un corpus d’experts.
Ils étaient regroupés en binômes afin d’être incités à une interaction verbale pendant leur travail
d’exploration. Pour l’un des groupes, une approche déductive a été choisie et pour l’autre une
approche inductive. L’analyse des données a permis de déterminer trois types d’exploration du
corpus par les apprenants et d’établir un lien entre leurs modes d’investigation et le traitement
spécifique auquel ils ont été soumis. Les interactions verbales et les films d’écrans contiennent
des indices selon lesquels l’approche déductive a, davantage que l’approche inductive, mené à
des démarches s’apparentant à une enquête scientifique.
The concept of the learner as a researcher assigns the learner features of a linguist striving to
understand the functioning of language. This concept, often mentioned within the context of
corpus use for foreign language learning and teaching, implies the learner’s capacity to
formulate questions about a given language feature and to transform these questions into corpus
queries. In order to observe how related competencies can be set up, a research project was
designed for future German teachers. Two groups were invited to write academic texts during a
Master’s degree course in applied linguistics. The error analysis of their texts revealed that the
students needed assistance in the use of commas in German. A one-day workshop was dedicated
to linguistic and technical training focusing on the comma and on corpus tools. Grouped into
pairs in order to stimulate verbal interaction, the students explored the comma in a specialised
corpus. A deductive approach was instigated for half of the group and an inductive approach for
the other half. The research data fell into three different exploration modes. The interactions
and the screen casts of the deductive approach group contain stronger evidence of scientific
investigation methods and results than those of the inductive approach group.
Lidil, 58 | 2018
131
INDEX
Mots-clés : apprenant chercheur, écrit académique, corpus, question, virgule, allemand
Keywords : learner as researcher, academic writing, corpora, inquiries, comma, German
AUTEUR
EVA SCHAEFFER-LACROIX
Sorbonne Université – ÉSPÉ de Paris
schaeffer-lacroix@orange.fr
Eva Schaeffer-Lacroix est maitre de conférences en études germaniques à Sorbonne Université –
ÉSPÉ de Paris. Ses recherches portent sur l’usage des technologies pour l’enseignement-
apprentissage des langues étrangères. Elle s’intéresse en particulier aux corpus numériques, à la
production écrite et à la réflexion sur la langue.
Lidil, 58 | 2018
132
Varia
Lidil, 58 | 2018
133
1. De la socioterminologie
1 Dans son ouvrage, Gaudin (2003) se démarque de l’approche fixiste wüsterienne de la
terminologie. En effet, guidé par une logique et une visée essentiellement
normalisatrices, Wüster a conçu une théorie terminologique axée sur une relation
biunivoque entre terme et concept. En introduisant une dimension sociale, Gaudin
confère à la terminologie un caractère mouvant avec « la référence conçue comme un
acte dynamique de co-construction perpétuelle du monde » (Dufour, 2004, p. 208).
2 Adopter une approche socioterminologique implique de prendre en compte que la
monosémie du terme n’exclut pas que celui-ci puisse appartenir à plusieurs registres de
discours. Dès lors, une communauté est en mesure de se le réapproprier. La recherche
et la constitution de termes en contexte plurilingue sont d’une certaine manière
influencées par le contact des langues et tiennent nécessairement compte de variables
sociales telles que les rapports qu’entretiennent les locuteurs avec leur langue.
Gaudin (2003) identifie également la vulgarisation scientifique (VS) comme un moyen
de diffusion de savoirs.
3 Pour occuper de nouveaux espaces de parole, une langue se renouvelle, dans le sens
d’un enrichissement de son lexique. Cela passe par l’appropriation de concepts,
relativement nouveaux ou qui se renouvellent chaque fois dans les domaines
techniques ou scientifiques. Notre approche socioterminologique consiste en une
observation de l’usage d’emprunts chez les locuteurs dans le domaine médical, puis en
une proposition de termes substituables aux emprunts et enfin en une détermination
de facteurs d’implantation.
Lidil, 58 | 2018
134
Lidil, 58 | 2018
135
Lidil, 58 | 2018
136
Lidil, 58 | 2018
137
Lidil, 58 | 2018
138
2018, 2015), l’accent a été mis, au plan linguistique, sur le caractère expansif des
processus de désignation indissociables de la démarche vulgarisatrice. Par ailleurs, le
wolof, comme beaucoup de langues négro-africaines, a une caractéristique verbalisante
qui incite à avoir recours à des séquences expansives (Diagne, 2018) :
Tuberculose : Sëqët su bon si
Angiocholite : Mettitu waruwaa yi jëm ci wextan
Agraphie : Jafe jafe mën bind
28 Le caractère peu doté, c’est-à-dire l’absence ou la rareté de terminologies, appelle une
technique propre à la vulgarisation : la reformulation. L’implantation des termes
wolofs, à notre sens, passe nécessairement par le canal de la vulgarisation. En effet,
celle-ci confère une notion utilitaire à la pratique terminologique dans l’aire culturelle
du wolof tout en renforçant les pouvoirs d’expression de cette langue. L’idée majeure
est bien sûr d’élaborer des termes, mais également d’arriver à une conception et une
expression des sciences médicales au plus près des réalités socioculturelles wolofes.
6. Conclusion
29 Nous avons étudié les modalités de dénomination/désignation dans la terminologie
médicale d’une langue peu aménagée, dans un espace sociolinguistique sénégalais
marqué par le contact des langues. En effet, la vitalité des langues du Sénégal, du wolof
en particulier, s’est traduite, depuis quelques années, par des besoins pressants en
termes de lexique spécialisé. À travers quelques exemples pris dans le champ médical,
nous avons vu comment les liens référentiels peuvent contribuer à rendre moins
opaque la terminologie. Aujourd’hui, l’accès à une information médicale
compréhensible est devenu un enjeu majeur de santé publique dans tous les pays et il y
a un besoin de structuration légitime de la terminologie médicale au Sénégal. Mener
des recherches terminologiques dans le contexte socioculturel sénégalais passe par une
mise « en place des structures chargées de la standardisation des variétés des langues
retenues, de leur normalisation et de leur enrichissement conceptuel » (Cissé, 2005,
p. 128). Cela relève fondamentalement d’une volonté politique.
30 Le statut du wolof comme langue la plus parlée au Sénégal et son importance dans les
interactions médicales peuvent justifier une intervention terminologique sur cette
langue. Mais le succès d’un tel aménagement linguistique/terminologique dépendra de
la capacité de l’État à ne pas accréditer une vision « glottophage » du wolof au Sénégal,
aux dépens de la variation et du plurilinguisme (Juillard & Dreyfus, 2005, p. 320).
BIBLIOGRAPHIE
CABRÉ, Maria Theresa. (1998). La terminologie théorie, méthodes et applications. Paris : Armand Colin.
Lidil, 58 | 2018
139
DIAGNE, Abibatou. (2018). La terminologie wolof dans une perspective de traduction et de combinatoire
lexicale restreinte (Thèse de doctorat). Université Lumière – Lyon 2, Lyon.
DIKI-KIDIRI, Marcel. (1999). Le signifié et le concept dans la dénomination. Meta : Journal des
traducteurs / Meta: Translators’ Journal, 44(4), 573-581.
FAAL, Aram & NJAAY, Mamadu D. (1994a). Sama doom dama koy nàmpal. Dakar : OSAD.
FAAL, Aram & NJAAY, Mamadu D. (1994b). Lekkug tànneef. Dakar : OSAD.
FAAL, Aram & NJAAY, Mamadu D. (1994c). Programme élargi de vaccination (PEV). Dakar : OSAD.
FISCHMAN, Joshua A. (1967). Bilingualism with and without Diglossia; Diglossia with and without
Bilingualism. Problems of Bilingualism, Journal of Social issues, 23(2), 29-38.
INEPES. (2006). Teere wer gu yaram, livret de santé bilingue. Paris : INEPES.
JUILLARD, Caroline & DREYFUS, Martine. (2005). Le plurilinguisme au Sénégal : langues et identités en
devenir. Paris : Éditions Karthala.
MBODJ, Chérif. (2014). Pour une terminologie de la santé en wolof. Dakar : Presses universitaires de
Dakar.
NDAO, Papa Alioune & KÉBÉ Abou Bakry. (2010). Langues et médias au Sénégal : une expérience de
normalisation langagière par les journalistes des radios privées. Enjeux et limites. Dans P. A.
Ndao & A. B. Kébé (dir.), Nouveaux médias et dynamiques des langues dans l’espace francophone,
Glottopol, 14, 17-36. Disponible en ligne sur <http://glottopol.univ-rouen.fr/numero_14.htm>
(consulté le 20 septembre 2015).
ROBERT, Stéphane. (1991). Approche énonciative du système verbal : le cas du wolof. Paris : Éditions du
Centre national de la recherche scientifique.
NOTES
1. La normaison concerne l’intercompréhension dans les usages langagiers.
Lidil, 58 | 2018
140
RÉSUMÉS
L’usage des langues d’Afrique subsaharienne a connu ces dernières années des changements
majeurs aux conséquences sociolinguistiques notables. Dans bien des situations, de nouvelles
pratiques communicatives et de nouvelles formes de pouvoirs langagiers sont apparues, en
particulier sous l’impulsion de la révolution numérique (Ndao & Kébé, 2010). Il résulte de ces faits
d’importantes reconfigurations du paysage sociolinguistique. Ainsi, certaines langues
connaissent un regain de vitalité et ne sont plus confinées à des « fonctions basses »
(Fishman, 1967).
La socioterminologie constitue une branche de la terminologie à dimension sociocritique
fortement influencée par la sociolinguistique théorique et la sociolinguistique de terrain (Gaudin,
2005). Elle consiste à faire le lien entre les termes produits et leur contexte d’occurrence. Elle a
donc comme objet « l’étude de la circulation des termes en synchronie et en diachronie »
(Gaudin, 2005, p. 81). La socioterminologie s’intéresse aux significations socialement réglées des
termes. Dans le présent article, nous relevons les conséquences du contact de langues sur les
processus de création de lexiques de spécialité en wolof. Nous prenons des exemples du domaine
médical qui constitue un terreau fertile à l’usage de termes français en milieu wolophone. En
dernière analyse, il conviendra de s’arrêter sur la dimension vulgarisatrice de la terminologie
wolofe. L’étude sur corpus d’écrits à caractère médical en wolof montre qu’à l’heure actuelle, la
vulgarisation scientifique (VS) constitue le principal canal de diffusion du discours médical et des
termes médicaux (Diagne, 2018). La VS se pose en cadre d’appropriation de savoirs, mais aussi en
cadre didactique et d’information qui cible les locuteurs wolofs.
In recent years, the use of sub-Saharan African languages has undergone major changes with
notable sociolinguistic consequences. In many cases, new communicative practices and new
forms of language power have emerged, particularly thanks to digital revolution (Ndao & Kébé,
2010). These facts result in important reconfigurations of the sociolinguistic landscape and some
Lidil, 58 | 2018
141
INDEX
Mots-clés : wolof, socioterminologie, corpus médical
Keywords : Wolof, socioterminology, medical corpus
AUTEURS
ABIBATOU DIAGNE
Laboratoire CRTT, Université Lumière – Lyon 2
diagneabi@gmail.com
Lidil, 58 | 2018
142
Catherine Combaz
1. Introduction
1 Cet article s’inscrit dans la filiation de différents travaux. Tout d’abord, il s’appuie sur
le concept de rapport à l’écrit défini comme « les images, les représentations, les attentes
et les jugements que chaque individu utilisateur de ce savoir se forge à son contact »
(Barré-De Miniac, Gros & Ruiz, 1993, p. 106). Il trouve aussi sa source dans les travaux
qui portent plus spécifiquement sur les représentations de l’orthographe chez les
enseignants (Sautot, 2002, 2003a et 2003b ; Péret, Brissaud & Sautot, 2007). Ceux-ci
pointent l’existence de tiraillements entre la prégnance sociale de l’orthographe et
leurs conceptions personnelles, la norme engendrant un ensemble de tensions, de
ruptures et d’obstacles. Dans le champ de la sociolinguistique, plusieurs recherches ont
montré que l’orthographe est une préoccupation majeure parce qu’elle revêt une
charge identitaire forte et socialement significative (Millet, Lucci & Billiez, 1990 ; Lucci
& Millet, 1992). Ces travaux mettent en évidence qu’une sanction-réprobation est
inévitablement adressée à toute personne produisant des écrits s’écartant de la norme
orthographique. Outre la non-observance des règles du système graphique, il s’agit
d’une transgression des conduites prescrites dans la société qui imposent un usage
commun. Cette dernière dimension relève directement d’un regard sur les normes
sociales (Demeulenaere, 2003). Elle nous a conduite, dans une recherche doctorale
(Combaz, 2017), à nous intéresser au rapport des enseignants de l’école primaire à
l’orthographe appréhendée comme une norme sociale par l’analyse de leurs
positionnements à travers leurs commentaires de cinq figures rhéto-orthographiques
Lidil, 58 | 2018
143
(FRO – Lucci & Millet, 1992). Les FRO offrent l’avantage d’interpeler les enseignants
comme professionnels de l’enseignement-apprentissage de l’orthographe et comme
acteurs sociaux qui rencontrent ces formes écrites « déviantes » dans leur vie
quotidienne. Ces variations écrites obligent à un traitement cognitif particulier qui
stimule la réflexion métalinguistique des acteurs interrogés pour réfléchir sur la langue
et sur l’orthographe en particulier (Jaffré, 2010). Les individus exploitent alors, plus ou
moins, le « jeu social » que la norme, bien que prescriptive, leur accorde. Nous
cherchons donc à savoir comment ils composent avec celle-ci dans une situation
orthographique « limite », puisqu’elle les confronte à des écrits dont les variations
peuvent s’appréhender comme des jeux de mots bienvenus ou comme des fautes. Nous
voulons apprécier la marge de liberté que ces acteurs se donnent, à travers leurs
jugements de ces FRO. Nous faisons l’hypothèse que ces écrits sont diversement
appréciés dans un continuum qui va du rejet à l’adhésion, selon le type de variation
graphique, mais aussi selon que les enseignants s’expriment à titre personnel ou
professionnel eu égard aux enjeux sociaux et scolaires. La définition de l’orthographe
comme norme sociale culturelle sert de mesure à ces positionnements. Dans un
premier temps, nous présenterons la définition de la norme sociale et montrerons
comment l’orthographe en est porteuse. Puis nous indiquerons la méthodologie de
notre recherche. Dans une troisième partie, nous présenterons les résultats obtenus qui
évoquent les différentes formes d’appréciation des FRO, les tensions vécues par les
témoins et les enjeux et pratiques pédagogiques intégrant ces FRO dans l’univers
scolaire.
Lidil, 58 | 2018
144
3. La méthodologie
5 Pour apprécier le rapport des enseignants de cycle 3 de l’école élémentaire française à
l’orthographe pensée comme une norme sociale, nous leur avons demandé lors d’un
entretien semi-directif de commenter la graphie fantaisiste de cinq FRO : OXÉBO ! (titre
d’une revue d’art créatif pour enfants), Sanouva (nom d’une résidence secondaire),
Délisse (nom d’un yaourt), botanic (nom d’une jardinerie) 1 et Déguiz et moi (nom d’un
magasin de déguisements). Ces écrits sont des jeux sur la langue et sur l’orthographe
qui se présentent comme des encodages déviants par rapport au système linguistique
français, mais qui ménagent une grande accessibilité au signifié. Ce sont des « variantes
iconiques » (Jaffré, 2010, p. 313). Elles peuvent constituer pour l’enseignant et l’acteur
social des objets de réflexion sur l’orthographe dans ses dimensions sociale,
linguistique et didactique.
6 Nous avons interrogé 30 enseignants exerçant en classe de CM1 et/ou de CM2 en région
parisienne.
7 Ils se caractérisent ainsi :
8 Afin de recueillir leurs positionnements, nous leur avions proposé, quelques jours
avant notre rencontre, de noter sur un document écrit présentant les graphies « nues »
de ces 5 FRO ce qu’elles leur inspiraient (les mots étaient réécrits à l’ordinateur ; aucun
contexte n’était proposé ; seule était ajoutée une note indiquant ce qu’elles
désignaient : titre d’un magazine, nom d’un produit laitier…). Ce document a servi de
support lors de l’entretien. Une question ouverte était proposée : « Quand vous voyez
ces mots écrits, comment réagissez-vous en tant qu’individu et en tant
qu’enseignant ? » Nous avons demandé aux interviewés de répondre par écrit dans
deux colonnes distinctes, une fois en tant qu’individu et une fois comme professionnel
de l’enseignement. Cette distinction répondait à notre hypothèse stipulant l’existence
d’une tension entre les points de vue personnel ou professionnel.
9 Des relances, le jour de l’entretien, ont permis aux témoins de préciser leur point de
vue professionnel en envisageant l’introduction de ces FRO en classe.
10 Les cinq FRO sont catégorisées ainsi :
• Les FRO OXÉBO ! et Sanouva sont appelées « FRO syntaxiques », car la variation principale
porte sur l’effacement des blancs graphiques entre les unités linguistiques. Les relations
syntaxiques sont masquées par ces choix graphiques qui orientent alors vers une unité
lexicale. Elles sont transcrites par les phonogrammes les plus univoques agglutinés.
Lidil, 58 | 2018
145
• Les FRO Délisse et botanic sont nommées « FRO lexicales », car elles portent sur un
changement de phonogramme tout en maintenant un rapprochement avec des mots connus
(Délice – Botanique ). La variante graphique –ss est plus fréquente en français que – c. La
présence du suffixe d’adjectif –ique est fréquente en français.
• Enfin, la FRO Déguiz et moi est appelée « FRO biface oral/écrit », car sa modalité de
perception, à l’oral ou à l’écrit, est déterminante pour son appréciation sémantique. Il y a
reconfiguration syntaxique à l’écrit d’une phrase impérative en un syntagme nominal
coordonné.
11 Nous avons procédé à une analyse de contenu thématique des données issues des
entretiens (Bardin, 2001) afin d’apprécier le rapport des témoins à l’orthographe
appréhendée comme une norme sociale. Pour une part, nous avons utilisé les cinq
dimensions du concept de norme vues ci-dessus pour organiser les thèmes (caractères
collectif, régulier, contraignant, sanctionnant de la norme et présence de valeurs sous-
jacentes). D’autre part, nous avons élaboré 3 autres catégories d’analyse induites par les
propos mêmes des témoins : l’appréciation affective, l’analyse linguistique et l’impact
communicationnel d’une telle écriture. Ces 8 catégories d’analyse expriment les avis
personnels et/ou professionnels.
13 Invités à réagir tout d’abord à titre personnel, les témoins ont livré des commentaires
mobilisant un lexique émotionnel. Spontanément, ils formulent des réactions affectives
personnelles de rejet exprimées par les mots gêner, choquer, déranger, embêter, perturber,
poser problème, ennuyer, déplorer ou d’adhésion formulées par les verbes plaire, aimer,
intéresser, approuver.
14 L’appréciation subjective des FRO s’organise toujours autour de ces deux pôles :
adhésion-rejet. La FRO OXÉBO ! rassemble essentiellement des évaluations personnelles
Lidil, 58 | 2018
146
positives : « le titre est plutôt attrayant ; ça sonne bien à l’oreille, ça plait ; ça donne envie de
consulter le livre ; c’est accrocheur 3 ». Au contraire, la FRO Sanouva est majoritairement
peu appréciée parce que c’est un mot « moche, très pauvre, le Sa choque […] il y a un côté
péjoratif donné par l’orthographe […] c’est limite vulgaire et c’est renforcé par le Sa ». Les
quelques amateurs y trouvent cependant une « invitation au bien-être du lieu qui se veut
accueillant à la prononciation de son nom » grâce à « une écriture courte et expressive »
(femme, 49 ans, 3 ans d’ancienneté, CM1 HEP, bac G). La FRO Délisse suscite des
approbations dues à l’adéquation entre sa charge connotative et sa graphie qui permet
aux bons scripteurs d’y associer un sens révélant une qualité du produit « quand je lisais
Délisse, je voyais le côté lisse de la chose » (femme, 47 ans, 18 ans d’ancienneté, CM2 EP,
DEUG langue chinoise). Mais elle provoque surtout des réactions de désaccord parce
qu’elle « entraine le doute ». Elle est jugée plus « pernicieuse » que les autres FRO, car « ce
n’est pas un rassemblement d’une expression mais un mot pour un mot avec une mauvaise
orthographe » (femme, 36 ans, 10 ans d’ancienneté, CM2 HEP, maitrise d’économie). La
FRO botanic compte majoritairement des avis neutres : « ça fait anglais, on n’est pas sur la
langue française » (femme, 50 ans, 15 ans d’ancienneté, CM2 HEP, bac G). Elle ne «
dérange pas ». Le peu de réactions vives semblerait dire qu’elle n’appartient pas au
registre des détournements graphiques parce qu’elle rencontre une orthographe légale
dans une langue étrangère. Enfin la FRO Déguiz et moi partage les avis en égale
proportion. Il s’agit là sans doute d’un effet de la polyvalence de sa compréhension. Le
mot est tantôt jugé « distrayant » et « intelligent » parce qu’il recèle à la fois une «
injonction » et une allusion à « ce personnage mystérieux Déguiz » et qu’« il n’y a rien de
choquant sur l’orthographe » et tantôt il ne « plait pas du tout », car « c’est ce qu’il y a de plus
horrible : ils ont fait en deux mots un verbe conjugué » (femme, 55 ans, 14 ans d’ancienneté,
CM2 EP, licence d’anglais).
15 Pour juger ces FRO, les témoins essaient de définir les variations graphiques qu’ils
observent. Ainsi la FRO OXÉBO ! est assimilée à une écriture SMS qui n’est pas « la
phonétique réelle de l’écriture » ou à « des mots compactés ». La FRO Sanouva est analysée
comme « une transcription phonétique pure des sons ». La FRO Délisse est décrite comme
étant « la même chose que délice mais avec 2 s à la place du –ce au niveau phonique ou
phonétique » (homme, 39 ans, 12 ans d’ancienneté, CM2 EP, licence de physique). La FRO
botanic est immédiatement reconnue comme une écriture anglaise alors que « nous
l’adjectif, on l’utilise avec –que ». Enfin la FRO Déguiz et moi est étudiée comme un « jeu de
mots sur l’impératif déguisez-moi et puis tout ce qui est “les déguisements et moi” »
(femme, 36 ans, 10 ans d’ancienneté, CM2 HEP, maitrise de d’économie). Cette première
analyse montre que les témoins emploient un langage ordinaire pour commenter à
titre personnel ce qui est « hors norme ».
16 À cette analyse visant à expliquer les écarts à l’orthographe, se greffe une volonté — ou
pas — de trouver un intérêt aux FRO. Les témoins se réfèrent alors à plusieurs critères
d’appréciation.
17 Un premier critère consiste à porter un jugement sur les graphèmes déviants. Ainsi la
lettre z de la FRO Déguiz et moi est très appréciée par certains, car « il est sympa ce z, cela
ressemble à un serpent. Le z j’adore, cela fait zozo, tous ces petits mots rigolos, c’est une lettre
enfantine. Il y a quelque chose de festif dans cette lettre en France » (femme, 40 ans, 15 ans
d’ancienneté, CM2 HEP, licence de sciences de l’éducation) ou elle peut laisser
Lidil, 58 | 2018
147
indifférent, car « le z, cela ne me parle pas du tout » (homme, 34 ans, 9 ans d’ancienneté,
CM1 HEP, licence de physique). La lettre s produit un effet positif dans la FRO Délisse
puisque c’est « agréable d’avoir remplacé le phonème [s] par deux s au lieu du c qui est là
normalement, cela allonge le mot » (femme, 27 ans, 2 ans d’ancienneté, CM2 EP, licence de
STAPS) alors que ce même graphème agresse dans la FRO Sanouva, car elle « saute aux
yeux » et « dérange dans la lecture ». À l’opposé, la lettre x de la FRO OXÉBO ! est souvent
jugée négativement, car « elle pose plus de problème au niveau du son ». L’absence de
blancs graphiques entre les mots est majoritairement jugée « choquante », car la lecture
devient « pénible ». La variante ic de la FRO botanic peut ne pas être appréciée, car « le
mot écrit à la française avec la terminaison –que s’assemble bien avec le genre féminin du mot,
–ic est plus masculin » (femme, 54 ans, 15 ans d’ancienneté, CM2 EP, maitrise de lettres
classiques, ancienne correctrice dans une maison d’édition) ou au contraire être prisée,
car « ça fait bien le son [k] à la fin parce qu’il n’y a pas de lettres derrière ». Ainsi, chaque
témoin justifie un positionnement singulier en attribuant une valeur et un sens tout
personnel aux différents graphèmes des FRO. Il n’en reste pas moins que le jeu
graphique doit rester rapidement accessible pour garder son attrait, exprimant le
confort qu’apportent les dimensions de régularité et de collectivité de la norme sociale
orthographique que l’adulte socialisé a intériorisées.
18 Un deuxième critère tient à l’appréciation de l’impact sur la communication. Puisque
ces FRO émanent essentiellement de la publicité, les témoins acceptent — ou pas —
d’adopter le point de vue des « publicitaires qui se demandent ce qu’ils vont sortir comme
marque ». Ils peuvent alors adhérer à la transgression et admettre qu’il est « normal
qu’ils sortent un seul mot avec une expression (OXÉBO !) » puisqu’ils « essaient d’accrocher,
c’est pas un tort, c’est leur métier » (femme, 27 ans, 2 ans d’ancienneté, CM1/CM2 HEP,
licence linguistique-informatique). Ils jugent ainsi positivement la FRO OXÉBO !
présentée comme « plus moderne que travaux pratiques ». D’autres la critiquent et
trouvent « ce titre plutôt racoleur, le point d’exclamation, c’est une surenchère vraiment
racoleuse » (femme, 54 ans, 15 ans d’ancienneté, CM2 EP, maitrise de lettres classiques,
ancienne correctrice dans une maison d’édition). Chaque FRO est ainsi tour à tour
appréciée ou réprouvée selon l’impact ressenti sur la communication. La FRO Sanouva
est appréciée car elle « fait penser aux îles Samoa, cela fait très exotique », ou au contraire
fortement critiquée car « ça fait penser à une résidence pour personnes âgées comme aux
États-Unis où toutes les personnes âgées se retrouvent dans un petit lotissement où il y a des
chefs de la sécurité, le supermarché, le dentiste » (femme, 37 ans, 10 ans d’ancienneté,
CM2 HEP, DEA de sociologie). La FRO Délisse est tantôt admirée en pensant au « plaisir
qu’on va avoir et qui va durer pendant la dégustation du yaourt. C’est parce que graphiquement
le mot prend plus de place, j’ai l’impression qu’on fait plus durer avec les deux s, ça donne envie
d’aller vers ça » (femme, 27 ans, 2 ans d’ancienneté, CM2 EP, licence de STAPS), tantôt
fortement critiquée car « on leurre les gens sur le produit ». Quant à la FRO botanic, elle est
jugée soit porteuse « d’une certaine dynamique dans la formule grâce au –ic », soit au
contraire, elle « perd de sa noblesse parce que le mot botanique c’est un mot savant, pas très
courant et là, cette orthographe le tronque » (femme, 54 ans, 15 ans d’ancienneté, CM2 EP,
maitrise de lettres classiques, ancienne correctrice dans une maison d’édition). Enfin
Déguiz et moi est parfois perçue comme une FRO pertinente pour un magasin de
déguisement, car elle joue sur « le changement, le rire, l’impromptu » ou bien comme une
« mise en scène terrible, hallucinante et scandaleuse » (femme, 50 ans, 8 ans d’ancienneté,
CM2 HEP, licence de biologie).
Lidil, 58 | 2018
148
19 Dans l’ensemble, il existe un empan assez large de réactions différentes pour chaque
FRO chez la plupart des témoins allant d’adhésions fortes à des rejets francs en passant
par des positions neutres, nuancées ou timorées. Mais globalement, certaines sont plus
appréciées que d’autres. Ainsi OXÉBO ! est la plus appréciée (pour son originalité) et
Délisse est la plus rejetée (pour le doute qu’elle fait naitre).
20 Lorsque les témoins s’opposent à titre personnel à ces graphies, ils indiquent « avoir une
répulsion pour ce procédé où on simplifie l’orthographe » et avancent des arguments qui
touchent à la dimension collective de la norme sociale et aux valeurs qu’elle recèle.
Ainsi, l’un d’entre eux indique que ce sont « des simplifications dommageables parce que les
mots perdent leur sens », que « c’est douteux et simpliste » et que « les gens qui sont payés
pour réfléchir, ils pourraient faire autrement en trouvant d’autres choses plus pertinentes et
plus intéressantes. On tombe au niveau d’une culture vraiment très appauvrie et on ne forme
plus des gens très éclairés au niveau de leur langage et de leur culture. Je trouve cela dommage »
(homme, 34 ans, 9 ans d’ancienneté, CM1 HEP, licence de physique). Cet avis personnel
rend compte de l’orthographe comme étant une norme sociale définie par ses
dimensions collective, sanctionnante et qui renvoie aux valeurs auxquelles elle est
adossée. Apparaissent ainsi de façon sous-jacente les valeurs de culture, d’instruction et
d’effort dans ce propos, ce que confirment d’autres témoins : « Ça n’élève pas nos enfants
», « j’appelle cela de la démission au profit de la facilité de penser ». Certains parlent de
déformation des mots indiquant là aussi que l’orthographe normée est régulière et
prescriptive. Un autre témoin avoue « je ne sais pas pourquoi mais ça me choque de jouer
avec l’orthographe » (femme, 56 ans, 35 ans d’ancienneté, CM1 HEP, bac). Nous émettons
l’hypothèse que la cause en est la non-observance de la norme sociale orthographique.
Les actions des individus n’étant plus alors réglées par des normes claires,
contraignantes, régulières et communes, la peur d’une anomie se manifeste. Enfin, un
dernier témoin conclut « il y a des choses qui doivent rester à leur place comme l’orthographe
parce que c’est la base de la langue ». Ce témoignage rend compte de la force de la norme
sociale. Si la contrainte est une pression extérieure que subit la conscience individuelle,
elle est relayée par une intériorisation de la norme (Besnard & Cherkaoui, 2005).
21 Les témoins portant des avis personnels négatifs sur les FRO au regard du non-respect
de la norme sociale se positionnent de la même façon en exprimant leur avis
professionnel.
Lidil, 58 | 2018
149
24 Une analyse en composantes principales4 montre que de toutes les opinions exprimées,
celles qui relèvent du champ professionnel sont les plus prégnantes. La norme sociale
orthographique est bien une préoccupation professionnelle majeure.
Lidil, 58 | 2018
150
norme sociale. Les FRO présentent l’intérêt « égoïste » de l’action privée et entrent en
conflit avec les valeurs de la société :
C’est vrai qu’il y a un objectif publicitaire important dans le et moi (Déguiz et moi)
comme on est dans une société extrêmement égocentrique, c’est clair que cela
correspond tout à fait à la demande. C’est le reflet de la société d’aujourd’hui, donc
cela ne me plait pas. (Femme, 55 ans, 14 ans d’ancienneté, CM2 EP, licence
d’anglais.)
Cette opposition de valeurs peut engendrer des réactions courroucées :
Je trouve cela scandaleux d’écrire ainsi […] on ne devrait pas laisser faire ce genre
d’écrit. On vit dans une société paradoxale. D’un côté on se fait taper dessus parce
qu’on a des enfants qui ne savent pas lire et ne savent pas écrire correctement et de
l’autre tout est permis. Il va bien falloir s’accorder. C’est fou parce que tu essayes
d’apporter des valeurs, des connaissances et puis j’ai l’impression que le travail est
complètement anéanti une fois qu’ils sortent de la classe par ce genre d’écrits
hallucinants. » (Femme, 50 ans, 8 ans d’ancienneté, CM2 HEP, licence de biologie.)
Les enseignants perçoivent cette dualité comme pouvant « générer un problème de valeur
qu’on donne à l’orthographe. Il y a une orthographe précise et les enfants peuvent se demander
s’ils sont obligés de mettre un c ou 2 s s’ils en ont envie » (femme, 40 ans, 15 ans
d’ancienneté, CM2 HEP, licence de sciences de l’éducation).
29 Ces valeurs contraires rejaillissent sur les conditions d’exercice et sur l’image du métier
d’enseignant : « C’est dommage pour nous, l’apprentissage de l’orthographe est suffisamment
difficile et ce genre de jeux de mots ne facilite pas le travail de l’enseignant. » (Homme, 39 ans,
12 ans d’ancienneté, CM2 EP, licence de physique.) Les enseignants ont l’impression que
leur métier n’est pas reconnu :
Là, on jette aux enfants et à la société toute entière en pâture quelque chose
d’absolument faux et après en classe, on leur dit « non, pas du tout » et l’enfant va
dire « je suis désolé, moi c’est ce que j’ai vu, ça existe », « oui ça existe mais c’est pas
la réalité, c’est pas comme ça que ça s’écrit » eh bien derrière on rame ! Ça
complique notre métier. » (Femme, 37 ans, 14 ans d’ancienneté, CM2 HEP, licence
de sciences du langage.)
Au-delà de ces attaques, c’est leur identité enseignante qui est atteinte :
C’est très embêtant d’être face à tant de créativité qui finit par nous revenir comme
un boomerang. Nous, les enseignants, on a l’air d’être les traine-savates culturels,
les grincheux, les passéistes. (Homme, 37 ans, 8 ans d’ancienneté, CM1 EP, maitrise
d’histoire.)
30 Une façon de surmonter le conflit entre FRO et norme sociale orthographique consiste
pour certains à les identifier comme des noms propres affranchis de l’orthographe
traditionnelle : « Cela ne m’a pas gênée parce que ce sont des noms propres, du coup, je suis
totalement détachée de l’orthographe. » (Femme, 50 ans, 24 ans d’ancienneté, CM1 HEP,
DEUG de psychologie.)
Lidil, 58 | 2018
151
33 Pour dépasser les tensions entre les avis personnels qui apprécient ces FRO et les avis
professionnels qui les rejettent, il est deux attitudes possibles : introduire ces FRO en
classe en les encadrant strictement par un travail pédagogique ou cloisonner les deux
univers de manière étanche. Faut-il laisser à d’autres que l’école le soin de mettre
l’enfant en contact avec ces écrits ou organiser des rencontres avec les FRO pour
travailler la langue française à l’école ?
Lidil, 58 | 2018
152
5. Conclusion
36 Les avis émis à titre personnel par les témoins sur les 5 FRO de notre corpus sont variés
quant à leur appréciation/rejet parce qu’ils s’appuient sur plusieurs critères d’analyse.
Cependant, la norme sociale orthographique n’est jamais remise en question. Elle reste
leur référence pour se situer linguistiquement, socialement et affectivement. Quelques-
uns auraient même tendance à refuser la variation linguistique en naturalisant la
norme au lieu de la placer parmi les construits sociaux. Parce qu’ils l’ont suffisamment
intériorisée et acceptée, certains s’octroient une certaine marge de liberté personnelle
leur permettant de se divertir de telles variations.
37 À l’opposé, les avis émis à titre professionnel sont plus unanimement négatifs. Les
caractéristiques de la norme sociale culturelle servent de références pour rejeter
ces FRO. Dans le cadre de l’enseignement-apprentissage, les enseignants les considèrent
majoritairement comme des éléments perturbateurs de l’acquisition de la norme
orthographique pour leurs élèves. Elles risquent, selon eux, d’induire les enfants en
erreur. Les raisons de cette perturbation seraient liées, d’une part, aux élèves (à leur
immaturité intellectuelle, affective et sociale et à leurs procédures d’apprentissage par
mémorisation visuelle), d’autre part, aux FRO (à leurs graphies proches de la graphie
normée et à leur large diffusion dans la société).
38 Nous pensons, au contraire, que ces FRO sont de bons supports pour que les élèves
développent une réflexion métalangagière mettant en œuvre différentes manipulations
linguistiques pour construire des compétences lexicales, morphologiques et
syntaxiques, pour que les maitres réfléchissent aux écrits polygraphiés qui ont cours
dans la société (FRO, SMS, abréviations, rectifications de 1990, etc.) afin qu’ils se
rendent compte de leur diversité, de leurs spécificités, mais aussi de leurs
interrelations et pour que les différents formateurs soient amenés à penser que la
didactique de l’orthographe met en interaction la linguistique, les habitudes scolaires,
Lidil, 58 | 2018
153
BIBLIOGRAPHIE
BARDIN, Laurence. (2001). L’analyse de contenu (10e éd.). Paris : Presses universitaires de France.
BARRÉ-DE MINIAC, Christine, CROS, Françoise & RUIZ, Jacqueline. (1993). Les collégiens et l’écriture. Des
attentes familiales aux exigences scolaires. Paris : INRP-ESF éditeur.
BESNARD, Philippe & CHERKAOUI, Mohamed (2005). Durkheim Émile David, 1858-1914. Dans
M. Borlandi, R. Boudon, M. Cherkaoui & B. Valade, Dictionnaire de la pensée sociologique. Paris : PUF.
Disponible sur <www.puf.com/Auteur%3AÉmile_Durkheim>.
CHERVEL, André. (2008). L’orthographe en crise à l’école. Et si l’histoire montrait le chemin. Paris : Retz.
DEMEULENAERE, Pierre. (2003). Les normes sociales : entre accords et désaccords. Paris : Presses
universitaires de France.
LUCCI, Vincent & MILLET, Agnès. (1992). Les noms de magasin ont-ils une signification ? Lidil, 7,
86-119.
MILLET, Agnès, LUCCI, Vincent & BILLIEZ, Jacqueline. (1990). Orthographe, mon amour. Grenoble :
Presses universitaires de Grenoble.
PÉRET, Claudie, BRISSAUD, Catherine & SAUTOT, Jean-Pierre. (2007, mai). Assurances et désarrois après
la formation initiale : l’exemple de l’orthographe. Communication présentée au colloque CD IUFM
« Qu’est-ce qu’une formation professionnelle universitaire des enseignants ? », Arras.
Lidil, 58 | 2018
154
NOTES
1. Ces quatre premières FRO ont fait l’objet d’un travail de recherche de J.-P. Sautot autour de
l’utilisation de l’orthographe dans la construction du sens en lecture (2000).
2. EP : enseignant exerçant en Éducation prioritaire. HEP : enseignant exerçant hors Éducation
prioritaire.
3. Lorsque les extraits rapportés sont très courts, nous n’indiquons aucun renseignement sur le
témoin pour ne pas rompre la lecture contrairement à ce que nous proposons pour un extrait
plus long.
4. L’ACP a pour objectif de synthétiser les différentes informations liées aux adhésions
personnelles et professionnelles des témoins (variables) à ces 5 FRO et d’en restituer les plus
saillantes.
RÉSUMÉS
La présente contribution prend place dans la filiation des recherches sur le rapport des individus
à l’orthographe, recherches qui caractérisent la place que celle-ci occupe dans la société en
général ou au sein de certaines professions, notamment chez les enseignants et corrélativement
chez les élèves. Ces travaux montrent que pour tout un chacun, l’orthographe revêt des enjeux
personnels et sociaux forts. Nous proposons de compléter ces recherches en abordant
l’orthographe comme une norme sociale culturelle à travers les significations que les enseignants
de l’école primaire construisent à propos de graphies fantaisistes qui détournent l’orthographe
normée, appelées figures rhéto-orthographiques. Nous postulons que celles-ci mettent à l’épreuve le
rapport qu’ils ont construit à la norme sociale orthographique et ce, de façon variable entre eux,
selon les déformations graphiques proposées, mais aussi selon qu’ils s’expriment à titre
personnel ou à titre professionnel. Des entretiens semi-directifs menés auprès de trente maitres
de cycle 3 nous permettent de répondre à cette question.
This contribution takes place in the filiation of researches on the relationship of individuals to
spelling, researches that characterize the place it occupies in society in general or within certain
professions, particularly among teachers and correlatively among pupils. These researches show
that for everyone, spelling has strong personal and social issues. We propose to complete them
by approaching spelling as a cultural social norm through primary school teachers’ meanings
about fanciful spellings that deflect standard orthography, called “figures rhéto-orthographiques”.
We postulate that they test the relationship they have built to the social spelling norm and this,
in a variable way between them, according to the graphical deformations proposed but also
according to whether they express themselves personally or in a professional capacity. Semi-
Lidil, 58 | 2018
155
directive interviews with thirty 4th and 5th year primary school teachers allow us to answer this
question.
INDEX
Mots-clés : orthographe, enseignants, rapport à, norme sociale, figures rhéto-orthographiques
Keywords : spelling, teachers, relationship, social norm, figures rhéto-orthographiques
AUTEUR
CATHERINE COMBAZ
Laboratoire EMA (École, Mutations, Apprentissages), Université de Cergy-Pontoise
Lidil, 58 | 2018
156
Notes de lecture
Lidil, 58 | 2018
157
Samia Ounoughi
RÉFÉRENCE
Nicolas Laurent et Christelle Reggiani (dir.), Seuils du nom propre, coll. « Études
linguistiques et textuelles » (CREM, Université de Lorraine), Limoges, Lambert-Lucas,
2017, 194 p.
Lidil, 58 | 2018
158
AUTEURS
SAMIA OUNOUGHI
LIDILEM, Université Grenoble Alpes
Lidil, 58 | 2018
159
Thierry Soubrié
RÉFÉRENCE
Nathalie Lacelle, Jean-François Boutin et Monique Lebrun, La littératie médiatique
multimodale appliquée en contexte numérique — LMM@. Outils conceptuels et didactiques,
Presses de l’Université du Québec, 2017, 316 p.
1 Le présent ouvrage est le second publié par Nathalie Lacelle, Monique Lebrun et Jean-
François Boutin portant sur la littératie médiatique multimodale. Il s’intéresse
exclusivement à la littératie en contexte numérique et cette fois-ci, les auteurs ont pris
en charge l’écriture de l’ensemble des chapitres. Le projet éditorial est double puisqu’il
s’agit à la fois d’inciter les enseignants à accorder une place aux « pratiques de
communication contemporaine en classe » (p. 4), mais aussi de justifier et de légitimer
un domaine de recherche, en l’occurrence la littératie médiatique multimodale
appliquée en contexte numérique — LMM@.
2 Dans le premier chapitre, les auteurs situent la littératie numérique au sein des
humanités numériques qui succèdent selon eux, dans l’ordre des humanités tel qu’il a
été défini par Lévi-Strauss (1973), à l’humanisme démocratique du XXe siècle, comme
Lidil, 58 | 2018
160
Lidil, 58 | 2018
161
AUTEURS
THIERRY SOUBRIÉ
LIDILEM, Université Grenoble Alpes
Lidil, 58 | 2018
162
Carole Calistri
RÉFÉRENCE
Laurent Gautier (éd.), Figement et discours spécialisés, Forum für Fachsprachen-Forschung,
vol. 105, Berlin, Frank & Timme, Verlag für wissenschaftliche Literatur, 2018, 158 p.
1 L’ouvrage coordonné par Laurent Gautier propose une exploration très complète du
figement : sa description et son fonctionnement dans les langues de spécialité /
spécialisées à travers 7 articles rassemblés pour parcourir d’un bout à l’autre ses
réalisations, c’est-à-dire en considérant l’inscription du figement depuis le glossaire
jusqu’au discours. Deux avancées importantes dans le domaine sont actées : d’une part,
le dépassement de l’opposition stérile entre langue générale ou commune et langue de
spécialité et, d’autre part, l’infléchissement, dans les recherches présentées, vers des
approches plus quantitatives que qualitatives (L. Gautier) rendues possibles par
l’accession à de grandes masses de données. On notera la diversité des corpus sollicités
(dans trois langues) par les différentes rubriques : ils sont issus de la presse de
vulgarisation scientifique (M. Iakushevich), des pages sportives (R. Vanoudheusden) ou
non (R. Marti Solano) de quotidiens, mais également de glossaires, touchant à la gestion
du risque des catastrophes naturelles (G. Gréciano), à l’économie et à l’énergie
nucléaire (G. Petit), à la logistique et aux transports (J.-M. Delagneau) ou à celui de la
faim dans le monde (F. Rigat).
2 Une deuxième dimension est constituée par l’articulation entre les unités considérées
par chacun des articles et leurs usages dans un cadre qui les englobe et en légitime
l’étude. À chacun des niveaux, les auteurs combinent la précision dans la description de
l’objet délimité (unité polylexicale, collocation, phraséologie, stéréotypie) avec les situations
d’emploi, dans une synergie qui redéfinit la distinction entre langue et discours. On va
Lidil, 58 | 2018
163
AUTEURS
CAROLE CALISTRI
LINE, Université – ESPE de Nice
Lidil, 58 | 2018
164
Francis Grossmann
RÉFÉRENCE
Clara Romero, L’intensité et son expression en français, Paris, Éditions Ophrys, 2017, 280 p.
Lidil, 58 | 2018
165
niveaux d’analyse linguistique ; ce parti pris a une contrepartie que l’on peut regretter :
il évacue le continuum issu des phénomènes de grammaticalisation (malgré la place
accordée au figement, en conclusion). Les deux premiers chapitres entérinent en effet
la partition entre « expression grammaticale » et « expression lexicale » de l’intensité,
tandis que le troisième chapitre, consacré aux structures phrastiques (l’expression
grammaticale de l’intensité traitée dans le premier chapitre ayant été limitée aux mots
et morphèmes grammaticaux) aurait pu mettre davantage en évidence l’articulation
nécessaire entre les plans syntaxiques et discursifs. Leur disjonction aboutit en effet
parfois à dissocier des analyses qui auraient mérité d’être regroupées : par exemple, la
question des marqueurs discursifs, traitée dans le premier chapitre consacré à
l’expression grammaticale, aurait gagné à être davantage connectée aux aspects
interactionnels abordés en fin d’ouvrage. Peut-être est-ce là le prix à payer pour
permettre une présentation commode, en forme de manuel.
3 Cependant, la question de fond est de savoir si lorsque nous parlons de l’intensité dans
ce sens large, nous parlons toujours de la même chose. Ce problème n’est pas abordé de
manière suffisamment frontale et précise. Sur le plan sémantique, la question traitée
par Kleiber dans son article de 2013 (pourtant cité dans la bibliographie générale), qui
distingue l’intensité comme « quantité qualitative » et l’intensité considérée en elle-
même comme une propriété (par exemple dans le lexique des affects) n’est pas reprise
et discutée. Un autre exemple concerne cette fois les frontières entre la dimension
argumentative (dont l’analyse rappelle des concepts comme celui de force
argumentative, mobilisés par les théoriciens de l’argumentation dans la langue) et
l’intensité liée à la dimension énonciative (avec les questions de renforcement et
d’atténuation). Ces deux aspects gagnent-ils à être conceptualisés à travers une même
catégorie ? Peut-être que oui, mais un tel point de vue aurait mérité une argumentation
plus approfondie. Le chapitre consacré aux structures phrastiques, qui examine le rôle
des clivées et des pseudo clivées, ou encore celui consacré aux figures et tropes, qui
intègre de manière pertinente la dimension rhétorique dans l’analyse linguistique
fournissent des éléments de réponse intéressants, qu’il aurait été possible de mobiliser
pour construire la démonstration. Peut-être aussi qu’une approche plus systématique,
appuyée sur un large corpus textuel, aurait été utile, parce qu’elle aurait permis de
mieux montrer, en contexte, l’intrication des différents procédés.
4 Ces quelques réserves ne doivent pas masquer les qualités d’ensemble et l’utilité de
l’ouvrage, qui vient remplir un manque évident dans la bibliographie francophone, qui
ne comportait aucune synthèse sur le sujet. En raison de sa richesse et de la finesse des
analyses qu’il propose, il sera très utile aux étudiant.e.s. de sciences du langage ou de
lettres, et à leurs enseignant.e.s !
AUTEURS
FRANCIS GROSSMANN
LIDILEM, Université Grenoble Alpes
Lidil, 58 | 2018
166
Anne Sardier
RÉFÉRENCE
Jean-François de Pietro, Carole Fisher et Roxane Gagnon (dir.), L’oral aujourd’hui :
perspectives didactiques, Namur, Presses universitaires de Namur, collection
« Recherches en didactique du français », no 9, 2017, 323 p.
1 L’ouvrage dirigé par Jean-François de Pietro, Carole Fisher et Roxane Gagnon sur la
didactique de l’oral, propose des contributions regroupées en quatre parties. Deux
contributions constituent la première partie centrée sur deux types de conduites
langagières. La première contribution rend compte d’une recherche exploratoire
relative aux effets des conduites de justification dans la construction des savoirs
grammaticaux d’élèves de 10-11 ans. Les analyses, menées selon un codage minutieux,
permettent de distinguer trois types de situations dans lesquelles les élèves s’engagent
dans une conduite de justification : pour expliquer, chercher ou débattre. Les auteures
recommandent pour finir un « enseignement de l’objet “justification” pour
l’apprentissage en grammaire » (p. 63). La deuxième contribution s’intéresse au débat
et propose un balayage historique de son enseignement. En distinguant didactique de
l’oral / du français, l’auteure note « la profusion des formes » (p. 76) de débats, et,
in fine, les possibles invariants propres à cette pratique pour montrer que « l’objet de
recherche “débat” se formalise au sein des didactiques et répond à leur projet commun
et singulier » (p. 80).
Lidil, 58 | 2018
167
Lidil, 58 | 2018
168
AUTEURS
ANNE SARDIER
ACTé, Université Clermont-Auvergne
Lidil, 58 | 2018
169
Sílvia Melo-Pfeifer
RÉFÉRENCE
Christine Bister et Jean-Louis Dumortier (dir.), Conversations. Des dispositifs didactiques
pour apprendre à distinguer les facteurs de réussite ou d’échec des interactions verbales
quotidiennes, Namur, Presses universitaires de Namur, 2017, 218 p.
Lidil, 58 | 2018
170
2 Ainsi, comme dans la conversation dans la vie réelle, ils analysent la coresponsabilité
énonciative dans les interactions fictionnelles et montrent que « toute prise de parole
est réaction à la prise de parole d’un tiers, toute écoute prend en considération l’écoute
d’un tiers » (p. 11). Néanmoins, « les participants ne sont pas des juxtapositions
d’allocutions où les énonciateurs parlent comme si nul n’avait rien dit avant eux ou
comme s’ils n’avaient rien entendu de ce qui s’est dit » (p. 11). Autrement dit, les
auteurs mettent en avant tout effort de coordination ainsi que la nécessaire
coconstruction du sens et des intentions dans l’interaction verbale… réussie. En effet,
les extraits illustrent, par un effet de loupe, la tessiture de l’incompréhension, du
malaise conversationnel, l’inversion de places et de rôles dans et pendant l’interaction.
L’ironie et l’humour de certaines séquences contrebalancent le malaise, le cynisme et
l’agacement des autres. Dans ces extraits, « ce qui est donné à comprendre n’est pas
(mais n’en est pas moins communiqué), il faut tenir compte de la situation et de la
manière de dire autant que de ce qui est dit ! » (p. 13).
3 Le choix de situation de rupture conversationnelle ou de rupture éminente est justifié
par le fait que « ces incidents sont susceptibles d’empêcher ou de faciliter la poursuite
de la coconstruction de sens, d’arrêter ou de dévier la circulation de l’information, de
distendre ou de couper, de serrer ou de rétablir le lien social, bref de déterminer l’issue
de la communication » (p. 23). Les auteurs illustrent minutieusement l’évolution
inéluctable du malentendu, de la rupture, voire de la ruine des interlocuteurs, à l’aide
de l’autopsie de leurs dits et de leurs non-dits, d’une analyse millimétrique des sous-
entendus et de tous les pas menant à la « perte » des interlocuteurs. Concernant le
choix d’interactions discursives fictionnelles, les auteurs se réfèrent au fait que les
textes littéraires, n’offrant pas une imitation de la réalité conversationnelle, offrent
néanmoins des interactions vraisemblables où il est possible de détacher et d’analyser
certains aspects en profondeur. De plus, l’étude de ces interactions permet l’analyse de
la dimension pragmatique du langage et de la littérature dans sa dimension
linguistique, avec une « attention systématique à l’usage que font les écrivains du
système » (p. 21).
4 Reste à signaler d’autres aspects positifs de l’ouvrage s’adressant « à des enseignants de
français » (langue maternelle ?) : la structure homogène de tous les chapitres qui
suivent la même logique de présentation et d’analyse (présentation de l’ouvrage et de la
séquence, transcription de la séquence objet d’analyse, discussion entrecoupée
d’exemples et propositions de tâches) ; la mise en relief des concepts considérés les plus
importants pour poursuivre l’analyse de la séquence (concession, offense, face,
territoire, ascendant, position, polylogue…) ; et, effet corollaire du point précédent, la
présentation d’un glossaire, en fin d’ouvrage, permettant d’éclaircir les doutes
terminologiques du public cible. En conclusion, il s’agit d’un ouvrage qui dépasse
l’analyse stricte de ce qui est « dit » dans le texte littéraire, allant au-delà du
linguicisme de quelques propositions de travail avec le texte littéraire. En approchant
le littéraire du vécu quotidien, cet ouvrage développe la conscience critique des
apprenants de français quant au discours et à l’interaction.
Lidil, 58 | 2018
171
AUTEURS
SÍLVIA MELO-PFEIFER
Fakultät für Erziehungswissenschaft, Université de Hambourg
Lidil, 58 | 2018
172
Julie Sorba
RÉFÉRENCE
Francis Grossmann, Salah Mejri et Inès Sfar (dir.), La phraséologie : sémantique, syntaxe,
discours, Paris, Honoré Champion, 2017, 284 p.
Lidil, 58 | 2018
173
réflexion de L. Miladi sur le statut des proverbes polonais permettant de nuancer les
précédentes études qui auraient jusqu’ici « sous-estimé la place de la syntaxe dans
l’élaboration des moules proverbiaux » (p. 183). L’étude de Ranaivoson et Andriamise
révèle que les catégories d’analyse utilisées pour le figement en français sont
opératoires pour rendre compte de ce phénomène en malgache. Enfin, la contribution
très originale de K. Henri sur le statut des chéngyŭ du chinois propose de clarifier le
statut de ces unités phraséologiques que l’auteur rapproche davantage des « locutions
syntagmatiques expressives » (en suivant la terminologie de C. Schapira) que des
parémies.
3 Même si l’ensemble des études de cas présente le cadre théorique dans lequel
s’inscrivent leurs analyses, plusieurs contributions s’interrogent spécifiquement sur ce
qui se cache sous le terme de « phraséologie » et sur son utilisation. En constatant le
foisonnement terminologique actuel, R. Zaharieva et S. Kaldieva-Zaharieva proposent
un utile inventaire des termes en vigueur tout en développant la théorie
phraséologique bulgare. Dans un dialogue à quatre voix, les intervenants de la table
ronde des « Premières rencontres phraséologiques », qui se sont tenues à Grenoble
en 2013, font le point sur les principaux axes de la recherche phraséologique française :
ce qui fait la dimension phraséologique des unités et leur délimitation, les problèmes
relatifs aux outils de corpus (F. Grossmann et S. Mejri) ; la structure des textes
préfabriqués et les différents concepts utilisés pour en rendre compte comme les
segments répétés, les motifs ou encore les routines rhétoriques (A. Tutin) ; la question
de l’acquisition des unités phraséologiques en L2 (A. Edmonds).
4 La contribution de I. Novakova illustre la pertinence des critères phraséologiques pour
classer les adjectifs d’affect, entreprise très délicate jusqu’ici. Certaines contributions
s’interrogent sur la dimension phraséologique de plusieurs unités comme les
constructions à article zéro (T. Muryn dans une approche dite de « syntaxe
sémantique ») ou les SP sans déterminant (A. Violet dans une « analyse
constructionnelle »), tandis que d’autres explorent le lien sémantique qui unit les
séquences phraséologiques en synchronie (D. Lajmi et les « collocations complexes »)
ou en diachronie (C. Cavalla et J. Sorba, « Prendre un bain, des risques ou la fuite. Étude
diachronique du figement ») ainsi que le cas des « ruptures collocationnelles » pour
lesquelles T. Ben Amor Ben Hamida envisage la collocation du point de vue de ses
réalisations déviantes (« greffes collocationnelles », défigement linguistique, etc.). Le
volume se clôt par une expérimentation aux résultats surprenants sur le « traitement
en temps réel des expressions figées par des francophones natifs » (Yaïche, Bassano,
Kail et Mejri).
5 L’ouvrage, qui offre quatre pages d’index fort utile à la fin, s’acquitte amplement du
rôle voulu par les éditeurs : un état des lieux et une mise en perspective de la
phraséologie française.
Lidil, 58 | 2018
174
AUTEURS
JULIE SORBA
LIDILEM, Université Grenoble Alpes
Lidil, 58 | 2018