Lidil 5001

Lidil
Revue de linguistique et de didactique des langues
58 | 2018
L’enseignement et l’apprentissage de l’écrit
académique à l’aide de corpus numériques
The Teaching and Learning of Academic Writing with the Aid of Numeric
Corpora
Cristelle Cavalla et Laura Hartwell (dir.)
Édition électronique
URL : http://journals.openedition.org/lidil/5001
DOI : 10.4000/lidil.5001
ISSN : 1960-6052
Éditeur
UGA Éditions/Université Grenoble Alpes
Édition imprimée
ISBN : 978-2-37747-064-8
ISSN : 1146-6480

Référence électronique
Cristelle Cavalla et Laura Hartwell (dir.), Lidil, 58 | 2018, « L’enseignement et l’apprentissage de l’écrit
académique à l’aide de corpus numériques » [En ligne], mis en ligne le 02 novembre 2018, consulté le
24 septembre 2020. URL : http://journals.openedition.org/lidil/5001 ; DOI : https://doi.org/10.4000/
lidil.5001
Ce document a été généré automatiquement le 24 septembre 2020.
© Lidil
1
L’exploitation des corpus à des fins didactiques demeurent un vaste terrain d’étude. Ce
numéro offre une collection de 6 articles d’étude de cas en milieu universitaire
s’appuyant sur de solides bases théoriques. La richesse linguistique étudiée (français,
anglais, allemand) apporte une ouverture exceptionnelle dans le cadre de la didactique
des langues étrangères. Ce recueil d’articles, qui s’inscrit dans les traditions croisées de
la linguistique, des langues de spécialité, de l’informatique et des sciences de
l’éducation, offre l’occasion de présenter des applications pertinentes de la linguistique
de corpus par des spécialistes et leur réception par les utilisateurs.
REMERCIEMENTS
Ont été sollicités pour évaluer les articles de ce numéro thématique :
Dominique Bétrix Köhler, Alex Boulton, Claire Chaplier, Jeanne-Marie Debaisieux,
Nadia Yassine-Diab, Mamadou Dramé, Françoise Dufour, Sylviane Granger, Francis
Grossmann, Alice Henderson, Jean-Marc Mangiante, Luis Meneses, Alain Polguère,
Fanny Rinck, Jean-Pascal Simon, Élodie Vargas.
Lidil, 58 | 2018
2
SOMMAIRE
Présentation
Cristelle Cavalla et Laura Hartwell
L’exploitation des corpus numériques dans les formations d’anglais scientifique en ligne :
une étude de cas
Natalie Kübler et Clive E. Hamilton
The BAWE Quicklinks Project: A New DDL Resource for University Students
Benet Vincent et Hilary Nesi
Routines verbales pour les français langue étrangère : des corpus d’experts aux corpus
d’apprenants
Rui Yan, Agnès Tutin et Thi Thu Hoai Tran
Un dictionnaire basé sur corpus pour une aide à la rédaction universitaire

Thi Thu Hoai Tran et Achille Falaise
Corpus-Based Teaching of German Compound Nouns and Lexical Bundles for Improving
Academic Writing Skills
Marina Kogan, Anna Yaroshevich et Olga Ni
Questionner des corpus pour questionner la langue. L’exemple des virgules en allemand
Eva Schaeffer-Lacroix
Varia
Vers une socioterminologie médicale wolofe

Abibatou Diagne et Abou Bakry Kébé
Les figures rhéto-orthographiques comme révélateurs du rapport des enseignants à

l’orthographe
Catherine Combaz
Notes de lecture
Nicolas Laurent et Christelle Reggiani (dir.), Seuils du nom propre

coll. « Études linguistiques et textuelles » (CREM, Université de Lorraine), Limoges, Lambert-Lucas, 2017, 194 p.
Samia Ounoughi
Nathalie Lacelle, Jean-François Boutin et Monique Lebrun, La littératie médiatique

multimodale appliquée en contexte numérique — LMM@. Outils conceptuels et
didactiques
Presses de l’Université du Québec, 2017, 316 p.
Thierry Soubrié
Laurent Gautier (éd.), Figement et discours spécialisés

Forum für Fachsprachen-Forschung, vol. 105, Berlin, Frank & Timme, Verlag für wissenschaftliche Literatur, 2018,
158 p.
Carole Calistri
Clara Romero, L’intensité et son expression en français

Paris, Éditions Ophrys, 2017, 280 p.
Francis Grossmann
Lidil, 58 | 2018
3
Jean-François de Pietro, Carole Fisher et Roxane Gagnon (dir.), L’oral aujourd’hui :

perspectives didactiques
Namur, Presses universitaires de Namur, collection « Recherches en didactique du français », n o 9, 2017, 323 p.
Anne Sardier
Christine Bister et Jean-Louis Dumortier (dir.), Conversations. Des dispositifs

didactiques pour apprendre à distinguer les facteurs de réussite ou d’échec des
interactions verbales quotidiennes
Namur, Presses universitaires de Namur, 2017, 218 p.
Sílvia Melo-Pfeifer
Francis Grossmann, Salah Mejri et Inès Sfar (dir.), La phraséologie : sémantique,

syntaxe, discours
Paris, Honoré Champion, 2017, 284 p.
Julie Sorba
Lidil, 58 | 2018
4
Présentation
Presentation
Cristelle Cavalla et Laura Hartwell
L’enseignement et l’apprentissage de l’écrit

académique à l’aide de corpus numériques
1 Le numéro 58 de Lidil s’inscrit dans la tradition des études sur les corpus numériques
(cf. par exemple : Fløttum, Dahl & Kinn, 2006 ; Hunston & Francis, 2000 ; Swales,
1990/2004 ; Tutin & Grossmann, 2014 ; Quirk, Greenbaum, Leech & Svartvik, 1985) et,
cette fois, l’enseignement et l’apprentissage des langues étrangères sont à l’honneur.
Nous prenons le parti de définir un corpus numérique, selon le point de vue
linguistique, comme un ensemble de documents écrits ou enregistrés et assemblés dans
l’objectif de faire une analyse de leur contenu langagier à l’aide d’outils informatiques.
Ces corpus servent directement ou indirectement pour l’enseignement et
l’apprentissage via des modalités multiples. Dans les contextes d’apprentissage ou
d’enseignement, les corpus peuvent prendre des formes diverses, depuis des textes
ciblés jusqu’à de grandes bases de données. Nous trouvons aussi des produits dérivés de
corpus tels que des listes de vocabulaires (Coxhead, 2000), des dictionnaires (Collins,
2017 ; MacMillan, 2017), des matériaux pédagogiques (Chambers, 2010). Les avantages
réels de l’exploitation des corpus numériques à des fins didactiques et les difficultés de
cette pratique, rencontrées ou imaginées, demeurent un vaste terrain d’étude.
2 Dans ce numéro, nous nous concentrons sur l’enseignement et l’apprentissage de l’écrit
académique à l’aide des corpus numériques. Les auteurs expliqueront alors l’intérêt
d’utiliser de telles ressources relevant des méga-données pour rédiger des écrits
académiques dans une langue étrangère. Objets de nombreux travaux linguistiques et
didactique depuis les années 1990 dans le monde francophone (cf. Lidil n o 18, Pratiques
de l’écrit et modes d’accès au savoir dans l’enseignement supérieur, coordonné par Michel
Dabène et Yves Reuter). Nous trouvons actuellement des corpus disponibles en ligne,
tels que les corpus anglais du BAWE1 ou du Michigan Corpora 2, et des corpus français/
anglais tel que Scientext3 interrogeable via l’interface ScienQuest 4, permettent aux
Lidil, 58 | 2018
5
chercheur.e.s d’identifier les caractéristiques du discours académique des expert·e·s et

des étudiant·e·s.
3 Sans revenir sur les avantages des grands corpus numériques pour la description
linguistique (cf. Lidil n o 31, Corpus oraux et diversité des approches, coordonné par Marie
Savelli), cette publication est l’occasion de découvrir de nouvelles pistes facilitant
l’utilisation en classe de langue de corpus numériques pour l’aide à la rédaction
universitaire. En termes didactiques, les articles rassemblés ici traitent de l’utilisation
directe ou indirecte des corpus numériques, tant par les enseignant·e·s que par les
apprenant·e·s dans un contexte universitaire. Depuis quelques années, l’essor des outils
informatiques permettant le stockage et surtout l’interrogation en ligne par des non-
spécialistes a permis le développement des corpus numériques à vocation pédagogique.
De fait, les articles de ce numéro explorent l’exploitation de ces ressources numériques
pour l’enseignement et l’apprentissage de la langue académique et certains y ont ajouté
la phraséologie scientifique.
4 Dans la lignée des travaux de Boulton et Tyne (2014) sur l’utilisation des corpus en
classe de langue, les contributions de ce numéro apportent des réponses quant à
l’utilisation effective des corpus numériques par les équipes enseignantes à
l’université : comment et pourquoi les utilisent-ils ? Nous verrons que les approches
linguistiques et didactiques se font écho d’une langue à l’autre et que la didactique des
langues fédère ces différentes études.
5 Autour de l’anglais académique, Clive Hamilton et Natalie Kübler, qui enseignent à
l’université Diderot à Paris, développent des cours autour des corpus d’anglais
scientifique pour des étudiants francophones spécialistes de différentes disciplines
universitaires. Le cas d’étudiant·e·s utilisant directement des corpus en ligne reste peu
courant à l’université française et cette étude de cas nous aide à mieux saisir les enjeux
de cette pratique.
6 Benet Vincent et Hilary Nesi, de l’université de Coventry, enseignent l’anglais
académique à des étudiants internationaux à l’aide d’une interface du BAWE corpus
dans laquelle des liens hypertextuels sont pensés pour guider et aider les apprenants
dans leur écriture académique. La question de l’insertion de tels outils en classe de
langue est posée, permettant de mettre en exergue les spécificités de l’outil et du
retour de l’enseignant, ainsi que la complémentarité des approches.
7 Autour du français académique, Rui Yan, Agnès Tutin et Thi Thu Hoai Tran, des
universités de Grenoble Alpes et d’Artois, étudient les routines verbales dans l’écrit
académique et leur didactisation dans le cadre de l’enseignement du français langue
étrangère. L’analyse d’un corpus d’apprenants a révélé les erreurs les plus fréquentes
des étudiants à propos des routines verbales. Un corpus d’experts en français
académique a permis de comparer et de mettre en exergue les routines à enseigner.
Leur article se termine sur des exemples d’exercices de réflexion pour les apprenants à
partir d’extraits du corpus d’experts et montre clairement en quoi ces routines sont
structurantes pour l’écrit académique.
8 Thi Thu Hoai Tran de l’université d’Artois et Achille Falaise de l’université Paris
Diderot, s’intéressent au français langue étrangère et tandis que l’un (A. Falaise)
développe un outil informatique, proche du dictionnaire, pour une aide à la rédaction
universitaire à partir d’un corpus numérique, l’autre (T. T. H. Tran) expérimente
l’utilisation de cet outil auprès d’étudiants internationaux en FLE. Ces
expérimentations ont permis une véritable réflexion didactique quant à l’amélioration
Lidil, 58 | 2018
6
de l’outil. Ceci est un exemple de collaboration fructueuse entre didacticien-linguiste et

taliste5.
9 Autour de l’allemand académique, Marina Kogan, Anna Yaroshevich et Olga Ni, toutes
trois de l’université Pierre le Grand de Saint-Pétersbourg, enseignent l’allemand à de
futurs ingénieurs russes. Pour ce faire, les auteures élaborent des activités
pédagogiques à partir d’un corpus numérique, en fonction des spécialités de leurs
apprenants en s’arrêtant sur les séquences lexicales les plus fréquentes et en tentant
une approche de consultation directe du corpus par les apprenants.
10 Le dossier thématique est clos par la contribution d’Eva Schaeffer-Lacroix, de l’ÉSPÉ 6 de
Paris, qui enseigne l’allemand à de futurs enseignants de cette même langue. Elle
présente une entrée pédagogique dans laquelle les étudiant.e.s, confrontés à un corpus
numérique, doivent développer une réflexion leur permettant de comprendre
l’utilisation de la virgule en allemand. Elle nous invite alors à réfléchir aux apports des
approches inductives et déductives dans un tel contexte.
11 Nous remercions les auteur.e.s et les évaluateurs/trices d’avoir aimablement contribué
à l’élaboration de ce numéro. Nous souhaitons que les recherches sur les corpus
numériques pour l’enseignement des langues académiques étrangères soient une
entrée prometteuse pour l’enseignement des langues en général à l’aide des corpus
numériques.
The Teaching and Learning of Academic Writing with

the Aid of Numeric Corpora
12 This issue 58 of Lidil, following in the tradition of digital corpus studies (cf. for example:
Fløttum, Dahl & Kinn, 2006; Hunston & Francis, 2000; Swales, 1990/2004; Tutin &
Grossmann, 2014; Quirk, Greenbaum, Leech & Svartvik, 1985), centers upon the
teaching and learning of foreign languages. We adopt the position here, from a
linguistic perspective, that a digital corpus is a collection of written or recorded
documents assembled for the purpose of analyzing their language content with the
help or computer tools. These corpora serve directly or indirectly for teaching and
learning through multiple modalities. In learning environments, corpora can take
various forms, from targeted texts to large databases. We also find language resources
derived from corpora such as vocabulary lists (Coxhead, 2000), dictionaries (Collins,
2017; MacMillan, 2017), teaching materials (Chambers, 2010). The actual advantages of
using digital corpuses for didactic purposes and the difficulties therein encountered or
imagined remain a vast field of study.
13 In this issue, we focus on teaching and learning academic writing using digital corpora.
The authors thus explain the interest of using such resources to support writing
academic texts in a foreign language. Subject of numerous linguistic and didactic
studies in the French-speaking world since the 1990s (cf. Lidil no. 17, Pratiques de l’écrit
et modes d’accès au savoir dans l’enseignement supérieur, coordinated by Michel Dabène and
Yves Reuter). Today, we find corpora freely available on-line, such as the English
BAWE7 or Michigan Corpora 8 and, in both French and English, the Scientext 9 corpora
available via the ScienQuest10 interface, allowing researchers to identify the
characteristics of academic discourse of both experts and students.
Lidil, 58 | 2018
7
14 Without repeating the benefits of large digital corpora for linguistic description (cf.
Lidil no. 31, Corpus oraux et diversité des approches, coordinated by Marie Savelli), this
publication is an opportunity to discover new ways to support scholarly writing
through the use of digital corpora. In didactic terms, the articles gathered here deal
with the direct or indirect use of digital corpora by both teachers and learners in a
university context. In recent years, the development of greater storage and especially
computer tools allowing online query options accessible by non-specialists has enabled
the development of digital corpora for educational purposes. Indeed, the articles in this
issue explore the use of these digital resources for the teaching and learning of
academic language and, in some cases, scientific phraseology.
15 Following Boulton and Tyne’s book (2014) on the use of corpora in language classes,
these contributions provide answers about the actual use of digital corpora by
university teaching teams: How do they use them and why? We will see that linguistic
and didactic approaches echo from one language to another and that language
didactics federate these different studies.
16 Concerning academic English, Clive Hamilton and Natalie Kübler, who teach at the
Diderot University in Paris, are developing courses, based on corpora of scientific
English, for French-speaking students who specialize in different disciplines. The case
of students directly using online corpora remains uncommon in French universities
and this case study helps to better understand the issues.
17 Benet Vincent and Hilary Nesi, from Coventry University, teach academic English to
international students using a BAWE-based interface to introduce hypertext links
designed to guide and assist learners in their academic writing. The question of the
insertion of such tools in language classes is raised, making it possible to highlight the
specificities of the tool and the teacher’s feedback, as well as the complementarity
qualities of these approaches.
18 Concerning academic French, Rui Yan, Agnès Tutin, and Thi Thu Hoai Tran, from
Grenoble Alpes and Artois Universities, are involved in the teaching of French as a
foreign language and more particularly in identifying the verbal routines of French
academic writing. Their study of a learner corpus reveals the students’ most common
errors related to verbal routines. A corpus of academic French texts by experts made it
possible to compare and highlight the relevant routines to be taught. Their article
concludes with examples of reflective exercises for learners based on extracts from the
expert corpus, which clearly show how these routines structure academic French.
19 Thi Thu Hoai Tran, from the Université d’Artois, and Achille Falaise, from the
Université Paris Diderot, are interested in French as a Foreign Language. While one
(A. Falaise) is developing a dictionary-like, corpus-based computer tool with the
objective of helping university students with their writing, the other (T. T. H. Tran) is
introducing the tool to international students learning French. These experiments have
allowed an in-depth didactic reflection on improving the tool. This is an example of a
successful collaboration between an educator-linguist and a natural language
processor.
20 Marina Kogan, Anna Yaroshevich, and Olga Ni, from the Peter the Great University of
St Petersburg, teach German to future Russian engineers. By focusing on the most
frequent lexical sequences and by attempting an approach by direct learner
Lidil, 58 | 2018
8
consultation of the corpus, the authors develop activities based on a digital corpus to
support teaching and learning in accordance with the learners’ specialties.
21 This thematic issue concludes with the contribution of Eva Schaeffer-Lacroix, who
teaches German at the ÉSPÉ11 de Paris to future German teachers. Here, she presents
students’ reactions to introductory consultations of a digital corpus, tracing their
reflection on the practice and understanding of the use of the comma in German. She
then invites readers to think about the contributions of inductive and deductive
approaches in such a context.
22 We thank the authors and evaluators for their gracious contributions to this issue. We
hope that the research on digital corpora for teaching foreign languages in university
settings will be a promising entry point for the general use of digital corpora within
language teaching.
BIBLIOGRAPHIE
BOULTON, Alex & TYNE, Henry. (2014). Des documents authentiques aux corpus : Démarches pour
l’apprentissage des langues. Paris : Didier.
CHAMBERS, Angela. (2010). L’apprentissage de l’écriture en langue seconde à l’aide d’un corpus
spécialisé. Revue française de linguistique appliquée, 15(2), 9-20.
COLLINS FREE ON-LINE DICTIONARY. (2017). Disponible en ligne sur <www.collinsdictionary.com/

dictionary/english>.
COXHEAD, Averil. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213-238.
DABÈNE, Michel & REUTER, Yves (dir.). (1998). Pratiques, de l’écrit et modes d’accès au savoir dans
l’enseignement supérieur, Lidil, 17.
FLØTTUM, Kjersti, DAHL, Trine & KINN, Torodd. (2006). Academic Voices. Amsterdam : John
Benjamins Publishing Company.
HUNSTON, Susan & FRANCIS, Gill. (2000). Pattern Grammar: A Corpus-Driven Approach to the Lexical
Grammar of English. Amsterdam : John Benjamins Publishing Company.
HYLAND, Kenneth & BONDI, Marina (dir.). (2006). Academic Discourse across Disciplines. Berne : Peter
Lang.
MACMILLAN FREE ON-LINE DICTIONARY. (2017). Disponible en ligne sur

<www.macmillandictionary.com>.
SINCLAIR, John. (1991). Corpus, Concordance, Collocation: Describing English Language. Oxford : Oxford
University Press.
QUIRK, Randolph, GREENBAUM, Sidney, LEECH, Geoffrey & SVARTVIK, Jan. (1985). A Comprehensive
Grammar of the English Language. Londres : Longman Publishing Company.
SAVELLI, Marie (dir.). (2005). Corpus oraux et diversité des approches, Lidil, 31. Disponible en ligne sur
<https://journals.openedition.org/lidil/125>.
Lidil, 58 | 2018
9
SWALES, John M. (1990/2004). Genre Analysis: English in Academic and Research Settings. Cambridge :
Cambridge University Press.
TUTIN, Agnès & GROSSMANN, Francis (dir.). (2014). L’écrit scientifique : du lexique au discours. Rennes :
Presses universitaires de Rennes.
NOTES
1. BAWE : <http://ota.ahds.ac.uk/…>, voir aussi : <www.coventry.ac.uk/bawe>.
2. Michigan Corpora : <https://lsa.umich.edu/eli/…/micase-micusp.html>.
3. Scientext : <http://scientext.msh-alpes.fr/scientext-site/spip.php?article1>.
4. ScienQuest : <http://corpora.aiakide.net/scientext18/>.
5. TAL : Traitement automatique des langues.
6. École supérieure du professorat et de l’éducation.
7. BAWE: <http://ota.ahds.ac.uk/…>, see also: <www.coventry.ac.uk/bawe>.
8. Michigan Corpora: <https://lsa.umich.edu/eli/…/micase-micusp.html>.
9. Scientext: <http://scientext.msh-alpes.fr/scientext-site/spip.php?article1>.
10. ScienQuest: <http://corpora.aiakide.net/scientext18/>.
11. École supérieure du professorat et de l’éducation.
AUTEURS
CRISTELLE CAVALLA
DILTEC, Université Sorbonne Nouvelle – Paris 3
LAURA HARTWELL
LIDILEM, Université Grenoble Alpes
Lidil, 58 | 2018
10
L’exploitation des corpus

numériques dans les formations
d’anglais scientifique en ligne : une
étude de cas
A Marriage of Reason between EAP and DDL: A Case of Blended Learning
Natalie Kübler et Clive E. Hamilton
1. Introduction
1 Depuis une dizaine d’années, la nécessité absolue d’enseigner l’anglais de spécialité
comme atout professionnalisant dans les universités françaises fait consensus (Van der
Yeught, 2014). Cependant, et c’est encore Van der Yeught qui le souligne,
l’homogénéité de ce que l’on appelle le secteur LANSAD (Langues pour spécialistes
d’autres disciplines) n’est qu’apparente. Les programmes et les approches mises en
œuvre dans le secteur sont en effet assez hétérogènes, ce qui est dû en partie à la
difficulté de fédérer un secteur mal reconnu par rapport aux secteurs disciplinaires en
LLCE et LEA, et en partie au fait que le LANSAD s’organise de manière très différente
selon les établissements (Braud, Millot, Sarré & Wozniak, 2015 ; Brudermann, Mattioli,
Roussel & Sarre, 2016) : LANSAD centralisé dans un service langues ou un centre de
ressources en langues, LANSAD comme département d’une UFR de langues ou d’une
UFR LEA, LANSAD réparti par UFR disciplinaires, sans coordination entre enseignants
LANSAD de celles-ci. En outre, le LANSAD est l’un des secteurs qui emploient le plus
grand nombre de personnels non titulaires ayant des statuts très variés (lecteur, maître
de langue, contractuel enseignant, vacataire, tuteurs étudiants, ATER), ce qui rend la
spécialisation et la pérennité des programmes très complexes. Enfin, il s’agit d’un
secteur qui recrute essentiellement des PRAG/PRCE et beaucoup moins d’enseignants-
chercheurs (7 % dont 1 % de PU selon Brudermann, Mattioli, Roussel et Sarre (2015)).
Par conséquent, les pouvoirs décisionnaires en ont une représentation biaisée. En effet,
pour la grande majorité des instances universitaires, le LANSAD ne s’inscrit pas dans la
Lidil, 58 | 2018
11
recherche, car il s’agit uniquement pour celles-ci d’enseigner les langues aux
spécialistes d’autres disciplines, une activité souvent considérée comme ancillaire, ce
qui, comme le soulignent à juste titre Brudermann, Mattioli, Roussel et Sarre (2015,
parag. 24), entre en contradiction avec les mission d’enseignement de l’université qui
doit adosser son enseignement à la recherche. En outre, dans un domaine dans lequel
les besoins sont aussi immenses, tirer parti des résultats d’une recherche dynamique
permettrait sans doute d’améliorer l’offre de formation.
2 Or, et malgré les aprioris constatés dans le monde universitaire, le LANSAD a développé
depuis la fin du siècle dernier une recherche dynamique et foisonnante tant dans le
domaine de la didactique des langues que dans celui de l’anglais de spécialité
proprement dit, ainsi que dans d’autres langues de spécialité (comme en témoignent les
associations du GERES pour l’espagnol et du GERALS pour l’allemand), ainsi que toute la
recherche développée depuis longtemps en didactique du FLE et, plus récemment,
en FOU (français sur objectifs universitaires) et FOS (français sur objectifs spécifiques).
Dans le monde anglophone, la recherche en ESP (English for Specific Purposes) et EAP
(English for Academic Purposes) s’est développée depuis plus d’une trentaine d’années,
notamment grâce à l’apport de la linguistique de corpus et des possibilités que celle-ci
offre à la fois pour l’analyse et la description proprement dites des différents genres
textuels (Swales, 1990), mais aussi pour l’apprentissage sur corpus (qui est l’équivalent
français proposé par Boulton et Tyne (2014) du terme data-driven learning de
Johns (1991)). Un nombre croissant d’études ont permis de mettre en exergue les
spécificités de l’anglais universitaire, sous des angles multiples : voir, entre autres,
Hardy et Römer (2013) ; Hyland (2000) ; Poudat et Follette (2012) ; Bordet (2015) pour les
variations disciplinaires ; Clyne (1987) ; Fløttum, Dahl et Kinn (2006) ; Hartwell et
Jacques (2014) pour les variations entre langues ; Biber, Conrad, Reppen, Byrd et
Helt (2002) ; Carter-Thomas et Rowley-Jolivet (2001) ; Hamilton et Carter-Thomas (2017)
pour les variations entre langue orale et écrite en anglais scientifique. Ces traits
caractéristiques symbolisent, en quelque sorte, le noyau dur ou l’ultime compétence à
acquérir, par celui qui souhaite intégrer une nouvelle communauté de discours (Swales,
1990, 2016).
3 Cependant, ces traits spécifiques ne sont pas toujours pris en compte dans
l’enseignement des langues de spécialité, comme le soulignent Chaplier et
O’Connell (2015). En outre, les besoins en LANSAD devraient se décliner en fonction
d’une analyse tenant compte des domaines et des situations de communication comme
le plaident Nesi (2015) et Van der Yeught (2014). Celui-ci souligne par exemple les
différences culturelles et institutionnelles dans le domaine du droit ou celui de la
comptabilité entre la France et les pays anglophones. Une maitrise fine de la langue du
droit en anglais exige que l’apprenant acquière des compétences juridiques dans la
common law, qui diffère fortement du droit français par exemple. On peut penser que
dans les disciplines scientifiques, ce type de problème ne se pose pas, mais d’autres
difficultés se présentent à l’apprenant francophone. Enfin, les besoins
communicationnels peuvent être variés, par exemple, rédiger un article scientifique en
anglais, négocier un contrat, prendre la parole dans une réunion, rédiger un rapport
d’activité d’une grande entreprise, passer un entretien d’embauche au téléphone.
Toutes ces situations de communications sont liées à des communautés de discours qui
se reconnaissent dans des genres textuels spécifiques que nos étudiants doivent
apprendre à maîtriser, afin d’être légitimés dans les communautés de discours. Or,
Lidil, 58 | 2018
12
Swales (2016) revient sur cette notion pour l’élargir bien au-delà de la simple
communauté de spécialistes d’un domaine.
4 Bien que de nombreuses études récentes aient abordé le problème du contenu à
enseigner en LANSAD, Brudermann, Mattioli, Roussel et Sarre (2016), Faure (2013),
Wozniak et Millot (2015), Chaplier et O’Connell (2015) et Van der Yeught (2014)
indiquent que le problème principal résiderait dans le manque de formation des
intervenants qui doivent préparer ces contenus faisant appel à une grande variété de
situations de communications, et donc de genres dans des domaines spécialisés, sans
pour autant qu’ils aient des connaissances antérieures propres à ces genres, ou même, à
la notion de langue de spécialité. À ce propos, l’identification des obstacles à
surmonter, de ce fait, n’est plus à refaire. Nonobstant, force est de constater que la mise
en place de changements pédagogiques nécessaires s’installe très lentement en raison
du fait qu’elle appelle davantage de moyens humains et techniques (Delabroye, Kübler,
Leyboldt & Perret, 2011), d’une part, et parce que le soutien des politiques linguistiques
institutionnelles locales n’est pas toujours présent, d’autre part.
5 Des enjeux numériques s’ajoutent désormais à toute réflexion didactique, dans un
contexte d’accélération du processus d’internationalisation des formations.
L’avènement et l’accessibilité accrue des grands corpus numériques en anglais ont créé
un terrain propice aux expérimentations pédagogiques. Ainsi avons-nous vu ces
dernières années une augmentation des appels à favoriser le data driven learning ou
apprentissage basé sur corpus (voir Johns, 1991 ; Kübler & Foucou, 2000 ; Boulton &
Tyne, 2014). Ces expérimentations ont donné lieu à de nombreux matériaux didactisés
qui semblent désormais de plus en plus répandus. À titre indicatif, nous trouvons à
l’interface du lexique et de la phraséologie, l’Academic Word List élaborée par
Coxhead (2000), l’Academic Keyword List (Paquot, 2010), l’ Academic Phrasebank de
l’université de Manchester et le projet ARTES (voir Kübler & Pecman, 2012), pour n’en
lister que quelques-uns.
6 Toutefois, nous voyons apparaitre, de manière progressive, un discret appel à favoriser
des corpus disciplinaires spécialisés. En effet, Hyland et Tse (2007) soulignent
l’importance de l’élaboration d’un répertoire lexical disciplinaire en lieu et place d’un
répertoire lexical transdisciplinaire, notamment pour ceux qui poursuivent un cursus
d’anglais scientifique. Nesi (2015) souligne également le mérite de ces corpus
spécialisés. Elle affirme ne plus avoir recours uniquement aux grands corpus pour la
création de matériel pédagogique en anglais de spécialité, mais aussi à des corpus
spécialisés, ce qui n’est pas une tendance sui generis. D’autres, comme Charles (2012,
2014), mettent en avant la nécessité d’amener les apprenants à collecter leurs propres
corpus spécialisés, de manière à coïncider au plus près avec la réalité du terrain
disciplinaire auquel ceux-ci seront confrontés.
7 Notre article s’intéresse donc à deux aspects : l’exploitation concrète de corpus
spécialisés en cours d’anglais scientifique, d’une part, et le regard porté par les
principaux intéressés, c’est-à-dire les étudiants, face aux recours grandissant de ces
ressources numériques, d’autre part. Nous tenterons donc, à la fin de cette
contribution, d’apporter un début de réponse à trois questions qui nous paraissent
essentielles :
1. La langue de spécialité devrait-elle être introduite tôt dans la formation d’anglais des
étudiants spécialistes d’autres disciplines ?
2. L’exploitation des corpus spécialisés devrait-elle être intégrée dans ces formations ?
Lidil, 58 | 2018
13
3. À partir d’un cas précis, comment les enseignants et les étudiants peuvent-ils travailler
concrètement avec ces corpus spécialisés ?
8 Sont détaillés, dans la section suivante, les deux dispositifs d’enseignements, mis en
place pour étudier ces deux aspects principaux. Puis, nous abordons l’appropriation de
ces nouvelles ressources à la lumière des retours anonymes des étudiants.
2. Deux dispositifs d’enseignements expérimentaux

2.1. Le contexte institutionnel
9 L’expérience a été menée dans le cadre de trois structures étroitement liées :

l’université Paris Diderot, le Pôle d’élaboration de ressources linguistiques (PERL) et le
Centre de formation des doctorants à l’insertion professionnelle (CFDIP) de la COMUE
Université Sorbonne Paris Cité (USPC).
1. La création d’un service de ressources linguistiques partagées entre plusieurs
établissements, au sein de la COMUE USPC, le PERL 1, a fourni un cadre propice à
l’expérimentation de nouvelles formations en langues : notamment la création de
formations en langues intégralement en ligne ou en hybride (c’est-à-dire, qui se composent
de modules mélangeant présentiel et distanciel). Les deux dispositifs, que nous examinons
dans cette étude, ont ainsi été créés dans ce cadre et mis à disposition sur une plateforme
Moodle2.
2. L’université Paris Diderot, par le biais d’un rapport d’une commission de langues, a reconnu
en 2011 les prémices du recours aux langues de spécialité dans l’enseignement des langues.
Elle est, de ce fait, ouverte à diverses expérimentations en langues de spécialité. Le premier
dispositif d’anglais scientifique a été proposé à des étudiants de cet établissement inscrits en
première année d’un cursus de master.
3. Le Centre de formation des doctorants à l’insertion professionnelle (CFDIP), comme le PERL,
se veut un service partagé entre établissements d’USPC. Il a fourni l’ensemble des
doctorants-participants qui ont suivi la formation proposée dans le deuxième dispositif
d’anglais scientifique basé sur corpus.
2.2. L’expérimentation
10 Plusieurs paramètres sont identiques dans les deux groupes d’essai (mastérants et
doctorants). Tout d’abord, les tâches d’évaluation sont au nombre de trois : une
évaluation orale et deux évaluations écrites. Ces dernières se présentent sous la forme
d’un abstract ou résumé scientifique que les participants doivent rédiger et soumettre
dès la première séance. Cette rédaction est ensuite resoumise à la fin de la formation
avec des modifications et corrections apportées par le participant, sans que ce dernier
ait bénéficié d’un retour individuel de l’intervenant. Ces écrits permettent, après une
analyse comparée détaillée des deux tâches, de rendre compte de la progression (ou de
l’absence de progression) de chaque participant. L’évaluation orale intervient lors de la
dernière séance et se présente sous la forme d’un exposé. Nous demandons également à
l’ensemble des participants de créer leur propre corpus spécialisé, composé de 5 à
10 articles minimum, selon la thématique de recherche de chacun. Enfin, les
participants bénéficient tous d’une démonstration du logiciel AntConc (Anthony, 2014).
Lidil, 58 | 2018
14
11 Dans la lignée de Renouf (1997, p. 256) qui fait la distinction entre exploiting to teach et
teaching to exploit, ou de Beeby, Ines et Sanchez-Gijon (2009) qui, au sujet de l’utilisation
des corpus dans la formation des traducteurs distinguent entre learning to use corpora to
translate et learning to translate using corpora, deux approches ont été expérimentées : la
première exploite donc les corpus pour créer du matériau pédagogique, la second
apprend aux étudiants comment utiliser les corpus pour produire en L2. Les deux
sections suivantes décrivent ces approches, ainsi que les paramètres qui diffèrent selon
les groupes.
2.2.1. De la sensibilisation passive basée sur corpus : le premier dispositif
12 Le premier dispositif ou le groupe A se compose de 12 étudiants inscrits en première

année d’un master à l’interface entre la biochimie et la chimio-informatique (Master
In Silico Drug Design : ISDD). Le cours d’anglais scientifique est obligatoire et fait,
par conséquent, partie intégrante du parcours universitaire. L’approche pédagogique
mise en avant auprès de ce groupe se veut transmissive ou directe, ce qui consiste à
adopter une démarche d’explicitation du savoir à acquérir. Le public n’entreprend pas
de recherche active et participe uniquement par le biais d’exercices d’entrainement. Le
format s’inscrit de ce fait dans un cours de langue plutôt traditionnel, mais faisant
appel à des ressources peu utilisées en général : les corpus.
13 Il convient en effet de souligner que l’ensemble des éléments exposés dans ce groupe
provient de cinq corpus différents : un corpus d’apprenants francophones écrivant en
anglais (D9_FLC)3 ; deux corpus d’écrits d’étudiants anglophones (voir British Academic
Written English (BAWE) 4, Louvain Corpus of Native English Essays (LOCNESS) 5) ; un corpus
d’articles scientifiques écrits par des anglophones, issu du projet Étude
interdisciplinaire et interlinguistique du discours académique (EIIDA) 6 ; et un corpus
maison réalisé à partir de deux manuels anglais obligatoires au programme du master,
et concernant la biochimie et la chimio-informatique. Ces cinq corpus ont été analysés
pour des faits de langue récurrents, aux niveaux lexical, syntaxique et phraséologique,
de manière à collecter du matériau pédagogique. Les résultats ont été présentés aux
étudiants sous diverses formes, ce qui nous a notamment permis d’effectuer des
exercices d’applications par la suite.
14 L’analyse morphosyntaxique des cinq corpus a été effectuée par le biais de deux
logiciels gratuits : TxM et LancsBox. Les résultats de chaque corpus ont été comparés et
utilisés comme supports de cours. Ces comparaisons concernent, de manière générale,
les traits syntaxiques et phraséologiques récurrents générés dans le but de contraster
l’emploi réel de l’anglais scientifique par les étudiants anglophones (BAWE, LOCNESS),
des étudiants en anglais L2 (D9_FLC) et des chercheurs expérimentés en anglais L1
(EIIDA). De plus, au niveau du lexique simple et de la terminologie spécialisée, des
concordances ont été établies pour illustrer les emplois en corpus.
15 À titre d’illustration, parmi les éléments utilisés comme supports de cours se trouve
une étude contrastive de l’adverbe indeed. Cette comparaison illustre un des types de
variations lexicales repérées dans les différents corpus, au niveau de son emploi réel,
variations auxquelles les étudiants francophones rédigeant en anglais devraient être
sensibilisés. Plus précisément, à travers une normalisation de l’usage selon la taille des
différents corpus, on constate (voir fig. 1) une surutilisation de l’adverbe indeed chez les
étudiants francophones par rapport à l’usage fait par des anglophones. Le ratio est
Lidil, 58 | 2018
15
calculé sur la base de 10 000 mots. Ainsi, la fréquence observée de cet adverbe est de
15 occurrences tous les 10 000 mots chez les étudiants francophones (corpus D9_FLC),
alors que cette fréquence s’élève à 1 sur 10 000 chez les étudiants anglophones (corpus
LOCNESS) et presque 5 sur 10 000 chez les chercheurs expérimentés en anglais L1
(corpus EIIDA). Ces illustrations en cours de langue ont pour objectif d’évaluer le niveau
d’appropriation de ces traits discursifs distinctifs chez les étudiants, à travers une
sensibilisation d’usage réel par opposition à un enseignement basé exclusivement sur la
grammaire des adverbes, par exemple.
Figure 1. – Fréquence de indeed par 10 000 mots.
16 Un autre aspect lexical mis en lumière dans ce cours réside dans la prééminence
observée de certains verbes dans le domaine de spécialité des étudiants. Ces
observations proviennent du corpus établi à partir des manuels en biochimie et chimio-
informatique. La liste extraite de ces manuels et fournie aux étudiants comporte les
185 verbes les plus fréquemment utilisés dans ces écrits disciplinaires. Nous estimons,
par conséquent, que les étudiants doivent connaitre ces verbes et savoir les manier de
manière appropriée, en respectant les schémas lexico-grammaticaux propres au
domaine et à l’anglais scientifique. La figure 2 offre un aperçu des 30 premiers verbes
issus du corpus, par ordre de fréquence. Dans ce dispositif, les étudiants bénéficient
également d’informations relatives à la fréquence absolue de chaque verbe dans le
corpus. De plus, cette liste contient des verbes appartenant à la fois à ce que l’on
nomme le lexique scientifique transdisciplinaire ou la langue scientifique générale (voir
Drouin, 2007 ; Tutin, 2007 ; Pecman, 2007) d’une part, et ce qui relèverait du lexique
disciplinaire spécialisé (voir Coxhead & Hirsch, 2007 ; Ha & Hyland, 2017 ; Nation,
Cohead, Chung & Quero, 2016) d’autre part. Par exemple, parmi les 185 verbes attestés,
seuls 99 apparaissent dans d’autres listes préalablement établies, comme par exemple l’
Academic Keyword List. En effet, certains verbes, n’apparaissant sur aucune liste parmi
celles que nous avons pu consulter, s’avèrent très fréquents dans le corpus
disciplinaire : tels les verbes spécialisés to dock, to anneal dans lesquels le premier
renvoie à une procédure de modélisation moléculaire, tandis que le deuxième insiste
sur le caractère combinatoire de l’ADN. Le corpus spécialisé facilite ainsi le repérage de
ces phénomènes terminologiques dont la connaissance est indispensable tant à
l’enseignant d’anglais de spécialité, qui n’est pas forcément initié au domaine, qu’à
l’étudiant apprenant l’anglais de sa discipline et qui est encore un apprenti dans
celle‑ci.
Lidil, 58 | 2018
16
Figure 2. – Fréquence verbale.
17 Au niveau syntaxique, en lieu et place des traditionnelles explications sur le

fonctionnement grammatical du temps et de l’aspect dans la langue anglaise, nous
avons abordé ces sujets à travers une comparaison de leur usage contextuel chez deux
des trois groupes de locuteurs précédemment établis : à savoir les étudiants
anglophones (L1) et les étudiants francophones (L2). Le tableau 1 illustre le résultat des
comparaisons effectuées avec des variations d’emploi notables. Le tableau suggère,
entre autres, que les étudiants francophones privilégient les conjugaisons au présent de
l’indicatif là où les anglophones utilisent le prétérit ou past simple et le present perfect,
par exemple.
Tableau 1. – Comparaison du temps grammatical.
18 Ces comparaisons constituent le point d’entrée, dans ce cours expérimental, de l’étude

du système temporel de la langue anglaise en anglais scientifique. D’autres aspects
syntaxiques ont été abordés en partant du même prisme comparatif : à savoir,
entre autres, l’utilisation de la voix passive dans les trois groupes de locuteurs,
l’utilisation des pronoms personnels. De plus, la démarche comparative a également été
utilisée afin d’introduire les éléments phraséologiques.
Lidil, 58 | 2018
17
2.2.2. De la découverte participative : le deuxième dispositif
19 Le deuxième dispositif ou groupe B se compose de 20 doctorants de dix disciplines

différentes, allant des sciences de l’éducation à l’imagerie médicale. Étant donné la
nature du service proposé par le Centre de formation des doctorants à l’insertion
professionnelle, les doctorants choisissent librement les enseignements qu’ils
souhaitent poursuivre — souvent parmi un choix varié. Par exemple, plusieurs cours
d’anglais scientifique sont proposés, mais un seul se veut hybride et basé sur corpus.
Suivre cette formation relève, de ce fait, d’un choix assumé.
20 L’approche pédagogique diffère sensiblement de celle mise en place dans le groupe A.
L’approche adoptée est celle de la découverte participative, déjà prônée par
Holec (1990) et Johns (1991). Nous demandons aux doctorants un réel investissement,
en ce qu’ils participent activement à la découverte du savoir. Les faits de langue ne sont
pas analysés et présentés en amont. Ainsi, à travers des exercices variés, ils deviennent
acteurs de l’ensemble des aspects qu’ils apprennent. En effet, ceux qui optent pour
cette formation sont guidés dans leur exploration des corpus, de manière à identifier
eux-mêmes les traits caractéristiques de l’anglais scientifique. Plus précisément, dès
l’introduction de ce cours, sont présentés aux étudiants une vingtaine de jeux
d’étiquettes, issus de TreeTagger, permettant d’interroger les corpus en ligne et de
lancer des requêtes sur les catégories morphosyntaxiques.
21 Les corpus proposés à l’exploration proviennent essentiellement d’écrits scientifiques
rédigés et publiés par des experts dans leurs domaines respectifs. Parmi les ressources
exploitées, nous avons surtout utilisé le corpus EIIDA qui recouvre deux disciplines
universitaires (à savoir la linguistique et la géochimie majoritairement, avec des
articles écrits et leurs présentations orales correspondantes issues de plusieurs
colloques). À cela s’ajoute un sous-ensemble d’articles de médecine extraits du Corpus of
Contemporary American English (COCA). L’ensemble des corpus est hébergé sur une
plateforme internet, du type CQPweb et est interrogeable pour des faits de langue
touchant le lexique, la syntaxe, la phraséologie. La figure 3 montre un aperçu de la
plateforme, telle qu’elle est présentée aux doctorants. Des gloses (par exemple LG =
Linguistics) ont été ajoutées afin d’en faciliter la lecture.
Lidil, 58 | 2018
18
Figure 3. – Aperçu de la plateforme CQPweb.
22 L’ensemble des éléments mis en avant dans le dispositif du groupe A est actualisé dans
ce deuxième dispositif, à travers l’exploration des corpus. L’ancrage devient cependant
davantage contextuel. Les aspects syntaxiques sont envisagés dans une perspective
comparative entre les différentes sections de l’article scientifique. À titre d’illustration,
nous demandons aux étudiants de comparer l’emploi de la voix passive et les temps
grammaticaux dans l’abstract, l’introduction, la méthodologie et ainsi de suite, de
manière à mettre en lumière les traits saillants propres à la rédaction scientifique. Ils
découvriront alors, par exemple, que les structures passives représentent plus d’un
tiers des groupes verbaux attestés dans une seule section de l’article entière — dans
certaines disciplines — alors que leur présence dans d’autres sections est rare.
23 Nous avons reproduit ci-dessous un exemple d’exercice permettant aux doctorants de
repérer les différences d’emploi des temps dans les parties 7 « introduction »,
« méthode » et « discussion » des articles.
[…] examine the use of the present and past tense in sections B (introduction), C (methods)
and D (results and discussion) of the research paper. Use _VBP and _VBZ for present tense
queries and _VBD for past tense queries. What do you notice? […]
24 De surcroît, ce cours accorde une place importante, entre autres, à la terminologie et à
la phraséologie simple et spécialisée. Les collocations y ont donc un rôle considérable.
La figure 4, obtenue avec le logiciel AntConc, indique des concordances que les
doctorants doivent obtenir eux-mêmes, lors d’un exercice spécifique, à partir du terme
paper. Cette démarche permet aux doctorants, non seulement de visualiser les termes
les plus usités dans les corpus spécialisés, mais également le contexte immédiat dans
lequel lesdits termes sont employés. Autrement dit, à travers l’exploration des corpus,
ils sont appelés à discerner et, par la suite, à s’approprier entre le « quand » et le
« comment » des éléments interrogés.
Lidil, 58 | 2018
19
Figure 4. – Concordance du terme paper.
2.2.3. Des enquêtes de satisfaction
25 La mise en place de ces deux protocoles expérimentaux a été ponctuée par trois
enquêtes courtes et anonymes dans le but de recueillir les ressentis du public visé par
ces dispositifs. Trois questionnaires ont donc été intégrés à la plateforme pédagogique
Moodle et soumis aux deux groupes en début, au milieu et à la fin de la formation. Le
premier questionnaire portait principalement sur l’historique langagier des étudiants,
leurs habitudes, leurs ressentis vis-à-vis des cours en ligne et leur utilisation générale
de la langue anglaise. Les deuxième et troisième questionnaires se définissent comme
des bilans de mi- et de fin de parcours respectivement, dans lesquels les étudiants se
prononcent sur le format et le contenu aussi bien que sur les exercices et les ressources
exploitées. Les participants se prononcent également sur le temps investi dans la
formation, ainsi que les éléments qui leur ont semblé pertinents et soumettent, à la fin,
leurs suggestions d’améliorations. Les résultats qui sont présentés dans la section
suivante découlent de l’analyse de ces enquêtes.
3. Le regard des apprenants sur les deux dispositifs

3.1. Un scepticisme latent à l’égard du cours en ligne
26 Le premier questionnaire a permis d’identifier les différents niveaux de compétences

des étudiants, face à l’outil informatique, qui rappelons-le, reste central aux deux
dispositifs. Rappelons également que ces derniers se caractérisent par leur format
hybride : c’est-à-dire à la fois présentiel et distanciel. Chez les mastérants (groupe A),
seulement 50 % se considèrent à l’aise ou experts face à l’outil informatique. Notons
que chez ces derniers, 66 % déclarent passer plus de 4 heures par jour sur l’ordinateur
ou la tablette informatique, tandis que ce chiffre s’élève à 94 % chez les doctorants.
De plus, dans le groupe B, 70 % des participants se déclarent à l’aise voire utilisateurs
experts, tandis que les 30 % restant s’estiment des utilisateurs moyens. Ces éléments, à
Lidil, 58 | 2018
20
première vue négligeables, sont essentiels en ce qu’ils permettent d’évaluer la

faisabilité et la pertinence des dispositifs face aux deux types de public. Ces premiers
éléments tendent à montrer que l’outil informatique ne semble pas constituer un frein,
en soi, au bon déroulement des cours, d’autant plus que 58 % des doctorants et 73 % des
mastérants soutiennent avoir déjà suivi des cours en ligne.
27 Toutefois, deux constats supplémentaires appellent des remarques. De manière
générale, sans avoir fait l’objet d’une certification en langues, 50 % des étudiants en
master estiment avoir un bon niveau dans les quatre compétences du CERCL en langue
anglaise. Ce chiffre s’élève à 70 % chez les doctorants. De ce fait, suivre une formation
dispensée entièrement en anglais ne devrait pas, en principe, poser de problèmes
conséquents pour une majorité d’étudiants. Nous avons cependant noté que deux-tiers
des étudiants en master reconnaissaient ne pas faire de la recherche scientifique en
anglais (c’est-à-dire consulter des articles scientifiques, etc.), ce qui peut influer, dans
ce groupe, sur la réception ou l’attitude adoptée à l’égard du contenu exploité tout au
long de cette formation. Signalons enfin que les étudiants des deux groupes ont émis un
certain nombre de réserves à la fin du premier questionnaire. En effet, 31 % du
groupe A et 23 % du groupe B ont estimé qu’un cours en ligne ne pouvait être aussi
efficace qu’un cours dans une classe traditionnelle. Ces derniers ont cherché
notamment à souligner le mérite de l’interaction, de l’oral et du suivi individualisé, face
au défi du tout-informatisé.
3.2. Un changement progressif de regard
28 Le deuxième questionnaire intervient au milieu du semestre, de manière à obtenir des

appréciations concernant la formation au fur et à mesure de sa progression. Le but
initial de cette démarche était double : instaurer une sorte de contrôle qualité (c’est-à-
dire, permettant d’évaluer, régler et adapter le cours en temps réel, le cas échéant)
pour ensuite procéder à son amélioration générale pour les prochaines cohortes.
En effet, hormis les questions portant sur les considérations techniques (ergonomie,
clarté des consignes, des objectifs, des explications), cette deuxième enquête se
concentre essentiellement sur des points ayant trait à l’évaluation du contenu
linguistique.
29 Ce bilan de mi-parcours s’est révélé assez positif, dans la mesure où nous avons relevé
une diminution considérable des réserves émises par des étudiants. C’est ce que l’on
peut observer dans la figure 5 qui illustre leurs représentations globales exprimées en
pourcentage. Les participants des deux groupes se rejoignent majoritairement sur la
nature innovante, intéressante et dynamique du cours. Il en ressort toutefois que le
dispositif mis en place dans le groupe A n’est pas jugé suffisamment dynamique par
30 % du public. Cela incite à réfléchir sur les possibilités existantes sur la plateforme
Moodle qui permettraient d’augmenter les modalités interactives du cours. L’approche
directe adoptée, qui consiste à fournir du matériau pédagogique issu des corpus, sans
demander aux étudiants d’observer eux-mêmes, dans une approche inductive, est peut-
être aussi à l’origine de ces réserves. D’une certaine manière, néanmoins, l’appréciation
positive globale est encourageante. Une amélioration du dispositif reste cependant
nécessaire, mais ce constat n’enlève rien à l’intérêt de cette approche pour
l’enseignement de la langue de spécialité.
Lidil, 58 | 2018
21
Figure 5. – Évaluation globale de mi-parcours.
30 De plus, parmi les éléments évalués favorablement se trouve le fait que l’ensemble de la
formation soit dispensé entièrement en anglais. Signalons que ce paramètre est remis
en cause par 30 % des étudiants en master et 20 % d’inscrits en doctorat, notamment
pour ce qui relève des explications théoriques (autrement dit, les explications
proprement grammaticales ou linguistiques). Rappelons, à ce propos, que si la moitié
des étudiants dans le groupe A et 70 % dans le groupe B avaient affirmé avoir un bon
niveau en anglais, ce n’était pas le cas pour les 30 % restants, ce qui permet de mieux
appréhender ce résultat. Par ailleurs, il est légitime de se demander s’il existe une
corrélation entre les différences d’avis et les différents niveaux d’anglais des
participants, mais, bien que cette hypothèse soit plausible, la nature anonyme et
discontinue du premier et du deuxième questionnaire ne permet pas de la confirmer.
Nonobstant, ce bilan de mi-parcours est jugé très important dans la mesure où les
explications lexico-grammaticales doivent être suffisamment accessibles à l’ensemble
des participants, de manière à assurer une certaine progression. Ainsi, il conviendrait
de prendre en compte le niveau considérablement hétérogène, notamment au niveau
master, et de trouver un moyen de faciliter la compréhension des explications
théoriques, surtout si la formation continue à être dispensée entièrement en anglais.
31 Le deuxième questionnaire a permis de mettre en lumière une divergence de point de
vue au niveau du contenu abordé, à proprement parler, dans les deux dispositifs. À la
question « Pensez-vous qu’il manque des cours de grammaire ? » l’ensemble des
doctorants affirme ne pas regretter l’absence de cours de grammaire traditionnels (voir
fig. 6).
Figure 6. – L’absence de grammaire.
32 Cet avis n’est pas partagé par 40 % des étudiants en master, parmi lesquels 20 % sont
tout à fait d’accord sur le fait qu’il manque des cours de grammaire traditionnels.
Lidil, 58 | 2018
22
De plus, aucun étudiant en master ne s’estime totalement convaincu par l’absence de

ces cours. Il est alors possible d’inclure davantage de points de grammaire en
s’appuyant sur les corpus, de manière à dynamiser cet aspect du cours et à aborder la
grammaire d’une manière inductive.
3.3. Un investissement en décalage
33 Le dernier questionnaire soumis aux participants à la fin de la formation avait pour but
de recueillir leurs avis globaux et leurs suggestions d’amélioration. Nous ferons
néanmoins, ici, l’économie des remarques portant sur l’ergonomie, la fluidité et la
gestion du contenu à proprement parler. En effet, à la différence de l’enquête
singulièrement appréciative de mi-semestre, cette dernière est doublement nuancée.
D’une part, la formation a été évaluée très positivement à l’intérieur d’un groupe, et
d’autre part, l’apprentissage sur corpus a eu pour effet de pousser l’ensemble des
participants à exploiter librement le potentiel des ressources mises à leur disposition
pour effectuer une seule des deux dernières tâches demandées. Le décalage entre ces
deux observations est examiné en détail ci-dessous.
34 En utilisant une échelle de Likert, les participants devaient se prononcer sur la question
que nous reproduisons ci-après.
Pour ce qui est du contenu, le cours :
(i) vous a plu (échelle) ; (ii) vous a semblé utile (échelle) ; (iii) vous a demandé un
investissement considérable (échelle) ; (iv) a suscité votre intérêt (échelle).
35 Les réponses des deux groupes sont illustrées en figure 7. Il ressort de la comparaison
que l’ensemble des participants du groupe B estime que le cours à la fois leur a plu et a
suscité leur intérêt. Dans le dispositif A, seulement 63 % s’estiment satisfaits, d’une
part, et 45 % ont y trouvé un intérêt, d’autre part. Cette tendance globale à la baisse
chez les mastérants doit, bien entendu, être analysée à la lumière des participants qui
ont choisi de ne pas prendre position. Signalons qu’un écart d’investissement est
également observé dans les deux groupes où 60 % des doctorants soutiennent avoir
consacré plus de 2 heures hebdomadaires et les 40 % restant au moins 1 h 30. D’un autre
côté, seulement 40 % des mastérants ont consacré plus de 2 heures hebdomadaires au
cours. 40 % affirment avoir passé moins d’1 h 30 et les 20 % restant moins d’1 heure
hebdomadaire. Il semblerait donc qu’une corrélation existe entre les 60 % qui ont
consacré le moins de temps au cours et le 55 % qui soutiennent que le cours n’a pas
suscité leur intérêt.
Lidil, 58 | 2018
23
Figure 7. – Aperçu de la perception globale.
36 La dernière enquête a aussi permis de mettre en évidence une évaluation mitigée à

l’égard de plusieurs autres points. De manière générale, les doctorants ont évalué
l’ensemble des éléments positivement. Plus de 80 % des effectifs, chez ces derniers,
estiment que cet enseignement basé sur corpus leur a permis d’améliorer aussi bien
l’expression écrite que la compréhension écrite. De surcroît, ils considèrent, à
l’unanimité, que la focalisation sur les constructions syntaxiques et la phraséologie,
mises en avant tout au long de la formation, leur a été bénéfique. Chez les mastérants,
un nombre stable de participants s’est prononcé « sans avis », ce qui ne permet pas de
tirer de conclusions générales, au vu du faible nombre de participants dans chaque
groupe. À la lumière de ces éléments, plusieurs questions s’imposent. Est-ce que
l’évaluation positive dans le groupe B s’explique uniquement par rapport au fait que les
doctorants accordent une plus grande importance à l’anglais scientifique que les
participants dans le groupe A ? Ou est-ce en partie en raison du fait que le dispositif
dans le groupe B est essentiellement participatif et demande une implication
personnelle à chaque étape du cours ?
37 Le dernier élément du questionnaire qui suscite des interrogations concerne
l’utilisation des ressources. En effet, un ensemble de ressources a été mis à disposition
des deux groupes tout au long de la formation. Pour le groupe A, ces ressources se
limitaient aux transcriptions de plusieurs présentations scientifiques orales, issues du
corpus EIIDA. Des références pour des corpus similaires (voir le Michigan Corpus of
Academic Spoken English (MICASE), par exemple) ont également été fournies, de même
que le logiciel AntConc. Pour le groupe B, il s’agissait de l’ensemble des corpus
disciplinaires, les logiciels et les diverses transcriptions de présentations orales
effectuées dans divers colloques.
38 Les retours du questionnaire ont démontré que les participants ont collectivement
adopté une stratégie d’interrogation de corpus. En effet, les deux tâches finales dans les
deux dispositifs consistaient en une rédaction scientifique et une présentation orale.
Pour réaliser la rédaction, les participants des deux groupes affirment avoir utilisé des
corpus d’articles qu’ils avaient compilé eux-mêmes, selon la spécificité de leurs
Lidil, 58 | 2018
24
recherches individuelles (voir section 2.2). À ces ressources se sont ajoutés les divers
points abordés en cours. Cependant, les présentations orales n’ont pas bénéficié du
même engouement pour les ressources du corpus, ce qui peut se justifier par l’attention
principalement accordée aux phénomènes propres aux corpus écrits dans les deux
dispositifs.
39 Nous considérons que le recours au corpus observé, dans la réalisation de la dernière
tâche écrite, constitue un signe positif qui mérite d’être renforcé. En effet, malgré les
divergences d’appréciation sur différents points mis en avant dans les deux dispositifs,
la création et l’utilisation de petits corpus spécialisés semblent avoir conquis les deux
publics. De plus, l’analyse comparée des deux tâches écrites (c’est-à-dire, les
modifications et corrections effectuées par les participants entre la première et
deuxième tâche écrite) permet de rendre compte des avantages réels de l’approche sur
corpus.
4. Conclusion
40 Cet article a rendu compte de deux expérimentations menées dans des conditions
originales pour l’enseignement de l’anglais scientifique. Bien que de nombreuses
recherches soulignent les avantages de l’utilisation des corpus en anglais de spécialité,
rares sont celles qui évoquent un enseignement sur corpus, hybride ou complètement
en ligne. Ces expérimentations et leurs résultats nous amènent à émettre quelques
hypothèses afin de répondre aux questions posées précédemment :
1. La langue de spécialité devrait-elle être introduite de manière précoce dans la formation
LANSAD ?
2. L’exploitation de corpus devrait-elle être intégrée dans ces formations ?
41 Une prise de conscience précoce des différences entre langue générale et langue de
spécialité, ainsi que langue universitaire, nous parait indispensable, d’autant plus qu’il
s’agit de maitriser des caractéristiques linguistiques spécifiques, liées aux domaines de
spécialité et aux genres textuels, dans une langue seconde, ce qui ajoute aux difficultés.
La langue de spécialité nous parait donc pouvoir être abordée progressivement, dès la
première année d’université, en tenant compte du niveau hétérogène en anglais des
étudiants de première année. Parmi les réponses aux questionnaires, les étudiants de
master ressentent le besoin d’avoir plus de grammaire. Nous plaidons en faveur de
l’exploitation de corpus à la fois de langue générale et de langue spécialisée, mais aussi
de langue semi-spécialisée (comme les textes de vulgarisation, qui ont recours aussi à
des caractéristiques singulières) dans une approche active, de découverte de la
grammaire, mais aussi de la phraséologie de l’anglais dès la première année
d’université. L’objectif serait de faire progressivement prendre conscience aux
étudiants des différences linguistiques entre langue générale et langue de spécialité,
au-delà des questions de vocabulaire spécialisé. Par ailleurs, un deuxième objectif
consisterait à leur faire acquérir le réflexe corpus, en s’appuyant tout d’abord sur les
corpus disponibles en ligne, comme le Corpus of Contemporary American English, qui
permet des requêtes différenciées sur la langue générale et la langue universitaire dans
différents domaines. Par exemple, comme le montrent les deux expérimentations, un
travail d’observation sur le passif ou le système temporel de l’anglais est nécessaire, ce
qui fait partie de ce que les étudiants nomment « grammaire ». Ce travail d’observation
Lidil, 58 | 2018
25
peut se faire à la fois sur un corpus général et de spécialité, ce qui fera ressortir
l’emploi des temps selon le genre textuel par exemple.
42 Puis, en tirant parti des outils simples d’utilisation, comme AntConc ou Sketch Engine 8
(Kilgarriff et coll., 2014), nous proposons d’apprendre aux étudiants, à partir de la
troisième année d’université, à utiliser ces outils pour constituer leur propre corpus
spécialisé, en fonction de leurs besoins. Les deux expérimentations ont en effet montré
que les étudiants étaient capables d’utiliser spontanément les corpus pour accomplir
certaines tâches. En outre, à partir du master, et en collaboration avec les enseignants
des disciplines, il est possible de constituer avec ou sans l’aide des étudiants, des corpus
spécialisés en lien avec les enseignements disciplinaires, de manière à permettre une
acquisition plus efficace de la discipline en anglais.
43 Nous restons cependant conscients que des améliorations doivent être apportées au
dispositif, en fonction des réponses des étudiants. Nous sommes aussi conscients de
n’apporter qu’une pierre de plus à l’édifice enthousiaste que construisent depuis des
années les chercheurs en linguistique de corpus pour l’enseignement et que la
formation en anglais des spécialistes d’autres disciplines doit aussi s’appuyer sur une
analyse des besoins et tirer parti d’autres approches (Sarré & White, 2017, p. 6). Les
deux approches présentées ici, à savoir, passive et inductive, exigent de l’enseignant un
certain travail de préparation et une connaissance active de l’exploitation de corpus.
En effet, soit l’enseignant compile des corpus qu’il interroge afin de constituer du
matériau pédagogique servant de support de cours, soit il fait compiler leurs propres
corpus aux étudiants, mais doit préparer des exercices d’entrainement pour amener les
étudiants à poser les bonnes questions aux corpus, pour en reconnaitre les
informations pertinentes. Ces quelques propositions nécessitent cependant que les
instances décisionnaires acceptent de soutenir cette approche, mais aussi que les
enseignants soient formés à l’exploitation des corpus. Nous espérons avoir montré
comment des cas précis d’utilisation de corpus peuvent être mis en œuvre pour
répondre à un besoin, c’est-à-dire, accomplir une tâche pédagogique représentant un
besoin des étudiants spécialistes d’autres disciplines, tentant de répondre ainsi, comme
de nombreux autres auteurs, à la question de savoir comment les enseignants et les
apprenants peuvent travailler concrètement avec des corpus spécialisés.
BIBLIOGRAPHIE
ANTHONY, Laurence. (2014). AntConc (Version 3.4.4). Tokyo, Japon : Waseda University. Disponible en
ligne sur <www.laurenceanthony.net/software>.
BEEBY, Allison, INÉS, Patricia R. & SÁNCHEZ-GIJÓN, Pilar (dir.). (2009). Corpus Use and Translating:
Corpus Use for Learning to Translate and Learning Corpus Use to Translate (vol. 82). Amsterdam : John
Benjamins Publishing.
BIBER, Douglas, CONRAD, Susan, REPPEN, Randi, BYRD, Pat & HELT, Marie. (2002). Speaking and
Writing in the University: A Multidimensional Comparison. TESOL Quarterly, 36, 9-48.
Lidil, 58 | 2018
26
BOULTON, Alex, CARTER-THOMAS, Shirley & ROWLEY-JOLIVET, Elizabeth (dir.). (2012). Corpus-Informed
Research and Learning in ESP: Issues and Applications (vol. 52). Amsterdam: John Benjamins.
BOULTON, Alex & TYNE, Henry. (2014). Des documents authentiques aux corpus : démarches pour
BRAUD, Valérie, MILLOT, Philippe, SARRÉ, Cédric & WOZNIAK, Séverine. (2015). « You say you want a
revolution… » Contribution à la réflexion pour une politique des langues adaptée au secteur
LANSAD. Recherche et pratiques pédagogiques en langues de spécialité, 34(1), 46-66. Disponible en ligne
sur <http://apliut.revues.org/5020>.
BRUDERMANN, Cédric, MATTIOLI, Marie-Annick, ROUSSEL, Anne-Marie & SARRÉ, Cédric. (2016). Le
secteur des langues pour spécialistes d’autres disciplines dans les universités françaises :
résultats d’une enquête nationale menée par la SAES. Recherche et pratiques pédagogiques en langues
de spécialité, 35(1), 1-19. Disponible en ligne sur <http://apliut.revues.org/5564>.
CARTER-THOMAS, Shirley & ROWLEY-JOLIVET, Elizabeth. (2001). Syntactic Differences in Oral and
Written Scientific Discourse: The Role of Information Structure. ASp, 31-33, 19-37.
CHAPIER, Claire & O’CONNELL, Anne-Marie. (2015). ESP and ASP in the Domains of Science and Laws
in a French Higher Education Context: Preliminary Reflections. The European Messenger, 24(2),
61-76.
CHARLES, Maggie. (2012). “Proper Vocabulary and Juicy Collocations”: EAP Students Evaluate Do-
It-Yourself Corpus-Building. English for Specific Purposes, 31, 93-102.
CHARLES, Maggie. (2014). Getting the Corpus Habit: EAP Students’ Long-Term Use of Personal
Corpora. English for Specific Purposes, 35, 30-40.
CHARLES, Maggie, PECORARI, Diane & HUNSTON, Susan (dir.). (2009). Academic Writing: At the Interface
of Corpus and Discourse. Londres : Continuum.
CLYNE, Michael. (1987). Cultural Differences in the Organisation of Academic Texts: English and
German. Journal of Pragmatics, 11, 211-247.
COXHEAD, Averil. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213-238.
COXHEAD, Averil. (2017). Approaches and Perspectives on Teaching Vocabulary for Discipline-
Specific Academic Writing. Dans J. Flowerdew & T. Costley (dir.), Discipline-Specific Writing: Theory
into Practice (p. 62-76). Londres : Routledge/Taylor & Francis.
COXHEAD, Averil & HIRSCH, David. (2007). A Pilot Science-Specific Word List. Revue française de
linguistique appliquée, 12(2), 65-78.
DELABROYE, Jean, KÜBLER, Natalie, LEYBOLDT, Edith & PERRET, Robert. (2011). Pour une politique des
langues à l’université. Rapport interne de la Commission Langues, Université Paris Diderot.
DROUIN, Patrick. (2007). Identification automatique du lexique scientifique transdisciplinaire.

Revue française de linguistique appliquée, 12(2), 45-64.
FAURE, Pascaline. (2013). Pour une appropriation de l’enseignement de la grammaire en secteur

LANSAD. Les Langues modernes, 2013(1), 15-22.
FLØTTUM, Kjersti, DAHL, Trine & KINN, Torodd. (2006). Academic Voices: Across Languages and
Disciplines. Amsterdam : John Benjamins.
GARDNER, Dee & DAVIES, Mark. (2014). A New Academic Vocabulary List. Applied Linguistics, 35(3),
305-327.
Lidil, 58 | 2018
27
GLEDHILL, Christopher & KÜBLER, Natalie. (2016). What Can Linguistic Approaches Bring to English
for Specific Purposes? ASp, 69, 65-95.
HAMILTON, Clive E. (2015). Cartographie des erreurs en anglais L2 : vers une typologie intégrant système et
texte (Thèse de doctorat, Université Sorbonne Nouvelle – Paris 3). Disponible en ligne sur
<https://tel.archives-ouvertes.fr/tel-01378302> (consulté le 6 juin 2018).
HAMILTON, Clive E. & CARTER-THOMAS, Shirley. (2017). Competing Influences: The Impact of Mode
and Language on Verb Type and Density in French and English Scientific Discourse. Chimera :
Romance Corpora and Linguistic Studies, 4(1), 13-34.
HA, Althea Y. H. & HYLAND, Ken. (2017). What Is Technicality? A Technicality Analysis Model for
EAP Vocabulary. Journal of English for Academic Purposes, 28, 35-49.
HARTWELL, Laura M. & JACQUES, Marie-Paule. (2014). Authorial Presence in French and English:
“Pronoun + Verb” Patterns in Biology and Medicine Research Articles. Discours, 15. Disponible en
ligne sur <http://discours.revues.org/8941>.
HARDY, Jack A. & ROMËR, Ute. (2013). Revealing Disciplinary Variation in Student Writing: A Multi-
Dimensional Analysis of the Michigan Corpus of Upper-Level Student Papers (MICUSP). Corpora,
8(2), 183-207.
HOLEC, Henri. (1990). Des documents authentiques, pourquoi faire ? Mélanges pédagogiques, 65-74.
HYLAND, Ken. (2000). Disciplinary Discourses: Social Interactions in Academic Writing. Harlow :
Longman.
HYLAND, Ken & TSE, Polly (2007). Is There an “Academic Vocabulary”? TESOL Quarterly, 41(2),
235-253.
JOHNS, Tim. (1991). Should You Be Persuaded: Two Examples of Data-Driven Learning. Dans
T. Johns & P. King (dir.), Classroom Concordancing, English Language Research Journal, 4, 1-16.
KILGARRIFF, Adam, BAISA, Vít, BUŠTA, Jan, JAKUBÍČEK, Miloš, KOVÁŘ, Vojtěch, MICHELFEIT, Jan, RYCHLÝ,
Pavel & SUCHOMEL, Vít. (2014). The Sketch Engine: Ten Years On. Lexicography, 1, 7-36.
KÜBLER, Natalie & FOUCOU, Pierre-Yves. (2000). A Web-Based Environment for Teaching Technical
English. Dans L. Burnard & T. McEnery (dir.), Rethinking Language Pedagogy: Papers from the Third
International Conference on Language and Teaching (p. 65-74). Francfort-sur-le-Main : Peter Lang.
KÜBLER, Natalie & PECMAN, Mojca. (2012). The ARTES Bilingual LSP Dictionary: From Collocation to
Higher Order Phraseology. Dans S. Granger & M. Paquot (dir.), Electronic Lexicography (p. 187-209).
Oxford : Oxford University Press.
NATION, Paul, COXHEAD, Averil, CHUNG, Mihwa & QUERO, Betsy. (2016). Specialized Word Lists. Dans
I. S. P. Nation, Making and Using Word Lists for Language Learning and Testing (p. 145-151).
Amsterdam : John Benjamins.
NESI, Hillary. (2015). ESP Corpus Construction: A Plea for a Needs-Driven Approach. ASp, 68, 7-24.
PAQUOT, Magali. (2010). Academic Vocabulary in Learner Writing: From Extraction to Analysis. Londres
et New York : Continuum.
PECMAN, Mojca. (2007). Approche onomasiologique de la langue scientifique générale. Revue

française de linguistique appliquée, 12(2), 79-96.
POUDAT, Céline & FOLLETTE, Peter. (2012). Corpora and Academic Writing: A Contrastive Analysis of
Research Articles in Biology and Linguistics. Dans A. Boulton, S. Carter-Thomas & E. Rowley-
Lidil, 58 | 2018
28
Jolivet (dir.), Corpus-Informed Research and Learning in ESP: Issues and Applications (p. 167-192).
Amsterdam : John Benjamins.
RENOUF, Antoinette. (1997). Teaching Corpus Linguistics to Teachers of English. Dans

A. Wichmann, S. Fligelstone, T. McEnery & G. Knowles (dir.), Teaching and Language Corpora
(p. 255-266). Harlow : Addison Wesley Longman.
SARRÉ, Cédric & WHYTE, Shona (dir.). (2017). New Development in ESP Teaching and Learning Research.
France : Researchpublishing.net
SWALES, John. (1990). Genre Analysis: English in Academic and Research Settings. Cambridge :
SWALES, John. (2016). Reflections on the Concept of Discourse Community. ASp, 69, 7-19.
TUTIN, Agnès. (2017). Autour du lexique et de la phraséologie des écrits scientifiques. Revue
VAN DER YEUGHT, Michel. (2014). Développer les langues de spécialité dans le secteur LANSAD –
Scénarios possibles et parcours recommandé pour contribuer à la professionnalisation des
formations. Recherche et pratiques pédagogiques en langues de spécialité, 33(1). Disponible en ligne sur
<http://apliut.revues.org/4153>.
NOTES
1. Voir le site internet USPC-PERL <https://perl2018.wixsite.com/perl-uspc>.
2. Voir le site internet MOODLE-PERL <http://perl.uspc.fr/>.
3. Ce corpus a été recueilli dans le cadre d’une thèse de doctorat, voir Hamilton (2015).
4. Le BAWE a été développé dans les universités de Warwick, Reading et Oxford Brookes, avec le
financement de l’ESRC.
5. Le corpus LOCNESS a été réalisé par l’université catholique de Louvain.
6. EIIDA est un projet soutenu par le Labex TransferS, de l’École normale supérieure, Paris
entre 2012 à 2015.
7. Ces parties correspondent à la structure prototypique des articles de recherche dite IMRAD : à
savoir, Introduction, Méthode, Résultats et Discussion.
8. Le logiciel est désormais accessible gratuitement pour les établissements universitaires
européens pour une période de quatre ans à partir de 2018. Voir le site du logiciel
<www.sketchengine.co.uk>.
RÉSUMÉS
Cet article présente deux cas d’expérimentation concrète d’exploitation de corpus dans
l’enseignement de l’anglais de spécialité universitaire, dans des formations hybrides. Nous
adoptons deux approches : l’exploitation de corpus pour enseigner l’anglais de spécialité et
enseigner aux étudiants à utiliser les corpus pour apprendre l’anglais de spécialité, dans une
approche par tâches. Les étudiants ont répondu à des questionnaires dont l’analyse nous a
permis de comparer leurs ressentis et représentations par rapport à une formation nouvelle pour
Lidil, 58 | 2018
29
eux, et leurs productions ont été analysées. Dans cet article, nous nous concentrons sur la
présentation des expérimentations et sur l’analyse des questionnaires, afin de tenter de montrer
concrètement comment exploiter les corpus dans des formations hybrides, mais aussi de tenter
des propositions concrètes pour la formation en anglais des spécialistes d’autres disciplines à
l’université.
This paper describes two task-based experiments using corpora for ESP and EAP blended
learning. Two different approaches have been experimented: exploiting corpora to teach ESP and
teaching to exploit corpora for ESP learning. In order to analyse the students’ attitudes and
representations towards this type of language course, questionnaires were submitted to the
participants and their answers have been analysed. We will focus here on presenting the
experiments and the questionnaire analysis. We aim to show how to use corpora in blended
learning for EAP teaching. We will also make some suggestions for ESP training at university.
INDEX
Mots-clés : anglais scientifique, apprentissage hybride, apprentissage sur corpus
Keywords : academic English, blended learning, data-driven learning
AUTEURS
NATALIE KÜBLER
CLILLAC-ARP, Université Paris Diderot
CLIVE E. HAMILTON
CLILLAC-ARP, Université Paris Diderot
Lidil, 58 | 2018
30
The BAWE Quicklinks Project:

A New DDL Resource for University
Students
Le projet « BAWE Quicklinks » : une ressource nouvelle de DDL pour les
étudiant.e.s d’université
Benet Vincent and Hilary Nesi
Acknowledgements
We would like to acknowledge the helpful and constructive comments provided by the
anonymous reviewers of this paper as well as comments from attendees at the BAAL Corpus
Linguistics Special Interest Group event “New Directions in DDL” held at Coventry University on
8 June 2018. We are also grateful to John Higgins, a former colleague of Tim Johns, and pioneer in
DDL (see e.g. Higgins, 1991) whose presentation at the event drew our attention to DDL resources
and literature we were not previously aware of.
1. Introduction
1 Data-driven learning (DDL) is a method of language teaching and learning which
encourages learners to investigate corpus data and apply it in their own language
learning. While the use of corpora in language teaching has a history that reaches back
to the late 1960s (McEnery & Wilson, 1997; Chambers, 2010), DDL as an approach was
formulated by Tim Johns in the 1980s to help international university students improve
their academic writing. Since then, it has been used in a variety of ways in an attempt
to meet the needs of students (and teachers) in a range of contexts and with different
levels of access to hardware, software and corpora.
2 Tim Johns did not typically expect his students to manage their corpus investigations
on their own; he used DDL in one-to-one consultation sessions where the tutor and
student worked together to resolve specific English for Academic Purposes (EAP)
writing problems and in his “reactive” classroom materials which responded to student
questions (Johns, 1986, 1991a, 1991b). Since then, however, some approaches to DDL
Lidil, 58 | 2018
31
have treated it as a more autonomous activity (e.g. Bernardini, 2004). This has the
advantage of freeing learners to explore corpus resources wherever and whenever they
need to, but it places heavy demands on them, requiring the formulation of appropriate
corpus queries and the interpretation of the results therefrom. For this reason, this
“hard” form of DDL (Gabrielatos, 2005) has tended to be confined mainly to higher
education contexts where learners have advanced language knowledge and good study
skills.
3 Johns reported the results of some of his DDL consultation sessions and answers to
student queries in a series of “kibbitzers”.1 Each kibbitzer outlines an authentic writing
issue, such as the difference between by and using, and presents a solution (and in some
cases activities) based on corpus evidence. This kind of approach has been described as
“soft” DDL (Gabrielatos, 2005), in that kibbitzers do not require access to a corpus, and
are accessible to learners even if they have no corpus query skills. Some EAP
practitioners and materials writers have continued to develop this soft approach,
because it requires fewer resources and places fewer demands on learners, whether
working alone or in a larger class without one-to-one support (Boulton, 2010). “Soft”
corpus-informed lessons can be created relatively easily by printing out some relevant
data, for example in the form of concordance lines, and devising accompanying paper-
based tasks (see, for example, Tribble & Jones, 1990; Johns, 1991a, 1991b). Nevertheless,
the creation of such materials requires both corpus knowledge and sensitivity to
student needs; students also need to be fairly carefully introduced to such tasks and
activities to avoid potential frustration or bafflement (Quinn, 2015).
4 Corpora and corpus-compilation processes have of course greatly changed since Johns
first developed DDL. He used very small homemade corpora, mostly derived from
newspapers and popular science magazines, and a simple non-networked programme
that generated Keyword in Context (KWIC) concordance lines but little else. Most
current corpora are hundreds of times bigger than the ones Johns used, making it
possible to ascertain usage patterns for rarer language items that do not occur
sufficiently frequently in small corpora. Many general corpora are now available online
via software which offer a range of options to search for lexico-grammatical patterns as
well as single words or word combinations. Online publishing and the resulting
increased availability of computer-readable text have also made it easier for teachers
and learners to compile their own corpora. EAP practitioners such as Charles (2007,
2011, 2015), Lee & Swales (2006) and Yoon (2011), for example, have asked students to
compare language choices made in their own writing with those made by professionals,
using research articles gathered from discipline-specific online journals.
5 However, even though DDL can be approached in a variety of ways to suit different
learning contexts, it still continues to meet with resistance from teachers and learners.
This resistance is probably due to the difficulty of finding the right balance between
individual freedom and supportive guidance. Autonomous approaches encourage
learners to consult corpus resources to solve their own individual production problems
as the need arises. Without a teacher there to advise them, however, they may not
know exactly what to look for in the corpus, and they may have difficulty working with
complex corpus interfaces such as those provided by BNCweb and Sketch Engine (see,
for example, Pérez-Paredes, Sánchez-Tornel & Alcaraz Calero, 2013). In contrast, a
more guided approach to DDL is less likely to be tailored to individual needs, and may
be more limited in terms of both quantity and quality because most learners do not
Lidil, 58 | 2018
32
have permanent one-to-one access to a corpus-literate language tutor. Kibbitzers and

classroom activities provide experience in, and help with, the interpretation of corpus
data, but usually address a small number of common problems that are not necessarily
experienced by every learner. Paper-based DDL activities also reduce the opportunity
for the “serendipitous learning” that becomes possible when interacting freely with a
corpus using corpus query tools (Bernardini, 2000, 2004).
6 The success of all types of DDL must also depend on the appropriacy of the chosen
corpus (Aston, 1997; Krishnamurthy & Kosem, 2007). Multi-million word general
corpora can generate an overwhelming amount of data in response to a simple query,
much of which may not be relevant to an EAP learner’s personal academic context.
Resources such as SkELL,2 Just the Word3 or Word and Phrase4 are more user-friendly, but
also tend to draw on general corpora, and therefore do not provide information on the
discipline-specific academic usage that is useful to EAP learners. For some learners, in
particular postgraduates, small, homemade corpora compiled from academic journals
may be a good choice for DDL activities, but research articles are not always the best
model for EAP learners when they are aiming to produce other academic genres, such
as essays, case studies or reflective pieces (Durrant, 2013). Certain lexical items and
turns of phrase are appropriate in some genres but not in others.
7 This paper reports on a DDL initiative which aims to build a database of hyperlinks to
concordances, providing those who teach university students with a resource that the
students can use to help them overcome problems of expression. The aim is also that
students will be encouraged to interact with corpus data autonomously, in their own
time and at their own pace. We also report on some initial responses from a small
group of EAP students whose work has been corrected using the links.
2. Procedure for creating the DDL materials

2.1. Inspiration for the project
8 The technique adopted for this initiative was developed for Writing for a Purpose (WfAP),
a collection of online EAP writing resources created in association with the British
Council and available on their “Learn English” website (see Nesi, Gardner & Kightley,
2015). The idea in WfAP is to illustrate important features of student academic genres
and thereby provide writing guidance to EAP learners. One aspect of this guidance is to
demonstrate typical phraseologies of specific genres by using concordances drawn
from samples of relevant texts. The corpus used was the British Academic Written
English (BAWE) corpus, which contains over 6.5 million words of proficient student
writing in a wide range of genres and disciplines (Nesi & Gardner, 2012 5). This corpus
was an obvious choice for two main reasons. The first of these is that the written genres
WfAP focuses on were the ones identified in the BAWE corpus project, and were
therefore relevant to undergraduates studying in a wide range of disciplines; some
BAWE assignment genres (e.g. research reports and literature surveys) are intended as
preparation for research at higher academic levels, but by no means all university
students go on to pursue academic careers, and other assignment types (e.g. case
studies and problem questions) aim to introduce students to the type of writing they
will have to produce in other walks of life. A second compelling reason for using BAWE
is that, unlike other possible choices—the most obvious being the Michigan Corpus of
Lidil, 58 | 2018
33
Upper-Level Student Papers—this corpus is open access on Sketch Engine, meaning that
it is possible to make use of the powerful query language and sophisticated filtering of
results to create lines like those shown in Figures 1 and 2. 6 Moreover, Sketch Engine
provides an easy-to-use link creation facility (“get short permanent link”) which allows
users to make hyperlinks and direct learners to corpus outputs—concordance,
frequency lists, etc.—exemplifying a particular language feature.
Figure 1. – KWIC concordance lines used in Writing for a Purpose to illustrate conclusion patterns in
Humanities essays.
9 Using this permalink facility, some parts of the Writing for a Purpose resources refer
learners to carefully selected concordance outputs from the BAWE corpus which show
lexical and phraseological features typical of particular types of assignment and with
specific rhetorical functions. For example, the pattern it can / could be assumed / inferred
/ concluded that7 is common in the concluding sections of essays in the Humanities; to
illustrate this pattern, a hyperlink was created to take learners to the concordance
lines from the BAWE corpus shown in Figure 1. Another example is the pattern it is
important / recommended / suggested / vital that, which is frequently used by Business
students in making recommendations in Case Study assignments. Learners interested
in viewing realisations of this pattern can click on a link which takes them to the lines
shown in Figure 2. In both cases, these lines were the result of a painstaking query
construction and then concordance filtering procedure to ensure not only that the
lines in question were relevant, but also that there were not so many of them that
learners would be overwhelmed.
Figure 2. – KWIC concordance lines used in Writing for a Purpose to illustrate Business case study
recommendation patterns.
10 Learners who are directed to these sorts of corpus outputs are being encouraged to
notice for themselves (Rutherford, 1987; Schmidt, 1990) how the typical realisations
that are associated with the meanings involved are patterned in ways that may not be
simply summarised by an abstract “rule” (Boulton & Cobb, 2017). That is, their
attention can be drawn to the types of verbs that occur in the frame it can be * that, or to
the types of words/constructions that precede it (Fig. 1). This means of presentation via
Lidil, 58 | 2018
34
authentic examples may give learners the confidence to use the phraseologies
themselves as well as helping them spot when a writer is drawing a conclusion.
11 This use of hyperlinks to specially selected concordance lines to illustrate common
patterns, as in Figures 1 and 2, need not of course be confined to exemplifying
particular rhetorical functions. This facility can also be used to help learners address
issues in their own writing as and when they occur by inserting hyperlinks and
directing students to concordance lines showing more appropriate usage. By writing
the corpus queries ourselves and selecting relevant lines from those retrieved, we can
circumvent the perennial barriers to effective student use of corpora: lack of
knowledge of complex corpus query language (CQL), and lack of awareness of
phraseological features. This approach can also be of use to EAP practitioners without
corpus expertise, since we can share hyperlinks used to address common student
writing issues.
12 The exploitation of hyperlinks to give students written guidance is suggested as a
means of feedback by Hyland (2003) and explored in more detail by Gaskell and
Cobb (2004), who investigated the efficacy of inserting hyperlinks to concordances to
guide students to correct grammar errors. The concordances used in Gaskell and
Cobb’s (2004) study were retrieved from the Brown corpus using the Lextutor interface;
8
they were interested in the extent to which students benefited from the intervention
and whether students then went on to use the concordancer independently. Our
proposal, we feel, improves on Gaskell and Cobb’s approach in a number of ways.
Firstly, the issues we address are phraseological rather than simply grammatical; they
are generally what Ferris (2002) refers to as “untreatable” in that one cannot simply
look up the answer in a reference work. Secondly, the Sketch Engine interface is
considerably more versatile than the Lextutor one. We might add that the corpus we
use is more appropriate for the target students, as it is more than six times larger, is
more contemporary and is composed of texts that EAP students themselves will write.
Finally, our aim is to create a database of re-usable links that can be shared with other
teachers and lecturers.
2.2. Steps in creating the DDL materials
13 The first step to creating the DDL materials discussed in this paper involves examining
written coursework produced by students studying at undergraduate and Master’s level
in a university in the UK in order to identify recurrent problems that affect
intelligibility and/or communicative force. For each such problem, we then create
queries on the Sketch Engine open-access interface to exemplify more appropriate
usage. The corpus output from these queries is progressively refined until each query
leads to a page containing a relatively manageable number 9 of concordance lines
illustrating typical uses of the relevant pattern. The intention in doing so is that the
corpus data will draw learners’ attention to differences between their own wordings
and those of proficient student writers (often in the same or similar disciplines,
producing the same or similar academic genres), in line with Johns’ original conception
of DDL realised in the form of the kibbitzer (Johns, 1986, 1991b). In order to
demonstrate this procedure, we will now consider an example of an issue addressed,
starting with the instance in a student paper.
Lidil, 58 | 2018
35
14 In this example, the student has written the following clause (emphasis added):
grammar teaching could bring a variety of negative impacts on English study. For proficient
users of English the use of the verb bring here is a very unusual choice when the verb
HAVE is so strongly associated with IMPACT on.10 Having found an apparent
phraseological issue, the next consideration is whether this is worth bringing to this
student’s attention, and, for the purposes of the project, whether this is likely to be an
issue that other learners may encounter—since an important aspect of the initiative is
the re-usability of the links we create. This question can be considered from different
perspectives. One factor is the relative complexity of the phrase in question. Detailed
discussion of how complexity may be judged is beyond the scope of this paper (see e.g.
Sinclair, 2004; Gries, 2008), but clearly this phrase contains a number of elements which
contribute to its potential complexity: HAVE + optional determiner + optional adjective +
IMPACT + on. Another factor worthy of consideration is the frequency of the phrase in
academic use. A search for IMPACT (as a noun) followed by on11 in the BAWE corpus on
Sketch Engine retrieves 714 instances, giving a normalised frequency of around 86 hits
per million words.12 This relatively high normalised frequency provides evidence that it
is worth paying some attention to this phrase (see e.g. Vincent, 2013).
15 Having decided that a particular issue is worth bringing to the attention of a learner or
learners, the next step is to create concordance lines that will make the normal
wording of the pattern or phrase salient. Clearly, this involves considering which
element(s) of the phrase or pattern in this specific case has caused difficulty, i.e. here,
the choice of verb. However, bearing in mind the variability that may be observed in
phrases (Francis, 1993; Philip, 2009), decisions here should also be made regarding
which of the possible variations will be included with respect to the error or issue that
has been identified. Do we view the realisation bring a variety of negative impacts on … in
terms of the abstract phrase HAVE + determiner + adjective + IMPACT + on or consider
specifically instances of negative IMPACT or even simply negative impacts? Such decisions
may depend on a range of factors (considered in Section 4 below), not least initial
findings in the corpus.
16 Frequent users of the Sketch Engine interface will be aware that there are a number of
query options which allow this process to be approached from different angles. The
option chosen will depend on decisions made regarding which elements of the phrase
in question are considered as particularly salient or important. In this case, as noted
already, IMPACT on gives a large number of lines; to limit this number, a “simple” search
for negative impact on was used. To make the pattern of usage more salient, the 45 lines
retrieved in this manner were “left sorted” (i.e. so that words to the left of the node are
in alphabetical order); a sample of these lines is shown in Figure 3.
Lidil, 58 | 2018
36
Figure 3. – Sample of lines retrieved from BAWE using the simple search negative impact on.
17 Having retrieved suitable examples from the corpus, the next stage is to create a
permanent link to the concordance lines using the Sketch Engine hyperlinks facility. 13
This link is then inserted directly into the learner’s assignment in an appropriate place,
with a short accompanying comment;14 the font for the verb bring is also changed to red
to draw attention to its inappropriacy. The idea, then, is for the student to notice the
added comment (in bold typeface), click on the hyperlink and then correct the issue
marked on the assignment, or at least note the issue for future reference.
18 In order to ease the introduction of the links, it seems important that students have
some awareness of concordances and, ideally, the nature of the corpus that is used.
Accordingly, the students who have received feedback in this way have been shown
how the links to Sketch Engine were included in their coursework feedback, and have
been introduced to some of the features of Sketch Engine and the BAWE corpus. This
was preceded earlier in the course with exposure to other corpus-based tools in a
session in which they investigated the potential of SkELL, Just the Word and Word and
Phrase to address similar issues.
19 Assignments we have returned to these students have generally contained between two
and five hyperlinks. In some cases these address all the phraseological problems in the
assignment, but in other cases, where assignments contain a great many errors, we
decided to select only a small number for the hyperlink treatment, so as not to
overwhelm the writers but instead to give them more time for in-depth interaction
with the corpus data, following the approach of Gaskell and Cobb (2004).
3. Advantages of the approach

20 An advantage of this intervention over fixed, paper-based approaches is that the links
lead to interactive Sketch Engine pages. This means that a number of view options are
available: users can sort to the left and right, view full sentences and/or filter for uses
particularly relevant to their own discipline and chosen genre. To show how this works,
we have first provided a sample of lines showing realisations of the pattern HAVE + effect
(on) (which is similar in meaning to have an impact on) in student academic writing in
the sciences, allowing for between one and three intervening words.
21 The lines presented in Figure 4 can help raise awareness of the uses of the pattern in
student writing by showing items that commonly occur between HAVE and effect and
also by indicating the prevalence of on after effect. Figure 5 is a screenshot of some of
Lidil, 58 | 2018
37
the same corpus output as Figure 4 but with a larger context provided for the last
concordance line. This context is revealed by clicking on the node item; it is useful
when concordance lines which are of interest to the learner do not show full sentences
or when a larger context is necessary to decipher the meanings of certain items, e.g.
instances of anaphoric reference.
Figure 4. – Sample of lines retrieved from BAWE using the simple search HAVE * effect.
22 Figure 6, meanwhile, shows some of the same corpus output with details of the level
and first language of the author (one of the student contributors to the BAWE corpus),
and the discipline and genre of the assignment. These details are revealed by clicking
on the bar to the side of the concordance lines.
23 The information provided in Figures 5 and 6 helps students to contextualise the
phraseological information that is available in the concordance lines by providing extra
information that may help them make decisions when using the patterns. However,
this does not exhaust the interactive possibilities for the students who follow the
hyperlinks to Sketch Engine. As noted above, they may choose to sort the lines, either
to the left, the right or by the node itself, which in this case helps show the most
common patterns of determiner and adjective use with HAVE + effect. Having entered the
SketchEngine site, it is also possible that some learners will go on to explore the corpus
using other related searches, although, as Gaskell and Cobb (2004) point out, this will
likely depend on the training they have received in using the interface.
Lidil, 58 | 2018
38
Figure 5. – A selection of KWIC concordance lines for HAVE + effect with context provided for the
last concordance line.
Figure 6. – A selection of KWIC concordance lines for for HAVE + effect showing details of the
author and the text.
24 Most students at British universities study in the medium of English, and do not receive
explicit English language or writing instruction. Moreover, their writing is usually
assessed primarily for content rather than language accuracy/appropriacy. In this
environment lecturers tend to concentrate on imparting disciplinary knowledge rather
than providing language support, so they welcome any means of enabling students to
deal with language issues in their own time, outside class. However, although our
procedure is designed for use by lecturers who cannot spare class time to discuss
linguistic choices with their students, we ran an initial trial with international students
who were taking a course in academic writing, and were receiving a greater than usual
amount of language support. These students were highly motivated learners, as
evidenced by their willingness to study as exchange students in the UK, and they were
sufficiently interested in corpus-informed methods of language teaching and learning
to provide us with thoughtful feedback. Volunteers from this group (n=8) participated
in a focus group where the instructor (one of the authors) asked them whether or not
they found the hyperlinks useful, and to elaborate on any difficulties they faced.
25 The feedback from the students was very positive. The aspects of the intervention that
were consistently mentioned as being helpful were the contextualisation of the phrases
presented, the ease of contrast with their own writing and the numbers of examples
provided. They also claimed that this approach helped their retention of the target
usage. Perhaps the strongest argument in favour of the use of corpora in general, and
the hyperlink approach in particular, was that rather than relying on memorisation or
Lidil, 58 | 2018
39
simply knowing the answer, access to the corpus was seen as providing a tool that the
students could refer to in future. This final point indicates the potential of the
approach; this group of students at least became interested in exploring Sketch Engine
further. It should be borne in mind, however, that the students had already been
introduced to SkELL, Just the Word and Word and Phrase, as part of their academic writing
course; this sort of pre-exposure might well have made them more inclined to
appreciate the benefits of corpus consultation. Clearly, further research is needed to
explore in more depth the responses and attitudes of a wider range of potential student
users.
4. Discussion: creation and classification issues

26 This section discusses some of the issues that have arisen so far, both relating to the
creation of the hyperlinked concordances and in their subsequent classification for re-
use.
4.1. Style vs Grammar
27 Our aim in creating these links is to address phraseological problems in student writing
that affect intelligibility and/or communicative force. A further important focus is on
problems that are likely to recur in the writing of other students, and ones that can be
recognised by students if they refer to the hyperlinked corpus data we supply. The
hyperlinks we create to help with such problems are being categorised and stored, so
that they can be re-used by ourselves, other EAP practitioners, and subject tutors.
28 Not all the problems we encounter can be classed as “errors” in the sense of
grammatical mistakes; some are simply unidiomatic or in an inappropriate register,
often because of the writers’ collocation choices. In the commentaries that accompany
the hyperlinks we therefore have to decide whether to label a usage as “wrong”, and
present a correction, or whether to simply offer suggestions which might enhance
readability and give the impression of greater academic literacy. For example, one
student wrote “In this short essay, there isn’t room to further discuss this important
aspect”. In our view this is grammatically correct but rather unwieldy, or unidiomatic
in the context, as evidenced by the fact that the form “there isn’t room” is not found in
the BAWE corpus. Our reusable hyperlink, <ske.li/ewj>, leads to KWIC concordance
lines which suggest a more appropriate choice of wording, shown in Figure 7.
Figure 7. – A selection of KWIC concordance lines for “beyond the scope of”.
In cases like this, where it is a matter of idiomaticity or appropriacy to context, it might

be sufficient simply to highlight the problematic words and supply a link offering an
alternative usage.
Lidil, 58 | 2018
40
29 On the other hand, students sometimes use prepositions in ways that could be
described as ungrammatical or non-standard. The form comprising of, for example, was
marked as an error in feedback provided to one student; the accompanying hyperlink
<ske.li/ep5> leads to grammatically correct concordance lines, a sample of which are
shown in Figure 8.
Figure 8. – A selection of KWIC concordance lines for comprising.
30 The lines shown in Figure 8 indicate just one way of addressing the non-standard
comprising of. It would also be possible to take a different approach to this mistake, e.g.
by suggesting an alternative verb such as consist which is followed by of 15 or indicating
when the verb comprise may be followed by of.
4.2. Student proficiency
31 Not all the grammatical errors we have found in our data are produced by early-stage
EAP learners; for example, English was the first language of the student who wrote
comprising of. So far, we have found that our approach can be used to provide guidance
to a wide range of novice academic writers, regardless of their first language and their
English language knowledge. At the same time, this range raises the question of the
extent to which it is necessary to adjust the presentation of the feedback and choice of
instances to meet the needs of learners at different proficiency levels.
32 In terms of presentation of lines, it would seem generally advisable to reduce the size of
the concordance sample when creating links for less proficient students, since
otherwise there is a danger they will be overwhelmed by the quantity of data. In our
experience, more proficient students are more tolerant of and even welcome the
provision of greater numbers of lines as they provide greater evidence of usage.
A related issue (discussed above in Section 2.2) is that of the degree of variability in the
pattern that is presented. It seems reasonable to limit the number of different forms
that lower proficiency students are exposed to; a student who uses BRING with negative
impacts on may struggle if too many variations of the pattern HAVE + IMPACT + on are
shown in the concordance lines. However, a more proficient student may be able to
handle a greater degree of variability in the lines, to the extent that they may even find
it useful to see lines including both IMPACT and EFFECT, such as those shown in Figure 9.
In order to make informed choices regarding which lines to present, it may also, of
course, be necessary to carry out a considerable amount of informal research on the
typical realisations of the given pattern.
Lidil, 58 | 2018
41
Figure 9. – Sample of lines showing the pattern HAVE + EFFECT/IMPACT + on.
33 A further issue relating to proficiency levels is one which we have mentioned already:
the number of errors that it is advisable to address in any one piece of work. In student
writing where there are many errors it is not practical or even possible to provide links
to exemplify every error (Gaskell & Cobb, 2004). On the other hand, limiting the
number of hyperlinks to around five may give the student the impression that there
are no further issues to address. Our approach, like other DDL interventions, does not
make any claims to comprehensiveness and does not set itself up as in opposition to
other means of providing feedback on errors. It is meant to be understood and used as a
complementary approach for specific errors and infelicities that are amenable to a
phraseological treatment.
4.3. Generalisability and abstraction
34 Another consideration when composing corpus queries relates to the generalisability of

the outputs which are chosen. Although we intend our links to be reusable by other
practitioners, we also want them to address the writing problems experienced by
individual students. For this reason, it is necessary to find a balance between feedback
that is over-generalised and that which may only apply in one specific context. This is a
question not only of usefulness to students and practitioners but also of a sensible ratio
of time spent creating concordances to the number of uses they may have. This can
again be exemplified by the example of HAVE + IMPACT/EFFECT + on. The lines retrieved to
help the student who used brings instead of has (see Fig. 3) are quite specific in that they
all include negative impact on, but we know that more generally other adjectives and
even other nouns can enter into this pattern. The question here is whether it is better
to create a set of lines such as those shown in Figure 9 or whether to stick to the more
specific and targeted link shown in Figure 3. The answer to this question may depend
on a number of factors, such as student level, student familiarity with concordance
lines and the delicate balance between making a correction obvious and encouraging
the student to look more deeply into a range of possible corrections, requiring more
cognitive processing, an important aspect of DDL (Boulton & Cobb, 2017). There is no
definitive answer to this question, but it is one which we will need to consider when
creating further links.
35 Careful use of CQL should result in concordance lines which show appropriate usage
but (notwithstanding points raised in Section 4.2) allow for intervening words, and for
variations of tense, aspect, voice and number inasmuch as these are found in the
pattern concerned. The lines can then aim to show the function of a pattern in a range
of different sentence types. A related issue which has not received much attention in
this paper, but which is of importance to learners, is that of genre and discipline
specificity. Since the Sketch Engine interface for the BAWE corpus provides the facility
Lidil, 58 | 2018
42
to select specific genres and/or disciplines, there is an argument for limiting searches
in this way when frequently occurring patterns are exemplified.
36 A final aspect relating to generalisability and abstraction concerns the outputs that are
provided in links. So far in this paper we have only discussed the use of concordance
lines but these are of course not the only corpus outputs that might be useful to show
patterns of usage; other possibilities include collocation lists, word sketches or
frequency lists. One useful feature available on Sketch Engine (and indeed many corpus
interfaces) is “Frequency: Node forms”, which lists the types retrieved by a search in
frequency order.
Figure 10. – Screenshot of Frequency: Node forms for ability to followed by infinitive verb.
37 An example of the sort of output the node form frequency facility provides is shown in
Figure 10; the full list is available through this link: <ske.li/e2s>. The advantage of
providing this output over a sample concordance of ability to is that it is immediately
obvious which verbs most commonly occur with ability to; one can even start to classify
types of verb (e.g. verbs relating to producing/making, understanding and communicating).
Moreover, one can easily access the original concordance as well as concordances for
individual verbs from this screen if desired. At present, outputs of this sort (i.e. those
which are not concordance lines) are somewhat under-utilised in our project, which
remains a limitation of the approach, but we are interested in exploiting them more in
future (see next section).
4.4. Towards a classification of hyperlinks created
38 As we have pointed out, the vision for this intervention is not just to help students
address phraseological issues but also to create a searchable bank of hyperlinks for re-
use by us, our colleagues and other interested parties. This is in the spirit of Johns’
(1991b, p. 36) proposal to create “ready-made DDL materials that [teachers] could adapt
with their own students in mind”16 but it should also be noted that these links are not
solely for teachers of English, but are also intended to be used by subject lecturers. The
foregoing discussion has raised issues relating not only to the creation of hyperlinked
concordances but also to their classification for ease of retrieval and re-use. This is an
on-going task, but our category names will need to enable us to identify the style or
grammar issue, and possibly also the student proficiency level, the degree of
abstraction or generalisability, and even perhaps the discipline and/or genre. Our
progress with this classification process is documented on the website of the project,
Lidil, 58 | 2018
43
where issues and their related hyperlinks are stored in entries of the directory, which
practitioners are welcome to consult.17
5. Conclusion
39 We believe that, as well as being within the spirit of DDL, the approach introduced in
this paper has a number of advantages. The first of these is the use of the BAWE corpus,
which contains the type of writing that the students concerned aspire to produce,
rather than web-scraped mega-corpora of “general English” (SkELL) or academic
corpora composed largely of research articles (Word and Phrase – academic component).
A second advantage is ease of access—the multitude of choices and the daunting nature
of corpus interfaces is largely overcome because we conduct the searches in advance
and provide links to pre-filtered concordance lines. The fact that the links are live and
allow for further exploration does not, of course, preclude further “serendipitous
learning” (Bernardini, 2004) and may in fact pique the curiosity of some students to
find out more about how to use the corpora. Finally the fact that the links are provided
in individual feedback allows students to access and learn from them at their own pace.
BIBLIOGRAPHY
Websites referred to
BAWE: <www.coventry.ac.uk/bawe>.
Just the Word: <www.just-the-word.com>.
SkELL: <https://skell.sketchengine.co.uk/run.cgi/skell>.
Sketch Engine Open Corpora: <https://the.sketchengine.co.uk/open/>.
Tim Johns’ kibbitzers (Wang Lixun): <http://ec-concord.ied.edu.hk/TimJohns/>.
Tim Johns’ kibbitzers (WordSmith Tools): <http://lexically.net/TimJohns>.
Word and Phrase: <www.wordandphrase.info>.
Writing for a Purpose: <https://learnenglish.britishcouncil.org/en/writing-purpose/>.
References
ASTON, Guy. (1997). Small and Large Corpora in Language Learning. In B. Lewandowska-
Tomaszczyk & P. J. Melia (eds), PALC ‘97: Practical Applications in Language Corpora (pp. 51–62). Łódź:
Łódź University Press.
BERNARDINI, Silvia. (2000). Systematising Serendipity: Proposals for Concordancing Large Corpora
with Language Learners. In L. Burnard & T. McEnery (eds), Rethinking Language Pedagogy from a
Corpus Perspective (pp. 225–34). Frankfurt am Main: Peter Lang.
BERNARDINI, Silvia. (2004). Corpora in the Classroom: An Overview and some Reflections on Future
Developments. In J. Sinclair (ed.), How to Use Corpora in Language Teaching (pp. 15–38). Amsterdam/
Philadelphia: John Benjamins.
Lidil, 58 | 2018
44
BOULTON, Alex. (2010). Data-Driven Learning. On Paper, in Practice. In T. Harris & M. Moreno Jaén
(eds), Corpus Linguistics in Language Teaching (pp. 17–52). Bern: Peter Lang.
BOULTON, Alex & COBB, Tom. (2017). Corpus Use in Language Learning: A Meta-Analysis. Language
Learning, 67(2), 348–93.
CHAMBERS, Angela. (2010). What Is Data-Driven Learning? In A. O’Keeffe & M. McCarthy (eds), The
Routledge Handbook of Corpus Linguistics (pp. 345–58). London: Routledge.
CHARLES, Maggie. (2007). Reconciling Top-Down and Bottom-Up Approaches to Graduate Writing:
Using a Corpus to Teach Rhetorical Functions. Journal of English for Academic Purposes, 6(4), 289–
302.
CHARLES, Maggie. (2011). Corpus Evidence for Teaching Adverbial Connectors of Contrast: however,
yet, rather, instead and in contrast. In N. Kübler (ed.), Corpora, Language, Teaching, and Resources:
From Theory to Practice (pp. 113–31). Bern: Peter Lang.
CHARLES, Maggie. (2015). Same Task, Different Corpus: The Role of Personal Corpora in EAP
Classes. In A. Leńko-Szymańska & A. Boulton (eds), Multiple Affordances of Language Corpora for
Data-Driven Learning (pp. 131–54). Amsterdam: John Benjamins.
DURRANT, Philip. (2013). Discipline and Level Specificity in University Students’ Written
Vocabulary. Applied Linguistics, 35(3), 328–56.
FERRIS, Dana. (2002). Treatment of Error in Second Language Student Writing. Ann Arbor, MI: The
University of Michigan Press.
FRANCIS, Gill. (1993). A Corpus-Driven Approach to Grammar: Principles, Methods and Examples.
In M. Baker, G. Francis & E. Tognini-Bonnelli (eds), Text and Technology: In Honour of John Sinclair
(pp. 137–56). Amsterdam: John Benjamins.
GABRIELATOS, Costas. (2005). Corpora and Language Teaching: Just a Fling or Wedding Bells?
Teaching English as a Second Language – Electronic Journal, 8(4), 1–35. Available at <https://
files.eric.ed.gov/fulltext/EJ1068106.pdf> (accessed 18 December 2017).
GASKELL, Delian & COBB, Thomas. (2004). Can Learners Use Concordance Feedback for Writing
Errors? System, 32(3), 301–19.
GRIES, Stefan. (2008). Phraseology and Linguistic Theory: A Brief Survey. In S. Granger &
F. Meunier (eds), Phraseology: An Interdisciplinary Perspective (pp. 3–26). Amsterdam/Philadelphia:
John Benjamins.
HIGGINS, John. (1991). Looking for Patterns. In T. Johns & P. King (eds), English Language Research
Journal, 4, 63–70.
HYLAND, Ken. (2003). Second Language Writing. Cambridge: Cambridge University Press.
JOHNS, Tim. (1986). Micro-Concord: A Language-Learner’s Research Tool. System, 14(2), 151–62.
JOHNS, Tim. (1991a). Should You Be Persuaded: Two Examples of Data-Driven Learning. In T. Johns
& P. King (eds), English Language Research Journal, 4, 1–16.
JOHNS, Tim. (1991b). From Printout to Handout: Grammar and Vocabulary Teaching in the
Context of Data-Driven Learning. In T. Johns & P. King (eds), English Language Research Journal, 4,
27–45.
KRISHNAMURTHY, Ramesh & KOSEM, Iztok. (2007). Issues in Creating a Corpus for EAP Pedagogy and
Research. Journal of English for Academic Purposes, 6(4), 356–73.
Lidil, 58 | 2018
45
LEE, David & SWALES, John. (2006). A Corpus-Based EAP Course for NNS Doctoral Students: Moving
from Available Specialized Corpora to Self-Compiled Corpora. English for Specific Purposes, 25(1),
56–75.
MCENERY, Anthony & WILSON, Andrew. (1997). Teaching and Language Corpora (TALC). ReCALL,
9(1), 5–14.
NESI, Hilary & GARDNER, Sheena. (2012). Genres across the Disciplines. Cambridge: Cambridge
University Press.
NESI, Hilary, GARDNER, Sheena & KIGHTLEY, Adam. (2015). Writing for a Purpose. In T. Pattison (ed.),
IATEFL 2014: Harrogate Conference Selections (pp. 145–6). Faversham, Kent: IATEFL.
PÉREZ-PAREDES, Pascual, SÁNCHEZ-TORNEL, Maria & ALCARAZ CALERO, Jose. (2013). Learners’ Search
Patterns During Corpus-Based Focus-on-Form Activities. International Journal of Corpus Linguistics,
17(4), 482–515.
PHILIP, Gill. (2009). Reassessing the Canon: “Fixed” Phrases in General Reference Corpora. In
S. Granger & F. Meunier (eds), Phraseology: An Interdisciplinary Perspective (pp. 95–108).
Amsterdam/Philadelphia: John Benjamins.
QUINN, Cynthia. (2015). Training L2 Writers to Reference Corpora as a Self-Correction Tool. ELT
Journal, 69(2), 165–77.
RUTHERFORD, William. (1987). Second Language Grammar: Learning and Teaching. London: Longman.
SCHMIDT, Richard. (1990). The Role of Consciousness in Second Language Learning. Applied
Linguistics, 11(2), 129–58.
SINCLAIR, John. (2004). Trust the Text. London: Routledge.
TRIBBLE, Chris & JONES, Glyn. (1990). Concordances in the Classroom: A Resource Guide for Teachers.
London: Longman.
VINCENT, Benet. (2013). Investigating Academic Phraseology through Combinations of Very

Frequent Words: A Methodological Exploration. Journal of English for Academic Purposes, 12(1), 44–
56.
YOON, Choongil. (2011). Concordancing in L2 Writing Class: An Overview of Research and Issues.
Journal of English for Academic Purposes, 10(3), 130–9.
NOTES
1. Examples of kibbitzers can be found at <http://lexically.net/TimJohns> and <http://ec-
concord.ied.edu.hk/TimJohns/>.
2. See SkELL: <https://skell.sketchengine.co.uk/run.cgi/skell>.
3. See Just The Word: <www.just-the-word.com>.
4. See Word and Phrase: Frequency Lists <www.wordandphrase.info/frequencyList.asp>.
5. See also British Academic Written English Corpus (BAWE): <http://www.coventry.ac.uk/bawe>.
6. Available at Sketch Engine Open Corpora: <https://the.sketchengine.co.uk/open/>.
7. In the description of phrases and patterns we will use italics to denote wordforms and SMALL
CAPS to denote lemmas.
8. The concordancer is now located here <https://lextutor.ca/conc/eng/> and currently gives
users the option of searching a wider range of corpora than was available to Gaskell and Cobb
in 2004.
Lidil, 58 | 2018
46
9. The number of lines that may be considered “manageable” is a subjective matter and teachers
may want to take into account factors such as student level and previous exposure to
concordances. In many cases, samples of around 20-30 lines have been created. Since the
hyperlink facility is available to all, any user of the link would be able to filter this down further
and create a new link on Sketch Engine if this was thought to be too many.
10. A collocate analysis of lemmas associated with IMPACT on in the BAWE corpus (-5L to -1L,
minimum co-occurrence 3, ranking by logDice values) indicates that HAVE co-occurs in more than
half of all instances; no other verb (except will) is found in the top 50 collocates. As pointed out by
one of our reviewers, this is not the only potentially unidiomatic feature of this instance, but, as
probably the most salient one to a proficient writer of English, it is the one we are focusing on
here.
11. CQL query: [lemma="impact" & tag="N.*"] "on".
12. This does not account for the separation of IMPACT and on in instances such as the impact it had
on her writing (from BAWE document 0063d; emphasis added).
13. This facility is indicated by a “link” icon in Sketch Engine.
14. The comment in this case was“bring” isn’t the usual verb. See here for examples—the hyperlink
was added to the underlined word.
15. Our thanks to a reviewer who pointed this out.
16. We thank one of our reviewers for pointing this out.
17. The quick links of the BAWE web address is <bawequicklinks.coventry.domains>.
ABSTRACTS
This paper outlines a new initiative aimed at integrating concordances and other corpus outputs
into written feedback for learners of English for Academic Purposes (EAP). Although data-driven
learning has by now a 30-year history, it has yet to have a great impact on mainstream pedagogy
despite various claims regarding its efficacy and its benefits in terms of promoting learner
autonomy. This situation may be due to technical barriers to the use of corpora in teaching, in
particular the apparent complexity of most corpus interfaces to the uninitiated. We seek to
circumvent these barriers by creating concordances to help students address their written
errors. These concordances, found in the free-to-use British Academic Written English corpus,
are made available as hyperlinks pasted into student work to help them address their errors by
giving them direct access to instances of proficient academic writing. This paper will outline the
methods used to create the concordances, the types of writing issues that are most amenable to
this treatment and some initial student feedback on the first phase of an ongoing project to
identify and categorise typical phraseological problems in student writing.
Cet article a pour but de présenter une nouvelle initiative visant à intégrer des concordances et
d’autres éléments de corpus dans les réponses fournies aux apprenant.e.s afin qu’ils/elles
puissent remédier aux erreurs de rédaction d’un écrit en anglais sur objectif spécifique. Bien que
l’approche data-driven learning (DDL) existe depuis maintenant 30 ans, elle n’a pas encore eu de
réel impact sur la pédagogie courante, malgré les bénéfices déclarés quant à l’autonomie de
l’apprenant.e. Cette situation peut être due à des obstacles techniques relatifs à l’utilisation de
corpus dans l’enseignement. Les non-initié.e.s peuvent être particulièrement rebuté.e.s par
l’apparente complexité de la plupart des interfaces de corpus. Nous cherchons à remédier à ces
Lidil, 58 | 2018
47
difficultés en créant des concordances permettant aux étudiant.e.s de corriger leurs erreurs. Ces
concordances, extraites du British Academic Written English Corpus et accessibles via des liens
hypertexte collés dans le texte de l’étudiant.e, l’aident à rectifier ses erreurs en lui donnant un
accès direct à des exemples d’anglais universitaire de qualité. Cet article décrit les méthodes
utilisées pour créer ces concordances et les types de problèmes de rédaction que l’on peut traiter
de cette façon. Il inclut aussi les réactions initiales des étudiant·e·s dans le cadre de la première
phase de ce projet actuellement en cours qui vise à identifier et à catégoriser les problèmes
phraséologiques typiques rencontrés par les étudiant·e·s dans leurs travaux écrits.
INDEX
Mots-clés: data-driven learning (DDL), linguistique du corpus, rétroaction écrite, phraséologie,
hyperliens
Keywords: data-driven learning (DDL), corpus linguistics, written feedback, phraseology,
hyperlinks
AUTHORS
BENET VINCENT
Coventry University
HILARY NESI
Coventry University
Lidil, 58 | 2018
48
Routines verbales pour les français

langue étrangère : des corpus
d’experts aux corpus d’apprenants
Verb Routines in L2 French: From Expert to Learner Corpora
Rui Yan, Agnès Tutin et Thi Thu Hoai Tran
1. Introduction
1 Dans cet article, nous nous intéressons aux routines sémantico-rhétoriques, des
phénomènes phraséologiques au croisement de plusieurs domaines : l’analyse du
discours, la phraséologie et la syntaxe. Ces phénomènes relèvent de la « phraséologie
étendue » (Legallois & Tutin, 2013) et renvoient souvent dans l’écrit scientifique et
académique au métadiscours et au métatexte (Tutin & Grossmann, 2014). Ces routines
sont définies comme « des énoncés récurrents construits autour d’un verbe et
d’arguments remplissant différents rôles sémantiques dont une partie est actualisée
dans le discours. Chaque routine peut être associée à une fonction discursive/
rhétorique spécifique » (Tutin & Kraif, 2016, p. 121).
2 Les fonctions que les routines remplissent sont au cœur de l’énonciation et de
l’argumentation dans l’écrit académique : formuler une hypothèse (on peut supposer
que), établir une relation entre une cause et un effet (cette différence s’explique par),
exprimer une prise de position (on s’accorde à/sur), appuyer un argument par une
référence à autrui (comme le souligne X), ou justifier le bienfondé de son interprétation
(ce résultat permet d’affirmer que). La maitrise de ces routines, dont les réalisations
lexicales sont assez diversifiées, permet de faciliter l’intégration des scripteurs dans la
« communauté de discours » des chercheurs (Tutin, 2014). L’étude de ces phénomènes
linguistiques est intéressante à plusieurs titres. Elle permet, d’une part, de mettre en
évidence les stratégies rhétoriques mises en œuvre par les auteurs et de mieux
comprendre les démarches scientifiques élaborées (éléments d’argumentation, critères
de scientificité). D’autre part, elle apparait tout à fait pertinente dans une démarche
Lidil, 58 | 2018
49
d’enseignement de l’écrit académique en langue maternelle ou en langue étrangère, ces

éléments phraséologiques et leur fonction étant souvent mal maitrisés par les
apprentis scripteurs (González-Rey, 2007).
3 Les apprenants du français langue étrangère (ci-après FLE) utilisent-ils à bon escient les
routines dans leurs écrits ? Quelles sont les difficultés rencontrées avec ce
phénomène ? Ces préoccupations nous ont conduites à nous intéresser à ces questions
et à proposer un diagnostic de la maitrise de ces expressions par les apprenants
allophones, dans la perspective d’élaborer des matériaux didactiques adaptés à leurs
besoins.
4 Nous décrirons en premier lieu l’objet de l’étude, les routines dans l’écrit académique, à
travers un ensemble de routines extraites d’un corpus d’écrits scientifiques et
modélisées dans le cadre de la thèse de Yan (2017). En second lieu, nous établirons un
diagnostic des difficultés en deux temps : d’une part, à travers l’analyse des erreurs
d’emploi liées aux routines verbales dans un corpus d’apprenants chinois (corpus Sup-
Chinois) ; d’autre part, à travers la comparaison entre le corpus Sup-Chinois, un corpus
de novices français (corpus Sup-Natifs) et le corpus d’experts francophones
Transdisciplinaire-TermITH, de façon à mettre en évidence les cas de sous-emploi des
routines verbales chez les étudiants chinois par rapport aux natifs. Enfin, dans la
perspective de remédier aux difficultés observées, nous proposons deux types de
ressources pédagogiques destinées à la rédaction académique pour étudiants
allophones, une ressource lexicale intégrant des informations sur les routines et des
activités d’entrainement.
2. Une ressource de routines verbales pour l’écrit

académique
5 Dans le cadre de sa thèse, Yan (2017) a constitué une ressource lexicale intégrant les
patrons verbaux et les routines verbales, permettant la réalisation d’activités
d’apprentissage dans la perspective de l’aide à la rédaction scientifique. À partir du
corpus Transdisciplinaire-TermITH (5 millions de mots), environ 50 verbes du lexique
scientifique transdisciplinaire (LST) fréquents ont été traités (montrer, analyser,
considérer, expliquer, proposer, supposer, etc.). Plus de 100 patrons verbaux et routines
verbales, spécifiques à l’écrit scientifique, y ont été codés.
6 Inscrite dans la linguistique de corpus, l’approche adoptée est fondée sur le modèle
Corpus Pattern Analysis (CPA, analyse des patrons basée sur les corpus) (Hanks, 2013). Ce
modèle visant à analyser les usages réguliers des verbes en contexte, permet d’accéder
aux sens du verbe à travers l’analyse des constructions syntaxiques et des co-
occurrences qui lui sont associées. Cependant, ce modèle est initialement destiné à la
description des verbes anglais de la langue générale. L’étude de Yan se distingue par un
objectif plus spécifique, soit l’analyse des emplois usuels du verbe dans le domaine de
l’écrit scientifique avec une visée didactique. La méthode d’analyse a combiné des
techniques de traitement automatique du langage (TAL) et l’analyse linguistique
manuelle. Elle a été appliquée au corpus Transdisciplinaire-TermITH qui se compose de
500 articles représentant 10 disciplines des sciences humaines et sociales (Hatier
et coll., 2016). L’extraction et la modélisation des routines verbales ont été appliquées à
Lidil, 58 | 2018
50
une liste des verbes établie par Hatier (2016) dans le cadre du projet TermITH 1, selon les
étapes suivantes :
1. Extraction des cadres de sous-catégorisation : pour chaque occurrence verbale, les cadres de
sous-catégorisation2 sont extraits automatiquement par Hatier à l’aide du corpus analysé en
dépendances syntaxiques et regroupées de façon à faire émerger les constructions
syntaxiques les plus fréquentes.
2. Repérage des acceptions : à partir des cadres extraits, Yan repère les acceptions des verbes
du LST qui apparaissent dans le corpus Transdisciplinaire-TermITH en se basant autant que
possible sur la ressource lexicographique Les verbes du français (ci‑après LVF) (Dubois &
Dubois-Charlier, 1997).
3. Classification des verbes et traitement des routines : après avoir relié cadres de sous-
catégorisation et acception, Yan propose une classification des verbes du LST en fonction de
leurs propriétés sémantiques et syntaxiques et procède à la modélisation des routines
verbales par classe de verbes.
7 Considérons les exemples (1, 2, 3) du verbe étudier dans les phrases suivantes :
(1)
En revanche avec les bébés âgés de 4 mois, il nous parait intéressant d’étudier non
seulement le délai court de 30 s mais également la mémoire à long terme après
2 min de délai. (psychologie)
(2)
Pour obtenir un transfert de compétence en sa faveur, la Commission s’empare de
ces analyses. L’exemple de la politique vitivinicole permet ainsi d’étudier le rôle
des chercheurs dans la légitimation des réformes européennes. (sciences politiques)
(3)
Mais la connaissance des élites politiques à l’aide d’une approche relationnelle est
peu étudiée malgré une littérature de qualité sur le thème plus général des élites
politiques africaines que l’on peut regrouper en deux modèles explicatifs.
(sociologie)
8 Le corpus analysé en dépendances syntaxiques nous permet d’obtenir les cadres de
sous-catégorisation suivants :
a. (~ADJMOD)3(~de VINF)étudier_VERB(OBJ -hum) (10 occurrences)
b. (~VerbSup)étudier_VERB(OBJ -hum) (66 occurrences)
c. (OBJ -hum)(PASSIF)étudier_VERB (146 occurrences)
9 Dans le premier cadre, le verbe étudier prend pour objet un nom inanimé et est précédé
d’un adjectif et de la préposition de qui introduit le verbe à l’infinitif. Dans le deuxième
cadre, le code « VerbSup » représente les verbes supports. Ici, le verbe est précédé d’un
verbe modal (permettre, devoir, pouvoir, etc.), comme le montre l’exemple (2). Quant au
troisième cadre, le verbe est utilisé au passif, construction assez fréquente dans le
corpus. À l’issue de l’extraction des cadres, les constructions syntaxiques fréquentes
associées à chaque verbe du LST ont été identifiées.
10 Ensuite, le repérage des « acceptions » constitue l’étape de base de notre modélisation
des routines, les verbes transdisciplinaires étant assez polysémiques. Nous mettons
ainsi en correspondance un cadre et une acception présente dans notre corpus. Pour
qu’une acception soit retenue et considérée comme transdisciplinaire dans le corpus
d’analyse, elle doit apparaitre au moins 20 fois dans au moins 3 des 10 disciplines. Ce
travail est fondé sur la ressource lexicographique LVF4 (Dubois & Dubois-Charlier, 1997)
— une référence linguistique pour l’étude des verbes français — qui se caractérise par
sa large couverture, non seulement en ce qui concerne le nombre de verbes français
Lidil, 58 | 2018
51
répertoriés, mais aussi pour l’exhaustivité des propriétés sémantiques et syntaxiques

consignées. Par exemple, dans les trois cadres de sous-catégorisation présentés plus
haut, ils ont un même sens. Ce sens mobilisé correspond à l’entrée 5 du verbe étudier
dans le LVF, dont la définition est « analyser, évaluer » (par exemple, on étudie un
projet).
11 À l’issue du repérage manuel des acceptions des verbes du LST, nous proposons une
classification sémantique des verbes. Constituée à la manière de Dubois et Dubois-
Charlier (1997), cette classification repose sur une typologie à deux niveaux en classes
et en sous-classes, qui regroupent des verbes ayant des propriétés syntaxiques et
sémantiques similaires. Le verbe étudier, par exemple, appartient à la sous-classe
« #examen » qui signifie « étudier en détail, faire l’analyse de quelque chose pour en
avoir une connaissance approfondie » et apparait soit dans une construction avec un
sujet humain et un objet inanimé, soit dans une construction au passif. Cette sous-
classe « #examen » comporte aussi les verbes examiner, analyser et explorer.
12 Une fois les classes des verbes établies, nous observons les cooccurrences lexicales les
plus significatives de chaque verbe à l’aide de l’outil Lexicoscope 5 (Kraif & Diwersy,
2012) en utilisant un seuil de 5 occurrences. Ces cooccurrences sont ensuite reliées aux
cadres de sous-catégorisations extraits, ce qui permet de faire émerger des routines
verbales. Pour la sous-classe « #examen », on relève ainsi une série de routines
intéressantes (cf. tableau 1), assez spécifiques au genre de l’écrit scientifique.
L’observation du corpus permet de révéler leurs fonctions rhétoriques liées aux
contextes caractéristiques d’argumentation ou d’énonciation dans le discours
scientifique.
Tableau 1. – Exemples des routines verbales – verbes d’examen repérées dans les écrits
scientifiques d’experts (corpus Transdisciplinaire-TermITH).
Routine verbale et nombre d’occurrences dans le Fonctions

corpus Transdisciplinaire-TermITH
1. <nous étudions/examinons/analysons annoncer le plan d’organisation

{d’abord/ensuite/enfin}> (21 occurrences)
2. <si l’on examine/analyse> (19 occurrences) impliquer le lecteur dans l’activité d’examen
pour en faire un témoin
3. <consiste à étudier/examiner/analyser> introduire l’objectif de l’étude

(12 occurrences)
4. <il est {intéressant/important} d’étudier/ attirer l’attention du lecteur et mettre en

examiner/analyser> (10 occurrences) évidence un fait saillant
5. <il {convient/importe} d’étudier> attirer l’attention du lecteur et exprimer la

(18 occurrences) nécessité de l’étude
6. <il s’agit d’étudier/examiner/analyser>

introduire et mettre en avant l’objet d’étude
(22 occurrences)
Lidil, 58 | 2018
52
<{analyse/modèle/exemple} permet
7.
d’étudier/examiner/analyser> établir une relation causale en mettant en
(35 occurrences) évidence le bienfondé de l’étude
13 Comme on peut le constater, dans la première routine, les verbes d’examen prennent
comme sujet le pronom nous qui peut renvoyer à l’auteur (singulier ou collectif). Ici, les
routines se rapportent souvent au processus d’écriture, comme l’illustre l’exemple
suivant (4) :
(4)
Nous examinerons ensuite comment l’identité métisse est une identité
conflictuelle résultant de ces processus contradictoires d’affiliation qui placent les
individus à la frontière des groupes ethniques. (anthropologie_15216)
14 La deuxième routine (exemple 5) intègre le lecteur par le biais du pronom inclusif on et
est utilisée pour l’inviter comme témoin dans l’activité d’examen, de façon à rendre le
discours plus convaincant.
(5)
Pourtant, si l’on examine attentivement cette table de scolarité située dans
l’annexe de l’ouvrage « Population » et l’enseignement […] et partiellement
reproduite ci-dessous (cf. le tableau 1), on note le résultat contraire.
(scienceseducation_3044)
15 Quant à la troisième routine (exemple 6), comportant des verbes d’examen à l’infinitif
introduits par le verbe consister et la préposition à, elle apparait souvent dans
l’introduction de l’article, pour introduire l’objectif de l’étude.
(6)
Au-delà de la simple description, notre travail consiste, dans le cadre d’une
approche ethnographique, à analyser les stratégies par lesquelles un enseignant
expérimenté instaure les règles de la vie scolaire et les effets de son action au plan
didactique. (scienceseducation _9557)
16 Les trois routines (routines 4-6) comportant le pronom impersonnel il servent à
exprimer l’intérêt ou la nécessité de l’étude. La quatrième routine est introduite par un
adjectif de « saillance » (important, intéressant, utile, etc.), comme dans l’exemple (7)
suivant :
(7)
Pour avoir une chance de démêler les implications religieuses dans les diverses
agressions intervenues entre les orthodoxes et les uniates, il est important
d’étudier le langage de la violence manifestée lors de ces épisodes. (histoire_18593)
17 Enfin, la routine causative (exemple 8) est fréquemment introduite par le verbe modal
permettre.
(8)
Ces données permettront d’examiner la propension des systèmes éducatifs
européens à regrouper dans les mêmes écoles des élèves faibles ou défavorisés.
(scienceseducation_57)
18 L’extraction automatique des cadres de sous-catégorisation, associée à l’observation
des contextes textuels et à l’analyse linguistique, permet ainsi de modéliser les routines
verbales et de mettre en évidence les fonctions rhétoriques spécifiques au genre. Dans
une perspective didactique, nous examinerons dans la partie suivante l’emploi des
routines verbales dans les écrits des étudiants allophones.
Lidil, 58 | 2018
53
3. Les routines verbales dans les écrits des étudiants

allophones : vers un diagnostic des difficultés
19 Dans le domaine de l’écrit académique, de nombreuses études ont montré que les
apprenants d’une langue étrangère peinent à manier les éléments phraséologiques
d’une manière fluide et experte (Granger & Paquot, 2009). Différents types d’éléments
phraséologiques ont fait l’objet de ces études, en particulier les collocations
(Nesselhauf, 2005 ; Cavalla, 2015) et les séquences récurrentes (Lake, 2004 ; Paquot,
2010). L’apparition des corpus d’apprenants (Granger et coll., 2015), en particulier pour
l’anglais, a facilité les recherches sur l’écrit académique en permettant, d’une part de
relever les erreurs dans les productions des apprenants, et d’autre part de « cibler des
éléments de langue sous- ou surexploités (comparés aux productions de natifs ou
d’autres apprenants) » (Boulton et coll., 2013, p. 24). Néanmoins, faute de réels corpus
d’apprenants en FLE, les études sur l’utilisation des phénomènes phraséologiques des
apprenants du français sont beaucoup moins nombreuses, hormis quelques études
récentes effectuées autour du projet Scientext : erreurs liées à l’utilisation des
collocations verbales (ex. : mettre comme hypothèse) (Cavalla, 2015), sous-utilisation des
marqueurs discursifs (ex. : en d’autres termes) (Tran, 2014) et des constructions verbales
(ex. : ceci s’explique par) (Hatier & Yan, 2017). À notre connaissance, l’analyse des
difficultés des étudiants allophones en matière de routines verbales n’est pas encore
abordée.
20 Dans la suite de cet article, nous présenterons les corpus utilisés dans le diagnostic puis
le diagnostic des difficultés en deux volets : le repérage des erreurs et les comparaisons
quantitative et qualitative entre les productions des locuteurs natifs et non natifs.
3.1. Les corpus utilisés
21 Pour établir un diagnostic lié à l’utilisation des routines verbales chez les apprenants
chinois par rapport aux scripteurs natifs (novices français et experts), trois corpus sont
utilisés, comme indiqué dans le tableau 2 :
Tableau 2. – Les trois corpus utilisés dans la comparaison.
Corpus Taille Annotation Genre Public Discipline
Transdisciplinaire- 5 000 000 annotation 500 articles experts 10 disciplines

TermITH mots morphosyntaxique, de recherche francophones sciences
annotation en sciences humaines et
syntaxique en humaines sociales
dépendances
Sup-Chinois 600 000 annotation 29 mémoires apprenants FLE

mots morphosyntaxique de recherche chinois
en formation
en M1
Lidil, 58 | 2018
54
Sup-Natifs 460 000 annotation 41 mémoires étudiants didactique du

mots morphosyntaxique de recherche français FLE
en formation
en M1 et M2
22 Dans le cadre de cette étude, nous avons exploité un corpus d’apprenants, appelé Sup-
Chinois, qui se compose de 28 mémoires de masterisants chinois en spécialité de
français (environ 600 000 mots), dont le sujet d’étude porte sur la traduction (9), la
littérature (12), la linguistique (1) ou des thématiques socioculturelles (6). Nous
appuyant sur ce corpus, nous souhaitons relever dans un premier temps les difficultés
liées à l’emploi des routines verbales. Le corpus d’experts, corpus Transdisciplinaire-
TermITH (Hatier et coll., 2016), d’une taille plus conséquente, permet de relever les
routines verbales les plus significatives, comme vu dans la section précédente. Ce
corpus constitue en quelque sorte un modèle d’experts que les scripteurs novices
souhaitent atteindre. Ensuite, à l’instar de Gilquin et Paquot (2008), nous pensons que,
par rapport aux corpus d’experts, les écrits des étudiants natifs fournissent des
données mieux adaptées pour cibler les difficultés des apprenants non natifs dans la
mesure où ils permettent d’effectuer une comparaison d’apprenants de niveau d’étude
équivalent. Nous avons donc aussi utilisé un corpus d’étudiants natifs, le corpus Sup-
Natifs6, composé de 41 mémoires d’étudiants de master (1 et 2) en spécialité didactique
du français. Étant plus proche du corpus Sup-Chinois, notamment aux niveaux de la
taille, du genre et du type de texte, il servira donc de référence pour la comparaison.
23 À l’aide de ces corpus, nous avons repéré les routines récurrentes chez les experts, et
observé par la suite leur fréquence et leur diversité chez les apprenants chinois et les
novices français. Nous passons maintenant au repérage des erreurs dans le corpus Sup-
Chinois.
3.2. Repérage des erreurs liées aux routines verbales
24 Le repérage des erreurs s’est fait manuellement par Yan (2017). Ce travail a été réalisé
sur 10 verbes du LST (choisir, considérer, comparer, décrire, étudier, expliquer, montrer,
noter, proposer, supposer) qui représentent au total 1 593 occurrences dans le corpus Sup-
Chinois. Les verbes retenus sont fréquents et présentent des constructions/fonctions
importantes et variées dans l’écrit scientifique. Dans sa thèse, Yan a relevé 221 erreurs
sur 1 593 occurrences dans l’emploi de ces 10 verbes (les erreurs au niveau
morphologique, au niveau sémantique et des cooccurrences lexicales, au niveau de la
syntaxe, au niveau du registre). Parmi les erreurs relevées, nous nous concentrons ici
sur les erreurs liées aux routines verbales que l’on peut regrouper en deux grands
types : les erreurs au niveau de la syntaxe et du lexique, les erreurs au niveau du
registre.
3.2.1. Les erreurs au niveau de la syntaxe et du lexique
25 Parmi les 221 cas d’erreurs recensés par Yan (2017), 75 erreurs relèvent des structures
syntaxiques erronées, soit 34 % des cas. Il s’agit de l’omission d’un élément dans la
phrase (les exemples 9 et 10), de structures déformées ou inexistantes, ou encore de
formulations maladroites.
Lidil, 58 | 2018
55
(9)
Comme explique l’auteur : « l’élément psychologique, comme l’élément pictural,
se libère insensiblement de l’objet avec lequel il faisait corps… » (littérature_5)
(Correction proposée : comme l’explique l’auteur)
(10)
Le traducteur transmet l’intention de l’auteur original (Il est à noter ici, il ne
comprend que l’intention reçue par le traducteur après la communication avec
l’auteur original…) (traduction_8) (structure erronée : il est à noter qu’ici)
26 Les cas d’omission peuvent être attribuables soit à la négligence des apprenants soit à
une maitrise insuffisante des structures syntaxiques. Dans l’exemple 9, il manque le
pronom le devant le verbe expliquer, qui renvoie à la citation entre guillemets. Dans
l’exemple 10, l’apprenant aurait dû ajouter la conjonction de subordination que pour
introduire la proposition complétive.
27 Dans l’exemple 11, le sujet est absent. La construction pousser à étudier et analyser est
rarement utilisée dans l’écrit scientifique pour établir une relation de causalité. Il
apparait qu’ici l’apprenant manque de moyens linguistiques pour justifier le choix de
son sujet portant sur l’étude du passé simple et de l’imparfait.
(11)
Après avoir lit la lecture de quelques livres linguistiques de Gosselin, Touratier,
Bres, etc., nous pousse à étudier et analyser le passé simple et l’imparfait.
(linguistique_1) (Correction proposée : La lecture des ouvrages de […] nous amène à
nous intéresser à l’étude et à l’analyse du passé simple et de l’imparfait.)
28 Par ailleurs, au-delà des problèmes d’ordre syntaxique, la maitrise insuffisante des
routines verbales dans l’écrit scientifique conduit souvent l’apprenant à construire des
formulations maladroites, comme le montrent les exemples 12 et 13 :
(12)
Se pose alors la question de savoir, comme le considère Gosselin, si le caractère
essentiel de l’imparfait est bien d’être un temps grammatical du passé ou au
contraire… (linguistique_1) (structure erronée : comme s’interroge Gosselin)
(13)
Il est hors de doute que Meschonnic considère la poétique comme une théorie
plus profonde et plus complète que la linguistique. (Correction proposée :
Meschonnic considère…) (traduction_1)
29 Ces derniers exemples peuvent être considérés comme des maladresses puisqu’ils ne
sont pas strictement erronés du point de vue linguistique. Ils montrent que les
apprenants ne disposent pas de moyens linguistiques suffisants pour exprimer
adéquatement certaines fonctions rhétoriques, qu’il s’agisse de faire référence à un
chercheur (exemple 12) ou d’introduire un point de vue personnel moins tranché dans
un discours à visée objectivante (Boch, 2013) (exemple 13). Nous croyons que ces
erreurs ou plutôt maladresses sont attribuables au fait que les apprenants sont peu
familiarisés avec le genre de l’écrit académique, en particulier aux routines spécifiques
ou fréquentes dans ce genre d’écriture.
3.2.2. Les erreurs au niveau du registre
30 Les erreurs au niveau du registre représentent 3,6 % des cas recensés dans Yan (2017)
(8 erreurs sur 221 erreurs recensées). Ces erreurs se rapportent au cas où l’apprenant
emploie une expression ou une structure appartenant à un registre inapproprié, en
mélangeant notamment des usages oraux et écrits. Il est important de souligner que ces
erreurs sont parmi les moins fréquentes, mais nous pensons qu’elles sont plus
Lidil, 58 | 2018
56
problématiques, car elles ne respectent ni la norme linguistique, ni les codes

linguistiques reconnus par la communauté de discours, comme l’illustrent les deux
exemples suivants (14, 15) :
(14)
Quand Simon parle du sentiment de la création de La Route des Flandres, il
explique comme ça : toutes les choses surgissent ensemble dans mon esprit…
(littérature_12) (Correction proposée : il donne les explications suivantes)
(15)
Ce qu’on doit étudier, c’est que dans un modèle ou une circonstance si
centralisée, comment on a un pluralisme d’enseignement, le système des différents
niveaux du grade. (socioculturel_2) (Correction proposée : Dans un modèle […,] il
nous semble important d’étudier comment on peut avoir un enseignement
pluraliste)
31 Ces énoncés ne respectent pas la norme linguistique de la communauté de discours.
L’expression comme ça et la structure ce que… c’est que, très orales, ne sont pas
acceptables dans un écrit académique. Ce type d’erreurs peut être attribuable au fait
que l’apprenant n’est pas suffisamment conscient de la différence entre les usages
oraux et écrits de la langue. Nous pensons que le fait de sensibiliser l’apprenant aux
constructions et aux routines verbales fréquentes et à la notion d’usage dans l’écrit
scientifique permet de réduire ce type d’erreur.
32 D’une manière générale, on voit bien que les erreurs liées à l’utilisation des routines
verbales sont bien présentes pour ce public. Les sources possibles des erreurs relevées
sont assez diverses : l’influence de la langue maternelle, le manque de savoir sur les
propriétés sémantique et syntaxique des verbes français, le manque de connaissances
sur les codes linguistiques dans l’écrit scientifique. Parmi ces causes, nous pensons que
les deux dernières paraissent primordiales. En effet, à notre connaissance, le genre de
l’écrit scientifique ne fait pas l’objet d’un enseignement spécifique pour ce public. Les
apprenants semblent peu familiarisés avec le genre de l’écrit académique, ce qui nous
amène à supposer que les lacunes liées à cette dimension empêchent l’apprenant
d’employer les routines appropriées au genre. C’est pourquoi nous souhaitons aborder
dans la partie suivante l’analyse des cas de sous-emploi afin de mettre en évidence ces
lacunes.
3.3. Analyse des cas de sous-emploi
33 En dehors des erreurs, la langue de l’apprenant se distingue de celle des natifs par des
cas de sous-emploi de mots, d’expressions et de structures syntaxiques (autrement dit
« des spécificités »), lesquels « associés aux erreurs pures et simples, trahissent
l’origine allophone des apprenants » (Granger, 2007, p. 132). En effet, en construisant
leur interlangue, les apprenants peuvent commettre des erreurs grammaticales,
élaborer des traductions spécifiques et sous-employer des mots ou des expressions. Ces
cas se cumulent et se rencontrent fréquemment dans un même paragraphe. Dans le
domaine de l’English for Academic Purposes, ces spécificités sont étudiées de manière
assez systématique, notamment avec la méthode d’analyse Contrastive Interlanguage
Analysis (Granger, 1996) qui consiste à effectuer des comparaisons quantitative et
qualitative entre les productions des locuteurs natifs et non natifs ou celles entre les
différents groupes de locuteurs non natifs. Notre analyse comparative porte sur les
trois corpus présentés plus haut et se rapporte aux routines présentées dans le
tableau 1, illustrées dans le corpus d’experts Transdisciplinaire-TermITH. À titre
Lidil, 58 | 2018
57
d’exemple, nous avons calculé la fréquence relative de ces routines et observé dans un
deuxième temps la fréquence et la diversité de ces routines dans les corpus Sup-Natifs
et Sup-Chinois. Les résultats de comparaison apparaissent dans la figure 1.
Figure 1. – La proportion des routines sous-employées ou absentes chez les apprenants chinois
(en % sur le nombre total de verbes d’examen).
34 De manière générale, l’emploi des routines chez les experts se distingue par une plus
grande diversité. Dans la figure 1, on voit bien que plusieurs routines sont absentes
chez les apprenants chinois : il s’agit de V, consister à V, il convient/importe de V, si l’on V, il
est intéressant/important de V. Notons par ailleurs que les trois dernières routines sont
également absentes chez les novices français. Ces omissions peuvent être liées à des
différences au niveau du genre et de la discipline, mais semblent surtout révéler que les
étudiants français comme les apprenants chinois ont une connaissance limitée de
l’emploi de ces routines verbales. On peut avancer que ces deux publics sont confrontés
à fois à la diversité et à la complexité de ces routines verbales en tant que novices dans
ce genre discursif. Autrement dit, ils n’ont pas à leur disposition les moyens
linguistiques permettant de souligner l’intérêt ou la nécessité de l’étude, mettre en
évidence un fait saillant, etc.
35 En outre, il est intéressant de constater que les deux routines permettre de V et nous V
d’abord/ensuite/enfin sont bien présentes chez les apprenants chinois. Certaines
fonctions rhétoriques comme « annoncer le plan d’organisation » et « établir une
relation causale » posent moins de problèmes pour les apprenants chinois.
En revanche, la fonction de topicalisation (il convient/importe de V, il est intéressant/
important de V, etc.) visant à expliciter ou à mettre en relief le topique ou le focus
(Creissels, 2004) et la fonction de dialogisme (Grossmann & Tutin, 2010) consistant à
impliquer le lecteur (si l’on V) semblent ignorées, non seulement par les apprenants
chinois, mais aussi par les novices français. Ces lacunes peuvent donc s’expliquer par le
fait que ces publics n’ont pas encore construit une représentation précise du
fonctionnement du discours scientifique, étant peu familiarisés avec certaines
fonctions spécifiques au genre.
36 Si l’on observe la proportion des routines il s’agit de V, consister à V, on constate que
l’emploi des routines des novices français se rapproche davantage de celui des experts,
Lidil, 58 | 2018
58
tant en termes de diversité que de fréquence. En fait, ce type de routines qui renvoie
davantage à des procédures est moins complexe du point de vue rhétorique. En outre,
on peut supposer qu’une meilleure maitrise de la langue facilite sans conteste la
rédaction scientifique des étudiants français. Ce n’est pas le cas des étudiants chinois
qui, en outre, n’ont pas appris à argumenter dans le système éducatif chinois et sont
moins sensibilisés au genre textuel de l’écrit scientifique (Bi, 2016). L’exemple (16)
suivant semble confirmer notre hypothèse :
(16)
Il nous vaut mieux de considérer le paysage de la littérature comme une
combinaison de la littérature et le paysage, au lieu de considérer la littérature
comme un miroir solitaire qui ne reflète ou déforme que le monde extérieur.
(littérature_7) (Correction proposée : il nous semble préférable de considérer…)
37 Dans l’exemple (16), il semble que l’étudiant souhaite émettre un jugement. La
construction il nous vaux mieux de considérer est incorrect. Il est donc possible de penser
que l’étudiant ne dispose pas de moyens linguistiques pour exprimer ce sens.
3.4. Synthèse des difficultés
38 L’analyse des erreurs associée au repérage des cas de sous-emploi nous a permis
d’identifier les principales difficultés liées à l’utilisation des routines chez les étudiants
chinois. Ces difficultés peuvent relever de deux niveaux : structures syntaxiques et
fonctionnement discursif des routines. D’abord, les structures syntaxiques des routines
verbales restent une source d’erreurs principales (l’omission d’un élément, structures
inexistantes ou maladroites). Ensuite, il apparait que les étudiants français comme les
apprenants chinois ne maitrisent pas la diversité des routines rhétoriques récurrentes
chez les experts. En effet, les routines verbales sont des éléments phraséologiques
complexes du fait de leurs variations syntagmatiques et de la spécificité des
associations lexicales. L’absence ou le sous-emploi de certaines routines verbales/
fonctions rhétoriques chez les apprenants chinois nous amène à penser que d’une part,
ils ont une connaissance limitée des routines pour exprimer leurs idées, par exemple,
les routines comportant le pronom impersonnel il (il convient/importe de V) semblent
non maitrisées par les apprenants chinois ; et d’autre part, qu’ils ne maitrisent pas
l’emploi de certaines fonctions rhétoriques complexes comme celles qui mettent en jeu
le dialogisme interlocutif et la topicalisation.
39 Si l’on compare les novices français aux apprenants chinois, on observe de réelles
différences. Comme Gilquin et Paquot (2008), nous pensons que les écrits académiques
des étudiants natifs occupent une place intermédiaire entre ceux des apprenants
chinois et ceux des experts. Le statut de novice en matière de rédaction scientifique
confronte de manière comparable les étudiants natifs et non natifs aux difficultés des
routines rhétoriques, en particulier celles qui sont spécifiques au discours scientifique.
Les étudiants natifs connaissent peut-être mieux la langue, mais ne maitrisent pas
encore les normes du genre. Les difficultés sont plus grandes pour les apprenants
chinois, du fait de leur statut d’apprenants du français, qu’il s’agisse des confusions de
registre, des erreurs syntaxiques ou des emplois maladroits.
40 Tenant compte des difficultés relevées, nous souhaitons proposer maintenant des pistes
didactiques pour enseigner les routines verbales et aider les étudiants allophones dans
la rédaction académique.
Lidil, 58 | 2018
59
4. Pistes didactiques
41 Les difficultés des apprenants chinois relèvent non seulement du lexique, mais aussi du
discours. À l’instar de Cavalla (2009), nous pensons que l’acquisition des routines
verbales ne saurait se réduire à l’acquisition d’un savoir sur les formes et leur sens,
mais qu’il faut, en outre, introduire une composante discursive. Par exemple, dans
quelle partie du texte peut-on utiliser les routines ? À quoi servent les routines ? Nos
propositions didactiques visent, d’une part, à aider les étudiants allophones à bien
repérer l’emploi des routines verbales récurrentes dans l’écrit scientifique et, d’autre
part, à les faire réfléchir sur ces éléments dans l’objectif de prendre en compte les
spécificités liées au genre du discours.
42 Notre approche didactique s’inscrit dans les travaux en data-driven learning (DDL) initiés
par Johns (1991). Le DDL vise à donner aux apprenants « un accès direct aux données
linguistiques » et à les placer au cœur de l’apprentissage, ce qui leur permet d’endosser
un rôle de « détective » et de construire par conséquent leurs propres savoirs de façon
inductive (Johns, 1991, p. 30). Selon McEnery et Xiao (2010), le corpus donne accès à une
« approche opérationnelle des trois “i” », c’est-à-dire, « Illustration – Interaction –
Induction » :
Par illustration on entend le fait de présenter à la classe d’étudiants en langues
étrangères des données réelles ; l’interaction concerne la deuxième phase du travail
des étudiants qui échangent leurs opinions et leurs observations ; enfin l’induction
permet à l’étudiant de se créer sa propre « règle » (qui sera affinée au fur et à
mesure que le corpus de données s’élargit) sur le phénomène étudié. (Di Vito, 2013,
p. 160)
43 L’utilisation des corpus en classe de langue n’est pas nouvelle. De nombreuses études
empiriques soulignent que les corpus se révèlent efficaces par rapport à d’autres
formes de pratiques, et ceci, dans différents contextes d’enseignement (Cobb &
Boulton, 2015), dans la mesure où ils facilitent l’accès aux données et favorisent une
activité d’observation et des compétences d’induction. Notre objectif est donc
d’enseigner les routines verbales à l’aide de corpus en classe de FLE. Plus concrètement,
nous avons adopté deux modes d’enseignement à l’aide des corpus en classe proposés
par Fligelstone (1993), à savoir « exploiter les corpus pour enseigner » (exploiting to
teach) ou « apprendre à exploiter les corpus » (teaching to exploit). La première peut se
rapporter aux fins d’utilisation didactique, consistant donc à « exploiter les corpus et
l’interprétation des résultats pour enseigner une langue » (Cavalla & Loiseau, 2014,
p. 165) ; la deuxième vise à former l’apprenant à travailler sur les données des corpus
ou à exploiter les corpus, par exemple, pour apprendre une langue étrangère dans le
cas qui nous intéresse ici.
44 En ce qui concerne l’approche « exploiter les corpus pour enseigner », nous avons
montré dans la section 2 comment l’exploitation du corpus Transdisciplinaire-TermITH
permettait de construire une ressource lexicale sur les routines verbales, qui servira de
matériau pédagogique pour aider les apprenants dans la rédaction scientifique. Cette
ressource regroupe les données d’environ 50 verbes et propose un accès
onomasiologique par fonction rhétorique (Yan, 2017). À l’instar de Pecman et
Kübler (2011), nous considérons que la proposition d’un accès onomasiologique par
fonction discursive est pertinente dans la conception d’un outil d’aide à la rédaction
Lidil, 58 | 2018
60
scientifique. La figure 2 illustre des exemples de routines classées par fonctions

rhétoriques.
Figure 2. – Exemples de routines verbales accompagnées des fonctions rhétoriques.
45 Quant à l’approche « apprendre à exploiter les corpus », il s’agit d’amener l’apprenant à

travailler sur des activités conçues à partir de concordances présélectionnées et de le
guider vers l’exploitation autonome des corpus. Dans cet article, nous souhaitons
proposer des activités à l’aide du corpus Transdisciplinaire-TermITH afin de montrer
comment on peut aborder la question de l’enseignement/apprentissage des routines.
Ce corpus spécialisé a déjà été utilisé pour mettre en place plusieurs types de séquences
didactiques autour des phénomènes phraséologiques (Cavalla, 2009 ; Tran, 2014 ; Yan,
2017). Ces travaux ont montré que l’utilisation du corpus spécialisé selon le DDL est
bénéfique à l’enseignement/apprentissage de l’écrit scientifique. Dans la même ligne
que ces travaux, nous proposons ici deux types d’activités d’enseignement au
croisement de la phraséologie (ici les routines verbales) et de l’écrit académique :
1. L’exploration des routines : de quel type d’expressions s’agit-il et à quoi servent-elles ? (Cf.
activité 1)
2. L’observation des fonctions associées aux routines : quelle place dans le texte pour quelle
fonction ? (Cf. activité 2)
46 Comme le soulignent Cavalla et Loiseau (2014), le travail sur les concordances permet
aux étudiants de mener une réflexion métalinguistique, mettant en jeu une activité
d’observation et des compétences d’induction. L’activité réflexive des apprenants est
essentielle pour les sensibiliser au lexique.
En se posant tout haut les questions qu’il se pose tout bas, c’est-à-dire en laissant
apparaître des traces de ses activités de réflexion sur le nouveau système,
l’apprenant se donne une chance d’aboutir à des réponses, c’est-à-dire de
Lidil, 58 | 2018
61
développer plus efficacement son nouveau système linguistique. (Arditty &

Vasseur, 1996, p. 76-77)
47 L’activité 1 est entièrement métalinguistique. Nous proposons de faire observer aux
apprenants la routine <il est ADJ d’étudier/examiner/analyser> pour qu’ils
comprennent le fonctionnement de la structure syntaxique (cf. tableau 3).
Tableau 3. – Concordancier autour de la routine <il est ADJ d’étudier/examiner/analyser>.
Consigne. – En binôme, observez les phrases et répondez aux questions suivantes.
Contexte gauche Occurrences Contexte droit
il est également les secteurs qui sont porteurs d’enjeux

Au-delà des questions de niveau
important stratégiques, aussi bien en termes
technologique et de savoir-faire
d’analyser politiques qu’économiques.
industriel que nous avons analysées
dans la section précédente,
Dans cette perspective, il est intéressant le modèle de construction du sens proposé

d’examiner par Weick pour un contexte
organisationnel, et d’observer si des
rapprochements sont possibles avec le
modèle de Dervin.
Le pays 1 est plus impatient que il est nécessaire la répartition du capital avant de pouvoir
l’autre, il consomme toute sa d’étudier poser une condition nécessaire et
richesse puis disparait tandis que suffisante sur les paramètres qui assure
l’autre pays devient l’économie que la richesse du pays 2 est initialement
mondiale. positive.
– Quels adjectifs se trouvent avant le verbe ? Connaissez-vous d’autres adjectifs qui

peuvent apparaitre dans ces phrases ? Lesquels ?
– Est-il possible de remplacer le verbe par des synonymes ? Lesquels ?
– Quel est le sens de l’expression il est nécessaire d’étudier ? Elle sert à exprimer une
nécessité ou une évaluation ?
48 Les questions posées doivent guider l’apprenant à repérer la structure. Ensuite, il faut
faire découvrir que cette forme préfabriquée est liée à une liste limitée d’adjectifs et de
verbes. Après avoir repéré la forme, l’enseignant peut demander à l’apprenant de
cerner le sens ou la fonction liée à cette routine.
49 Une autre activité que nous souhaitons mettre en avant consiste à classer les routines
verbales selon leurs fonctions rhétoriques. Nous supposons que l’apprenant les a déjà
travaillées en amont. Cette activité permet à l’apprenant de mieux comprendre à quoi
servent les routines étudiées et de produire sa propre liste lexicale. Dans la figure 3,
nous proposons de classer les formules suivantes dans trois cases différentes selon
leurs fonctions rhétoriques. L’enseignant pourrait également guider les apprenants à
chercher d’autres routines ayant les mêmes fonctions à partir des classes de verbes.
Lidil, 58 | 2018
62
Figure 3. – Exercice de classement sémantique.
50 Nous avons montré que le corpus spécialisé Transdiscplinaire-TermITH permet de

créer du matériel pédagogique sur les routines verbales. Nous avons insisté tout
particulièrement sur le lien entre l’approche inductive et l’introduction du corpus en
classe de FLE en proposant notamment un apprentissage fondé sur l’observation des
phénomènes langagiers pour développer le métalangage des apprenants. Néanmoins,
l’utilisation du corpus selon le DDL en classe de langue représente un enjeu majeur. La
difficulté principale est liée à l’accessibilité cognitive des corpus (Ciekanski, 2014).
En effet, la complexité des outils à maitriser et la présentation de masses importantes
de données peuvent constituer une surcharge cognitive pour les apprenants. Du côté de
l’apprenant, la question du développement de l’autonomie se pose. À l’instar de
Ciekanske (2014), nous pensons que l’un des principaux freins à l’utilisation des corpus
provient de l’enseignant. Il est donc nécessaire de faire comprendre aux enseignants
l’utilité des corpus et de les former à la méthodologie de linguistique de corpus tant sur
les plans théorique, que méthodologique et technique (Kübler, 2014) afin de mieux
guider les apprenants dans leur apprentissage. Les propositions didactiques présentées
ci-dessus pourraient donner quelques pistes et pourront être intégrées dans une
formation d’initiation aux normes universitaires destinée aux étudiants allophones.
5. Conclusion
51 Dans cet article, nos objectifs étaient à la fois linguistiques et didactiques. Nous avons
présenté quelques routines verbales abordées dans la thèse de Yan (2017), mises en
évidence avec une méthode combinant les techniques de TAL et l’analyse linguistique
manuelle. Il a été montré que les routines se caractérisent non seulement par la
diversité des réalisations lexicales, mais aussi par des fonctions rhétoriques spécifiques
du genre.
52 L’analyse des productions des apprenants chinois a révélé que les difficultés liées à
l’utilisation des routines verbales relèvent non seulement des structures syntaxiques,
Lidil, 58 | 2018
63
mais aussi des fonctions rhétoriques associées. Certaines routines et fonctions se

montrent plus complexes que d’autres à maitriser (le dialogisme et la topicalisation),
même pour les novices français, et doivent faire l’objet d’un enseignement spécifique
de l’écrit académique. À partir des difficultés relevées, nous avons proposé des pistes
didactiques pour : 1) favoriser une réflexion métalinguistique sur les routines ;
2) associer les formes lexicales aux fonctions rhétoriques.
53 Sur le plan didactique, nous avons montré l’intérêt des corpus pour plusieurs tâches :
1) pour la construction des ressources lexicales à partir d’un corpus d’experts ; 2) pour
le repérage des difficultés chez les étudiants allophones dans le corpus d’apprenants ;
3) pour enseigner l’écrit académique — repérage du lexique, réflexion métalinguistique,
utilisation de concordances sélectionnées.
BIBLIOGRAPHIE
ARDITTY, Joseph & VASSEUR, Marie-Thérèse. (1996). Les activités réflexives en situation de
communication exolingue. AILE, 8, 57-88.
BI, Xiao. (2016). Rhétorique de la dissertation : étude contrastive des conventions d’écriture académique en
français et en chinois (Thèse de doctorat en didactique des langues et des cultures publiée).
Université Sorbonne Paris Cité.
BOCH, Françoise. (2013). Former les doctorants à l’écriture de la thèse en exploitant les études
descriptives de l’écrit scientifique. Dans F. Komesu & L. Tenani (dir.), Écriture et discours, Revista
Linguagem em (Dis)curso, 3(13), 543-568.
BOULTON, Alex, CANUT, Emmanuelle, GUERIN, Emmanuelle, PARISSE, Christophe & TYNE, Henry.
(2013). Corpus et appropriation de L1 et L2. Linx. Revue des linguistes de l’Université Paris Nanterre,
68-69, 9-32.
CAVALLA, Cristelle. (2009). La phraséologie en classe de FLE. Les Langues modernes, 2009(1).
Disponible en ligne sur <http://www.aplv-languesmodernes.org/…article2292> (consulté le
12 novembre 2017).
CAVALLA, Cristelle. (2015). Collocations transdisciplinaires dans les écrits de doctorants FLS/FLE.
Dans F. Sitri & F. Rinck (dir.), Former à l’écrit universitaire (p. 95-110). Paris : Linx.
CAVALLA, Cristelle & LOISEAU, Mathieu. (2014). Scientext comme corpus pour l’enseignement. Dans
F. Grossmann & A. Tutin (dir.), L’écrit scientifique : du lexique au discours. Autour de Scientext
(p. 163-180). Rennes : Presses universitaires de Rennes.
CIEKANSKI, Maude. (2014). Les corpus : de nouvelles perspectives pour l’apprentissage des langues
en autonomie ? Recherches en didactique des langues et des cultures, 11(1). Disponible en ligne sur
<http://journals.openedition.org/rdlc/1710> (consulté le 17 février 2018).
COBB, Tom & BOULTON, Alex. (2015). Classroom Applications of Corpus Analysis. Dans D. Biber &
R. Reppen (dir.), Cambridge Handbook of English Corpus Linguistics (p. 478-497). Cambridge :
Lidil, 58 | 2018
64
CREISSELS, Denis. (2004). Cours de syntaxe générale. Topicalisation et focalisation (chapitre 17).
Disponible en ligne sur <https://fr.scribd.com/doc/280633674/Creissels-COURS-DE-SYNTAXE-
pdf> (consulté le 5 novembre 2017).
DI VITO, Sonia. (2013). L’utilisation des corpus dans l’analyse linguistique et dans l’apprentissage
du FLE. Linx, 68-69, 159-176.
DUBOIS, Jean & DUBOIS-CHARLIER, Françoise. (1997). Les verbes français. Paris : Larousse-Bordas.
FLIGELSTONE, Steven (1993). Some Reflections on the Question of Teaching, from a Corpus
Linguistics Perspective. ICAME Journal, 17, 97-109.
GONZÁLEZ-REY, Isabel. (2007). La didactique du français idiomatique. Fernelmont : E.M.E.
GILQUIN, Gaëtanelle & PAQUOT, Magali. (2008). Too Chatty: Learner Academic Writing and Register
Variation. English Text Construction, 1(1), 41-61.
GRANGER, Sylviane. (1996). From CA to CIA and Back : An Integrated Approach to Computerized
Bilingual and Learner Corpora. Dans K. Aijmer, B. Altenberg & M. Johansson (dir.), Languages in
Contrast. Text-Based Cross-Linguistic Studies (p. 37-51). Lund University Press : Lund.
GRANGER, Sylviane. (2007). Corpus d’apprenants, annotation d’erreurs et ALAO : une synergie
prometteuse. Cahiers de lexicologie, 91(2), 117-132.
GRANGER, Sylviane & PAQUOT, Magali. (2009). Lexical Verbs in Academic Discourse: A Corpus-
Driven Study of Learner Use. Dans M. Charles, D. Pecorari & S. Hunston (dir.), Academic Writing: At
the Interface of Corpus and Discourse (p. 193-214). Londres : Continuum.
GRANGER, Sylviane, GILQUIN, Gaëtanelle & MEUNIER, Fanny (dir.). (2015). The Cambridge Handbook of
Learner Corpus Research. Cambridge : Cambridge University Press.
GROSSMANN, Francis & TUTIN, Agnès. (2010). Les marqueurs verbaux de constat : un lieu de
dialogisme dans l’écrit scientifique. Dans Actes du colloque « Dialogisme : langue, discours ».
Disponible en ligne sur <www.praxiling.fr/dialogisme-langue-discours.html> (consulté le
22 décembre 2017).
HANKS, Patrick. (2013). Lexical Analysis: Norms and Exploitations. MIT Press.
HATIER, Sylvain. (2016). Identification et analyse linguistique du lexique scientifique transdisciplinaire.

Approche outillée sur un corpus d’articles de recherche en SHS (Thèse de doctorat en sciences du
langage). Université Grenoble Alpes, Grenoble.
HATIER, Sylvain, AUGUSTYN, Magdalena, JACQUES, Marie-Paule, TRAN, Thi Thu Hoai, TUTIN, Agnès &
YAN, Rui. (2016). French Cross-Disciplinary Scientific Lexicon: Extraction and Linguistic Analysis.
Dans T. Margalitadze & G. Meladze (dir.), Lexicography and Linguistic Diversity: Proceedings of the
XVII EURALEX International Congress (p. 355-366). Tbilissi, Géorgie : Ivane Javakhishvili Tbilisi
University Press. Disponible en ligne sur <https://euralex2016.tsu.ge/publication2016.pdf>.
HATIER, Sylvain & YAN, Rui. (2017). Analyse contrastive des patrons verbaux dans l’écrit
scientifique entre scripteurs étudiants et experts. Dans I. Eshkol-Taravella & A. Lefeuvre-
Halftermeyer (dir.), Linguistique de corpus : vues sur la constitution, l’analyse et l’outillage, CORELA,
numéro spécial HS-21. Disponible en ligne sur <http://journals.openedition.org/corela/4879>
(consulté le 20 décembre 2017).
JACQUES, Marie-Paule & RINCK, Fanny. (2017). Un « corpus de littéracie avancée » : résultat et point
de départ. Dans J. David, C. Doquet & S. Fleury (dir.), Spécificités et contraintes des grands corpus de
textes scolaires : problèmes de transcription, d’annotation et de traitement, CORPUS, 16, 217-237.
Lidil, 58 | 2018
65
Disponible en ligne sur <https://journals.openedition.org/corpus/2806> (consulté le 20 décembre

2017).
JOHNS, Tim. (1991). Should You Be Persuaded: Two Examples of Data-Driven Learning. Dans
T. Johns & P. King (dir.), Classroom Concordancing, English Language Research Journal, 4, 1-16.
KÜBLER, Natalie. (2014). Mettre en œuvre la linguistique de corpus à l’université : vers une
compétence utile pour l’enseignement/apprentissage des langues ? Recherches en didactique des
langues et des cultures. Les Cahiers de l’Acedle, 11(1), 37-77.
KRAIF, Olivier & DIWERSY, Sascha. (2012). Le Lexicoscope : un outil pour l’étude de profils
combinatoires et l’extraction de constructions lexico-syntaxiques. Dans G. Antoniadis,
H. Blanchon & G. Sérasset (dir.), Actes de la conférence conjointe JEP-TALN-RECITAL 2012 (vol. 2,
p. 399-406). Grenoble : ATALA & AFCP.
LAKE, John. (2004). Using “On the Contrary”: The Conceptual Problems for EAP Students. ELT
Journal, 58(2), 137-144.
LEGALLOIS, Dominique & TUTIN, Agnès. (2013). Présentation – Vers une extension du domaine de la
phraséologie. Langages, 189(1), 3-25.
MCENERY, Tony & XIAO, Richard. (2010). What Corpora Can Offer in Language Teaching and
Learning. Dans E. Hinkel (dir.), Handbook of Research in Second Language Teaching and Learning
(p. 364-380). Londres : Routledge.
NESSELHAUF, Nadja. (2005). Collocations in a Learner Corpus. Amsterdam : John Benjamins.
PAQUOT, Magali. (2010). Academic Vocabulary in Learner Writing: From Extraction to Analysis. Londres :
Continuum International Publishing Group.
PECMAN, Mojca & KÜBLER, Natalie. (2011). ARTES: An Online Lexical Database for Research and
Teaching in Specialized Translation and Communication. Dans Proceedings from International
Workshop on Lexical Resources (WoLeR) (p. 87-93). Ljubljana, Slovénie.
TRAN, Thi Thu Hoai. (2014). Développement d’une aide à l’écrit scientifique. Description de la phraséologie
scientifique et réflexion didactique pour l’enseignement à des étudiants non natifs (Thèse de doctorat en
sciences du langage). Université Grenoble Alpes, Grenoble.
TUTIN, Agnès. (2014). La phraséologie transdisciplinaire des écrits scientifiques : des collocations
aux routines sémantico-rhétoriques. Dans A. Tutin & F. Grossmann (dir.), L’écrit scientifique : du
lexique au discours. Autour de Scientext (p. 27-44). Rennes : Presses universitaires de Rennes.
TUTIN, Agnès & GROSSMANN, Francis. (2014). L’écrit scientifique : du lexique au discours. Autour de
Scientext. Rennes : Presses universitaires de Rennes.
TUTIN, Agnès & KRAIF, Olivier. (2016). Routines sémantico-rhétoriques dans l’écrit scientifique de
sciences humaines : l’apport des arbres lexico-syntaxiques récurrents. Lidil, 53, 119-141.
YAN, Rui. (2017). Étude des constructions verbales scientifiques dans une perspective didactique :
utilisation des corpus dans le diagnostic des besoins langagiers du FLE à l’aide des techniques de TAL
(Thèse de doctorat en sciences du langage). Université Grenoble Alpes, Grenoble.
Lidil, 58 | 2018
66
NOTES
1. TermITH (Terminologie et Indexation de Textes en sciences Humaines) : ANR-12-CORD-0029
CONTINT. ATILF, INIST, LIDILEM, LINA, INRIA NGE et Saclay : <www.atilf.fr/ressources/termith/>
(consulté le 20 décembre 2017).
2. Les cadres de sous-catégorisation sont un ensemble des relations de dépendances impliquant
le verbe étudié. Le travail de l’extraction des cadres a été effectué par Sylvain Hatier (2016).
3. ~ signifie que le pivot (soit le verbe étudier dans l’exemple) est en position de dépendant.
ADJMOD représente un modifieur adjectival.
4. Il existe en deux versions (papier et électronique) : <http://rali.iro.umontreal.ca/rali/?q=fr/
LVF> (consulté le 2 décembre 2017).
5. Lexicoscope permet d’extraire à la fois des concordances et des lexicogrammes, c’est-à-dire des
tables de cooccurrences ; la technique est basée sur la mesure d’association — le loglike. Il est
accessible en ligne sur <http://phraseotext.u-grenoble3.fr/lexicoscope/index.php>.
6. Il s’agit d’un sous-corpus du corpus Littéracie avancée (Jacques & Rinck, 2017), constitué pour
analyser les compétences rédactionnelles en français langue maternelle à un niveau avancé et
développer, par la suite, des ressources didactiques.
RÉSUMÉS
Dans cet article, qui porte sur l’utilisation des corpus à des fins didactiques, nous abordons les
routines langagières qui sont particulièrement présentes dans les corpus d’écrits scientifiques et
académiques en français et nous présentons les difficultés liées à l’utilisation de ce phénomène
chez les étudiants allophones. L’étude de diagnostic nous permet ensuite de proposer des
exemples d’activités développées à l’aide du corpus Transdisciplinaire-TermITH auprès
d’étudiants allophones.
In this article, which focuses on the use of corpora for didactic purposes, we will discuss the
linguistic routines that are particularly present in scientific and academic writings in French. We
will present the difficulties related to this lexicon amongst non-native speaking students. This
initial diagnostic work then allows us to propose examples of activities for foreign language
students developed with the Transdisciplinaire-TermITH corpus.
INDEX
Mots-clés : linguistique de corpus, routines, fonctions rhétoriques
Keywords : corpus linguistics, routines, rhetorical functions
AUTEURS
RUI YAN
rui.yan@univ-grenoble-alpes.fr
Lidil, 58 | 2018
67
AGNÈS TUTIN
agnes.tutin@univ-grenoble-alpes.fr
THI THU HOAI TRAN

GRAMMATICA, Université d’Artois / LIDILEM, Université Grenoble Alpes
tthoai.tran@univ-artois.fr
Lidil, 58 | 2018
68
Un dictionnaire basé sur corpus

pour une aide à la rédaction
universitaire
A Corpora-Based Dictionary for Academic Writing
Thi Thu Hoai Tran et Achille Falaise
1. Introduction
1 Ce travail s’inscrit dans la lignée de ceux de Tutin (2007), Chambers (2010) et Boulton et
Tyne (2014), qui traitent de l’introduction de corpus dans l’enseignement/
apprentissage du français en tant que langue étrangère. Dans un objectif d’aide à la
rédaction scientifique, nous nous intéressons au lexique transdisciplinaire scientifique
(Tutin, 2010) et plus précisément aux marqueurs discursifs qui servent à structurer le
texte, comme moyen pour aider les apprenants à acquérir les spécificités du discours
académique. En effet, plusieurs études ont relevé des difficultés lexicales des
apprenants pour la rédaction de productions écrites. Les erreurs peuvent être d’ordre
syntaxique ou sémantique (Paquot, 2010 ; Osborne, 1994 ; De Cock, 2004) ou relever de
la combinatoire lexicale (Simard, 1994). Les apprenants rencontrent notamment des
difficultés en utilisant des séquences récurrentes (Howarth, 1998 ; Gledhill, 2000 ;
De Cock, 2004). Cet article porte sur les expérimentations que nous avons menées
auprès des étudiants non natifs afin de les familiariser avec quelques propriétés des
écrits scientifiques en français, en recourant aux avantages des corpus informatisés et
du TAL (Traitement automatique des langues). Nous rejoignons Wray (2002) pour
affirmer qu’une connaissance des éléments phraséologiques fréquents dans ces écrits
permettrait aux étudiants d’acquérir des normes stylistiques d’un genre particulier, et
de mieux s’intégrer dans une communauté.
2 Dans ce travail, nous insistons sur l’importance des corpus dans l’enseignement/
apprentissage des phénomènes langagiers. Depuis les premiers travaux de Johns (1991)
sur le data-driven learning, plusieurs travaux démontrent le rôle des corpus en
Lidil, 58 | 2018
69
didactique des langues (Chambers, 2010 ; Boulton & Tyne, 2014). Les corpus permettent
aux étudiants de travailler sur des données authentiques, et représentent donc pour
eux un réel intérêt. Ces ressources favorisent une prise de conscience des phénomènes
linguistiques (Landure, 2013), un développement de l’autonomisation et la capacité de
responsabilisation.
3 Malgré les avantages des corpus, leur introduction en classe de langue se heurte à de
nombreuses réticences comme l’ont remarqué avec justesse Cavalla et Loiseau (2013).
Ce phénomène s’explique par les difficultés liées aux outils, mais aussi à l’enseignant et
aux apprenants. Premièrement, force est de constater que les corpus ne proposent pas
une exploitation directe des données. Deuxièmement, il manque encore des formations
destinées aux enseignants de FLE (français langue étrangère) sur l’utilisation de ces
outils. Nous sommes de même avis que Johns (1991) et Mauranen (2004) sur le rôle de
l’enseignant pour la réussite de l’utilisation des corpus en classe de langue.
L’enseignant doit avant tout prendre conscience de l’utilité de ces outils. Enfin, une
autre difficulté, d’ordre cognitif, vient des apprenants. Certes, les corpus offrent un
large choix d’exemples, mais la masse d’informations risque d’intimider les apprenants
et de les faire tomber rapidement dans la surcharge cognitive. C’est pourquoi
l’enseignant joue un rôle important dans la sélection des exemples pertinents en
fonction des objectifs d’apprentissage.
4 Notre recherche se situe donc à l’intersection de plusieurs domaines, à savoir la
linguistique de corpus, le TAL, et la didactique du français sur objectif
universitaire (FOU) (Mangiante & Parpette, 2011). Cet article décrit une investigation
visant à trouver une mise à disposition optimale des corpus pour les apprenants et les
enseignants en nous appuyant sur les remarques des utilisateurs. En effet, nous
souhaitons tirer profit des avantages du TAL pour mettre en place une ressource pour
une aide à la rédaction universitaire auprès d’un public allophone. Les
expérimentations que nous avons menées apportent des retours enrichissants pour la
conception d’un outil adaptable à un public FLE aussi bien sur le plan formel que sur le
contenu.
5 Nous présentons dans le cadre de ce travail un outil qui allie les avantages de la
linguistique de corpus, les résultats de l’analyse linguistique et les exploitations
didactiques au service de la rédaction scientifique. C’est dans cette perspective de
permettre au corpus de jouer pleinement son rôle de ressource lexicale que le projet
Dicorpus1 a débuté en 2013 (Tutin & Falaise, 2013 ; Jacques, Hartwell & Falaise, 2013 ;
Falaise, 2013). Nous présenterons dans cet article la plateforme Dicorpus, son
expérimentation et son évolution depuis 2013.
6 Nous allons tout d’abord évoquer quelques dictionnaires existants qui permettent de
différencier notre ressource. Nous passons en revue par la suite la méthodologie de
travail avant de présenter en détail notre outil Dicorpus. Enfin, nous allons décrire
deux expérimentations effectuées qui guideront les futures améliorations de notre
outil.
2. Outils existants
7 À notre connaissance, deux dictionnaires partagent le même objectif que le nôtre, c’est-
à-dire la mise en place d’un outil d’aide à la rédaction. Il nous semble nécessaire
d’analyser l’organisation de ces deux dictionnaires avant d’expliciter le fonctionnement
Lidil, 58 | 2018
70
de notre outil. Il est à noter que les deux dictionnaires ne sont pas accessibles au grand
public.
8 Le dictionnaire ARTES2 (fig. 1) est un outil d’aide à la rédaction et à la traduction en
langues de spécialité, développé par l’équipe de recherche de l’UFR EILA et du CLILLAC-
ARP de l’université Paris Diderot. Ce dictionnaire est constitué dans une perspective
contrastive. Les éléments phraséologiques (les suites de mots) sont organisés d’après
leurs fonctions discursives. Par exemple, pour introduire une transition, l’utilisateur a
à sa disposition quelques exemples correspondants.
9 Ayant la même optique fonctionnelle, le dictionnaire LEAD (Louvain English Academic
Purposes Dictionary − Granger & Paquot, 2010) se compose de 900 mots et expressions,
relevés dans un grand corpus de textes académiques (dont une sélection du British
National Corpus), ainsi que de corpus d’apprenants (English as a Foreign Language) dont la
langue maternelle est, pour une grande majorité, le français. L’objectif principal du
dictionnaire est de mettre à disposition des utilisateurs des moyens linguistiques de
base. En effet, il offre aux utilisateurs une riche description du lexique
transdisciplinaire des écrits scientifiques en anglais et porte essentiellement sur la
phraséologie, en particulier les collocations et les segments répétés.
Figure 1. – Dictionnaire ARTES.
10 Dans le LEAD (fig. 2), les utilisateurs peuvent accéder au dictionnaire par différents
modes comme le mode sémasiologique (de la forme au sens) qui permet d’effectuer une
recherche par le lemme et le mode onomasiologique (du sens à la forme) par le biais d’une
liste des fonctions rhétoriques ou organisationnelles du discours scientifique (au total
18 fonctions). Pour chaque fonction, l’utilisateur peut accéder à une liste des éléments
lexicaux typiques dans le discours scientifique et pour chaque catégorie grammaticale
(noms, verbes, adjectifs, adverbes, conjonctions et prépositions).
Lidil, 58 | 2018
71
11 En outre, l’utilisateur a également la possibilité de choisir sa langue maternelle et de

faire des recherches par des entrées lexicales traduites dans cette langue. Le choix de la
langue maternelle des apprenants joue un rôle important dans l’identification des
erreurs et des problèmes spécifiques de chaque langue. Il sert aussi à analyser les
influences sur la traduction de la langue maternelle à la langue cible. Toutes les erreurs
commises par les apprenants sont enregistrées et signalées par la suite aux apprenants
si ceux-ci choisissent la même langue maternelle.
Figure 2. – Accès onomasiologique dans LEAD (d’après Granger & Paquot, 2010, p. 323).
3. Méthodologie
12 Dans le projet Dicorpus, nous nous appuyons sur quatre ressources, qui seront
détaillées dans cette partie :
• un corpus, dans lequel l’enseignant sélectionne des exemples ;
• la base d’exemples ainsi constituée par l’enseignant ;
• une base de métadonnées lexicographiques concernant ces exemples, créée par
l’enseignant ;
• et enfin l’interface utilisateur Dicorpus, qui permet la consultation, par les apprenants, des
deux bases précédemment citées (exemples et métadonnées associées).
13 Nous avons mené deux expérimentations auprès d’étudiants non natifs pendant deux
années consécutives, en 2015-2016 et 2016-2017, dans l’objectif de comprendre
comment ceux-ci utilisent le Dicorpus, et ainsi de pouvoir proposer par la suite un outil
qui répond au mieux à leurs attentes. La préparation du dictionnaire pour la classe a
été prise en charge par une seule enseignante. Chaque groupe-classe comprend une
vingtaine d’étudiants. Ceux-ci ont passé trois séances à travailler sur Dicorpus en
classe, après quoi ils ont été invités à travailler chez eux sur cet outil. Il est à noter que
les étudiants doivent rendre un devoir qui correspond à une partie textuelle dans un
écrit universitaire, par exemple l’introduction ou la conclusion.
Lidil, 58 | 2018
72
3.1. Le corpus Scientext
14 Le corpus Scientext (Tutin & Grossmann, 2012) est un méta-corpus arboré, annoté avec
l’analyseur Syntex (Bourigault, 2007), et constitué de plusieurs corpus de textes
scientifiques. L’un d’entre eux est particulièrement utile pour le projet Dicorpus ; il
s’agit du corpus de textes scientifiques en français (205 documents, 5 millions de mots).
Ce corpus a été constitué dans le cadre du projet Scientext3, afin d’étudier les marques
transdisciplinaires du positionnement et du raisonnement dans les écrits scientifiques.
15 Ce corpus présente deux caractéristiques intéressantes pour la didactique du français
académique.
16 D’une part, il est représentatif du type de réalisation idéalement attendu des
apprenants. Par exemple, on peut voir que la locution « au passage » à valeur
rhétorique est beaucoup moins utilisée par les apprenants que par les scientifiques
(fig. 3), en comparant le corpus Scientext avec un corpus de mémoires de master de
SHS, rédigés par des apprenants du français (corpus de 39 mémoires, 600 000 mots,
collecté au LIDILEM).
Figure 3. – Fréquence relative de « au passage » à valeur rhétorique dans le corpus d’apprenants du

français et dans les textes de SHS du corpus Scientext (161 documents, 3,9 millions de mots).
17 D’autre part, la phraséologie du discours académique n’est pas homogène, mais varie en
fonction de la disciplines, du sous-genre, ou encore des parties textuelles), et le corpus
Scientext prend en compte ces différences.
18 Ainsi, ce corpus couvre huit disciplines (biologie, électronique, linguistique, mécanique,
médecine, psychologie, sciences de l’éducation et traitement automatique des langues).
Par exemple, la locution « au passage » à valeur rhétorique n’est, d’après notre corpus,
pratiquement jamais utilisée en psychologie, mais est attestée en TAL, en linguistique,
et particulièrement en sciences de l’éducation (fig. 4).
Lidil, 58 | 2018
73
Figure 4. – Fréquence relative de la locution « au passage » à valeur rhétorique dans le corpus

d’apprenants du français (à gauche), et dans quatre disciplines du corpus de textes scientifiques
Scientext.
Figure 5a. – Fréquence relative de la locution « au passage » à valeur rhétorique dans un corpus
d’apprenants (à gauche), et dans trois parties textuelles du corpus de textes scientifiques
Scientext.
19 On observe aussi des différences importantes en fonction du sous-genre textuel

(fig. 5a).
20 La structuration du corpus en parties textuelles (introduction, développement, notes,
conclusion, etc.), permet de cibler les exemples en fonction de ce critère. Toujours avec
notre exemple de « au passage », on constate que cette locution est beaucoup plus
présente dans les notes que dans le reste du texte (fig. 5b).
Lidil, 58 | 2018
74
Figure 5b. – Fréquence relative de la locution « au passage » à valeur rhétorique dans un corpus
d’apprenants (à gauche), et dans trois parties textuelles du corpus de textes scientifiques
Scientext.
21 Le corpus Scientext a ainsi été utilisé dans plusieurs travaux portant sur l’aide à la
rédaction scientifique et à la didactique de l’écrit académique : soit seul,
indépendamment d’une plateforme (Hartwell & Jacques, 2012 ; Cavalla & Loiseau, 2013),
ou bien en lien avec le projet Dicorpus (Tutin & Falaise, 2013 ; Jacques, Hartwell &
Falaise, 2013 ; Falaise, 2013).
3.2. La base d’exemples
22 La plateforme d’exploration linguistique ScienQuest (Falaise, Tutin & Kraif, 2011) a été
initialement développée dans le cadre du projet Scientext. Elle permet d’afficher des
concordances sur corpus, à l’aide d’une interface qui permet d’éviter, dans la plupart
des cas, l’utilisation d’un langage de requêtes, et son ergonomie a été travaillée pour
être accessible à des linguistes sans formation préalable.
23 Dans le cadre du projet Dicorpus, nous avons réalisé une interface spécifique pour les
apprenants (infra « l’interface utilisateur Dicorpus »), mais nous n’avons pas encore
effectué ce travail pour les enseignants, qui doivent utiliser l’interface classique de
ScienQuest pour constituer la base d’exemples.
24 Pour constituer cette base, l’enseignant effectue donc une recherche dans ScienQuest
(étapes 1 et 2 de la fig. 6), puis filtre les résultats qui lui semblent pertinents pour les
apprenants (étape 3). Enfin, l’enseignant sauvegarde cette sélection dans un fichier
qu’il télécharge (étape 4). L’ensemble de ces fichiers constitue la base d’exemples.
Lidil, 58 | 2018
75
Figure 6. – Étapes de la constitution d’une base d’exemples dans ScienQuest.
3.3. La base lexicographique
25 Afin d’organiser la base d’exemples, l’enseignant doit créer un autre fichier, qui
contient les métadonnées de chaque entrée lexicale, telles que la catégorie
onomasiologique (fig. 8), ainsi que les données de la notice linguistique (fig. 10 :
catégorie, position dans la phrase, portée, définition, fréquence, etc.).
26 Techniquement, cette base consiste en un unique fichier au format CSV, que
l’enseignant peut éditer avec un tableur. Chaque ligne correspond à une entrée lexicale
(par exemple la locution adverbiale au passage), et chaque colonne à une métadonnée
(catégorie onomasiologique, catégorie grammaticale, position dans la phrase, etc.).
3.4. L’interface utilisateur Dicorpus
27 L’interface ScienQuest, conçue pour des linguistes, n’est pas adaptée à des apprenants
de langue. C’est pourquoi nous avons commencé à travailler en 2013 sur une interface
« Dicorpus », adaptée aux apprenants (Tutin & Falaise, 2013 ; Jacques, Hartwell &
Falaise, 2013 ; Falaise, 2013), distincte de ScienQuest. Nous rappelons dans cette partie
les grands principes de cette interface, et dans la partie suivante, nous présenterons les
expérimentations que nous avons effectuées, ainsi que les changements fonctionnels
que ces dernières nous ont conduit à opérer depuis 2013.
28 L’interface Dicorpus est organisée en deux grandes parties (fig. 7) :
1. L’interface lexicographique. Il s’agit d’une interface dynamique, qui prend en paramètre une
base lexicographique créée par l’enseignant (cf. section précédente). Elle comprend une
partie « Accès » qui permet à l’apprenant de naviguer dans le lexique jusqu’à l’entrée
recherchée, grâce à des listes en cascade. Cet accès peut s’effectuer soit de manière
Lidil, 58 | 2018
76
onomasiologique (« accès par sens », fig. 8), soit de manière sémasiologique (« accès par
expression », fig. 9). Dans tous les cas, la fréquence de chaque expression est indiquée dans
les menus. La notice linguistique (fig. 10) est affichée à côté du composant d’accès.
2. L’interface corporale (exemples). Dans la première version de Dicorpus, développée en 2013,
il s’agissait de la visualisation standard de ScienQuest, en concordances (comme dans fig. 6,
« filtrer les résultats »). Cette visualisation a évolué dans les versions plus récentes de
Dicorpus, comme nous le décrivons dans la partie suivante.
Figure 7. – Structure de l’interface de Dicorpus.
Figure 8. – Capture d’écran de l’interface de Dicorpus, composant d’accès onomasiologique (dit

« accès par sens » dans l’interface).
Lidil, 58 | 2018
77
Figure 9. – Capture d’écran de l’interface de Dicorpus, composant d’accès sémasiologique (dit

« accès par expression » dans l’interface).
Figure 10. – Notice linguistique.
4. Expérimentations
29 Une première expérimentation sur la didactique de l’anglais 4 a permis de valider
l’intérêt pédagogique de Dicorpus pour croiser des données lexicales et corporales
(Frérot, Rossi & Falaise, 2014). Nous détaillerons ici deux expérimentations qui ont été
effectuées auprès d’étudiants locuteurs non natifs du français, dans le cadre de la
formation du DU FLEPES5, à l’université d’Artois en 2015-2016 et 2016-2017. Ces
étudiants disposent d’un bagage linguistique de niveau faible à moyen (A2 à B1) et
viennent de différents systèmes éducatifs (chinois, vietnamien, libyen, indien,
soudanais, qatari). Cette année de préparation, considérée comme charnière, permet à
ces étudiants d’acquérir un niveau de langue nécessaire pour poursuivre leurs études
l’année suivante en licence ou en master dans des universités françaises. Comme ils
viennent de différentes disciplines (FLE, génie civil, génie électricité, LEA, biologie,
économie, finance, informatique, etc.), les modules mettent l’accent sur une
préparation méthodologique, par exemple la rédaction d’un résumé, une dissertation,
etc. Notre module porte essentiellement sur les écrits universitaires. Plus précisément,
l’objectif de ce module est d’aider les étudiants à prendre en compte les normes
spécifiques « à la française » des rapports de stage ou des mémoires, qu’ils devront
rédiger plus tard dans leur cursus.
Lidil, 58 | 2018
78
30 Ce module s’étend sur une trentaine d’heures et se déroule en deuxième moitié de

l’année préparatoire, et fait suite à des modules sur le résumé, le compte rendu, la
synthèse et la dissertation. Nous avons mis l’accent sur un accès onomasiologique et
une entrée lexicale. Notons que le module est organisé en fonction des spécificités dans
des écrits universitaires, par exemple : formuler la problématique ou l’hypothèse,
introduire une illustration ou un constat, reformuler une idée, etc. En particulier, nous
considérons que les adverbes, principalement les marqueurs discursifs, appelés aussi
les connecteurs logiques, sont des éléments qui facilitent un accès à ces écrits, comme
les marqueurs qui servent à organiser le texte (dans un premier temps, tout d’abord, etc.)
ou les marqueurs d’illustration (par exemple, pour illustrer, etc.).
31 Dans le cadre de nos expérimentations, nous cherchons à comprendre, dans un premier
temps, les manières dont les étudiants utilisent les dictionnaires et leurs stratégies
d’apprentissage. Dans un deuxième temps, nous souhaitons évaluer la perception des
étudiants vis-à-vis de Dicorpus pour mieux répondre aux besoins de ce public. Dans le
cadre de ces expérimentations, nous nous sommes limités à l’enseignement et
l’apprentissage des marqueurs discursifs (désormais MD), les éléments qui servent à
organiser un texte et à structurer un discours. La typologie des MD polylexicaux les
plus fréquents dans les écrits scientifiques et l’analyse linguistique ont été faites dans
une étude antérieure (Tran, 2014). Dicorpus a été introduit dans le cours comme un
moyen pour enseigner les MD, et pour familiariser davantage les étudiants à un
nouveau genre, l’écrit universitaire.
32 À l’issue de ces expérimentations, un questionnaire (annexe 2) a été remis aux
étudiants. Les questions portent sur le comportement des étudiants lors de l’utilisation
du dictionnaire et sur la représentation de Dicorpus. Il est à noter qu’en 2016-2017, un
questionnaire a été distribué en début d’année universitaire avant les formations pour
comprendre les habitudes ainsi que les besoins des étudiants (annexe 1). Nous avons
rassemblé les résultats récoltés de deux années consécutives ; les réponses ont été
analysées quantitativement et qualitativement.
33 Concernant la forme de Dicorpus, 75 % des étudiants l’apprécient par son interface
conviviale et par son utilité, tandis que 25 % la jugent trop simple. Quant à la recherche
des informations sur le dictionnaire, la plupart des étudiants trouvent des informations
nécessaires dans le dictionnaire, par exemple les synonymes, la définition de chaque
expression ou les exemples correspondants. Un étudiant souligne ainsi : « Des exemples
sont excellents et faciles à comprendre. Il n’est pas difficile de trouver des synonymes
des mots6. » (E) Seuls 7 % des étudiants ne trouvent pas les informations nécessaires
dans le dictionnaire.
34 Quant au contenu du dictionnaire, le premier élément qui nous intéresse est lié à la
recherche d’informations. À propos de la recherche d’exemples, à notre surprise, peu
d’étudiants (13 %) trouvent facilement les exemples qui se trouvent en bas de page
(nécessitant de faire défiler la page vers le bas), les autres les ignorent en raison de leur
position. En outre, 40 % des étudiants apprécient la quantité d’exemples, mais les 60 %
restants sont perturbés par leur nombre important et ne savent pas quel exemple
choisir. Un autre point souligné par les étudiants est en lien avec la complexité du
métalangage du dictionnaire, en particulier la notion de = « portée », d’« enchainement
thématique » ou bien de « séquences lexicalisées à fonction discursive ». Pour la
recherche des expressions ou adverbes, certains étudiants suggèrent d’ajouter une
Lidil, 58 | 2018
79
fonctionnalité pour chercher par des mots-clés, de les classer par ordre alphabétique
ou de différencier les catégories par des couleurs différentes.
35 Pour résumer, les étudiants apprécient ce genre de dictionnaire et le trouvent différent
par rapport aux autres dictionnaires numériques. Si l’outil est jugé utile et convivial,
l’ergonomie parait peu claire. Notamment, les étudiants souhaitent avoir une vue
d’ensemble des mots présents dans le dictionnaire. 56 % préfèrent que les exemples
soient filtrés par discipline de spécialité. « Je pense qu’il vaut mieux de choisir quelques
exemples typiques pour faciliter la consultation et la compréhension. Si les étudiants
veulent en regarder davantage, ils peuvent cliquer sur le plus. » (E)
36 L’évolution de Dicorpus concerne à la fois l’aspect technique et la conception de la base
de données, en particulier dans le choix d’un métalangage plus simplifié. Dans la partie
suivante, nous proposons des évolutions de l’outil basées sur ces retours.
5. Évolution de Dicorpus
37 À l’issue de ces expérimentations, nous avons retenu quatre problèmes principaux avec
l’interface de Dicorpus, dans sa version initiale de 2013, pour les apprenants :
• l’affichage en concordances (fig. 6, « Filtrer les résultats ») est perturbante pour des
utilisateurs non linguistes ;
• l’affichage en colonnes des accès sémasiologiques et onmasiologiques (fig. 8 et 9) ne donnent
pas une vue d’ensemble aux apprenants ;
• les liens entre les expressions ne sont pas visibles dans l’interface ;
• le classement des exemples est arbitraire (il s’agit de l’ordre d’apparition dans le corpus).
38 Nous proposons des solutions à ces problèmes, dont certaines sont déjà implémentées.
Il s’agit des améliorations liées à l’affichage des expressions et la navigation entre les
expressions, et aussi à la consultation des exemples.
5.1. Visualisation des exemples
39 La vue en concordances, adaptée pour des linguistes, est très inhabituelle pour des
apprenants en langue. L’affichage KWIC (Key Word In Context) est déroutant et souvent
trop court pour les apprenants, et par ailleurs, la référence exacte de chaque exemple
n’est pas détaillée : seul est affiché un code abstrait identifiant le texte. C’est pourquoi,
à l’issue de la deuxième expérimentation (2015-2016), nous avons décidé de mettre en
place une vue simplifiée pour les apprenants (fig. 11), avec un affichage plus
traditionnel des exemples.
5.2. Vue d’ensemble du lexique
40 Sur le plan lexical (composants d’accès onomasiologique et sémasiologique), le

principal problème que nous retenons porte sur l’affichage en colonnes (fig. 3 et 4), qui
n’offre pas de vue d’ensemble des expressions.
41 En mode d’accès onomasiologique en particulier, la liste des expressions n’est jamais
entièrement visible, puisqu’elles sont réparties dans différents sous-menus. De plus, la
vue en listes ne met pas en avant les relations entre les groupes onomasiologiques ; la
navigation entre les expressions est donc un peu compliquée pour les apprenants.
Lidil, 58 | 2018
80
42 Dans les deux modes d’accès, l’ordre des expressions pose aussi question. Doit-on les
classer par ordre alphabétique, par ordre de fréquence, ou bien, dans le cas de l’accès
sémasiologique, par groupe onomasiologique, c’est-à-dire en regroupant les
expressions partageant la même fonction rhétorique ? On peut décider de laisser
l’utilisateur choisir son critère de tri, mais cela laisse entière la question du choix qui
sera présenté par défaut à l’utilisateur, d’autant plus important que ce dernier ne
pensera parfois pas à le modifier.
43 À l’heure actuelle, nous n’avons pas de réponse concrète à ces questions d’accessibilité
des entrées lexicales. Toutefois, les exemples nous offrent une opportunité de mettre
en place un lien entre les expressions, l’évolution qui sera détaillée dans le point
suivant.
Figure 11. – Vue simplifiée des exemples pour les apprenants.
5.3. Navigation entre expressions
44 Il n’y a actuellement pas de lien entre les expressions dans l’interface, alors que,
notamment dans le cas des connecteurs discursifs, celles-ci fonctionnent souvent de
manière coordonnée.
45 Pour remédier à ce problème, au moins dans les exemples, nous proposons de mettre
en valeur, sous forme de liens hypertextes, dans chaque exemple, toutes les expressions
présentes dans la base, et non plus la seule expression recherchée par l’apprenant.
L’apprenant disposera ainsi d’un troisième mode d’accès aux expressions, passant
directement par les exemples. Cette fonctionnalité sera implémentée dans la prochaine
version de Dicorpus.
5.4. Classement des exemples
46 Dans la première version de Dicorpus, les exemples étaient classés par ordre
d’apparition dans le corpus. Toutefois, nous avons identifié deux types de classements
qui peuvent s’avérer utiles d’un point de vue pédagogique :
1. Un classement en fonction de critères fournis par l’apprenant, comme la discipline ou la
partie textuelle qu’il est en train de rédiger ;
Lidil, 58 | 2018
81
2. Un classement par l’enseignant, afin de mettre en avant les exemples les plus pertinents
— actuellement, l’enseignant peut seulement retirer des exemples, mais ne peut pas classer
les exemples qu’il conserve.
47 Le premier type de classement (par l’apprenant) a pu être implémenté à l’issue de la

troisième expérimentation (2016-2017). À l’avenir, nous souhaitons proposer un
classement par l’enseignant.
48 La solution retenue pour l’instant consiste à mettre en place un panneau de
configuration dans Dicorpus, intégré à partir de ScienQuest, qui permet ainsi de choisir
un ou plusieurs disciplines, type de document, ou partie textuelle (fig. 12).
Figure 12. – Composant de sélection du type de texte et de la partie textuelle de ScienQuest,

intégré dynamiquement dans Dicorpus.
49 Lorsque l’apprenant a configuré les exemples, c’est-à-dire qu’il a retiré les disciplines,
types de documents, ou parties textuelles qui ne l’intéressent pas (ou moins), les
exemples sont triés en fonction de ces critères : ceux qui satisfont tous les critères sont
affichés en premier, puis ceux qui les satisfont tous sauf un, etc. Ainsi, même si la base
ne contient pas d’exemple correspondant exactement à la configuration effectuée par
l’apprenant, des exemples seront néanmoins disponibles.
50 Quant au contenu de notre base de données, suite aux remarques des étudiants, nous
avons opté pour un métalangage plus simplifié qui concerne à la fois les paramètres
dont il faut tenir compte et leur explication. Les notions qui sont jugées compliquées
pour les étudiants sont enlevées, par exemple la « portée » des marqueurs discursifs,
bien qu’il s’agisse d’un élément important pour l’analyse linguistique, qui permet de
définir la zone d’influence de chaque connecteur. En consultant chaque connecteur
logique, l’utilisateur a à sa disposition des informations concernant sa définition, sa
fréquence dans les écrits scientifiques, sa position dans l’énoncé et ses éventuels
synonymes.
6. Conclusion
51 Ce travail tente de démontrer le lien entre l’analyse linguistique et le TAL dans
l’enseignement/apprentissage du lexique. Le dictionnaire Dicorpus représente pour
nous un moyen pour introduire les corpus en classe de langue, aussi bien auprès des
étudiants que des enseignants. Pour l’enseignant, il peut y trouver des exemples pour la
Lidil, 58 | 2018
82
conception de ses cours. Pour les apprenants, le dictionnaire peut être utilisé en totale
autonomie. Les expérimentations effectuées nous permettent d’évaluer comment nous
pouvons adapter le dictionnaire pour mieux répondre aux besoins des étudiants. Dans
l’ensemble, les étudiants semblent apprécier Dicorpus par l’interface et par le contenu
qu’ils peuvent y trouver. Nous avons pris en compte leurs retours et leurs suggestions
pour alimenter quelques fonctionnalités de l’outil. Une autre question qui émerge suite
à ces expérimentations est liée à l’évaluation de leur production écrite, et à l’évaluation
de l’apport de Dicorpus. Nous cherchons à comprendre en quoi Dicorpus peut aider les
étudiants dans la rédaction scientifique. Une autre expérimentation est à envisager
dans cette perspective où nous allons enregistrer les écrans d’ordinateur des étudiants
quand ils travaillent sur Dicorpus, ce qui permettra de vérifier comment ceux-ci
utilisent l’outil quand ils rédigent.
BIBLIOGRAPHIE
BOULTON, Alex & TYNE, Henry (dir.). (2014). Des documents authentiques aux corpus. Démarches pour
BOURIGAULT, Didier. (2007). Un analyseur syntaxique opérationnel : SYNTEX (Mémoire d’habilitation à

diriger des recherches). Université de Toulouse-Le Mirail.
CAVALLA, Cristelle & LOISEAU, Mathieu. (2013). Scientext comme corpus pour l’enseignement. Dans
A. Tutin & F. Grossmann (dir.), L’écrit scientifique : du lexique au discours. Autour de Scientext
(p. 163-180). Rennes : Presses universitaires de Rennes.
CHAMBERS, Angela. (2010). L’apprentissage de l’écriture en langue seconde à l’aide d’un corpus
spécialisé. Revue française de linguistique appliquée, 15, 9-20.
DE COCK, Sylvie. (2004). Preferred Sequences of Words in NS and NNS Speech. Belgian Journal of
English Language and Literatures (BELL), New Series 2, 225-246.
FALAISE, Achille, TUTIN, Agnès & KRAIF, Olivier. (2011). Une interface pour l’exploitation de corpus
arborés par des non-informaticiens : la plate-forme ScienQuest du projet Scientext. Traitement
automatique des langues, 52(3), 103-128.
FALAISE, Achille. (2013). Adaptation de la plateforme corporale ScienQuest pour l’aide à la

rédaction en langue seconde. Dans Actes de TALN 2013, Les Sables-d’Olonne.
FRÉROT, Cécile, ROSSI, Caroline & FALAISE, Achille. (2014). Integrating Selected Corpus Data in the
Classroom: A Case-Study of English NPs for French Students in Specialized Translation. Dans
Proceedings of the 6th International Conference on Corpus Linguistics, Las Palmas de Gran Canaria,
Espagne.
GRANGER, Sylviane & PAQUOT, Magali. (2010). Customising a General EAP Dictionary to Meet
Learner Needs. Dans S. Granger & M. Paquot (dir.), eLexicography in the 21st Century: New Challenges,
New Applications (p. 87-96). Louvain-la-Neuve : Presses universitaires de Louvain.
Lidil, 58 | 2018
83
HARTWELL, Laura & JACQUES, Marie-Paule. (2012). A Corpus-Informed Text Reconstruction Resource for
Learning about the Language of Scientific Abstracts. Communication présentée à la conférence
« EUROCALL 2012 », Göteborg, Suède.
JACQUES, Marie-Paule, HARTWELL, Laura & FALAISE, Achille. (2013). TAL et linguistique de corpus
pour aider la rédaction scientifique en anglais. Dans Actes de TALN 2013 (p. 12-26), Les Sables-
d’Olonne.
JOHNS, Tim. (1991). Should You Be Persuaded: Two Examples of Data-Driven Learning. English
Language Research Journal, 4, 1‑16.
LANDURE, Corinne. (2013). Corpus et dictionnaires : prise de conscience linguistique chez des
apprenants LANSAD. Bulletin VALS-ASLA, 97, 59-76.
MANGIANTE, Jean-Marc & CHANTAL, Parpette. (2011). Le français sur objectif universitaire. Grenoble :
Presses universitaires de Grenoble.
MAURANEN, Anna. (2004). Speech Corpora in the Classroom. Dans G. Aston, S. Bernardini &
D. Stewart (dir.), Corpora and Language Learners (p. 195-211). Amsterdam : John Benjamins.
OSBORNE, John. (1994). La cohésion dans les productions écrites d’étudiants en anglais de
spécialité : un problème culturel ? ASp (la revue du GERAS), 5-6, 205-216.
PAQUOT, Magali. (2010). Academic Vocabulary in Learner Writing: From Extraction to Analysis.
Londres-New York : Continuum International Publishing Group.
SIMARD, Claude. (1994). Pour un enseignement plus systématique du lexique. Québec français, 92,
28-33.
TRAN, Thi Thu Hoai (2014). Développement d’une aide à l’écrit scientifique. Description de la phraséologie
scientifique et réflexion didactique pour l’enseignement à des étudiants non natifs (Thèse de doctorat en
sciences du langage – spécialité français langue étrangère). Université Grenoble Alpes, Grenoble.
TUTIN, Agnès. (2010). Sens et combinatoire lexicale : de la langue au discours (Thèse d’habilitation à
diriger des recherches). Université Stendhal-Grenoble 3, Grenoble.
TUTIN, Agnès (2007). Autour du lexique et de la phraséologie des écrits scientifiques. Revue
TUTIN, Agnès & GROSSMANN, Francis (dir.). (2012). Autour du corpus Scientext : de la constitution d’un
corpus d’écrits scientifiques à l’étude des marques du positionnement et du raisonnement. Rennes :
Presses universitaires de Rennes.
TUTIN, Agnès & FALAISE, Achille. (2013). Multiword Expressions in Scientific Discourse: A Corpus-
Driven Database. Dans Actes de eLex 2013, Tallinn, Estonie.
WRAY, Alison (2002). Formulaic Sequences and the Lexicon. Cambridge : Cambridge University Press.
ANNEXES
ANNEXE 1
Questionnaire 1. – Évaluation d’un dictionnaire d’aide à la rédaction universitaire
Pour répondre aux questions dans cette partie, veuillez consulter l’adresse suivante :
http://dicorpus.aiakide.net/ht/?b=base_marqueurs_dicorpus.
Lidil, 58 | 2018
84
Il s’agit d’un dictionnaire créé par notre équipe pour vous accompagner dans la
rédaction de rapport de stage ou de mémoire. Pour chaque connecteur logique, vous
avez des informations concernant sa catégorie syntaxique, sa fréquence, etc.
1.1. Comment trouvez-vous l’interface de ce dictionnaire ?
□ Sympa, convivial
□ Trop simple
Quelles sont vos suggestions d’amélioration ? …………………………………………………………
Pour chercher des informations pour le mot « d’abord », suivez le chemin suivant :
Mode d’accès : Accès par sens > Pour exprimer : une énumération > Expression :
d’abord. Observez le tableau de la catégorie, la position dans la phrase, etc. et les
exemples en bas de la page. Il s’agit des exemples extraits des articles scientifiques.
Cliquez sur « d’abord » dans le tableau des exemples, vous pouvez visualiser un
contexte plus large.
Vous pouvez renouveler les mêmes recherches pour d’autres connecteurs logiques.
1.2. Est-ce que vous trouvez les informations nécessaires en consultant ce
dictionnaire ?
□ Oui
□ Oui, mais pas tout
□ Non
(Veuillez préciser) car vous cherchez essentiellement ………………………………………………
1.3. Cliquez à Mode d’accès : Accès par sens > Pour exprimer : enchainement
thématique > Sous catégorie : insister sur une idée > Expression : à ce propos
Est-ce que ces notions sont faciles à comprendre ? (enchainement thématique, insister
sur une idée, etc.) (Plusieurs réponses sont possibles)
□ Oui, je les comprends
□ Non, je ne les comprends pas, car
□ Les termes sont compliqués.
□ Je ne comprends pas ce que signifie « insister sur une idée ».
1.4. Est-ce que vous comprenez la différence entre les deux modes d’accès « Accès par
sens » et « Accès par expression » ?
□ Oui
□ Oui, un peu, je comprends
que ……………………………………………………………………………………
□ Non, je ne comprends pas très bien. À mon avis, ça signifie : ………………………………….
1.5. Sur la forme, comment trouvez-vous les exemples proposés en bas de page ?
□ Un peu difficile de les trouver, car il faut descendre la page.
□ Pas difficile.
1.6. Sur le fond, est-ce que vous avez trouvé les exemples que vous souhaitez ?
□ Oui, il y a beaucoup d’exemples, c’est très bien.
□ Non, il y a trop d’exemples, je ne sais pas quel exemple choisir.
Lidil, 58 | 2018
85
1.7. Quelle est votre impression générale en consultant ce dictionnaire ? (Plusieurs

réponses sont possibles)
□ C’est très bien d’avoir ce genre de dictionnaire.
□ Je souhaite que ce soit plus convivial.
□ Je souhaite que les exemples soient filtrés par discipline, je veux consulter
uniquement les exemples dans ma discipline de spécialité.
□ Votre propre suggestion : ………………………………………………………………………………………
ANNEXE 2
Questionnaire 2. – Évaluation d’un dictionnaire d’aide à la rédaction universitaire
1. Quels sont les dictionnaires que vous utilisez quand vous rédigez ?
2. Comment trouvez-vous l’interface de ce dictionnaire ? (sympa, convivial, trop simple,
etc.)
Quelles sont vos suggestions d’amélioration ? …………………………………………………………
3. Quelles sont les informations que vous avez trouvées en consultant ce dictionnaire ?
4. Quelles sont les notions les plus compliquées pour vous dans ce dictionnaire ?
5. Quelle est votre impression générale en consultant ce dictionnaire ? (difficile à
consulter, trop d’exemples, utile mais manque de dynamisme, etc.)
Votre propre suggestion : …………………………………………………………………………………
6. Quels sont vos objectifs en vous inscrivant à ce DU ? Quelles sont vos appréciations
en suivant cette formation ?
NOTES
1. <https://dicorpus.aiakide.net>.
2. ARTES (Aide à la rédaction des textes scientifiques) : <https://artes.eila.univ-paris-diderot.fr/
>.
3. Projet ANR Scientext piloté par Agnès Tutin et Francis Grossmann (2006-2010), adresse du
projet Scientext : <http://scientext.msh-alpes.fr/scientext-site/spip.php?article1>.
4. En utilisant le corpus de textes scientifiques anglais du méta-corpus Scientext.
5. Diplôme universitaire français langue étrangère pour la préparation aux études supérieures.
6. Les phrases entre guillemets sont les appréciations des étudiants, certaines formulations ont
été corrigées grammaticalement.
RÉSUMÉS
Nous présentons dans cet article Dicorpus, un prototype permettant d’associer une base lexicale
et un corpus en français, les expérimentations que nous avons menées sur cet outil auprès
Lidil, 58 | 2018
86
d’étudiants apprenant le français, et les modifications effectuées sur cet outil en réponse aux
besoins mis en évidence au cours des expérimentations.
This paper introduces Dicorpus, a prototype allowing the association of a French lexical base and
corpus, the experiments that we conducted on this tool with students learning French, and the
modifications made on this tool in response to the needs highlighted during the experiments.
INDEX
Mots-clés : Dicorpus, rédaction scientifique, FLE
Keywords : Dicorpus, academic writing, FFL
AUTEURS
THI THU HOAI TRAN
GRAMMATICA, EA 4521, Université d’Artois
ACHILLE FALAISE
ICAR, UMR 5191, CNRS / LLF, UMR 7110, CNRS
Lidil, 58 | 2018
87
Corpus-Based Teaching of German

Compound Nouns and Lexical
Bundles for Improving Academic
Writing Skills
Enseignement sur corpus des noms composés et des ensembles lexicaux pour
améliorer les compétences en rédaction académique en allemand
Marina Kogan, Anna Yaroshevich and Olga Ni
Acknowledgements
We would like to acknowledge the DAAD lecturer Rayk Olhöft for his invaluable help at the
preliminary stage of the experiment, our German colleagues from LUH Dr Sigrun Schroth-
Wiechert and Anna Tilmans, and Dr Vitor Zakharov from St Petersburg State University for their
support during this research and discussion of its results.
The authors also express their gratitude to the guest editors for comments on an earlier version
of this paper.
1. Introduction
1 Foreign language teaching in Master’s degree engineering programs at Peter the Great
St Petersburg Polytechnic University (SPbPU) reflects the main trends in language
learning for professional purposes in universities of Russia. In Bachelor’s degree
engineering programs, students learn foreign languages only over two years, which
does not provide sufficient opportunities for language learning. Master’s degree
engineering programs require a foreign language course of two academic hours a week
within one semester. Within this four-month period, students are expected to master
both general language and language in their professional domains. With so few
teaching hours, it is essential that both class work and independent learning be
optimized. Consequently, the educational process should be structured so that students
learn to use components of certain terminological systems in a foreign language, in
Lidil, 58 | 2018
88
order to understand professional literature and to participate in multilingual

professional communication.
2 English is the most common foreign language chosen by students at SPbPU and
selecting German as the second foreign language, as well as English as the first foreign
language, is very rare (Ni, 2011). German classes in SPbPU’s Master’s degree programs
include students from different majors, which greatly complicates language teaching
for professional purposes. Such a situation is caused by the fact that the number of
students who study German at school and/or during the Bachelor’s degree program
declines annually. This is in line with global trends. 1 In 2017-2018 the number of SPbPU
Master’s degree students who were studying German accounted for approximately 1%
of students who learn English. Their German language course focuses on developing the
skills necessary to understand professionally-oriented texts, professional verbal
communication and academic writing. The teaching material is comprised of study
packs, course books (Basova, 2013; Albul, Vasil’eva & Stratonova, 2008) and content of
the Deutsche Welle website.2
3 Deutsche Welle (DW) is Germany’s public international broadcaster, which includes radio
service in 30 languages, satellite television service and a news site in seven languages,
including Russian. The DW news site contains regularly updated articles on a variety of
topics. Articles about achievements in science and technology can be found in such
sections as Deutschland, Wissen und Umwelt, Wirtschaft, and Projekt Zukunft global Ideas.
Engineering students at SPbPU are mainly interested in the latest news in mechanical
engineering, the motor industry, and nuclear engineering available on the DW website.
These popular science materials contain technical details and professional vocabulary.
The class work includes usage and revision of professional vocabulary and special
collocations, information exchange on research issues, discussions and PowerPoint
presentations. Mastering pre-fabricated structures is essential, as such structures are
common in both spoken and written communication. Indeed, the major finding of
corpus linguistic research over the past decades is that “language is highly patterned”
(Römer, 2009, p. 141).
4 In our opinion, corpus linguistics methodology could be used to enhance the present
curriculum, which is based on the communicative approach. To this end, the following
section reviews the literature on DDL usage for writing skill development in the course
of Language for Specific Purposes.
2. Literature Review
5 Recent decades have seen an increasing interest in using corpora in language learning
and teaching. This approach is referred to as “data-driven learning” (DDL), the term
first introduced by Tim Johns3 in 1990. Language teachers and learners today can access
many free corpora on line, including very large general corpora, genre- and domain-
specific ones, as well as parallel corpora, comparable corpora, and learner corpora.
Numerous publications on DDL and the use of corpus related resources, including the
recent surge of special journal issues on the topic (Godwin-Jones, 2017) and the first
meta-analysis in this domain conducted by Boulton and Cobb (2017), could be taken as
evidence that the predicted revolutionary change in teaching methodology and
overwhelming usage of corpora in language teaching has finally started. However, our
experience leads us to believe that Boulton’s conclusion is still true, especially for
Lidil, 58 | 2018
89
languages other than English: “Despite the considerable research interest and
multiplicity of resources available, public awareness is low: corpus consultation
remains rare even in university and research environments and it has had virtually no
impact on ‘ordinary’ learning practices elsewhere.” (Boulton, 2010a, pp. 18–9)
Furthermore, researchers point out the lack of available research on using specialized
corpora other than English (Boulton, 2010b; Yoon, 2016).
6 In Boulton’s comprehensive survey (2010c) of 93 papers, only 11 of these deal with a
language other than English, with 6 devoted to the German language. None looked at
the Russian language. Boulton and Cobb (2017) conducted a meta-analysis of data-
driven-learning studies that was limited by the necessity of containing pertinent
secondary data, English was the main target language of most of the 64 studies and only
two studies concerned German (Godwin-Jones, 2017).
7 Boulton and Cobb’s meta-analysis (2017), as well as their other comprehensive paper
(Cobb & Boulton, 2015), showed that written language was clearly the dominant focus
of corpus research. This might be due to the fact that the development of modern
computer technologies and electronic communication has caused written language
proficiency skills to be seen as a central aspect of specialists’ professional expertise.
Meta-analysis also reveals that accessible online corpora, such as the СОСА and the
BNC, are the most frequently used objects of study (Godwin-Jones, 2017, p. 19).
8 In terms of the effectiveness of DDL approaches for developing writing skills and error
correction, research data are somewhat mixed. Students’ enthusiasm for corpus work
often depends both on their level of English and the extent of training and support
available. For example, in Gaskell and Cobb’s study (2004) pre-intermediate learners of
English integrated specific language points well, but error types did not significantly
improve as a result of instruction that used concordancing. Improvement was found in
only three error types of the ten most frequent errors they had categorized. Gaskell
and Cobb developed a special tool available on their web site Compleat Lexical Tutor, 4
which they called Corpus corrector. This tool is meant to help users correct the typical
mistakes in writing. In other experimental settings, native English graduate students
majoring in French studies (O’Sullivan & Chambers, 2006) and Chinese students from a
balanced mix of humanities, medical and science backgrounds (Crosthwaite, 2017)
successfully corrected mistakes in their written works (in French and English
correspondingly) through corpus consultation. However, they had higher levels of the
foreign language competence and were familiar with the DDL fundamentals.
9 Learners’ interest in specialized corpora is largely dependent on whether relevant the
corpus is perceived by learners’ as being relevant to their needs. Using a corpus as a
reference source for academic English writing may be ineffective and demotivating if it
does not contain examples of language use in students’ specific technological/scientific
areas (Chang, 2014; Charles, 2014). An example of good practice which takes this factor
into account is Chang (2014), where Korean IT and engineering students were
encouraged to compile their own corpus, named Michelangelo, through student
selection of papers and articles from journals in their fields. Chang reported that
students appreciated the access to this additional local corpus as a complement to the
Corpus of Contemporary American English (COCA) which they used, because the COCA
does not have a sufficient number of technical articles. On the other hand, they
complained about the lack of necessary examples in the specialized corpus of a small
size, which later stimulated them to expand the corpus and refer to its updated version.
Lidil, 58 | 2018
90
10 In a similar vein, researchers at SPbPU have developed a number of activities exploiting

a DDL approach, based on learners’ personal corpora of research articles relevant to
their scientific interests. The activities depend on the functionalities of the
concordancer program available. For example, karTatekA developed at General
Linguistics Department of Philological Faculty of St Petersburg State University, allows
the user to access different lists (frequency list, inverted list, word-length list), to
create lexical and grammatical homonyms, to segment words, to search by word
element and morpheme, and finally the possibility to unite all word family members
onto a single card and then to gain access to all contexts from that card (Almazova &
Kogan, 2013). The main obstacle hindering karTatekA’s wider use is that it involves a
time-consuming procedure of preparing the original text, usually in pdf format, into
the required txt (plain text) format in order to build concordance with a sentence-
length minimal context.
11 That research targeted work of post-graduate students who had used a Text-based
concordance tool from the Compleat Lexical Tutor website to build concordances of
their corpora and to identify unknown words from the wordlists they generated. Then,
they had to try to memorize them using the variety of website tools, for example Multi-
concordance, Text-based range, List_learn, and VocabProfile. Words from each
participant’s “100-unknown-word list”, based on their own corpora, were then
randomly selected and used to test vocabulary acquisition. The results show that the
activities helped the post-graduate students of SPbPU to expand and consolidate field-
specific vocabulary recognition (cf. Almazova & Kogan, 2014).
3. Availability of German Specialized Corpora

12 To our knowledge, there are no appropriate corpora resources, which would allow
engineering students to benefit from using a DDL approach in developing writing skills
while writing their Master’s degree or PhD theses in German. In her research on
learning verb-preposition collocations by both advanced learners of German and
beginners, Vyatkina used the Das Wortauskunftssystem zur deutschen Sprache in Geschichte
und Gegenwart (DWDS5) corpus: a large, freely and publicly available corpus of
contemporary German (Vyatkina, 2016a, 2016b). Jaworska refers to the international
project Gesprochene Wissenschaftssprache Kontrastiv (GeWiss6) “Spoken Academic
Language in Contrast”, which was developed for contrastive studies of spoken academic
discourse across three languages: English, German and Polish. The GeWiss corpus
complements resources such as the Michigan Corpus of Spoken Academic English
(MICASE7) and the British Academic Spoken English Corpus (BASE 8) (Jaworska, 2015,
p. 185).
13 Schroth Wiechert from Leibniz University of Hannover (LUH)9 decided to bridge this
gap through the development of a specialized corpus as a resource for learners of
academic and technical German. She concluded that the number of such corpora for
learners of academic German is very small, are not easily accessible and the examples
they contain are of low relevance to Master’s degree students of a specific engineering
field (e.g. Turbomachinery and Fluid Dynamics or Civil Engineering). She began to
concretize her idea as a part of the Strategic Partnership Program between Peter the
Great St Petersburg Polytechnic University and the Leibniz University of Hannover.
Lidil, 58 | 2018
91
14 Since 2014, LUH and SPbPU have been collaborating on the development of the Deutsch,
English and Russkii (DEaR) Corpus of German, English and Russian languages for
engineering. The target audience is students and lecturers. The DEaR corpus will be an
annotated on-line corpus with different search capabilities composed primarily from
electronically published PhD and Master’s degree dissertations written by engineering
Master’s and Post-graduate students, native speakers of either German, English or
Russian. The acquisition, preparation and annotation of technical texts for the DEaR
Corpus is under way (Gärtner, Schroth-Wiechert & Kogan, 2015; Kogan, Gärtner &
Schroth-Wiechert, 2016). When the development has been finished and the legal
copyright aspects adjusted, the DEaR corpus is planned to be available online.
Currently, the German part has been developed and named Kod.ING (Korpus der
Ingenieurwissenschaften).
15 As part of the Kod.ING corpus, we have focused on the analysis of over 200 PhD theses
in the fields of Electrical Engineering (EL), Civil Engineering (BG) and Mechanical
Engineering (M) with total of seven million tokens in order to determine its relevance
for developing academic writing skills in Russian university engineering students. Our
analysis conducted with the freeware-license AntConc software 10 (Anthony, 2006)
pursued the goal of determining if the Kod.ING corpus is relevant for Russian students
who learn German in order to correct their typical errors. This goal was achieved
during the preliminary stage of the teaching experiment.
4. Teaching experiment: preliminary stage

4.1. Selecting language items
16 Following Boulton (2010b), Gaskell and Cobb (2004), we expected to detect language
problems from learners’ own writings. This was done at the preliminary stage of the
experiment, at the end of the spring term of the 2016–2017 academic year. We invited
volunteers from the Tandem project (Stratonova, 2016) to write a short essay of up to
200 words answering the question: “If I had a chance to study at a German University,
which subjects would I select and why?” Five students responded. Their essays were
carefully checked and discussed with a native German speaker. Despite many mistakes
with prepositions, articles, word choice, grammar mistakes related to verbs and link
words, word order in simple and complex sentences, patterns could not be identified.
This may be due to the small size of the student essay corpus.
17 Therefore, two problematic areas, compound nouns and lexical bundles, were chosen
for the teaching experiment. Russian learners of German used the genitive phrases
common for Russian scientific discourse instead of compound nouns common for
German scientific discourse, possibly, as a result of interlingual interference. They also
misused, underused and omitted academic lexical bundles.
4.1.1. German compound nouns
18 German compound nouns can consist of two or more morphemes. These nouns can be
described as a system comprised of an attributing part and a main (attributed) part,
where the first morpheme describes the subsequent one. German compound words can
Lidil, 58 | 2018
92
be formed from any part of speech and follow one of two patterns: I) a one-word
compound noun and II) two-/multi-word collocations, as in the examples given below.
I.
Verb + Adjective (e.g. röstfrisch, tropfnass),
Adjective + Adjective (e.g. schwerkrank, lauwarm),
Noun + Adjective (e.g. hilfsbereit, hitzebeständig),
Verb + Noun (e.g. Lautstall, Schlafraum) (Dreyer & Schmitt, 2009).
II.
die Holzverarbeitung = die Verarbeitung von Holz, “woodworking”,
die Autoherstellung = die Herstellung von (den) Autos = die Herstellung der Autos,
“automobile manufacturing / motor vehicle manufacturing”,
die Energiesparung = die Sparung der Energie = die Sparung von der Energie,
“energy saving”.
19 For category II, it is important to stress that a sequence of words constitutes a single
unit at the semantic level and is often considered fixed according to dictionary entries.
Research has shown that compound words are essential to scientific discourse (cf.
Ickler, 1997), as numerous terms are compound nouns comprised of generally used
words, for example der Weißfisch (white fish as a species). Moreover, generally used
compound words can acquire a new connotation or a new meaning in certain types of
discourse. Some compound nouns can be translated into English or French quite
accurately, which is explained by similar syntactic structures of the expressions (e.g.
absolute constructions in German, no declension endings) or hyphenated spelling. This
facilitates visual reception of morphemes.
20 Translating such nouns into Russian can be difficult because of the incompatibility of
declension forms in German and Russian. Moreover, the Russian language lacks
constructions similar to absolute English constructions. The problem when translating
German compound nouns is determined by a wide range of options and combinations
of original morphemes, which is impossible in the Russian language. An excellent
example is the pair Radiowecker (radio alarm) and Weckerradio (radio which has different
functions and among the main ones is the alarm function). However, the relationship
between components of compound nouns and their sequence in similar Russian
constructions are different. For instance, das Koordinaten system is translated into
Russian as a phrase where the genitive case is used: system of coordinates. These
discrepancies can lead to students’ difficulties in using and translating the vocabulary
of scientific discourse, perhaps due to the phenomenon of interlanguage interference
which is widely studied (see, e.g., Kostina, Hackett-Jones & Bagramova, 2017) and also
mentioned in studies in different domains of language teaching (Almazova, Kostina &
Khalyapina, 2016; Almazova, Rogovaya & Gavrilova, 2018).
4.1.2. Lexical bundles
21 Formulaic language has been intensively studied in Second Language Acquisition

research as can be seen from Wood’s monograph (2015). While referring to papers
focusing on academic bundles in Spanish and Korean, Hyland affirms that the vast
majority of research looks at academic bundles in English (Hyland, 2012, pp. 150–1).
The analysis he conducted shows not only that bundles are central to the creation of
academic discourse, but that they occur and behave in dissimilar ways in different
disciplinary environments (Hyland, 2008). For ESP/EAP course designers this means
that they have to take into account their students’ specific target context, when they
Lidil, 58 | 2018
93
design their teaching. For example, Valipouri and Nassaji (2013) produced the
Chemistry Academic Word List (CAWL) based on the analysis of a corpus of
1,185 chemistry research articles. They found that 27.85% of the frequent words in
their CAWL corpus had not been listed in the widely used AWL compiled by
Coxhead (2000). An Academic Formulas List (Simpson-Vlach & Ellis, 2010) and an
Engineering Academic Formulas List (Fox & Tigchelaar, 2015) have become available
recently. Though integrating corpus-based techniques into the teaching of academic
German vocabulary is “still in its infancy” (Jaworska, 2015, p. 188), academic German
teachers and researchers have also produced lists of academic lexis, including Schroth-
Wiechert (2011) and Graefen (2009). Moreover, a comprehensive academic writing
textbook exists which focuses on the most frequently used academic vocabulary and
word collocations including idiomatic and metaphorical expressions (Graefen &
Moll, 2011).
22 In our study, we decided to identify the “most frequent recurrent sequences of words”
in the Kod.ING corpus, following Biber, Conrad and Cortes’s statement that frequency
searches can help us select the “basic linguistic constructs with important functions for
the construction of discourse” (2004, p. 398). All selected lexical bundles meet the
criteria of size (Min – Max: 2 – 4), frequency (≥ 100), and range of presence in all three
field subcorpora (BG, EL, M). Of the three categories of lexical bundles (referential
expressions, discourse organizing expressions and stance expressions) proposed by
Biber, Conrad and Cortes (2004), we found Discourse organizing expressions to be the most
frequent in the Kod.ING corpus.
23 For the experiment, we also selected the most frequent recurrent compound nouns
formed from the three most frequent bases: System, Technik, and Maschine. All of them
meet the following criteria: Frequency ≥ 70; Range – in all field subcorpora (BG, EL, M).
We also included one three-word collocation (kartesisches Koordinaten system), which did
not meet the frequency criteria, but is often incorrectly used in students’ writings. We
queried the German-Russian parallel subcorpus of the Russian National Corpus (RNC 11)
for the selected lexical bundles and compound nouns from the Kod.ING corpus
(Appendix A), but none of the compound nouns and all but two lexical bundles were
found. This reflects the lack of professional terminology, including technical compound
nouns, in the General reference corpora, to which the Russian National Corpus belongs.
4.2. Hands-on and/or hands-off training?
24 Using corpora in a teaching intervention necessarily raises the question of how to train
students to query corpora, using hands-on training (the student directly manipulating
the corpus) and/or hands-off training (the teacher preparing the corpus data). As
Vyatkina (2016b) mentions in her in-depth analysis of the available empirical research
on hands-on and hands-off DDL, there is a lack of studies that compare the outcomes of
hands-on and hands-off DDL interventions. She concludes that “hands-on and hands-
off DDL were equally effective” (p. 170) and recommends trying both types of DDL
instruction.
25 The restrictions imposed on the direct usage of the Kod.ING corpus outside LUH
exclude the hands-on option. However, we argue that awareness not only of a new
method, but also of a newly available resource is very important for students’ future,
independent learning of foreign languages. For this reason, we decided to familiarise
Lidil, 58 | 2018
94
students with the simplest queries in the parallel subcorpus of the RNC (Russian
National Corpus).
26 The RNC is the largest, national scale reference corpus in the Russian language.
Available on-line, free of charge, it is a linguistic resource, which can be used without
registration. Its planned size is 200 million word tokens taken from spoken genres,
fiction, and written media (including academic and non-academic texts) in Russian
from the mid-18th century to the present. The Russian National Corpus currently uses
four types of annotation: metatextual, morphological, accentual and semantic; the
introduction of syntactic annotation is planned for the near future. The system of
annotation is constantly being improved, which allows for quite complex syntactic and
morphological queries.
27 The RNC has 11 subcorpora of different types including a set of bidirectional parallel
text subcorpora. In the latter subcorpora, Russian is complemented by its translation
into a different language, and vice versa. The units of the original and the translated
texts (usually, a unit is a sentence) are matched through a “leveling” procedure. At the
time of publishing, nine bidirectional parallel text corpora are available including
English/Russian, German/Russian and French/Russian parallel corpora.
28 In response to their query, a user receives a list of results resembling the one in
Figure 1, which is a query for unter Berücksichtigung. One challenge for users is to find
the Russian equivalent of the German highlighted expression, as the leveled sentences
do not contain any graphic prompts.
Figure 1. – The results of an unter Berücksichtigung query in the German/Russian parallel corpus of
the RNC.
29 The predominant issue related to using a DDL approach in language instruction

remains the amount of necessary preliminary training (see Boulton, 2009). Boulton
Lidil, 58 | 2018
95
provides very limited instruction about corpus use, from “a short theoretical
background followed by demonstrations of particular functions” (Boulton, 2012, p. 35)
to student practice “without training” focused on their ability to derive useful
information from impromptu concordances (Boulton, 2009, p. 40). On the other hand,
Boulton (2012) admits that, “students clearly would have liked further preparation in
corpus use […], especially ‘demonstrations’” (p. 36). Though it is obvious that students
would benefit from more extensive preliminary training to become confident with a
new tool or resource, we could only insert brief interventions with a DDL approach into
regular German language classes.
5. Design
5.1. Research questions
30 The following research questions were explored:

1. Can Russian university students of engineering improve their academic writing skills
following corpus-based instruction and the use of corpus-based teaching materials?
2. Will they be able to retain the gains in a mid-term perspective?
3. Do very short DDL interventions within a regular context of teaching/learning German
develop participants’ interest in DDL?
5.2. Participants and Instructional Context
31 The participants of the current study were 14 Russian students of German enrolled in a
compulsory Master’s degree course of German for Specific Purposes (GSP) at SPbPU.
However, the study reports only on the 11 participants (six males, five females) who
attended all DDL sessions (including pre- and post- and delayed tests) and submitted
their homework exercises. Participants were aged from 21 to 23, with a mean of
22 years. All the participants were a group of only native speakers of Russian, with two
students having also studied English. Students had different engineering majors, such
as power plant engineering, electrical engineering, mechanical engineering, metallurgy
and material science, technosphere safety. Most students had studied German for seven
years at school prior to entering university, then the first two years of a Bachelor’s
degree programs with a two-year break until their first year in the Master’s degree
program. A start-of-year test showed that their proficiency level was low, equivalent
to A2 and A2+, with only one student approaching a B1 level according to the CEFR. 12
32 Ninety-minute GSP classes took place once a week. Classes followed the uniform
syllabus, so it was only possible to do short DDL interventions at the beginning of the
first four classes. The hands-off method of corpus-based instruction was adopted, with
hands-off exercises based on teacher-prepared worksheets used during regular classes
and as homework. Nine compound nouns and eight lexical bundles were selected for
the study at the preliminary stage of the experiment. Hands-on activities were based on
the searches of Russian equivalents of the selected lexical bundles in the bidirectional
parallel German/Russian subcorpus in the RNC.
33 DDL sessions ended in the middle of the term. At the end of the term we interviewed
the group’s teacher to understand her opinion about the impact of the DDL
Lidil, 58 | 2018
96
intervention sessions on the learning process and students’ ability to use the compound
nouns and linking expressions beyond the experiment.
5.3. Methodology: data collection
34 The data collection timeline over five sessions is presented in Table 1.
Table 1. – Data collection timeline.
Oct. 9 (S1) Oct. 16 (S2) Oct. 23 (S3) Oct. 30 (S4) Nov. 20 (S5)
Pre-test, Hands-off activities, Hands-on activities, Post-test, Delayed

Instructions Hands-on instructions Hands-off activities Questionnaire post-test
35 During the first DDL session (S1), participants took a 5-minute pre-test and received a
set of instructions on the set of hands-off activities. They also were instructed about
search word functions of the parallel German/Russian subcorpus of the RNC (S2) and
participated in hands-on / hands-off corpus skill-building activities (S2-S3). The entire
set of activities was split into in-class practice and homework that included a number
of hands-on corpus skill-training tasks, as well as the self-instruction writing practice.
The training was followed one week later by a 5-minute post-test, as well as a
questionnaire concerning the corpus-based experience (S4). The delayed post-test was
conducted 3 weeks later (S5).
36 The pre-test aimed at focusing the students’ attention on the gaps in their knowledge
of the key words and collocations. The pre-test, as well as both the immediate and
delayed post-tests, contained a list of seven target items (compound words and lexical
bundles) to be translated from Russian into German. The words and collocations were
scrambled so that the tests did not replicate each other. For each correct answer, the
student received one point, with a maximum of seven points per test.
37 All test sheets contained seven compound words and lexical bundles to be translated
from Russian into German. A series of worksheets13 included exercises on translation
and concordance lines analysis (Appendix B, Figures B1, B2, B3), matching, filling-in
exercises (Appendix B, Figure B4), leading students to the final creation of their own
sentences with the key lexical bundles and compound words (Appendix B, Figure B5),
and the use of the target vocabulary in free writing. Figure B6 shows an example of
hands-on corpus skill-training task. The completed worksheets were collected on a
regular basis during DDL intervention sessions; at the beginning of every session, the
feedback on the previous homework task was provided.
6. Results
38 Three types of results will be presented here: pre-test, post-test, and delayed post-test
results analysis, students’ responses to the questionnaire on corpus work perception,
and interview data.
Lidil, 58 | 2018
97
6.1. Data collection instruments and scoring performance
39 Overall, the quality of the homework tasks completed after the pre-test was
satisfactory. However, the exercises focusing on lexical bundles were completed more
successfully than those focusing on the compounds. None of the participants finished
all of the tasks correctly. The mean success rate of the home task activities was about
60%. The student reports on the target-item searches in the parallel German/Russian
subcorpus of the RNC proved that they coped with the challenges of independent
hands-on corpus work as all students completed the task correctly.
40 In contrast, the results of the post-tests were not as high as expected. The
11 participants of the post-test scored from one to four points each. Overall, there is a
correlation between learners’ homework task success and test scores. Table 2 contains
information about the target items included in each test and the mean success rate in
each of the two post-tests, in other words, the correctly translated items per test
normalized to the number of subjects.
Table 2. – Test target items and the mean success rate for both post-tests.
Target compound nouns and lexical Delayed post- Post-test

Pre‑test Post‑test
bundles tested test progression
das Koordinatensystem 0 (0%) 9 (81.8%)
in erster Linie 9 (81.8%) 7 (63.3%) -2 (-18.1%)
das Gleichungssystem 0 (0%) 7 (63.3%) 9 (81.8%) 2 (18.1%)
im Gegensatz zu 3 (27.3%)
in Hinblick auf 3 (27.3%)
in der vorliegenden Arbeit 0 (0%) 3 (27.3%)
die Umformtechnik 2 (18.1%)
es wird deutlich dass 2 (18.1%)
die Werkzeugmaschine 0 (0%) 4 (36.2%) 4 (36.2%)
die Umformmaschine 1 (9%)
wird davon ausgegangen dass 0 (0%) 0 (0%)
das kartesisches Koordinatensystem 0 (0%)
in Abhängigkeit von 0 (0%)
die Fertigungstechnik 0 (0%)
Total 0 (0%) 26 (33.8%) 33 (42.9%) 4 (12.1%)
Lidil, 58 | 2018
98
41 The pre-test results show that none of the 11 participants of the experiment had
previous knowledge of the targeted lexis. Intriguingly, the results for the post-test and
delayed post-test show that success with the term die Werkzeugmaschine improved
beyond the end of instruction. The results for the delayed post-test show that only
three target items can be regarded as “learned firmly” by most participants: das
Koordinatensystem, in erster Linie, das Gleichungssystem.
42 Table 3 summarizes the results concerning the mean number of words translated
correctly and the portion of the correctly translated items to the total number of the
items of both post-tests.
Table 3. – Results of the immediate and delayed post-tests.
Mean number of correctly Percentage of correct word translation

translated items (7-item test)
Immediate post-
2.36 33.8%
test
Delayed post-test 3 42.9%
43 The final homework task which students were asked to do between the immediate and
delayed post-tests was to write sentences of their own using eight compound nouns
and eight lexical bundles from the DDL interventions. We received only four completed
papers. Therefore, just after the delayed test we repeated our call for making up “your
own sentences”, stressing that they did not have to invent sentences using all the
selected vocabulary items. They could do the task using just the most familiar and
relevant terms. However, no one responded.
44 In total, students submitted 32 sentences with lexical bundles and 31 sentences with
compound words, as one student completed only seven sentences with compound
words. Table 4 presents the error types for this exercise.
Table 4. – Analysis of error types in sentence writing homework.
Student errors Quantity
Grammar 10
Lexical bundles Vocabulary 6
Vocabulary, unrelated to the focus lexis 4
Grammar 11
Compounds Vocabulary 1
Vocabulary, unrelated to the focus lexis 2
Lidil, 58 | 2018
99
45 The results lead us to conclude that, while the subjects are good at receptive activities
with the target vocabulary, they are much less confident in their writing.
6.2. Perception of corpus work
46 In order to understand students’ perception of working with the Kod.ING and the RNC
corpora, they filled in a post-experiment receptivity questionnaire in Russian, partially
drawing upon Boulton (2010b) and Vyatkina (2016b). In the seven closed questions, the
students were asked to rate their satisfaction regarding RNC activities, as well as their
satisfaction with the Kod.ING corpus activities and plans for continued use, by
indicating agreement with statements on a five-point Likert scale scored from
1 (completely disagree) to 5 (completely agree). The “not sure” option was also
available. Question 1 checked that the participants had used the RNC and question 7
asked them to confirm or disprove their willingness to study specific software enabling
them to work with the Kod.ING corpus. Question 8 was open-ended and related to what
the participants particularly liked or disliked in the RNC activities. Eleven students
completed the questionnaire in the classroom immediately after the post-test. Due to
the small sample, a purely quantitative analysis of the data is not statistically valid.
However, the results are presented in Table 5 as they provide a general overview of the
students’ perceptions.
Table 5. – Summary of students’ responses to the questionnaire (translated from Russian).
Disagree (no) / agree (yes) questions Disagree Agree
Q1. Did you use the RNC to complete the homework? 11
Q7. Are you ready to study specific software to work with the Kod.ING corpus? 5 6
Likert scale questions (1-completely disagree to 5‑completely agree) 1 2 3 4 5
Q2. It was easy for me to work with the RNC. 2 1 5 2
Q3. I liked to work with the RNC. 1 4 6
Q4. I found it useful to work with the RNC. 1 3 7
Q5. I faced a number of difficulties while working with the RNC. 3 2 1 4 1
Q6. I plan to use the RNC to study German in future. 7 1 3
47 On the whole, the students responded positively to working with the RNC. All the
students participated in out-of-class RNC activities (Q1) and most of the students
admitted they liked working with the corpus (Q3). Most of them indicated that they
found it easy to work with the RNC (Q2). Still, more than half the students pointed out
that they faced a number of problems during their work with it (Q5). Most students
agreed that the work done was useful (Q4) but in Q6 the results indicate that most were
not sure if they would use the new skills in their future language learning.
Lidil, 58 | 2018
100
Nevertheless, more than half the students were willing to receive further instruction to
obtain more corpus work skills (Q7).
48 The open-ended question 8 was only answered by five participants, one of whom
expressed uncertainty about the subject mentioned. The other four students
highlighted the usefulness of the RNC’s visual representation of the language data, such
as highlighting of the search expression. The ability to see a full sentence translated
was also appreciated. The participants also mentioned their curiosity about doing the
homework with the help of a new tool and the ability to investigate use of the target
German lexis in context. An unfavourable opinion was expressed towards the lack of
highlighting in the Russian translation of the sought-for expressions. Participants also
noticed that corpus work was quite time-consuming and the amount of instruction was
insufficient.
6.3. Interview with the teacher
49 The teacher was interviewed at the end of the autumn term after the participants of
the experiment had passed their final exam in German for specific purposes. Only one
question was asked: “Was the impact of DDL interventions noticeable after the
experiment ended and if so, could you discuss the evidence for this?” She replied
affirmatively, adding that the DDL interventions helped students to grasp how
compound nouns work in German. The theme on compound nouns in their regular
syllabus was used as a follow-up to consolidate what students had already learned in
the DDL interventions. As a result, the teacher felt she had saved time because she did
not have to introduce the topic. She noticed that students were more confident doing
tasks on compound nouns from their regular textbook, even though the compounds in
the textbook were different from those in the experiment (e.g. Funktionstuechtigkeit,
Taktstrasse). Also, she observed that students mostly used compounds correctly in a
compulsory task during the term (writing a summary of a text relevant to their major),
and also included them appropriately in their final oral exam.
7. Discussion and conclusions

50 This study demonstrates that, for a short-term teaching impact on a group of students
learning German for specific purposes, the chosen teaching approach was effective.
Despite lacking any knowledge of the focus lexis at the pre-test stage, all the learners
improved their ability to remember and use the compound words and phrases. We
would argue that the progress in the target vocabulary acquisition was made due to the
willingness of learners to do the class exercises and homework.
51 The unexpectedly low post-test results might be explained by the participant’s low-
level of German language mastery or by the insufficient length of interventions. We
think that longer and more regular interventions incorporated into the non-DDL
syllabus class will lead to better mastery of compound nouns and lexical bundles.
52 The interview with the teacher shed further light on our delayed post-test results. The
improvement between two post-tests in our experiment (Table 3) contrasts with
Vjatkina’s findings, as she found that “all outcomes increased on the immediate post-
test and decreased on the delayed post-test, although not to the level of the pre-test”
Lidil, 58 | 2018
101
(2016b, p. 166). The improvement in our study could be attributed to the follow-up
activities on the compound nouns that the teacher did within the regular syllabus.
53 One major discrepancy requires comment, that between a rather large number of
mistakes in target vocabulary in sentence-writing task (Table 4) and the teacher’s
comment that students used compound nouns quite confidently and correctly in the
following term’s writing and oral tasks. This might be due to the different nature and
focus of the writing exercises. It is probably easier and more natural for students to use
compounds from the text relevant to their scientific interests while retelling or
summarizing than to compose their own sentences.
54 It is also worth mentioning learners’ interest in doing hands-on tasks with RNC and
their intention to apply the acquired knowledge. The learners’ interest in hands-on
DDL activities leads us to conclude that direct DDL tasks should be included into even
short paper-based DDL interventions, even in non-DDL syllabi. There is a risk, however,
that paper based activities, e.g. based on the analysis of concordancing lines, though
new and unusual for learners, may not provide as much of a rewarding feeling of
discovery for learners, who are challenged to understand “how it works” when doing
hands-on corpus work. For many engineering students, it is important to start by
attempting to understand the technical aspects as they acquire the related language
skills. This is especially important in a situation like ours where direct access to the
target corpus (Kod.ING) is not possible.
55 In line with other studies (Cobb & Boulton, 2015; Vyatkina, 2016b), our research
confirms that exercises such as sentence-writing are more difficult for low-level
learners than other exercises and short DDL intervention sessions may not be enough
for some of them to modify their writing. The low return rate of sentence writing
worksheets may also be influenced by the low number of sentences relevant to
students’ specific majors in the teaching materials. This must be taken into account in
further studies.
56 The main limitations of our study concern the relatively small number of participants
and the short length of DDL interventions. It would be difficult to devote more teaching
time to these as the standard, non-DDL syllabus is already very full.
57 To conclude, while further research could examine the limits of a DDL approach, it
could also help to diversify teaching materials by including more examples from
specialized corpora that are relevant to students’ professional interests.
BIBLIOGRAPHY
ALBUL, Aleksandr I., VASIL’EVA, Ksenija K. & STRATONOVA, Galina Ja. (2008). Nemeckij jazyk: posobie po
perevodu nemeckoj nauchno-tehnicheskoj literatury (“The German Language: A textbook on Translation
German Scientific and Technical Literature”). Saint Petersburg: Izd-vo Politehn. un-ta. Available at
<http://elib.spbstu.ru/> (consulted 1 December 2017).
Lidil, 58 | 2018
102
ALMAZOVA, Nadezhda & KOGAN, Marina. (2013). Organizing Polytechnic Post-Graduate Students
Individual Work on Required Reading Corpora (within ESP Course). Университетский научный
журнал / Humanities and Science Journal, 6, 13–25. Available at <http://en.unipress.pro/
catalog.php?pid=51&aid=1093> (consulted 1 December 2017).
ALMAZOVA, Nadezhda & KOGAN, Marina (2014). Computer-Assisted Individual Approach to

Acquiring Foreign Vocabulary of Students Major. In P. Zaphiris & A. Ioannou (eds), Learning and
Collaboration Technologies. Technology-Rich Environments for Learning and Collaboration. LCT 2014.
Lecture Notes in Computer Science (vol. 8524, pp. 248–57). Cham: Springer. <https://doi.org/
10.1007/978-3-319-07485-6_25>.
ALMAZOVA, Nadezhda I., KOSTINA, Ekaterina A. & Khalyapina, Liudmila P. (2016). The New Position
of Foreign Language As Education for Global Citizenship. Novosibirsk State Pedagogical University
Bulletin, 32(4), 7–17. <https://doi.org/10.15293/2226-3365.1604.01>.
ALMAZOVA, Nadezhda, ROGOVAYA, Yulia & GAVRILOVA, Anna. (2018). Prospects of Introduction of
Microlearning into the Process of Teaching Postgraduate Students a Foreign Language. In
L. Gómez Chova, A. López Martínez & I. Candel Torres (eds), INTED2018 Proceedings : 12th
International Technology, Education and Development Conference (pp. 3175–82). IATED Academy.
<https://doi.org/10.21125/inted.2018.0608>.
ANTHONY, Laurence. (2006). Developing a Freeware, Multiplatform Corpus Analysis Toolkit for the
Technical Writing Classroom. IEEE Trans. on Prof. Communication, 49(3), 275–86. <https://doi.org/
10.1109/TPC.2006.880753>.
BASOVA, Nonna. (2013). Nemeckij jazyk dlja tehnicheskih vuzov (“German for Technical Institutions of
Higher Education”). Rostov-na-Donu: Feniks.
BIBER, Douglas, CONRAD, Susan & CORTES, Viviana. (2004). If you look at …: Lexical Bundles in
University Teaching and Textbooks. Applied Linguist, 25(3), 371–405. <https://doi.org/10.1093/
applin/25.3.371>.
BOULTON, Alex. (2009). Testing the Limits of Data-Driven Learning: Language Proficiency and
Training. ReCALL, 21(1), 37–54. <https://doi.org/10.1017/S0958344009000068>.
BOULTON, Alex. (2010a). Data-Driven Learning: On Paper, in Practice. In T. Harris & M. Moreno
Jaén (eds), Corpus Linguistics in Language Teaching (pp. 17–52). Bern: Peter Lang. <https://doi.org/
10.3726/978-3-0351-0166-9>.
BOULTON, Alex. (2010b). Data-Driven Learning: Taking the Computer Out of the Equation. Language
Learning, 60(3), 534–72. <https://doi.org/10.1111/j.1467-9922.2010.00566.x>.
BOULTON, Alex. (2010c). Learning Outcomes from Corpus Consultation. In M. Moreno Jaén,
F. Serrano Valverde & M. Calzada Pérez (eds), Exploring New Paths in Language Pedagogy: Lexis and
Corpus-Based Language Teaching (pp. 129–44). London: Equinox.
BOULTON, Alex. (2012). Beyond Concordancing: Multiple Affordances of Corpora in University

Language Degrees. Procedia – Social and Behavioral Sciences, 34, 33–8. <https://doi.org/10.1016/
j.sbspro.2012.02.008>.
BOULTON, Alex & COBB, Tom. (2017). Corpus Use in Language Learning: A Meta-Analysis. Language
Learning, 67(2), 348–93. <https://doi.org/10.1111/lang.12224>.
CHANG, Ji-Yeon. (2014). The Use of General and Specialized Corpora As Reference Sources for
Academic English Writing: A Case Study. ReCALL, 26(2), 243–59. <https://doi.org/10.1017/
S0958344014000056>.
Lidil, 58 | 2018
103
CHARLES, Maggie. (2014). Getting the Corpus Habit: EAP Students’ Long-Term Use of Personal
Corpora. English for Specific Purposes, 35, 30–40. <https://doi.org/10.1016/j.esp.2013.11.004>.
COXHEAD, Averil. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213–38. <http://
doi.org/10.2307/3587951>.
COBB, Thomas & BOULTON, Alex. (2015). Classroom Applications of Corpus Analysis. In D. Biber &
R. Reppen (eds), Cambridge Handbook of English Corpus Linguistics (pp. 478–97). Cambridge:
Cambridge University Press. <https://doi.org/10.1017/CBO9781139764377.027>.
CROSTHWAITE, Peter. (2017). Retesting the Limits of Data-Driven Learning: Feedback and Error
Correction. Computer Assisted Language Learning, 30(6), 447–73. <https://doi.org/
10.1080/09588221.2017.1312462>.
DREYER, Hilke & SCHMITT, Richard. (2009). Lehr- und Übungsbuch der deutschen Grammatik – aktuell.
Ismaning: Hueber Verlag.
FOX, Jessica & TIGCHELAAR, Magda. (2015). Creating an Engineering Academic Formulas List. The
Journal of Teaching English for Specific and Academic Purposes, 3(2), 295–304.
GÄRTNER, Tobias, SCHROTH-WIECHERT, Sigrun & KOGAN, Marina. (2015). A Corpus-Based Trilingual
Platform for Academic Technical Writing. In N. Almazova & V. Chernyavskaya (eds), Proceedings of
the International Scientific Conference (pp. 60–2). SPb.: Izd-vo Politehn. un-ta. Available at <http://
elib.spbstu.ru/dl/2/8573.pdf/en/info> (consulted 1 December 2017).
Errors? System, 32(3), 301–19. <https://doi.org/10.1016/j.system.2004.04.001>.
GODWIN-JONES, Robert. (2017). Data-Informed Language Learning. Language Learning & Technology,
21(3), 9–27. Available at <http://www.lltjournal.org/item/3012> (consulted 1 December 2017).
GRAEFEN, Gabriele. (2009). Die Didaktik des wissenschaftlichen Schreibens: Möglichkeiten der
Umsetzung. GFL (German as a Foreign Language), 2–3, 106–27. Available at <www.gfl-journal.de/
2-2009/graefen.pdf> (consulted 1 December 2017).
GRAEFEN, Gabriele & MOLL, Melanie. (2011). Wissenschaftssprache Deutsch: lesen – verstehen –
schreiben. Ein Lehr- und Arbeitsbuch. Frankfurt am Main: Peter Lang.
HYLAND, Ken. (2008). As Can Be Seen: Lexical Bundles and Disciplinary Variation. English for
Specific Purposes, 27(1), 4–21. <https://doi.org/10.1016/j.esp.2007.06.001>.
HYLAND, Ken. (2012). Bundles in Academic Discourse. Annual Review of Applied Linguistics, 32, 150–
69. <https://doi.org/10.1017/S0267190512000037>.
ICKLER, Theodor. (1997). Die Disziplinierung der Sprache. Tübingen: Narr.
JAWORSKA, Sylvia. (2015). Review of Recent Research (1998–2012) in German for Academic
Purposes (GAP) in Comparison with English for Academic Purposes (EAP): Cross-Influences,
Synergies and Implications for Further Research. Language Teacher, 48(2), 163–97. <https://
doi.org/10.1017/S026144481400038X>.
KOGAN, Marina, GÄRTNER, Tobias & SCHROTH-WIECHERT, Sigrun. (2016). Corpora for Engineers
Writing in a Foreign Language: Methods and Applications for Language for Specific Purposes
Corpora. In Abstracts of 12th International Conference Teaching and Language Corpora (TaLC) (pp. 102–
3). Giessen, Germany. Available at <http://www.uni-giessen.de/faculties/f05/engl/ling/talc/
home/programme/abstracts> (consulted 1 December 2017).
Lidil, 58 | 2018
104
KOSTINA, Ekaterina A., HACKETT-JONES, Aleksandra V., BAGRAMOVA, Nina V. (2017). The Impact of
Interlanguage on Students’ Bilingual Behaviour during the Process of Acquiring a Foreign
Language. Novosibirsk State Pedagogical University Bulletin, 7(4), 93–107. <https://doi.org/
10.15293/2226-3365.1704.06>.
NI, Olga. (2011). On Teaching German As a Second Foreign Language (on the Basis of English).
Voprosy Metodiki Prepodavanija v Vuze, 14, 244–8.
O’SULLIVAN, Íde & CHAMBERS, Angela. (2006). Learners’ Writing Skills in French: Corpus
Consultation and Learner Evaluation. Journal of Second Language Writing, 15(1), 49–68. <https://
doi.org/10.1016/j.jslw.2006.01.002>.
RÖMER, Ute. (2009). The Inseparability of Lexis and Grammar: Corpus Linguistic Perspectives.
Annual Review of Cognitive Linguistics, 7, 141–63. <https://doi.org/10.1075/arcl.7.06rom>.
SCHROTH-WIECHERT, Sigrun. (2011). Deutsch als Fremdsprache in den Ingenieurwissenschaften:

Formulierungshilfen für schriftliche Arbeiten in Studium und Beruf. Berlin: Cornelsen Verlag.
SIMPSON-VLACH, Rita & ELLIS, Nick C. (2010). An Academic Formulas List: New Methods in
Phraseology Research. Applied Linguistics, 31(4), 487–512. <https://doi.org/10.1093/applin/
amp058>.
STRATONOVA, Galina. (2016). Interactive Distance Learning Technique for Studying Foreign
Language in the Higher Education. In D. I. Kuznetsov (ed.), Gumanitarnaja obrazovatel’naja sreda
tehnicheskogo vuza. Proceedings of the International Scientific and Methodical Conference (pp. 385–8).
Saint Petersburg: Izd-vo Politehn. un-ta. Available at <https://elibrary.ru/item.asp?id=26642172>
(consulted 1 December 2017).
VALIPOURI, Leila & NASSAJI, Hossein. (2013). A Corpus-Based Study of Academic Vocabulary in
Chemistry Research Articles. Journal of English for Academic Purposes, 12(4), 248–63. <https://
doi.org/10.1016/j.jeap.2013.07.001>.
VYATKINA, Nina. (2016a). Data-Driven Learning for Beginners: The Case of German Verb-
Preposition Collocations. ReCALL, 28(2), 207–26. <https://doi.org/10.1017/S0958344015000269>.
VYATKINA, Nina. (2016b). Data-Driven Learning of Collocations: Learner Performance, Proficiency,

and Perceptions. Language Learning & Technology, 20(3), 159–79. Available at <http://
www.lltjournal.org/item/2973> (consulted 1 December 2017).
WOOD, David. (2015). Fundamentals of Formulaic Language: An Introduction. London: Bloomsbury.
YOON, Choongil. (2016). Concordancers and Dictionaries As Problem-Solving Tools for ESL
Academic Writing. Language Learning & Technology, 20(1), 209–29. Available at <http://
www.lltjournal.org/item/2939> (consulted 1 December 2017).
YOON, Hyunsook & JO, Jung Won. (2014). Direct and Indirect Access to Corpora: An Exploratory
Case Study Comparing Students’ Error Correction and Learning Strategy Use in L2 Writing.
Language Learning & Technology, 18(1), 96–117. Available at <http://www.lltjournal.org/item/2842>
(consulted 1 December 2017).
APPENDIXES
APPENDIX A
List of target compounds with English translations:
Lidil, 58 | 2018
105
das Gleichungssystem (system of equations)
die Konstruktionstechnik design
das Koordinatensystem coordinate system
die Fertigungstechnik manufacturing equipment (machinery)
die Umformtechnik forming operation process
das kartesisches Koordinatensystem Cartesian coordinate system
die Umformmaschine automatic forging machine
das Werkzeugsystem tooling system
die Werkzeugmaschine metal-working machine
List of target lexical bundles with English translations:
in Abhängigkeit von depending (on); subjected (to)
es wird deutlich dass it is clear that
unter Berücksichtigung + gen in view (of)
wird davon ausgegangen dass it follows / results from this that
im Gegensatz zu contrary (to); as opposed (to)
in Hinblick auf in view (of); taking into consideration / account
in der vorliegenden Arbeit in the present paper / work
in erster Linie in the first place
APPENDIX B
Worksheets for home task and classroom work (all directions are translated from
Russian)
Lidil, 58 | 2018
106
Figure B1.
Figure B2.
Lidil, 58 | 2018
107
Figure B3.
Figure B4.
Lidil, 58 | 2018
108
Figure B5.
Figure B6.
NOTES
1. See the latest available Modern Language Association’s Preliminary Report, available at
<www.mla.org/content/download/83540/2197676/2016-Enrollments-Short-Report.pdf>.
2. Deutsche Welle website: <www.dwds.de>.
3. Tim Johns (1936–2009), professor at Birmingham University, UK, the author of an often-quoted
comment that, “Reseach is too important to be left to the researchers”.
4. Compleat Lexical Tutor: <www.lextutor.ca/conc/gram/>.
5. DWDS: <www.dwds.de>.
6. GeWiss: <https://gewiss.uni-leipzig.de>.
7. MICASE: <https://quod.lib.umich.edu/cgi/c/corpus/corpus?…cc=micase>.
Lidil, 58 | 2018
109
8. BASE: <https://warwick.ac.uk/fac/soc/al/research/collections/base/>.
9. Dr Sigrun Schroth Wiechert personal page at LUH: < www.fsz.uni-hannover.de/360.html?…
5D=30310>.
10. Laurence Antony’s AntConc, a freeware corpus analysis toolkit for concordancing and text
analysis: <www.laurenceanthony.net/software/antconc/>.
11. RNC: <www.ruscorpora.ru/en/index.html>.
12. CEFR: Common European framework of reference for languages.
13. See Appendix B.
ABSTRACTS
This study highlights the problem of the lack of German specialized corpora for German for
specific purposes (GSP) courses for engineering students and describes a project aiming at the
development of such a corpus, the Kod.ING corpus. The authors show the relevance of the
Kod.ING corpus in meeting the needs of Master’s degree engineering students at St Petersburg
Polytechnic University who are studying lower-level German. At the preliminary stage of the
pedagogical experiment, nine compound nouns and eight lexical bundles were selected from the
Kod.ING corpus. These were taught to students through hands-on and hands-off data-driven
learning (DDL) activities. The immediate and delayed post-tests proved the effectiveness of short
DDL interventions in terms of acquisition of target vocabulary. The follow-up survey revealed
students’ particular interest in hands-on activities with the Russian National Corpus (RNC). In
conclusion, further research and pedagogical applications are suggested.
L’étude met en évidence le problème lié au manque de corpus spécialisés allemands pour les
cours d’allemand à des fins spécifiques (AFS) pour les étudiants en ingénierie et décrit un projet
visant à développer un tel corpus, le corpus Kod.ING. Les auteurs montrent la pertinence du
corpus Kod.ING pour répondre aux besoins des étudiants en master en ingénierie à l’Université
polytechnique de Saint-Pétersbourg, apprenant l’allemand de niveau assez faible. Au stade
préliminaire de l’expérience pédagogique, 9 noms composés et 8 « blocs lexicaux » ont été choisis
à partir du corpus Kod.ING. Ceux-ci ont été enseignés aux étudiants grâce à des activités d’ABD
pratiques et de non-intervention. Les post-tests immédiats et différés ont prouvé l’efficacité des
interventions courtes d’ABD pour l’acquisition du vocabulaire cible. L’enquête de suivi a révélé
un intérêt particulier de la part des étudiants pour des activités pratiques à partir du corpus
national de la langue russe (CNR). En conclusion, des pistes de recherches et des applications
pédagogiques sont suggérées.
INDEX
Mots-clés: apprentissage basé sur les données (ABD), corpus spécialisés, allemand à des fins
spécifiques (AFS), noms composés allemands, blocs lexicaux, compétences en rédaction
académique, corpus national de la langue russe (CNR)
Keywords: data-driven learning (DDL), specialized corpora, German for Specific purposes (GSP),
German compound nouns, lexical bundles, academic writing skills, Russian National
Corpus (RNC)
Lidil, 58 | 2018
110
AUTHORS
MARINA KOGAN
Peter the Great St Petersburg Polytechnic University, Department of Linguistics and Cross-
Cultural Communication, St Petersburg, Russia
ANNA YAROSHEVICH
OLGA NI
Lidil, 58 | 2018
111
Questionner des corpus pour

questionner la langue.
L’exemple des virgules en allemand
About Corpus Inquiries and Language Inquiries. The Case of Commas in German
Eva Schaeffer-Lacroix
1. Introduction
1 Dans le contexte de l’enseignement-apprentissage d’une langue étrangère (LE),
l’exploration d’un corpus numérique est souvent associée à l’action d’un apprenant
chercheur (Johns, 1991 ; Boulton & Tyne, 2014, p. 75 ; Schaeffer-Lacroix, 2015). Il s’agit,
entre autres, d’arriver à formuler des questions permettant d’étudier certains aspects
du fonctionnement de la langue. Si l’on opte, comme Kennedy et Miceli (2016), pour
une utilisation directe des outils de corpus par les apprenants, ces derniers doivent
arriver à transformer leurs questions linguistiques en requêtes techniques permettant
d’explorer le corpus. La mise en mots de questions par rapport à certains faits
linguistiques intéresse également les chercheurs du domaine du language awareness
(Gombert, 1996 ; Stegu, 2008 ; Landure, 2013), terme que l’on peut traduire par « prise
de conscience linguistique ». Swain (2006, p. 96), Pinto et El Euch (2015) ainsi que
Grobet et Vuksanović (2017), qui adhérent également à ce courant, travaillent plus
particulièrement sur des situations d’interaction verbale, plus précisément des
discussions métalinguistiques.
2 Il a semblé pertinent de combiner ces différentes entrées centrées soit sur les requêtes
sur corpus, soit sur le questionnement de la langue et d’en faire l’élément central d’un
module de soutien à l’écrit académique proposé à de futurs enseignants de l’allemand.
Formuler des requêtes sur corpus portant sur l’élément à réviser — en l’occurrence la
virgule — peut permettre aux apprenants scripteurs (Leblay, 2014) de tester des
références linguistiques par rapport à cet élément, de réviser et stabiliser leurs
connaissances et de les mettre en pratique lors de la phase de réécriture. Le dispositif
Lidil, 58 | 2018
112
élaboré à partir de ce positionnement a été le suivant : deux groupes d’apprenants se

sont vus proposer un atelier dédié à la prise en main d’outils de corpus et à la
conceptualisation de la virgule. L’un des groupes a été invité à aborder le corpus
d’experts Aufsaetze (rédactions) (Schaeffer-Lacroix, 2014) à partir de ses propres
questions et hypothèses (approche inductive) et l’autre a été informé sur des références
existantes par rapport à la virgule allemande avant qu’il ne consulte ce corpus
(approche déductive). Les deux traitements ont mené à des modes différents
d’exploration des données.
2. Recherche-action
3 Le plan de cet article reflète le va-et-vient entre théorie et terrain qui, selon Narcy-
Combes (2005, p. 112), caractérise une recherche-action. Lors de ce type d’intervention,
les données sont recueillies selon un procédé d’observation participante (Montagne-
Macaire, 2007). Impliquée à plusieurs niveaux dans la recherche, j’y joue à la fois le rôle
de conceptrice du module d’enseignement, d’enseignante et de chercheuse.
2.1. Contexte de la recherche
4 À l’ÉSPÉ de Paris, le suivi de la production écrite en allemand langue étrangère

d’étudiants inscrits en première année de master MEEF (Métiers de l’enseignement, de
l’éducation et de la formation) est intégré dans un module d’une durée de 18 heures,
dédié aux courants majeurs en didactique. Avant chaque rencontre en présentiel, les
futurs enseignants d’allemand doivent lire un article en langue allemande portant sur
le thème de la séance à venir. L’un des membres du groupe en fait un compte rendu, et
il le dépose sur l’espace numérique de travail du module afin que son texte puisse être
lu et commenté par les pairs. L’enseignante procède ensuite à une annotation des
erreurs dans le compte rendu et les commentaires afin de signaler aux apprenants
scripteurs les endroits méritant une révision. Les dernières six heures du module sont
consacrées à un atelier de prise en main du système de gestion de corpus Sketch Engine
(Kilgarriff, Rychly & Pomikalek, n. d.) et à la conceptualisation de la virgule. Cet atelier
se termine par une phase individuelle de révision de texte lors de laquelle les scripteurs
sont encouragés à chercher des solutions alternatives en se servant de Sketch Engine.
5 L’annotation des erreurs dans les textes a mis à jour que dans pratiquement toutes les
productions, une proportion assez importante de virgules est absente ou apparait à des
endroits non pertinents. Cette constatation trouve un écho dans le rapport de jury du
CAPES d’allemand de la session 2016. Ce rapport contient des « Indications aux
candidat(e)s quant à l’orthographe allemande » censées les aider à améliorer leur
production écrite lors de la phase d’admissibilité du concours (Goullier, 2016, p. 72).
Certaines de ces indications concernent l’emploi de la virgule ; cependant, elles
n’aident pas forcément à faire des choix éclairés : « l’emploi ou non de la virgule avant
und (et), oder (ou), etc. coordonnant des propositions […] est libre et obéit à des
considérations de sens et de lisibilité » (ibid.).
6 Dans la présente recherche, le thème de la ponctuation émerge de l’observation du
terrain. On peut constater que ces derniers temps, aussi bien en France qu’en
Allemagne, ce thème est également bien représenté dans le secteur des recherches en
Lidil, 58 | 2018
113
didactique et linguistique (Boch & Frier, 2015 ; Boettcher, 2016 ; Hidden, Alday &
Portine, 2016 ; Eluerd, 2017).
2.2. Méthode de récolte et d’analyse de données
7 La recherche a permis de récolter des traces tangibles des actions et productions écrites
des apprenants. Elles sont complétées par des données de type interaction verbale, à
savoir les enregistrements audio des échanges en groupe entier, les discussions des
binômes lors de l’exploration du corpus documentées à l’aide de films d’écran avec
option audio et les entretiens semi-dirigés filmés qui ont clos le projet. Les écrans ont
été filmés à l’aide de Screencast-o-Matic (Big Nerd Software, n. d.). Cet outil numérique
permet de capter en même temps les actions à l’écran et les conversations qui les
accompagnent. Les analyses faites à partir des données récoltées sont de type qualitatif
(analyse fine des films d’écran, des échanges verbaux en groupe entier et des
entretiens) et quantitatif ; des calculs ont été apportés aux données issues des
productions écrites et des transcriptions des films d’écran à l’aide de l’outil de
statistique R (R Development Core Team, 2008).
3. Définitions et positionnement scientifique

3.1. Types d’écrit académique
8 Tout comme Gaskell et Cobb (2004), Chambers (2005), Ädel (2010) et O’Sullivan (2010), je
m’intéresse au potentiel des corpus pour soutenir la rédaction d’écrits académiques.
Selon Rinck (2011), le terme d’écrit académique recouvre des genres textuels qui varient
d’une discipline universitaire à une autre. À partir de cette définition large, il semble
légitime de dire qu’un écrit académique en LE est une production réalisée au sein d’un
module de formation universitaire qui s’adresse aux spécialistes de la langue ou aux
non-spécialistes et qui peut aussi bien viser une formation portant sur le fond que sur
la forme.
9 Le contexte précisé en section 2.1 concerne des étudiants francophones, spécialistes de
l’allemand, ayant produit deux types d’écrit académique, à savoir le compte rendu d’un
article scientifique et le commentaire portant sur l’un des comptes rendus rédigés par
des pairs (cf. la démarche d’implication des pairs pour la relecture d’écrits académiques
proposée par Lejot, 2017). Le cadrage formel pour ces deux genres textuels a été
souple : les étudiants ont été encouragés à rédiger un compte rendu sélectif d’une
demi-page environ dans lequel ils esquissent les idées principales de l’article ainsi que
les conséquences qu’ils pensent pouvoir en tirer pour leurs futures actions
d’enseignant. Le commentaire a été présenté aux participants comme un écrit assez
informel dans lequel ils entrent en discussion avec l’auteur du compte rendu.
3.2. Corpus d’experts Aufsaetze
10 Un corpus d’experts contient exclusivement des productions rédigées par des

personnes considérées comme compétentes par rapport à la langue et au contenu
couverts par le corpus (Boch & Frier, 2015, p. 91). On peut élargir cette définition et
considérer que des étudiants germanophones sont des experts du point de vue de la
Lidil, 58 | 2018
114
langue allemande davantage que les étudiants francophones. Ce positionnement a

motivé mon choix de regrouper les comptes rendus produits par des germanophones
d’une session antérieure en un corpus d’experts nommé Aufsaetze (rédactions) (Auteur).
Ce dernier a été publié sur Sketch Engine et étiqueté de façon automatique au niveau des
parties du discours à l’aide de l’outil RFTagger (Schmid & Laws, 2008) qui détecte le
genre, le nombre et le cas des unités qui en sont pourvues.
3.3. Questionnement linguistique et requête sur corpus
11 Le questionnement est une composante essentielle du protocole expérimental d’un

chercheur (Charaudeau, 2009). Le terme de requête utilisé dans le domaine de
l’exploration des corpus pour désigner une ligne de commande 1 en est proche. On peut
distinguer deux façons différentes de questionner les données d’un corpus, à savoir
l’approche inductive et l’approche déductive.
3.3.1. Approche inductive
12 L’approche inductive prévoit la formulation de références par les apprenants qui

abordent la langue en partant de leurs propres questions et hypothèses. Elle se
matérialise en l’appellation apprenant chercheur qui confère à l’apprenant le rôle
d’explorateur et de créateur de références linguistiques (Johns, 1991 ; Kennedy &
Miceli, 2001, 2016 ; St John, 2001 ; Cheng, Warren & Xun-Feng, 2003, p. 178). Bernardini
(2004, p. 16) évoque cette expression dans le contexte de l’apprentissage par la
découverte appliqué aux corpus. Selon Johns (1991, p. 2), la consultation de lignes de
concordance donne aux apprenants l’occasion de trouver des réponses à leurs propres
questions. Une approche inductive est également adoptée par Kennedy et Miceli (2016)
qui laissent une grande liberté aux utilisateurs de corpus dans des situations de
production écrite. Dans leur scénario, il n’est pas prévu que les apprenants formulent
des références grammaticales après avoir observé des données ; ils doivent pouvoir
aborder le corpus de façon ouverte et personnelle et choisir, à partir des occurrences
obtenues, les formulations qu’ils estiment utiles pour améliorer leur production écrite.
L’exploration du corpus ne doit pas être bridée par un guidage trop serré ; la curiosité
des apprenants pour les phénomènes langagiers attestés doit pouvoir se déployer
librement.
3.3.2. Approche déductive
13 Aussi concluant que l’on puisse trouver l’approche inductive, il est un fait qu’elle est
souvent chronophage et que son bénéfice dépend grandement d’un accompagnement
pédagogique intense et pertinent (Schaeffer-Lacroix, 2015). Ces gestes ont un certain
coût et ne peuvent pas être offerts de façon systématique aux apprenants. L’approche
déductive incite les formés à observer la langue en se servant de références trouvées
ailleurs, par exemple, dans des ouvrages ou sites de référence. Placée dans un contexte
d’ouverture d’esprit et de questionnement des références existantes, cette approche
peut tout aussi bien mener à des résultats intéressants. Tsui (2004, p. 39) décrit une
expérience lors de laquelle des enseignants d’anglais LE ont été encouragés à formuler
des questions linguistiques dont ils pensaient devoir connaitre la réponse afin de
pouvoir fournir aux apprenants des repères grammaticaux pertinents (Tsui, 2004,
Lidil, 58 | 2018
115
p. 57). Le formateur a ensuite sélectionné des lignes de concordance susceptibles de

donner des éléments de réponse à ces questions. Il résulte de cette recherche que
l’observation de données de corpus a aidé les enseignants à mettre à l’épreuve leurs
représentations et connaissances dans le domaine de la grammaire pédagogique (Tsui
2004, p. 57).
3.3.3. Qui pose les questions ?
14 Les chercheurs interrogent les corpus afin d’y trouver des réponses à leurs questions
scientifiques. Qui est censé poser les questions dans le contexte du DDL (data-driven
learning)2 ? Les questions correspondent en principe à des besoins des apprenants et
devraient donc être formulées par eux-mêmes. Dans la littérature, on trouve deux cas
de figure extrêmes : Leńko-Szymańska (2017) décrit une expérience lors de laquelle
c’est l’enseignant qui prend en charge la formulation des questions qui ne sont pas
explicitement motivées par des besoins recensés sur le terrain : « T 3 asks a question:
What is the common feature of these sentences? » (E pose une question : Quel est le trait
commun entre ces phrases ?). Kennedy et Miceli (2016) souhaitent rendre les
apprenants capables de formuler, de façon autonome, des « open-ended searches », donc
des requêtes sur corpus non préformatées correspondant à des questions que les
formés se posent. Les chercheuses s’attendent à ce que le développement de cette
capacité mène à l’observation et à la conceptualisation de phénomènes linguistiques.
3.4. Recherches sur la virgule
15 Les données que j’exploite dans cet article attestent d’une maitrise perfectible de la
virgule dans pratiquement toutes les productions en allemand. Selon Favriaud (2011),
ce signe de ponctuation contribue à la structuration du texte : il informe sur le lien et
les frontières entre ses différents éléments ; la ponctuation aurait « une vertu réflexive
et réfléchissante en regard de l’écrit » (ibid.). On peut donc conclure qu’en situation
d’apprentissage de la production écrite, l’insertion (ou non) des virgules est un
domaine qui renseigne sur certaines compétences du scripteur, en l’occurrence son
degré de compréhension du fonctionnement de la langue.
16 Les recherches sur l’enseignement-apprentissage de la virgule en allemand sont
majoritairement pensées pour des contextes d’un apprentissage institutionnel de la
langue maternelle (Bredel & Primus, 2007 ; Sappok, 2011) et plus rarement de la langue
étrangère (Kirchhoff & Primus, 2016 ; Diehl, Pistorius & Fayolle Dietl, 2002). Kirchhoff
et Primus (2016, p. 78) proposent une analyse multilingue du phénomène : elles
comparent l’emploi de virgules dans cinq situations différentes en allemand, anglais,
espagnol et russe. Dans deux des situations, des différences peuvent être observées. La
première concerne ce que Boettcher (2016, p. 336) appelle le « marquage de territoire 4 »
entre une structure verbale d’accueil et un groupe subordonné, pouvant correspondre
à une complétive ou un groupe conjonctionnel. Comme l’illustre l’exemple suivant de
Kirchhoff et Primus (2016, p. 87), contrairement aux autres langues observées, en
allemand et en russe, ce marquage est effectué à l’aide d’une virgule : « Ich glaube, dass
niemand zur Party gekommen ist » ; « Я полагаю, что никто не прибыл на вечеринку » (Je
crois que personne n’est venu à la fête).
17 La deuxième différence concerne la présence ou non-présence d’une virgule devant des
groupes infinitifs en allemand (Kirchhoff & Primus, 2016, p. 88). La dernière réforme de
Lidil, 58 | 2018
116
l’orthographe allemande a mené à un assouplissement des références concernant ce

point ce qui oblige les scripteurs à décider en fonction du contexte (Regeln und
Wörterverzeichnis, 2006, § 75(2) et § 76) s’il faut mettre une virgule ou pas. Un autre
domaine qui oblige à faire des choix est la coordination d’éléments de même nature
grammaticale par und (et), oder (ou), sowie (ainsi que), wie (comme), beziehungsweise
(respectivement), entweder… oder (ou… ou), weder… noch (ni… ni). Ces éléments ne sont
en principe pas séparés par une virgule (Regeln und Wörterverzeichnis, 2006, § 72) ;
toutefois, il peut arriver qu’une virgule séparatrice soit nécessaire afin de
désambiguïser le sens.
18 J’ai choisi comme cadre descriptif et d’analyse les catégories suivantes proposées par
Boettcher (2016, p. 330) qui paraissent, davantage que les 132 règles fournies pour
l’entrée Komma (virgule) dans le dictionnaire Duden (Bibliographisches Institut GmbH,
2017), convenir à un public d’apprenants scripteurs ayant besoin de faire des choix
linguistiques raisonnés dans des délais acceptables.
• Schlaglöcher (nids de poule), donc les incises : « Dies sind, meine Damen und Herren, die schönsten
Bilder unserer Ausstellung » (Voici, Mesdames et Messieurs, les tableaux les plus beaux de
notre exposition).
• Drillinge (triplets), donc les énumérations de plus de deux éléments de même nature : « Meine
Lieblingsmaler sind Picasso, Dix und Klimt » (Mes peintres préférés sont Picasso, Dix et Klimt).
• Territoriumsmarkierung (marquage du territoire), donc le marquage de séparations entre
groupes syntaxiques dont l’un est subordonné à l’autre : « Picasso, der aus Spanien kommt, hat
lange in Frankreich gelebt » (Picasso qui est originaire d’Espagne a vécu pendant longtemps en
France).
19 Les catégories de Boettcher, à teneur métaphorique, sont susceptibles d’offrir à des
apprenants scripteurs des pistes pour tester la pertinence de références existantes lors
de l’exploration de la virgule dans des corpus contenant des textes de scripteurs
experts traitant un sujet comparable. Cette exploration peut ensuite être mise à profit
pour la révision de texte.
3.5. Questions de recherche
20 Les données récoltées lors de l’expérimentation présentée en section 4 sont analysées à

l’aide des questions suivantes : Qu’est-ce que les enregistrements de l’écran et de la
conversation des binômes lors de la prise en main de l’outil peuvent nous apprendre
sur la démarche de recherche sur corpus des apprenants, en particulier dans le
domaine du questionnement et de la formulation des requêtes (Q1) ? Dans quelle
mesure les questions correspondent-elles à une reprise de ce qui a été proposé pendant
la formation (Q2) ? Peut-on observer la formulation personnelle de questions
ouvertes (Q3) ? Le questionnement soutient-il la conceptualisation du fait linguistique
enquêté, à savoir la présence ou absence de la virgule (Q4) ?
4. Dispositif
21 J’ai proposé à deux cohortes d’apprenants (groupe 1 : n = 9 ; groupe 2 : n = 5) un atelier
d’une durée de six heures dédié à la virgule et à la prise en main de Sketch Engine. Les
deux groupes ont été, à des moments différents de l’atelier, confrontés aux catégories
de Boettcher. Le groupe 1, soumis à une approche déductive, a eu connaissance de ces
Lidil, 58 | 2018
117
références avant l’exploration de la virgule dans le corpus Aufsaetze et le groupe 2 y a

été exposé après la phase de travail en binômes. J’ai présenté l’approche déductive au
groupe 1 sans la nommer explicitement.
Après la pause, je vais parler de la virgule. Ce sera un apport linguistique. […] on
peut […] se dire, hein : […] il y a des règles qui existent, des références, par exemple
dans le Duden, par rapport à la virgule, ou dans d’autres dans des grammaires, ou
parce que je pense connaitre une règle […] et on peut […] venir avec ces idées-là et
ensuite tester leur adéquation dans le corpus. […] C’est ce qu’on va faire tout à
l’heure.
22 Le groupe 2 a obtenu deux informations par rapport à la démarche à suivre, la première
pendant la session de formation technique et la deuxième, rappelée ci-dessous,
directement avant le travail en binômes5.
C’est donc le moment où on va faire l’exploration du corpus hein Aufsaetze […]
l’idée, c’est que […] vous partiez de vos de vos:: représentations par rapport à l- la
virgule, dans quelle situation on en a besoin/ ou pas besoin. Vous pouvez carrément
l’écrire […] pour vous mettre d’accord sur ce que vous avez envie de tester. à l’aide
de ce corpus-là. Après, vous essayez […] d’explorer. […] si ça peut être utile quand
vous explorez: le corpus. Sur Edmodo, je vous ai mis à disposition des requêtes-type
en langage mathématique. […] Donc, on veut savoir dans quelle situation il faut: la
virgule en allemand, voilà, hein, bon. […] Vous essayez de formuler parce qu’on sait
que avec 132 règles, on ne peut pas fonctionner/. Vous essayez avec ce que vous
observez là de trouver, hein, admettons, trois, quatre, cinq choses qui vous
aideraient, VOUS, quand vous devrez hein écrire des choses à faire moins d’erreurs
parce que vous en avez presque presque tous fait.
23 On peut trouver que cette approche n’est que partiellement inductive vu que les deux
groupes avaient accès à trois modèles de requête CQL (Corpus Query Language), fournis
sur Edmodo (Borg & O’Hara, 2008), l’espace numérique de travail du module. Cette aide
technique met en quelque sorte à disposition des hypothèses possibles concernant la
co-apparition de virgules et de conjonctions ou d’infinitives.
[word=","][tag="CONJ.*"]
[tag="CONJ.*"] : Cliquer sur "node forms" pour voir les formes les plus fréquentes.
[word=","][]{0,4}[word="zu"][tag="VINF.Full"]
24 La première de ces formules permet de trouver des virgules suivies d’une conjonction
et la dernière peut être utilisée quand on cherche une virgule qui est suivie, à une
distance entre 0 et 4 mots, de zu et d’un verbe à l’infinitif, par exemple, zu machen (pour
faire). La deuxième ligne d’aide incite à utiliser la fonctionnalité Node forms (formes du
pivot6) qui permet d’obtenir une liste de fréquence de l’élément recherché, en
l’occurrence des conjonctions.
25 Après la phase d’exploration du corpus en binômes, nous avons procédé à un échange
oral en groupe entier afin de classer ensemble dans les catégories de Boettcher les
occurrences observées dans le corpus. Nous y avons également classé une sélection
d’énoncés erronés produits par les étudiants. Les scripteurs avaient ensuite l’occasion
d’explorer individuellement le corpus dans le but de réviser leurs textes.
5. Analyse des données

26 La recherche a permis de créer un corpus d’apprenants7 d’écrits académiques de 7 634
mots en langue allemande, dont 12 comptes rendus et 22 commentaires. S’y ajoutent les
transcriptions des deux entretiens finaux (2 259 et 4 353 mots), les annotations
Lidil, 58 | 2018
118
sélectives des films d’écran avec enregistrement audio des explorations de quatre
binômes8 et les transcriptions des enregistrements audio des échanges en groupe
entier. Ces échanges illustrent la façon dont les binômes s’emparent des outils de
corpus tout en réfléchissant ensemble sur les caractéristiques des virgules. Les
éléments pouvant soutenir des observations quantitatives ont été rassemblés dans un
fichier Excel afin de permettre des calculs avec R (R Development Core Team, 2008).
5.1. Types d’erreurs
27 Afin de pouvoir analyser les productions écrites du projet à l’aide de calculs faits avec R,
j’ai choisi des catégories renseignant, entre autres, sur le genre textuel, la longueur des
textes en termes de nombre de mots, le nombre de conjonctions de subordination, la
nature d’erreur des virgules (absentes, à remplacer par un autre signe de ponctuation
ou superflues) et les catégories d’erreur inspirées par Boettcher. « NA’s » veut dire ici
« absence de données ». Le terme de « territoire » désigne des groupes syntaxiques
pouvant être bornés par une virgule ; « violation de territoire » signale la présence
non pertinente d’une virgule au sein d’un tel groupe, et « territoire non marqué » veut
dire qu’il y a absence d’une virgule à un endroit où elle est nécessaire pour marquer la
limite entre deux groupes syntaxiques. La catégorie « double partiellement marqué »
renseigne sur l’absence d’une des deux virgules d’une virgule double (paariges Komma),
p. ex., pour encadrer une incise.
Tableau 1. – Aperçu des données des deux cohortes (n = 14).
28 L’analyse des comptes rendus et des commentaires a permis de constater que les
catégories « virgule absente » et « territoire non marqué » contiennent les scores
d’erreur les plus élevés (respectivement 71 et 76 erreurs). Elles sont suivies des
catégories « virgules superflues » (32 erreurs) et « violation de territoire » (26 erreurs).
Les résultats concernant les virgules absentes et la lecture cursive des productions
soutiennent la supposition que plus les apprentis scripteurs utilisent de conjonctions
de subordination, plus ils ont tendance à faire des erreurs de virgule.
5.2. Types de requête
29 Comme précisé supra, explorer un corpus peut être associé à une quête ayant une
valeur opérationnelle pour des apprenants d’une LE tout en étant scientifiquement
Lidil, 58 | 2018
119
défendable. Cela motive le repérage d’indices d’une démarche de recherche effectuée

par les binômes, à savoir des questions explicites ou plus généralement des
formulations signalant l’intention ou la réalisation d’une démarche d’exploration (Q1).
Tableau 2. – Aperçu des requêtes.
30 Pendant les 15 minutes d’exploration du corpus qui leur étaient allouées, les binômes
ont réalisé entre 4 et 17 requêtes. 27 requêtes ont été effectuées par les membres du
groupe 1 (Bertille et Agnès ; Germine et Sarah9) soumis à une démarche déductive à
travers une formation préalable sur les catégories de Boettcher. 11 requêtes ont été
faites par les deux binômes du groupe 2 à qui on avait proposé une démarche
inductive : Chantal et Fanny ainsi que Habiba et Laura avaient été invitées à formuler
leurs propres questions et hypothèses.
31 On peut recenser en tout 24 requêtes de type CQL (Corpus Query Language) et 13 requêtes
de type simple, c’est-à-dire, en langage naturel, dont 8 avec indication d’un contexte.
11 requêtes sur 37 ont mené à un résultat zéro, presque toujours en raison d’une erreur
de formulation de la requête, et 8 (signalés dans le tableau comme « NA’s ») n’ont pas
été exécutées jusqu’au bout.
5.3. Types de questionnement des données
32 Dans les données, on peut distinguer trois types de démarche de questionnement des
données, à savoir l’exploration ouverte, l’exploration fermée et l’exploration aléatoire.
5.3.1. Exploration ouverte
33 L’exploration ouverte correspond à une démarche de recherche très générale, comme

la recherche de toutes les virgules dans le corpus :
Laura : Mais: on peut tout d’abord tout simplement . faire une recherche de la
virgule et: voir ce que ça donne.
34 Ce mode peut être utile s’il mène par la suite à la précision de la question de travail et à
un examen ciblé des données. Dans une certaine mesure, une démarche d’exploration
ouverte est nécessaire pour obtenir des résultats inattendus : chercher toutes les
conjonctions et voir lesquelles sont précédées d’une virgule peut renseigner sur le fait
qu’en allemand, toutes les conjonctions introduisant un groupe subordonné sont
précédées d’une virgule et que les conjonctions de coordination en sont dépourvues,
sauf si elles ont un sens d’opposition comme aber (mais) et sondern (mais, au contraire),
sens illustré dans cet exemple tiré du corpus Aufsaetze.
So kann ein jeder Zwang ausüben, wenn er nur die wirtschaftlichen oder physischen
Druckmittel dazu hat, aber Autorität ist nie garantiert, sondern muss gebildet werden!
(Ainsi tout un chacun peut exercer une pression à condition d’avoir les moyens
économiques ou physiques de coercition pour le faire mais l’autorité n’est jamais
garantie — au contraire, elle doit être constituée !)
Lidil, 58 | 2018
120
5.3.2. Exploration fermée
35 Le terme d’exploration fermée désigne des requêtes qui restreignent la recherche à des
objets précis. Si une exploration cible de façon trop étroite son objet, elle risque de
mener à un raisonnement circulaire : chercher des virgules directement suivis d’un
pronom relatif permet simplement de constater qu’il y a un certain nombre
d’occurrences de ce type dans le corpus.
Bertille : Maintenant, on peut regarder s’il y a une virgule avec les justement avec
les groupes verbaux relatifs. […] Effectivement, la virgule apparait avant tous les
pronoms relatifs.
36 Toutefois, des requêtes fermées ne sont pas forcément sans effet heuristique : dans
l’exemple suivant, la longue liste d’occurrences obtenues confirme les représentations
déjà là de Sarah et Germine par rapport à la nécessité absolue de mettre une virgule
avant les conjonctions de subordination en allemand.
Sarah : Donc, on va essayer: avec .. les conjonctions de SUBordination.
<84 lignes de concordance s’affichent à l’écran.>
(Sarah) : Alors=
Germine : =Ouh là !
Sarah : Eh ben, là aussi, xxx
Germine : Et là, on voit que c’est o- [obligaTOIre.]
5.3.3. Exploration aléatoire
37 Une démarche d’exploration aléatoire se traduit par des gestes qui ne semblent pas
motivés par des questions pertinentes ou par des tâches reconnaissables. On observe
des requêtes qui ne paraissent pas logiques, comme celle-ci effectuée par Fanny :
<[word=","][tag="CONJ.Sub.*"] & conjonction & determiner>. Ici, l’outil est censé
trouver une virgule directement suivie par une conjonction de subordination. Ces deux
éléments sont combinés avec une conjonction et un déterminant apparaissant à une
distance de 5 mots à leur gauche ou leur droite. Le film d’écran qui documente le travail
de Chantal et de Fanny renseigne sur le fait que c’est cette dernière qui saisit, à un
rythme effréné, toutes les requêtes. Fanny a tendance à cocher plusieurs options à la
fois dont certaines sont incompatibles entre elles. Chantal reste en retrait ; elle se
contente de faire des commentaires et des suggestions. Parfois, elle essaie de freiner
l’élan de Fanny.
Fanny : Si on change(ait). On n’a qu’à mettre celui-là.
<Fanny clique sur une commande de CQL préenregistrée qui permet de chercher les
conjonctions de subordination précédées d’une virgule. Elle coche en même temps
le contexte conjunction [conjonction] et determiner [déterminant] ce qui ne permet
pas de trouver d’occurrences.>
Fanny : Cela avait marché tout à l’heure.
Chantal : Là, on ne bouge plus.
5.3.4. Aperçu général des démarches adoptées
38 Les résultats présentés dans le tableau 3 permettent de constater que l’exploration

fermée est la démarche la plus souvent adoptée, avec un déséquilibre important entre
les deux groupes (25 fois par le groupe 1, soumis à l’approche déductive, et 4 fois par le
groupe 2, soumis à l’approche inductive). L’exploration aléatoire ne concerne qu’un
seul des quatre binômes (groupe 2), et les actions d’exploration ouverte, en principe les
plus propices à faire découvrir de nouvelles choses, ont été entreprises par un des
Lidil, 58 | 2018
121
binômes du groupe 1 et par les deux du groupe 2. La démarche de Germine et Sarah

(groupe 1) est la plus équilibrée : deux explorations ouvertes sont secondées de huit
explorations fermées. Dans le script de leur interaction verbale, on constate davantage
de moments de discussion métalinguistique que dans ceux des autres binômes.
Tableau 3. – Types d’exploration.
39 Le test Fisher’s exact fournit les scores de probabilité suivants pour un seuil de p < 0,05 :
0,047 (exploration ouverte/fermée), 0,001 (exploration fermée/aléatoire), 0,444
(exploration ouverte/aléatoire). Les deux approches peuvent donc servir de variables
indépendantes, sauf pour la corrélation « exploration ouverte/aléatoire ».
5.4. Interprétation des occurrences par les apprenants

5.4.1. Absence d’interprétation
40 Les observations des films d’écran avec son intégré montrent qu’une bonne partie des
requêtes s’enchainent sans qu’elles ne soient suivies d’observations précises des
occurrences obtenues. En particulier Fanny parait plusieurs fois pressée de formuler
des références sans prendre le temps de réfléchir : « Alors là, on a des und, doch,
sondern, aber (et, ou, mais). C’est quoi, la règle ? » Dans l’exemple ci-dessous, Germine et
Sarah recherchent tous les pronoms du corpus sans faire figurer la virgule dans la
requête. Leur interprétation des occurrences obtenues ne se concentre toutefois pas
sur les pronoms, sauf pour constater (à tort) une erreur d’étiquetage pour la forme mich
(me). À la place, les deux observent d’autres phénomènes liés à la virgule, en
l’occurrence l’incise qu’elles appellent ici « apposition ».
Sarah : [Si on] met pronom tout simple ? . Là . au lieu de mettre Rel, on met juste
Pronom.
Germine : °°On peut essayer.°°
Sarah : Sssupprimer/ .. Ah voilà, on a une sacré liste, donc tous les: pronoms/
Germine : Oui. .. Enfin, pas TOUS. (Il y a) des exemples un peu bizarres avec mich.
Sarah : Parfois, c’est . des virgules qui sont ENtre crochets, tu vois, là, c’est MEIner
MEInung NACH/ (selon mon avis)
Germine : Oui, c’est il y a (de nouveau une) virgule.
Sarah : C’est des appositions.
Germine : Oui.
5.4.2. Formulation de références
41 D’autres situations illustrent un effort de formulation d’une référence.

Chantal : Donc, si on résume : on a déjà TROIS . raisons de mettre une virgule :
devant une conjonction de subordination &=
Fanny : =Mhm.
Lidil, 58 | 2018
122
Chantal : & devant une conjonction de coordination10, devant un pronom relatif=&

Fanny : Ouais.
Chantal : & qui introduit enfin .
Fanny : Okay.
42 Les éléments évoqués dans l’exemple ci-dessus ne correspondent toutefois pas à une
découverte d’éléments auparavant inconnus. Germine et Sarah vont davantage dans
cette direction en formulant une hypothèse pertinente par rapport à l’infinitive
introduite par la forme um qui, effectivement, est toujours précédée d’une virgule (« um
etwas zu machen » veut dire « pour faire quelque chose »). Il aurait été possible de
rapprocher ce phénomène du concept « marquage du territoire » de Boettcher.
Germine : Il y a le: c’est quoi, um zu ? Une proposition infinitive ?
Sarah : En fait, um zu, c’est devant le um, enfin c’est devant le um qu’il y a peut-être
une virgule.
5.4.3. Références non fondées sur les données du corpus
43 Laura (tout comme Agnès) sort du cadre de l’observation empirique des données du
corpus pour choisir la prosodie comme cadre de référence : selon elle, la virgule
correspondrait à une pause repérable à l’oral.
Laura : Je pense que la virgule, en fait, elle est assez claire : il suffit de de de se dire
la phrase, en fait, à l’oral […] parce que je pense qu’on fait automatiquement une
pause quand quand il y a une virgule.
44 L’exemple précédant soutient l’idée que la démarche inductive peut amener les
apprenants à avoir recours à des références antérieures dont certaines sont moins
pertinentes que celles offertes lors d’une démarche déductive.
45 Une autre façon d’éviter l’emploi des outils de corpus peut être observée par Fanny qui
cherche plusieurs fois sur Internet des réponses à ses questions : elle vérifie la
définition de conjonction de coordination et de subordination, et elle cherche le terme
métalinguistique correspondant à um zu (pour).
Fanny : Comment on appelle ça, um zu ? De toute façon, il faut que je révise ça . pour
le CAPES11.
46 Fanny va jusqu’à formuler dans son moteur de recherche Internet la requête
« Utilisation de la virgule en allemand » sans toutefois la mener jusqu’au bout.
6. Discussion des résultats

47 Les types de questionnement qui peuvent être recensés dans les données de cette
expérience varient entre questions de recherche motivées et démarches tâtonnantes ou
aléatoires. Dans les transcriptions des discussions faites pendant l’exploration du
corpus, on trouve quelques traces de questionnements susceptibles de mener à la
découverte de nouveaux savoirs ou à la remise en question de représentations
erronées. Bertille émet l’hypothèse suivante : « Il n’y a peut-être jamais de verbe après
(une virgule) », hypothèse qu’elle n’arrive toutefois pas à transformer en une requête
sur corpus. On peut observer quelques tentatives potentiellement fructueuses de partir
d’un concept, en l’occurrence l’énumération et l’incise.
Chantal : On fait quoi maintenant ?
Fanny : Ben, il faut qu’on trouve l’énumération mais: je ne sais pas comment faire.
Lidil, 58 | 2018
123
48 Sarah et Germine visent à enquêter sur le phénomène d’incise qu’elles appellent

« apposition ». Elles ne trouvent pas l’étiquette RFTagger qui y correspond, ce qui est
normal vu qu’une incise se compose de plusieurs mots ; le RFTagger s’applique
uniquement aux lexèmes simples.
Sarah : Ah oui. Comment on va trouver apposition ?
<Parcourt la page d’aide de Sketch Engine contenant les étiquettes pour RFTagger>
Sarah : Appr ah oui. Euh: ..
Germine : Appo c’est quoi ?
Sarah : Tu vois Appo ?
Germine : Oui, là. Je ne sais pas ce que c’est.
Sarah : On va essayer. On va bien voir.
Germine : ça ne marche pas […] Parce qu’il y a zu là-haut.
Sarah : Oui.
<Efface zu dans le champ de recherche non pertinent.>
Sarah : Non, ça ne marche pas. Apposition, on ne peut pas trouver.
49 La plupart du temps, les questionnements ressemblent davantage à la formulation
d’une tâche assez peu motivée par une quête susceptible de créer des connaissances : il
n’est pas plausible de voir un lien entre l’apparition d’une virgule et d’une préposition,
éléments que tentent de rechercher Agnès et Bertille, ou un lien entre la coprésence
d’une virgule et d’un déterminant, combinaison ayant fait l’objet d’une requête de
Chantal et Fanny. Plusieurs fois, les étudiantes combinent la virgule avec une classe de
mot qui semble avoir été choisie au hasard, apparemment sans rapport avec les
difficultés que l’on peut avoir quand on doit placer les virgules en allemand. Les
moments les plus propices à la conceptualisation ont été les discussions
métalinguistiques entamées par deux des binômes. L’une des discussions entre Chantal
et Fanny part d’un désaccord par rapport au terme de coordonnant que Fanny utilise
pour désigner les conjonctions de subordination. Elle ne semble pas avoir une
conscience précise de la différence entre les conjonctions de subordination, les
conjonctions de coordination et les prépositions. Pendant l’interaction verbale, Fanny
passe d’un terme à l’autre pour se référer aux mêmes phénomènes.
Chantal : Alors, wenn, dass, ganz, ob, weil= (quand, que, tout à fait, si, parce que)
<Fanny coupe Chantal qui avait commencé à regarder les occurrences pour stipuler
une règle.>
Fanny : =La première règle, c’est que dès qu’il y a une subordonnée, la virgule se
trouve avant le subordonnant/ […]
Chantal : Comment est-ce que ça se fait ? Je n’appelle pas ça subordonnant, moi.
Fanny : Le mot ? Le mot, on appelle ça un subordonnant. Le dass, c’est un
subordonnant.
Chantal : Ah bon ?
Fanny : […] C’est pas des conjonctions de coordination, mais où est donc or ni car ?
Chantal : J’crois hein.
<Fanny commence alors à chercher sur Internet des informations sur les
conjonctions de coordination et de subordination en langue française.>
Fanny : Donc, là, nous sommes dans la coordination. […]
<Fanny se trompe ici.>
Chantal : [Il y a les deux] puisqu’en allemand, c’est: les deux.
50 Chantal clôt la discussion en mettant le doigt sur le fait que certains des éléments
observés sont pluricatégoriels (Boutet & Deprez, 2002). Ce fait est également l’objet
d’une discussion métalinguistique menée entre Germine et Sarah. Germine s’étonne de
découvrir ohne (sans) dans la liste des occurrences des conjonctions de subordination.
Lidil, 58 | 2018
124
Germine : ohne c’est pas une conjonction de subordination, non ? . Ah mais c’est
parce qu’il y a zu ? Ah non.
Sarah : Mais SI. à, dans, par, pour, envers, de, sans, sous . ça, c’est les conjonctions
de subordination.
Germine : =[Ah non,]
Sarah : c’est des conjonctions [de coordination]
Germine : ohne, °°c’est (pas)°° une conjonction de (léger rire)) subordination.
Sarah : xxx
Germine : On va le: garder en tête.
Sarah : Oui.
Germine : On va (le noter.)
Sarah : Oui, tu peux noter que: que: hein, on se posé la question du ohne.
Germine : Oui. Hein .
51 Dans cette interaction, un flottement catégoriel peut être constaté pour Sarah. En effet,
la préposition ohne (sans) peut apparaitre au sein de la locution ohne dass (sans que)
introduisant un groupe conjonctionnel et dans ohne zu (sans) introduisant un groupe
infinitif. Un questionnement comparable se trouve dans les interactions verbales de
Germine et Sarah et de Chantal et Fanny quand elles cherchent le métaterme
correspondant à um zu (pour).
7. Conclusion
52 Cette recherche a examiné la façon dont de futurs enseignants d’allemand se sont
emparés d’outils de corpus qui leur ont été présentés comme des instruments pouvant
soutenir la conceptualisation de la virgule allemande. L’exploration de ce fait
linguistique dans le corpus a eu comme conséquence que les apprenants réfléchissent,
entre autres, sur la structuration du discours et sur le rôle que jouent les conjonctions
pour cette structuration. Dans les lignes qui suivent, je présenterai les résultats que la
recherche a permis d’obtenir par rapport aux quatre questions de travail formulées en
section 3.5.
53 L’analyse des données permettant de répondre à la première des questions (« Qu’est-ce
que les enregistrements de l’écran et de la conversation des binômes lors de la prise en
main de l’outil peuvent nous apprendre sur la démarche de recherche sur corpus ? ») a
mené à l’identification de trois niveaux d’exploration du corpus, à savoir l’exploration
ouverte, fermée et aléatoire. Il s’est avéré que la combinaison des deux premiers types
d’exploration peut soutenir une démarche de réflexion sur la langue. Je me suis
attendue à ce que l’aspect technique de la formulation des requêtes pose problème aux
apprenants ; ce n’était pas vraiment le cas même si certaines difficultés subsistent.
Enquêtrice : (Cela) ne vous a pas perturbé de devoir taper comme ça un langage pas
naturel ?
Laura : Non, non. Mais c’est très simple, une fois […] qu’on trouve les codes, on sait
les employer.
54 Par contre, la formulation des questions de travail a parfois été laborieuse. Lors de
l’entretien du groupe 1, Sarah et Agnès thématisent cette difficulté en mentionnant
deux conditions différentes pour interroger un corpus de façon pertinente, la nécessité
d’avoir un doute par rapport à un fait linguistique et d’être au clair par rapport à sa
question de travail.
Sarah : [Il faut] avoir un doute ou savoir qu’on a fait une faute=
Agnès : Il faut avoir une question précise, sinon . si c’est vague, on ne trouve pas.
Lidil, 58 | 2018
125
55 Pour la deuxième question de recherche (« Dans quelle mesure les questions

correspondent-elles à une reprise de ce qui a été proposé pendant la formation ? »), les
résultats suivants sont disponibles : les catégories de Boettcher n’ont pas été
nommément citées dans les explorations du corpus par le groupe 1 soumis à une
approche déductive. Les requêtes préformatées, publiées sur Edmodo, ont été reprises
par tous. Les entretiens contiennent des observations sur les méthodes d’investigation
proposées aux étudiantes ; les approches déductives et inductives sont discutées dans
l’entretien du groupe 2 soumis à une approche inductive.
56 La troisième question s’est intéressée aux traces de formulations personnelles de
questions ouvertes permettant d’enquêter sur les virgules allemandes. J’ai identifié peu
de questions ouvertes explicitement dédiées aux virgules mais les discussions
métalinguistiques des binômes contiennent des questions spontanées concernant
d’autres domaines, comme la catégorie syntaxique à laquelle appartient un terme
donné.
57 J’ai également cherché à savoir dans quelle mesure le questionnement soutient la
conceptualisation du fait linguistique enquêté. Sur la base des données explorées pour
cet article, il n’est pas possible de donner une réponse détaillée à cette question ;
l’analyse des transcriptions des séances plénières et les révisions individuelles
pourraient apporter des éléments de réponse plus précis. Les entretiens attestent
toutefois d’un début de prise de conscience par rapport à l’usage de la virgule en
allemand.
Habiba : <Parler des virgules,> ça nous a éclairées sur la façon dont on utilise la la
virgule . en allemand puisque ce n’est pas forcément un thème qu’on aborde .
pendant notre: cursus hein scolaire ou universitaire […] et puis on: maintenant (on)
fait plus attention.
58 En section 3.3.3, la formulation d’une question de travail a été présentée comme
élément central d’une activité de recherche. On peut noter qu’avant le début du travail
à deux, l’enseignante donne comme envoi sa propre question, même au groupe 2
soumis à une approche inductive : « Donc, on veut savoir dans quelle situation il faut: la
virgule en allemand ». On peut se demander si cette façon de présenter le travail a trop
poussé les participantes à faire des descriptions linguistiques de phénomènes qui leur
étaient familiers. Il aurait peut-être été judicieux d’encourager les apprenantes — déjà
pendant cette phase d’interrogation et non seulement pendant la phase de révision — à
partir de leurs propres erreurs et de chercher des solutions dans le corpus. Comme
cette recherche l’a illustré, traduire un besoin d’apprentissage en une question et
ensuite en une requête sur corpus n’est toutefois pas un geste banal. Selon Amadieu et
Tricot (2014, p. 29), plus on a de connaissances dans un domaine, plus on est en mesure
de les augmenter de façon autonome à l’aide d’un outil numérique. On peut en conclure
que l’approche déductive offerte à des apprenants, explorateurs de corpus, peut être un
instrument heuristique pertinent s’il est proposé en parallèle avec des démarches de
découverte plus libres. Il reste à démontrer, à l’aide d’analyses complémentaires, dans
quelle mesure ces approches mènent à la révision pertinente de productions d’écrits
académiques.
Lidil, 58 | 2018
126
BIBLIOGRAPHIE
ÄDEL, Annelie. (2010). Using Corpora to Teach Academic Writing: Challenges for the Direct
Approach. Dans M. C. Campoy-Cubillo, B. Belles-Fortuño & M. L. Gea-Valor (dir.), Corpus-Based
Approaches to English Language Teaching (p. 39-55). Londres, New York : Continuum.
AMADIEU, Frank & TRICOT, André. (2014). Apprendre avec le numérique. Mythes et réalités. Paris : Retz.
BERNARDINI, Silvia. (2004). Corpora in the Classroom. An Overview and Some Reflections on Future
Developements. Dans J. Sinclair (dir.), How to Use Corpora in Language Teaching (p. 15-36).
Amsterdam, Philadelphie : John Benjamins Publishing Company.
BOCH, Françoise & FRIER, Catherine. (2015). Travailler le texte : ponctuation, anaphores et
collocations. Dans F. Boch & C. Frier (dir.), Écrire dans l’enseignement supérieur : des apports de la
recherche aux outils pédagogiques (p. 53-109). Grenoble : UGA Éditions.
BOETTCHER, Wolfgang. (2016). Komma & Co unter dem Kooperationsprinzip: Interpunktionslernen

im Kompetenzbereich “Schreiben und Sprachreflexion”. Dans R. Olsen, C. Hochstadt &
S. Colombo-Scheffold (dir.), Ohne Punkt und Komma... Beiträge zu Theorie, Empirie und Didaktik der
Interpunktion (p. 326-361). Berlin : RabenStück Verlag.
BOULTON, Alex & TYNE, Henry. (2014). Des documents authentiques aux corpus. Paris : Didier.
BOUTET, Josiane & DEPREZ, Christine. (2002). Ici et là-bas, public et privé. Des catégories à
interroger. Cahiers de l’Institut de linguistique de Louvain, 28(3/4), 37-46.
BREDEL, Ursula & PRIMUS, Beatrice. (2007). Komma & Co: Zwiegespräch zwischen Grammatik und
Performanz. Zeitschrift für Sprachwissenschaft, 26, 81-131. <https://doi.org/10.1515/ZFS.2007.006>.
CHAMBERS, Angela. (2005). Integrating Corpus Consultation in Language Studies. Language Learning
& Technology, 9(2), 111-125. Disponible en ligne sur <www.lltjournal.org/item/2509>.
CHARAUDEAU, Patrick. (2009). Dis-moi quel est ton corpus, je te dirai quelle est ta problématique.
Corpus, 8, 37-66. Disponible en ligne sur <https://journals.openedition.org/corpus/1674>.
CHENG, Winnie, WARREN, Martin & XUN-FENG, Xu. (2003). The Language Learner As Language
Researcher: Putting Corpus Linguistics on the Timetable. System, 31(2), 173-186.
DE COCK, Sylvie & TYNE, Henry. (2014). Corpus d’apprenants et acquisition des langues. Recherches
en didactique des langues et des cultures – Les Cahiers de l’Acedle, 11(1). <https://doi.org/10.4000/rdlc.
1716>.
DIEHL, Erika, PISTORIUS, Hannelore & FAYOLLE DIETL, Annie. (2002). Grammatikerwerb im
Fremdsprachenunterricht – Ein Widerspruch in sich? Dans W. Börner & K. Vogel (dir.), Grammatik
und Fremdsprachenerwerb. Kognitive, psycholinguistische und erwerbstheoretische Perspektiven
(p. 143-163). Tübingen : Narr.
ELUERD, Roland. (2017). La Ponctuation française. Règles, usages et plaisir du texte. Paris : Garnier.
FAVRIAUD, Michel. (2011). Approches nouvelles de la ponctuation, diachroniques et

synchroniques. Langue française, 4(172), 3-18. <https://doi.org/10.3917/lf.172.0003>.
Errors? System, 32(3), 301-319.
Lidil, 58 | 2018
127
GOMBERT, Jean-Émile. (1996). Activités métalinguistiques et acquisition d’une langue. Acquisition et

interaction en langue étrangère (Aile), 8, 41-55. Disponible en ligne sur <https://
journals.openedition.org/aile/1224>.
GOULLIER, François. (2016). Rapport de jury CAPES Externe, section Allemand, session 2016. Ministère de
l’Éducation nationale, de l’Enseignement supérieur et de la Recherche. Disponible en ligne sur
<http://media.devenirenseignant.gouv.fr/file/externe/53/7/rj-2016-capes-externe-
allemand_628537.pdf>.
GROBET, Anne & VUKSANOVIĆ, Ivana. (2017). Variations de l’élaboration conceptuelle dans
différentes modalités d’enseignement bilingue. Bulletin VALS-ASLA (Bulletin suisse de linguistique
appliquée), vol. spécial (2), 89-100.
HIDDEN, Marie-Odile, ALDAY, Maria Victoria, PORTINE, Henri & SHAO, Baoqing. (2016). La
ponctuation en langue étrangère peut-elle devenir un objet d’apprentissage ? Dans S. Pétillon,
F. Rinck & A. Gautier (dir.), La ponctuation à l’aube du XXIe siècle. Perspectives historiques et usages
contemporains (p. 231-250). Limoges : Lambert Lucas.
JOHNS, Tim. (1991). Should You Be Persuaded: Two Samples of Data-Driven Learning Materials.
Dans T. Johns & P. King (dir.), Classroom Concordancing, English Language Research Journal, 4, 1-13.
KENNEDY, Claire & MICELI, Tiziana. (2001). An Evaluation of Intermediate Student’s Approaches to
Corpus Investigation. Language Learning & Technology, 5(3), 77-90. Disponible en ligne sur
<www.lltjournal.org/item/3045>.
KENNEDY, Claire & MICELI, Tiziana. (2016). Cultivating Effective Corpus Use by Language Learners.
Computer Assisted Language Learning, 30(1-2), 91-114. <http://dx.doi.org/
10.1080/09588221.2016.1264427>.
KIRCHHOFF, Frank & PRIMUS, Beatrice. (2016). Das Komma im mehrsprachigen Kontext [La virgule
en contexte multilingue]. Dans R. Olsen, C. Hochstadt & S. Colombo-Scheffold (dir.), Ohne Punkt
und Komma… Beiträge zu Theorie, Empirie und Didaktik der Interpunktion (p. 78-97). Berlin :
RabenStück Verlag.
LANDURE, Corinne. (2013). Corpus et dictionnaires : prise de conscience linguistique chez des
apprenants Lansad. Bulletin VALS-ASLA (Bulletin suisse de linguistique appliquée), 97, 59-76.
Disponible en ligne sur <http://doc.rero.ch/record/11876/files/
bulletin_vals_asla_2013_097.pdf>.
LEBLAY, Christophe. (2014). Les écritures intermédiaires réflexives en littératie avancée. Le français
aujourd’hui, 1(184), 103-115.
LEJOT, Ève. (2017). La relecture entre pairs en formation doctorale : de l’analyse des commentaires
à l’élaboration d’une grille d’accompagnement. Lidil, 55. Disponible en ligne sur <https://
journals.openedition.org/lidil/4255>.
LEŃKO-SZYMAŃSKA, Agnieszka. (2017). Training Teachers in Data-Driven Learning: Tackling the

Challenge. Language Learning & Technology, 21(3), 217-241. <www.lltjournal.org/item/3017>.
MONDADA, Lorenza. (2005). Chercheurs en interaction. Comment émergent les savoirs. Lausanne :
Presses polytechniques et universitaires romandes.
MONTAGNE-MACAIRE, Dominique. (2007). Didactique des langues et recherche-action. Les Cahiers de

l’Acedle, 4, 93-120.
NARCY-COMBES, Jean-Paul. (2005). Didactique des langues et TIC : vers une recherche-action responsable.
Paris : Éditions Ophrys.
Lidil, 58 | 2018
128
O’SULLIVAN, Íde. (2010). Using Corpora to Enhance Learners’ Academic Writing Skills in French.
Revue française de linguistique appliquée, 2(15), 21-35.
PINCEMIN, Bénédicte. (2006). Concordances et concordanciers – De l’art du bon KWAC. Dans

C. Duteil-Mougel & B. Foulquié (dir.), Corpus en Lettres et Sciences sociales. Des documents numériques
à l’interprétation : actes du 17e colloque d’Albi Langages et Signification (p. 33-42). Texto! Disponible en
ligne sur <www.revue-texto.net/Parutions/Livres-E/Albi-2006/Actes_ALBI-06.pdf>.
PINTO, Marie-Antonietta & EL EUCH, Sonia. (2015). La conscience métalinguistique. Théorie,

développement et instruments de mesure. Laval : Presses de l’Université Laval.
Regeln und Wörterverzeichnis. (2006). Munich et Mannheim : IDS Mannheim. Disponible en ligne sur
<www1.ids-mannheim.de/fileadmin/service/reform/regeln2006.pdf>.
RINCK, Fanny. (2011). Former à (et par) l’écrit de recherche. Quels enjeux, quelles exigences ? Le
français aujourd’hui, 3(174), 79-89. <https://doi.org/10.3917/lfa.174.0079>.
SAPPOK, Christopher. (2011). Das deutsche Komma im Spiegel von Sprachdidaktik und
Prosodieforschung – Forschungslage – “Parsing vs. Phrasing” – Experimente. Berlin, Münster : LIT.
SCHAEFFER-LACROIX, Eva. (2015). Impact de discussions métalinguistiques sur l’apprentissage de la

production écrite en allemand, langue étrangère. Dans S. Garnier, F. Rinck, F. Sitri & S. De Vogüe
(dir.), Former à l’écrit universitaire, un terrain pour la linguistique ?, Linx (Revue des linguistes de
l’université Paris Ouest Nanterre La Défense), 72, 193-211.
STEGU, Martin. (2008). Linguistique populaire, language awareness, linguistique appliquée :

interrelations et transitions. Pratiques, 139-140, 81-92. Disponible en ligne sur <http://
pratiques.revues.org/1193> ; <https://doi.org/10.4000/pratiques.1193>.
ST JOHN, Elke. (2001). A Case for Using Parallel Corpus and Concordancer for Beginners of a
Foreign Langage. Language Learning & Technology, 5(3), 185-203. Disponible en ligne sur
<www.lltjournal.org/item/3054>.
SWAIN, Merrill. (2006). Languaging, Agency and Collaboration in Advanced Second Language
Learning. In H. Byrnes (dir.), Advanced Language Learning: The Contributions of Halliday and Vygotsky
(p. 95-108). Londres : Continuum.
TSUI, Amy Bik May. (2004). What Teachers Have Always Wanted to Know—and How Corpora Can
Help. Dans J. McH. Sinclair (dir.), How to Use Corpora in Language Teaching (p. 39-61). Amsterdam,
Philadelphie : John Benjamins Publishing.
TYNE, Henry. (2013). Corpus et apprentissage-enseignement des langues. Bulletin VALS-ASLA

(Bulletin suisse de linguistique appliquée), 97, 7-15. Disponible en ligne sur <http://doc.rero.ch/
record/11876/files/bulletin_vals_asla_2013_097.pdf>.
Sites, outils et corpus
BIBLIOGRAPHISCHES INSTITUT GMBH. (2017). Duden. Dictionnaire électronique. Disponible en ligne sur
<www.duden.de>.
BIG NERD SOFTWARE. (n. d.). Screencast-O-Matic. Enregistreur audiovisuel d’écran.
BORG, Nic & O’HARA, Jeff. (2008). Edmodo. Plateforme d’apprentissage. Disponible en ligne sur
<www.edmodo.com>.
KILGARRIFF, Adam, RYCHLY, Pavel & POMIKALEK, Jan. (n. d.). Sketch Engine. Système de gestion de
corpus. Disponible en ligne sur <www.sketchengine.co.uk>.
Lidil, 58 | 2018
129
SCHAEFFER-LACROIX, Eva. (2014). Aufsaetze. Corpus d’experts.
SCHMID, Helmut & LAWS, Florian. (2008). Estimation of Conditional Probabilities with Decision
Trees and an Application to Fine-Grained POS Tagging. Dans Proceedings of the 22nd International
Conference on Computational Linguistics (COLING 2008) (p. 777-784). Manchester, Angleterre.
Disponible en ligne sur <www.cis.uni-muenchen.de/~schmid/papers/Schmid-Laws.pdf>.
R DEVELOPMENT CORE TEAM. (2008). R: A Language and Environment for Statistical Computing. Vienne :
R Foundation for Statistical Computing. Disponible en ligne sur <www.R-project.org>.
ANNEXES
Conventions de transcription
Extrait de Mondada (2005, p. 31-34).
Les locuteurs non identifiés sont notés par un x.
[ note le début du chevauchement entre les locuteurs.
] note la fin du chevauchement, lorsque cela a été jugé nécessaire.
= note un enchainement rapide entre deux tours de parole.
& note la continuation du tour par le même locuteur, au-delà de l’interruption de la
ligne de la transcription pour l’introduction d’un chevauchement par un autre
locuteur.
. et .. et … notent des pauses petites, moyennes, longues.
: et :: notent des allongements syllabiques (de manière iconique par rapport à la durée,
on pourra avoir : ou ::).
- note la troncation d’un mot esquissé.
/ et \ notent les montées et descentes intonatives.
Les CAPITALES notent une accentuation.
Les degrés ° ° et °° °° notent un volume bas, murmuré, de la voix (°° °° pour un volume
très bas).
< > délimitent le segment sur lequel porte un commentaire.
xxx notent un segment incompréhensible.
(ravère) note un segment incertain.
NOTES
1. Exemple d’une requête sur corpus : pour trouver des virgules suivies d’une conjonction dans
un corpus déposé sur Sketch Engine, on formulera la ligne de commande suivante : [word=","]
[tag="CONJ.*"].
2. Tyne (2013) traduit ce sigle par « apprentissage conduit ou porté par les données ».
3. T (the teacher) ; E (l’enseignant).
4. Dans ses termes : « die Territorien der beteiligten Prädikate […] markieren » (Boettcher, 2016,
p. 337).
Lidil, 58 | 2018
130
5. Les conventions de transcription sont celles proposées dans Mondada (2005, p. 31-34) ; voir
annexe.
6. Le pivot est « le mot ou motif linguistique dont on veut étudier les occurrences en contexte »
(Pincemin, 2006).
7. Pour plus de précisions, voir De Cock et Tyne (2014).
8. Il n’y a que quatre binômes car cinq personnes sur quatorze n’ont pas pu être présentes
pendant la phase d’exploration. La neuvième personne présente a perdu son film d’écran.
9. Prénoms anonymisés.
10. Chantal se trompe ici : la plupart des conjonctions de coordination s’utilisent sans virgule.
11. CAPES : Certificat d’aptitude au professorat de l’enseignement secondaire.
RÉSUMÉS
Le concept d’apprenant chercheur attribue à l’apprenant les traits d’un linguiste cherchant à
comprendre le fonctionnement de la langue. Souvent mentionné dans le contexte de l’utilisation
des corpus pour l’enseignement-apprentissage d’une langue étrangère, ce concept nécessite de la
part des apprenants la capacité de formuler une question portant sur un fait linguistique et de
transformer cette question en une requête sur corpus. Afin d’observer la façon dont de telles
compétences peuvent se mettre en place, une expérience a été proposée à deux groupes de futurs
enseignants d’allemand ayant produit des écrits académiques pendant un module de didactique.
L’analyse d’erreurs appliquée à leurs textes a motivé le choix de proposer à ce public un travail
de conceptualisation de la virgule. Lors d’un atelier de formation linguistique et technique d’une
durée de 6 heures, les étudiants avaient l’occasion d’observer la virgule dans un corpus d’experts.
Ils étaient regroupés en binômes afin d’être incités à une interaction verbale pendant leur travail
d’exploration. Pour l’un des groupes, une approche déductive a été choisie et pour l’autre une
approche inductive. L’analyse des données a permis de déterminer trois types d’exploration du
corpus par les apprenants et d’établir un lien entre leurs modes d’investigation et le traitement
spécifique auquel ils ont été soumis. Les interactions verbales et les films d’écrans contiennent
des indices selon lesquels l’approche déductive a, davantage que l’approche inductive, mené à
des démarches s’apparentant à une enquête scientifique.
The concept of the learner as a researcher assigns the learner features of a linguist striving to
understand the functioning of language. This concept, often mentioned within the context of
corpus use for foreign language learning and teaching, implies the learner’s capacity to
formulate questions about a given language feature and to transform these questions into corpus
queries. In order to observe how related competencies can be set up, a research project was
designed for future German teachers. Two groups were invited to write academic texts during a
Master’s degree course in applied linguistics. The error analysis of their texts revealed that the
students needed assistance in the use of commas in German. A one-day workshop was dedicated
to linguistic and technical training focusing on the comma and on corpus tools. Grouped into
pairs in order to stimulate verbal interaction, the students explored the comma in a specialised
corpus. A deductive approach was instigated for half of the group and an inductive approach for
the other half. The research data fell into three different exploration modes. The interactions
and the screen casts of the deductive approach group contain stronger evidence of scientific
investigation methods and results than those of the inductive approach group.
Lidil, 58 | 2018
131
INDEX
Mots-clés : apprenant chercheur, écrit académique, corpus, question, virgule, allemand
Keywords : learner as researcher, academic writing, corpora, inquiries, comma, German
AUTEUR
EVA SCHAEFFER-LACROIX
Sorbonne Université – ÉSPÉ de Paris
schaeffer-lacroix@orange.fr
Eva Schaeffer-Lacroix est maitre de conférences en études germaniques à Sorbonne Université –
ÉSPÉ de Paris. Ses recherches portent sur l’usage des technologies pour l’enseignement-
apprentissage des langues étrangères. Elle s’intéresse en particulier aux corpus numériques, à la
production écrite et à la réflexion sur la langue.
Lidil, 58 | 2018
132
Varia
Lidil, 58 | 2018
133
Vers une socioterminologie

médicale wolofe
Towards a Wolof Medical Socioterminology
Abibatou Diagne et Abou Bakry Kébé
1. De la socioterminologie
1 Dans son ouvrage, Gaudin (2003) se démarque de l’approche fixiste wüsterienne de la
terminologie. En effet, guidé par une logique et une visée essentiellement
normalisatrices, Wüster a conçu une théorie terminologique axée sur une relation
biunivoque entre terme et concept. En introduisant une dimension sociale, Gaudin
confère à la terminologie un caractère mouvant avec « la référence conçue comme un
acte dynamique de co-construction perpétuelle du monde » (Dufour, 2004, p. 208).
2 Adopter une approche socioterminologique implique de prendre en compte que la
monosémie du terme n’exclut pas que celui-ci puisse appartenir à plusieurs registres de
discours. Dès lors, une communauté est en mesure de se le réapproprier. La recherche
et la constitution de termes en contexte plurilingue sont d’une certaine manière
influencées par le contact des langues et tiennent nécessairement compte de variables
sociales telles que les rapports qu’entretiennent les locuteurs avec leur langue.
Gaudin (2003) identifie également la vulgarisation scientifique (VS) comme un moyen
de diffusion de savoirs.
3 Pour occuper de nouveaux espaces de parole, une langue se renouvelle, dans le sens
d’un enrichissement de son lexique. Cela passe par l’appropriation de concepts,
relativement nouveaux ou qui se renouvellent chaque fois dans les domaines
techniques ou scientifiques. Notre approche socioterminologique consiste en une
observation de l’usage d’emprunts chez les locuteurs dans le domaine médical, puis en
une proposition de termes substituables aux emprunts et enfin en une détermination
de facteurs d’implantation.
Lidil, 58 | 2018
134
2. Situation sociolinguistique : contact des langues

4 Les situations de contact de langues constituent des facteurs importants de
changements linguistiques. Une langue peut s’enrichir grâce à son pouvoir
d’assimilation, à sa plus ou moins grande perméabilité ou encore au processus de
normaison1 des locuteurs et/ou de normalisation2 des instances officielles.
« L’intervention autoritaire et prestigieuse » (Glissant, 1981) du français et des autres
langues étrangères s’est faite au détriment des langues du terroir en Afrique.
5 Le contact donne lieu à un processus d’interpénétration aux enjeux linguistiques
multiples qui dépendent du type de rapport établi. Le degré d’interpénétration peut
ainsi être très élevé lorsqu’il y a une proximité géographique et linguistique. Le contact
entre langues est partiellement lié à la proximité géographique. Ainsi, l’enclave
gambienne du Sénégal utilise comme principale langue véhiculaire le wolof ; la
Mauritanie, zone tampon entre le Maghreb et l’Afrique noire, est aussi un creuset
culturel où se brassent plusieurs langues.
6 Toutefois, les rapprochements physique ou linguistique ne sont pas les seules causes de
contact. Il peut aussi être le fait de l’histoire, d’une idéologie, du développement
culturel ou économique. Ces types de contact ont la caractéristique de profondément
remettre en cause des modèles établis et de se poser en une sorte d’alternative nouvelle
et attractive. L’école sénégalaise n’est conçue dans sa forme classique que presque
exclusivement à travers l’apprentissage du français et, dans une moindre mesure, des
autres langues étrangères — ce qui relègue les langues nationales du pays à « des
fonctions basses » (Fishman, 1967). La connaissance de la religion musulmane est
indissociable d’une connaissance, ne serait-ce que passive, de l’arabe, alors que
l’acquisition de compétences en anglais s’est érigée en nécessité pour une jeunesse de
plus en plus influencée par la culture anglo-saxonne.
7 En contexte plurilingue sénégalais, le contact des langues nationales a eu pour
conséquence un effacement progressif du paramètre « langue » comme critère
d’appartenance ethnique. En effet, du fait du caractère quelque peu assimilateur du
wolof, l’on constate une forte disparité entre locuteurs (langue parlée par 80 % de la
population selon Mbodj, 1994) et membres de l’ethnie wolofe. Par ailleurs, les différents
parlers de cette langue ou encore ses variations régionales n’ont jamais constitué un
élément de blocage quant à l’intercompréhension entre locuteurs et n’instaurent donc
pas une barrière entre wolof du Jolof, du Waalo ou encore le lébou considéré comme le
véritable parler source du wolof tel qu’il se présente aujourd’hui (Robert, 1991).
8 En revanche, l’opposition wolof urbain/wolof rural peut être considérée comme une
des conséquences de l’ouverture de cette langue à la modernité ; ou encore à sa
cohabitation avec le français et les langues étrangères. Le wolof rural représente cet
idéal de wolof « pur » ou de la langue dans sa version la moins emprunteuse. Le wolof
parlé en milieu urbain est celui des jeunes qui lui impulsent son dynamisme créateur.
3. Éléments comparatifs de concepts

9 La richesse terminologique d’une langue, dans un domaine donné, est fonction du
niveau de développement de la culture scientifique dudit domaine dans cette langue. Le
développement des langues de spécialité — qui véhiculent par la même occasion des
Lidil, 58 | 2018
135
cultures scientifiques — remet en cause l’une des caractéristiques de base de la langue

qui est d’être un élément porteur d’un angle de vue interne qui proviendrait du vécu et
des pratiques d’une communauté donnée. Par le truchement de l’emprunt, ce ne sont
pas que des items ou encore des expressions qui passent d’une langue à une autre, c’est
aussi tout un vécu de pratiques sociales, culturelles, langagières, des modes de pensées.
10 Les liens entre langue et culture ont souvent été étudiés selon le rôle véhiculaire joué
par la première sur la seconde. Le langage a un rôle expressif qui montre des faits et
objets communs aux humains. Toutefois dans le cadre des activités humaines, l’on
trouve des besoins d’expression différents. Ainsi, si la santé intéresse tout individu, les
pratiques médicales restent un domaine réservé en principe aux spécialistes. Les
méthodes peuvent différer, mais la nouveauté comme élément qui justifierait
l’emprunt à une autre langue ou l’inexistence dans la langue emprunteuse ne sont que
trop souvent invoqués, dans le cas d’une langue comme le wolof.
11 Le concept dans une approche purement linguistique est considéré comme un
équivalent du signifié (Gaudin, 2003, p. 61). Sa dimension extralinguistique qui découle
d’une abstraction se trouve fortement défendue par Cabré (1998) à la suite de l’ISO 3 :
Les concepts, ou représentations mentales des objets sont le fruit du choix des
caractères pertinents qui définissent une classe d’objets et non pas des objets
individuels. (p. 168)
12 Sur un plan philosophique, Gaudin (2003) ne manque pas de souligner le caractère actif
de la construction du concept qui consiste moins à restituer le monde des choses qu’à le
« redessiner en lui substituant un ordre d’un autre type » (p. 62). Les exemples de Diki-
Kidiri (1999) pour désigner la bicyclette sont très parlants :
– gbâzâbängâ, « roues de caoutchouc », en sängö (Centrafrique) ;
– nàgàsó, « cheval de fer », en bambara (Mali) ;
– magu-mâkwanganya, « quatre pieds », en lilikô (langue bantu de la zone D en
République démocratique du Congo). (p. 579)
13 Le sangö redessine la bicyclette en désignant une partie pour le tout, procédé
métonymique qui interroge dans une perspective socioterminologique et qui
suggèrerait l’existence de roues faites essentiellement dans une autre matière. Diki-
Kidiri rappelle que les Centrafricains étaient soumis aux travaux forcés de la récolte du
caoutchouc végétal durant la colonisation. De cet artéfact, ils retiennent l’élément qui
leur rappelle une expérience qu’ils ont eue en partage. Cette représentation
métonymique en rappelle une autre qu’on retrouve pour désigner le train en wolof
(saxaar, « fumée »). Une désignation qui fait écho aux nuages de fumée que dégageaient
les premiers trains et qui subsiste sur les panneaux routiers indiquant les passages à
niveau un peu partout dans le monde.
14 La langue bambara redessine la bicyclette en référence à un animal, mais aussi au fer
qui apporte un programme de sens de la modernité, alors que le lilikô véhicule l’image
d’une personne utilisant un véhicule qui « dédouble ses pieds » et se retrouve avec
« quatre pieds ». Dans tous ces cas de figure, l’on a affaire à une praxis expérientielle
qui, loin de souligner les traits saillants de l’artéfact de départ, met en avant les aspects
sociodiscursifs et historiques de la langue et les praxis sociales et culturelles.
15 Les recherches terminologiques en wolof sont davantage axées sur le domaine médical,
notamment avec les travaux de Faal (1994, 1995), Faal et Njaay (1994a, 1994b, 1994c),
Mbodj (2014) et Diagne (2018). Chez les deux premiers auteurs, ainsi que chez d’autres
auteurs ayant travaillé avec le CLAD4, l’on note une approche qui laisse une place à la
Lidil, 58 | 2018
136
vulgarisation et soulève des questions sociodiscursives pertinentes. Dans ces livrets de

vulgarisation, il est fréquent de trouver des dialogues typiques des échanges médecins-
patients, ce qui contextualise socialement une pratique spécialisée.
16 La thématique de la santé dans le cadre culturel wolof peut être divisée en deux sous-
groupes : médecine traditionnelle et médecine moderne. Sous le vocable de traditionnel
(paju wolof) sont réunies toutes les pratiques médicales qui relèvent de méthodes du
terroir puisées à partir d’approches ancestrales où se mêlent science et syncrétisme. La
médecine moderne, quant à elle (paju tubaab), représente l’ensemble des pratiques
médicales implantées par les Européens. Cette dernière ne s’est pas affranchie de sa
principale langue véhiculaire, malgré son implantation en milieu wolophone : case de
santé, centre de santé, hôpital, ministère de la santé, médecin, sage-femme, gynécologue,
tuberculose, diabète, etc. C’est donc une catégorie conceptuelle de la santé subdivisée par
le simple fait de l’utilisation d’une langue plutôt que d’une autre. Les termes à
développer pourraient s’inscrire dans un contexte aménagiste essentiellement axé sur
la désignation des affections et des équipements thérapeutiques.
4. La dénomination des affections médicales en wolof

17 Les affections5 en wolof sont désignées de manière générique selon les régions ou
parties du corps affectées :
(1) Feebaru tànk (glose : Maladie+de pied)
> maladies qui affectent les membres inférieurs
(2) Feebaru bët (glose : Maladie+de yeux)
> maladies qui affectent les yeux
(3) Feebaru xol (glose : Maladie+de cœur)
> maladies cardiovasculaires
(4) Feebaru xel (glose : Maladie+de esprit)
> maladies mentales
18 Suivant une logique de conceptualisation qui se fonde sur les conséquences des
maladies, il y a une subdivision en deux grandes catégories :
(5) Feebar buy wàllate (glose : Maladie Relat+Inacc contamine)
> maladies contagieuses
(6) Feebar bu dul wàllate (glose : Maladie Relat NEG contamine)
> maladies non contagieuses
19 La troisième grande catégorie est dénommée sur la base des causes, des origines des
maladies :
(7) Feebaru ndono (glose : Maladie+de hérédité)
> maladies génétiques ou héréditaires
20 L’on pourrait donc dire en wolof, dans le même ordre d’idée :
(8) Feebaru koromosome (glose : maladie+de chromosome)
> maladies chromosomiques
(9) Feebar bu tukke ci doomu jàngoro (glose : maladie Relat provient de micro
organisme)
> maladies microbiennes et virales
(10) Feebar bu tukke ci xeetu saan (glose : maladies Relat provient de semblables
parasites)
> maladies parasitaires
(11) Feebar bu tukke ci lu bare (glose : maladies Relat provient de Relat varié)
> maladies multifactorielles
Lidil, 58 | 2018
137
(12) Feebar bu tukke ci ñàkk (glose : maladie Relat provient de carence)

> maladies dues aux carences
(13) Feebaru xel mu dal ak yaram (glose : Maladie+de esprit Relat tranquille et corps)
> maladies psychosomatiques et maladies psychiques
21 L’élaboration de terminologies wolofes dans un cadre scientifique n’est pas encore
complètement aboutie. Il faut surtout relever des travaux à caractère quelque peu
artisanal, mais aussi fortement orientés vers la vulgarisation.
5. Élaboration de terminologies en wolof, perspective

vulgarisatrice
22 Les recherches en terminologie s’articulent depuis plus de deux décennies autour d’une
prise en compte du cadre culturel, comme le défendent les membres de l’école de
Rouen à travers la socioterminologie.
23 Par ailleurs, d’après nos observations sur la langue médicale wolofe, la désignation est
la seule voie qui permet de trouver des équivalents qui peuvent se substituer à la
multitude de termes empruntés au français. Comme le souligne Gaudin (2003), désigner
nécessite une connaissance parfaite de l’objet ou de la notion afin de mettre en avant
les traits principaux qui apparaissent dans cette désignation :
[…] la désignation, la construction de la référence, sont des questions relevant de la
mise en action de la langue dans une interlocution. Elles relèvent d’une
pragmatique socialisée et historicisée […]. (p. 33)
24 Le référent apparait comme la représentation physique et le concept comme la
représentation mentale, mais les deux concourent au même but en terminologie. La
conceptualisation demeure un élément plutôt ancré dans l’objectivité et elle doit être
dissociée, comme le souligne Diki-Kidiri (1999), du percept purement subjectif et
dépendant du vécu, des pratiques, de l’interaction avec les éléments qui se situent dans
l’environnement d’une communauté donnée.
25 La notion de partenariat linguistique telle que défendue dans certaines instances
glottopolitiques comme l’OIF6, avec les valeurs de partage et d’affirmation d’identités
spécifiques, est très utile dans l’appréhension des sciences et techniques des langues
nationales. En effet, le Sénégal est un espace plurilingue et francophone qui, dans le
cadre de sa politique terminologique (qui reste à définir), gagnerait à donner une place
au français qui ne serait pas qu’une langue d’emprunts, mais aussi — parce que
terminologiquement mieux dotée et sociolinguistiquement proche du wolof — une
langue de référence, de conceptualisation au plus près des réalités du milieu. Il reste
que la politique linguistique du Sénégal s’inscrit également dans une politique
culturelle construite qui situe les langues au cœur des processus d’expression de la
culture sénégalaise à travers les arts, la littérature, etc.
26 Les différents écrits médicaux en wolof sont orientés vers la vulgarisation, comme on
peut le noter chez Faal et Njaay (1994a, 1994b, 1994c), Faal (1995), INEPES (2006),
Mbodj (2014). Cela témoigne de la dimension sociale que représente la constitution de
termes chez ces auteurs et il parait utile de la prendre en compte.
27 La vulgarisation s’articule autour de deux axes : informer et assurer la diffusion de
savoirs à grande échelle ; elle constitue également sur le plan linguistique un travail de
substitution qui laisse une place à la rhétorique. Dans nos travaux antérieurs (Diagne,
Lidil, 58 | 2018
138
2018, 2015), l’accent a été mis, au plan linguistique, sur le caractère expansif des
processus de désignation indissociables de la démarche vulgarisatrice. Par ailleurs, le
wolof, comme beaucoup de langues négro-africaines, a une caractéristique verbalisante
qui incite à avoir recours à des séquences expansives (Diagne, 2018) :
Tuberculose : Sëqët su bon si
Angiocholite : Mettitu waruwaa yi jëm ci wextan
Agraphie : Jafe jafe mën bind
28 Le caractère peu doté, c’est-à-dire l’absence ou la rareté de terminologies, appelle une
technique propre à la vulgarisation : la reformulation. L’implantation des termes
wolofs, à notre sens, passe nécessairement par le canal de la vulgarisation. En effet,
celle-ci confère une notion utilitaire à la pratique terminologique dans l’aire culturelle
du wolof tout en renforçant les pouvoirs d’expression de cette langue. L’idée majeure
est bien sûr d’élaborer des termes, mais également d’arriver à une conception et une
expression des sciences médicales au plus près des réalités socioculturelles wolofes.
6. Conclusion
29 Nous avons étudié les modalités de dénomination/désignation dans la terminologie
médicale d’une langue peu aménagée, dans un espace sociolinguistique sénégalais
marqué par le contact des langues. En effet, la vitalité des langues du Sénégal, du wolof
en particulier, s’est traduite, depuis quelques années, par des besoins pressants en
termes de lexique spécialisé. À travers quelques exemples pris dans le champ médical,
nous avons vu comment les liens référentiels peuvent contribuer à rendre moins
opaque la terminologie. Aujourd’hui, l’accès à une information médicale
compréhensible est devenu un enjeu majeur de santé publique dans tous les pays et il y
a un besoin de structuration légitime de la terminologie médicale au Sénégal. Mener
des recherches terminologiques dans le contexte socioculturel sénégalais passe par une
mise « en place des structures chargées de la standardisation des variétés des langues
retenues, de leur normalisation et de leur enrichissement conceptuel » (Cissé, 2005,
p. 128). Cela relève fondamentalement d’une volonté politique.
30 Le statut du wolof comme langue la plus parlée au Sénégal et son importance dans les
interactions médicales peuvent justifier une intervention terminologique sur cette
langue. Mais le succès d’un tel aménagement linguistique/terminologique dépendra de
la capacité de l’État à ne pas accréditer une vision « glottophage » du wolof au Sénégal,
aux dépens de la variation et du plurilinguisme (Juillard & Dreyfus, 2005, p. 320).
BIBLIOGRAPHIE
CABRÉ, Maria Theresa. (1998). La terminologie théorie, méthodes et applications. Paris : Armand Colin.
CISSÉ, Mamadou. (2005). Langues, État et société au Sénégal. Sudlangues, 5, 99-133.
Lidil, 58 | 2018
139
DIAGNE, Abibatou. (2014). De quelques problèmes de traduction des adjectifs relationnels du

français vers le wolof : étude sur corpus de terminologie commerciale. Dans M. Mangeot &
F. Sadat (dir.), Actes de l’atelier sur le traitement automatique des langues africaines – TALAf 2014.
Disponible en ligne sur <http://talaf.imag.fr/2014/> (consulté le 23 septembre 2018).
DIAGNE, Abibatou. (2018). La terminologie wolof dans une perspective de traduction et de combinatoire
lexicale restreinte (Thèse de doctorat). Université Lumière – Lyon 2, Lyon.
DIKI-KIDIRI, Marcel. (1999). Le signifié et le concept dans la dénomination. Meta : Journal des
traducteurs / Meta: Translators’ Journal, 44(4), 573-581.
DUFOUR, Françoise. (2004). François Gaudin, Socioterminologie, une approche sociolinguistique de la

terminologie. Cahiers de praxématique, 42, 208-212.
FAAL, Aram. (1994). Ëmbu jàmm, la maternité. Dakar : OSAD.
FAAL, Aram. (1995). Éducation pour la santé. Dakar : OSAD.
FAAL, Aram & NJAAY, Mamadu D. (1994a). Sama doom dama koy nàmpal. Dakar : OSAD.
FAAL, Aram & NJAAY, Mamadu D. (1994b). Lekkug tànneef. Dakar : OSAD.
FAAL, Aram & NJAAY, Mamadu D. (1994c). Programme élargi de vaccination (PEV). Dakar : OSAD.
FISCHMAN, Joshua A. (1967). Bilingualism with and without Diglossia; Diglossia with and without
Bilingualism. Problems of Bilingualism, Journal of Social issues, 23(2), 29-38.
GAUDIN, François. (2003). Socioterminologie : une approche sociolinguistique de la terminologie.

Bruxelles : De Boeck & Larcier / Duculot.
GAUDIN, François. (2005). La socioterminologie. Langages, 157, 80-92.
GLISSANT, Édouard. (1981). Le discours antillais. Paris : Seuil.
INEPES. (2006). Teere wer gu yaram, livret de santé bilingue. Paris : INEPES.
JUILLARD, Caroline & DREYFUS, Martine. (2005). Le plurilinguisme au Sénégal : langues et identités en
devenir. Paris : Éditions Karthala.
MBODJ, Chérif. (1994). L’activité terminologique au Sénégal. RINT, 11, 3-8.
MBODJ, Chérif. (2014). Pour une terminologie de la santé en wolof. Dakar : Presses universitaires de
Dakar.
NDAO, Papa Alioune & KÉBÉ Abou Bakry. (2010). Langues et médias au Sénégal : une expérience de
normalisation langagière par les journalistes des radios privées. Enjeux et limites. Dans P. A.
Ndao & A. B. Kébé (dir.), Nouveaux médias et dynamiques des langues dans l’espace francophone,
Glottopol, 14, 17-36. Disponible en ligne sur <http://glottopol.univ-rouen.fr/numero_14.htm>
(consulté le 20 septembre 2015).
ROBERT, Stéphane. (1991). Approche énonciative du système verbal : le cas du wolof. Paris : Éditions du
Centre national de la recherche scientifique.
NOTES
1. La normaison concerne l’intercompréhension dans les usages langagiers.
Lidil, 58 | 2018
140
2. La normalisation optimise la communication spécialisée parce qu’elle est prescriptive. Elle

constitue un processus par lequel une instance statue sur un terme face à une prolifération de
terminologies ou à une absence de terme approprié.
3. L’Organisation internationale de normalisation (de l’anglais International Standard Organisation)
établit et publie des normes internationales. La norme ISO 704 : 2009 définit et harmonise les
principes de base ainsi que les méthodes utilisées dans l’élaboration et la compilation de
terminologies.
4. Centre de linguistique appliquée de Dakar, centre de recherche linguistique qui s’intéresse aux
questions de traduction, de terminologie et de lexicologie essentiellement, aussi bien pour le
français l’anglais que les langues nationales du Sénégal.
5. Les abréviations et symboles utilisés sont les suivantes :
+ : amalgame ou suffixation
NEG : Négatif
Relat : Relatif
Inacc : Inaccompli
6. Cf. le discours de l’ancien secrétaire général de l’OIF, en ligne sur <www.francophonie.org/Fes-
Conference-internationale-sur.html> (consulté le 20 octobre 2015).
RÉSUMÉS
L’usage des langues d’Afrique subsaharienne a connu ces dernières années des changements
majeurs aux conséquences sociolinguistiques notables. Dans bien des situations, de nouvelles
pratiques communicatives et de nouvelles formes de pouvoirs langagiers sont apparues, en
particulier sous l’impulsion de la révolution numérique (Ndao & Kébé, 2010). Il résulte de ces faits
d’importantes reconfigurations du paysage sociolinguistique. Ainsi, certaines langues
connaissent un regain de vitalité et ne sont plus confinées à des « fonctions basses »
(Fishman, 1967).
La socioterminologie constitue une branche de la terminologie à dimension sociocritique
fortement influencée par la sociolinguistique théorique et la sociolinguistique de terrain (Gaudin,
2005). Elle consiste à faire le lien entre les termes produits et leur contexte d’occurrence. Elle a
donc comme objet « l’étude de la circulation des termes en synchronie et en diachronie »
(Gaudin, 2005, p. 81). La socioterminologie s’intéresse aux significations socialement réglées des
termes. Dans le présent article, nous relevons les conséquences du contact de langues sur les
processus de création de lexiques de spécialité en wolof. Nous prenons des exemples du domaine
médical qui constitue un terreau fertile à l’usage de termes français en milieu wolophone. En
dernière analyse, il conviendra de s’arrêter sur la dimension vulgarisatrice de la terminologie
wolofe. L’étude sur corpus d’écrits à caractère médical en wolof montre qu’à l’heure actuelle, la
vulgarisation scientifique (VS) constitue le principal canal de diffusion du discours médical et des
termes médicaux (Diagne, 2018). La VS se pose en cadre d’appropriation de savoirs, mais aussi en
cadre didactique et d’information qui cible les locuteurs wolofs.
In recent years, the use of sub-Saharan African languages has undergone major changes with
notable sociolinguistic consequences. In many cases, new communicative practices and new
forms of language power have emerged, particularly thanks to digital revolution (Ndao & Kébé,
2010). These facts result in important reconfigurations of the sociolinguistic landscape and some
Lidil, 58 | 2018
141
languages are experiencing certain revival of vitality.

Socioterminology is a branch of socio-critical terminology strongly influenced by theoretical
sociolinguistics and field sociolinguistics (Gaudin, 2005). It consists in making the link between
terms and their context of occurrence. Its object is “the study the terms circulation in synchrony
and diachrony” (Gaudin, 2005, p. 81). In this paper, we note the consequences of language contact
on the process of terminology creation in Wolof. We take examples from the medical field which
is fertile ground for the use of French terms in Wolof area. We insist on the popularizing
dimension of Wolof terminology. The study of medical literature in Wolof shows that scientific
popularization (SP) is currently the main channel for the diffusion of medical discourse and
medical terms (Diagne, 2018). SP is a framework for the appropriation of knowledge, but also a
didactic and information framework that targets Wolof speakers.
INDEX
Mots-clés : wolof, socioterminologie, corpus médical
Keywords : Wolof, socioterminology, medical corpus
AUTEURS
ABIBATOU DIAGNE
Laboratoire CRTT, Université Lumière – Lyon 2
diagneabi@gmail.com
ABOU BAKRY KÉBÉ

Université Gaston Berger de Saint-Louis (Sénégal)
aboubakry.kebe@gmail.com
Lidil, 58 | 2018
142
Les figures rhéto-orthographiques

comme révélateurs du rapport des
enseignants à l’orthographe
Rheto-Orthographical Figures As Revealing Teacher's Relationships to the
French Spelling
Catherine Combaz
1. Introduction
1 Cet article s’inscrit dans la filiation de différents travaux. Tout d’abord, il s’appuie sur
le concept de rapport à l’écrit défini comme « les images, les représentations, les attentes
et les jugements que chaque individu utilisateur de ce savoir se forge à son contact »
(Barré-De Miniac, Gros & Ruiz, 1993, p. 106). Il trouve aussi sa source dans les travaux
qui portent plus spécifiquement sur les représentations de l’orthographe chez les
enseignants (Sautot, 2002, 2003a et 2003b ; Péret, Brissaud & Sautot, 2007). Ceux-ci
pointent l’existence de tiraillements entre la prégnance sociale de l’orthographe et
leurs conceptions personnelles, la norme engendrant un ensemble de tensions, de
ruptures et d’obstacles. Dans le champ de la sociolinguistique, plusieurs recherches ont
montré que l’orthographe est une préoccupation majeure parce qu’elle revêt une
charge identitaire forte et socialement significative (Millet, Lucci & Billiez, 1990 ; Lucci
& Millet, 1992). Ces travaux mettent en évidence qu’une sanction-réprobation est
inévitablement adressée à toute personne produisant des écrits s’écartant de la norme
orthographique. Outre la non-observance des règles du système graphique, il s’agit
d’une transgression des conduites prescrites dans la société qui imposent un usage
commun. Cette dernière dimension relève directement d’un regard sur les normes
sociales (Demeulenaere, 2003). Elle nous a conduite, dans une recherche doctorale
(Combaz, 2017), à nous intéresser au rapport des enseignants de l’école primaire à
l’orthographe appréhendée comme une norme sociale par l’analyse de leurs
positionnements à travers leurs commentaires de cinq figures rhéto-orthographiques
Lidil, 58 | 2018
143
(FRO – Lucci & Millet, 1992). Les FRO offrent l’avantage d’interpeler les enseignants
comme professionnels de l’enseignement-apprentissage de l’orthographe et comme
acteurs sociaux qui rencontrent ces formes écrites « déviantes » dans leur vie
quotidienne. Ces variations écrites obligent à un traitement cognitif particulier qui
stimule la réflexion métalinguistique des acteurs interrogés pour réfléchir sur la langue
et sur l’orthographe en particulier (Jaffré, 2010). Les individus exploitent alors, plus ou
moins, le « jeu social » que la norme, bien que prescriptive, leur accorde. Nous
cherchons donc à savoir comment ils composent avec celle-ci dans une situation
orthographique « limite », puisqu’elle les confronte à des écrits dont les variations
peuvent s’appréhender comme des jeux de mots bienvenus ou comme des fautes. Nous
voulons apprécier la marge de liberté que ces acteurs se donnent, à travers leurs
jugements de ces FRO. Nous faisons l’hypothèse que ces écrits sont diversement
appréciés dans un continuum qui va du rejet à l’adhésion, selon le type de variation
graphique, mais aussi selon que les enseignants s’expriment à titre personnel ou
professionnel eu égard aux enjeux sociaux et scolaires. La définition de l’orthographe
comme norme sociale culturelle sert de mesure à ces positionnements. Dans un
premier temps, nous présenterons la définition de la norme sociale et montrerons
comment l’orthographe en est porteuse. Puis nous indiquerons la méthodologie de
notre recherche. Dans une troisième partie, nous présenterons les résultats obtenus qui
évoquent les différentes formes d’appréciation des FRO, les tensions vécues par les
témoins et les enjeux et pratiques pédagogiques intégrant ces FRO dans l’univers
scolaire.
2. L’orthographe appréhendée comme norme sociale

2 Nous empruntons à Demeulenaere (2001) les premiers éléments de définition : « […] la
norme intervient dans une interaction où des individus exigent le respect, pour eux-
mêmes et/ou pour d’autres de certaines conduites d’actions de préférence à d’autres
possibles […]. » (p. 192) Nous observons l’orthographe comme « l’usage jugé correct par
l’institution sociale qui régit la langue auquel l’usager devrait se conformer »
(Chartrand, 2012, p. 49).
3 La norme sociale qu’est l’orthographe conditionne alors les rôles et les attentes dans les
interactions scripturales. Elle se définit par cinq dimensions essentielles.
• La norme sociale est collective : les individus adoptent des comportements sensiblement
identiques, créant ainsi un sentiment de solidarité spécifique.
• Elle est prescriptive : le prédicat déontique pourrait être « il faut respecter le code
orthographique lorsqu’on écrit ».
• Elle est une norme régulière qui s’impose de façon répétée dans les interactions sociales.
• Elle appelle des sanctions. La « déviance » en matière de norme sociale orthographique
s’exprime par la transgression des règles du système orthographique. Commettre des fautes
donne lieu alors à des désapprobations collectives qui la renforcent.
• Enfin, ses fondements dépendent de valeurs sociétales en référence desquelles elle est
instituée : « [Elle implique] […] l’existence de principes plus généraux à la lumière desquels
ses prescriptions et ses interdits peuvent être légitimés. » (Chazel, n. d.)
4 Cette opérationnalisation du concept de norme sociale permet de situer les propos des
enseignants auprès desquels nous avons enquêté.
Lidil, 58 | 2018
144
3. La méthodologie
5 Pour apprécier le rapport des enseignants de cycle 3 de l’école élémentaire française à
l’orthographe pensée comme une norme sociale, nous leur avons demandé lors d’un
entretien semi-directif de commenter la graphie fantaisiste de cinq FRO : OXÉBO ! (titre
d’une revue d’art créatif pour enfants), Sanouva (nom d’une résidence secondaire),
Délisse (nom d’un yaourt), botanic (nom d’une jardinerie) 1 et Déguiz et moi (nom d’un
magasin de déguisements). Ces écrits sont des jeux sur la langue et sur l’orthographe
qui se présentent comme des encodages déviants par rapport au système linguistique
français, mais qui ménagent une grande accessibilité au signifié. Ce sont des « variantes
iconiques » (Jaffré, 2010, p. 313). Elles peuvent constituer pour l’enseignant et l’acteur
social des objets de réflexion sur l’orthographe dans ses dimensions sociale,
linguistique et didactique.
6 Nous avons interrogé 30 enseignants exerçant en classe de CM1 et/ou de CM2 en région
parisienne.
7 Ils se caractérisent ainsi :
Sexe 26 femmes / 4 hommes
Âge 22-29 ans : 4 / 30-39 ans : 12 / 40-49 ans : 7 / 50 ans et plus : 7
Ancienneté 1-9 ans : 13 / 10-19 ans : 13 / 20-35 ans : 4
Diplôme bac : 4 / bac+2 : 3 / bac+3 : 13 / bac+4 : 5 / bac+5 : 5
Types d’études cursus scientifique : 10 / cursus en sciences humaines et sociales : 16
8 Afin de recueillir leurs positionnements, nous leur avions proposé, quelques jours
avant notre rencontre, de noter sur un document écrit présentant les graphies « nues »
de ces 5 FRO ce qu’elles leur inspiraient (les mots étaient réécrits à l’ordinateur ; aucun
contexte n’était proposé ; seule était ajoutée une note indiquant ce qu’elles
désignaient : titre d’un magazine, nom d’un produit laitier…). Ce document a servi de
support lors de l’entretien. Une question ouverte était proposée : « Quand vous voyez
ces mots écrits, comment réagissez-vous en tant qu’individu et en tant
qu’enseignant ? » Nous avons demandé aux interviewés de répondre par écrit dans
deux colonnes distinctes, une fois en tant qu’individu et une fois comme professionnel
de l’enseignement. Cette distinction répondait à notre hypothèse stipulant l’existence
d’une tension entre les points de vue personnel ou professionnel.
9 Des relances, le jour de l’entretien, ont permis aux témoins de préciser leur point de
vue professionnel en envisageant l’introduction de ces FRO en classe.
10 Les cinq FRO sont catégorisées ainsi :
• Les FRO OXÉBO ! et Sanouva sont appelées « FRO syntaxiques », car la variation principale
porte sur l’effacement des blancs graphiques entre les unités linguistiques. Les relations
syntaxiques sont masquées par ces choix graphiques qui orientent alors vers une unité
lexicale. Elles sont transcrites par les phonogrammes les plus univoques agglutinés.
Lidil, 58 | 2018
145
• Les FRO Délisse et botanic sont nommées « FRO lexicales », car elles portent sur un
changement de phonogramme tout en maintenant un rapprochement avec des mots connus
(Délice – Botanique ). La variante graphique –ss est plus fréquente en français que – c. La
présence du suffixe d’adjectif –ique est fréquente en français.
• Enfin, la FRO Déguiz et moi est appelée « FRO biface oral/écrit », car sa modalité de
perception, à l’oral ou à l’écrit, est déterminante pour son appréciation sémantique. Il y a
reconfiguration syntaxique à l’écrit d’une phrase impérative en un syntagme nominal
coordonné.
11 Nous avons procédé à une analyse de contenu thématique des données issues des
entretiens (Bardin, 2001) afin d’apprécier le rapport des témoins à l’orthographe
appréhendée comme une norme sociale. Pour une part, nous avons utilisé les cinq
dimensions du concept de norme vues ci-dessus pour organiser les thèmes (caractères
collectif, régulier, contraignant, sanctionnant de la norme et présence de valeurs sous-
jacentes). D’autre part, nous avons élaboré 3 autres catégories d’analyse induites par les
propos mêmes des témoins : l’appréciation affective, l’analyse linguistique et l’impact
communicationnel d’une telle écriture. Ces 8 catégories d’analyse expriment les avis
personnels et/ou professionnels.
4. Les résultats : des réactions d’adhésion-rejet

résultant de raisonnements et de positionnements
différents
12 L’analyse de contenu distingue les réactions des témoins selon qu’elles expriment des
jugements personnels ou professionnels. Les premiers ne sont pas aussi liés à la norme
sociale que les seconds. Les jugements personnels révèlent une certaine liberté
d’appréciation des FRO basés sur les émotions et les connaissances linguistiques des
témoins alors que les jugements professionnels mettent en avant des positionnements
plus normatifs :
Quand je vois Sanouva et que tous les jours je suis dans le combat avec le [sa], ça, sa,
nous et puis le verbe aller que les élèves ne trouvent pas et qu’ils écrivent ça dans les
dictées, c’est vrai que si en plus c’est confirmé par l’extérieur, par les magazines,
par les publicités à la télévision, cela renforce encore plus leurs difficultés. La
société doit tenir l’orthographe. Je ne peux pas oublier ça puisque je le fais tous les
jours l’orthographe. Mais je me dis que si je n’étais pas enseignante, je ne me
poserais pas ce type de question et je ne verrais que l’impact rigolo. (Femme, 55 ans,
14 ans d’ancienneté, CM2 EP2, licence d’anglais.)
4.1. Évaluer les FRO par un jugement personnel

4.1.1. Des réactions affectives premières
13 Invités à réagir tout d’abord à titre personnel, les témoins ont livré des commentaires
mobilisant un lexique émotionnel. Spontanément, ils formulent des réactions affectives
personnelles de rejet exprimées par les mots gêner, choquer, déranger, embêter, perturber,
poser problème, ennuyer, déplorer ou d’adhésion formulées par les verbes plaire, aimer,
intéresser, approuver.
14 L’appréciation subjective des FRO s’organise toujours autour de ces deux pôles :
adhésion-rejet. La FRO OXÉBO ! rassemble essentiellement des évaluations personnelles
Lidil, 58 | 2018
146
positives : « le titre est plutôt attrayant ; ça sonne bien à l’oreille, ça plait ; ça donne envie de
consulter le livre ; c’est accrocheur 3 ». Au contraire, la FRO Sanouva est majoritairement
peu appréciée parce que c’est un mot « moche, très pauvre, le Sa choque […] il y a un côté
péjoratif donné par l’orthographe […] c’est limite vulgaire et c’est renforcé par le Sa ». Les
quelques amateurs y trouvent cependant une « invitation au bien-être du lieu qui se veut
accueillant à la prononciation de son nom » grâce à « une écriture courte et expressive »
(femme, 49 ans, 3 ans d’ancienneté, CM1 HEP, bac G). La FRO Délisse suscite des
approbations dues à l’adéquation entre sa charge connotative et sa graphie qui permet
aux bons scripteurs d’y associer un sens révélant une qualité du produit « quand je lisais
Délisse, je voyais le côté lisse de la chose » (femme, 47 ans, 18 ans d’ancienneté, CM2 EP,
DEUG langue chinoise). Mais elle provoque surtout des réactions de désaccord parce
qu’elle « entraine le doute ». Elle est jugée plus « pernicieuse » que les autres FRO, car « ce
n’est pas un rassemblement d’une expression mais un mot pour un mot avec une mauvaise
orthographe » (femme, 36 ans, 10 ans d’ancienneté, CM2 HEP, maitrise d’économie). La
FRO botanic compte majoritairement des avis neutres : « ça fait anglais, on n’est pas sur la
langue française » (femme, 50 ans, 15 ans d’ancienneté, CM2 HEP, bac G). Elle ne «
dérange pas ». Le peu de réactions vives semblerait dire qu’elle n’appartient pas au
registre des détournements graphiques parce qu’elle rencontre une orthographe légale
dans une langue étrangère. Enfin la FRO Déguiz et moi partage les avis en égale
proportion. Il s’agit là sans doute d’un effet de la polyvalence de sa compréhension. Le
mot est tantôt jugé « distrayant » et « intelligent » parce qu’il recèle à la fois une «
injonction » et une allusion à « ce personnage mystérieux Déguiz » et qu’« il n’y a rien de
choquant sur l’orthographe » et tantôt il ne « plait pas du tout », car « c’est ce qu’il y a de plus
horrible : ils ont fait en deux mots un verbe conjugué » (femme, 55 ans, 14 ans d’ancienneté,
CM2 EP, licence d’anglais).
4.1.2. Une analyse linguistique
15 Pour juger ces FRO, les témoins essaient de définir les variations graphiques qu’ils
observent. Ainsi la FRO OXÉBO ! est assimilée à une écriture SMS qui n’est pas « la
phonétique réelle de l’écriture » ou à « des mots compactés ». La FRO Sanouva est analysée
comme « une transcription phonétique pure des sons ». La FRO Délisse est décrite comme
étant « la même chose que délice mais avec 2 s à la place du –ce au niveau phonique ou
phonétique » (homme, 39 ans, 12 ans d’ancienneté, CM2 EP, licence de physique). La FRO
botanic est immédiatement reconnue comme une écriture anglaise alors que « nous
l’adjectif, on l’utilise avec –que ». Enfin la FRO Déguiz et moi est étudiée comme un « jeu de
mots sur l’impératif déguisez-moi et puis tout ce qui est “les déguisements et moi” »
(femme, 36 ans, 10 ans d’ancienneté, CM2 HEP, maitrise de d’économie). Cette première
analyse montre que les témoins emploient un langage ordinaire pour commenter à
titre personnel ce qui est « hors norme ».
16 À cette analyse visant à expliquer les écarts à l’orthographe, se greffe une volonté — ou
pas — de trouver un intérêt aux FRO. Les témoins se réfèrent alors à plusieurs critères
d’appréciation.
17 Un premier critère consiste à porter un jugement sur les graphèmes déviants. Ainsi la
lettre z de la FRO Déguiz et moi est très appréciée par certains, car « il est sympa ce z, cela
ressemble à un serpent. Le z j’adore, cela fait zozo, tous ces petits mots rigolos, c’est une lettre
enfantine. Il y a quelque chose de festif dans cette lettre en France » (femme, 40 ans, 15 ans
d’ancienneté, CM2 HEP, licence de sciences de l’éducation) ou elle peut laisser
Lidil, 58 | 2018
147
indifférent, car « le z, cela ne me parle pas du tout » (homme, 34 ans, 9 ans d’ancienneté,
CM1 HEP, licence de physique). La lettre s produit un effet positif dans la FRO Délisse
puisque c’est « agréable d’avoir remplacé le phonème [s] par deux s au lieu du c qui est là
normalement, cela allonge le mot » (femme, 27 ans, 2 ans d’ancienneté, CM2 EP, licence de
STAPS) alors que ce même graphème agresse dans la FRO Sanouva, car elle « saute aux
yeux » et « dérange dans la lecture ». À l’opposé, la lettre x de la FRO OXÉBO ! est souvent
jugée négativement, car « elle pose plus de problème au niveau du son ». L’absence de
blancs graphiques entre les mots est majoritairement jugée « choquante », car la lecture
devient « pénible ». La variante ic de la FRO botanic peut ne pas être appréciée, car « le
mot écrit à la française avec la terminaison –que s’assemble bien avec le genre féminin du mot,
–ic est plus masculin » (femme, 54 ans, 15 ans d’ancienneté, CM2 EP, maitrise de lettres
classiques, ancienne correctrice dans une maison d’édition) ou au contraire être prisée,
car « ça fait bien le son [k] à la fin parce qu’il n’y a pas de lettres derrière ». Ainsi, chaque
témoin justifie un positionnement singulier en attribuant une valeur et un sens tout
personnel aux différents graphèmes des FRO. Il n’en reste pas moins que le jeu
graphique doit rester rapidement accessible pour garder son attrait, exprimant le
confort qu’apportent les dimensions de régularité et de collectivité de la norme sociale
orthographique que l’adulte socialisé a intériorisées.
18 Un deuxième critère tient à l’appréciation de l’impact sur la communication. Puisque
ces FRO émanent essentiellement de la publicité, les témoins acceptent — ou pas —
d’adopter le point de vue des « publicitaires qui se demandent ce qu’ils vont sortir comme
marque ». Ils peuvent alors adhérer à la transgression et admettre qu’il est « normal
qu’ils sortent un seul mot avec une expression (OXÉBO !) » puisqu’ils « essaient d’accrocher,
c’est pas un tort, c’est leur métier » (femme, 27 ans, 2 ans d’ancienneté, CM1/CM2 HEP,
licence linguistique-informatique). Ils jugent ainsi positivement la FRO OXÉBO !
présentée comme « plus moderne que travaux pratiques ». D’autres la critiquent et
trouvent « ce titre plutôt racoleur, le point d’exclamation, c’est une surenchère vraiment
racoleuse » (femme, 54 ans, 15 ans d’ancienneté, CM2 EP, maitrise de lettres classiques,
ancienne correctrice dans une maison d’édition). Chaque FRO est ainsi tour à tour
appréciée ou réprouvée selon l’impact ressenti sur la communication. La FRO Sanouva
est appréciée car elle « fait penser aux îles Samoa, cela fait très exotique », ou au contraire
fortement critiquée car « ça fait penser à une résidence pour personnes âgées comme aux
États-Unis où toutes les personnes âgées se retrouvent dans un petit lotissement où il y a des
chefs de la sécurité, le supermarché, le dentiste » (femme, 37 ans, 10 ans d’ancienneté,
CM2 HEP, DEA de sociologie). La FRO Délisse est tantôt admirée en pensant au « plaisir
qu’on va avoir et qui va durer pendant la dégustation du yaourt. C’est parce que graphiquement
le mot prend plus de place, j’ai l’impression qu’on fait plus durer avec les deux s, ça donne envie
d’aller vers ça » (femme, 27 ans, 2 ans d’ancienneté, CM2 EP, licence de STAPS), tantôt
fortement critiquée car « on leurre les gens sur le produit ». Quant à la FRO botanic, elle est
jugée soit porteuse « d’une certaine dynamique dans la formule grâce au –ic », soit au
contraire, elle « perd de sa noblesse parce que le mot botanique c’est un mot savant, pas très
courant et là, cette orthographe le tronque » (femme, 54 ans, 15 ans d’ancienneté, CM2 EP,
maitrise de lettres classiques, ancienne correctrice dans une maison d’édition). Enfin
Déguiz et moi est parfois perçue comme une FRO pertinente pour un magasin de
déguisement, car elle joue sur « le changement, le rire, l’impromptu » ou bien comme une
« mise en scène terrible, hallucinante et scandaleuse » (femme, 50 ans, 8 ans d’ancienneté,
CM2 HEP, licence de biologie).
Lidil, 58 | 2018
148
19 Dans l’ensemble, il existe un empan assez large de réactions différentes pour chaque
FRO chez la plupart des témoins allant d’adhésions fortes à des rejets francs en passant
par des positions neutres, nuancées ou timorées. Mais globalement, certaines sont plus
appréciées que d’autres. Ainsi OXÉBO ! est la plus appréciée (pour son originalité) et
Délisse est la plus rejetée (pour le doute qu’elle fait naitre).
4.1.3. Une analyse indiquant une norme sociale bafouée
20 Lorsque les témoins s’opposent à titre personnel à ces graphies, ils indiquent « avoir une
répulsion pour ce procédé où on simplifie l’orthographe » et avancent des arguments qui
touchent à la dimension collective de la norme sociale et aux valeurs qu’elle recèle.
Ainsi, l’un d’entre eux indique que ce sont « des simplifications dommageables parce que les
mots perdent leur sens », que « c’est douteux et simpliste » et que « les gens qui sont payés
pour réfléchir, ils pourraient faire autrement en trouvant d’autres choses plus pertinentes et
plus intéressantes. On tombe au niveau d’une culture vraiment très appauvrie et on ne forme
plus des gens très éclairés au niveau de leur langage et de leur culture. Je trouve cela dommage »
(homme, 34 ans, 9 ans d’ancienneté, CM1 HEP, licence de physique). Cet avis personnel
rend compte de l’orthographe comme étant une norme sociale définie par ses
dimensions collective, sanctionnante et qui renvoie aux valeurs auxquelles elle est
adossée. Apparaissent ainsi de façon sous-jacente les valeurs de culture, d’instruction et
d’effort dans ce propos, ce que confirment d’autres témoins : « Ça n’élève pas nos enfants
», « j’appelle cela de la démission au profit de la facilité de penser ». Certains parlent de
déformation des mots indiquant là aussi que l’orthographe normée est régulière et
prescriptive. Un autre témoin avoue « je ne sais pas pourquoi mais ça me choque de jouer
avec l’orthographe » (femme, 56 ans, 35 ans d’ancienneté, CM1 HEP, bac). Nous émettons
l’hypothèse que la cause en est la non-observance de la norme sociale orthographique.
Les actions des individus n’étant plus alors réglées par des normes claires,
contraignantes, régulières et communes, la peur d’une anomie se manifeste. Enfin, un
dernier témoin conclut « il y a des choses qui doivent rester à leur place comme l’orthographe
parce que c’est la base de la langue ». Ce témoignage rend compte de la force de la norme
sociale. Si la contrainte est une pression extérieure que subit la conscience individuelle,
elle est relayée par une intériorisation de la norme (Besnard & Cherkaoui, 2005).
21 Les témoins portant des avis personnels négatifs sur les FRO au regard du non-respect
de la norme sociale se positionnent de la même façon en exprimant leur avis
professionnel.
4.2. Évaluer les FRO par un regard professionnel d’enseignant
22 La deuxième catégorie de jugements sollicités appartient aux jugements des

professionnels que sont les maitres chargés de l’enseignement du système
orthographique auprès d’élèves.
23 Si les avis personnels variés indiquent certaines formes d’adhésion, les avis
professionnels sont beaucoup plus unanimes et resserrés autour d’un positionnement
de rejet : la FRO OXÉBO ! requiert 14 avis personnels d’adhésion, mais seulement 3 à titre
professionnel ; la FRO botanic est critiquée par 7 témoins à titre personnel et par 21 à
titre professionnel.
Lidil, 58 | 2018
149
24 Une analyse en composantes principales4 montre que de toutes les opinions exprimées,
celles qui relèvent du champ professionnel sont les plus prégnantes. La norme sociale
orthographique est bien une préoccupation professionnelle majeure.
4.2.1. Un jugement professionnel reposant sur le respect de la norme sociale
25 Ces positionnements professionnels témoignent d’une réflexion sur l’orthographe

appréhendée comme une norme sociale et expriment la mission des enseignants dans
l’éducation des enfants à cette norme sociale. Ils indiquent l’impact de ces FRO pour la
société dans son ensemble et pour un groupe social particulier, les élèves. Les
réflexions des témoins ne thématisent plus leur ressenti personnel mais les règles
prescriptives du système orthographique et l’usage jugé correct par l’institution sociale
qui régit la langue et auquel l’usager doit se conformer :
L’orthographe, qu’est-ce que c’est ? Finalement c’est qu’un mot s’écrit d’une façon
et pas d’une autre. C’est une règle qui dit maintenant le mot il s’écrit comme ça, elle
est appliquée. […] C’est que l’orthographe, les règles d’orthographe pour moi, c’est
un code social. C’est montrer aux autres qu’on est capable de respecter un certain
nombre de règles, de langage codé. (Homme, 40 ans, 13 ans d’ancienneté, CM1 HEP,
DEA d’astrophysique.)
L’orthographe est ainsi appréhendée comme une norme sociale prescriptive, régulière,
collective, contraignante, sanctionnante et appuyée sur des valeurs d’effort et de
cohésion sociale. Cette approche amène les enseignants à prendre de la distance par
rapport à ces FRO et à les combattre. Leurs positionnements deviennent
majoritairement négatifs, car ils se sentent responsables de la socialisation
orthographique primaire des élèves, l’enseignant devant indiquer les normes sociales à
l’enfant afin que ce dernier respecte les conventions et s’insère dans la société.
26 Forts de cette prise de conscience, les enseignants interrogés critiquent fortement
les FRO dès lors qu’elles sont accessibles aux enfants. Ils se disent gênés, dérangés voire
même scandalisés.
4.2.2. Une norme collective, contraignante, adossée à des valeurs de cohésion

sociale
27 Ces FRO brouillent la compréhension et la construction de la norme sociale pensée

comme un modèle de conduite partagée. Dans cette optique, les enseignants pensent
qu’elles installent à tort l’idée d’une liberté individuelle qui peut s’affranchir du
collectif : « Après si chacun écrit comme il veut, si plus rien n’a d’importance, on peut se
demander pourquoi on continue d’apprendre des règles d’orthographe et de les enseigner à
l’école. » (Femme, 49 ans, 23 ans d’ancienneté, CM2 EP, études d’orthophonie.) Cette
critique renvoie à une opposition de valeurs, opposition entre individualisme et
cohésion sociale promue par l’institution scolaire.
28 Puisque les normes collectives visant la cohésion sociale définissent la socialisation
scolaire de l’enfant, les FRO sont perçues comme une menace et comme une blessure de
la conscience collective. Les témoins pointent l’antagonisme entre les finalités des FRO
et celles de l’éducation. Les premières flattent temporairement l’enfant par leur
absence de contrainte tandis que les secondes visent à leur apporter une culture
collective qui s’acquiert au prix d’efforts et de coercition. Ainsi, les FRO prônent une
socialisation contraire à celle inculquée par l’école. Elles mettent à mal le respect de la
Lidil, 58 | 2018
150
norme sociale. Les FRO présentent l’intérêt « égoïste » de l’action privée et entrent en
conflit avec les valeurs de la société :
C’est vrai qu’il y a un objectif publicitaire important dans le et moi (Déguiz et moi)
comme on est dans une société extrêmement égocentrique, c’est clair que cela
correspond tout à fait à la demande. C’est le reflet de la société d’aujourd’hui, donc
cela ne me plait pas. (Femme, 55 ans, 14 ans d’ancienneté, CM2 EP, licence
d’anglais.)
Cette opposition de valeurs peut engendrer des réactions courroucées :
Je trouve cela scandaleux d’écrire ainsi […] on ne devrait pas laisser faire ce genre
d’écrit. On vit dans une société paradoxale. D’un côté on se fait taper dessus parce
qu’on a des enfants qui ne savent pas lire et ne savent pas écrire correctement et de
l’autre tout est permis. Il va bien falloir s’accorder. C’est fou parce que tu essayes
d’apporter des valeurs, des connaissances et puis j’ai l’impression que le travail est
complètement anéanti une fois qu’ils sortent de la classe par ce genre d’écrits
hallucinants. » (Femme, 50 ans, 8 ans d’ancienneté, CM2 HEP, licence de biologie.)
Les enseignants perçoivent cette dualité comme pouvant « générer un problème de valeur
qu’on donne à l’orthographe. Il y a une orthographe précise et les enfants peuvent se demander
s’ils sont obligés de mettre un c ou 2 s s’ils en ont envie » (femme, 40 ans, 15 ans
d’ancienneté, CM2 HEP, licence de sciences de l’éducation).
29 Ces valeurs contraires rejaillissent sur les conditions d’exercice et sur l’image du métier
d’enseignant : « C’est dommage pour nous, l’apprentissage de l’orthographe est suffisamment
difficile et ce genre de jeux de mots ne facilite pas le travail de l’enseignant. » (Homme, 39 ans,
12 ans d’ancienneté, CM2 EP, licence de physique.) Les enseignants ont l’impression que
leur métier n’est pas reconnu :
Là, on jette aux enfants et à la société toute entière en pâture quelque chose
d’absolument faux et après en classe, on leur dit « non, pas du tout » et l’enfant va
dire « je suis désolé, moi c’est ce que j’ai vu, ça existe », « oui ça existe mais c’est pas
la réalité, c’est pas comme ça que ça s’écrit » eh bien derrière on rame ! Ça
complique notre métier. » (Femme, 37 ans, 14 ans d’ancienneté, CM2 HEP, licence
de sciences du langage.)
Au-delà de ces attaques, c’est leur identité enseignante qui est atteinte :
C’est très embêtant d’être face à tant de créativité qui finit par nous revenir comme
un boomerang. Nous, les enseignants, on a l’air d’être les traine-savates culturels,
les grincheux, les passéistes. (Homme, 37 ans, 8 ans d’ancienneté, CM1 EP, maitrise
d’histoire.)
30 Une façon de surmonter le conflit entre FRO et norme sociale orthographique consiste
pour certains à les identifier comme des noms propres affranchis de l’orthographe
traditionnelle : « Cela ne m’a pas gênée parce que ce sont des noms propres, du coup, je suis
totalement détachée de l’orthographe. » (Femme, 50 ans, 24 ans d’ancienneté, CM1 HEP,
DEUG de psychologie.)
4.2.3. Un jugement pédagogique
31 En se positionnant comme pédagogues spécialistes de la construction des

apprentissages langagiers, certains enseignants pensent que ces FRO sont
préjudiciables aux enfants encore incapables « de faire la distinction entre ça et la bonne
orthographe » et de comprendre qu’il s’agit « d’un jeu sur la langue », surtout quand les
graphies fantaisistes sont proches de l’orthographe normée, qu’elles ont recours aux
graphèmes les plus fréquents ou qu’elles sont fréquemment rencontrées. Elles sont
jugées « piégeantes », « dangereuses » et elles « poussent à la faute ». Cette crainte
d’absence d’esprit critique des enfants est renforcée, selon certains témoins, par un
Lidil, 58 | 2018
151
enseignement dogmatique de l’orthographe qui les habitue « à un discours normatif »

(femme, 40 ans, 15 ans d’ancienneté, CM2 HEP, licence de sciences de l’éducation).
32 Les raisons pédagogiques du rejet de ces FRO les plus souvent évoquées indiquent
qu’elles induisent les élèves en erreur parce qu’ils photographient une graphie erronée.
Face à de telles critiques, il n’est pas étonnant qu’aucun enseignant n’indique
spontanément que ces FRO puissent pénétrer dans sa salle de classe. Au contraire,
majoritairement, ils se disent vigilants à les en écarter, car ils ont « trop peur de la
confusion ».
Dépasser ces tensions
33 Pour dépasser les tensions entre les avis personnels qui apprécient ces FRO et les avis
professionnels qui les rejettent, il est deux attitudes possibles : introduire ces FRO en
classe en les encadrant strictement par un travail pédagogique ou cloisonner les deux
univers de manière étanche. Faut-il laisser à d’autres que l’école le soin de mettre
l’enfant en contact avec ces écrits ou organiser des rencontres avec les FRO pour
travailler la langue française à l’école ?
Introduire ou pas les FRO en classe
34 Invités dans l’entretien à dépasser cette réticence professionnelle et à imaginer quelle

place aménager aux FRO en classe, la majorité des maitres persistent dans leur refus de
leur accorder droit de cité, confirmant leur hostilité à ce qu’un « enseignant amène un tel
mot dans la classe » (femme, 42 ans, 18 ans d’ancienneté, CM1 HEP, DEA de sciences
économiques). Les quelques « traitements pédagogiques » envisagés de ces écrits visent
essentiellement à les réparer : « Dans un cadre scolaire, on peut quand même se dépêtrer du
piège en précisant que l’orthographe est anormale. » (Homme, 37 ans, 8 ans d’ancienneté,
CM1 EP, maitrise d’histoire.) Quelques enseignants auraient alors recours à des savoir-
faire issus de la didactique de la grammaire. Ils proposeraient la réalisation de
manipulations linguistiques pour faire identifier les groupes syntaxiques, pour mettre
l’accent sur leurs constituants et sur leurs classes grammaticales afin de rétablir
l’orthographe normée. Les élèves se livreraient à des transformations telles que : Ah que
cela était joli (OXÉBO !) ou Cela me convient (Sanouva). L’orientation pédagogique générale
s’apparenterait à l’exercice de « cacographie » d’autrefois (Chervel, 2008) actuellement
nommé « la chasse aux fautes ». Les élèves seraient avertis qu’il s’agit de « mots
intentionnellement fabriqués pour être déviants » et « seraient alors mobilisés sur la vigilance
sociale à exercer pour les repérer et pour corriger leur orthographe » (homme, 37 ans, 8 ans
d’ancienneté, CM1 EP, maitrise d’histoire). L’introduction en classe des FRO serait alors
une réponse offensive des maitres à leur nuisance, surtout si celles-ci restent
non commentées et non rectifiées.
35 Une seule enseignante déclare, qu’au-delà de sa gêne première, elle chercherait des
activités qui auraient pour but « de réfléchir sur la grammaire du mot », « sur les raisons de
son orthographe », sur « le sens », sur le « lien oral-écrit » dépassant ainsi l’unique
intention de rétablir de l’orthographe normée (femme, 40 ans, 15 ans d’ancienneté,
CM2 HEP, licence de sciences de l’éducation). Elle « s’amuserait à mettre en voix OXÉBO ! en
détachant les syllabes ». Elle ferait observer Sanouva comme un néologisme légitime et
ferait « chercher la phrase qui se cache dessous et qui donne un sens à ce mot construit ».
botanic ferait l’objet d’une comparaison des langues française et anglaise. Cette
Lidil, 58 | 2018
152
enseignante, atypique, apprécie les tentatives d’orthographe lexicale erronée de ses

élèves :
Je trouve plutôt sympa quand ils écrivent des fausses lettres étymologiques quand
ils pensent que ça vient d’un mot particulier. C’est sympa de se dire que l’élève a
réfléchi, qu’il a eu un doute et qu’il a rapproché un mot d’un autre. Même si c’est
une erreur, le doute est là. Ce qui me gêne, c’est les enfants qui ne doutent pas. Ça
c’est embêtant quand on n’arrive pas à les faire douter, quand ils se disent c’est la
fatalité j’ai faux ou j’ai bon sans se dire qu’il y a une démarche à conduire.
Cette posture pédagogique l’amène à proposer à ses élèves à réfléchir à des énoncés tels
que « Le poissonnier m’a parlé d’un thon très amical ». Selon elle, les FRO sont « une entrée
super pour les enfants pour aborder l’orthographe, la norme, l’écart à la norme ». Son
positionnement est servi par un gout personnel pour la langue française dont elle veut
faire profiter ses élèves :
J’ai plein de bouquins chez moi sur les bizarreries de la langue, l’étymologie. J’ai fait
du grec et du latin juste pour ça, parce que j’adore l’histoire des langues, comment
s’est fait ce mot, pourquoi il y a un h, un t. Je connais plein d’histoires sur les mots
que je raconte à mes élèves.
Ainsi le « côté ludique de ces FRO offre un support de travail fabuleux. À partir du moment où
on dit “on s’amuse, c’est un jeu sur la langue”, l’enfant va avoir une certaine vigilance ». Elle,
seule, mise résolument sur l’introduction pédagogique de ces FRO en classe.
5. Conclusion
36 Les avis émis à titre personnel par les témoins sur les 5 FRO de notre corpus sont variés
quant à leur appréciation/rejet parce qu’ils s’appuient sur plusieurs critères d’analyse.
Cependant, la norme sociale orthographique n’est jamais remise en question. Elle reste
leur référence pour se situer linguistiquement, socialement et affectivement. Quelques-
uns auraient même tendance à refuser la variation linguistique en naturalisant la
norme au lieu de la placer parmi les construits sociaux. Parce qu’ils l’ont suffisamment
intériorisée et acceptée, certains s’octroient une certaine marge de liberté personnelle
leur permettant de se divertir de telles variations.
37 À l’opposé, les avis émis à titre professionnel sont plus unanimement négatifs. Les
caractéristiques de la norme sociale culturelle servent de références pour rejeter
ces FRO. Dans le cadre de l’enseignement-apprentissage, les enseignants les considèrent
majoritairement comme des éléments perturbateurs de l’acquisition de la norme
orthographique pour leurs élèves. Elles risquent, selon eux, d’induire les enfants en
erreur. Les raisons de cette perturbation seraient liées, d’une part, aux élèves (à leur
immaturité intellectuelle, affective et sociale et à leurs procédures d’apprentissage par
mémorisation visuelle), d’autre part, aux FRO (à leurs graphies proches de la graphie
normée et à leur large diffusion dans la société).
38 Nous pensons, au contraire, que ces FRO sont de bons supports pour que les élèves
développent une réflexion métalangagière mettant en œuvre différentes manipulations
linguistiques pour construire des compétences lexicales, morphologiques et
syntaxiques, pour que les maitres réfléchissent aux écrits polygraphiés qui ont cours
dans la société (FRO, SMS, abréviations, rectifications de 1990, etc.) afin qu’ils se
rendent compte de leur diversité, de leurs spécificités, mais aussi de leurs
interrelations et pour que les différents formateurs soient amenés à penser que la
didactique de l’orthographe met en interaction la linguistique, les habitudes scolaires,
Lidil, 58 | 2018
153
les pratiques sociales, les politiques de la langue (générales ou propres à l’éducation

nationale) et un certain type de rapport des enseignants à l’orthographe. Ces
différentes approches auraient pour intérêt de penser la complexité de l’orthographe et
de son enseignement et non de réduire ce dernier à une transmission techniciste
consistant principalement pour les élèves à mémoriser des règles préécrites.
BIBLIOGRAPHIE
BARDIN, Laurence. (2001). L’analyse de contenu (10e éd.). Paris : Presses universitaires de France.
BARRÉ-DE MINIAC, Christine, CROS, Françoise & RUIZ, Jacqueline. (1993). Les collégiens et l’écriture. Des
attentes familiales aux exigences scolaires. Paris : INRP-ESF éditeur.
BESNARD, Philippe & CHERKAOUI, Mohamed (2005). Durkheim Émile David, 1858-1914. Dans
M. Borlandi, R. Boudon, M. Cherkaoui & B. Valade, Dictionnaire de la pensée sociologique. Paris : PUF.
Disponible sur <www.puf.com/Auteur%3AÉmile_Durkheim>.
CHARTRAND, Suzanne-Geneviève. (2012). Quelles finalités pour l’enseignement grammatical à

l’école ? Une analyse du point de vue des didacticiens du français depuis 25 ans. Formation et
profession, 20(3), 48-59. <http://dx.doi.org/10.18162/fp.2012.222>.
CHAZEL, François. (n. d.). Norme. Encyclopédie Universalis, 11, 894-896.
CHERVEL, André. (2008). L’orthographe en crise à l’école. Et si l’histoire montrait le chemin. Paris : Retz.
COMBAZ, Catherine. (2017). De la variabilité du rapport des enseignants de l’école primaire à

l’orthographe appréhendée comme une norme sociale : discours et pratiques (Thèse de doctorat),
Université de Cergy-Pontoise.
DEMEULENAERE, Pierre. (2001). Normativité et rationalité dans l’analyse sociologique de l’action.

Dans R. Boudon, P. Demeulenaere & R. Viale, L’explication des normes sociales (p. 187-202). Paris :
Presses universitaires de France.
DEMEULENAERE, Pierre. (2003). Les normes sociales : entre accords et désaccords. Paris : Presses
universitaires de France.
JAFFRÉ, Jean-Pierre. (2010). De la variation en orthographe. Études de linguistique appliquée, 159,

309-323.
LUCCI, Vincent & MILLET, Agnès. (1992). Les noms de magasin ont-ils une signification ? Lidil, 7,
86-119.
MILLET, Agnès, LUCCI, Vincent & BILLIEZ, Jacqueline. (1990). Orthographe, mon amour. Grenoble :
Presses universitaires de Grenoble.
PÉRET, Claudie, BRISSAUD, Catherine & SAUTOT, Jean-Pierre. (2007, mai). Assurances et désarrois après
la formation initiale : l’exemple de l’orthographe. Communication présentée au colloque CD IUFM
« Qu’est-ce qu’une formation professionnelle universitaire des enseignants ? », Arras.
SAUTOT, Jean-Pierre. (2002). Orthographe : construction de quelques « parasites » normatifs en

classe. Lidil, 25, 57-70.
Lidil, 58 | 2018
154
SAUTOT, Jean-Pierre. (2003a). Acquisition de postures normatives en rapport avec l’orthographe :

discours et attitudes de l’enseignant dans sa classe. Repères, 26-27, 103-112.
SAUTOT, Jean-Pierre. (2003b). Construction de la norme orthographique : quelques avatars

pédagogiques. Dossiers des sciences de l’éducation, 9, 109-119.
NOTES
1. Ces quatre premières FRO ont fait l’objet d’un travail de recherche de J.-P. Sautot autour de
l’utilisation de l’orthographe dans la construction du sens en lecture (2000).
2. EP : enseignant exerçant en Éducation prioritaire. HEP : enseignant exerçant hors Éducation
prioritaire.
3. Lorsque les extraits rapportés sont très courts, nous n’indiquons aucun renseignement sur le
témoin pour ne pas rompre la lecture contrairement à ce que nous proposons pour un extrait
plus long.
4. L’ACP a pour objectif de synthétiser les différentes informations liées aux adhésions
personnelles et professionnelles des témoins (variables) à ces 5 FRO et d’en restituer les plus
saillantes.
RÉSUMÉS
La présente contribution prend place dans la filiation des recherches sur le rapport des individus
à l’orthographe, recherches qui caractérisent la place que celle-ci occupe dans la société en
général ou au sein de certaines professions, notamment chez les enseignants et corrélativement
chez les élèves. Ces travaux montrent que pour tout un chacun, l’orthographe revêt des enjeux
personnels et sociaux forts. Nous proposons de compléter ces recherches en abordant
l’orthographe comme une norme sociale culturelle à travers les significations que les enseignants
de l’école primaire construisent à propos de graphies fantaisistes qui détournent l’orthographe
normée, appelées figures rhéto-orthographiques. Nous postulons que celles-ci mettent à l’épreuve le
rapport qu’ils ont construit à la norme sociale orthographique et ce, de façon variable entre eux,
selon les déformations graphiques proposées, mais aussi selon qu’ils s’expriment à titre
personnel ou à titre professionnel. Des entretiens semi-directifs menés auprès de trente maitres
de cycle 3 nous permettent de répondre à cette question.
This contribution takes place in the filiation of researches on the relationship of individuals to
spelling, researches that characterize the place it occupies in society in general or within certain
professions, particularly among teachers and correlatively among pupils. These researches show
that for everyone, spelling has strong personal and social issues. We propose to complete them
by approaching spelling as a cultural social norm through primary school teachers’ meanings
about fanciful spellings that deflect standard orthography, called “figures rhéto-orthographiques”.
We postulate that they test the relationship they have built to the social spelling norm and this,
in a variable way between them, according to the graphical deformations proposed but also
according to whether they express themselves personally or in a professional capacity. Semi-
Lidil, 58 | 2018
155
directive interviews with thirty 4th and 5th year primary school teachers allow us to answer this
question.
INDEX
Mots-clés : orthographe, enseignants, rapport à, norme sociale, figures rhéto-orthographiques
Keywords : spelling, teachers, relationship, social norm, figures rhéto-orthographiques
AUTEUR
CATHERINE COMBAZ
Laboratoire EMA (École, Mutations, Apprentissages), Université de Cergy-Pontoise
Lidil, 58 | 2018
156
Notes de lecture
Lidil, 58 | 2018
157
Nicolas Laurent et Christelle

Reggiani (dir.), Seuils du nom propre
coll. « Études linguistiques et textuelles » (CREM, Université de
Lorraine), Limoges, Lambert-Lucas, 2017, 194 p.
Samia Ounoughi
RÉFÉRENCE
Nicolas Laurent et Christelle Reggiani (dir.), Seuils du nom propre, coll. « Études
linguistiques et textuelles » (CREM, Université de Lorraine), Limoges, Lambert-Lucas,
2017, 194 p.
1 Cet ouvrage collectif est issu du colloque international de linguistique et de stylistique

« Seuils du nom propre » qui s’est tenu en mars 2015 à l’École normale supérieure de
Lyon. Les 13 contributions en langue française visent toutes à explorer la nomination
de personnes ou de personnages, une nomination aux seuils du nom propre (NP). Ainsi,
l’ouvrage va au-delà de la description linguistique du NP et des syntagmes dans lesquels
il intervient en investissant le champ de la stylistique. Les auteur(e)s y explorent les
formes périphériques ou hybrides de dénominations individuelles en plus du NP et de
ses modifications telles que les sobriquets, les surnoms ou les syntagmes nominaux
phonétiques. Ils révèlent l’immense variété des créations auctoriales pour dénommer la
personne ainsi que leurs enjeux sur le genre, l’évolution diachronique du patronyme,
etc.
2 Les corpus sous étude dans ces contributions sont d’une grande variété. Ils couvrent
des périodes de l’Histoire allant de l’Antiquité à nos jours en passant par le Moyen Âge
et l’époque moderne (Anna Jaubert). Ils explorent également des genres aussi variés
que le roman (Vanessa Obry), le conte (Emily Lombardo), l’autobiographie (Véronique
Montémont) ou la bande dessinée (Agathe Cormier). Même la poésie est étudiée alors
que les NP de personnes y figurent rarement (Federica Locatelli, Sylvain Dournel). Les
derniers articles sont consacrés à l’analyse de sources non fictionnelles et
Lidil, 58 | 2018
158
multimodales, à l’oral et à l’écrit, notamment la presse et les autres organes

médiatiques (Anna Arzoumanov, Paola Paissa, Dorgelès Houessou).
3 Tenant toujours compte à la fois des contextes historique et discursif de ces
occurrences, ces articles questionnent la dénomination de l’individu réel ou du
personnage de fiction à l’appui de l’analyse des particularités linguistiques et des
processus discursifs qui construisent le lien entre le référent et le NP ou assimilé
(antonomase inversée, exophore mémorielle, etc.) Les auteur(e)s montrent le parcours
qui conduit au choix d’un élément ou d’éléments de catégories grammaticales diverses
pour dénommer un individu ou un personnage de fiction (noms communs,
onomatopées, schémas phonétiques de syntagmes ou autres). Ils distinguent des étapes
de nomination qui vont de pair avec une évolution du sujet et/ou de l’économie du
discours dans son ensemble, voire, l’évolution d’un genre (le roman médiéval chez
Vanessa Obry). Aussi, la complexité de ces occurrences dénominatives aux seuils du NP
est-elle également explorée dans sa nature variable, voire instable. Nicolas Laurent et
Christelle Reggiani sondent aussi le rôle majeur de l’éditeur dans ses choix
typographiques, notamment l’enjeu de la majuscule sur un même nom et les multiples
possibilités d’interprétations qu’offrent ou imposent ces variations.
4 Les analyses sont menées à l’appui d’outils complémentaires comme la stylistique, la
pragmatique ou l’analyse du discours par les corpus numérisés. Elles nous permettent
d’envisager à quel point le champ du NP est vaste tant ses frontières s’étendent, nous
invitant à parcourir des registres d’occurrences relevant aussi bien de la vie
quotidienne (politique, justice, presse…) que de la fiction sous toutes ses formes.
Donnons pour exemple l’article passionnant d’Agathe Cormier qui explore la
motivation du NP dans une BD hilarante où les NP correspondent aux tics de langage
des personnages. Elle fait également résonner/raisonner le silence, car elle étudie le cas
du personnage-clé, celui qui n’a pas de nom. L’autobiographie est relue à l’aune des
options multiples qui s’offrent à l’auteur de garder son nom dans le texte, de le
modifier ou de le taire. Ici, Véronique Montémont engage toute une réflexion sur le
rapport du NP à son référent. Dans un autre article, Emily Lombardo montre comment
un auteur peut user des références communes avec son lectorat pour se les
réapproprier et tisser une complicité toute particulière avec lui à travers les contes de
La Fontaine.
5 L’ouvrage est loin d’avoir sondé la totalité des seuils du NP ; il nous permet en revanche
de saisir l’ampleur et la richesse de ce champ liminal et promet des recherches
passionnantes à venir.
AUTEURS
SAMIA OUNOUGHI
Lidil, 58 | 2018
159
Nathalie Lacelle, Jean-François

Boutin et Monique Lebrun,
La littératie médiatique multimodale
appliquée en contexte
numérique — LMM@. Outils
conceptuels et didactiques
Thierry Soubrié
RÉFÉRENCE
Nathalie Lacelle, Jean-François Boutin et Monique Lebrun, La littératie médiatique
multimodale appliquée en contexte numérique — LMM@. Outils conceptuels et didactiques,
1 Le présent ouvrage est le second publié par Nathalie Lacelle, Monique Lebrun et Jean-
François Boutin portant sur la littératie médiatique multimodale. Il s’intéresse
exclusivement à la littératie en contexte numérique et cette fois-ci, les auteurs ont pris
en charge l’écriture de l’ensemble des chapitres. Le projet éditorial est double puisqu’il
s’agit à la fois d’inciter les enseignants à accorder une place aux « pratiques de
communication contemporaine en classe » (p. 4), mais aussi de justifier et de légitimer
un domaine de recherche, en l’occurrence la littératie médiatique multimodale
appliquée en contexte numérique — LMM@.
2 Dans le premier chapitre, les auteurs situent la littératie numérique au sein des
humanités numériques qui succèdent selon eux, dans l’ordre des humanités tel qu’il a
été défini par Lévi-Strauss (1973), à l’humanisme démocratique du XXe siècle, comme
Lidil, 58 | 2018
160
pour mieux signifier sa singularité par rapport à la littératie dite « traditionnelle »

(p. 65). On retiendra entre autres, bien que le propos ne soit pas central dans ce
chapitre, la distinction qui est faite entre, d’une part, les « jeunes » qui ont des
pratiques numériques informelles et, d’autre part, l’institution éducative qui résiste à la
« culture numérique » (p. 24). Le chapitre suivant est consacré aux genres numériques
et à ce qui fait leur spécificité par rapport aux genres préexistants. L’entreprise est
intéressante, mais si certaines désignations correspondent à ce que l’on entend par
genre, à savoir des « formes abstraites, relativement stables, […] liés aux différents
domaines de l’activité humaine qui en déterminent le contenu thématique, le style et la
structure » (Détrie et coll., 2001), à l’instar des fanfictions ou de la narration
numérique, d’autres en revanche correspondent davantage à des supports de
production (blogue, wiki, etc.) qui, s’ils possèdent des caractéristiques techniques et
éditoriales spécifiques, peuvent « accueillir » plusieurs genres. C’est le cas du blogue
par exemple qui peut donner lieu à des genres aussi différents que le récit de voyage, le
journal intime, ou encore le carnet de recherche.
3 Les chapitres 3 et 4 abordent respectivement la lecture et l’écriture numériques, entre
autres envisagées sous l’angle de la multimodalité. À nouveau, il s’agit ici pour les
auteurs de montrer, à partir de synthèses de recherches, ce qui fait des activités de
lecture, d’écriture et de recherche d’information dans un environnement numérique,
des activités différentes et surtout, complexes, qui nécessitent un apprentissage
spécifique. Les deux chapitres qui suivent abordent successivement les questions liées à
la recherche et à la pédagogie, alors que dans les chapitres précédents les deux
dimensions étaient étroitement liées. Dans le chapitre consacré à la recherche, il s’agit
de faire le point sur les différentes travaux entrepris jusqu’ici sur la littératie
numérique, et ce, dans différents types de recherches (recherche action, recherche
ethnographique, design based research, recherche théorique, etc.), et de proposer des
pistes pour de futures recherches. Dans le chapitre sur les « design didactiques »
(séquence didactique), sont présentés, rapidement, des principes méthodologiques de
conception ainsi que « huit séquences d’enseignement de compétences en LMM
[littératie médiatique multimodale] » (p. 201).
4 Ce qui fait la force de l’ouvrage, c’est la fusion des propos scientifique et pédagogique
qui fournit à travers des exemples de pratiques, certes expérimentales et
confidentielles, des idées d’activités à mener en classe. Mais c’est aussi peut-être ce qui
fait la faiblesse de l’entreprise. Viser simultanément plusieurs objectifs — partager une
conviction, convaincre du bienfondé de pratiques didactiques, asseoir la légitimité d’un
objet de recherche, proposer des clés, des pistes pour l’action, faire évoluer les
pratiques des enseignants — est très ambitieux et ne permet pas toujours d’offrir au
lecteur une vision cohésive de l’ensemble. La publication de cet ouvrage, unique dans la
littérature de recherche francophone, témoigne de la détermination d’un groupe de
recherche rassemblé autour d’une conviction commune, celle de l’émergence d’une
nouvelle littératie et de l’urgence qu’il y a pour l’école à s’en emparer.
Lidil, 58 | 2018
161
AUTEURS
THIERRY SOUBRIÉ
Lidil, 58 | 2018
162
Laurent Gautier (éd.), Figement et

discours spécialisés
Forum für Fachsprachen-Forschung, vol. 105, Berlin, Frank & Timme,
Verlag für wissenschaftliche Literatur, 2018, 158 p.
Carole Calistri
RÉFÉRENCE
Laurent Gautier (éd.), Figement et discours spécialisés, Forum für Fachsprachen-Forschung,
vol. 105, Berlin, Frank & Timme, Verlag für wissenschaftliche Literatur, 2018, 158 p.
1 L’ouvrage coordonné par Laurent Gautier propose une exploration très complète du
figement : sa description et son fonctionnement dans les langues de spécialité /
spécialisées à travers 7 articles rassemblés pour parcourir d’un bout à l’autre ses
réalisations, c’est-à-dire en considérant l’inscription du figement depuis le glossaire
jusqu’au discours. Deux avancées importantes dans le domaine sont actées : d’une part,
le dépassement de l’opposition stérile entre langue générale ou commune et langue de
spécialité et, d’autre part, l’infléchissement, dans les recherches présentées, vers des
approches plus quantitatives que qualitatives (L. Gautier) rendues possibles par
l’accession à de grandes masses de données. On notera la diversité des corpus sollicités
(dans trois langues) par les différentes rubriques : ils sont issus de la presse de
vulgarisation scientifique (M. Iakushevich), des pages sportives (R. Vanoudheusden) ou
non (R. Marti Solano) de quotidiens, mais également de glossaires, touchant à la gestion
du risque des catastrophes naturelles (G. Gréciano), à l’économie et à l’énergie
nucléaire (G. Petit), à la logistique et aux transports (J.-M. Delagneau) ou à celui de la
faim dans le monde (F. Rigat).
2 Une deuxième dimension est constituée par l’articulation entre les unités considérées
par chacun des articles et leurs usages dans un cadre qui les englobe et en légitime
l’étude. À chacun des niveaux, les auteurs combinent la précision dans la description de
l’objet délimité (unité polylexicale, collocation, phraséologie, stéréotypie) avec les situations
d’emploi, dans une synergie qui redéfinit la distinction entre langue et discours. On va
Lidil, 58 | 2018
163
de la limite phrastique — terminologies, glossaires, collocation (M. Iakushevich),

distinguée à l’intérieur de l’ensemble des phraséologies par son degré très faible d’
idiomatisme — jusqu’à son au-delà, avec le texte / le discours journalistique général
(R. Marti Solano) ou spécialisé (thématique de la dépression pour M. Iakushevich, du
sport pour R. Vanouheusden). Choisir comme objet de réflexion le figement implique
nécessairement de s’intéresser à ce qui n’est pas figé / n’est pas considéré comme figé
ou non entièrement figé, ou non toujours figé. Les auteurs envisagent également les
mouvements du figement, par exemple celui qui reflue de la polylexicalité à une
certaine monolexicalité ou bien qui en dilue le projet, faute d’une convergence des
instances de légitimation (G. Petit), ou celui qui prend en compte l’usure de l’usage, le
figement appelant le défigement en synchronie ou en diachronie à travers différentes
manipulations phraséologiques (R. Marti Solano).
3 Une troisième caractéristique de l’ouvrage est le fait que c’est vers l’action qu’est dirigé
le glossaire multilingue de la gestion du risque : celles de l’information, de la formation,
de l’enseignement en vue de la protection des hommes et de leurs biens (G. Gréciano),
de la même manière que les collocations relatives à la dépression qui construisent la
cohérence de la présentation des symptômes fournissent de quoi identifier la maladie,
dans une perspective prophylactique (M. Iakushevich). Il est également montré que
l’étude du phénomène du figement est ou peut être une arme pédagogique et
économique pour contrebalancer la concurrence ou l’imposition d’une lingua franca
— l’anglais. En effet, la neutralité de la lingua franca obère la réalité du savoir spécialisé
des langues-cultures concernées par les échanges (J.-M. Delagneau). La dimension
politique, dans son sens le plus noble, celui qui forme la réflexion du citoyen et veille à
l’intérêt commun, est montrée / démontrée dans la fine étude de la langue de bois des
institutions internationales relativement aux différentes désignations de la faim,
devenue « insécurité alimentaire » (F. Rigat) ; dimension politique également avec
l’analyse du babélisme montrant l’absence de concertation d’institutions publiques
(G. Petit). La poésie ne manque pas à l’appel avec l’étude de la variation stylistique et de
la créativité phraséologique à l’œuvre dans le domaine journalistique (R. Marti-Solano).
4 On appréciera dans ce volume le grain des analyses, corollaire de la complexité
explorée, qui en fera un glossaire sûr et précis pour les étudiants. Cet ouvrage fait la
preuve de la vitalité de la recherche terminologique / terminographique, et convainc
en outre de son impact philosophique, social, politique.
AUTEURS
CAROLE CALISTRI
LINE, Université – ESPE de Nice
Lidil, 58 | 2018
164
Clara Romero, L’intensité et son

expression en français
Paris, Éditions Ophrys, 2017, 280 p.
Francis Grossmann
RÉFÉRENCE
Clara Romero, L’intensité et son expression en français, Paris, Éditions Ophrys, 2017, 280 p.
1 L’ouvrage s’ouvre sur une introduction qui présente la notion d’intensité en

linguistique, définie de manière assez extensive comme « la plus ou moins grande force
associée à un message » (p. 13). Cette approche large veut éviter de cantonner
l’intensité aux « degrés d’intensité », présentation traditionnellement effectuée dans
les grammaires : dans l’approche classique, les adverbes quantifieurs (un peu, beaucoup,
etc. ou le superlatif très) restent au centre de l’analyse, alors que dans celle qui est
adoptée, l’intensité s’exprime à travers une grande diversité de moyens linguistiques,
situés à différents niveaux (grammaticaux, lexicaux, discursifs, entre autres). La
perspective proposée est donc originale, mais elle repose sur le pari risqué selon lequel,
au-delà des différences de ses formes et de ses fonctions, il est possible de trouver une
unité et une cohérence à la notion d’intensité, entendue dans ce sens très général. Le
cadre d’analyse est éclectique, puisqu’on trouve des références, suivant les points
traités, à la théorie de l’argumentation dans la langue de J.-C. Anscombre et O. Ducrot
(pour les aspects argumentatifs), à la Théorie Sens-Texte de I. Mel’čuk et au Lexique-
Grammaire de M. Gross (pour la partie lexicale), à la théorie des Actes de Langage et
aux travaux des interactionnistes pour les derniers chapitres, etc. De nombreux
travaux de linguistique française, portant sur des marqueurs précis, sont en outre
convoqués, et chaque chapitre présente des pistes complémentaires de lecture.
2 L’ouvrage se veut pédagogique, avec des fiches, un glossaire, une table des illustrations,
un très utile index des notions et formes, et un index des noms propres. Il fournit
nombre de précisions indispensables sur le sujet, notamment à travers des
éclaircissements terminologiques. Sa structure est claire, et se fonde sur les différents
Lidil, 58 | 2018
165
niveaux d’analyse linguistique ; ce parti pris a une contrepartie que l’on peut regretter :
il évacue le continuum issu des phénomènes de grammaticalisation (malgré la place
accordée au figement, en conclusion). Les deux premiers chapitres entérinent en effet
la partition entre « expression grammaticale » et « expression lexicale » de l’intensité,
tandis que le troisième chapitre, consacré aux structures phrastiques (l’expression
grammaticale de l’intensité traitée dans le premier chapitre ayant été limitée aux mots
et morphèmes grammaticaux) aurait pu mettre davantage en évidence l’articulation
nécessaire entre les plans syntaxiques et discursifs. Leur disjonction aboutit en effet
parfois à dissocier des analyses qui auraient mérité d’être regroupées : par exemple, la
question des marqueurs discursifs, traitée dans le premier chapitre consacré à
l’expression grammaticale, aurait gagné à être davantage connectée aux aspects
interactionnels abordés en fin d’ouvrage. Peut-être est-ce là le prix à payer pour
permettre une présentation commode, en forme de manuel.
3 Cependant, la question de fond est de savoir si lorsque nous parlons de l’intensité dans
ce sens large, nous parlons toujours de la même chose. Ce problème n’est pas abordé de
manière suffisamment frontale et précise. Sur le plan sémantique, la question traitée
par Kleiber dans son article de 2013 (pourtant cité dans la bibliographie générale), qui
distingue l’intensité comme « quantité qualitative » et l’intensité considérée en elle-
même comme une propriété (par exemple dans le lexique des affects) n’est pas reprise
et discutée. Un autre exemple concerne cette fois les frontières entre la dimension
argumentative (dont l’analyse rappelle des concepts comme celui de force
argumentative, mobilisés par les théoriciens de l’argumentation dans la langue) et
l’intensité liée à la dimension énonciative (avec les questions de renforcement et
d’atténuation). Ces deux aspects gagnent-ils à être conceptualisés à travers une même
catégorie ? Peut-être que oui, mais un tel point de vue aurait mérité une argumentation
plus approfondie. Le chapitre consacré aux structures phrastiques, qui examine le rôle
des clivées et des pseudo clivées, ou encore celui consacré aux figures et tropes, qui
intègre de manière pertinente la dimension rhétorique dans l’analyse linguistique
fournissent des éléments de réponse intéressants, qu’il aurait été possible de mobiliser
pour construire la démonstration. Peut-être aussi qu’une approche plus systématique,
appuyée sur un large corpus textuel, aurait été utile, parce qu’elle aurait permis de
mieux montrer, en contexte, l’intrication des différents procédés.
4 Ces quelques réserves ne doivent pas masquer les qualités d’ensemble et l’utilité de
l’ouvrage, qui vient remplir un manque évident dans la bibliographie francophone, qui
ne comportait aucune synthèse sur le sujet. En raison de sa richesse et de la finesse des
analyses qu’il propose, il sera très utile aux étudiant.e.s. de sciences du langage ou de
lettres, et à leurs enseignant.e.s !
AUTEURS
FRANCIS GROSSMANN
Lidil, 58 | 2018
166
Jean-François de Pietro, Carole

Fisher et Roxane Gagnon (dir.),
L’oral aujourd’hui : perspectives
didactiques
Namur, Presses universitaires de Namur, collection « Recherches en
didactique du français », no 9, 2017, 323 p.
Anne Sardier
RÉFÉRENCE
Jean-François de Pietro, Carole Fisher et Roxane Gagnon (dir.), L’oral aujourd’hui :
perspectives didactiques, Namur, Presses universitaires de Namur, collection
« Recherches en didactique du français », no 9, 2017, 323 p.
1 L’ouvrage dirigé par Jean-François de Pietro, Carole Fisher et Roxane Gagnon sur la
didactique de l’oral, propose des contributions regroupées en quatre parties. Deux
contributions constituent la première partie centrée sur deux types de conduites
langagières. La première contribution rend compte d’une recherche exploratoire
relative aux effets des conduites de justification dans la construction des savoirs
grammaticaux d’élèves de 10-11 ans. Les analyses, menées selon un codage minutieux,
permettent de distinguer trois types de situations dans lesquelles les élèves s’engagent
dans une conduite de justification : pour expliquer, chercher ou débattre. Les auteures
recommandent pour finir un « enseignement de l’objet “justification” pour
l’apprentissage en grammaire » (p. 63). La deuxième contribution s’intéresse au débat
et propose un balayage historique de son enseignement. En distinguant didactique de
l’oral / du français, l’auteure note « la profusion des formes » (p. 76) de débats, et,
in fine, les possibles invariants propres à cette pratique pour montrer que « l’objet de
recherche “débat” se formalise au sein des didactiques et répond à leur projet commun
et singulier » (p. 80).
Lidil, 58 | 2018
167
2 La deuxième partie de l’ouvrage est composée de cinq contributions centrées sur la

construction et l’analyse de dispositifs didactiques. La première contribution
questionne les pratiques enseignantes en lien avec les recommandations officielles. Les
auteurs notent l’hétérogénéité des pratiques, le fait que « l’oral apparait souvent
comme l’oralisation d’un écrit » (p. 105) et le manque d’outils pour les enseignants.
En réponse, la deuxième contribution propose une « ingénierie didactique » (p. 110)
visant la compréhension de l’oral. Les auteurs y exposent leur méthode pour élaborer
« des prototypes de séquences didactiques » (p. 114). La contribution suivante porte sur
l’exposé. L’auteure y étudie ce qui fait « obstacle » (p. 131) à un « enseignement
efficace » (p. 133) de l’oral. Pour elle, une des principales difficultés concerne les
représentations qu’en ont les enseignants. En réponse, la contribution qui suit présente
une recherche-action-formation menée au Québec et montre les effets positifs de la
mise en place d’« ateliers formatifs » (p. 155), notamment sur les représentations et
pratiques enseignantes. Pour clore cette partie, une évaluation d’un module
d’enseignement dispensé en formation initiale est proposée. Sont questionnées les
représentations des étudiants en amont de l’expérience, représentations qui évoluent
en cours de travail.
3 La troisième partie regroupe trois propositions relatives aux relations oral/écrit. La
première contribution montre judicieusement que les règles relatives à la langue écrite
déprécient la langue orale et son locuteur. La deuxième contribution étudie les
marques spécifiques de la langue orale dans des productions de lycéens pour « préparer
à écrire » (p. 223) et « enseigner à “transposer le parlé” » (p. 228). La contribution
suivante donne à voir un oral hétéroclite à travers l’étude de journaux d’apprentissage :
l’auteure y distingue « écrit oralisé » chargé de marques propres à l’oral et « oral
scripturalisé » (p. 242-243) ; elle y note aussi la présence d’un oral à la fois vecteur
d’apprentissage et objet d’enseignement.
4 La dernière partie s’attache aux normes et évaluation de l’oral. Une scrupuleuse étude
questionne d’abord la capacité d’autoévaluation de la compétence à communiquer
oralement chez de futurs enseignants. Les analyses montrent que « la capacité
d’autoévaluation […] fluctue en fonction des dimensions langagières plutôt que dans le
temps » (p. 265) et suggèrent une « confusion des normes » (p. 269) écrites/orales par
les étudiants. Après un retour sur le concept de norme(s), la contribution suivante
interroge « les représentations de la norme orale du français en contexte FLE/S »
(p. 279) chez des apprenants, des enseignants, des linguistes. Des analyses fouillées
étudient les variétés d’approches de la norme et reviennent sur l’existence d’un « bon
français » (p. 287). La dernière contribution prolonge cette réflexion sur la variation
linguistique en s’intéressant aux rétroactions métalangagières évaluatives des
enseignants après des prises de parole spontanée des élèves. L’analyse multimodale des
discours montre que les normes requises par les enseignants restent relativement
aléatoires et parfois hiérarchisées de manière « fantasmée » (p. 306). Dans ce cadre, une
« didactique de la variation » (p. 307) semble souhaitable.
5 Finalement, la lecture de cet ouvrage postfacé par Bernard Schneuwly donne à voir
l’étendue du champ oral. Quelques points ressortent : le rôle des représentations des
enseignants et, en conséquence, la nécessité de mettre d’avantage l’accent sur la
formation à l’enseignement-apprentissage par et pour l’oral en classe.
Lidil, 58 | 2018
168
AUTEURS
ANNE SARDIER
ACTé, Université Clermont-Auvergne
Lidil, 58 | 2018
169
Christine Bister et Jean-Louis

Dumortier (dir.), Conversations. Des
dispositifs didactiques pour apprendre à
distinguer les facteurs de réussite ou
d’échec des interactions verbales
quotidiennes
Namur, Presses universitaires de Namur, 2017, 218 p.
Sílvia Melo-Pfeifer
RÉFÉRENCE
Christine Bister et Jean-Louis Dumortier (dir.), Conversations. Des dispositifs didactiques
pour apprendre à distinguer les facteurs de réussite ou d’échec des interactions verbales
quotidiennes, Namur, Presses universitaires de Namur, 2017, 218 p.
1 L’ouvrage de Bister et Dumortier présente, de façon originale et argumentée, avec un

langage rigoureux et un détail presque « forensic », l’analyse de conversations extraites
de romans : « Les invités » (P. Assouline), « La femme du dimanche » (C. Fruttero et
F. Lucentini), « Dolce Vita 1959-1979 » (S. Greggio), « Le fond de la bouteille »
(G. Simenon), « Une pièce montée » (B. Le Callet), « L’intéret de l’enfant » (I. McEwan),
« Le week-end » (B. Schlink). Ces extraits permettent aux auteurs d’illustrer les enjeux
des conversations dites ordinaires « par le truchement d’œuvres littéraires » (p. 8), en
se penchant sur les échanges entre leurs personnages. Mettant en relief le rôle du
scénario et du contexte (aussi bien micro qu’historique), les auteurs montrent ce qui se
joue dans l’arène de l’interaction : l’interdépendance de tous les interlocuteurs, de leurs
mots, du para- et du non-verbal ainsi que du non-dit. Par là même, ils mettent en
évidence que l’interaction n’est pas « un long fleuve tranquille » (p. 22).
Lidil, 58 | 2018
170
2 Ainsi, comme dans la conversation dans la vie réelle, ils analysent la coresponsabilité
énonciative dans les interactions fictionnelles et montrent que « toute prise de parole
est réaction à la prise de parole d’un tiers, toute écoute prend en considération l’écoute
d’un tiers » (p. 11). Néanmoins, « les participants ne sont pas des juxtapositions
d’allocutions où les énonciateurs parlent comme si nul n’avait rien dit avant eux ou
comme s’ils n’avaient rien entendu de ce qui s’est dit » (p. 11). Autrement dit, les
auteurs mettent en avant tout effort de coordination ainsi que la nécessaire
coconstruction du sens et des intentions dans l’interaction verbale… réussie. En effet,
les extraits illustrent, par un effet de loupe, la tessiture de l’incompréhension, du
malaise conversationnel, l’inversion de places et de rôles dans et pendant l’interaction.
L’ironie et l’humour de certaines séquences contrebalancent le malaise, le cynisme et
l’agacement des autres. Dans ces extraits, « ce qui est donné à comprendre n’est pas
(mais n’en est pas moins communiqué), il faut tenir compte de la situation et de la
manière de dire autant que de ce qui est dit ! » (p. 13).
3 Le choix de situation de rupture conversationnelle ou de rupture éminente est justifié
par le fait que « ces incidents sont susceptibles d’empêcher ou de faciliter la poursuite
de la coconstruction de sens, d’arrêter ou de dévier la circulation de l’information, de
distendre ou de couper, de serrer ou de rétablir le lien social, bref de déterminer l’issue
de la communication » (p. 23). Les auteurs illustrent minutieusement l’évolution
inéluctable du malentendu, de la rupture, voire de la ruine des interlocuteurs, à l’aide
de l’autopsie de leurs dits et de leurs non-dits, d’une analyse millimétrique des sous-
entendus et de tous les pas menant à la « perte » des interlocuteurs. Concernant le
choix d’interactions discursives fictionnelles, les auteurs se réfèrent au fait que les
textes littéraires, n’offrant pas une imitation de la réalité conversationnelle, offrent
néanmoins des interactions vraisemblables où il est possible de détacher et d’analyser
certains aspects en profondeur. De plus, l’étude de ces interactions permet l’analyse de
la dimension pragmatique du langage et de la littérature dans sa dimension
linguistique, avec une « attention systématique à l’usage que font les écrivains du
système » (p. 21).
4 Reste à signaler d’autres aspects positifs de l’ouvrage s’adressant « à des enseignants de
français » (langue maternelle ?) : la structure homogène de tous les chapitres qui
suivent la même logique de présentation et d’analyse (présentation de l’ouvrage et de la
séquence, transcription de la séquence objet d’analyse, discussion entrecoupée
d’exemples et propositions de tâches) ; la mise en relief des concepts considérés les plus
importants pour poursuivre l’analyse de la séquence (concession, offense, face,
territoire, ascendant, position, polylogue…) ; et, effet corollaire du point précédent, la
présentation d’un glossaire, en fin d’ouvrage, permettant d’éclaircir les doutes
terminologiques du public cible. En conclusion, il s’agit d’un ouvrage qui dépasse
l’analyse stricte de ce qui est « dit » dans le texte littéraire, allant au-delà du
linguicisme de quelques propositions de travail avec le texte littéraire. En approchant
le littéraire du vécu quotidien, cet ouvrage développe la conscience critique des
apprenants de français quant au discours et à l’interaction.
Lidil, 58 | 2018
171
AUTEURS
SÍLVIA MELO-PFEIFER
Fakultät für Erziehungswissenschaft, Université de Hambourg
Lidil, 58 | 2018
172
Francis Grossmann, Salah Mejri et

Inès Sfar (dir.), La phraséologie :
sémantique, syntaxe, discours
Paris, Honoré Champion, 2017, 284 p.
Julie Sorba
RÉFÉRENCE
Francis Grossmann, Salah Mejri et Inès Sfar (dir.), La phraséologie : sémantique, syntaxe,
discours, Paris, Honoré Champion, 2017, 284 p.
1 Ce recueil de seize contributions internationales s’ouvre par une introduction claire

qui, au-delà de la simple présentation des contributions, pose les enjeux actuels de la
recherche française dans le domaine de la phraséologie. L’objectif des éditeurs est de
« répondre à des interrogations spécifiques à la phraséologie française » (p. 7) : Quelles
contributions la recherche française apporte-t-elle au domaine de la phraséologie g
énérale ? Quelles orientations générales prend-elle ? Quelles problématiques y sont
privilégiées ? La présentation revient de manière éclairante sur l’épistémologie de ce
champ de recherche depuis les travaux fondateurs de Charles Bally et les apports
méthodologiques de Maurice Gross et de son équipe sur l’élaboration d’outils
descriptifs et la constitution de ressources.
2 La grande variété des corpus sur lesquels se fondent les études publiées dans ce volume
permet de mieux embrasser les différentes approches du phénomène phraséologique.
Aux corpus français littéraire (M. Niziołek, « Analyse des segments textuels décrivant
des actes de parole. Le cas du roman policier ») ou journalistique (A. Krzyżanowska,
« Les mécanismes de défigement dans le discours journalistique ») s’ajoutent des
séquences du film Conte d’été dans lesquelles M. H. Svensson cherche à évaluer
« l’influence du contexte sur l’interprétation des expressions à sens figuré ». Les
langues slaves, quant à elles, offrent un corpus d’étude pour l’analyse des collocations
métaphoriques russes relevant du concept вода « eau » (V. Beliakov) ainsi que pour la
Lidil, 58 | 2018
173
réflexion de L. Miladi sur le statut des proverbes polonais permettant de nuancer les
précédentes études qui auraient jusqu’ici « sous-estimé la place de la syntaxe dans
l’élaboration des moules proverbiaux » (p. 183). L’étude de Ranaivoson et Andriamise
révèle que les catégories d’analyse utilisées pour le figement en français sont
opératoires pour rendre compte de ce phénomène en malgache. Enfin, la contribution
très originale de K. Henri sur le statut des chéngyŭ du chinois propose de clarifier le
statut de ces unités phraséologiques que l’auteur rapproche davantage des « locutions
syntagmatiques expressives » (en suivant la terminologie de C. Schapira) que des
parémies.
3 Même si l’ensemble des études de cas présente le cadre théorique dans lequel
s’inscrivent leurs analyses, plusieurs contributions s’interrogent spécifiquement sur ce
qui se cache sous le terme de « phraséologie » et sur son utilisation. En constatant le
foisonnement terminologique actuel, R. Zaharieva et S. Kaldieva-Zaharieva proposent
un utile inventaire des termes en vigueur tout en développant la théorie
phraséologique bulgare. Dans un dialogue à quatre voix, les intervenants de la table
ronde des « Premières rencontres phraséologiques », qui se sont tenues à Grenoble
en 2013, font le point sur les principaux axes de la recherche phraséologique française :
ce qui fait la dimension phraséologique des unités et leur délimitation, les problèmes
relatifs aux outils de corpus (F. Grossmann et S. Mejri) ; la structure des textes
préfabriqués et les différents concepts utilisés pour en rendre compte comme les
segments répétés, les motifs ou encore les routines rhétoriques (A. Tutin) ; la question
de l’acquisition des unités phraséologiques en L2 (A. Edmonds).
4 La contribution de I. Novakova illustre la pertinence des critères phraséologiques pour
classer les adjectifs d’affect, entreprise très délicate jusqu’ici. Certaines contributions
s’interrogent sur la dimension phraséologique de plusieurs unités comme les
constructions à article zéro (T. Muryn dans une approche dite de « syntaxe
sémantique ») ou les SP sans déterminant (A. Violet dans une « analyse
constructionnelle »), tandis que d’autres explorent le lien sémantique qui unit les
séquences phraséologiques en synchronie (D. Lajmi et les « collocations complexes »)
ou en diachronie (C. Cavalla et J. Sorba, « Prendre un bain, des risques ou la fuite. Étude
diachronique du figement ») ainsi que le cas des « ruptures collocationnelles » pour
lesquelles T. Ben Amor Ben Hamida envisage la collocation du point de vue de ses
réalisations déviantes (« greffes collocationnelles », défigement linguistique, etc.). Le
volume se clôt par une expérimentation aux résultats surprenants sur le « traitement
en temps réel des expressions figées par des francophones natifs » (Yaïche, Bassano,
Kail et Mejri).
5 L’ouvrage, qui offre quatre pages d’index fort utile à la fin, s’acquitte amplement du
rôle voulu par les éditeurs : un état des lieux et une mise en perspective de la
phraséologie française.
Lidil, 58 | 2018
174
AUTEURS
JULIE SORBA
Lidil, 58 | 2018

Lidil 5001

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Lidil 5001

Transféré par

Droits d'auteur :

Formats disponibles

Lidil

Revue de linguistique et de didactique des langues

Cristelle Cavalla et Laura Hartwell (dir.)

Ce document a été généré automatiquement le 24 septembre 2020.

Un dictionnaire basé sur corpus pour une aide à la rédaction universitaire

Vers une socioterminologie médicale wolofe

Les figures rhéto-orthographiques comme révélateurs du rapport des enseignants à

Nicolas Laurent et Christelle Reggiani (dir.), Seuils du nom propre

Nathalie Lacelle, Jean-François Boutin et Monique Lebrun, La littératie médiatique

Laurent Gautier (éd.), Figement et discours spécialisés

Clara Romero, L’intensité et son expression en français

Jean-François de Pietro, Carole Fisher et Roxane Gagnon (dir.), L’oral aujourd’hui :

Christine Bister et Jean-Louis Dumortier (dir.), Conversations. Des dispositifs

Francis Grossmann, Salah Mejri et Inès Sfar (dir.), La phraséologie : sémantique,

Cristelle Cavalla et Laura Hartwell

L’enseignement et l’apprentissage de l’écrit

chercheur.e.s d’identifier les caractéristiques du discours académique des expert·e·s et

de l’outil. Ceci est un exemple de collaboration fructueuse entre didacticien-linguiste et

The Teaching and Learning of Academic Writing with

COLLINS FREE ON-LINE DICTIONARY. (2017). Disponible en ligne sur <www.collinsdictionary.com/

MACMILLAN FREE ON-LINE DICTIONARY. (2017). Disponible en ligne sur

L’exploitation des corpus

Natalie Kübler et Clive E. Hamilton

2. Deux dispositifs d’enseignements expérimentaux

9 L’expérience a été menée dans le cadre de trois structures étroitement liées :

2.2.1. De la sensibilisation passive basée sur corpus : le premier dispositif

12 Le premier dispositif ou le groupe A se compose de 12 étudiants inscrits en première

Figure 1. – Fréquence de indeed par 10 000 mots.

Figure 2. – Fréquence verbale.

17 Au niveau syntaxique, en lieu et place des traditionnelles explications sur le

Tableau 1. – Comparaison du temps grammatical.

18 Ces comparaisons constituent le point d’entrée, dans ce cours expérimental, de l’étude

2.2.2. De la découverte participative : le deuxième dispositif

19 Le deuxième dispositif ou groupe B se compose de 20 doctorants de dix disciplines

Figure 3. – Aperçu de la plateforme CQPweb.

Figure 4. – Concordance du terme paper.

2.2.3. Des enquêtes de satisfaction

3. Le regard des apprenants sur les deux dispositifs

26 Le premier questionnaire a permis d’identifier les différents niveaux de compétences

première vue négligeables, sont essentiels en ce qu’ils permettent d’évaluer la

3.2. Un changement progressif de regard

28 Le deuxième questionnaire intervient au milieu du semestre, de manière à obtenir des

Figure 5. – Évaluation globale de mi-parcours.

Figure 6. – L’absence de grammaire.

De plus, aucun étudiant en master ne s’estime totalement convaincu par l’absence de

3.3. Un investissement en décalage

Figure 7. – Aperçu de la perception globale.

36 La dernière enquête a aussi permis de mettre en évidence une évaluation mitigée à

DROUIN, Patrick. (2007). Identification automatique du lexique scientifique transdisciplinaire.

FAURE, Pascaline. (2013). Pour une appropriation de l’enseignement de la grammaire en secteur

PECMAN, Mojca. (2007). Approche onomasiologique de la langue scientifique générale. Revue

RENOUF, Antoinette. (1997). Teaching Corpus Linguistics to Teachers of English. Dans

The BAWE Quicklinks Project:

Benet Vincent and Hilary Nesi

have permanent one-to-one access to a corpus-literate language tutor. Kibbitzers and

2. Procedure for creating the DDL materials

2.2. Steps in creating the DDL materials

3. Advantages of the approach

4. Discussion: creation and classification issues

4.1. Style vs Grammar

In cases like this, where it is a matter of idiomaticity or appropriacy to context, it might

Figure 8. – A selection of KWIC concordance lines for comprising.

4.2. Student proficiency