Académique Documents
Professionnel Documents
Culture Documents
écrits
Ahamada KASSIME
(Contenu inspiré du cours de Marie Chandelier)
ahamada.kassime@univ-montp3.fr
Séance 1
- Savoir constituer un corpus écrit à partir d’une question de recherche (recueil des données et
des métadonnées)
Calendrier
Structuralisme Générativisme
Saussure Chomsky
Leech, G. (1992). Corpora and theories of linguistic performance. In J. Svartvik(Ed.), Directions in corpus
linguistics (pp. 105-122). Berlin, New York : Mouton de Gruyter.
Tognini-Bonelli 2001
The ability to examine large text corpora in a systematic manner allows access to a quality of evidence that has
not been available before.
Sinclair 1991 : 4
Licence 3 –Sciences du langage E64SLL5 / E64SLL9 Tognini-Bonelli 2001
Contexte d’émergence de la linguistique de
corpus
Premiers grands corpus :
Développement d’annotations morphosyntaxiques (à chaque mot est associé une catégorie
grammaticale)
-Brown Corpus of Standard American English (1963)
- Frantext (1970)
- British National Corpus (1994)
https://uoh.fr/front/noticefr/?uuid=6e4ddf71-f934-4c37-8ac3-16d1e01f717f
Qu’est-ce qu’un corpus ?
Tognini-Bonelli2001
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?
• Support sur lesquels sont produits les données (oral, écrit, vidéo)
• La représentativité
Nesrine Raisi
• Les corpus vidéo sont également de plusieurs sortes, selon la façon dont les données ont été
collectées
Corpus driven
Hypothèses émergeant de l’exploration des données textuelles
Lexicométrie
(Salem & Lebart1994)
Textométrie Logométrie
TogniniBonelli2001
Exemple:
- la notion d’écologie chez François Hollande (discours)
- le vocabulaire spécifique de Zola (stylistique)
Nesrine Raisi
Logométrie :
- elle ne se contente pas de traiter que du lexique
- elle étend ses procédures à toutes les unités linguistiques jugées pertinentes du
discours (mots graphiques, lemmes, codes grammaticaux, cooccurrents, enchaînements
syntaxiques, etc.)
- décrit qualitativement et quantitativement le contenu linguistique d’un corpus.
Lexique Grammaire
TogniniBonelli2002
Léon 2008
critère d’échantillonnage
authenticité
représentativité
TogniniBonelli2002
Léon 2008
Critères
Critères externes
(extralinguistiques)
Critères internes
(linguistiques, distributionnels)
Exercice :
À partir des descriptions des projets listés ci-dessous, identifier les questions et objectifs de recherche
(critères externes) d’une part, les critères de constitution des corpus (critères internes) d’autre part
Expressions de la 3e personne
Débat parlementaire (genre)
Langues (français, allemand, anglais)
Temporalité
-> Comment prendre en compte ces critères, linguistiques et extralinguistiques dans l’analyse des données
textuelles ?
« Les métadonnées »
Le genre de discours induit des niveaux de régularités linguistiques en fonction des dispositifs de
communications. Ces dispositifs de communications émergent dans des contextes socio-
historiques spécifiques.
- Par exemple, le genre du rapport de stage suppose l’existence d’entreprises, d’étudiants qui ont
besoin d’expérience professionnelles, de professeurs pour évaluer ces travaux.
The aim of sampling “is to secure a sample which, subject to limitations of size, will reproduce the characteristics of
the population, especially those of immediate interest, as closely as possible” (Yates 1965: 9)