Académique Documents
Professionnel Documents
Culture Documents
adulte-enfant
Christophe Parisse, Aliyah Morgenstern
Introduction
Ce chapitre a pour objectif de partager avec nos lecteurs le fruit
de la rflexion que nous menons depuis des annes sur le recueil, la
transcription, le codage et lanalyse des productions spontanes des
enfants en interaction et sur les outils informatiss qui sont utiliss
dans les travaux sur lacquisition. Nous esprons ainsi aider de
jeunes collgues entrer dans la communaut des chercheurs de
terrain qui font de la linguistique de corpus et partagent des
donnes de qualit, ce qui pourra ainsi faire avancer notre
connaissance gnrale sur le langage de lenfant.
Nous pensons que mme si les situations exprimentales
prsentent un grand intrt, le corpus spontan des productions des
enfants en interaction est fondamental pour comprendre
lappropriation progressive du langage comme la en particulier
montr Brown (1973). Ce type de corpus permet de garantir que
lon analyse les productions langagires dans des situations
naturelles et de tester ainsi les limites des thories que nous
utilisons et des hypothses que nous posons. Il nous permet
galement de nous laisser surprendre par les productions
langagires et dobserver limprvu, tout en nanalysant que ce qui
existe rellement et non les crations du chercheur.
Par ailleurs, le travail sur les productions spontanes de lenfant
dans un contexte dialogique montre quil sagit dune situation
exemplaire pour
- travailler sur un corpus ORAL avec tous les problmes
techniques et scientifiques que cela pose ;
- avoir des donnes vidos et textuelles via les transcriptions et les
avoir alignes ;
- comprendre la nature interprtative des codages, mais aussi du
langage.
De nos jours, les chercheurs qui travaillent sur des suivis
longitudinaux denfants en milieu naturel peuvent filmer les
1
http://childes.psy.cmu.edu/
http://sites.univ-provence.fr/delic/corpus/conventions.html
3
http://www.uclouvain.be/cps/ucl/doc/valibel/documents/conventions_val
ibel_2004.PDF
2
2. Comment transcrire ?
2.1. Formats et prsentation de donnes.
En dehors de la difficult inhrente au processus de
transcription, il existe plusieurs manires de prsenter les donnes
ainsi transcrites qui prsentent toutes des avantages et des
inconvnients. Il nexiste pas de prsentation et de format
parfait , mais toute une srie de modles qui sont plus ou moins
adapts aux diffrents usages que lon peut en faire. Dans la
mesure o nous recommandons dutiliser des logiciels de
transcription car ils sont les seuls offrir des garanties sur le
respect dun format et la possibilit de partage des donnes, nous
nous contenterons ici de prsenter les deux principaux formats
disponibles dans les logiciels grant des corpus de langage oral et
qui sont utiliss dans les travaux sur le langage de lenfant.
Format texte
Le format texte est une prsentation verticale des transcriptions
comme un texte classique. Laxe vertical, de haut en bas,
reprsente laxe du temps ou la succession temporelle. Lespace
dcriture de chaque ligne est parfois utilis comme moyen
complmentaire de codage ou dalignement temporel. Chaque
ligne principale est en gnral suivie dun ou plusieurs tires qui
contiennent des informations dpendantes de la ligne principale.
Un exemple classique de ce type de format est celui du logiciel
CLAN (CHILDES), mais cest aussi le cas de Transcriber ou de
PHON.
*CHI:
%mor:
%pho:
%add:
%act:
*FAT:
%mor:
FAT .
CHI appuie sur un bouton de la machine caf .
oui vas+y .
adv:yn|oui v:mdllex|vas+y .
souvent amen ajouter beaucoup de codes supplmentaires (nonverbal, situations, gestes, etc.).
Enfin le temps global peut aussi se modifier en fonction du
temps consacr au contrle des transcriptions. Dans le cas de
double transcription compltement ralise en aveugle, il faut
compter deux fois le temps total plus le temps ncessaire pour
obtenir un accord entre transcripteurs. Ce travail est trop lourd pour
tre ralis pour toute transcription et il est en gnral rserv
quelques chantillons permettant de mesurer la qualit de
transcription. La pratique la plus courante consiste faire vrifier
les transcriptions, soit par linvestigateur de ltude, soit par un
spcialiste. Une telle vrification prend un temps important,
variable selon la quantit de corrections apporter la premire
transcription. Un temps de deux quatre fois le temps original
nest pas exceptionnel, surtout dans le cas de transcriptions
dlicates raliser.
Lorsque lon tient compte de lensemble des lments
ncessaires pour raliser du corpus de langage oral (en incluant
aussi le temps de tournage et de digitalisation), on se rend compte
du temps que ncessite une tude complte. Sur la base dun temps
(tout compris) allant de quinze quatre-vingt dix heures par heure
de corpus selon les conditions du corpus, on comprend quun
corpus qui reprsente un suivi mensuel de deux ans cote entre
trois cent et mille huit cent heures de travail, c'est--dire environ
deux douze mois de travail temps plein.
Ces chiffres expliquent combien il est important de mutualiser
les donnes de corpus, la fois pour des raisons conomiques mais
aussi tout simplement pour permettre de raliser certains travaux
dans des temps raisonnables. La mutualisation ne doit malgr tout
pas limiter la ralisation de nouveaux recueils de corpus qui sont
importants pour obtenir de nouvelles donnes, couvrir des champs
complmentaires ou vrifier des rsultats prcdents, mais aussi
pour apprendre rellement ce quest la production de langage, que
ce soit celle denfants, dadultes ou de personnes souffrant de
troubles du langage. En ce sens, le recueil et la transcription de
corpus reste la meilleure cole qui soit, mais il convient, en regard
du temps ncessaire pour obtenir un corpus exploitable, de
correctement planifier le recueil et la transcription, faute de quoi la
12
Nous avons tenu donner des prix pour fixer les ordres de grandeur du
cot du matriel utiliser pour une tude de corpus, hors cot de
lordinateur lui-mme. Ces prix correspondent lanne 2009 et sont
susceptibles dvoluer, le plus souvent la baisse, avec lamlioration des
techniques et la diffusion de ce type de matriel.
13
Praat
www.praat.
org
Spcificit
Phontique,
signal sonore
PC/Mac/
Linux
Partition
Son
Wav, Aif,
MP3, Au
TextGrid
Systme
Prsentation
Vido/Son
Format
Type de
fichier
Importation
Exportation
Phon
phon.ling.mun
.ca/phontrac/
wiki/
Phonologie
Clan
childes.psy.
cmu.edu
PC/Mac
Rcit,
Interactions
PC/Mac
Texte
Vido
Quicktime
Texte
Vido ou Son
Quicktime
Phon et
TalkbankXml
Clan, Praat
(prvision)
Chat TalkbankXml
Elan,
Exmaralda,
Praat
Elan,
Exmaralda,
Praat, Texte
Clan, Praat
(prvision)
15
Commandes
annexes
Langage de
script trs
puissant
Recherche
(avec
commande
COMBO)
Large
bibliothque
de fonctions
Nom
Origine
Spcificit
Systme
Prsentation
Vido/Son
Format
Type de
fichier
Importation
Exportation
Commandes
annexes
Elan
www.lat-mpi.
eu/tools/elan
Interaction
multilocuteurs
PC/Mac/
Linux
Partition
Vido et Son
Quicktime,
Windows
Media, Java
Media
EAF (Xml)
Exmaralda
exmaralda.org
Interactions,
textes
Transcriber
trans.source
forge.net
Rcit,
Interactions
PC/Mac/
Linux
Partition
Vido ou Son
Java Media
Framework
PC/Mac/
Linux
Texte
Son
Tous formats
courants
XML
Trs XML
Clan,
Transcriber,
Shoebox
Shoebox,
Clan, Texte
(plusieurs
types), autres
Recherche
TASX, Praat
Clan, autres
TASX, Praat,
formats Html
Texte
Logiciels
complmentai
-res puissants
Rfrences
Brown, R., 1973, A first language : The early stages. Cambridge, Mass.,
Harvard University Press.
Darwin, C., 1877, A Biographical Sketch of an Infant, Mind, vol. 2 : 285294.
Lee, L. (1974). Developmental Sentence Analysis. Evanston, IL:
Northwestern University Press.
Morgenstern, A. en collaboration avec Sandra Benazzo, Marie Leroy,
Emmanuelle Mathiot, Christophe Parisse, Anne Salazar Orvig,
Martine Sekali (sous presse). Lenfant dans la langue : de
lobservation du naturaliste lanalyse du linguiste. Paris :
Presses de la Sorbonne Nouvelle.
Morgenstern, A., Parisse, C. (2007). Codage et interprtation du langage
spontan d'enfants de 1 3 ans. Corpus n6 "Interprtation,
contextes, codage", pp. 55-78.
Projet Corinte: ICAR (CNRS, Lyon 2, ENS-LSH)
http://icar.univ-lyon2.fr/projets/corinte/confection/alignement.htm
Rohlfing & al. (2006). Comparison of multimodal annotation tools
workshop report. Gesprchsforschung Online-Zeitschrift zur
verbalen Interaktion (ISSN 1617-1837) Ausgabe 7 (2006), 99123.