Vous êtes sur la page 1sur 3

Projet DOC : Didactique, Oral, Corpus – Université de Lille & CNRS STL Savoirs, Textes, Langage UMR 8163

Référentes : J. Delahaie et E. Canut

CONVENTIONS DE TRANSCRIPTION DES CORPUS


VIA LE LOGICIEL TRANSCRIBER

Principaux généraux

❖ Le texte et le son du corpus sont alignés avec le logiciel TRANSCRIBER


o https://sourceforge.net/projects/trans/files/transcriber/ Choisir Transcriber-1.5.1- windows.exe

❖ La transcription doit être la plus fidèle possible aux paroles prononcées par les locuteurs :
o Toutes les paroles des locuteurs sont transcrites, y compris les hésitations et les
répétitions.
o Pas d’ajouts d’éléments non verbalisés : par exemple, ne pas ajouter ne lorsque cette
partie de la négation n'est pas réalisée.
o Les élisions non réalisées ne sont pas rétablies : parce que il est pas là.

❖ La transcription doit être la plus lisible possible :


o Respecter l’orthographe standard sans aménagement.
o Les onomatopées sont transcrites selon l'orthographe standard (voir tableau ci-après)
o Les nombres respectent les normes habituelles de l’écrit. Tous les nombres sont écrits
en lettres, sauf les années.
o Les règles d’accord sont respectées sauf si on a une réalisation phonique particulière.
Par exemple, on est parti avec maman, mais on s’est mises à dormir

❖ Les énoncés ne sont pas ponctués. Quelques exceptions :


o On met les majuscules sur les noms propres.
o On peut mettre un point d’interrogation si la question est très marquée.
o Les sigles sont séparés par un point lorsque les lettres sont lues isolément : S.N.C.F.
o Les sigles ne sont pas séparés par un point lorsque ce sont des acronymes : CROUS
▪ Le sens des sigles est précisé lors de la première apparition avec une balise
commentaire de Transcriber : A.E.E. {sigle=Agence Européenne de
l’Environnement}

Utilisation des balises TRANSCRIBER

❖ Dans Transcriber, chaque prise de parole correspond à un tour de parole :


o Les locuteurs sont identifiés par une étiquette locuteur via la balise segmentation
=> créer un tour (create turn),
▪ Ils sont identifiés en fonction de leur ordre d’intervention dans
l’enregistrement : le premier locuteur a l’étiquette L1, le deuxième L2, etc.
o Quand les deux locuteurs parlent en même temps, aligner et indiquer la partie en
chevauchement via la balise segmentation => cocher locuteur superposé
(overlapping speech) dans Transcriber (et sélectionner locuteur 1 et 2)

Balises Edition (edit) => insérer une balise (insert event) après l’élément concerné
Commentaire Tous les détails de la situation sont précisés dans un bref commentaire dans
(comment) l’encadré « description » : {L1 hoche la tête}, {signe de la main}
Cas des accords non standards : indiquer {sic} : ils croivent {sic} que c’est vrai
Cas des parties volontairement non transcrites : mettre le signe ### dans
l’encadré « description », éventuellement suivi d’une explication : {### partie
confidentielle}.
Cas des coupures involontaires dans l’enregistrement : mettre le signe $$$ dans
l’encadré « description », éventuellement suivi d’une explication : {$$$ intervention
d’une tierce personne}.
Projet DOC : Didactique, Oral, Corpus – Université de Lille & CNRS STL Savoirs, Textes, Langage UMR 8163
Référentes : J. Delahaie et E. Canut

Bruit isolé Tous les bruits sont indiqués : [rires], [claquement de porte], [sirène dans la rue],
(isolated [éternuement]…
noise) Si le bruit est déjà répertorié dans Transcriber, insérer directement l’item concerné.
Dans le cas contraire, l’ajouter dans l’encadré « description ».
Si un bruit est récurrent ou prolongé (bruits de fond, etc.), il sera indiqué avec une
balise ouvrante au début et une balise fermante à la fin de l’événement (start/end of
event) : [rire-] il est là [-rire]
- Pour les silences (au-delà de 5 secondes), écrire « silence » dans l’encadré
« description » (comme « événement instantané »). Peut être suivi d’une autre balise
commentaire de Transcriber : [silence]{L1 se sert un verre d’eau}.
- Pour les pauses (3 à 5 secondes), écrire « pause » dans l’encadré « description »
(comme « événement instantané ») : [pause]
Prononciation - Les prononciations particulières sont indiquées dans l’encadré « description » avec
(pronounce) l’alphabet SAMPA (voir tableau ci-dessous). La balise sera insérée après le mot
correctement orthographié (cocher « appliqué au mot précédent ») : je suis +[pron
=Syj]
- Pour les syllabes, mots ou parties de l’énoncé inaudibles/inintelligibles : utiliser, à
la place de l’élément à transcrire (cocher « évènement instantané »), l’item [*] déjà
répertorié : il [*] bien
- Pour les liaisons non standards : ajouter la convention =X= dans l’encadré
« description » : donne-moi [=z=] en, à la place de l’élément à transcrire (cocher
« évènement instantané »).
- Cas des indécisions : Si on ne peut décider quelle forme est prononcée/réalisée,
ajouter la convention /…, …/ dans l’encadré « description » : /ça, chat/ ; /ils
disaient, il disait/ ; /on est, on n’est/, à la place de l’élément à transcrire (cocher
« évènement instantané »).
- Cas des amorces : mettre un tiret à l’amorce et ajouter la convention amorce dans
l’encadré « description » (cocher « appliqué au mot précédent ») : il a il a p-
+[pron=amorce] il a pris
Langue Utiliser l’orthographe originale des mots en langue étrangère et insérer la balise de la
(language) langue : speed +[lang=english]
Lexique Lorsque l’orthographe est incertaine (cas de certains noms de marques, toponymes,
(lexical) etc.), utiliser une orthographe approximative si elle est plausible et insérer la balise,
soit à la suite du mot isolé : un certain Dupont+[lex=?] ; soit en englobant la
séquence : [lex=?-]Sous la Voivre[-lex=?]
- Pour les titres (livres, films, etc.) : ajouter la convention « titre » dans l’encadré
« description », en englobant la séquence (début et fin d’évènement) : [lex=titre-
] Les affranchis+[-lex=titre]. Mettre une majuscule sur le premier mot du titre.
- Les éléments à anonymiser (noms propres, villes, sociétés, etc.) sont indiqués
avec la convention ¤X¤ à l’intérieur de la balise [lex] (comme « événement
instantané ») à la place du mot concerné et fait l’objet d’un seul segment.:
[lex=¤N¤] pour un nom (identité) ; [lex=¤T¤] pour un toponyme (nom de lieu,
ville); [lex=¤M¤] pour un nom de marque ; [lex=¤S¤] pour un nom de société/
association…

Codification des onomatopées

ah, aïe, areu, atchoum, badaboum, baf, bah, bam, bang, bé, bêêê, beurk, ben, bing, bon,
boum, broum, cataclop, clap clap, coa coa, cocorico, coin coin, crac, croa croa, cuicui,
ding, ding deng dong, ding dong, dring, hé, eh ben, eh bien, euh, flic flac, flip flop,
frou frou, glouglou, glou glou, groin groin, grr, hé, hep, hi han, hip hip hip hourra,
houla, hourra, hum, mêêê, meuh, miam, miam miam, miaou, mm, oh, OK, ouah, ouah
ouah, ouais, ouf, ouh, paf, pan, patatras, pchhh, pchit, pff, pif-paf, pin pon, pioupiou,
plouf, pof, pouet, pouet pouet, pouf, psst, ron ron, schlaf, snif, splaf, splatch, sss,
tacatac, tagada, tchac, teuf teuf, tic tac, toc, tut tut, vlan, vroum, vrrr, wouah, zip.
Projet DOC : Didactique, Oral, Corpus – Université de Lille & CNRS STL Savoirs, Textes, Langage UMR 8163
Référentes : J. Delahaie et E. Canut

Alphabet sampa utilisé pour les précisions de prononciation.

CONSONNES Symbole Exemple Transcription


Plosives p pont po~
b bon bo~
t temps ta~
d dans da~
k quand ka~
g gant ga~
Fricatives f femme fam
v vent va~
s sans sa~
z zone zon
S champ Sa~
Z gens Za~
Nasales m mont mo~
n nom no~
J oignon oJo~
N camping ka~piN
Liquides l long lo~
R rond Ro~
Semi-consonnes w coin kwe~
H juin ZHe~
j pierre pjER
VOYELLES Symbole Exemple Transcription
Orales i si si
e ses se
E seize sEz
a patte pat
A pâte pAt
O comme kOm
o gros gRo
u doux du
y du dy
2 deux d2
9 neuf n9f
@ justement Zyst@ma~
Nasales e~ vin ve~
a~ vent va~
o~ bon bo~
9~ brun bR9~

Vous aimerez peut-être aussi