Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
L’objectif du projet: Le but du projet est de transcrire des fichiers audios qui aideront
notre client à développer des modèles de reconnaissance vocale de pointe.
L'objectif de ce projet est de transcrire (écrire ou représenter avec un tag) le discours que vous
entendez dans des fichiers audio. Vous allez devoir utiliser notre plateforme de transcription en
ligne, appelée Ampersand. Un guide d'utilisation d'Ampersand sera mis à votre disposition.
Veuillez lire attentivement ce document et gardez-le sous la main lorsque vous commencerez à
transcrire. Il y a beaucoup de détails à retenir, mais vous serez plus à l'aise après avoir effectué
quelques transcriptions. Si vous avez la moindre question, contactez votre superviseur. Bonne
chance !
1
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Informations générales
Exemples
Discours, bruits
autres, no-speech
Speech, non-speech Le discours est la plupart du temps représenté par des mots et des
noise, and no-speech caractères. Certains mots, cependant, ne sont pas compréhensibles ou
se superposent. Ces paroles-là sont représentées par des tags.
Les bruits autres qui sont entendus pendant le discours doivent aussi
être taggés. Si des bruits comme de la musique, du rire, une toux,
sont entendus directement avant, directement après, ou pendant du
discours (moins d'une seconde ne sépare le bruit du discours), alors
ces bruits doivent être taggés.
2
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Les fichiers audios ont été découpés en segments courts pour faciliter
l'écoute et la transcription. Ce sont les utterances. Vous devez considérer
que les utterances d'un même batch ne forment qu'un seul et même
fichier audio, en ignorant donc les coupures.
Utterance
Une utterance est une unité de transcription. Chaque utterance a sa zone
de transcription et doit être sauvegardée avant de passer à la suivante.
Utilisez cette information pour vous guider dans l’écriture des noms
propres: prénoms et noms de personne, noms de lieu, de produit ou de
Source marque.
3
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Transcription du discours
Utilisez les règles d'orthographe et de grammaire françaises.
Les traits d'union devraient être utilisés pour les mots composés et
lorsqu'il est correct d'en utiliser, mais aussi dans l'écriture des nombres,
afin de différencier un grand nombre d'une suite de nombres.
Exemples
Orthographe Le locuteur dit "33" – utilisez un trait d'union
● 33 ==> TRANSCRIPTION : trente-trois
Le locuteur dit "30 3" – n'utilisez PAS de tiret
Exemples
Contractions non
standard Correct Incorrect
je suis j'suis, chui
il y a y a, ya, y'a
je sais j'sais, ché
4
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
je me j’me
tu sais t’sais
Exemples
Le locuteur dit quelque chose que vous ne comprenez pas
5
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Discours chanté - projet: un tag pour remplacer chaque mot qui est
Singing chanté que vous ne connaissez ou ne comprenez pas et un span tag
6
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemple:
Un locuteur commence une phrase en français et puis
chantonne un mot en allemand “kaaaartoffeeeeellll!”.
TRANSCRIPTION: et là il me dit !
TRANSCRIPTION:
S’il y a plus d’un mot chanté en séquence, vous devez utiliser un tag
Exemple:
TRANSCRIPTION:
7
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemple:
Quelqu’un commence à chanter deux mots que vous ne
comprenez pas et quelques secondes plus tard quelqu’un
rappe en même temps. Les deux chants se chevauchent.
TRANSCRIPTION:
Exemple:
Quelqu’un récite un poème en anglais puis une autre
personne continue le poème.
TRANSCRIPTION:
Exemple:
Quelqu’un récite un poème.
TRANSCRIPTION:
8
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
/!\ Conseils:
9
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemple:
Le locuteur utilise des mots d’emprunts dans sa phrase
TRANSCRIPTION: hello tout le monde! ça c’est ma gang, abonnez-vous à
notre newsletter
Exemple:
Un locuteur dit “denken Sie an die Kinder“ au milieu d’une
phrase et vous ne comprenez pas
et euh ensuite
10
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemple:
Un locuteur dit “denken Sie an die Kinder“au milieu d’une phrase
et vous comprenez les mots
TRANSCRIPTION: j’ai cru qu’elle disait denken Sie an die Kinder et euh
ensuite
/!\ Conseils:
11
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemples
Les chiffres arabes sont à utiliser UNIQUEMENT s'ils sont accolés à une
lettre ou à un mot sans espace.
Exemples
● H2O
● iPhone 6S
● TF1
● PS4
MAIS
12
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Les sigles et les acronymes sont des mots composés des premières lettres
de plusieurs mots. Ils peuvent être prononcés comme une suite de lettres
ou bien comme un seul mot.
Les sigles et les acronymes doivent être transcrits en majuscules sans
espaces ni points.
Lorsqu'un locuteur épelle un mot, lettre par lettre, vous devez transcrire
les lettres épelées en majuscules avec des espaces.
Exemples
Mots épelés
● TRANSCRIPTION : je m'appelle Jean, ça s'écrit J E A N.
● TRANSCRIPTION : c'est une abeille. A B E I deux L E.
Transcrivez les adresses email ou les sites internet comme ils sont
Emails / sites prononcés.
internet
13
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemples
Langage Tout doit être transcrit, y compris jurons et insultes. Si toutefois vous êtes
vraiment mal à l'aise à l'idée de transcrire certains mots, vous pouvez les
inapproprié remplacer par le tag unintelligible.
Transcrivez les hésitations et interjections comme hein, euh, eh, bof en
utilisant le tableau ci-dessous comme référence. Transcribe hesitations
and other disfluencies like uh-huh and hm, using the table below.
List of Hesitations/Interjections
Acceptable
Meaning
Spelling
Agreement hum, bah, ouais
Disagreement ah, oh, euh
waouh, oh, ah,
Hésitations et Surprise oh là là, hein, eh
interjections ben, houp là
euh, hum,
Seeking
mouais, bah,
Confirmation
hein
bah, beurk,
Disgust
beuh
eh, waouh, ah,
Delight
ben
Calling Someone eh, oh
Emphasizing eh, hein
14
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemples
15
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Il y a deux types de tags : les span tags (colorés) et les event tags (gris).
Les event tags doivent être insérés entre les mots, et les span tags sont utiliser pour mettre
certains mots en surbrillance.
Pour enlever un span tag, sélectionnez le mot surligné et cliquez sur untag. La couleur ne
changera qu'une fois que vous aurez cliqué ailleurs.
Raccourci
Span Tag clavier Quand l’utiliser
Lorsque le locuteur dit un mot qui n'est pas dans le dictionnaire Larousse,
transcrivez le mot comme vous l'entendez et surlignez-le avec le span tag
colloquial.
Le tag colloquial peut être utilisé avec des mots d'argot, des mots
familiers, ou des mots dans une langue étrangère utilisés dans la vie
courante mais qui ne sont pas dans le Larousse. Pour savoir si un mot
devrait être taggé colloquial, n'hésitez pas à consulter le dictionnaire
Larousse en ligne, beaucoup de mots d’argots ou anglais s’y trouvent :
http://larousse.fr/dictionnaires/francais
Par exemple ces mots ne figurent pas dans le Larousse mais sont
couramment utilisés en Français et devraient être taggés comme
colloquial:
16
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
mispronunciat w
ion
Example
Si vous entendez un mot dans un audio mais vous n’êtes pas entièrement
sûr.e de son orthographe, ou vous n’êtes pas totalement confiant de ce
que vous avez entendu, surlignez ce mot avec le tag best guess.
● Vous entendez “il m’a dit d’aller à Wolengi” mais vous n’êtes pas
sûr.e de ce qu’est Wolengi ni de comment l’épeler. Vous l’épelez
comme il vous parait le plus probable et vous le surlignez avec le
tag best guess: Wolengi
17
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
N’utilisez PAS ce tag pour des mots que vous pouvez épeler correctement
en faisant une recherche en ligne rapide.
Exemples:
/!\ Souvenez-vous :
Si vous entendez quelque chose dans votre langue mais vous n’arrivez
18
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Raccourci
Event Tag clavier Quand l’utiliser
Lorsqu'il y a une période d’au moins une seconde qui ne contient pas de
mots, il faut insérez le tag no speech. Les bruits autres qui ne sont pas
entendus à moins d'une seconde d'intervalle avec le discours doivent être
ignorés.
Lorsqu’une utterance entière ne contient aucun discours (aucun mot dit ou
chanté) on utilise un seul tag: le tag no speech. Il faut ignorer les autres
bruits s’il n’y a pas de discours.
Exemple
Vous entendez quelqu'un parler, puis une longue pause, et après
deux secondes, un bruit de porte :
/!\ Lorsqu’une utterance entière ne contient aucun discours (aucun mot dit
ou chanté) on utilise un seul tag: le tag no speech. Il faut ignorer les
autres bruits s’il n’y a pas de discours.
Exemple
L’utterance entière contient seulement de la musique sans
parole, quelqu’un qui pleure ou des bruits autres mais ne
contient aucun discours (aucun mot):
TRANSCRIPTION:
Il faut ignore tous les autres bruits tant qu’il n’y a pas de discours
dans une utterance entière.
19
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Lorsqu'un bruit autre est émis par un locuteur en premier plan (bruit de
bisou, rire, toux, etc) il faut remplacer ce bruit par le tag spk.
Exemple
20
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Une personne parle puis on entend une chanson avec des paroles:
TRANSCRIPTION: bon, maintenant euh, je vais vous faire écouter ma
chanson préférée!
Ne taggez pas les bruits de fond : ceux qui sont à un volume inférieur à
celui du discours ou qui sont au même volume tout au long de
l’utterance
Exemple
On sonne à la porte et, moins d'une seconde après, quelqu'un
commence à parler :
21
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemples
Il y a un changement de locuteur au milieu d'une utterance :
Lorsqu'un mot est coupé au début ou à la fin d'une utterance parce que le
fichier n'a pas été découpé correctement, il faut utiliser le tag truncation.
Ce tag ne doit être utilisé qu'au tout début ou à la toute fin d'une
utterance, et jamais au milieu. Utilisez ce tag uniquement si un mot est
coupé et qu'on ne l'entend pas en entier. Si la phrase est coupée mais
qu'aucun mot n'est coupé au milieu, n'utilisez pas le tag truncation.
t
truncation
● Lorsqu'un mot est coupé à la fin d'une utterance, vous ne pouvez
pas entendre la fin du mot mais il arrive qu'il soit possible de
deviner le mot prononcé par le locuteur en écoutant les deux
utterances. Dans ces cas-là, transcrivez le mot tronqué en entier,
immédiatement suivi du tag truncation.
Exemple
Le locuteur dit "je trouve pas mes lunettes" mais le mot lunettes
est coupé à la fin de l'utterance et vous entendez "je trouve pas
22
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Exemple
Vous entendez "j'y suis allé au mois de j-" et le contexte ne vous
permet pas de deviner de quel mois il s'agit, ni l’utterance
suivante. Vous allez donc remplacer le mot tronqué par
unintelligible puis insérer le tag truncation :
Exemple
Vous entendez "-ouvé un super job dans la région". Même si vous
pouvez deviner le mot en entier, ne le transcrivez pas, mais
remplacez-le par le tag truncation :
23
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
● Lorsque le mot est coupé à la fin de l'utterance, cela veut dire que la
deuxième partie du mot se trouve au début de l'utterance suivante.
C'est la raison pour laquelle il faut transcrire le mot à la fin de
l'utterance, mais jamais au début.
Exemple
Dans la première utterance vous entendez "je pensais le faire
hier et puis fi-".
Dans la deuxième utterance vous entendez "-nalement j'ai décidé
que ça servait à rien"
Vous pouvez deviner le mot tronqué à la fin de la première
utterance grâce à la seconde. Vous pouvez donc transcrire le mot
en entier dans la première utterance avant d'insérer le tag
truncation.
TRANSCRIPTION :
24
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
La plupart des fichiers audio contenant des uii sont éliminés avant la
tâche de transcription. Il se peut que quelques uii aient été
malencontreusement oubliées, mais cela reste rare.
25
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Ponctuation
A la fin de chaque phrase complète, utilisez un point (.) pour les affirmations, un
point d'interrogation (?) pour les questions, ou un point d'exclamation (!) pour les
exclamations.
Attention : N'utilisez toujours qu'un seul signe de ponctuation à la fois. Les
combinaisons (comme "?!" ou "...") ne sont pas autorisées. N'utilisez aucun autre
signe de ponctuation : deux points, points de suspension, point virgule ne sont pas
autorisés. Ne marquez PAS les dialogues par des tirets ou des guillemets.
Contrairement aux règles d'écriture du français, dans ce projet il ne faut jamais
d'espace avant un signe de ponctuation. (ex. quoi? et non pas quoi ?)
Le tag unintelligible est le seul tag qui peut être suivi d’un point .?!
Si le dernier mot d’une phrase est tronqué, on utilise un point avant le tag
truncation.
N'oubliez pas que toutes les utterances d'un batch constituent un seul fichier
audio qui a été découpé en segments (utterance) pour faciliter l'écoute et la
Ponctuation transcription. Cela veut donc dire que si une phrase n'est pas terminée à la fin
pour d'une utterance et continue dans l'utterance suivante, alors il ne faut pas ajouter
de ponctuation à la fin de la première utterance, mais plutôt à la fin de la phrase
marquer la complète.
fin d’une
phrase Exemples :
TRANSCRIPTION :
UTT1 : oui c'est vrai qu'elle est pas mal. et tu penses quoi
UTT2 : de celle-ci? j'arrive pas à me décider!
TRANSCRIPTION :
Si une phrase n’est pas terminé (le locuteur change de phrase ou il est coupé),
il faudra utiliser le tag incomplete.
26
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Utilisez le tag incomplete lorsqu’un locteur commence une phrase et (a) il est
interrompu par un autre locuteur, ou (b) il commence une nouvelle phrase
sans toutefois finir la première.
Exemples
Le locuteur commence une phrase, ne la termine pas et en commence
une autre :
N'oubliez pas que toutes les utterances d'un batch constituent un seul fichier
audio qui a été découpé en segments pour faciliter l'écoute et la transcription.
Cela veut donc dire que si une phrase n'est pas terminée à la fin d'une utterance
et continue dans l'utterance suivante, alors il ne faut PAS ajouter le tag
incomplete.
Exemples :
TRANSCRIPTION :
UTT1 : oui c'est vrai qu'elle est pas mal. et tu penses quoi
UTT2 : de celle-ci? j'arrive pas à me décider!
27
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Il ne faut PAS utiliser le tag incomplete pour un mot coupé au milieu d’une
utterance dû à la qualité de l’audio ou car le locuter ne prononce qu’une partie
d’un mot: il faut utiliser le tag unintelligible.
Vous pouvez utiliser des virgules (,) pour aider à la lisibilité du texte. Par exemple
dans une énumération, pour séparer des mots ou des propositions :
TRANSCRIPTION : j'ai acheté des œufs, de la farine, du chocolat et des pommes.
Virgules TRANSCRIPTION : si tu veux, il peut venir.
Suivez les règles françaises d'utilisation de la virgule. En cas de doute, il est
préférable de ne PAS utiliser de virgule.
28
NOTE: All information provided in this document is confidential. Any publication,
provision, or dissemination of this content is strictly prohibited. Do not share or
post the contents on the internet.
Références
● Les majuscules en français
● Le Larousse en ligne
● Les virgules en français
29