Vous êtes sur la page 1sur 2

Reconnaissance et interaction vocale - Examen

Master 2 AIC / SETI - Université Paris-Saclay


2 février 2016, 14h00 – 16h00
Examen sans documents. Le sujet comporte 2 pages. Les exercices sont indépendants.
Les réponses peuvent être rédigées en français ou en anglais.

1 Analyse de la parole
1. Comment peut-on distinguer les différentes voyelles sur un spectre ou un spectrogramme ?
2. Quel est l’intérêt de la représentation cepstrale lors de l’analyse du signal pour la recon-
naissance de la parole ? et à quoi sert l’échelle Mel ?
3. Lors de l’analyse du signal de parole et de l’extraction des paramètres MFCC, quelle est la
durée typique de la fenêtre d’analyse et pourquoi ?
4. A quoi servent les coefficients différentiels dans un système de reconnaissance de la parole ?
5. Quelles informations peuvent être extraites de la hauteur moyenne de la fréquence fon-
damentale (F0 ) ? de la variation de F0 en fin de phrase ? enfin des variations de F0 en
général ?

2 Modèles acoustiques et décodage


1. Les modèles acoustiques d’un système de reconnaissance de la parole continue sont fondés
sur des modèles de Markov cachés. Que représentent ces modèles ? Et pourquoi utilise-t-on
généralement des modèles à 3 états ?
2. Quel est l’intérêt d’utiliser plusieurs gaussiennes pour modéliser la densité de probabilité
d’un état d’un modèle acoustique ? Quels problèmes cela peut-il poser et comment peut-on
les résoudre ?
3. Dans quel but utilise-t-on l’adaptation MAP ou MLLR ?
4. On considère plusieurs langues : français, espagnol, anglais, mandarin, arabe. Pour quelle(s)
langue(s) la phonétisation du dictionnaire sera-t-elle plus facile à réaliser ? plus difficile ?
5. Pour quel type d’application est-il préférable d’utiliser une grammaire formelle ? et une
grammaire probabiliste ?

3 Vérification du locuteur
On dispose de deux systèmes A et B de vérification du locuteur. Suite à une évaluation des
performances, on recueille les résultats suivants :
— le système A accepte 10% d’imposteurs et rejette 20% de bons locuteurs ;
— le système B accepte 30% d’imposteurs et rejette 5% de bons locuteurs.
Peut-on dire quel système est le meilleur ? argumentez et proposez si nécessaire des tests complé-
mentaires.

1
4 Modélisation statistique du langage
1. Soit une séquence de mots W = w1,K = w1 w2 ...wK extraite du vocabulaire V . Supposons
que l’on choisisse d’estimer la probabilité de la séquence W par
Y
P (W ) = P (wi |wi−1 . . . wi−n+1 )
i

Comment s’appelle un tel modèle ? Explicitez les hypothèses faites. Quel ordre n est-il
classiquement utilisé ?
2. Pourquoi les mots hors vocabulaire posent-ils un problème ? Quelles sont les solutions pos-
sibles ?
3. Quel est l’intérêt des approches par réseau de neurones pour la modélisation statistique du
langage ?
4. Voici un extrait du journal Le Monde :
le livre de Bud et Ruth Schultz montre que la meilleure des démocraties
part inéluctablement à la dérive sans une vigilance de tous les instants

il rassemble vingt-sept témoignages courts incisifs précis et documentés


d’ hommes et de femmes persécutés pour leurs idées au pays de la statue
de la Liberté

du syndicalisme des années dix au reaganisme en passant par le maccarthysme


et la répression des mouvements anti- Vietnam ou de la lutte pour l’ égalité
raciale dans les années soixante

il y est question d’ arrestations arbitraires de faux témoins de procès


truqués d’ intimidations de provocations d’ infiltration et de manipulation

on y parle de l’ impunité de la police d’ intrusion dans la vie privée de


tentatives de meurtre perpétrées par les services secrets

l’ ouvrage réalise un bon équilibre entre la narration la confession personnelle


et l’ explication historique et juridique

il s’ en dégage une formidable leçon de courage et l’ idée qu’ en matière


de libertés rien n’ est jamais acquis

(a) à votre avis, quelles normalisations ont été réalisées à partir du texte initial et pourquoi ?
(b) sachant que le texte contient 168 mots, donnez sous forme de fraction la probabilité
estimée des unigrammes P(’de’), P(’la’) et P(’dans’) et des bigrammes P(’la’|’de’) et
P(’la’|’dans’).
(c) de manière générale, quels types de mots sont les plus frequents dans les journaux ? et
les moins fréquents ?

Vous aimerez peut-être aussi