2021-2022 TALN Master

École nationale supérieure d'informatique (ESI, Ex.
INI), Alger
Master 2021/2022
Traitement automatique du langage naturel (TALN)
2 novembre 2021 - Examen (1h30) - Partie 1

Documents et calculatrice non autorisés
Il faut répondre sur cette feuille (pages 1 et 2) ; Il faut rendre cette feuille même vide
Nom + Prénom : ………………………………………………………………………………...
QCM. Test de connaissance (10pts : 30mn)
Dans chaque question, la sélection d'un choix erroné est sanctionnée par la moitié de la note d'un
choix juste. La note minimale d'une question est 0.
1) Sélectionner les expressions reconnues par l'expression régulière

/[A-Za-z]\w*@\w{3,}\.[A-Za-z]{2,3}/, étant donné \w ≡ [a-zA-Z0-9_] :
☐ AB_aries@esi.dz ☐ _ab_aries@esi.dz ☐ ab_aries@esi.edu.dz ☐ ab_@esi.edu
☐ ab_aries@es.dz ☐ ab_aries@esi.educ ☐ aaries@e9si.dz ☐ a_@_e_.dz
2) Afin d'écrire le mot "Rassemblement", on a commis l'erreur suivante : "Rasenlbement". Indiquer

la (les) position(s) de chaque opération d'édition par rapport au mot correcte (Si l'opération n'existe
pas, écrire 0. La transposition et la substitution sont prioritaires, c-à-d. on ne doit pas les considérer
comme des opérations d'insertion/suppression) :
Insertion : ………………………………. Substitution : ……………………………….
Suppression : ………………………………. Transposition : ……………………………….
3) Quelles sont les caractéristiques suffisantes pour détecter la limite des phrases dans le texte "I
met Mr. Karim. He is at Hassiba Ave. He went to buy a PC." (Ave.=avenue [FR: rue]), étant donné
qu'on a appliqué une phase de normalisation ? Cette dernière transforme les abréviations/acronymes
vers leurs versions longues en gardant le point lorsque le mot suivant commence par une majuscule
et l'abréviation peut se produire à la fin de la phrase (les caractéristiques utiles mais pas nécessaires
dans ce texte sont considérées comme erronées) :
☐ Casse (après ".") ☐ Catégorie grammaticale (avant ".") ☐ Longueur du mot (avant ".")
☐ Nom propre (avant ".") ☐ Catégorie grammaticale (après ".") ☐ Longueur du mot (après ".")
☐ Nom propre (après ".") ☐ Classes des abréviations ☐ Aucune ; le "." est suffisant
4) Choisir, pour chaque tâche, l'opération (les opérations) de réduction de forme utilisée(s) souvent
(avec élimination des affixes) :
Tâche Lemmatisation Racinisation Aucune
Recherche d'informations (RI) ☐ ☐ ☐
Compréhension de la langue (NLU) ☐ ☐ ☐
Représentation BERT ☐ ☐ ☐
Alger.ESI.Master.TALN.Examen page 1/4

5) Sélectionner les propositions correctes concernant les modèles de langage (LM) et l'étiquetage
morpho-syntaxique (PoS) :
☐ Dans PoS avec un modèle de Markov caché (HMM), les transitions entre les états (catégories
grammaticales) sont représentées comme un LM.
☐ Certaines méthodes de lissage peuvent régler le problème des mots hors vocabulaire.
☐ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est supérieure à celle de "un cours Karim enseigne".
"Karim enseigne un cours" est égale à celle de "un cours Karim enseigne".
"Karim enseigne un cours" est inférieure à celle de "un cours Karim enseigne".
☐ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est supérieure à celle de "un cours Karim enseigne".
"Karim enseigne un cours" est égale à celle de "un cours Karim enseigne".
"Karim enseigne un cours" est inférieure à celle de "un cours Karim enseigne".
6) Étant donné deux mots M1 et M2, on veut savoir le type de relation qu'on peut extraire en utilisant
des différentes représentations. Notons HYP(M1, M2) une mesure basée sur le chemin le plus
court qui connecte M1 et M2 en utilisant la relation hyponyme/hyperonyme de Wordnet. Notons
COS(X,Y) le cosinus entre deux vecteurs X et Y. Sélectionner le type de relation capturée par chaque
mesure :
Mesure Similarité Association Aucune
HYP(M1, M2) ☐ ☐ ☐
COS(OneHot(M1), OneHot(M2)) ☐ ☐ ☐
COS(Word2Vec(M1), Word2Vec(M2)) ☐ ☐ ☐

École nationale supérieure d'informatique (ESI, Ex. INI), Alger
Master 2021/2022
Traitement automatique du langage naturel (TALN)
2 novembre 2021 - Examen (1h30) - Partie 2

Documents et calculatrice non autorisés
La réponse est sur la feuille d'examen ; Vous pouvez prendre cette feuille avec vous
Exercice 01. Application numérique (5pts : 30mn)
1) Modèles de langage et étiquetage morpho-syntaxique

Voici un modèle de markov caché pour l'étiquetage morpho-syntaxique.
π(𝑃, 𝐷, 𝑉, 𝑁) = (0. 4, 0. 3, 0. 1, 0. 2)
A) Calculer les deux probabilités (1pt) :

○ p(V D N | "fish a fish") p(N D N | "fish a fish")
B) Etant donné que C(N) = 200 et C(V) = 100, calculer les probabilités suivantes en utilisant le
lissage de Laplace (0.5pt) :
○ p(D|V) p(D|N)
C) Recalculer les probabilités de la question (A) après le lissage (0.5pt)
D) Combien d'expressions étiquetées "V D N" existent-elles dans notre dataset d'entraînement ?
Le déterminant "D" ne se produit jamais à la fin de la phrase. (0.5pt)
2) Encodage des mots

Voici trois phrases du dataset précédent :
● I fish a fish in the river the river where I fish is far the fish is far in the river
A) En utilisant TF, encoder les deux premières phrases et calculer Cos(S1, S2) (0.75pts)
B) En appliquant un filtrage des mots vides dont la liste est [ I, a, in, the, is, where ], refaire la
même chose (0.75pts)
C) Trouver la représentation Mot-Mot du mot "fish" avec une co-occurrence de 2-2 (1pt)

Exercice 02. Test de réflexion (5pts : 30mn)
1) On veut développer un système de traduction automatique français-anglais. Nous avons opté pour
une solution basée sur l'approche directe. Dans cette approche, on traduit mot par mot et on
applique une phase de post-traitement afin d'ajuster l'ordre des mots, etc. Cette approche se situe
dans le niveau morphologique du traitement de la langue. Proposer une solution afin d'introduire le
niveau sémantique sans changer d'approche. (2pts)
2) On veut développer un système de résumé automatique translingue (Texte long en une langue et
le résumé généré en une autre langue). Pour ce faire, nous avons utilisé deux systèmes basés sur
l'architecture encodeur-décodeur (seq2seq avec des RNNs) : un système de résumé automatique de
la langue française et un autre de traduction automatique du français vers l'anglais.
2-A) Nous avons deux datasets : un premier qui contient des phrases alignées (français-anglais) et
un deuxième qui contient des textes en français et leurs résumés en anglais. On peut entraîner le
deuxième système (traduction) en utilisant le premier dataset. Comment peut-on entraîner le
système de résumé automatique (français-français) ? (1pt)
2-B) On veut améliorer cette architecture comme suit :

● Moins de consommation de temps, d'effort et de données lors d'entraînement ;
● Prendre en considération des dépendances à-postériori lors de la génération du contexte ;
● Prendre en considération des variations morphologiques d'une manière automatique.
Proposer une nouvelle architecture qui nous assure ces améliorations (2pts)
Bonne chance

2021-2022 TALN Master

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2021-2022 TALN Master

Transféré par

Droits d'auteur :

Formats disponibles

École nationale supérieure d'informatique (ESI, Ex.

2 novembre 2021 - Examen (1h30) - Partie 1

Nom + Prénom : ………………………………………………………………………………...

QCM. Test de connaissance (10pts : 30mn)

1) Sélectionner les expressions reconnues par l'expression régulière

2) Afin d'écrire le mot "Rassemblement", on a commis l'erreur suivante : "Rasenlbement". Indiquer

Alger.ESI.Master.TALN.Examen page 1/4

Alger.ESI.Master.TALN.Examen page 2/4

2 novembre 2021 - Examen (1h30) - Partie 2

Exercice 01. Application numérique (5pts : 30mn)

1) Modèles de langage et étiquetage morpho-syntaxique

A) Calculer les deux probabilités (1pt) :

2) Encodage des mots

Alger.ESI.Master.TALN.Examen page 3/4

2-B) On veut améliorer cette architecture comme suit :

Alger.ESI.Master.TALN.Examen page 4/4

Vous aimerez peut-être aussi