Vous êtes sur la page 1sur 5

École nationale Supérieure d'Informatique (ESI), Alger

2CSSID 2021/2022
Contrôle Final (CF)
Traitement automatique du langage naturel (TALN)

Lundi 20 juin 2022 - [9h, 10h30] - Partie 1


Documents non autorisés
Au delà de deux questions (pour tout l'examen), l'étudiant aura (-0.25) pour chaque question
Il faut répondre sur cette feuille (pages 1 et 2) et la rendre même si elle est vide
Au cas d'insuffisance des copies, recopier les réponses sur une feuille d'examen séparée de celle des
exercices

Nom + Prénom : NLP TALN

01. QCM (11pts : 30mn)


Pour chaque question, un choix erroné annule un autre correct. La note minimale par question est 0. La
politique peut varier selon la question.

1) Comparer entre les représentations d'un mot [3pts]. Ligne correcte (+0.5), (-0.25) pour chaque réponse
fausse par ligne, la note d'une ligne dans le cas où le nombre des choix corrects dépasse la moitié et n'atteint
pas la totalité des choix corrects est (0.25) sinon (0), la note minimale par ligne est (-0.5).
Lexicale Mot-Mot Word2Vec GloVe ELMo BERT
Représente la relation IS-A d'une manière explicite
☒ ☐ ☐ ☐ ☐ ☐
(directe)
Se base sur la co-occurrence des mots dans un
☐ ☒ ☒ ☒ ☒ ☒
corpus
Si oui (question passée), le contexte est fixe
☐ ☒ ☒ ☒ ☐ ☐
(nombre des mots avant et après)
Nécessite un réseau de neurones pour apprendre la
☐ ☐ ☒ ☒ ☒ ☒
représentation
Un mot peut avoir plusieurs représentations selon
☒ ☐ ☐ ☐ ☒ ☒
son sens (polysémie)
Prend en considération les variations
☒ ☐ ☐ ☐ ☒ ☒
morphologiques du mot

2) Etant donné les rôles sémantiques suivants :


Rôle Description

AGENT Le causeur volontaire d’un événement


EXPERIENCER L’expérimentateur d’un événement
FORCE Le causeur non volontaire d’un événement
THEME Le participant affecté directement par l’évènement
RESULT Le produit final d’un événement
CONTENT Une proposition ou le contenu d’un événement propositionnel
INSTRUMENT Un instrument utilisé dans l'événement
BENEFICIARY Le bénéficiaire d’un événement

Alger.ESI.2CSSID.TALN.CF page 1/5


Pour chaque syntagme nominal de la phrase "Le vent a cassé la fenêtre avec une pierre", sélectionner son rôle
sémantique [1.5pts]. (+0.5) pour un choix correct, (-0.5) pour un choix erroné.
SN \ Rôle AGENT EXPERIENCER FORCE THEME RESULT CONTENT INSTRUMENT BENEFICIARY

Le vent ◯ ◯ ⬤ ◯ ◯ ◯ ◯ ◯

la fenêtre ◯ ◯ ◯ ⬤ ◯ ◯ ◯ ◯

une pierre ◯ ◯ ◯ ◯ ◯ ◯ ⬤ ◯

3) Parmi les propositions suivantes (concernant les coréférences), choisir si elles sont toujours justes (OUI),
toujours fausses (NON) ou peuvent êtres correctes des fois (PEUT-ETRE) [2pts]. (+0.5) pour un choix correct,
(-0.5) pour un choix erroné.
Nomenclature : L'examen [référent] est …. Il [référence] …
OUI NON PEUT-ETRE
La référence suit le référent dans le texte. ◯ ◯ ⬤
Un syntagme en coréférence avec un autre est une référence et un
⬤ ◯ ◯
référent en même temps.
Avant d'appliquer la résolution de la coréférence, nous appliquons le
◯ ⬤ ◯
filtrage des mots vides sur le texte
La détection de coréférence utilise la détection de mention ⬤ ◯ ◯

4) Comparer les méthodes d'analyse de cohérence [2pts]. Ligne correcte (+0.5), (-0.25) pour chaque réponse
fausse par ligne, la note d'une ligne dans le cas où le nombre des choix corrects dépasse la moitié et n'atteint
pas la totalité des choix corrects est (0.25) sinon (0), la note minimale par ligne est (-0.5).
RST PDTB Centering theory Entity grid
Basée sur la structure du discours ☒ ☒ ☐ ☐
La cohérence est représentée d'une manière binaire ☐ ☒ ☒ ☐
La cohérence est estimée par la distribution des patterns ☐ ☐ ☐ ☒
La cohérence est une relation entre un noyau et un satellite ☒ ☐ ☐ ☐

5) Comparer entre les systèmes suivants : traduction automatique (MT), résumé automatique (AS),
questions-réponses (QA), système de dialogue (DS) et analyse de sentiments (SENT) [2.5pts]. Ligne correcte
(+0.5), (-0.25) pour chaque réponse fausse par ligne, la note d'une ligne dans le cas où le nombre des choix
corrects dépasse la moitié et n'atteint pas la totalité des choix corrects est (0.25) sinon (0), la note minimale
par ligne est (-0.5).
MT AS QA DS SENT
L'utilisateur peut introduire un seul mot et le résultat reste raisonnable ☒ ☐ ☐ ☒ ☒
Un système de recherche d'information peut être utilisé par ce système ☐ ☒ ☒ ☒ ☐
Ce système ne peut pas générer du texte ☐ ☐ ☐ ☐ ☒
Ce système n'utilise aucune étape de prétraitement ☐ ☐ ☐ ☐ ☐
Ce système est difficil à évaluer automatiquement ☐ ☐ ☐ ☒ ☐

Alger.ESI.2CSSID.TALN.CF page 2/5


École nationale Supérieure d'Informatique (ESI), Alger
2CSSID 2021/2022
Contrôle Final (CF)
Traitement automatique du langage naturel (TALN)

Lundi 20 juin 2022 - [9h, 10h30] - Partie 2


Documents non autorisés
Rappel : Au delà de deux questions (pour tout l'examen), l'étudiant aura (-0.25) pour chaque question
La réponse est sur la feuille d'examen ; Vous pouvez prendre cette feuille avec vous
Au cas d'une erreur dans le sujet, corriger la, justifier pourquoi c'est une erreur et continuer l'examen par
rapport votre corrigé.

02. Application (5.5pts : 40mn)


Voici les phrases et la grammaire vues en contrôle intermédiaire (CI) :

I fish small fish S → NP VP AJ → small | big


I swim like fish NP → AJ NM | NM | PN NM → fish | ducks
ducks swim VP → VB NP | VB PP VB → fish | like | swim
I like big fish PP → PR NP PN → I PR → like

A) Sémantique et représentation des mots


1. Etant donné les concepts [big, ducks, fish, I, like, small, swim], représenter les deux mots "fish" et
"swim" en utilisant une fenêtre 1-1 et calculer la similarité cosinus entre les deux [0.75pts]
fish : [1, 0, 0, 1, 1, 2, 0] (0.25pt) ducks : [0, 1, 0, 1, 1, 0, 0] (0.25pt)
cos(fish, ducks) = 2/(rac(7)*rac(3)) (0.25pt)

2. Peut-on calculer une similarité basée sur les relations IS-A de Wordnet entre ces deux mots ?
Non:Pourquoi/Oui:Comment ? [0.75pts]
Non (0.25pt) Puisque les catégories grammaticales des deux mots sont différentes fish/nom
swim/verbe (0.5pt)

B) Sémantique de la phrase
Nous avons le domaine suivant : Constants : I ; Prédicats : LIKE(x, y) ; BIG(x) ; FISH(x).
1. Écrire la dernière phrase en logique du premier ordre en se basant sur ce domaine. [0.5pt]
∀x FISH(x) ∧ BIG(x) ⇒ LIKE(I, x) (0.5pt)

2. Écrire les règles sémantiques qui génèrent cette phrase (sans prendre en compte les autres phrases ;
utiliser seulement les 8 règles grammaticales qui la composent). [2.5pts]

S → NP VP VP.sem(NP.sem) (0.25pt)

NP → PN NP.sem = PN.sem (0.25pt)

PN → I PN.sem = I (0.25pt)

VP → VB NP VP.sem = NP.sem(VB.sem(y)) (0.25pt)

Alger.ESI.2CSSID.TALN.CF page 3/5


NP → AJ NM NP.sem = NM.sem(AJ.sem(x) ∧) (0.5pt)

AJ → big AJ.sem = λx. BIG(x) (0.25pt)

NM → fish NM.sem = λQ.λP.λy. Q(x) FISH(x) ⇒ P(x) (0.5pt)

VB → like VB.sem = λy.λx. LIKE(y, x) (0.25pt)

Autres variantes peuvent être justes; l'essentiel est que le quantificateur est lié soit au nom, soit au syntagme
nominal (vu que les articles de quantification sont absents)

C) Cohérence
Supposons que les quatres phrases forment un paragraphe dans cet ordre.
1. En se basant sur "RST (Rhetorical Structure Theory)", est ce que ce texte est cohérent ? Pourquoi ?
[0.5pt]
Non (0.25) Puisqu'il n'y a aucune relation entre les phrases (causalité, contradiction, etc.) (0.25)

2. En se basant sur "Centering theory", est ce que ce texte est cohérent ? Pourquoi ? [0.5pt]
Oui (0.25) puisque le centre du discours ne change pas (l'interlocuteur) sauf pour une seule
phrase (0.25)

03. Discussion (3.5pts : 20mn)


Voici un système basé sur les réseaux de neurones récurrents (RNN). Le schéma est lu de droite à gauche.

1. C'est quoi la tâche traitée par ce système ? [0.5pt]


Auto-complétion (basée sur caractères)

2. Combien de cellules LSTM auront-nous besoin ? Pourquoi ? [0.5pt]


2 (0.25) une pour l'encodeur et l'autre pour le décodeur (0.25)

3. Nous voulons utiliser un modèle BERT dans cette tâche.


a. Devons-nous l'utiliser pour encoder, décoder ou les deux ? Pourquoi ? [0.5pt]
Encodeur (0.25) Puisque BERT est composé de la partie encodeur du transformer (0.25)

Alger.ESI.2CSSID.TALN.CF page 4/5


b. Comment ce modèle doit être entraîné ? (entrées, sorties, description des tâches) [1pt]
Entrée : chaque caractère est encodé oneHot + encodage de position dans le mot +
encodage du mot (1 ou 2) (0.25)
Sortie : l'encodage OneHot de chaque caractère et la classe (suivant/non suivant) (0.25)
Tâches :
1) Estimation des caractères masqués : on remplace des caractères aléatoirement
par un indicateur [MASK] et on essaye de les estimer (0.25)
2) Mot suivant : en entrée nous avons un indicateur [CLS] suivi par les caractères
du premier mot suivis par un indicateur [SEP] suivi par les caractères du
deuxième mot. On essaye d'estimer à la sortie équivalente à [CLS] si le mot2 peut
suivre le mot1 dans un texte. (0.25)

c. Comment devons-nous utiliser le modèle entraîné dans cette tâche ? [0.5pt]


Nous l'utilisons comme un encodeur :
La sortie [CLS] est utilisée comme contexte qui va être passé à la première instance du
décodeur LSTM afin de générer le premier caractère (0.25)
Les sorties des caractères du mot sont utilisées avec le mécanisme d'attention (0.25)

4. Par rapport à d'autres méthodes de la même tâche


a. Mentionner un avantage de ce système. [0.25pt]
Niveau caractère donc il peut apprendre les variations morphologiques comme la
conjugaison en se basant sur les propriétés du premier mot

b. Mentionner un inconvénient de ce système. [0.25pt]


Niveau caractère donc il doit avoir plus d'exemples afin d'apprendre

Alger.ESI.2CSSID.TALN.CF page 5/5

Vous aimerez peut-être aussi