Académique Documents
Professionnel Documents
Culture Documents
INI), Alger
Master 2021/2022
Traitement automatique du langage naturel (TALN)
Dans chaque question, la sélection d'un choix erroné est sanctionnée par la moitié de la note d'un
choix juste. La note minimale d'une question est 0.
3) Quelles sont les caractéristiques suffisantes pour détecter la limite des phrases dans le texte "I
met Mr. Karim. He is at Hassiba Ave. He went to buy a PC." (Ave.=avenue [FR: rue]), étant donné
qu'on a appliqué une phase de normalisation ? Cette dernière transforme les abréviations/acronymes
vers leurs versions longues en gardant le point lorsque le mot suivant commence par une majuscule
et l'abréviation peut se produire à la fin de la phrase (les caractéristiques utiles mais pas nécessaires
dans ce texte sont considérées comme erronées) :
☐ Casse (après ".") ☐ Catégorie grammaticale (avant ".") ☐ Longueur du mot (avant ".")
☐ Nom propre (avant ".") ☐ Catégorie grammaticale (après ".") ☐ Longueur du mot (après ".")
☐ Nom propre (après ".") ☐ Classes des abréviations ☐ Aucune ; le "." est suffisant
4) Choisir, pour chaque tâche, l'opération (les opérations) de réduction de forme utilisée(s) souvent
(avec élimination des affixes) :
Tâche Lemmatisation Racinisation Aucune
Recherche d'informations (RI) ☐ ☐ ☐
Compréhension de la langue (NLU) ☐ ☐ ☐
Représentation BERT ☐ ☐ ☐
☐ Dans PoS avec un modèle de Markov caché (HMM), les transitions entre les états (catégories
grammaticales) sont représentées comme un LM.
☐ Certaines méthodes de lissage peuvent régler le problème des mots hors vocabulaire.
☐ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est supérieure à celle de "un cours Karim enseigne".
☐ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est égale à celle de "un cours Karim enseigne".
☐ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est inférieure à celle de "un cours Karim enseigne".
☐ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est supérieure à celle de "un cours Karim enseigne".
☐ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est égale à celle de "un cours Karim enseigne".
☐ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est inférieure à celle de "un cours Karim enseigne".
6) Étant donné deux mots M1 et M2, on veut savoir le type de relation qu'on peut extraire en utilisant
des différentes représentations. Notons HYP(M1, M2) une mesure basée sur le chemin le plus
court qui connecte M1 et M2 en utilisant la relation hyponyme/hyperonyme de Wordnet. Notons
COS(X,Y) le cosinus entre deux vecteurs X et Y. Sélectionner le type de relation capturée par chaque
mesure :
Mesure Similarité Association Aucune
HYP(M1, M2) ☐ ☐ ☐
COS(OneHot(M1), OneHot(M2)) ☐ ☐ ☐
COS(Word2Vec(M1), Word2Vec(M2)) ☐ ☐ ☐
π(𝑃, 𝐷, 𝑉, 𝑁) = (0. 4, 0. 3, 0. 1, 0. 2)
A) En utilisant TF, encoder les deux premières phrases et calculer Cos(S1, S2) (0.75pts)
B) En appliquant un filtrage des mots vides dont la liste est [ I, a, in, the, is, where ], refaire la
même chose (0.75pts)
C) Trouver la représentation Mot-Mot du mot "fish" avec une co-occurrence de 2-2 (1pt)
1) On veut développer un système de traduction automatique français-anglais. Nous avons opté pour
une solution basée sur l'approche directe. Dans cette approche, on traduit mot par mot et on
applique une phase de post-traitement afin d'ajuster l'ordre des mots, etc. Cette approche se situe
dans le niveau morphologique du traitement de la langue. Proposer une solution afin d'introduire le
niveau sémantique sans changer d'approche. (2pts)
2) On veut développer un système de résumé automatique translingue (Texte long en une langue et
le résumé généré en une autre langue). Pour ce faire, nous avons utilisé deux systèmes basés sur
l'architecture encodeur-décodeur (seq2seq avec des RNNs) : un système de résumé automatique de
la langue française et un autre de traduction automatique du français vers l'anglais.
2-A) Nous avons deux datasets : un premier qui contient des phrases alignées (français-anglais) et
un deuxième qui contient des textes en français et leurs résumés en anglais. On peut entraîner le
deuxième système (traduction) en utilisant le premier dataset. Comment peut-on entraîner le
système de résumé automatique (français-français) ? (1pt)
Bonne chance