0 Contrôle Avec Corrigé TALN Mila 16-01-2024 Avec Barême

Centre Universitaire Abdelhafid Boussouf de Mila
Institut des mathématiques et informatique Nom : …………………………………………………..

Département informatique
Note : ………………… /20
Master 2, Spécialité I2A : 2023-2024 Prénom : ……………………………………………..
Matière : TALN
CONTROLE ECRIT (Durée 01h30) Le 16/01/2024
QCM: (12 points) Avec corrigé type
N° Question Choix multiples Réponse

A. Stemming ->remove stop_words-> tokenization
Quel est l’ordre correct pour le B. Tokenization->Stemming ->remove stop_words
1 C
prétraitement en NLP ? C. Tokenization ->remove stop_words-> Stemming
D. Aucune réponse.
Quelle tâche en NLP vise à identifier
A. NER Named Entity Recognition
et catégoriser des entités telles que B. Classification de texte
2 A
des noms, des dates et des lieux dans C. Analyse syntaxique
le texte ? D. Word Embeddings.
A. Découper les phrases en mots
3 Qu’est-ce que c'est la Tokenisation ? B. Convertir des mots en vecteurs A
C. Changer le sens des mots
D. Convertir tout le texte en une casse cohérente.
A. Représenter le texte comme une collection de
fréquences de mots
4 Qu’est-ce que c'est le (BoW) "bag-of- A
B. Mesurer la longueur des documents
words" en NLP ?
C. Classer les documents en fonction de leur contenu
D. Calculer les distances entre les mots.
A. Pour identifier des entités dans un texte
Quel est l’objectif principal de "Part- B. Pour déterminer la langue d'un document
5 C. Pour attribuer des catégories grammaticales aux C
of-Speech Tagging" en NLP?
mots d'une phrase
D. Pour mesurer la similarité sémantique des mots.
A. Technique pour mesurer de la longueur des
documents
Qu’est-ce que c'est le "word B. Processus pour trouver la similarité sémantique
6 entre deux morceaux de texte C
embeddings" ?
C. Représentation des mots sous forme de vecteurs
dans un espace vectoriel continu
D. Extraire les mots-clés d'un texte.
A. Diviser le texte en mots ou sous-mots
Qu’est-ce que c'est la B. Processus de réduction des mots à leur forme de
7 base ou de dictionnaire B
"Lemmatization" ?
C. Extraire les caractéristiques du texte
D. Processus de conversion des mots en vecteurs.
A. Processus d'élimination de la ponctuation du texte
B. Processus d'élimination des mots courants et peu
Qu’est-ce que c'est le "stopword informatifs
8 B
removal" dans le prétraitement NLP? C. Processus d'élimination du suffixe et du préfixe des
mots
D. processus d'élimination de l'espace entre les mots.
A. Convertir de la parole en texte
Ça sert à quoi la traduction B. Convertir un texte d'une langue à une autre
9 B
automatique en NLP ? C. Résumer un document texte traduit
D. Identifier le sentiment d'un texte donné.
B. H. 1/4
Quel est le but de l’encodage “One- A. Réduire la dimensionnalité des données textuelles B.
Convertir de données texte en vecteurs binaires
10 hot encoding” dans le prétraitement B
C. Supprimer les mots vides du texte
du texte ?
D. Tokenisation des données texte.
Quelle fonction Python est utilisée A. word_tokenize()
pour supprimer les URL et les B. re.sub()
11 B
adresses e-mail dans les données C. re.findall()
texte ? D. split()
A. skip-gram
Quelle technique est utilisée dans le B. Glove A
12
modèle Word2vec ? C. Continuous bag of words C
D. Fast text
Exercice : (8 points)
Etant donnée un corpus de données composé de trois documents suivants :
D1: Alex works in a company in Canada, Alex has 3 kids.

D2: The Kids study at a school in Paris.
D3: The kids enjoy studying at school.
� Partie 1: Text Preprocessing
1. Montrer le résultat de l’application de chaque opération de prétraitement suivante sur chaque

document : 1-Tokenization , 2-Stop Words Removal, 3-Lemmatization (il faut respecter l’ordre).
1. Tokenization
D1 : [“Alex”, “works” , “in”, “a” , “company”, “in”, “Canada”, ”,” , “Alex” , “has” , “3” ,
“kids”]
D2 : [“The”, “Kids”, “study”, “at”, “a”, “school”, “in”, “Paris”]
D3 : [“The”, “kids”, “enjoy”, “studying”, “at” , “school”]
Stop Words Removal (0,75pt)

D1 : [“Alex”, “works” , “company”, “Canada”, ”,” , “Alex” , “3” , “kids”]
D2 : [“Kids”, “study”, “school”, “Paris”]
D3 : [“kids”, “enjoy”, “studying”, “school”]
Lemmatization (0,75pt)
D1 : [“alex”, “work” , “company”, “canada” , “Alex” , “kid”]
D2 : [“kid”, “study”, “school”, “paris”]
D3 : [“kid”, “enjoy”, “study”, “school”]
Résultat après l’application de toutes les opérations :
D1 : alex work company canada alex kid

D2 : kid study school paris
D3 : kid enjoy study school
B. H. 2/4
2. Expliquer le rôle de l’instruction re.sub(‘\W+’,’ ’,text) :
re.sub(‘\W+’,’ ’,text) :
Elle recherche toutes les séquences non-caractères (ponctuation) dans le texte et remplace-les par un seul
espace.
3. Trouver les entités nommées si elles existent :
Alex : PERSON
Canada : (GPE) Countries
Paris: (GPE) Cities
� Partie 2: Text Representation
1. Quelle est la méthode de la bibliothèque scikit-learn permettant de créer un sac de mots (Bag of
words) ?
C’est la méthode : CountVectorizer()
2. Créer la table des sacs des mots représentant ce corpus de documents.
tokens document1 document2 document3
alex 2 0 0
work 1 0 0
company 1 0 0
canada 1 0 0
kid 1 1 1
study 0 1 1
school 0 1 1
paris 0 1 0
enjoy 0 0 1
B. H. 3/4
3. Quelle est la méthode de la bibliothèque scikit-learn permettant de créer tf-idf ?
C’est la méthode : TfidfVectorizer()
4. Créer la table TF-IDF :
Rappel: Formule de TF-IDF(d,t)= (1 + ( , ) ) × log2( / ( ) ).
tokens document1 document2 document3
alex 3* ( ) ( ) ( )
work 2* ( ) ( ) ( )
company 2* ( ) ( ) ( )
canada 2* ( ) ( ) ( )
kid 0 0 0
study ( / ) 2* ( / ) 2* ( / )
school ( / ) 2* ( / ) 2* ( / )
paris ( ) 2* ( ) ( )
enjoy ( ) ( ) 2* ( )
5. Expliquer le résultat de l’application de tf-idf :
Elle détermine un poids pour chaque terme qui signifie son importance dans le document et le corpus
(collection de documents).
Good Luck…
Centre Universitaire Abdelhafid Boussouf de Mila

Institut des mathématiques et informatique Nom : …………………………………..…………………………..
Département informatique
Master 2, Spécialité I2A : 2023-2024 Prénom : …………………………..…………………………..
Matière : TALN
B. H. 4/4

0 Contrôle Avec Corrigé TALN Mila 16-01-2024 Avec Barême

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

0 Contrôle Avec Corrigé TALN Mila 16-01-2024 Avec Barême

Transféré par

Droits d'auteur :

Formats disponibles

Centre Universitaire Abdelhafid Boussouf de Mila

Institut des mathématiques et informatique Nom : …………………………………………………..

CONTROLE ECRIT (Durée 01h30) Le 16/01/2024

QCM: (12 points) Avec corrigé type

N° Question Choix multiples Réponse

Etant donnée un corpus de données composé de trois documents suivants :

D1: Alex works in a company in Canada, Alex has 3 kids.

� Partie 1: Text Preprocessing

1. Montrer le résultat de l’application de chaque opération de prétraitement suivante sur chaque

Stop Words Removal (0,75pt)

Résultat après l’application de toutes les opérations :

D1 : alex work company canada alex kid

3. Trouver les entités nommées si elles existent :

Canada : (GPE) Countries

Paris: (GPE) Cities

� Partie 2: Text Representation

C’est la méthode : CountVectorizer()

2. Créer la table des sacs des mots représentant ce corpus de documents.

tokens document1 document2 document3

C’est la méthode : TfidfVectorizer()

4. Créer la table TF-IDF :

Rappel: Formule de TF-IDF(d,t)= (1 + ( , ) ) × log2( / ( ) ).

tokens document1 document2 document3

5. Expliquer le résultat de l’application de tf-idf :

Centre Universitaire Abdelhafid Boussouf de Mila

Vous aimerez peut-être aussi