Académique Documents
Professionnel Documents
Culture Documents
B. H. 1/4
Quel est le but de l’encodage “One- A. Réduire la dimensionnalité des données textuelles B.
Convertir de données texte en vecteurs binaires
10 hot encoding” dans le prétraitement B
C. Supprimer les mots vides du texte
du texte ?
D. Tokenisation des données texte.
Quelle fonction Python est utilisée A. word_tokenize()
pour supprimer les URL et les B. re.sub()
11 B
adresses e-mail dans les données C. re.findall()
texte ? D. split()
A. skip-gram
Quelle technique est utilisée dans le B. Glove A
12
modèle Word2vec ? C. Continuous bag of words C
D. Fast text
Exercice : (8 points)
1. Tokenization
D1 : [“Alex”, “works” , “in”, “a” , “company”, “in”, “Canada”, ”,” , “Alex” , “has” , “3” ,
“kids”]
D2 : [“The”, “Kids”, “study”, “at”, “a”, “school”, “in”, “Paris”]
D3 : [“The”, “kids”, “enjoy”, “studying”, “at” , “school”]
Lemmatization (0,75pt)
D1 : [“alex”, “work” , “company”, “canada” , “Alex” , “kid”]
D2 : [“kid”, “study”, “school”, “paris”]
D3 : [“kid”, “enjoy”, “study”, “school”]
B. H. 2/4
2. Expliquer le rôle de l’instruction re.sub(‘\W+’,’ ’,text) :
re.sub(‘\W+’,’ ’,text) :
Elle recherche toutes les séquences non-caractères (ponctuation) dans le texte et remplace-les par un seul
espace.
Alex : PERSON
1. Quelle est la méthode de la bibliothèque scikit-learn permettant de créer un sac de mots (Bag of
words) ?
alex 2 0 0
work 1 0 0
company 1 0 0
canada 1 0 0
kid 1 1 1
study 0 1 1
school 0 1 1
paris 0 1 0
enjoy 0 0 1
B. H. 3/4
3. Quelle est la méthode de la bibliothèque scikit-learn permettant de créer tf-idf ?
alex 3* ( ) ( ) ( )
work 2* ( ) ( ) ( )
company 2* ( ) ( ) ( )
canada 2* ( ) ( ) ( )
kid 0 0 0
study ( / ) 2* ( / ) 2* ( / )
school ( / ) 2* ( / ) 2* ( / )
paris ( ) 2* ( ) ( )
enjoy ( ) ( ) 2* ( )
Elle détermine un poids pour chaque terme qui signifie son importance dans le document et le corpus
(collection de documents).
Good Luck…
B. H. 4/4