Vous êtes sur la page 1sur 9

EXamen NLP : 3 parties :

EXERCICE 1- QCM : 7.5 pts ( 30 qst * 0,25)

EXERCICE 2

➢ 1 - Donner la chaine de traitement automatique de NLP :

➢ 2- Quelles sont les étapes de pré-traitement (Nettoyage) des textes :


• Suppression des caractères spéciaux
• Conversion MAJ -> Minuscule
• Limatization / Racinisation
• Suppression des articles non utiles ( Stop Words remorval )
• Correction orthographique et grammaticale (spell check)
• Tockinization

➢ 3 - Appliquez l’ensemble de ces etapes de nettoyage sur le corpus suivant :


Corpus = [ ‘’ Hello all World ! ‘’ , “ worl is all” , ” All is not’’ ]
corpus 1 = ["Hello all World", "word is all", "All is not"]

corpus 2 = ["hello all world", "word is all", "all is not"]

corpus 3 = ["hello all world", "word be all", "all be not"]

corpus 4 = ["hello world", "word be", "be not"]

corpus 5 = ["hello world", "world be", "be not"]

corpus 6 = ["hello","world","world","be","be","not"

➢ 4- Coder en format numérique le dernier corpus netoyyé avec ces methodes :

o Bag of words

Vocabulaires : [hello(0) , world(1) , be(2) ,not(3)]

DOC1 = “hello world” -> [1 1 0 0 ]


DOC2 = ”wold be“ -> [0 1 1 0 ]
DOC3 = “Be not” -> [ 0 0 1 1]

Hello World Be Not


DOC1 1 1 0 0
DOC2 0 1 1 0
DOC3 0 0 1 1
o TF-IDF

Hello World Be Not


DOC1 ½ log e(3)
DOC2
DOC3 ½ log e (3)
TF= ? / TF(hello , DOC1) = ½

IDF= ? / IDF ( hello) = log (3/1)

TF(not, DOC3) = ½

IDF(not) = log e ( 3/1 )

o One hot encoder

DOC 1 : Hello World Be Not


Hello 1 0 0 0
World 0 1 0 0

Hello World Be Not


DOC 2 :
World 0 1 0 0
Be 0 0 1 0

Hello World Be Not


DOC 3 : Be 0 0 1 0
Not 0 0 0 1
➢ 5- Quelles sont les techniques ML/ DL utilisées pour faire des projet NLP * ?

ML DL

SYM CNN -1D ( 1 dimension)

Naire bays CNN – 2D

Arbre de décision RNN

KNN LSTM

RL ( regresion Lineaire ) Auto- encoders

RF (random forest) Transformers

Reseau de neronne

Ada boost

QDA

GB
EXERCICE 3 :

Soit l’ensemble des textes suivantes,décrits par les vecteurs V=[X1, X2]

Mot=Word X1 X2
Aime 0.2 - 0.1
Malade - 0.3 0.3
Positive 0.3 0 .1
Pesimiste 0 .1 0
Heureux 0.2 - 0 .4
Amour 0.7 0.1
Negative -0 .2 0.1
Mort 0 0 .6
Argent 0.5 0.2
Optimiste 0 .3 -0 .5
Pauvre -0.3 0.5
nulle -0.2 0.3

1/ Schématiser X2=f(X1)
2/ Le modèle obtenue après la phase de training avec l’une des technique ML est definie par :

X2 0 qlq soit X1

Tracer alors cette droite ??

3/ Remplir la matrice de confusion qui décrit cet exemple :


Sentiment Positive Sentiment négative
Sentiment Positive TP= 3 FN=3
Sentiment négative FP= 0 TN= 6
4 / Calculer alors les métriques suivantes :

Sensitivity = TP / (TP+FN) = ½ = 50 %

Specificity = TN/ (TN+FP) = 1

Accuracy = (TP+TN) / (TP+ TN + FP + FN ) = 9/12 = 3/4

Précision=

F1-Score=

NPV=
5/ proposer un modele optimal dans lequel toutes les métrique de performance seront égales à
100%

FN=FP=0

TP=TN=6

 X2=X1

Vous aimerez peut-être aussi