Examen Deep Learning VF Avec Correction

EXAMEN A
Semestre : 1 2
Session : Principale Rattrapage
Unité d’enseignement : Analyse de données

Module (s) : Deep Learning
Classe(s) : 4DS
Nombre des questions : 40 Nombre de pages : 8
Date : 31/05/2023 Heure 15h Durée :1h30
Consignes : Cet examen comporte un QCU (Questionnaire à Choix Unique) de 40 questions.
1) Laquelle des méthodes suivantes est utilisée pour entraîner un modèle séquentiel
Keras ?
A. model.compile
B. model.fit
C. model.evaluate
D. model.predict
2) CNN est utilisé lorsqu’il y a .........

A. des images
B. du texte
C. Les deux réponses A) et B)
D. Aucune de ces réponses.
3) Laquelle des affirmations suivantes est la meilleure description de « early stopping » ?

A. Entrainer le réseau jusqu'à ce qu'un minimum local dans la fonction d'erreur soit atteint
B. Simuler le réseau sur un ensemble de données de test après chaque époque (epoch)
d’entrainement. Arrêtez l'entraînement lorsque l'erreur de généralisation commence à
augmenter.
C. Ajoutez un terme « momentum » à la mise à jour du poids (weights) dans la règle delta
généralisée, afin que l’entrainement converge plus rapidement
D. Une version plus rapide de la rétropropagation (Backpropagation), comme l'algorithme «
Quickprop
4) Dans un reseau de neurones de type LSTM, citez le(s) function(s) d’activation les plus utilisés:
A. ReLU
B. sigmoid
C. tangente hyperbolique. (Tanh)
D. Les réponses B) et C).
5) En deep learning, comment éviter le sur-apprentissage (overfitting) :

A. Récupérer plus de données d’apprentissage
B. Réduire la taille des données d’apprentissage
C. Augmenter la taille des données de test
D. Réduire la taille des données de test
1
6) Lequel des termes suivants est associé au LSTM?
A. “same” and “valid” Padding.
B. Stride
C. Filters (Kernels).
D. Forget Gate
7) Parmi les propositions suivantes, trouvez la méthode d’hyeperparamétrage dans un réseau de

neurones?
A. Les méthodes d’optimisation
B. Les algorithmes génétiques
C. Les techniques de régularisation
D. Toutes les réponses sont correctes
8) La sortie de la fonction d’activation “softmax” est comprise entre:

A. 0 à 9
B. 0 à 1
C. -1 à 1
D. -1 à 0
9) Quelles sont les limites du modèle RNN ?

A. Exploding gradient
B. Vanishing gradient
C. Memoire à court terme (short-term memory) très limitée
D. Toutes les réponses sont correctes
10) Identifier l’architecture CNN qui correspond à la figure suivante:
A. ConCNN
B. ResNet
C. InceptionV3
D. VGG-16
2
11) Compléter la figure suivante:
A. (1) Training, (2) Evaluation

B. (1) Object detection, (2) Classification
C. (1) Feature Learning, (2) classification
D. Aucune de ces réponses
12) Compléter la figure suivante:
Figure 1
A. (1) Batch Gradient Descent, (2) Stochastic Gradient Descent, (3) Mini-Batch Gradient
Descent
B. (1) Stochastic Gradient Descent, (2) Batch Gradient Descent, (3) Mini-Batch Gradient
Descent
C. (1) Mini-Batch Gradient Descent, (2) Stochastic Gradient Descent, (3) Batch Gradient
Descent
D. (1) Batch Gradient Descent, (2) Mini-Batch Gradient Descent, (3) Stochastic Gradient
Descent
13) Lequel des termes suivants n’est pas associé au modèle transformer?
A. Forget Gate
B. Input Gate
C. Output Gate
D. Hidden Gate
14) Lors de l'évaluation d'un modèle CNN ou RNN, pourquoi est-il important d'utiliser à la
fois des données d'entraînement, de validation et de test ?
3
A. Pour évaluer la probabilité de divergence du modèle
B. Pour mesurer l'efficacité du modèle à traiter des données inconnues
C. Pour déterminer le nombre optimal d'époques (epochs) d’entraînement
D. Pour évaluer la probabilité de convergence du modèle
15) En termes de dépendance temporelle, illustrer la différence entre RNN et CNN ?

A. Les modèles CNN peuvent traiter les dépendances temporelles, contrairement aux
modèles RNN.
B. Les modèles RNN peuvent traiter les dépendances temporelles, contrairement aux
modèles CNN.
C. Les modèles CNN et RNN sont tous deux capables de traiter les dépendances
temporelles.
D. Les modèles CNN et RNN ne peuvent pas traiter les dépendances temporelles.
16) Dans un réseau de neurones, Quelle est la fonction de perte (loss function) couramment
utilisée dans les problèmes de classification binaire?
A. L'erreur quadratique moyenne (MSE)
B. L'entropie croisée binaire (binary cross-entropy)
C. L'entropie croisée catégorielle (categorical cross-entropy)
D. L'erreur absolue moyenne (MAE)
17) ………….. est une méthode de descente de gradient stochastique basée sur
l’estimation adaptative des moments de premier et de second ordre (first order
and second orcer moments)?
A. Stochastic Gradient Descent SGD
B.
C. RMsprop
D. Adam
18) Le transformer: c’est …………………... (1) pour transformer…………………………….

(2) en une autre à l’aide de deux parties …………………………………. (3) et
……………… (4):
A. (1) Une architecture, (2) une séquence (3) encodeur (4) décodeur
B. (1) Une réseau de neurones (2) un mot (3) self-attention (4) FeedForward
C. (1) Une réseau de neurones (2) une séquence (3) Masked multihead attention (4)
FeedForward
D. (1) Une architecture (2) une image (3) encodeur (4) décodeur
19) Pour un réseau entièrement connecté (Fully Connected), le nombre de nœuds de la couche
d’entrée est 6 et celui de la couche cachée est 6 (Biais pour chaque nœud est non NULL). Le
nombre maximal de paramètres de la couche d’entrée à la couche cachée est de :
A. Égal à 36
B. Inférieur à 36
C. Supérieur à 36
D. C’est une valeur arbitraire
20) Lequel des éléments suivants est une application du LSTM ?

A. Text Mining
4
B. Sentiment Analysis
C. Text and Speech Analysis
D. Toutes ces réponses
21) Le Transfer Learning, où apprentissage par transfert en français, désigne l’ensemble des
………. qui permettent de ……...les connaissances acquises à partir de la résolution de
problèmes donnés pour ………un autre problème.
A. Applications, adopter, traiter
B. Méthodes, transférer, traiter
C. Méthodes, tester, évaluer
D. Applications, tester, traiter
22) Choisissez le code python qui vous permet d'avoir le résultat de pooling de la Figure 2:
Figure 2
A. model.add(MaxPooling2D(pool_size=2))
B. model.add(MaxPooling2D(pool_size=4))
C. model.add(AveragePooling2D (pool_size=2))
D. model.add(AveragePooling2D (pool_size=4))
23) Soit l’architecture du réseau de neurones suivante :
1. def create_model():
2. model = Sequential ()
3. model.add(Dropout(0.2, input_shape=(60,)))
4. model.add(Dense(60, activation='relu', kernel_constraint=MaxNorm(3)))
5. model.add(Dense(30, activation='relu', kernel_constraint=MaxNorm(3)))
6. model.add(Dense(1, activation='sigmoid'))
Identifier le numéro de la ligne de code utilisée pour empêcher le overfitting:

A. Ligne 3
B. Lignes 4 et 5
C. Ligne 6
D. Le “overfitting” n’est pas traité dans ce modèle
24) Dans le modèle Transformer, le composant …………... décrit l'emplacement ou la position d'une
entité dans une séquence de sorte que chaque position se voit attribuer une représentation
unique.
A. Positional Multi head attention
B. Positional encoding
C. Positional embedding
D. Positional Masked Multi head attention
25) Une convolution, dans un réseau de neurones convolutifs CNN, est utilisée pour :
A. La classification des images
5
B. La réduction de la taille de l’image
C. L’extraction des features à partir des images
D. Aucune de ces réponse.
26) Soit la figure suivante:
Figure 3
La Figure 3 présente la fonction d’activation :

A. Tanh (Hyperbolic Tangent)
B. Leaky ReLU
C. ReLU
D. Sigmoid
27) Soit le code python suivant:
CNN = Sequential(name="Sequential_CNN")
CNN.add(Conv2D(16, kernel_size=(3, 3), strides=(1, 1), padding="same", activation="relu", input_shape=(28, 28, 1)))
Figure 4
Le code dans la Figure 4 consiste à ajouter:

A. Une couche de convolution
B. Une couche de pooling
C. Une couche de flatten
D. Un couche de “fully connected”
28) La taille de l’output du code dans la Figure 4 est:

A. (26, 26, 1)
B. (26, 26, 16)
C. (28, 28, 1)
D. (28, 28, 16)
29) Considérons le réseau neuronal suivant avec une couche cachée et une fonction d'activation linéaire
(La fonction identité).
Figure 5
Calculer la sortie du réseau en fonction des paramètres listés ci-dessous :
6
• Couche cachée : Neurone 1 : poids = [0.2, 0.2], biais = -0.1 Neurone 2 : poids = [-0.3, 0.1], biais =
0.2 Neurone 3 : poids = [0.5, -0.2], biais = 0
• Couche de Sortie : Neurone : poids = [0.6, -0.4, 0.1], biais = 0
• Le vecteur en entrée est le suivant [0.5, 0.3]
A. 0.011
B. 0.032
C. 0.023
30) Quel est l'objectif d'utiliser plusieurs filtres de convolution dans une seule couche de convolution
?
A. Eviter le surapprentissage (overfitting)
B. Réduire la complexité de calcul
C. Réduire la taille de l'entrée du réseau (input size)
D. Extraire des diverses caractéristiques (features)
31) Dans une couche de convolution, le rôle du paramètre “stride” est de :

A. Ajouter des zéros autour de l’entrée pour maintenir les dimensions spatiales
B. Ignorer ou supprimer une partie de l’entrée pendant l’apprentissage
C. Ajuster le ‘learning rate’ pendant l’apprentissage
32) En deep learning, l’objectif de l’algorithme de Backpropagation est de :

A. Réduire le Learning Rate durant l’apprentissage
B. Calculer les gradients afin de mettre à jour les paramètres du modèle
C. Initialiser les poids du réseau de neurones
D. Pour gérer les valeurs manquantes dans les données en input.
33) Soit le modèle suivant:
1. model = Sequential()
2. model.add(Dense(100, input_dim=615, name='fc1'))
3. model.add(Activation('sigmoid'))
4. model.add(Dense(10, name='fc2'))
5. model.add(Activation('softmax'))
Quel est le nombre total de paramètres de ce modèle ?

A. 62500
B. 62510
C. 62600
D. 62610
34) Dans un modèle Transformer, l’output de l’ENCODEUR est :

A. Prédiction du mot suivant
B. Une couche Softmax suivie d’une couche linéaire
C. Une couche linéaire suivie d’une couche Softmax
D. Contextual semantic embedding et positional encoding
35) Lequel des éléments suivants n'est pas une application de RNN ?
A. Prévision de séries temporelles
B. Détection d'anomalies
C. Prévision météorologique
7
D. Prédiction boursière
36) Supposons que vous avez 5 filtres convolutifs, de taille 7 x 7 avec un padding nul et une stride=1 dans
la première couche d'un réseau de neurones convolutifs. Vous passez une image de dimension 224 x
224 x 3 à travers cette couche. Quelles sont les dimensions des données que recevra la couche
suivante?
A. 224*224*3
B. 218*218*5
C. 217*217*3
D. 220*220*5
37) Lequel des éléments suivants n’est pas un hyperparamètre dans un réseau de neurones:
A. Nombre des epochs
B. Batch size
C. Learning rate (Taux d’apprentissage)
D. Aucune ces réponses
38) Quels sont les facteurs pour sélectionner la profondeur d'un réseau neuronal ?
1. Type de réseau neuronal (par exemple ANN, CNN, RNN, etc.)
2. Données d'entrée
3. Puissance de calcul, c'est-à-dire les capacités matérielles et les capacités logicielles
4. Taux d'apprentissage (Learning rate)
5. La fonction d’activation adéquate
A. 1, 2, 4 et 5
B. 2, 3, 4 et 5
C. 1, 3, 4 et 5
D. 1, 2, 3, 4 et 5
39) La méthode "Batch Normalization" ……. :
A. Elle normalise toutes les entrées avant de les envoyer à la couche suivante
B. Elle normalise les poids (weights) avant de les envoyer à la couche suivante
C. Elle normalise les poids de la couche de sortie
D. Aucun de ces réponses
40) Soit le code python suivant:
# Build neural network
model = models.Sequential()
model.add(Dense(512, activation='relu', input_shape=(NUM_ROWS * NUM_COLS,)))
model.add(……(1)………)
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.25))
model.add(Dense(10, ………(2)…………)
# Compile model
model.compile(optimizer='rmsprop', ………………(3)…………………, metrics=['accuracy'])
Figure 6
Choisissez la bonne réponse qui consiste à compléter le code python dans la Figure 6:
A. (1) activation='softmax’, (2) loss='categorical_crossentropy’, (3) Dropout(0.5)
B. (1) Dropout(0.5) , (2) loss='categorical_crossentropy' , (3) activation='softmax'
C. (1) loss='categorical_crossentropy’, (2) activation='softmax', (3) Dropout(0.5)
D. (1) Dropout(0.5) , (2) activation='softmax', (3) loss='categorical_crossentropy'

Examen Deep Learning VF Avec Correction

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Examen Deep Learning VF Avec Correction

Transféré par

Droits d'auteur :

Formats disponibles

EXAMEN A

Session : Principale Rattrapage

Unité d’enseignement : Analyse de données

Consignes : Cet examen comporte un QCU (Questionnaire à Choix Unique) de 40 questions.

2) CNN est utilisé lorsqu’il y a .........

3) Laquelle des affirmations suivantes est la meilleure description de « early stopping » ?

5) En deep learning, comment éviter le sur-apprentissage (overfitting) :

7) Parmi les propositions suivantes, trouvez la méthode d’hyeperparamétrage dans un réseau de

8) La sortie de la fonction d’activation “softmax” est comprise entre:

9) Quelles sont les limites du modèle RNN ?

10) Identifier l’architecture CNN qui correspond à la figure suivante:

A. (1) Training, (2) Evaluation

12) Compléter la figure suivante:

15) En termes de dépendance temporelle, illustrer la différence entre RNN et CNN ?

18) Le transformer: c’est …………………... (1) pour transformer…………………………….

20) Lequel des éléments suivants est une application du LSTM ?

23) Soit l’architecture du réseau de neurones suivante :

Identifier le numéro de la ligne de code utilisée pour empêcher le overfitting:

26) Soit la figure suivante:

La Figure 3 présente la fonction d’activation :

Le code dans la Figure 4 consiste à ajouter:

28) La taille de l’output du code dans la Figure 4 est:

Calculer la sortie du réseau en fonction des paramètres listés ci-dessous :

31) Dans une couche de convolution, le rôle du paramètre “stride” est de :

32) En deep learning, l’objectif de l’algorithme de Backpropagation est de :

33) Soit le modèle suivant:

Quel est le nombre total de paramètres de ce modèle ?

34) Dans un modèle Transformer, l’output de l’ENCODEUR est :

Vous aimerez peut-être aussi