Vous êtes sur la page 1sur 4

Ecole Supérieure Privée Technologies & Ingénierie

Type d’épreuve : Devoir Examen


Enseignant : Maha Cherif Dakhli
Matière : ML
Année Universitaire : 2022-2023 Semestre : 1
Classe : CII-3-SSIR
Documents : Autorisés Non autorisés
Date : 13/12/2022 Durée : 1h30mn
Nombre de pages : 4
Barème : 20
__________________________________________________________________________________

Exercice 1 : (10 pts)

Le machine learning est une technique qui permet aux systèmes automatiques de
s’améliorer grâce aux données préparées et nettoyées. Contrairement à ce que l’on
pense, le nettoyage des données (dit preprocessing) est la tâche principale lors d’un
projet de machine learning.

1) Interpréter les étapes considérées pour préparer les données qu’on désire
étudier lors d’un projet.

- Construire l’ensemble des données


- Transformer les données pour avoir des formats bien spécifiés
- Explorer et nettoyer les données (manquantes, redondantes, invalides,
erronées et inconsistantes)
- Normaliser les données

 L’objectif est d’avoir des données pertinentes


 Préparer une dataset

Lors de préparation d’un modèle de ML, on commence tout d’abord par choisir si on
va considérer un apprentissage supervisé ou non supervisé.

2) a- Quelle est la différence entre apprentissage supervisé et apprentissage non


supervisé ?
- Un apprentissage supervisé ➔ si on se dispose des données d’entraînement
étiquetées, c’est à dire dont on connaît la sortie voulue.
- Un apprentissage non supervisé ➔ si les données ne sont pas étiquetées. On
dispose donc de données d’entrée dont on ne connaît pas la sortie associée.
b- Selon quel critère, on choisit le modèle ou l’algorithme de ML.

L’expert doit analyser les données à sa disposition et selon l'objectif voulu et le


problème à résoudre il doit formuler des hypothèses cohérentes qui lui permettront
de choisir le modèle de l’algorithme.
On propose un ensemble des données ayant comme structure décrite par la figure ci-
dessous.

3) Proposer un algorithme fiable pour la classification de tel genre de données.


Justifier votre réponse.

La figure présente un regroupement des données par densité, ce genre des données ne
peuvent être regroupées que un regroupement par densité tel que DBSCAN, en
utilisant sa méthode de regroupement par 𝜀 voisins.

On veut également estimer le loyer d'un appartement d'une surface x à Montpellier


par la formule suivante : h(x) = 223 + 7x (prix de 2015, of course).

4) a- Quel modèle de machine learning peut-on utiliser pour pouvoir interpréter


ce genre de problème et capable de prédire le loyer ayant la forme de h(x) = b +
ax ?

On peut utiliser l’algorithme Linear regression pour prédire les paramètres a et b.

c- Par quel moyen on peut trouver les meilleures valeurs possibles pour a et b
(optimales). Interpréter le fonctionnement de la solution proposée.

En utilisant la fonction coût tel que le gradient descendant, au début l’algorithme


génère deux variables (a et b) aléatoirement, par la suite, il calcule l’erreur entre les
variables prédites et les variables réelles, et ceci se répète pour chaque itérations.

d- Pourquoi on divise toujours le jeu de données initial (le Data Set) en 2


parties ?

On divise le dataset en partie training (70% par exemple) et partie test (30%) pour tester
l’algorithme si après son apprentissage il peut traiter (classer) des nouvelles données
qu’il ne les connaisse pas. Ainsi, il peut opérer en temps réel.
QCM : (10 pts)

Cocher ou garder les bonnes réponses

1) Les algorithmes de Machine Learning construisent un modèle à partir d’un


ensemble de données, connues sous le nom de :

1 A Données d’apprentissage.
B Transfert de données.
C Formation des données.
D Aucune de ces réponses.

2) Laquelle de ces techniques est fréquemment utilisée en machine learning ?

2 A Classification en catégories basée sur les attributs.


B Regroupement d’objets similaires en clusters.
C Identifier les relations entre des événements afin de prédire quand l’un
suivra l’autre.
D Ce sont toutes des techniques de machine learning

3) Qu'est ce qu'Alpha GO ?

3 A Un programme informatique qui a battu des champions du jeu de Go.


B Le nom d'une base de données d'images.
C Le nom d'un informaticien majeur.
D Aucune de ces réponses.

4) D’où vient le terme "profond" de l’apprentissage profond ?

4 A De l'importance de la phase d’apprentissage.


B De la complexité des réseaux de neurones utilisés.
C Du nom d'un informaticien de Stanford.
D Aucune de ces réponses.

5) Par quel terme de performance le modèle peut prédire correctement les


paramètres d’une fonction linéaire ou non-linéaire.

5 A La descente de gradient.
B L’erreur quadratique moyenne.
C La fonction d’activation.
D L’architecture du réseau de neurones.
6) Comment peut-on normaliser les données à prédire, en utilisant la fonction :

6 A MinMaxScaler().
B StandardScaler().
C Median().
D preprocessing.normalize()

7) La classification supervisée permet d’interpréter :

7 A La classification.
B Le clustering .
C La régression.
D L’association.

8) Lequel des éléments suivants est un sous-ensemble de Machine Learning ?

8 A Deep Learning.
B SciPy.
C Numpy.
D Toutes ces réponses.

9) Combien de couches les algorithmes de Deep learning comportent-ils ?

9 A 5.
B 4.
C 3.
D 2.
10) RNNs signifie :

10 A RNNs signifie : Receives Neural Networks.


B RNNs signifie : Report Neural Networks.
C RNNs signifie : Recording Neural Networks.
D RNNs signifie : Recurrent Neural Networks

Vous aimerez peut-être aussi