Contrôle Final

Contrôle final
CLASSE Master DSBD DATE 2020/2021

MATIERE Machine learning DUREE 1h30
DOCUMENTS Autorisés N
PROFESSEUR BENLAHMAR EL HABIB
Internet Autorisés N
Partie 1
Question 1 : Classification des risques de crédit
La direction décide d'explorer l'utilisation de l'apprentissage automatique pour aider
ses employés à prendre des décisions lors de l’évaluation du risque de crédit de
leurs clients
L'objectif est de prédire le risque de crédit en fonction des informations fournies sur

une demande de crédit. Le problème de classification dans cette expérience est
sensible au coût, car le coût d'une mauvaise classification des échantillons positifs est
cinq fois supérieur au coût d'une mauvaise classification des échantillons négatifs.
Comment devrions-nous prendre en compte cet aspect pour trouver un bon

modèle ?
Réponse
Le coût d’une erreur consistant à classer un crédit à risque élevé comme

étant à faible risque est cinq fois plus élevé que celui de l’erreur consistant
à classer un crédit à faible risque comme étant à risque élevé. Pour tenir
compte de cela, nous devons générer un nouveau jeu de données qui
reflète cette fonction de coût. Dans le nouveau jeu de données, chaque
exemple à haut risque sera répliqué cinq fois.
Question 2
La régression logistique est une technique assez populaire en apprentissage automatique
pour classer les données en deux catégories. Cette technique s'appuie sur la régression
linéaire en utilisant le même modèle linéaire, mais il est suivi par la fonction sigmoïde qui
convertit la sortie du modèle linéaire à une valeur comprise entre 0 et 1. Cette valeur peut
alors être interprété comme une probabilité. Ceci est généralement représenté comme :
Où Xin comme son nom l'indique est le scalaire d'entrée (qui est également la sortie du
modèle linéaire) et xout est le scalaire de sortie.
Good Luck
Si l'erreur renvoyée à xout est ∂E/∂xout , écrivez l'expression pour ∂E/∂xin en termes de
∂E/∂xout
Réponse
Partie 2
1. Expliquer les deux phénomène under-fitting et over-fitting? Comment les maitrisés?
Réponse :
L’Overfitting (sur-apprentissage) désigne le fait que le modèle prédictif produit par l’algorithme de
Machine Learning s’adapte bien au Training Set. un modèle trop spécialisé sur les données
du Training Set et qui se généralisera mal. le modèle prédictif pourra donner de très bonnes
prédictions sur les données du Training Set (les données qu’il a déjà “vues” et auxquelles il s’y
est adapté), mais il prédira mal sur des données qu’il n’a pas encore vues lors de sa phase
d’apprentissage.
On dit que la fonction prédictive se généralise mal. Et que le modèle souffre d’Overfitting.
Il existe deux techniques importantes que vous pouvez utiliser lors de l'évaluation des
algorithmes d'apprentissage automatique pour limiter le surapprentissage :
1. Utilisez une technique de rééchantillonnage pour estimer la précision du modèle.
2. Retenir un ensemble de données de validation.
3. Cross-validation. Cross-validation is a powerful preventative measure against
overfitting. ...
4. Train with more data. It won't work every time, but training with more data can
help algorithms detect the signal better. ...
5. Remove features. ...
6. Early stopping. ...
7. Regularization. ...
8. Ensembling.
L’Underfitting (sous-apprentissage), sous-entend que le modèle prédictif généré lors de la phase

d’apprentissage, s’adapte mal au Training Set. le modèle prédictif n’arrive même pas à capturer
les corrélations du Training Set. Par conséquent, le coût d’erreur en phase d’apprentissage reste
Good Luck
grand. Bien évidemment, le modèle prédictif ne se généralisera pas bien non plus sur les
données qu’il n’a pas encore vu. Finalement, le modèle ne sera viable car les erreurs de
prédictions seront grandes. Dans ce cas de figure, on dit que le modèle souffre d’ Underfitting. On
dit également qu’il souffre d’un grand Bias (biais).
Il existe deux techniques importantes pour maitriser le underfitting
1. Diminuer la régularisation. La régularisation est généralement utilisée pour réduire la

variance d'un modèle en appliquant une pénalité aux paramètres d'entrée ayant les plus
grands coefficients. ...
2. Augmentez la durée de l'entraînement. ...
3. Sélection des caractéristiques.
2. what is Reliability of Machine learning? and Why bother about Machine Learning models
reliability?
Réponse
Voir le cours
3. you may have a 2-class (binary) classification problem with 100 instances (rows). A total
of 95 instances are labeled with Class-1 and the remaining 5 instances are labeled with
Class-2.
3.1. How do you deal with this highly imbalanced data?
Réponse
An effective way to handle imbalanced data is to downsample and upweight the

majority class.:
 Downsampling (in this context) means training on a disproportionately low subset of

the majority class examples.
 Upweighting means adding an example weight to the downsampled class equal to
the factor by which you downsampled.
Downsample the majority class. Consider again our example of this data set, with 5 class
2 to 95 class1. We can downsample by a factor of 20, taking 1/10 class1. Now about 10% of
our data is class2, which will be much better for training our model.
Upweight the downsampled class: The last step is to add example weights to the
downsampled class. Since we downsampled by a factor of 20, the example weight should be
20.
The weight should be equal to the factor you used to downsample:
{example weight} = {original example weight} × {downsampling factor}
Good Luck
4. Dans un jeu de données nous disposons des features suivantes:
longitude latitude
Housi total_roo total_bedr population househol median_house
ng ms ooms ds _value
age(m
ois)
114.470 34.400 190 7650.00 1901.000 1129.00 463.000 80100.0000
000 000 0000 000 0000 000 00
114.560 33.690 170 720.000 174.0000 333.000 117.000 85700.0000
000 000 000 00 000 000 00
114.570 33.640 192 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
114.470 33.630 193 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
114.570 33.640 1933 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
4.1. analyser ce jeux de données et recenser les points qui posent problème pour la
construction d'un modèle linéaire
Réponse :
la ligne 3 et 5 sont identique sauf la valeur de housting age ou il y a forte probablement
une erreur de frappe de la valeur 1933
les données sont issu de différents échelles
la variance est très faible
4.2. expliquer les différentes techniques à utiliser lors de la préparation de ces données
Réponse
On peut pas supprimer log et latt puisque le prix des apparts dépond de l’adresse
on peut pas aussi utiliser long et latt l’un séparer a l’autre donc il faut faire un cross-
feature
si on garde la dernière ligne la valeur 1933 est une valeur aberrante à remplacer par la
moyene. Mais il s’agit de le même apprtement puisque il a le meme log et latt, donc c’est
à supprimer
5. Expliquer la différence entre précision et Accuracy?

Réponse
l'exactitude (Accuracy ) est le degré de proximité avec la vraie valeur. La précision est le
degré auquel un instrument ou un processus répétera la même valeur. En d'autres
termes, l'exactitude est le degré de véracité tandis que la précision est le degré de
reproductibilité.
l’accuracy indique le pourcentage de bonnes prédictions. C’est un très bon
indicateur parce qu’il est très simple à comprendre.
Good Luck
La précision est la fraction de prédictions correctes parmi les prédictions positives
6. interpréter le résultat suivant:
Réponse
Il s’agit du résumer de l’évaluation d’un modèle de classification ML sur un jeu de données
de 281 instances
Le modèle est arrivé à classer 279 instances d’une manière correct dont 193 comme true
négative et 86 comme true positive est à échoué dans 2 instances une comme false positive
et l’autre true négative
Le modèle est très performant selon les 6 métriques utilisées
7. Après application de plusieurs modèles sur un problème ML on a établi le tableau

comparative suivant. quel est le modèle le plus performant?(expliquez votre réponse)
8. Quelle est l'importance des paramètres des algorithmes du Machine Learning

Les paramètres des algorithmes du Machine Learning ou ce qu’on appelle les
hyperparamètres contiennent les données qui régissent le processus d'entraînement lui-
même.
un hyperparamètre est un paramètre dont la valeur est utilisée pour contrôler le processus
d'apprentissage.
Good Luck
La plupart des algorithmes d'apprentissage automatique dépendent étroitement de la
configuration manuelle de leurs hyperparamètres pour assurer une évaluation fiable de chaque
ensemble de données particulier. Le choix des valeurs de ces hyperparamètres est rarement mis
en valeur, il est présenté comme accessoire à l'algorithme mais ce choix est souvent étroitement
lié à la qualité des résultats obtenus.
9. Donner une description de votre exposé
Good Luck

Contrôle Final - Machinelearning2021

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Contrôle Final - Machinelearning2021

Transféré par

Droits d'auteur :

Formats disponibles

CLASSE Master DSBD DATE 2020/2021

L'objectif est de prédire le risque de crédit en fonction des informations fournies sur

Comment devrions-nous prendre en compte cet aspect pour trouver un bon

Le coût d’une erreur consistant à classer un crédit à risque élevé comme

L’Underfitting (sous-apprentissage), sous-entend que le modèle prédictif généré lors de la phase

Il existe deux techniques importantes pour maitriser le underfitting

1. Diminuer la régularisation. La régularisation est généralement utilisée pour réduire la

An effective way to handle imbalanced data is to downsample and upweight the

 Downsampling (in this context) means training on a disproportionately low subset of

The weight should be equal to the factor you used to downsample:

{example weight} = {original example weight} × {downsampling factor}

5. Expliquer la différence entre précision et Accuracy?

6. interpréter le résultat suivant:

7. Après application de plusieurs modèles sur un problème ML on a établi le tableau

8. Quelle est l'importance des paramètres des algorithmes du Machine Learning

9. Donner une description de votre exposé

Vous aimerez peut-être aussi