Vous êtes sur la page 1sur 6

Contrôle final

CLASSE Master DSBD DATE 2020/2021


MATIERE Machine learning DUREE 1h30
DOCUMENTS Autorisés N
PROFESSEUR BENLAHMAR EL HABIB
Internet Autorisés N

Partie 1
Question 1 : Classification des risques de crédit
La direction décide d'explorer l'utilisation de l'apprentissage automatique pour aider
ses employés à prendre des décisions lors de l’évaluation du risque de crédit de
leurs clients 

L'objectif est de prédire le risque de crédit en fonction des informations fournies sur


une demande de crédit. Le problème de classification dans cette expérience est
sensible au coût, car le coût d'une mauvaise classification des échantillons positifs est
cinq fois supérieur au coût d'une mauvaise classification des échantillons négatifs.

Comment devrions-nous prendre en compte cet aspect pour trouver un bon


modèle ?

Réponse

Le coût d’une erreur consistant à classer un crédit à risque élevé comme


étant à faible risque est cinq  fois plus élevé que celui de l’erreur consistant
à classer un crédit à faible risque comme étant à risque élevé. Pour tenir
compte de cela, nous devons générer un nouveau jeu de données qui
reflète cette fonction de coût. Dans le nouveau jeu de données, chaque
exemple à haut risque sera répliqué cinq fois.
Question 2
La régression logistique est une technique assez populaire en apprentissage automatique
pour classer les données en deux catégories. Cette technique s'appuie sur la régression
linéaire en utilisant le même modèle linéaire, mais il est suivi par la fonction sigmoïde qui
convertit la sortie du modèle linéaire à une valeur comprise entre 0 et 1. Cette valeur peut
alors être interprété comme une probabilité. Ceci est généralement représenté comme :

Où Xin comme son nom l'indique est le scalaire d'entrée (qui est également la sortie du
modèle linéaire) et xout est le scalaire de sortie.

Good Luck
Si l'erreur renvoyée à xout est ∂E/∂xout , écrivez l'expression pour ∂E/∂xin en termes de
∂E/∂xout

Réponse

Partie 2
1. Expliquer les deux phénomène under-fitting et over-fitting? Comment les maitrisés?

Réponse :
L’Overfitting (sur-apprentissage) désigne le fait que le modèle prédictif produit par l’algorithme de
Machine Learning s’adapte bien au Training Set. un modèle trop spécialisé sur les données
du Training Set et qui se généralisera mal. le modèle prédictif pourra donner de très bonnes
prédictions sur les données du Training Set (les données qu’il a déjà “vues” et auxquelles il s’y
est adapté), mais il prédira mal sur des données qu’il n’a pas encore vues lors de sa phase
d’apprentissage.
On dit que la fonction prédictive se généralise mal. Et que le modèle souffre d’Overfitting.
Il existe deux techniques importantes que vous pouvez utiliser lors de l'évaluation des
algorithmes d'apprentissage automatique pour limiter le surapprentissage :
1. Utilisez une technique de rééchantillonnage pour estimer la précision du modèle.
2. Retenir un ensemble de données de validation.
3. Cross-validation. Cross-validation is a powerful preventative measure against
overfitting. ...
4. Train with more data. It won't work every time, but training with more data can
help algorithms detect the signal better. ...
5. Remove features. ...
6. Early stopping. ...
7. Regularization. ...
8. Ensembling.

L’Underfitting (sous-apprentissage), sous-entend que le modèle prédictif généré lors de la phase


d’apprentissage, s’adapte mal au Training Set. le modèle prédictif n’arrive même pas à capturer
les corrélations du Training Set. Par conséquent, le coût d’erreur en phase d’apprentissage reste

Good Luck
grand.  Bien évidemment, le modèle prédictif ne se généralisera pas bien non plus sur les
données qu’il n’a pas encore vu. Finalement, le modèle ne sera viable car les erreurs de
prédictions seront grandes. Dans ce cas de figure, on dit que le modèle souffre d’ Underfitting. On
dit également qu’il souffre d’un grand Bias (biais).

Il existe deux techniques importantes pour maitriser le underfitting

1. Diminuer la régularisation. La régularisation est généralement utilisée pour réduire la


variance d'un modèle en appliquant une pénalité aux paramètres d'entrée ayant les plus
grands coefficients. ...
2. Augmentez la durée de l'entraînement. ...
3. Sélection des caractéristiques.

2. what is Reliability of Machine learning? and Why bother about Machine Learning models
reliability?
Réponse
Voir le cours
3. you may have a 2-class (binary) classification problem with 100 instances (rows). A total
of 95 instances are labeled with Class-1 and the remaining 5 instances are labeled with
Class-2.
3.1. How do you deal with this highly imbalanced data?

Réponse

An effective way to handle imbalanced data is to downsample and upweight the


majority class.:

 Downsampling (in this context) means training on a disproportionately low subset of


the majority class examples.
 Upweighting means adding an example weight to the downsampled class equal to
the factor by which you downsampled.
Downsample the majority class. Consider again our example of this data set, with 5 class
2 to 95 class1. We can downsample by a factor of 20, taking 1/10 class1. Now about 10% of
our data is class2, which will be much better for training our model.

Upweight the downsampled class: The last step is to add example weights to the
downsampled class. Since we downsampled by a factor of 20, the example weight should be
20.

The weight should be equal to the factor you used to downsample:

 {example weight} = {original example weight} × {downsampling factor} 

Good Luck
4. Dans un jeu de données nous disposons des features suivantes:

longitude latitude
Housi total_roo total_bedr population househol median_house
ng ms ooms ds _value
age(m
ois)
114.470 34.400 190 7650.00 1901.000 1129.00 463.000 80100.0000
000 000 0000 000 0000 000 00
114.560 33.690 170 720.000 174.0000 333.000 117.000 85700.0000
000 000 000 00 000 000 00
114.570 33.640 192 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
114.470 33.630 193 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
114.570 33.640 1933 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
4.1. analyser ce jeux de données et recenser les points qui posent problème pour la
construction d'un modèle linéaire
Réponse :
la ligne 3 et 5 sont identique sauf la valeur de housting age ou il y a forte probablement
une erreur de frappe de la valeur 1933
les données sont issu de différents échelles
la variance est très faible
4.2. expliquer les différentes techniques à utiliser lors de la préparation de ces données

Réponse
On peut pas supprimer log et latt puisque le prix des apparts dépond de l’adresse
on peut pas aussi utiliser long et latt l’un séparer a l’autre donc il faut faire un cross-
feature
si on garde la dernière ligne la valeur 1933 est une valeur aberrante à remplacer par la
moyene. Mais il s’agit de le même apprtement puisque il a le meme log et latt, donc c’est
à supprimer

5. Expliquer la différence entre précision et Accuracy?


Réponse
l'exactitude (Accuracy ) est le degré de proximité avec la vraie valeur. La précision est le
degré auquel un instrument ou un processus répétera la même valeur. En d'autres
termes, l'exactitude est le degré de véracité tandis que la précision est le degré de
reproductibilité.
l’accuracy  indique le pourcentage de bonnes prédictions. C’est un très bon
indicateur parce qu’il est très simple à comprendre.

Good Luck
La précision est la fraction de prédictions correctes parmi les prédictions positives 

6. interpréter le résultat suivant:

Réponse
Il s’agit du résumer de l’évaluation d’un modèle de classification ML sur un jeu de données
de 281 instances
Le modèle est arrivé à classer 279 instances d’une manière correct dont 193 comme true
négative et 86 comme true positive est à échoué dans 2 instances une comme false positive
et l’autre true négative
Le modèle est très performant selon les 6 métriques utilisées

7. Après application de plusieurs modèles sur un problème ML on a établi le tableau


comparative suivant. quel est le modèle le plus performant?(expliquez votre réponse)

8. Quelle est l'importance des paramètres des algorithmes du Machine Learning


Les paramètres des algorithmes du Machine Learning ou ce qu’on appelle les
hyperparamètres contiennent les données qui régissent le processus d'entraînement lui-
même.
un hyperparamètre est un paramètre dont la valeur est utilisée pour contrôler le processus
d'apprentissage.

Good Luck
La plupart des algorithmes d'apprentissage automatique dépendent étroitement de la
configuration manuelle de leurs hyperparamètres pour assurer une évaluation fiable de chaque
ensemble de données particulier. Le choix des valeurs de ces hyperparamètres est rarement mis
en valeur, il est présenté comme accessoire à l'algorithme mais ce choix est souvent étroitement
lié à la qualité des résultats obtenus.

9. Donner une description de votre exposé

Good Luck

Vous aimerez peut-être aussi