Académique Documents
Professionnel Documents
Culture Documents
Partie 1
Question 1 : Classification des risques de crédit
La direction décide d'explorer l'utilisation de l'apprentissage automatique pour aider
ses employés à prendre des décisions lors de l’évaluation du risque de crédit de
leurs clients
Réponse
Où Xin comme son nom l'indique est le scalaire d'entrée (qui est également la sortie du
modèle linéaire) et xout est le scalaire de sortie.
Good Luck
Si l'erreur renvoyée à xout est ∂E/∂xout , écrivez l'expression pour ∂E/∂xin en termes de
∂E/∂xout
Réponse
Partie 2
1. Expliquer les deux phénomène under-fitting et over-fitting? Comment les maitrisés?
Réponse :
L’Overfitting (sur-apprentissage) désigne le fait que le modèle prédictif produit par l’algorithme de
Machine Learning s’adapte bien au Training Set. un modèle trop spécialisé sur les données
du Training Set et qui se généralisera mal. le modèle prédictif pourra donner de très bonnes
prédictions sur les données du Training Set (les données qu’il a déjà “vues” et auxquelles il s’y
est adapté), mais il prédira mal sur des données qu’il n’a pas encore vues lors de sa phase
d’apprentissage.
On dit que la fonction prédictive se généralise mal. Et que le modèle souffre d’Overfitting.
Il existe deux techniques importantes que vous pouvez utiliser lors de l'évaluation des
algorithmes d'apprentissage automatique pour limiter le surapprentissage :
1. Utilisez une technique de rééchantillonnage pour estimer la précision du modèle.
2. Retenir un ensemble de données de validation.
3. Cross-validation. Cross-validation is a powerful preventative measure against
overfitting. ...
4. Train with more data. It won't work every time, but training with more data can
help algorithms detect the signal better. ...
5. Remove features. ...
6. Early stopping. ...
7. Regularization. ...
8. Ensembling.
Good Luck
grand. Bien évidemment, le modèle prédictif ne se généralisera pas bien non plus sur les
données qu’il n’a pas encore vu. Finalement, le modèle ne sera viable car les erreurs de
prédictions seront grandes. Dans ce cas de figure, on dit que le modèle souffre d’ Underfitting. On
dit également qu’il souffre d’un grand Bias (biais).
2. what is Reliability of Machine learning? and Why bother about Machine Learning models
reliability?
Réponse
Voir le cours
3. you may have a 2-class (binary) classification problem with 100 instances (rows). A total
of 95 instances are labeled with Class-1 and the remaining 5 instances are labeled with
Class-2.
3.1. How do you deal with this highly imbalanced data?
Réponse
Upweight the downsampled class: The last step is to add example weights to the
downsampled class. Since we downsampled by a factor of 20, the example weight should be
20.
Good Luck
4. Dans un jeu de données nous disposons des features suivantes:
longitude latitude
Housi total_roo total_bedr population househol median_house
ng ms ooms ds _value
age(m
ois)
114.470 34.400 190 7650.00 1901.000 1129.00 463.000 80100.0000
000 000 0000 000 0000 000 00
114.560 33.690 170 720.000 174.0000 333.000 117.000 85700.0000
000 000 000 00 000 000 00
114.570 33.640 192 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
114.470 33.630 193 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
114.570 33.640 1933 1501.00 337.0000 515.000 226.000 73400.0000
000 000 0000 00 000 000 00
4.1. analyser ce jeux de données et recenser les points qui posent problème pour la
construction d'un modèle linéaire
Réponse :
la ligne 3 et 5 sont identique sauf la valeur de housting age ou il y a forte probablement
une erreur de frappe de la valeur 1933
les données sont issu de différents échelles
la variance est très faible
4.2. expliquer les différentes techniques à utiliser lors de la préparation de ces données
Réponse
On peut pas supprimer log et latt puisque le prix des apparts dépond de l’adresse
on peut pas aussi utiliser long et latt l’un séparer a l’autre donc il faut faire un cross-
feature
si on garde la dernière ligne la valeur 1933 est une valeur aberrante à remplacer par la
moyene. Mais il s’agit de le même apprtement puisque il a le meme log et latt, donc c’est
à supprimer
Good Luck
La précision est la fraction de prédictions correctes parmi les prédictions positives
Réponse
Il s’agit du résumer de l’évaluation d’un modèle de classification ML sur un jeu de données
de 281 instances
Le modèle est arrivé à classer 279 instances d’une manière correct dont 193 comme true
négative et 86 comme true positive est à échoué dans 2 instances une comme false positive
et l’autre true négative
Le modèle est très performant selon les 6 métriques utilisées
Good Luck
La plupart des algorithmes d'apprentissage automatique dépendent étroitement de la
configuration manuelle de leurs hyperparamètres pour assurer une évaluation fiable de chaque
ensemble de données particulier. Le choix des valeurs de ces hyperparamètres est rarement mis
en valeur, il est présenté comme accessoire à l'algorithme mais ce choix est souvent étroitement
lié à la qualité des résultats obtenus.
Good Luck