Questionnaire Machine Learning

«apprentissage machine»), apprentissage artificiel ou
apprentissage statistique est un champ d'étude de l'intelligence

artificielle qui se fonde sur des approches mathématiques et
statistiques pour donner aux ordinateurs la capacité d'«apprendre»
à partir de données, c'est-à-dire d'améliorer leurs performances à
résoudre des tâches sans être explicitement programmés pour
chacune.
1- Qu'entendez-vous par Machine learning ?
Le Machine Learning est une branche de l’Intelligence Artificielle

qui se base sur des méthodes statistiques et des algorithmes pour
permettre aux machines (les ordinateurs) d’apprendre des données
structurées du passé pour prédire, classifier ou détecter.
2- Definir les librairies suivantes en Machine Learning
a – Pandas: Pandas est une bibliothèque écrite pour le

langage de programmation Python permettant la manipulation et
l'analyse des données. Elle propose en particulier des structures de
données et des opérations de manipulation de tableaux numériques
et de séries temporelles,
b – numpy: NumPy est une bibliothèque pour langage de
programmation Python, destinée à manipuler des matrices ou
tableaux multidimensionnels ainsi que des fonctions
mathématiques opérant sur ces tableaux,
c – sklearnS: pour cikit-learn est une bibliothèque libre Python
destinée à l'apprentissage automatique. Elle est développée par de
nombreux contributeurs notamment dans le monde académique
par des instituts français d'enseignement supérieur et de recherche,
d – matplotlib: est une bibliothèque du langage de
programmation Python destinée à tracer et visualiser des données
sous formes de graphiques. Elle peut être combinée avec les
bibliothèques python de calcul scientifique NumPy et SciPy.
3- Quelles sont les trois étapes de la construction d'un modèle en

apprentissage automatique?
Les trois étapes de la construction d’un modèle en apprentissage

automatique sont: entraînement, test et validation.
4- Qu'est-ce qu'un «ensemble d'entraînement» et un «ensemble de

test» dans un modèle d'apprentissage automatique? Quelle
quantité de données allouerez-vous à vos ensembles
d'entraînement, de validation et de test?
Les données d'entraînement serviront à entraîner le ou les

algorithmes choisis ;
Les données de test seront utilisées pour vérifier la performance
du résultat .
On donne 20 pourcents à la machine et les 80 restent pour le test.

Un ensemble de données d'apprentissage est un ensemble de
données d'exemples utilisé pendant le processus d'apprentissage et
est utilisé pour ajuster les paramètres (par exemple, les poids) d'un
classificateur , par exemple .
Un ensemble de données de test est un ensemble de données qui
est indépendante de l'ensemble des données de formation, mais
qui suit la même distribution de probabilité que l'ensemble de
données de formation.
5- Différencier l'apprentissage automatique supervisé et non

supervisé.
Supervisé: toutes les données sont étiquetées et les algorithmes

apprennent à prédire le résultat des données d'entrée.
Non supervisé: toutes les données ne sont pas étiquetées et les
algorithmes apprennent la structure inhérente à partir des données
en entrée
dans le premier cas un chercheur est là pour “guider” l’algorithme
sur la voie de l’apprentissage en lui fournissant des exemples qu’il
estime probants après les avoir préalablement étiquetés des
résultats attendus. Alors que
Dans le cas de l’apprentissage non supervisé, l’apprentissage par
la machine se fait de façon totalement autonome. Des données
sont alors communiquées à la machine sans lui fournir les
exemples de résultats attendus en sortie.
6) Qu'est-ce que l'apprentissage automatique semi-supervisé?

L'apprentissage semi-supervisé est une classe de techniques
d'apprentissage automatique qui utilise un ensemble de données
étiquetées et non étiquetées.
7) Différencier apprentissage inductif et apprentissage déductif ?
Une méthode inductive part de l'observation d'un corpus pour se

rendre à la règle, alors qu'une méthode déductive part de la règle
pour se rendre au corpus.
(Ensemble fini de textes choisi comme base d'une étude.)
8) Quelle est la signification du surajustement (overfitting) dans
l'apprentissage automatique?
L'overfitting (parfois appelé surapprentissage ou sur-ajustement

en français) désigne un biais statistique récurrent en machine
learning.
Le sur-ajustement est le résultat d'un modèle trop complexe avec
trop de paramètres. Un modèle surajusté est inexact car la
tendance ne reflète pas la réalité des données.
L’overfitting est un problème qui est souvent rencontrés en
machine learning. Il survient lorsque notre modèle essaye de trop
coller aux données d’entraînements.
9) Pourquoi le surajustement (overfitting) se produit-il ?

le sur-ajustement se produit lorsqu'un modèle essaie de prédire
une tendance des données trop bruyantes.
Il y a surapprentissage lorsqu'un modèle, trop proche de données
particulières, ne peut plus être généralisé.
10) Quelle est la méthode pour éviter le surajustement

(overfitting)?
Une des méthodes les plus efficaces pour éviter l’overfitting est la
cross validation (validation croisée en français);
L’ajout des données d’entraînements;

Retirer des features;
Méthodes de régularisations;
Commencer par concevoir des modèles simples;
L’early stopping.
11) En quoi le Machine Learning diffère-t-il du Deep Learning ?
Le Machine learning (apprentissage automatique) et le Deep

learning (apprentissage profond)
La différence entre Machine Learning et Deep Learning réside

dans le fait que les algorithmes de Machine Learning vont traiter
des données quantitatives et structurées (des valeurs numériques),
lorsque ceux de Deep Learning traiteront des données non-
structurées, comme le son, le texte
Le Machine learning (apprentissage automatique) est la

technologie la plus ancienne et la plus simple. Elle s’appuie sur un
algorithme qui adapte lui-même le système à partir des retours
faits par l’humain. La mise en place de cette technologie implique
l’existence de données organisées. Le système est ensuite alimenté
par des données structurées et catégorisées lui permettant de
comprendre comment classer de nouvelles données similaires. En
fonction de ce classement, le système exécute ensuite les actions
programmées. Il sait par exemple identifier si une photo montre un
chien ou un chat et classer le document dans le dossier
correspondant.
Après une première phase d’utilisation, l’algorithme est optimisé à
partir des feedbacks du développeur, qui informent le système des
classifications erronées et lui indiquent les bonnes catégories.
Le Deep learning (apprentissage profond) n’a pas besoin de
données structurées. Le système fonctionne à partir de plusieurs
couches de réseaux neuronaux, qui combinent différents
algorithmes en s’inspirant du cerveau humain. Ainsi, le système
est capable de travailler à partir de données non structurées.
12) En quoi KNN est-il différent de k-means ?
D'une part, KNN fait appel à un mode d'apprentissage supervisé :

les données doivent être étiquetées en amont. D'autre part, la
méthode KNN est surtout utilisée pour les problèmes de
classification et de régression, alors que K-means sert
exclusivement au partitionnement de données.
13) Quels sont les différents types de méthodes algorithmiques en

Machine Learning ?
L'apprentissage avec supervision. ...

Le Machine Learning sans supervision. ...
Le Machine Learning par renforcement. ...
Perception. ...
L'arbre de décision. ...
La régression linéaire. ...
La régression logistique. ...
K-Means
14) Qu'entendez-vous par technique d'apprentissage par

renforcement?
Le renforcement learning ou apprentissage par renforcement

est une technique de machine learning qui consiste à entraîner des
modèles d'intelligence artificielle afin de les rendre plus
autonomes. Il s'agit d'une science de la prise de décision.
15) En quoi la classification et la régression diffèrent-elles ?

La classification prédit des données non ordonnées tandis que la
régression prédit des données ordonnées. La régression peut être
évaluée en utilisant l'erreur quadratique moyenne. Au contraire, la
classification est évaluée en mesurant la précision.
16) Qu'entendez-vous par apprentissage d'ensemble ?
L'apprentissage en ensemble est l'utilisation d'algorithmes et

d'outils dans l'apprentissage automatique et d'autres disciplines,
pour former un ensemble collaboratif où plusieurs méthodes sont
plus efficaces qu'une seule méthode d'apprentissage.
17) Qu'est-ce qu'une sélection de modèle en Machine Learning ?
18) Quelles sont les étapes de construction des hypothèses ou du

modèle en apprentissage automatique ?
Définition du problème.
Préparer les données.
Explorer les données et formuler une hypothèse.
Générer votre modèle d'apprentissage automatique.
Évaluer et affiner votre modèle.
19) Selon vous, quelle est l'approche standard de l'apprentissage

supervisé ?
Importer un Dataset. ...
Développer un Modèle aux paramètres aléatoires.
Développer une Fonction Coût qui mesure les erreurs entre le
modèle et le Dataset.
Développer un Algorithme d'apprentissage pour trouver les
paramètres du modèle qui minimisent la Fonction Coût.
20) Quels sont les moyens courants de gérer les données

manquantes dans un jeu de données ?
21) Qu'entendez-vous par Inductive Logique Programmation

(ILP)?
La programmation logique inductive (ILP de l'anglais

Inductive Logic Programming) est un sous-domaine de
l'apprentissage automatique basée sur la programmation logique.
À partir d'un ensemble de connaissances préalables et de

résultats attendus, divisés en exemples positifs et négatifs, un
système ILP déduit un programme logique hypothétique qui
confirme les exemples positifs et infirme les exemples négatifs.
On peut résumer le principe de fonctionnement d'un système
ILP par le schéma suivant :
• exemples positifs + exemples négatifs + connaissances
préalables ⇒ programme hypothétique.
on utilise la programmation logique pour recuperer le modèle
22) Quelles sont les étapes nécessaires impliquées dans le

projet d'apprentissage automatique ?
les étapes nécessaires impliquées dans le projet d'apprentissage

automatique sont:
• Définition du problème.
• Préparer les données.
• Explorer les données et formuler une hypothèse.
• Générer votre modèle d'apprentissage automatique.
• Évaluer et affiner votre modèle.
23) Décrivez la Précision et le Rappel (Precision and Recall)?
la précision est la proportion des items pertinents parmi

l'ensemble des items proposés ; le rappel est la proportion des
items pertinents proposés parmi l'ensemble des items pertinents.
Les deux sont utilisés pour mesurer et rechercher la
qualité(niveau) de pertinence.
24) Qu'entendez-vous par arbre de décision dans l'apprentissage

automatique ?
L'apprentissage par arbre de décision est une méthode classique

en apprentissage automatique. Son but est de créer un modèle
qui prédit la valeur d'une variable-cible depuis la valeur de
plusieurs variables d'entrée.(x_train, y_train)
Un arbre de décision est un outil d'aide à la décision représentant

un ensemble de choix sous la forme graphique d'un arbre.
Un arbre de décision est une structure graphique sous forme d’un
arbre (feuilles et branches) qui illustre un ensemble de choix pour
aider à la prise de décision et classer un vecteur d’entrée X.
25) Quelles sont les fonctions de l'apprentissage supervisé ?

✔ La régression linéaire
✔ et la classification
✔ prédiction.
En machine learning, l'apprentissage supervisé consiste à

entrainer un modèle à partir de données préalablement étiquetées
ou annotées. Il est utilisé aussi bien en traitement du langage qu'en
vision par ordinateur ou analyse prédictive.
26) Quelles sont les fonctions de l'apprentissage non supervisé ?
L'apprentissage non supervisé est une branche du machine

learning, caractérisée par l'analyse et le regroupement de données
non-étiquetées. Pour cela, ces algorithmes apprennent à trouver
des schémas ou des groupes dans les données, avec très peu
d'intervention humaine.
K-means
Dimensionality Reduction (Réduction de la dimensionnalité)
Principal Component Analysis (Analyse des composants
principaux)
Singular Value Decomposition (Décomposition en valeur
singulière)
Independent Component Analysis (Analyse en composantes
indépendantes)
Distribution models (Modèles de distribution)
Hierarchical clustering (Classification hiérarchique)
27) Qu'entendez-vous par apprentissage automatique indépendant

d'un algorithme ?
Est une forme de ILP
28) Décrire le classifieur en machine learning.
En apprentissage automatique, les classifieurs linéaires sont une

famille d'algorithmes de classement statistique. Le rôle d'un
classifieur est de classer dans des groupes (des classes) les
échantillons qui ont des propriétés similaires, mesurées sur des
observations. Un classifieur linéaire est un type particulier de
classifieur, qui calcule la décision par combinaison linéaire des
échantillon.
29) Qu'entendez-vous par programmation génétique ?
La programmation génétique est une méthode automatique
inspirée par le mécanisme de la sélection naturelle tel qu'il a été
établi par Charles Darwin pour expliquer l'adaptation plus ou
moins optimale des organismes à leur milieu. Elle a pour but de
trouver par approximations successives des programmes
répondant au mieux à une tâche donnée
est un algorithme évolutionniste, qui permet d’optimiser peu à peu

une population d'autres programmes pour augmenter leur degré
d'adaptation (fitness) à réaliser une tâche demandée par un
utilisateur.
30) Qu'est-ce que Support Vector Machine (SVM) dans

l'apprentissage automatique ? Quelles sont les méthodes de
classification que SVM peut gérer ?
=>Les machines à vecteurs de support ou séparateurs à vaste

marge (en anglais support-vector machine, SVM) sont un
ensemble de techniques d'apprentissage supervisé destinées à
résoudre des problèmes de discrimination et de régression. Les
SVM sont une généralisation des classifieurs linéaires.
=>Les machines à vecteurs de support, ou support vector

machine (SVM), sont des modèles de machine learning supervisés
centrés sur la résolution de problèmes de discrimination et de
régression mathématiques.
31) Comment allez-vous expliquer une liste chaînée et un
tableau ?
Une liste chaînée est un assemblage de structures liées par des

pointeurs.
un tableau est une structure de données qui sert à organiser des
informations, de la même manière que sur une feuille de papier.
32) Qu'entendez-vous par la matrice de confusion ?
En apprentissage automatique supervisé, la matrice de confusion

est une matrice qui mesure la qualité d'un système de
classification.
33) Expliquez le vrai positif, le vrai négatif, le faux positif et le

faux négatif dans la matrice de confusion avec un exemple.
Reprenons notre exemple du tunnel.

Nous avons deux choix :
• une voiture sort du tunnel
• une moto sort du tunnel
L’objectif ici, est de mesurer la performance de notre prédiction
sur ces deux choix.
Par défaut, on va dire que la voiture correspond au choix « positif
» et la moto au choix « négatif ».
Pour chacun de ces choix, soit notre prédiction est vrai (bonne)
soit elle est fausse (mauvaise).
Par exemple, on prédit qu’une voiture va sortir du tunnel. On
se place donc dans le choix « positif ».
Une voiture sort effectivement du tunnel, notre prédiction est
donc vrai. C’est un Vrai Positif.
Si au contraire notre prédiction était fausse (une moto sort du
tunnel), on dira que c’est un Faux Positif.
Même chose pour le choix « négatif » : on prédit que c’est une
moto qui va sortir du tunnel.
Une moto sort, notre prédiction est alors vrai. C’est un Vrai
Négatif.
Mais si une voiture sort, notre prédiction est fausse. C’est un
donc un Faux Négatif.
Finalement, on a quatre résultats possible :
• une voiture sort du tunnel
• on avait prédit qu’une voiture sortirait – Vrai Positif
• on avait prédit qu’une moto sortirait – Faux Négatif
• une moto sort du tunnel
• on avait prédit qu’une voiture sortirait – Faux Positif
• on avait prédit qu’une moto sortirait – Vrai Négatif
34) Selon vous, qu'est-ce qui est le plus important entre la

précision du modèle et les performances du modèle ?
Le plus important est la précision du modèle. Car lorsque la
précision elle est bonne on obtient une meilleure performance.
35) Qu'est-ce que le bagging et le boosting ?
=>Bagging : C'est un modèle homogène d'apprenants faibles

qui apprend les uns des autres indépendamment en parallèle et les
combine pour déterminer la moyenne du modèle.
Le Bagging est une technique en intelligence artificielle qui

consiste à assembler un grand nombre d'algorithmes avec de
faibles performances individuelles pour en créer un beaucoup plus
efficace.
=> Boosting : C'est aussi un modèle homogène d'apprenants
faibles mais fonctionne différemment du Bagging
36) Quelles sont les similitudes et les différences entre le bagging

et le boosting en Machine Learning ?
bagging est un méta-algorithme ensemble d’ apprentissage

machine conçue pour améliorer la stabilité et la précision des
algorithmes d’apprentissage machine utilisés dans la classification
statistique et régression. Il diminue la variance et aide à éviter le
surapprentissage .
Le boosting est une technique de modélisation d’ensemble qui
tente de construire un classificateur fort à partir du nombre de
classificateurs faibles.
37) Qu'entendez-vous par échantillonnage en grappes ?

L’échantillonnage en grappes est un type d’échantillonnage
probabiliste. Cela signifie que, lorsqu’il est utilisé,
l’échantillonnage en grappes donne à chaque unité/personne de la
population une chance égale et connue d’être sélectionnée dans le
groupe échantillon.
38) Que savez-vous des réseaux bayésiens ?

En informatique et en statistique, un réseau bayésien est un
modèle graphique probabiliste représentant un ensemble de
variables aléatoires sous la forme d'un graphe orienté acyclique.
Intuitivement, un réseau bayésien est à la fois :
un modèle de représentation des connaissances ;

une « machine à calculer » des probabilités conditionnelles
une base pour des systèmes d'aide à la décision.
39) Quels sont les composants du programme logique bayésien ?
40) Décrire la réduction de dimension dans l'apprentissage

automatique.
La réduction de dimensionnalité consiste à récupérer des données
d'un espace de grande dimension, et à les remplacer par des
données dans un espace plus restreint. En machine learning, les
grandes dimensions nuisent à l'efficacité des systèmes
d'apprentissage automatique.
41) Pourquoi l'algorithme d'apprentissage basé sur les instances

est-il parfois appelé algorithme d'apprentissage paresseux ?
Parce qu’ils sont des systèmes qui apprennent par cœur les
exemples d’apprentissage, puis se généralisent à de nouvelles
instances en fonction d’une mesure de similarité.
Il est appelé basé sur les instances car il construit les hypothèses à
partir des instances d’apprentissage.
42) Que comprenez-vous par le score F1 ?
le F1-score est défini comme étant la moyenne harmonique de la

precision et du recall.
Le F1-score est une métrique pour évaluer la performance des

modèles de classification à 2 classes ou plus. Il est
particulièrement utilisé pour les problèmes utilisant des données
déséquilibrées comme la détection de fraudes ou la prédiction
d’incidents graves.
Le F1-score permet de résumer les valeurs de la precision et du
recall en une seule métrique. Mathématiquement.
43) Comment un arbre de décision est-il élagué ?
44) Quels sont les systèmes recommandés ?
45) Qu'entendez-vous par sous-rajustement (Underfitting)?
lorsque le modèle donne des résultats médiocres sur les données

de formation, on parle de sous-rajustement.
Le sous-ajustement est le contraire du sur-ajustement. C’est

lorsque le modèle ne se rapproche pas assez de la fonction et est
donc incapable de saisir la tendance sous-jacente des données. Il
ignore une grande partie des entités et conséquemment produit des
étiquettes incorrectes. Semblable au sur-ajustement, lorsque le
modèle reçoit de nouvelles données, il ne pourra pas généraliser
les prédictions. La raison ici est qu’il ne s’ajuste pas assez aux
données.
Le sous-ajustement se produit d’habitude lorsqu’il n’y a pas assez
de données ou lorsqu’on essaie de construire un modèle linéaire
avec des données non-linéaires. Conséquemment, le modèle est
trop simple pour faire des prédictions correctes.
46) Quand la régularisation devient-elle nécessaire en Machine

Learning ?
Le régularisation devient nécessaire en machine learning
lorsqu’on veut limiter le « surapprentissage » (overfitting) et
contrôler l'erreur de type variance pour aboutir à de meilleures
performances.
47) Qu'est-ce que la régularisation ? Quels types de problèmes la

régularisation résout-elle ?
Un mécanisme permettant de minimiser le surapprentissage.

Les problèmes sont ceux de sur-ajustement et sous-ajustement
48) Pourquoi avons-nous besoin de convertir des variables

catégorielles en facteur ? Quelles fonctions sont utilisées pour
effectuer la conversion ?
49) Pensez-vous que traiter une variable catégorielle comme une

variable continue donnerait un meilleur modèle prédictif ?
50) Comment l'apprentissage automatique est-il utilisé dans la vie
de tous les jours ?
L’apprentissage automatique est utilisée dans la vie de tous les

jours pour automatiser la prise de décision.
Avec son apprentissage continu pour améliorer ses performances,
l'apprentissage automatique est doué pour automatiser
rapidement les prises de décision. Par exemple, il peut analyser
votre comportement en ligne et vous recommander des sites web,
des produits ou des services appropriés.

Questionnaire Machine Learning

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Questionnaire Machine Learning

Transféré par

Droits d'auteur :

Formats disponibles

«apprentissage machine»), apprentissage artificiel ou

apprentissage statistique est un champ d'étude de l'intelligence

1- Qu'entendez-vous par Machine learning ?

Le Machine Learning est une branche de l’Intelligence Artificielle

2- Definir les librairies suivantes en Machine Learning

a – Pandas: Pandas est une bibliothèque écrite pour le

3- Quelles sont les trois étapes de la construction d'un modèle en

Les trois étapes de la construction d’un modèle en apprentissage

4- Qu'est-ce qu'un «ensemble d'entraînement» et un «ensemble de

Les données d'entraînement serviront à entraîner le ou les

On donne 20 pourcents à la machine et les 80 restent pour le test.

5- Différencier l'apprentissage automatique supervisé et non

Supervisé: toutes les données sont étiquetées et les algorithmes

6) Qu'est-ce que l'apprentissage automatique semi-supervisé?

7) Différencier apprentissage inductif et apprentissage déductif ?

Une méthode inductive part de l'observation d'un corpus pour se

L'overfitting (parfois appelé surapprentissage ou sur-ajustement

9) Pourquoi le surajustement (overfitting) se produit-il ?

10) Quelle est la méthode pour éviter le surajustement

L’ajout des données d’entraînements;

11) En quoi le Machine Learning diffère-t-il du Deep Learning ?

Le Machine learning (apprentissage automatique) et le Deep

La différence entre Machine Learning et Deep Learning réside

Le Machine learning (apprentissage automatique) est la

12) En quoi KNN est-il différent de k-means ?

D'une part, KNN fait appel à un mode d'apprentissage supervisé :

13) Quels sont les différents types de méthodes algorithmiques en

L'apprentissage avec supervision. ...

14) Qu'entendez-vous par technique d'apprentissage par

Le renforcement learning ou apprentissage par renforcement

15) En quoi la classification et la régression diffèrent-elles ?

16) Qu'entendez-vous par apprentissage d'ensemble ?

L'apprentissage en ensemble est l'utilisation d'algorithmes et

17) Qu'est-ce qu'une sélection de modèle en Machine Learning ?

18) Quelles sont les étapes de construction des hypothèses ou du

19) Selon vous, quelle est l'approche standard de l'apprentissage

20) Quels sont les moyens courants de gérer les données

21) Qu'entendez-vous par Inductive Logique Programmation

La programmation logique inductive (ILP de l'anglais

À partir d'un ensemble de connaissances préalables et de

22) Quelles sont les étapes nécessaires impliquées dans le

les étapes nécessaires impliquées dans le projet d'apprentissage

23) Décrivez la Précision et le Rappel (Precision and Recall)?

la précision est la proportion des items pertinents parmi

24) Qu'entendez-vous par arbre de décision dans l'apprentissage

L'apprentissage par arbre de décision est une méthode classique

Un arbre de décision est un outil d'aide à la décision représentant

25) Quelles sont les fonctions de l'apprentissage supervisé ?

En machine learning, l'apprentissage supervisé consiste à

26) Quelles sont les fonctions de l'apprentissage non supervisé ?

L'apprentissage non supervisé est une branche du machine

27) Qu'entendez-vous par apprentissage automatique indépendant

Est une forme de ILP

28) Décrire le classifieur en machine learning.

En apprentissage automatique, les classifieurs linéaires sont une

est un algorithme évolutionniste, qui permet d’optimiser peu à peu

30) Qu'est-ce que Support Vector Machine (SVM) dans

=>Les machines à vecteurs de support ou séparateurs à vaste

=>Les machines à vecteurs de support, ou support vector

Une liste chaînée est un assemblage de structures liées par des

32) Qu'entendez-vous par la matrice de confusion ?

En apprentissage automatique supervisé, la matrice de confusion

33) Expliquez le vrai positif, le vrai négatif, le faux positif et le