Vous êtes sur la page 1sur 21

«apprentissage machine»), apprentissage artificiel ou

apprentissage statistique est un champ d'étude de l'intelligence


artificielle qui se fonde sur des approches mathématiques et
statistiques pour donner aux ordinateurs la capacité d'«apprendre»
à partir de données, c'est-à-dire d'améliorer leurs performances à
résoudre des tâches sans être explicitement programmés pour
chacune.

1- Qu'entendez-vous par Machine learning ?

Le Machine Learning est une branche de l’Intelligence Artificielle


qui se base sur des méthodes statistiques et des algorithmes pour
permettre aux machines (les ordinateurs) d’apprendre des données
structurées du passé pour prédire, classifier ou détecter.

2- Definir les librairies suivantes en Machine Learning

a – Pandas: Pandas est une bibliothèque écrite pour le


langage de programmation Python permettant la manipulation et
l'analyse des données. Elle propose en particulier des structures de
données et des opérations de manipulation de tableaux numériques
et de séries temporelles,
b – numpy: NumPy est une bibliothèque pour langage de
programmation Python, destinée à manipuler des matrices ou
tableaux multidimensionnels ainsi que des fonctions
mathématiques opérant sur ces tableaux,
c – sklearnS: pour cikit-learn est une bibliothèque libre Python
destinée à l'apprentissage automatique. Elle est développée par de
nombreux contributeurs notamment dans le monde académique
par des instituts français d'enseignement supérieur et de recherche,
d – matplotlib: est une bibliothèque du langage de
programmation Python destinée à tracer et visualiser des données
sous formes de graphiques. Elle peut être combinée avec les
bibliothèques python de calcul scientifique NumPy et SciPy.

3- Quelles sont les trois étapes de la construction d'un modèle en


apprentissage automatique?

Les trois étapes de la construction d’un modèle en apprentissage


automatique sont: entraînement, test et validation.

4- Qu'est-ce qu'un «ensemble d'entraînement» et un «ensemble de


test» dans un modèle d'apprentissage automatique? Quelle
quantité de données allouerez-vous à vos ensembles
d'entraînement, de validation et de test?

Les données d'entraînement serviront à entraîner le ou les


algorithmes choisis ;
Les données de test seront utilisées pour vérifier la performance
du résultat .

On donne 20 pourcents à la machine et les 80 restent pour le test.


Un ensemble de données d'apprentissage est un ensemble de
données d'exemples utilisé pendant le processus d'apprentissage et
est utilisé pour ajuster les paramètres (par exemple, les poids) d'un
classificateur , par exemple .
Un ensemble de données de test est un ensemble de données qui
est indépendante de l'ensemble des données de formation, mais
qui suit la même distribution de probabilité que l'ensemble de
données de formation.

5- Différencier l'apprentissage automatique supervisé et non


supervisé.

Supervisé: toutes les données sont étiquetées et les algorithmes


apprennent à prédire le résultat des données d'entrée.
Non supervisé: toutes les données ne sont pas étiquetées et les
algorithmes apprennent la structure inhérente à partir des données
en entrée
dans le premier cas un chercheur est là pour “guider” l’algorithme
sur la voie de l’apprentissage en lui fournissant des exemples qu’il
estime probants après les avoir préalablement étiquetés des
résultats attendus. Alors que
Dans le cas de l’apprentissage non supervisé, l’apprentissage par
la machine se fait de façon totalement autonome. Des données
sont alors communiquées à la machine sans lui fournir les
exemples de résultats attendus en sortie.

6) Qu'est-ce que l'apprentissage automatique semi-supervisé?


L'apprentissage semi-supervisé est une classe de techniques
d'apprentissage automatique qui utilise un ensemble de données
étiquetées et non étiquetées.

7) Différencier apprentissage inductif et apprentissage déductif ?

Une méthode inductive part de l'observation d'un corpus pour se


rendre à la règle, alors qu'une méthode déductive part de la règle
pour se rendre au corpus.
(Ensemble fini de textes choisi comme base d'une étude.)
8) Quelle est la signification du surajustement (overfitting) dans
l'apprentissage automatique?

L'overfitting (parfois appelé surapprentissage ou sur-ajustement


en français) désigne un biais statistique récurrent en machine
learning.
Le sur-ajustement est le résultat d'un modèle trop complexe avec
trop de paramètres. Un modèle surajusté est inexact car la
tendance ne reflète pas la réalité des données.
L’overfitting est un problème qui est souvent rencontrés en
machine learning. Il survient lorsque notre modèle essaye de trop
coller aux données d’entraînements.

9) Pourquoi le surajustement (overfitting) se produit-il ?


le sur-ajustement se produit lorsqu'un modèle essaie de prédire
une tendance des données trop bruyantes.
Il y a surapprentissage lorsqu'un modèle, trop proche de données
particulières, ne peut plus être généralisé.

10) Quelle est la méthode pour éviter le surajustement


(overfitting)?

Une des méthodes les plus efficaces pour éviter l’overfitting est la
cross validation (validation croisée en français);

L’ajout des données d’entraînements;


Retirer des features;
Méthodes de régularisations;
Commencer par concevoir des modèles simples;
L’early stopping.

11) En quoi le Machine Learning diffère-t-il du Deep Learning ?

Le Machine learning (apprentissage automatique) et le Deep


learning (apprentissage profond)

La différence entre Machine Learning et Deep Learning réside


dans le fait que les algorithmes de Machine Learning vont traiter
des données quantitatives et structurées (des valeurs numériques),
lorsque ceux de Deep Learning traiteront des données non-
structurées, comme le son, le texte

Le Machine learning (apprentissage automatique) est la


technologie la plus ancienne et la plus simple. Elle s’appuie sur un
algorithme qui adapte lui-même le système à partir des retours
faits par l’humain. La mise en place de cette technologie implique
l’existence de données organisées. Le système est ensuite alimenté
par des données structurées et catégorisées lui permettant de
comprendre comment classer de nouvelles données similaires. En
fonction de ce classement, le système exécute ensuite les actions
programmées. Il sait par exemple identifier si une photo montre un
chien ou un chat et classer le document dans le dossier
correspondant.
Après une première phase d’utilisation, l’algorithme est optimisé à
partir des feedbacks du développeur, qui informent le système des
classifications erronées et lui indiquent les bonnes catégories.
Le Deep learning (apprentissage profond) n’a pas besoin de
données structurées. Le système fonctionne à partir de plusieurs
couches de réseaux neuronaux, qui combinent différents
algorithmes en s’inspirant du cerveau humain. Ainsi, le système
est capable de travailler à partir de données non structurées.

12) En quoi KNN est-il différent de k-means ?

D'une part, KNN fait appel à un mode d'apprentissage supervisé :


les données doivent être étiquetées en amont. D'autre part, la
méthode KNN est surtout utilisée pour les problèmes de
classification et de régression, alors que K-means sert
exclusivement au partitionnement de données.

13) Quels sont les différents types de méthodes algorithmiques en


Machine Learning ?

L'apprentissage avec supervision. ...


Le Machine Learning sans supervision. ...
Le Machine Learning par renforcement. ...
Perception. ...
L'arbre de décision. ...
La régression linéaire. ...
La régression logistique. ...
K-Means

14) Qu'entendez-vous par technique d'apprentissage par


renforcement?

Le renforcement learning ou apprentissage par renforcement


est une technique de machine learning qui consiste à entraîner des
modèles d'intelligence artificielle afin de les rendre plus
autonomes. Il s'agit d'une science de la prise de décision.

15) En quoi la classification et la régression diffèrent-elles ?


La classification prédit des données non ordonnées tandis que la
régression prédit des données ordonnées. La régression peut être
évaluée en utilisant l'erreur quadratique moyenne. Au contraire, la
classification est évaluée en mesurant la précision.

16) Qu'entendez-vous par apprentissage d'ensemble ?

L'apprentissage en ensemble est l'utilisation d'algorithmes et


d'outils dans l'apprentissage automatique et d'autres disciplines,
pour former un ensemble collaboratif où plusieurs méthodes sont
plus efficaces qu'une seule méthode d'apprentissage.

17) Qu'est-ce qu'une sélection de modèle en Machine Learning ?

18) Quelles sont les étapes de construction des hypothèses ou du


modèle en apprentissage automatique ?

Définition du problème.
Préparer les données.
Explorer les données et formuler une hypothèse.
Générer votre modèle d'apprentissage automatique.
Évaluer et affiner votre modèle.

19) Selon vous, quelle est l'approche standard de l'apprentissage


supervisé ?
Importer un Dataset. ...
Développer un Modèle aux paramètres aléatoires.
Développer une Fonction Coût qui mesure les erreurs entre le
modèle et le Dataset.
Développer un Algorithme d'apprentissage pour trouver les
paramètres du modèle qui minimisent la Fonction Coût.

20) Quels sont les moyens courants de gérer les données


manquantes dans un jeu de données ?

21) Qu'entendez-vous par Inductive Logique Programmation


(ILP)?

La programmation logique inductive (ILP de l'anglais


Inductive Logic Programming) est un sous-domaine de
l'apprentissage automatique basée sur la programmation logique.

À partir d'un ensemble de connaissances préalables et de


résultats attendus, divisés en exemples positifs et négatifs, un
système ILP déduit un programme logique hypothétique qui
confirme les exemples positifs et infirme les exemples négatifs.
On peut résumer le principe de fonctionnement d'un système
ILP par le schéma suivant :
• exemples positifs + exemples négatifs + connaissances
préalables ⇒ programme hypothétique.
on utilise la programmation logique pour recuperer le modèle

22) Quelles sont les étapes nécessaires impliquées dans le


projet d'apprentissage automatique ?

les étapes nécessaires impliquées dans le projet d'apprentissage


automatique sont:
• Définition du problème.
• Préparer les données.
• Explorer les données et formuler une hypothèse.
• Générer votre modèle d'apprentissage automatique.
• Évaluer et affiner votre modèle.

23) Décrivez la Précision et le Rappel (Precision and Recall)?

la précision est la proportion des items pertinents parmi


l'ensemble des items proposés ; le rappel est la proportion des
items pertinents proposés parmi l'ensemble des items pertinents.
Les deux sont utilisés pour mesurer et rechercher la
qualité(niveau) de pertinence.

24) Qu'entendez-vous par arbre de décision dans l'apprentissage


automatique ?

L'apprentissage par arbre de décision est une méthode classique


en apprentissage automatique. Son but est de créer un modèle
qui prédit la valeur d'une variable-cible depuis la valeur de
plusieurs variables d'entrée.(x_train, y_train)

Un arbre de décision est un outil d'aide à la décision représentant


un ensemble de choix sous la forme graphique d'un arbre.
Un arbre de décision est une structure graphique sous forme d’un
arbre (feuilles et branches) qui illustre un ensemble de choix pour
aider à la prise de décision et classer un vecteur d’entrée X.

25) Quelles sont les fonctions de l'apprentissage supervisé ?


✔ La régression linéaire
✔ et la classification
✔ prédiction.

En machine learning, l'apprentissage supervisé consiste à


entrainer un modèle à partir de données préalablement étiquetées
ou annotées. Il est utilisé aussi bien en traitement du langage qu'en
vision par ordinateur ou analyse prédictive.

26) Quelles sont les fonctions de l'apprentissage non supervisé ?

L'apprentissage non supervisé est une branche du machine


learning, caractérisée par l'analyse et le regroupement de données
non-étiquetées. Pour cela, ces algorithmes apprennent à trouver
des schémas ou des groupes dans les données, avec très peu
d'intervention humaine.
K-means
Dimensionality Reduction (Réduction de la dimensionnalité)
Principal Component Analysis (Analyse des composants
principaux)
Singular Value Decomposition (Décomposition en valeur
singulière)
Independent Component Analysis (Analyse en composantes
indépendantes)
Distribution models (Modèles de distribution)
Hierarchical clustering (Classification hiérarchique)

27) Qu'entendez-vous par apprentissage automatique indépendant


d'un algorithme ?

Est une forme de ILP

28) Décrire le classifieur en machine learning.

En apprentissage automatique, les classifieurs linéaires sont une


famille d'algorithmes de classement statistique. Le rôle d'un
classifieur est de classer dans des groupes (des classes) les
échantillons qui ont des propriétés similaires, mesurées sur des
observations. Un classifieur linéaire est un type particulier de
classifieur, qui calcule la décision par combinaison linéaire des
échantillon.
29) Qu'entendez-vous par programmation génétique ?
La programmation génétique est une méthode automatique
inspirée par le mécanisme de la sélection naturelle tel qu'il a été
établi par Charles Darwin pour expliquer l'adaptation plus ou
moins optimale des organismes à leur milieu. Elle a pour but de
trouver par approximations successives des programmes
répondant au mieux à une tâche donnée

est un algorithme évolutionniste, qui permet d’optimiser peu à peu


une population d'autres programmes pour augmenter leur degré
d'adaptation (fitness) à réaliser une tâche demandée par un
utilisateur.

30) Qu'est-ce que Support Vector Machine (SVM) dans


l'apprentissage automatique ? Quelles sont les méthodes de
classification que SVM peut gérer ?

=>Les machines à vecteurs de support ou séparateurs à vaste


marge (en anglais support-vector machine, SVM) sont un
ensemble de techniques d'apprentissage supervisé destinées à
résoudre des problèmes de discrimination et de régression. Les
SVM sont une généralisation des classifieurs linéaires.

=>Les machines à vecteurs de support, ou support vector


machine (SVM), sont des modèles de machine learning supervisés
centrés sur la résolution de problèmes de discrimination et de
régression mathématiques.
31) Comment allez-vous expliquer une liste chaînée et un
tableau ?

Une liste chaînée est un assemblage de structures liées par des


pointeurs.
un tableau est une structure de données qui sert à organiser des
informations, de la même manière que sur une feuille de papier.

32) Qu'entendez-vous par la matrice de confusion ?

En apprentissage automatique supervisé, la matrice de confusion


est une matrice qui mesure la qualité d'un système de
classification.

33) Expliquez le vrai positif, le vrai négatif, le faux positif et le


faux négatif dans la matrice de confusion avec un exemple.

Reprenons notre exemple du tunnel.


Nous avons deux choix :
• une voiture sort du tunnel
• une moto sort du tunnel
L’objectif ici, est de mesurer la performance de notre prédiction
sur ces deux choix.
Par défaut, on va dire que la voiture correspond au choix « positif
» et la moto au choix « négatif ».
Pour chacun de ces choix, soit notre prédiction est vrai (bonne)
soit elle est fausse (mauvaise).
Par exemple, on prédit qu’une voiture va sortir du tunnel. On
se place donc dans le choix « positif ».
Une voiture sort effectivement du tunnel, notre prédiction est
donc vrai. C’est un Vrai Positif.
Si au contraire notre prédiction était fausse (une moto sort du
tunnel), on dira que c’est un Faux Positif.
Même chose pour le choix « négatif » : on prédit que c’est une
moto qui va sortir du tunnel.
Une moto sort, notre prédiction est alors vrai. C’est un Vrai
Négatif.
Mais si une voiture sort, notre prédiction est fausse. C’est un
donc un Faux Négatif.
Finalement, on a quatre résultats possible :
• une voiture sort du tunnel
• on avait prédit qu’une voiture sortirait – Vrai Positif
• on avait prédit qu’une moto sortirait – Faux Négatif
• une moto sort du tunnel
• on avait prédit qu’une voiture sortirait – Faux Positif
• on avait prédit qu’une moto sortirait – Vrai Négatif

34) Selon vous, qu'est-ce qui est le plus important entre la


précision du modèle et les performances du modèle ?
Le plus important est la précision du modèle. Car lorsque la
précision elle est bonne on obtient une meilleure performance.

35) Qu'est-ce que le bagging et le boosting ?

=>Bagging : C'est un modèle homogène d'apprenants faibles


qui apprend les uns des autres indépendamment en parallèle et les
combine pour déterminer la moyenne du modèle.

Le Bagging est une technique en intelligence artificielle qui


consiste à assembler un grand nombre d'algorithmes avec de
faibles performances individuelles pour en créer un beaucoup plus
efficace.
=> Boosting : C'est aussi un modèle homogène d'apprenants
faibles mais fonctionne différemment du Bagging

36) Quelles sont les similitudes et les différences entre le bagging


et le boosting en Machine Learning ?

bagging est un méta-algorithme ensemble d’ apprentissage


machine conçue pour améliorer la stabilité et la précision des
algorithmes d’apprentissage machine utilisés dans la classification
statistique et régression. Il diminue la variance et aide à éviter le
surapprentissage .
Le boosting est une technique de modélisation d’ensemble qui
tente de construire un classificateur fort à partir du nombre de
classificateurs faibles.

37) Qu'entendez-vous par échantillonnage en grappes ?


L’échantillonnage en grappes est un type d’échantillonnage
probabiliste. Cela signifie que, lorsqu’il est utilisé,
l’échantillonnage en grappes donne à chaque unité/personne de la
population une chance égale et connue d’être sélectionnée dans le
groupe échantillon.

38) Que savez-vous des réseaux bayésiens ?


En informatique et en statistique, un réseau bayésien est un
modèle graphique probabiliste représentant un ensemble de
variables aléatoires sous la forme d'un graphe orienté acyclique.
Intuitivement, un réseau bayésien est à la fois :

un modèle de représentation des connaissances ;


une « machine à calculer » des probabilités conditionnelles
une base pour des systèmes d'aide à la décision.

39) Quels sont les composants du programme logique bayésien ?

40) Décrire la réduction de dimension dans l'apprentissage


automatique.
La réduction de dimensionnalité consiste à récupérer des données
d'un espace de grande dimension, et à les remplacer par des
données dans un espace plus restreint. En machine learning, les
grandes dimensions nuisent à l'efficacité des systèmes
d'apprentissage automatique.

41) Pourquoi l'algorithme d'apprentissage basé sur les instances


est-il parfois appelé algorithme d'apprentissage paresseux ?

Parce qu’ils sont des systèmes qui apprennent par cœur les
exemples d’apprentissage, puis se généralisent à de nouvelles
instances en fonction d’une mesure de similarité.

Il est appelé basé sur les instances car il construit les hypothèses à
partir des instances d’apprentissage.

42) Que comprenez-vous par le score F1 ?

le F1-score est défini comme étant la moyenne harmonique de la


precision et du recall.

Le F1-score est une métrique pour évaluer la performance des


modèles de classification à 2 classes ou plus. Il est
particulièrement utilisé pour les problèmes utilisant des données
déséquilibrées comme la détection de fraudes ou la prédiction
d’incidents graves.
Le F1-score permet de résumer les valeurs de la precision et du
recall en une seule métrique. Mathématiquement.

43) Comment un arbre de décision est-il élagué ?

44) Quels sont les systèmes recommandés ?

45) Qu'entendez-vous par sous-rajustement (Underfitting)?

lorsque le modèle donne des résultats médiocres sur les données


de formation, on parle de sous-rajustement.

Le sous-ajustement est le contraire du sur-ajustement. C’est


lorsque le modèle ne se rapproche pas assez de la fonction et est
donc incapable de saisir la tendance sous-jacente des données. Il
ignore une grande partie des entités et conséquemment produit des
étiquettes incorrectes. Semblable au sur-ajustement, lorsque le
modèle reçoit de nouvelles données, il ne pourra pas généraliser
les prédictions. La raison ici est qu’il ne s’ajuste pas assez aux
données.
Le sous-ajustement se produit d’habitude lorsqu’il n’y a pas assez
de données ou lorsqu’on essaie de construire un modèle linéaire
avec des données non-linéaires. Conséquemment, le modèle est
trop simple pour faire des prédictions correctes.

46) Quand la régularisation devient-elle nécessaire en Machine


Learning ?
Le régularisation devient nécessaire en machine learning
lorsqu’on veut limiter le « surapprentissage » (overfitting) et
contrôler l'erreur de type variance pour aboutir à de meilleures
performances.

47) Qu'est-ce que la régularisation ? Quels types de problèmes la


régularisation résout-elle ?

Un mécanisme permettant de minimiser le surapprentissage.


Les problèmes sont ceux de sur-ajustement et sous-ajustement

48) Pourquoi avons-nous besoin de convertir des variables


catégorielles en facteur ? Quelles fonctions sont utilisées pour
effectuer la conversion ?

49) Pensez-vous que traiter une variable catégorielle comme une


variable continue donnerait un meilleur modèle prédictif ?
50) Comment l'apprentissage automatique est-il utilisé dans la vie
de tous les jours ?

L’apprentissage automatique est utilisée dans la vie de tous les


jours pour automatiser la prise de décision.
Avec son apprentissage continu pour améliorer ses performances,
l'apprentissage automatique est doué pour automatiser
rapidement les prises de décision. Par exemple, il peut analyser
votre comportement en ligne et vous recommander des sites web,
des produits ou des services appropriés.

Vous aimerez peut-être aussi