Académique Documents
Professionnel Documents
Culture Documents
-Machine Learning-
1) Introduction à l’IA :
Définition de l’intelligence artificielle IA :
L’intelligence artificielle (IA) (en anglais, Artificial Intelligence - AI) est l’ensemble des
théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler
l’intelligence humaine.
L’intelligence artificielle (IA) consiste à imiter l’intelligence de l’être humain, en implantant
un algorithme (programme) qui donne à la machine la capacité d’apprendre.
- Domaine de la banque : systèmes experts d'évaluation de risque lié à l'octroi d'un crédit ;
- Domaine militaire : systèmes autonomes tels que les drones ;
- Domaine des jeux ;
- Domaine de la médecine : systèmes experts d'aide au diagnostic (mieux interpréter les
radiographies que les médecins (Détection d’une personne atteinte du COVID19 )) ;
1
IA dans le cadre des sciences de l'ingénieur :
Exemple :
Pour créer un programme avec lequel dialoguer en fonction de vos besoins, les questions à
poser à l'utilisateur sont préenregistrées et en fonction des réponses, l'algorithme suit une logique
pré-programmée (programmation à base d'instructions conditionnelles) pour vous poser d'autres
questions. Ce genre d'intelligence nécessite d'avoir une base de connaissance importante si on ne
veut pas que l'algorithme tourne en rond rapidement.
Le programme apprend par des exemples (par des situations) qui sont donnés
dans une base (ou table) de données (Dataset) ; afin de développer un modèle qui
effectue une approximation de la réalité. (phase d’apprentissage).
La machine peut également faire des prédictions sur de nouvelles données qui
ne sont pas fournies dans la phase d’apprentissage. Ceci se fait par un modèle qui
effectue une approximation de la réalité, en se basant sur les informations
données par la base de données. (phase de prédiction ou d’inférence).
2
La différence entre l’algorithme classique et l’algorithme d’apprentissage :
Exemple :
Exemple Tarte :
Ingrédients Recette
Apprentissage
Des Tartes
Algorithme d’apprentissage
Recette
Autres Ingrédients Nouvelle Tarte
3
2) Modes d’apprentissage :
Pour donner à un ordinateur la capacité d’apprendre, on utilise des méthodes d’apprentissage qui
sont fortement inspirées de la façon dont nous, les êtres humains, apprenons à faire des choses.
Parmi ces méthodes, on a les 3 modes d’apprentissage suivants :
La variable yi porte le nom de target (la cible ou sortie). C’est la valeur que l’on
cherche à prédire.
4
La variable xi porte le nom de features (caractéristiques) que l’on regroupe dans
une matrice.
Si la sortie contient des réels, on parle de régression, si la sortie est un ensemble de
groupement, on parle de classification.
L'apprentissage supervisé avec la classification permet de labelliser des objets comme des images
et la régression permet de réaliser des prévisions sur des valeurs numériques. L'apprentissage est
supervisé car il exploite des bases de données d'entraînement qui contiennent des labels ou des
données contenant les réponses aux questions que l'on se pose. En gros, le système exploite des
exemples et acquiert la capacité à les généraliser ensuite sur de nouvelles données de production.
5
2.1.1 Régression
Les valeurs des sorties appartiennent à l’ensemble IR (réel).
Surface Prix
x y
1
2
3
4
5
m:
étiquettes
6
2.1.1.2 Apprentissage supervisé : Régression Multivariable
Features: variables d’un appartement Target(Sortie)
Surface Age chambres étage Prix
x1 x2 x3 X4 y
1
2
3
4
5
m:
etiquettes
Prédire :
2.1.2 Classification :
Les valeurs des sorties appartiennent à des classes, valeurs discrètes (ne sont pas continues).
7
Exemples de sorties (target) :
Bénigne
Maligne
Taille tumeur
Figure : Une seule Variable : la taille de la tumeur ; la sortie est la tumeur Bénigne en rouge ou Maligne en
bleu.
Age
Taille tumeur
Figure : Deux variables qui sont : la taille de la tumeur et l’âge ; la sortie est la tumeur Bénigne en rouge
ou Maligne en bleu
8
Figure : 64 Entrées qui représentent la taille
de l’image (8*8=64 Pixels), la sortie le chiffre
correspondant (0…9)
Algorithme Modèle
Observations
étiquetées d’apprentissage prédictif
Formalisation :
Données :
9
*) n observations (Cas) donc peut donc être considéré comme un vecteur de dimension n:
;
Régression :
Classification :
Sortie : Modèle
Exemple 1 :
10
Exemple 2 :
Classification des photos dans les téléphones, selon les paysages, les fêtes, juste des visages…
Exemple 3 :
X2
X1
2 variables X1 et X2, pas de sortie (Situation initiale d’un apprentissage non supervisé)
Les classes ne sont pas définies.
X2
X1
2 variables X1 et X2, les sorties sont regroupées en 2 classes, par l’algorithme
Exemple : Les tâches d’un robot ; Le déplacement d’une voiture dans un parcours…
Remarque :
11
Cependant, ces trois algorithmes ne sont qu'une partie de l'ensemble des algorithmes possibles
pour réaliser du machine Learning.
3) Résumé :
ML
Clustering
Régression Classification
(Regroupement)
A-Algorithme de régression
1-Base de donnée (Dataset) :
Exemple :
Exemple 1
Surface*100 Prix*10^(6)
m2 DH 12
Variable y: Prix * 10^(6) DH
x y 10
8
1 2
6
2 5
4
2.99 7,5
2
4 8
0
5.01 9 0 2 4 6 8
6 10 Variable x: Surface * 100 en m2
12
2- Modèle de représentation ( Juste le modèle linéaire, au programme des CPGE)
On modélise ce graphique (ou la base de donnée) par une fonction qui décrit le plus précisément
possible la relation entre y et x, avec un minimum d’erreur entre le modèle et le réel qui est donné
dans la base de données (le modèle choisi est une régression linéaire).
La précision du modèle sera évaluée par le calcul de l’erreur, exprimée par : RMS, RMSE, le
coefficient R2 … (L’évaluation du modèle sera développée dans le paragraphe ….)
*) Modèle linéaire
Exemple 1
12
Variable y: Prix * 10^(6) DH
10
0
0 1 2 3 4 5 6 7
Variable x: Surface * 100 en m2
Exemple 1
12
Variable y: Prix * 10^(6) DH
y = 1,5x + 1,6667
10
0
0 1 2 3 4 5 6 7
Variable x: Surface * 100 en m2
13
Exemple 1
12
y = 1,5x + 1,6667
Variable y: Prix * 10^(6) DH
10
R² = 0,9113
8
0
0 1 2 3 4 5 6 7
Variable x: Surface * 100 en m2
3- Fonction coût
Le coût d’un modèle est une fonction qui détermine l’erreur entre le réel (tableau des données) et le modèle
choisi (dans notre cas modèle linéaire), donc la fonction coût est liée à l’erreur.
Minimiser la fonction coût revient à minimser l’erreur entre le modèle et le réel. Elle permet de déterminer
les paramètres a et b qui minimisent cette erreur, la fonction coût évalue donc le modèle choisi.
f(x) = a.x+b
14
La fonction coût est liée à l’erreur globale de tous les points, définie soit par :
*)
Rappel : yi : le réel (vrai valeur de xi), f(xi) = a.xi+b :le modèle (qui sera utilisé pour la prédiction)
La fonction coût :
on aura :
15
Application :
Surface*100 Prix*10^(6)
m2 DH Application
x y 12
====================
D’oû :
16
Application
12
y = 1,5x + 1,6667
Variable y: Prix * 10^(6) DH
10
?
8
0
0 1 2 3 4 4,5 5 6 7
Variable x: Surface * 100 en m2
NB : Méthode simple mais elle est appliquée pour une seule variable x et 2 paramètres (a,b).
Méthode 2 : Descente du gradient (Gradient descent) pour minimiser le coût (minimiser l’erreur)
J(a,b)
a rech
On cherche numériquement la valeur de « a » , à partir d’une valeur aléatoire initiale notée ao, qui
minimise la fonction coût et qui est le point de la tangente horizontale de la fonction convexe J(a,b), c’est la
descente du gradient :
17
pour
si
si
…….
J(a,b)
ao a rech
J(a,b)
ao a1 a rech
18
J(a,b)
a1 a rech
n variables d’entrées
(n=4)
19
(m*n) = (m*3) (m*1)
de dimensions m*1
*) Fonction coût
20
B- Algorithme KNN (K Nearest Neighbors)
1- Introduction
L’algorithme KNN, est utilisé principalement dans la classification des données en
machine learning ML, en effet à partir d’une base de données de classification (dont la sortie
correspond à des catégories/classes), on cherche à prédir la catégorie d’une nouvelle entrée en
lui attribuant la catégorie des voisins les plus proches (Neighbors Nearest)
Exemple 1: Les valeurs des sorties appartiennent à des classes, valeurs discrètes (pas continues).
Exemple 2 :
m: étiquettes
21
2- Principe
On cherche les distances entre le point considéré et tous les autres points, puis on déduit les K
points les plus proches, après on identifie les catégories des K voisins, finalement on attribut à notre point
la catégorie du maximum des points les plus proches (K en général impair).
Exemple : Pour K=5 (On cherhche les 5 plus proches à notre point), si on a retrouvé parmi les 5 plus
proches, 3 qui ont la catégorie foot et 2 qui ont la catégorie Basket, notre point prend la catégorie foot.
X1 X1
Avant K-NN Après K-NN
Exemple pour une base de données qui contient : age, taille, poids et genre comme variables
22
Distance de Manhattan
La matrice de confusion (Confusion Matrix) est utilisée pour l’évaluation d’un modèle de
classification. Dans la table de données (dataset), aléatoirement, 75% de ces données sont utilisées pour
l’apprentissage et 25% sont réservées aux tests.
Pour les combinaisons des données dans le test (25% de la table), puisque on connait déjà les vraies
valeurs des sorties (réels), on peut comparer ces vraies valeurs avec les prédictions données par
l’algorithme. Ce qui permet l’évaluation de cet algorithme.
Introduire le nombre K de voisins (facultatif peut être défini déjà dans le programme)
Introduire l’entrée à prédire
Obtenir le résultat de la prédiction
NB :
o Une valeur très faible pour K, telle que K=1 ou K=2, peut être bruitée et entraîner des effets de
valeurs aberrantes dans le modèle.
o Les grandes valeurs pour K sont bonnes, mais cela peut rencontrer des difficultés du temps
d’exécution du programme.
C) RESEAUX de NEURONES :
1) Réseau de neurones naturels
La figure 2, représente les connexions entre plusieurs neurones naturels, le neurone 1 envoie les
informations, par ces dendrites qui représentent les sorties du neurone, aux synapses qui correspondent
aux entrées des autres neurones.
23
Figure 2: Connexions entre plusieurs
neurones
2) Neurone artificiel
2-1) Modèle
Un neurone artificiel, nommé : un perceptron, est inspiré du neurone naturel, la figure 3 représente un
modèle de représentation, le 1er perceptron apparait en 1956.
y
A
y
A
C
A
A
B
A
Exemple : Le modèle représente un neurone, d’entrées X1 et X2, et de sortie Z ; en plus d’un poids W1
pour l’entrée X1, un poids W2 pour X2 et un poids b du noyau.
X1
W1
Z= X1*W1+X2*W2+b
Z
b
X2
W2 24
Pour W1=0,3 ; W2= 0,2 et b= -0,4
2-2-1) Introduction
Le signal envoyé par le neurone actuel de sortie Z, vers le neurone suivant doit être 1 ou 0, donc la valeur
de Z qui est quelconque, doit être converti en 0 ou 1, ce qui nécessite de rajouter une fonction appelée :
Fonction d’activation qui spécifie un seuil pour obtenir la sortie correspondante.
La figure 4, présente un modèle de neurone avec une fonction d’activation (Act.) de type Heaviside, le
résultat attendu est binaire (2 catégories).
Si z 0 ==> Y=1
Si z 0 ==> Y=0
Act.
b
A
Exemple 1 :
Z= X1*W1+X2*W2+b
X1
W1
z Y =1 si z >0
b Act..
Y=0 si z 0
X2
W2
Exemple 2 : Calculer Y pour les 4 cas de X1 et X2 avec W1= 0,4 , W2= 0,5, b= -0,3
Elle est appliquée au résultat Z du neurone, pour donner toujours un résultat binaire (0 ou 1) avec une
certaine probabilité, plus que la probabilité est grande plus le résultat est proche de la valeur 1.
Z= X1*W1+X2*W2+b
X1
W1
NB : Le résultat n’est pas loin de la limite de décision, On aura aussi P(Y=0) = 1- P(Y=1)= 48%
26
On retrouve Z= -0,4
===> = 0,40 = 40%
===> P(Y=1) = 40% pour être à 1
Exercice 1 :
Après entraînement d’un modèle prédictif, on affiché la matrice de confusion associée aux
prédictions sur la base de données de validation.
0-
1-
2-
3-
4-
5-
6-
True label
7-
8-
9-
0 1 2 3 4 5 6 7 8 9
Predicted label
27
28