Académique Documents
Professionnel Documents
Culture Documents
Esma BENDIAB
Département IFA
Faculté des NTIC
Univ. Constantine II
Préambule & Définitions
L’Analyse Predictive consiste a Analyser les donnees actuelles afin de faire
des hypotheses sur des comportements futurs des individus deja presents
mais aussi de nouveaux individus.
La regression lineaire simple s’appuie sur l’hypothese que les donnees
proviennent d’un phenomene qui a la forme d'une droite, c’est a dire qu’il
existe une relation lineaire entre l’entree (xi : les observations) et la sortie
(y: les predictions).
2
Préambule & Définitions
Avec une regression lineaire simple lorsque nous avons une seule entree,
nous pouvons utiliser des statistiques pour estimer les coefficients.
3
1- Problematique
Lorsque l’on dispose d’un tableau fournissant les Donnees brutes relatives a
deux caracteres (variables) quantitatifs definis sur une meme population,
notre objectif est d’analyser la liaison :
4
1- Problématique
5
2- Examen graphique de la relation:
Lorsque l’on dispose de tous les couples d’observations
(xi, yj), pour chaque individu d’une population donnee, il est
possible de les positionner sur un repere cartesien : un
graphique de correlation.
6
2- Examen graphique de la relation:
Principales formes des nuages de points
7
2- Examen graphique de la relation:
Principales formes des nuages de points
Nous pouvons :
Etudier la forme globale des points,
Situer les proximites entre les individus
Détécter visuellement les points qui s'ecartent des autres, les
observations atypiques ;
-verifier s'il n'y a pas de regroupement suspects, laissant entendre
qu'il y a en realite une troisieme variable qui influence le
positionnement des individus...
8
3- L’ajustement lineaire :
y = ax + b
9
3.1 L’ajustement par la methode des moindres carres
(MMC) :
a) Principe général
L’ajustement linéaire consiste à déterminer, pour chaque
élément i, sa projection i’ sur une droite dite de régression
(ou d’ajustement) ,
10
3.1 L’ajustement par la methode des
moindres carres (MMC) :
b) Droite d’ajustement d’Y en X :
11
3.1 L’ajustement par la methode des
moindres carres (MMC) :
Où
a1 est le coefficient directeur ou pente de la droite
encore appelé coefficient de régression de Y en X
- b1 est l’ordonnée à l’origine
13
3.1 L’ajustement par la methode des
moindres carres (MMC) :
b) Droite d’ajustement d’Y en X :
Définition : un Minimum d’une fonction de plusieurs
variables ne peut se produire qu’en un point ou les
dérivées partielles par rapport a ses inconnus (a,b)
s’annulent.
14
3.1 L’ajustement par la methode des
moindres carres (MMC) :
b) Droite d’ajustement d’Y en X :
De plus, il est démontré que la droite de régression
passe par le point moyen G (ou barycentre) de
coordonnées , on en déduit la valeur de b1 :
15
3.1 L’ajustement par la methode des
moindres carres (MMC) :
16
3.1 L’ajustement par la methode des moindres carres
(MMC) :
17
3.1 L’ajustement par la methode des moindres carres
(MMC) :
d) Le coefficient de corrélation de Bravais-Pearson :
18
En résumé
À partir d'une problématique et d'un ensemble de données (dataset), nous
avons considéré une hypothèse de travail pour contraindre le modèle : ici nous
nous sommes placés dans le cas d'une régression linéaire, qui correspond à
contraindre la forme du modèle à une droite.
Reformuler le problème dans l'espace d’hypothèse : une droite : y=ax + b
20
Demarche des Methodologies :
Méthodologie Statistique :Régression Linéaire Machine learning : Régression linéaire
Données Ensemble de Données Dataset
Hypothèse Hypothèse : une droite : y=ax + b Hypothèse : une droite : y=ax +b
Moyen Minimiser la somme carré des résidus :c’est Définition de la fonction perte (loss)
argmin(sum(y-y’)²)
Utilisation des Utiliser l’ensemble des données pour calculer a,b Décomposer le dataset en dataset training et dataset
données de test pour calculer a,b
l’expérience
= Entraînement du modèle sur les observations,
MEME FORMULE DE a ET DE b
Prédiction Effectuer des Prédictions Effectuer des Prédictions
Evaluer Evaluer les Performances Evaluer les Performances
Améliorer Améliorer le modèle : Améliorer le modèle
21
Pour conclure
l’objectif du machine learning est de trouver un
modèle qui effectue une approximation de la réalité (le
phénomène à l’origine des données), à l’aide de laquelle on
va pouvoir effectuer des prédictions.
24
Introduction
En corrélation simple dite de degré 0, il n’y a qu’une
variable explicative x et qu’une variable expliquée y. Or
dans l’étude de certain phénomène on est souvent en
présence de plusieurs variables.
25
2. Problématique :
On se propose d’expliquer la variable y à l’aide d’une combinaison
de plusieurs variables xi soient :
x1 ,x2 ,x3 ,…..xk. On parle alors de régression linéaire multiple
tel que :
𝑘
𝑌= 𝛼𝑖𝑋𝑖 + 𝛽 + 𝜀
𝑖=1
𝜀 : erreur résiduelle.
𝛼i : coefficient de corrélation
à estimer à partir des n observations.
𝛽: terme constant.
26
Exemple :
Si on est en présence de trois variables y, x1 , x2 expliquer y
par x1 , x2 c’est essayer de trouver les coefficients de
l’équation :
y= a1x1 + a2x2 + b + e…….équation d’un plan de degré 2 .
27
Formulation du problème :
𝒀 = 𝑿𝜶 + 𝝁𝜷 + 𝜺
29
3. Estimation des coefficients sans isolation
du terme constant :
La forme (1) peut être écrite sous une forme matricielle
comme suit :
𝑌 = 𝑋𝛼 + 𝜀
L’existence du terme 𝛽 se traduit par une colonne de ‘1’
dans le tableau de variables explicatives.
Définition : On appelle ajustement toutes solutions
du système d’équations sous forme synthétique
(matricielle). L’ajustement est définit par : y=xa + e
30
3. Estimation des coefficients sans isolation
du terme constant :
Méthode 01
On se propose maintenant de minimiser la somme des (ei)2.
Min 𝑒𝑖² = ?
𝜑= 𝑒𝑖² = et e.
On détermine ‘a’ vecteur de dimensions (k+1,1) qui minimise 𝜑 =ete
e=y-xa
𝜑 = 𝑦 − 𝑥𝑎 𝑡 𝑦 − 𝑥𝑎
𝜑 = (yt – atxt)(y – xa)
𝜑 est une fonction à plusieurs inconnus, une condition nécessaire
d’extremum est l’annulation des dérivées partielles.
Min(𝜑) = ?
𝜕𝜑
=0
𝜕𝑎
𝜕𝜑
=-2xty + 2xtxa = -2xt(y-xa)=0 xty = xtxa
𝜕𝑎
a= (xtx)-1xty
31
3. Estimation des coefficients sans isolation du
terme constant :Méthode 02
X2
32
3. Estimation des coefficients sans isolation du
terme constant :Méthode 02
33
Résumé:
1-Problématique+ensemble données hypothèse :
ici C une régression linéaire multiple
2-argmin(sum(ei²) calculer : a =(xtx)-1xty
3- À l'aide du modèle effectuer des prédictions .
35
Dr. Esma BENDIAB
Introduction :
La régression linéaire pour certain peut ne pas être linéaire pour d’
autres. On pourrait la voir comme quadratique , exemple :
Y = ax + b y=a1x + a2x² + b
et on peut considérer une fonction de degré plus haut, comme suit :
38
La Régression Polynomiale :
39
La Régression Polynomiale :
𝜕𝑅
Si R est minimum, alors : pour tout j : =0
𝜕𝑎𝑗
40
La Régression Polynomiale :
41
La Régression Polynomiale :
Qu’est ce que le gradient, qu’est ce que la descente de
gradients et quel est le lien avec la fonction qu’on veut
minimiser : Somme (ei²)?
42
Principe de L'algorithme du gradient :
44
Formulation du problème :
Yi : est la variable expliquée ; i=1..n
X : variable explicative,
On reprend le model: yi= a0 + a1xi + a2xi²+ +a p-1xip-
1+a p
pxi + ei
En général:
yi= a0h0(xi) + a1h1(xi)+…. +aD-1hD-1(xi) + aDhD (xi) + ei …..
(1)
yi= D j=0 ajhj(xi) + ei
feature 1 = h0(xi) =x0=1
feature 2 = h1(xi) =x1
feature 3 = h2(xi) =x² (ou bien sin(2pix/12))
feature D+1 = hD(xi)=xp
yi= (a0,a1,a2…..aD)t h0(xi) + ei
h1(xi)
hD(xi)
46
Formulation du problème :
yi= ath(xi) + ei = ht(xi)a + ei
ei = yi – ht(xi)a
Y1 = h0(x1) h1(x1) h2(x1) hD(x1) a0 + e1
Y2 = h0(x2) h1(x2) h2(x2) hD(x2) a1 + e2
…
Y3 : aD
: : :
: : :
Yn h0(xn) h1(xn) h2(xn) hD(xn) on a
Y = HA + ԑ
ԑ = Y –HA
n 2 n
Nous avons : R= i=1 ei = i=1(yi − ht xi a)²
𝒏
R= 𝐢=𝟏(𝒚𝒊 − 𝐚𝟎𝐡𝟎 𝒙𝒊 − 𝐚𝟏𝐡𝟏 𝒙𝒊 − … . −𝐚𝐃𝐡𝐃(𝐱𝐢))²
47
L’algorithme du Gradient
Début
Initialiser a(1)=0 (ou bien aléatoirement ou bien
intelligemment)
Initialiser ԑ:tolérance
Initialiser : η le ‘pas’
Remarque : ||grad(R a(t))||=
partial 0 2 + partial 1 ² + ⋯ + partial[D]² :Norme d’un vecteur
While ||grad(R (a(t)))||> ԑ (not converged)
For j=0..D
Partial[j]=-2 n ′
i=1 hj xi (yi − yi a t )
aj(t+1) ajt - η partial[j]
tt+1
Fin 48
L’algorithme du Gradient :
D’une façon générale, est pour n’importe quelle fonction G(a)
de coefficients inconnus (a)l’algorithme est le suivant:
Début
t=1
Initialiser les coefficients ;
Initialiser ԑ:tolérance ;
Initialiser : η le ‘pas’ ;
While (not converged)
a(t+1) at - η grad(G(a))
tt+1
Fin
49
Remarque 1 :
La régression polynomiale est une régression linéaire multiple :
Ou on peut écrire l’équation de la régression polynomiale sous forme d’une
équation de régression multiple :
Comme suit :
yi= a0Z0,i + a1Z1,i+…. +aD-1ZD-1,i + aDZD,i + ei
D
yi= j=0 ajZj, i + ei
52
Résumé de la section
L’apprentissage Machine (Machine Learning) est un ensemble de
techniques puissantes permettant de créer des modèles prédictifs à partir
de données, sans avoir été explicitement programmées. C’est un domaine
au croisement des mathématiques et de l'informatique.
53