Chap II Regression

Dr.
Esma BENDIAB
Département IFA
Faculté des NTIC
Univ. Constantine II
Préambule & Définitions
L’Analyse Predictive consiste a Analyser les donnees actuelles afin de faire
des hypotheses sur des comportements futurs des individus deja presents
mais aussi de nouveaux individus.
La regression lineaire simple s’appuie sur l’hypothese que les donnees
proviennent d’un phenomene qui a la forme d'une droite, c’est a dire qu’il
existe une relation lineaire entre l’entree (xi : les observations) et la sortie
(y: les predictions).
C’est un premier exemple simple de la maniere dont un algorithme peut

apprendre un modele (Apprentissage automatique ou Machine Learning).
2
Préambule & Définitions
Avec une regression lineaire simple lorsque nous avons une seule entree,
nous pouvons utiliser des statistiques pour estimer les coefficients.
Cela necessite le calcul des proprietes statistiques a partir des donnees

telles que les moyennes, les ecarts types, les correlations et la covariance.
Commencer par une etude statistique de la regression simple.
3
1- Problematique
 Lorsque l’on dispose d’un tableau fournissant les Donnees brutes relatives a
deux caracteres (variables) quantitatifs definis sur une meme population,
notre objectif est d’analyser la liaison :
 Soient A et Y deux grandeurs statistiques quantitatives observees. On

souhaite :
 Determiner s'il existe une relation entre A et Y .
. Caracteriser la forme de la liaison (la relation) entre A et Y (positive ou
negative, lineaire ou non lineaire, monotone ou non monotone).
. Quantifier l'intensite de la liaison.
. Valider la liaison identifiee. Est-ce qu'elle n'est pas le fruit d'un simple
artefact (bruit ou erreur) ou le produit d'autres informations sous-jacentes
dans les donnees ?
4
1- Problématique
 Un graphique de correlation permet de verifier rapidement l’existence

d’un lien.
La forme du nuage de points obtenus determine la nature de la Liaison

statistique entre deux variables.
5
2- Examen graphique de la relation:
 Lorsque l’on dispose de tous les couples d’observations
(xi, yj), pour chaque individu d’une population donnee, il est
possible de les positionner sur un repere cartesien : un
graphique de correlation.
 Si les points sont parfaitement alignes sur une courbe :

l’equation Mathematique de cette courbe suffirait a rendre
compte de la relation entre les variables.
 En pratique, la complexite des phenomenes observes exclut

cette situation theorique ; l’ensemble des couples
d’observations forment plutot un nuage de points autour
d’une courbe.
6
Principales formes des nuages de points
7
Principales formes des nuages de points
 Nous pouvons :
 Etudier la forme globale des points,
 Situer les proximites entre les individus
 Détécter visuellement les points qui s'ecartent des autres, les
observations atypiques ;
 -verifier s'il n'y a pas de regroupement suspects, laissant entendre
qu'il y a en realite une troisieme variable qui influence le
positionnement des individus...
8
3- L’ajustement lineaire :
 Un exemple de nuage de points dont la forme suggere un

ajustement lineaire est la relation entre le montant du loyer et la
superficies des appartements du nuage de points laisse
supposer une relation lineaire entre les deux variables.
 L’ajustement de ce nuage a une droite dont on connait

l’expression est alors envisageable, Il devient possible de
modeliser cette relation de type lineaire par une fonction affine
de type :
y = ax + b
9
3.1 L’ajustement par la methode des moindres carres
(MMC) :
a) Principe général
 L’ajustement linéaire consiste à déterminer, pour chaque
élément i, sa projection i’ sur une droite dite de régression
(ou d’ajustement) ,
 Il existe donc un écart (= résidu) entre ses coordonnées réelles (xi,

yj) et les coordonnées (xi’, yj’) sur la droite de régression.
 De ce fait, pour obtenir le modèle mathématique le plus

représentatif, il faut que les distances séparant les points de la
distribution, de leur équivalent sur la droite, soient les plus
petites possibles.
 Pour cela, l’ajustement est réalisé pour minimiser le carré des

résidus (des écarts) : méthode des moindres carrés(MMC)
10
3.1 L’ajustement par la methode des
moindres carres (MMC) :
b) Droite d’ajustement d’Y en X :
Réduction des écarts mesurés parallèlement à l’axe des

ordonnées On pratique un ajustement de Y en X (ou de Y
selon X) ; cette opération engendre des résidus par rapport
àY:
 Les valeurs de x restent inchangées ; la droite de régression

qui en résulte est notée DY/X, de la forme
 suivante :
11
 Où
 a1 est le coefficient directeur ou pente de la droite
encore appelé coefficient de régression de Y en X
 - b1 est l’ordonnée à l’origine
 Il faut donc déterminer a et b (en utilisant les données

issues de l’échantillonage) tel que la droite (y=ax + b)
ajuste au mieux le nuage de points.
12
 La meilleure droite est celle qui minimise la somme
des ei carré. La qualité de l’ajustement est mesurée
par la quantité ∑ei carré. Plus cette somme est faible
plus l’ajustement est bon.
 Cela revient à utiliser les valeurs de X pour déterminer

celles de Y ; en statistique on dit que X est la variable
explicative et Y la variable expliquée (= X explique Y)
 Il faut rendre minimum :
13
 Définition : un Minimum d’une fonction de plusieurs
variables ne peut se produire qu’en un point ou les
dérivées partielles par rapport a ses inconnus (a,b)
s’annulent.
 On peut démontrer que cette condition est vérifiée si le

coefficient directeur de la droite vaut :
14
 De plus, il est démontré que la droite de régression
passe par le point moyen G (ou barycentre) de
coordonnées , on en déduit la valeur de b1 :
15
C) Prédiction en utilisant le modèle trouvé :
 Ce modèle mathématique peut alors être utilisé

pour estimer le montant d’un loyer de logement
selon sa superficie, à condition de ne pas trop
s’éloigner des valeurs déjà observées.
 Avant de pratiquer ce genre d’estimation, il y a

nécessité de vérifier la qualité de l’ajustement pour
éviter des interprétations erronées.
16
(MMC) :
d) Le coefficient de corrélation de Bravais-Pearson :

 Ce coefficient, noté r, compris entre –1 et +1 ;
permet de mesurer l’intensité de liaison entre deux
variables quantitatifs.
 Il correspond à la racine carré du coefficient de

détermination, affecté du signe de la covariance, qui
indique le sens de la corrélation
17
(MMC) :
d) Le coefficient de corrélation de Bravais-Pearson :
 Lorsque r est mis au carré r² : il donne une mesure de la proportion des

variations de la variable Y qui sont expliquées par la variable X le reste
(1-r²) étant inexpliqué.
 Exemple : r²=(0.38)²=0.14=14% de la variance de l’échantillon sont

expliqué par la regression le reste étant propres a Y.
18
En résumé
 À partir d'une problématique et d'un ensemble de données (dataset), nous
avons considéré une hypothèse de travail pour contraindre le modèle : ici nous
nous sommes placés dans le cas d'une régression linéaire, qui correspond à
contraindre la forme du modèle à une droite.
 Reformuler le problème dans l'espace d’hypothèse : une droite : y=ax + b
 Minimiser la somme carré des résidus :c’est argmin(sum(y-y’)²) = Définition

de la fonction perte (loss)
 Nous avons décomposé l'entraînement de ce modèle sur les observations, afin

de déterminer le paramètre (pente et ordonnée à l'origine) de la droite
optimale pour ces données. C'est cette partie que l'on appelle apprentissage
du modèle.
 À l'aide du modèle ainsi trouvé, nous pouvons maintenant effectuer
des prédictions
19
En résumé
 On peut toujours améliorer ce modèle (une fois

qu'on saura évaluer ses performances) en testant par
exemple d'autres hypothèses, en ajoutant de nouvelles
caractéristiques sur les observations ou en testant
d'autres types de loss qui seront peut-être plus
appropriés pour ce cas...
20
Demarche des Methodologies :
Méthodologie Statistique :Régression Linéaire Machine learning : Régression linéaire
Données Ensemble de Données Dataset
Hypothèse Hypothèse : une droite : y=ax + b Hypothèse : une droite : y=ax +b
Moyen Minimiser la somme carré des résidus :c’est Définition de la fonction perte (loss)
argmin(sum(y-y’)²)
Utilisation des Utiliser l’ensemble des données pour calculer a,b Décomposer le dataset en dataset training et dataset
données de test pour calculer a,b
l’expérience
= Entraînement du modèle sur les observations,
=Apprentissage apprendre le modèle
MEME FORMULE DE a ET DE b
Prédiction Effectuer des Prédictions Effectuer des Prédictions
Evaluer Evaluer les Performances Evaluer les Performances
Améliorer Améliorer le modèle : Améliorer le modèle
- En testant d'autres hypothèses, - En testant d'autres hypothèses,

- En ajoutant de nouvelles caractéristiques sur - En ajoutant de nouvelles caractéristiques sur les
les observations observations ou
- En testant d'autres types de loss
- …..
21
Pour conclure
 l’objectif du machine learning est de trouver un
modèle qui effectue une approximation de la réalité (le
phénomène à l’origine des données), à l’aide de laquelle on
va pouvoir effectuer des prédictions.
 Et forcément, parce qu’on fait une approximation, on a une

perte d’information qui est un bruit non modélisé, qu’on
estime indépendant (c’est à dire non représentatif du
phénomène).La formule se résume ainsi à l'équation
suivante :
Données = modèle sous-jacent + bruit indépendant

22
Dr. Esma BENDIAB
Préambule
 Rappel : L’Analyse Prédictive consiste a Analyser les données
actuelles afin de faire des hypothèses sur des comportements futurs des
individus déjà présents mais aussi de nouveaux individus.
 Définition : La régression linéaire multiple : est un modèle linéaire

qui suppose une relation linéaire entre plusieurs variables d'entrée (xi)
et la variable de sortie unique (y). Plus précisément, y peut être calculé
à partir d'une combinaison linéaire des variables d'entrée (xi).Il est
fréquent de parler de la complexité d'un modèle de régression comme
la régression linéaire. Il s'agit du nombre de coefficients utilisés dans le
modèle.
 Différentes techniques peuvent être utilisées pour préparer ou former

l'équation de régression linéaire à partir de données, dont la plus
courante s'appelle la méthode des moindres carrés (MMC).
24
Introduction
 En corrélation simple dite de degré 0, il n’y a qu’une
variable explicative x et qu’une variable expliquée y. Or
dans l’étude de certain phénomène on est souvent en
présence de plusieurs variables.
 Etudier la corrélation deux à deux ne permet pas

d’avoir une bonne synthèse, il faut donc générer le
procédé en corrélation multiple.
25
2. Problématique :
 On se propose d’expliquer la variable y à l’aide d’une combinaison
de plusieurs variables xi soient :
x1 ,x2 ,x3 ,…..xk. On parle alors de régression linéaire multiple
tel que :
𝑘
𝑌= 𝛼𝑖𝑋𝑖 + 𝛽 + 𝜀
𝑖=1
 𝜀 : erreur résiduelle.
 𝛼i : coefficient de corrélation
à estimer à partir des n observations.
 𝛽: terme constant.
26
Exemple :
 Si on est en présence de trois variables y, x1 , x2 expliquer y
par x1 , x2 c’est essayer de trouver les coefficients de
l’équation :
y= a1x1 + a2x2 + b + e…….équation d’un plan de degré 2 .
 Le plan est ajusté selon le principe des moindres carrés où la

somme des carrés des erreurs d’estimation de la variable
dépendante est minimisée .
 S’il y’a plus de deux variables explicatives, on peut étendre la

méthode en ajoutant les variables et leurs paramètres.
 Cette équation est celle d’un hyper plan à k dimensions

qu’on ne peut se représenter concrètement. Les paramètres
a1, a2, ….ak sont les pentes de l’hyper plan appelées
coefficients de régression.
27
Formulation du problème :
 y = f(x1,x2,…..xk) y : variable expliquée

 x1x2x3…………..xk , xi : variables explicatives
 y= a1x1 + a2x2 + ……..akxk + b + e….. (1) forme linéaire
 On dispose de n observations de la variable y à partir des
valeurs fixées des variables explicatives. Il s’agit donc de
résoudre le système suivant :
y1=a1x11 + a2x12 + a3x13 +…….akx1k + b + e1
y2=a1x21 + a2x22 + a3x23 +…….akx2k + b + e2
..
..
yn=a1xn1 + a2xn2 + a3xn3 +…….akxnk + b +en
28
 On dispose alors de n équations et (k+1+n) inconnus, il
existe une infinité de solutions pour ce système. La
solution qui nous intéresse est celle qui minimise la
somme des carrés. On choisit la méthode des
moindres carrés.
 Sans isolation du terme constant

𝒀 = 𝑿𝜶 + 𝜺
 Avec isolation du terme constant :
𝒀 = 𝑿𝜶 + 𝝁𝜷 + 𝜺
29
3. Estimation des coefficients sans isolation
du terme constant :
 La forme (1) peut être écrite sous une forme matricielle
comme suit :
𝑌 = 𝑋𝛼 + 𝜀
 L’existence du terme 𝛽 se traduit par une colonne de ‘1’
dans le tableau de variables explicatives.

 Définition : On appelle ajustement toutes solutions
du système d’équations sous forme synthétique
(matricielle). L’ajustement est définit par : y=xa + e
30
3. Estimation des coefficients sans isolation
du terme constant :
 Méthode 01
 On se propose maintenant de minimiser la somme des (ei)2.
 Min 𝑒𝑖² = ?
 𝜑= 𝑒𝑖² = et e.
 On détermine ‘a’ vecteur de dimensions (k+1,1) qui minimise 𝜑 =ete
 e=y-xa
 𝜑 = 𝑦 − 𝑥𝑎 𝑡 𝑦 − 𝑥𝑎
 𝜑 = (yt – atxt)(y – xa)
 𝜑 est une fonction à plusieurs inconnus, une condition nécessaire
d’extremum est l’annulation des dérivées partielles.
 Min(𝜑) = ?
𝜕𝜑
 =0
𝜕𝑎
𝜕𝜑
 =-2xty + 2xtxa = -2xt(y-xa)=0  xty = xtxa 
𝜕𝑎
 a= (xtx)-1xty
31
3. Estimation des coefficients sans isolation du
terme constant :Méthode 02
X2
32
3. Estimation des coefficients sans isolation du
terme constant :Méthode 02
33
Résumé:
 1-Problématique+ensemble données  hypothèse :
ici C une régression linéaire multiple
 2-argmin(sum(ei²) calculer : a =(xtx)-1xty
 3- À l'aide du modèle effectuer des prédictions .
 La régression linéaire a été développée dans le

domaine de la statistique et est étudiée comme un
modèle pour comprendre le rapport entre les variables
numériques d'entrée et de sortie, mais a été empruntée
par l'apprentissage par machine. C'est à la fois un
algorithme statistique et un algorithme
d'apprentissage par machine.
34
 Remarque :
 l’ Apprentissage = trouver les (a,b) optimal :
 Pour la régression linéaire, la solution de l'équation de
minimisation est exacte : a=cov(X,Y)/var(X) (en général
θ(a,b)=(XTX)−1XTy) on peut aussi utiliser un algorithme
appelé descente de gradient pour trouver une approximation
de la solution.
 C'est en particulier utile lorsqu'on a beaucoup de données, car

c'est assez long pour un ordinateur de calculer la solution
exacte ci-dessus (on calculant un inverse de matrice, ce qui
n'est pas gratuit en temps de calcul !).
35
Dr. Esma BENDIAB
Introduction :
 La régression linéaire pour certain peut ne pas être linéaire pour d’
autres. On pourrait la voir comme quadratique , exemple :
Y = ax + b y=a1x + a2x² + b
 et on peut considérer une fonction de degré plus haut, comme suit :
 Cette courbe représente un polynôme,

Donc le modèle qui représente un
polynôme de degré ‘p’ s’écrit comme suit :
 yi= a0 + a1xi + a2xi²+ +a p-1xip-1+apxip + ei

37
La Régression Polynomiale :
 La régression polynomiale est une régression non
linéaire simple ou nous avons deux variables Y et X ,
 Y est la variable expliquée et X est la variable
explicative , seulement ici X est donnée sous forme
d’une Fonction plus complexe de la seule entrée X.
 Le but de la régression polynomiale est d’ajuster une

série de points expérimentaux, par un polynôme.
38
La base de la démarche est identique à la régression linéaire :

 Pour un jeu de données (xi, yi)i=1…n,
 R=(somme des erreurs au carré) est une fonction des
paramètres (aj),j=1..D.
 La méthode des moindres carrés est encore utilisée, c'est-à-

dire minimiser la somme des carrés des écarts entre valeurs
expérimentales et valeurs calculées par le polynôme.
 Les seuls paramètres variables sont évidemment les
coefficients du polynôme. On minimise donc la quantité :
R.
39
𝜕𝑅
 Si R est minimum, alors : pour tout j : =0
𝜕𝑎𝑗
 Si ces dérivées existent. Cela fournit un système

de plusieurs équations, en général non linéaires, qu'il
n'est pas possible de résoudre de manière analytique.
40
 On utilise des algorithmes itératifs pour résoudre ce

système. Parmi ces algorithmes (algorithme de Gauss-
Newton ;algorithme de Levenberg-
Marquardt ;algorithme du gradient)

 Dans ce cours nous utiliserons l’algorithme
: la Descente du Gradient (Gradient descent). Ce
dernier est un algorithme itératif qui va changer, à
chaque itération, les valeurs de aj jusqu’à trouver les
meilleurs coefficients possible.
41
 Qu’est ce que le gradient, qu’est ce que la descente de
gradients et quel est le lien avec la fonction qu’on veut
minimiser : Somme (ei²)?
42
Principe de L'algorithme du gradient :
 Il désigne un algorithme d'optimisation différentiable. Il est par

conséquent destiné à minimiser une fonction réelle différentiable
définie sur un espace euclidien
 L'algorithme est itératif et procède donc par améliorations successives.

Au point courant, un déplacement est effectué dans la
direction opposée au gradient, de manière à faire décroître la fonction.
 Les algorithmes d'optimisation sont généralement écrits pour

minimiser une fonction. Si l'on désire maximiser une fonction, il suffira
de minimiser son opposée.
 l'algorithme ne permet de trouver ou d'approcher qu'un point

stationnaire (i.e., un point en lequel le gradient de la fonction à
minimiser est nul) De tels points sont des minima globaux, si la
fonction est convexe.
43
Principe de L'algorithme du gradient :
 En mathématiques, le gradient est

un vecteur représentant la variation d'une fonction par
rapport à la variation de ses différents coefficients.
𝜕𝑅
 Si un seul coefficient=> on parle de dérivée
𝜕𝑎
 -Sinon (plusieurs coefficients=> on parle de Gradients on
note:
𝜕𝑅 𝜕𝑅
∇R(aj)=( , ……………...)
𝜕𝑎0 𝜕𝑎1
44
 Yi : est la variable expliquée ; i=1..n
 X : variable explicative,
 On reprend le model: yi= a0 + a1xi + a2xi²+ +a p-1xip-
1+a p
pxi + ei
 xi, xi²,xip sont appelés features (caractéristiques) ils

représentent une fonction (complexe) de l’entrée X on va les
appeler h(x).
 Coefficient 1 = a0 , Coefficeint 2 = a1…., Coefficient 3 = a2,
coefficient p+1 = ap
 Feature 1=x0=1 Feature 2=x1, Feature 3=x²,……, Feature p+1=xP
 A chaque feature est associé un paramètre ou coefficient

 D : est le nombre des features donc le nombre de
45
coefficients.
En général:
 yi= a0h0(xi) + a1h1(xi)+…. +aD-1hD-1(xi) + aDhD (xi) + ei …..
(1)
 yi= D j=0 ajhj(xi) + ei
 feature 1 = h0(xi) =x0=1
 feature 2 = h1(xi) =x1
 feature 3 = h2(xi) =x² (ou bien sin(2pix/12))
 feature D+1 = hD(xi)=xp

 yi= (a0,a1,a2…..aD)t h0(xi) + ei
h1(xi)
hD(xi)
46
  yi= ath(xi) + ei = ht(xi)a + ei
 ei = yi – ht(xi)a
 Y1 = h0(x1) h1(x1) h2(x1) hD(x1) a0 + e1
 Y2 = h0(x2) h1(x2) h2(x2) hD(x2) a1 + e2
…
 Y3 : aD
 : : :
 : : :
 Yn h0(xn) h1(xn) h2(xn) hD(xn) on a
 Y = HA + ԑ
  ԑ = Y –HA
n 2 n
 Nous avons : R= i=1 ei = i=1(yi − ht xi a)²
𝒏
 R= 𝐢=𝟏(𝒚𝒊 − 𝐚𝟎𝐡𝟎 𝒙𝒊 − 𝐚𝟏𝐡𝟏 𝒙𝒊 − … . −𝐚𝐃𝐡𝐃(𝐱𝐢))²
47
L’algorithme du Gradient
 Début
 Initialiser a(1)=0 (ou bien aléatoirement ou bien
intelligemment)
 Initialiser ԑ:tolérance
 Initialiser : η le ‘pas’
 Remarque : ||grad(R a(t))||=
partial 0 2 + partial 1 ² + ⋯ + partial[D]² :Norme d’un vecteur
 While ||grad(R (a(t)))||> ԑ (not converged)
 For j=0..D
 Partial[j]=-2 n ′
i=1 hj xi (yi − yi a t )
 aj(t+1)  ajt - η partial[j]
 tt+1
 Fin 48
L’algorithme du Gradient :
 D’une façon générale, est pour n’importe quelle fonction G(a)
de coefficients inconnus (a)l’algorithme est le suivant:
 Début
 t=1
 Initialiser les coefficients ;
 Initialiser ԑ:tolérance ;
 Initialiser : η le ‘pas’ ;
 While (not converged)
 a(t+1)  at - η grad(G(a))
 tt+1
 Fin
49
Remarque 1 :
 La régression polynomiale est une régression linéaire multiple :
 Ou on peut écrire l’équation de la régression polynomiale sous forme d’une
équation de régression multiple :
 yi= a0h0(xi) + a1h1(xi)+…. +aD-1hD-1(xi) + aDhD (xi) + ei ….. (1)

D
 yi= j=0 ajhj(xi) + ei
 Comme suit :
 yi= a0Z0,i + a1Z1,i+…. +aD-1ZD-1,i + aDZD,i + ei
D
 yi= j=0 ajZj, i + ei
 avec Z j,i = hj(xi).

 feature 1 = h0(xi) =1 =Z0,i
 feature 2 = h1(xi) =x1 = Z1,i
 feature 3=h2(xi) =x2= Z2,i
 feature D+1 = hD(xi)=xD=ZD,i
50
Remarque 2 :
 La régression polynomiale est aussi une régression linéaire Simple (polynôme de
degré 1)
 Ou on peut écrire l’équation de la régression polynomiale sous forme d’une

équation de régression simple :
 yi= a0h0(xi) + a1h1(xi)+…. +aD-1hD-1(xi) + aDhD (xi) + ei ….. (1)

D
 yi= j=0 ajhj(xi) + ei
 Ici D le nombre de Features = 2:

 yi= a0Z0 + a1Z1 + ei
D
 yi= j=0 ajZj, i + ei
feature 1 = h0(xi) =1 =Z0
 feature 2 = h1(xi) =x = Z1
 On peut donc appliquer l’algorithme du Gradient pour trouver les coefficients de la

régression simple et multiple. 51
Résumé:
 1-Problématique+ensemble données  hypothèse :

ici C une régression polynomiale
 2-argmin(sum(ei²) calculer : a en utilisant l(Alg.

Descente de Gradient
 3- À l'aide du modèle effectuer des prédictions
52
Résumé de la section
 L’apprentissage Machine (Machine Learning) est un ensemble de
techniques puissantes permettant de créer des modèles prédictifs à partir
de données, sans avoir été explicitement programmées. C’est un domaine
au croisement des mathématiques et de l'informatique.
 l’objectif du machine learning est de trouver un modèle qui effectue

une approximation de la réalité (le phénomène à l’origine des données), à
l’aide de laquelle on va pouvoir effectuer des prédictions.
 Et forcément, parce qu’on fait une approximation, on a une perte

d’information qui est un bruit non modélisé, qu’on
estime indépendant (c’est à dire non représentatif du phénomène).La
formule se résume ainsi à l'équation suivante :
 données = modèle sous-jacent + bruit indépendant
53

Chap II Regression

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap II Regression

Transféré par

Droits d'auteur :

Formats disponibles

Dr.

C’est un premier exemple simple de la maniere dont un algorithme peut

Cela necessite le calcul des proprietes statistiques a partir des donnees

Commencer par une etude statistique de la regression simple.

 Soient A et Y deux grandeurs statistiques quantitatives observees. On

 Un graphique de correlation permet de verifier rapidement l’existence

La forme du nuage de points obtenus determine la nature de la Liaison

 Si les points sont parfaitement alignes sur une courbe :

 En pratique, la complexite des phenomenes observes exclut

 Un exemple de nuage de points dont la forme suggere un

 L’ajustement de ce nuage a une droite dont on connait

 Il existe donc un écart (= résidu) entre ses coordonnées réelles (xi,

 De ce fait, pour obtenir le modèle mathématique le plus

 Pour cela, l’ajustement est réalisé pour minimiser le carré des

Réduction des écarts mesurés parallèlement à l’axe des

 Les valeurs de x restent inchangées ; la droite de régression

b) Droite d’ajustement d’Y en X :

 Il faut donc déterminer a et b (en utilisant les données

 Cela revient à utiliser les valeurs de X pour déterminer

 Il faut rendre minimum :

 On peut démontrer que cette condition est vérifiée si le

C) Prédiction en utilisant le modèle trouvé :

 Ce modèle mathématique peut alors être utilisé

 Avant de pratiquer ce genre d’estimation, il y a

d) Le coefficient de corrélation de Bravais-Pearson :

 Il correspond à la racine carré du coefficient de

 Lorsque r est mis au carré r² : il donne une mesure de la proportion des

 Exemple : r²=(0.38)²=0.14=14% de la variance de l’échantillon sont

 Minimiser la somme carré des résidus :c’est argmin(sum(y-y’)²) = Définition

 Nous avons décomposé l'entraînement de ce modèle sur les observations, afin

 On peut toujours améliorer ce modèle (une fois

=Apprentissage apprendre le modèle

- En testant d'autres hypothèses, - En testant d'autres hypothèses,

 Et forcément, parce qu’on fait une approximation, on a une

Données = modèle sous-jacent + bruit indépendant

 Définition : La régression linéaire multiple : est un modèle linéaire

 Différentes techniques peuvent être utilisées pour préparer ou former

 Etudier la corrélation deux à deux ne permet pas

 Le plan est ajusté selon le principe des moindres carrés où la

 S’il y’a plus de deux variables explicatives, on peut étendre la

 Cette équation est celle d’un hyper plan à k dimensions

 y = f(x1,x2,…..xk) y : variable expliquée

 Sans isolation du terme constant

 La régression linéaire a été développée dans le

 C'est en particulier utile lorsqu'on a beaucoup de données, car

 Cette courbe représente un polynôme,

 yi= a0 + a1xi + a2xi²+ +a p-1xip-1+apxip + ei

 Le but de la régression polynomiale est d’ajuster une

La base de la démarche est identique à la régression linéaire :

 La méthode des moindres carrés est encore utilisée, c'est-à-

 Si ces dérivées existent. Cela fournit un système

 On utilise des algorithmes itératifs pour résoudre ce

 Il désigne un algorithme d'optimisation différentiable. Il est par

 L'algorithme est itératif et procède donc par améliorations successives.

 Les algorithmes d'optimisation sont généralement écrits pour

 l'algorithme ne permet de trouver ou d'approcher qu'un point

 En mathématiques, le gradient est

 xi, xi²,xip sont appelés features (caractéristiques) ils

 A chaque feature est associé un paramètre ou coefficient

 yi= a0h0(xi) + a1h1(xi)+…. +aD-1hD-1(xi) + aDhD (xi) + ei ….. (1)

 avec Z j,i = hj(xi).

 Ou on peut écrire l’équation de la régression polynomiale sous forme d’une

 yi= a0h0(xi) + a1h1(xi)+…. +aD-1hD-1(xi) + aDhD (xi) + ei ….. (1)