Chap 3 Régression

Data Mining
(Fouille de données, exploration de données, )
Ali BERRICHI,
ali.berrichi@univ-boumerdes.dz, ali.berrichi@gmail.com
Département d’informatique, Faculté des Sciences, UMBBoumerdes.
Chapitre 3.
La régression linéaire simple
Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, ali.berrichi@univ-boumerdes.dz, ali.berrichi@gmail.com
2
La régression linéaire : Introduction
• Régression linéaire : méthode prédictive
• Les données
x1 x2 … xi … xp Y
1 
2 
. 
i xij 
.
n
?
 Xj (j=1,..n) et Y sont quantitatives continues.

 But : Construire un modèle pour prédire Y en se basant
sur les valeurs des autres attributs x1 x2…... xp .
3
1. La Régression linéaire simple
• Objectif ?
 Etudier la liaison linéaire entre deux variables quantitatives X et Y.
Exemples : Y : Poids en Kg X : Taille en cm,
Y : Chiffres d’affaires, X : Effectif,
Y : Tension artérielle, X : Poids
Etc.
Applications réelles:
https://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire#Exemples_d.27appli
cations_dans_diff.C3.A9rents_domaines
Comment ?
 un échantillon de données xi , yi  de taille n.
La méthode la plus simple : représenter l’ensemble de
ces données (points) dans un graphe à 2 dimensions.
4
1. La Régression linéaire simple
. Exemple : Mesure de l’efficacité de la force de vente
Au cours d’un mois donné, le représentant d’une société
commercialisant le matériel informatique a visité 56 entreprises
réparties dans 7 départements.
Dépt Nbre de visite Commande
 X: La variable indépendante 1 2 23
ou explicative (Le nombre de 2 3 27
visites ), 3 5 28
4 9 39
5 10 39
6 12 45
 Y: La variable dépendante ou
7 15 51
expliquée par le modèle (Le
Somme
volume des commandes)
Moyenne =8 = 36
5
R.L.Simple
Observations:
 le nuage de points est
approximativement
assimilable à une droite
appelée droite de
régression.
La relation inconnue f (X ) peut être approximée par

une relation de type : Y  f ( X )  0.  1. X  
La nouvelle variable  représente en quelque sorte

le comportement individuel.
6
1. Introduction
Remarques:
 On aura pour tout i  1,.., n, Yi  0  1. X i   i
 i : la valeur de la variable  pour l’individu i.
Les  i ne sont ni observables, ni calculables.
Hypothèses :
- Les xi comme des valeurs fixées,

- Les yi comme des valeurs aléatoires.
- La composante aléatoire d’un yi étant le  i correspondant).
7
Le problème ?
- Estimer les paramètres  0 et 1à partir de l’échantillon, donc,
- déterminer la droite qui ajuste au mieux les données.
- Les paramètres de cette droite ˆ0 et ˆ1 sont alors les
estimations de  0 et 1 .
L’estimation de la droite de régression est donc :
Yˆ  ˆ0  ˆ1. X Ou bien : Yî  ˆ0  ˆ1. X i , i  1,.., n.
-Les Yî sont appelés les valeurs estimées. Elles nous permettent:
- d’estimer les quantités inobservables :  i  Yi  0  1. X
par les quantités observables: ei  Yî  ˆ0  ˆ1. X
ei  Yi  Yî  résidus
8
2. La méthode des moindres carrés
La meilleure droite ? ??
?
- La droite qui ajuste le mieux le nuage de points est la

 
droite pour la quelle les écarts ei  Yi  Yˆ sont
globalement les plus faibles possibles (M.M.C).
9
La meilleure droite ?
Yˆ  ˆ0  ˆ1. Xˆ
Yi
Yî

ei  Yi  Yˆ 
Xi
10
- La valeur globale de ces écarts est mesurée par la somme des carrés
des différences entre les valeurs observées et les valeurs estimées.
On cherche les paramètres 0 et 1de la droite qui minimisent:
- Ce minimum aura lieu si les dérivées partielles par rapport

à 1 et  0 sont nulles.
11
Les paramètres optimaux de la droite de régression
sont donc :
1 
 x .Y  nx.Y
i i

Cov( X , Y )
 x  x 
2
i
Var ( X )
12
- Exemple de la force de vente
L’équation de la droite qui représente le mieux la relation entre le

nombre de visites X et le montant des commandes de Y est :
Interprétation :
1. En l’absence de visite (X = 0), le montant des commandes d’un
département s’élèverait à 19000.
2. Chacun visite d’un représentant amène une masse de commandes
supplémentaires d’environ 21200 Da.
13
.
3. Qualité de la représentation (de la régression)
Plusieurs tests : deux questions
1. Dans quelle mesure le phénomène est-il bien représenté par la droite qui vient d’être
définie ?
2. Dans quelle mesure peut-on faire confiance aux valeurs des coefficients et au modèle ?
2.1 Validité globale du modèle

Liaison entre X et Y: une variation de X entraine une variation de Y.
Formule de décomposition: la part de variation de Y expliquée par la
variation de X.
(1) = mesure la variation globale des autour de leur moyenne .

(2) = La partie de la variation de Y expliquée par la variable X. D’ailleurs,
(3) =Somme des carrées résiduelles = partie de la variation de Y non

expliquée par X.
14
A. Coefficient de détermination
L’intensité (la force) de la liaison entre les variables Y et X est mesurée
à l’aide du coefficient de détermination .
Qui est égal aussi :
C’est le pourcentage de l’information restituée par le modèle par

rapport à la quantité d’information totale.
PROPRIETE :
Le cas de l’exemple : Le modèle restitue de

l’information totale ou bien : la variation du volume des commandes est
expliquée à 98,7 % par la variation du nombre de visites.
15
B. Le coefficient de corrélation r
Par définition:
On peut montrer aussi que :
 Un R très élevé en valeur absolue caractérise une relation linéaire

étroite entre X et Y, croissante si R est positif et décroissante si R est
négatif (R mesure la force et le sens de la liaison).
Cas de l’exemple : , ce qui indique une relation linéaire presque

parfaite sur les données observées.
16
R=0,
Remarque importante:
Une valeur de R faible en terme absolu caractérise une
absence de relation linéaire entre X et Y, mais pas
nécessairement l’absence de liaison entre les variables.
R=0,
R=0,
17

Chap 3 Régression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 3 Régression

Transféré par

Droits d'auteur :

Formats disponibles

Data Mining

(Fouille de données, exploration de données, )

 Xj (j=1,..n) et Y sont quantitatives continues.

La relation inconnue f (X ) peut être approximée par

La nouvelle variable  représente en quelque sorte

Les  i ne sont ni observables, ni calculables.

- Les xi comme des valeurs fixées,

- La droite qui ajuste le mieux le nuage de points est la

On cherche les paramètres 0 et 1de la droite qui minimisent:

- Ce minimum aura lieu si les dérivées partielles par rapport

L’équation de la droite qui représente le mieux la relation entre le

2.1 Validité globale du modèle

(1) = mesure la variation globale des autour de leur moyenne .

(3) =Somme des carrées résiduelles = partie de la variation de Y non

Qui est égal aussi :

C’est le pourcentage de l’information restituée par le modèle par

Le cas de l’exemple : Le modèle restitue de

On peut montrer aussi que :

 Un R très élevé en valeur absolue caractérise une relation linéaire

Cas de l’exemple : , ce qui indique une relation linéaire presque

Vous aimerez peut-être aussi