Vous êtes sur la page 1sur 17

Data Mining

(Fouille de données, exploration de données, )

Ali BERRICHI,
ali.berrichi@univ-boumerdes.dz, ali.berrichi@gmail.com
Département d’informatique, Faculté des Sciences, UMBBoumerdes.
Chapitre 3.
La régression linéaire simple

Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, ali.berrichi@univ-boumerdes.dz, ali.berrichi@gmail.com
2
La régression linéaire : Introduction
• Régression linéaire : méthode prédictive
• Les données
x1 x2 … xi … xp Y
1 
2 
. 
i xij 
.
n
?

 Xj (j=1,..n) et Y sont quantitatives continues.


 But : Construire un modèle pour prédire Y en se basant
sur les valeurs des autres attributs x1 x2…... xp .
3
1. La Régression linéaire simple
• Objectif ?
 Etudier la liaison linéaire entre deux variables quantitatives X et Y.
Exemples : Y : Poids en Kg X : Taille en cm,
Y : Chiffres d’affaires, X : Effectif,
Y : Tension artérielle, X : Poids
Etc.
Applications réelles:
https://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire#Exemples_d.27appli
cations_dans_diff.C3.A9rents_domaines
Comment ?
 un échantillon de données xi , yi  de taille n.
La méthode la plus simple : représenter l’ensemble de
ces données (points) dans un graphe à 2 dimensions.
4
1. La Régression linéaire simple
. Exemple : Mesure de l’efficacité de la force de vente
Au cours d’un mois donné, le représentant d’une société
commercialisant le matériel informatique a visité 56 entreprises
réparties dans 7 départements.
Dépt Nbre de visite Commande
 X: La variable indépendante 1 2 23
ou explicative (Le nombre de 2 3 27
visites ), 3 5 28
4 9 39
5 10 39
6 12 45
 Y: La variable dépendante ou
7 15 51
expliquée par le modèle (Le
Somme
volume des commandes)
Moyenne =8 = 36

5
R.L.Simple
Observations:
 le nuage de points est
approximativement
assimilable à une droite
appelée droite de
régression.

La relation inconnue f (X ) peut être approximée par


une relation de type : Y  f ( X )  0.  1. X  

La nouvelle variable  représente en quelque sorte


le comportement individuel.
6
1. Introduction
Remarques:
 On aura pour tout i  1,.., n, Yi  0  1. X i   i
 i : la valeur de la variable  pour l’individu i.

Les  i ne sont ni observables, ni calculables.

Hypothèses :

- Les xi comme des valeurs fixées,


- Les yi comme des valeurs aléatoires.
- La composante aléatoire d’un yi étant le  i correspondant).

7
Le problème ?
- Estimer les paramètres  0 et 1à partir de l’échantillon, donc,
- déterminer la droite qui ajuste au mieux les données.
- Les paramètres de cette droite ˆ0 et ˆ1 sont alors les
estimations de  0 et 1 .
L’estimation de la droite de régression est donc :
Yˆ  ˆ0  ˆ1. X Ou bien : Yˆi  ˆ0  ˆ1. X i , i  1,.., n.
-Les Yˆi sont appelés les valeurs estimées. Elles nous permettent:
- d’estimer les quantités inobservables :  i  Yi  0  1. X
par les quantités observables: ei  Yˆi  ˆ0  ˆ1. X
ei  Yi  Yˆi  résidus

8
2. La méthode des moindres carrés
La meilleure droite ? ??
?

- La droite qui ajuste le mieux le nuage de points est la


 
droite pour la quelle les écarts ei  Yi  Yˆ sont
globalement les plus faibles possibles (M.M.C).
9
2. La méthode des moindres carrés
La meilleure droite ?

Yˆ  ˆ0  ˆ1. Xˆ

Yi
Yˆi


ei  Yi  Yˆ 

Xi
10
2. La méthode des moindres carrés
- La valeur globale de ces écarts est mesurée par la somme des carrés
des différences entre les valeurs observées et les valeurs estimées.

On cherche les paramètres 0 et 1de la droite qui minimisent:

- Ce minimum aura lieu si les dérivées partielles par rapport


à 1 et  0 sont nulles.

11
Les paramètres optimaux de la droite de régression
sont donc :

1 
 x .Y  nx.Y
i i

Cov( X , Y )
 x  x 
2
i
Var ( X )

12
- Exemple de la force de vente

L’équation de la droite qui représente le mieux la relation entre le


nombre de visites X et le montant des commandes de Y est :

Interprétation :
1. En l’absence de visite (X = 0), le montant des commandes d’un
département s’élèverait à 19000.
2. Chacun visite d’un représentant amène une masse de commandes
supplémentaires d’environ 21200 Da.
13
.
3. Qualité de la représentation (de la régression)
Plusieurs tests : deux questions
1. Dans quelle mesure le phénomène est-il bien représenté par la droite qui vient d’être
définie ?
2. Dans quelle mesure peut-on faire confiance aux valeurs des coefficients et au modèle ?

2.1 Validité globale du modèle


Liaison entre X et Y: une variation de X entraine une variation de Y.
Formule de décomposition: la part de variation de Y expliquée par la
variation de X.

(1) = mesure la variation globale des autour de leur moyenne .


(2) = La partie de la variation de Y expliquée par la variable X. D’ailleurs,

(3) =Somme des carrées résiduelles = partie de la variation de Y non


expliquée par X.
14
3. Qualité de la représentation (de la régression)
A. Coefficient de détermination
L’intensité (la force) de la liaison entre les variables Y et X est mesurée
à l’aide du coefficient de détermination .

Qui est égal aussi :

C’est le pourcentage de l’information restituée par le modèle par


rapport à la quantité d’information totale.

PROPRIETE :

Le cas de l’exemple : Le modèle restitue de


l’information totale ou bien : la variation du volume des commandes est
expliquée à 98,7 % par la variation du nombre de visites.
15
3. Qualité de la représentation (de la régression)
B. Le coefficient de corrélation r
Par définition:

On peut montrer aussi que :

 Un R très élevé en valeur absolue caractérise une relation linéaire


étroite entre X et Y, croissante si R est positif et décroissante si R est
négatif (R mesure la force et le sens de la liaison).

Cas de l’exemple : , ce qui indique une relation linéaire presque


parfaite sur les données observées.

16
R=0,
3. Qualité de la représentation (de la régression)
Remarque importante:
Une valeur de R faible en terme absolu caractérise une
absence de relation linéaire entre X et Y, mais pas
nécessairement l’absence de liaison entre les variables.

R=0,
R=0,

17

Vous aimerez peut-être aussi