Vous êtes sur la page 1sur 10

Data Mining

(Fouille de données, exploration de données, )

Pr. Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes.


ali.berrichi@univ-boumerdes.dz, ali.berrichi@gmail.com
Chapitre 3.
La régression linéaire simple

Pr. Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, ali.berrichi@univ-boumerdes.dz, ali.berrichi@gmail.com
2
La régression linéaire : Introduction
• Régression linéaire : méthode prédictive (supervisée)
• Les données
x1 x2 … xi … xp Y
1 Quan
2 Quan
. Quan
i xij Quan
. Quan
n Quan
New ?

 Xj (j=1,..n) et Y sont quantitatives continues.


 But : Construire un modèle pour prédire Y en se basant
sur les valeurs des autres attributs x1 x2…... xp .
3
1. La Régression linéaire simple
• Objectif ?
 Etudier la liaison linéaire entre deux variables quantitatives X et Y.
Exemples : Y : Poids en Kg X : Taille en cm,
Y : Chiffres d’affaires, X : Effectif,
Y : Tension artérielle, X : Poids
Etc.
Applications réelles:
https://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire#Exemples_d.27appli
cations_dans_diff.C3.A9rents_domaines
Comment ?
 un échantillon de données xi , yi  de taille n.
La méthode la plus simple : représenter l’ensemble de
ces données (points) dans un graphe à 2 dimensions.
4
1. La Régression linéaire simple
. Exemple : Mesure de l’efficacité de la force de vente
Au cours d’un mois donné, le représentant d’une société
commercialisant le matériel informatique a visité 56 entreprises
réparties dans 7 départements.
Dépt Nbre de visite Commande
 X: La variable indépendante 1 2 23
ou explicative (Le nombre de 2 3 27
visites ), 3 5 28
4 9 39
5 10 39
6 12 45
 Y: La variable dépendante ou
7 15 51
expliquée par le modèle (Le
Somme
volume des commandes)
Moyenne =8 = 36

5
R.L.Simple
Observations:
 le nuage de points est
approximativement
assimilable à une droite
appelée droite de
régression.

La relation inconnue f (X ) peut être approximée par


une relation de type : Y  f ( X )  0.  1. X  

La nouvelle variable  représente en quelque sorte


le comportement individuel.
6
1. Introduction
Remarques:
 On aura pour tout i  1,.., n, Yi  0  1. X i   i
 i : la valeur de la variable  pour l’individu i.

Les  i ne sont ni observables, ni calculables.

Hypothèses :

- Les xi comme des valeurs fixées,


- Les yi comme des valeurs aléatoires.
- La composante aléatoire d’un yi étant le  i correspondant).

7
Le problème ?
- Estimer les paramètres  0 et 1à partir de l’échantillon, donc,
- déterminer la droite qui ajuste au mieux les données.
- Les paramètres de cette droite ˆ0 et ˆ1 sont alors les
estimations de  0 et 1 .
L’estimation de la droite de régression est donc :
Yˆ  ˆ0  ˆ1. X Ou bien : Yˆi  ˆ0  ˆ1. X i , i  1,.., n.
-Les Yˆi : valeurs estimées. Elles nous permettent d’estimer les
- quantités inobservables :  i  Yi  0  1. X
-par les quantités observables: ei  Yi  Yˆi  résidus

8
2. La méthode des moindres carrés
La meilleure droite ? ??
?

- La droite qui ajuste le mieux le nuage de points est la


 
droite pour la quelle les écarts ei  Yi  Yˆ sont
globalement les plus faibles possibles (M.M.C).
9
2. La méthode des moindres carrés
La meilleure droite ?

Yˆ  ˆ0  ˆ1. Xˆ

Yi

Yˆi


ei  Yi  Yˆ 

Xi
10

Vous aimerez peut-être aussi