Vous êtes sur la page 1sur 19

Data Mining

(Fouille de données, exploration de données, )

Ali BERRICHI,
aberrichi@umbb.dz, ali.berrichi@gmail.com
Département d’informatique, Faculté des Sciences, UMBBoumerdes.
Présentation
1. Le programme
2. Quelques Références et sites web
- Data Mining et Statistique Décisionnelle, Éditions Technip,
2005, 3ème édition 2010.
- Data Mining: Concepts and Techniques, Jiawei Han
Micheline Kamber, 2006.
•http://www-users.cs.umn.edu/~kumar/
•http://www.lifl.fr/~talbi/Cours-Data-Mining.pdf
•http://www.kdnuggets.com/
•http://data.mining.free.fr/

3. Organisation du cours: 1 cours (1h30) + 1 TD ou Exposés (1h30)

4. Evaluation: 1 ou 2 CC (Ecrit et/ou sous forme d’exposé)

[2]
Chapitre 3.
La régression linéaire simple
(Suite)

Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, aberrichi@umbb.dz, ali.berrichi@gmail.com
3
.
2. Qualité de la représentation (de la régression)
Plusieurs tests : deux questions
1. Dans quelle mesure le phénomène est-il bien représenté par la droite qui vient d’être
définie ?
2. Dans quelle mesure peut-on faire confiance aux valeurs des coefficients et au modèle ?

2.1 Validité globale du modèle


Liaison entre X et Y: une variation de X entraine une variation de Y.
Formule de décomposition: la part de variation de Y expliquée par la
variation de X.

(1) = mesure la variation globale des autour de leur moyenne .


(2) = La partie de la variation de Y expliquée par la variable X. D’ailleurs,

(3) =Somme des carrées résiduelles = partie de la variation de Y non


expliquée par X.
4
2. Qualité de la représentation (de la régression)
A. Coefficient de détermination
L’intensité (la force) de la liaison entre les variables Y et X est mesurée
à l’aide du coefficient de détermination .

Qui est égal aussi :

C’est le pourcentage de l’information restituée par le modèle par


rapport à la quantité d’information totale.

PROPRIETE :

Le cas de l’exemple : Le modèle restitue de


l’information totale ou bien : la variation du volume des commandes est
expliquée à 98,7 % par la variation du nombre de visites.
5
2. Qualité de la représentation (de la régression)
B. Le coefficient de corrélation r
Par définition:

On peut montrer aussi que :

 Un R très élevé en valeur absolue caractérise une relation linéaire


étroite entre X et Y, croissante si R est positif et décroissante si R est
négatif (R mesure la force et le sens de la liaison).

Cas de l’exemple : , ce qui indique une relation linéaire presque


parfaite sur les données observées.

6
R=0,
2. Qualité de la représentation (de la régression)
Remarque importante:
Une valeur de R faible en terme absolu caractérise une
absence de relation linéaire entre X et Y, mais pas
nécessairement l’absence de liaison entre les variables.

R=0,
R=0,

7
2. Qualité de la représentation (de la régression)
:
2.2 Aspects inférentiels de la régression simple
b) Distribution des estimateurs des moindres carrés et

Rappelons que :

La valeur de peut être considérée comme une réalisation d’une v.a


car elle dépend des qui sont des variables aléatoires. De plus, est
une fonction linéaire des qui sont par hypothèse normalement
distribués.
On montre que :

De même, peut être considéré comme une réalisation d’une v.a :

8
2.2 Aspects inférentiels de la régression simple

 E ( ˆ1 )  1 
 
: ˆ )  2

Var ( 


1
 2
 Xi  X 
 E ( ˆ0 )   0 
 
:
ˆ  . X i 
2 2

Var (  0 )  2
 n. X i  X  

- Les variances (ou écart-types) de  0 et 1 dépendent de 


- Problème:  inconnu.

Solution: Remplacer l’écart-type  du terme résiduel  i par


son estimateur ˆ .

9
2.2 Aspects inférentiels de la régression simple
.
c) Estimation de l’écart-type  du terme résiduel
. Si les vraies valeurs de  0 et 1 sont connues alors la meilleure
estimation de  2 est:

. Si l’on remplace  0 et  par leur estimateurs ˆ0 et ˆ1 , une


1
bonne estimation de ˆ est :
2

10
2.2 Aspects inférentiels de la régression simple
.
c) Intervalle de confiance de 0 et 1
 
 L’écart-type de ˆ1     est estimé par :
 2 

  X i  X  
ˆ ˆ
S ( 1 ) 
  
 iX  X 2


2
ˆ  X 

Et celui de 0    . i
2  par:

  n.X i  X  
 

2
 Xi X2 
 S  0   ˆ .
1
ˆ .  
n. X i  X    Xi  X 
2 2
 n. 
 

11
2.2 Aspects inférentiels de la régression simple
.
- L’intervalle de confiance de ˆ1 au niveau 1    est donné par :

Pour l’exemple, on a :

Le fractile t est la valeur lue sur la table de Student pour n  2


degrés de liberté avec un seuil  .
2

Pour :   0.1  10%, (  0.05  5%) , On trouve: t 2  4,032


2
Interprétation : Il y a ainsi 99% de chances que la vraie valeur de ˆ1
(de notre exemple) soit comprise dans l’intervalle :

12
2.2 Aspects inférentiels de la régression simple
.
- L’intervalle de confiance de ˆ0 au niveau 1    est donné par :

Pour l’exemple, on a :

IC (  0 )  15,87 22,12
Interprétation : Il y a ainsi 99% de chances que la vraie valeur de ˆ0
(de notre exemple) soit comprise dans l’intervalle :

IC (  0 )  15,87 22,12
13
2.2 Aspects inférentiels de la régression simple
.

d) Utilisation du modèle à des fins de prévision


- Un modèle de régression: c’est aussi prévoir des valeurs futures de la
variable Y.
- Cas de l’exemple: X=20 ,
- Selon le modèle 61400 de commandes , puisque :

2.12*20+19=61400
Mais,
- Le modèle a été construit à partir d’un échantillon .
- et il existe un certain aléa sur les relations entre X et Y.
- Donc : La prévision de Y doit s’accompagner d’un intervalle de
confiance.

14
2.2 Aspects inférentiels de la régression simple
.

d) Utilisation du modèle à des fins de prévision


A un seuil de confiance  , la valeur vraie de Y pour X  X 0 est
comprise dans l’intervalle :

Pour X  20 et   0.01 :

Interprétation: Il y a 99 chances sur 100 pour que 20 visites


apporteront entre 55,5 et 67,3 milliers de dinars de commandes.
15
3. Ajustements non linéaires
.

Assez fréquemment : la forme de la fonction = la forme du


nuage de points.

Dans certains cas, la droite n’est plus la meilleure régression


possible.
 Il est préférable d’ajuster, sur le nuage de points, d’autres
fonctions non linéaires.

Plusieurs fonctions non linéaires peuvent, après transformation,


être ramenées à un ajustement affine. Parmi ces fonctions:
la relation exponentielle et la relation puissance.

16
3. Ajustements non linéaires
.
a) La fonction exponentielle:
Fréquemment utilisée dans l’analyse de l’évolution d’une
variable Y dans le temps X.
f(x)

a>1
0<a<1

La fonction peut également s’écrire :

17
3. Ajustements non linéaires
a) La fonction exponentielle:
-Le calcul des paramètres k et a nécessite les étapes suivantes :

- Transformation de la fonction exponentielle à la fonction affine.


- Application de la méthode des moindres carrés sur la fonction
linéaire.
- Calcul des coefficients k et a.
 La transformation est une transformation logarithmique.

, avec

18
,
3. Ajustements non linéaires

La valeur des paramètres a et b s’obtient à l’aide des formules


classiques appliquées non plus sur les couples , mais sur
.
Exemple : La recherche d’une fonction exponentielle entre le
revenu d’activité et l’âge des enquêtés dans une ville, aboutit au
résultat suivant :

Interprétation : Lorsque l’âge augmente d’une année, le revenu


d’activité du ménage augmente de 3,13%.
19

Vous aimerez peut-être aussi