Vous êtes sur la page 1sur 11

Prédiction d’une variable continue

Ricco RAKOTOMALALA

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Principes de la régression

Prédiction d’une variable continue à partir d’une


série de variables de type quelconque

Y = f ( X 1 ,K, X J )

Variable à prédire, endogène Variable prédictives, enxogènes, descripteurs


Forcément continue Continues et/ou discrètes

A définir :
(1) La forme de la fonction f
(2) L’estimation de ses paramètres à partir de l’échantillon d’apprentissage
(3) Le critère d’évaluation de la qualité de l’estimation

Solution : ARBRE DE REGRESSION


(1) Un arbre logique
(2) Segmentation de manière à obtenir des groupes « purs » sur Y
(3) Critère des moindres carrés

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Arbres de régression
Structure générale et éléments clés

Positionnement du groupe

Comment définir la « bonne »


CURBWEIGHT taille de l’arbre ?
<=2399.50
moyenne : 38.00
FUEL ec-type : 3.37
={diesel} 4%
moyenne : 30.40
ec-type : 6.99 CURBWEIGHT
9% > 2399.50
moyenne : 25.33
Taille relative du groupe ec-type : 3.13
5%
moyenne : 26.27
ec-type : 6.17 HORSEPOWER
100% <=79.00
moyenne : 31.94
FUEL ec-type : 4.32
={gas} 32%
moyenne : 25.85
Homogénéité du groupe
ec-type : 5.93 HORSEPOWER
91% > 79.00
moyenne : 22.59
ec-type : 3.67
59%

Comment choisir la
Variable de segmentation ?

Comment choisir la
borne de discrétisation ?

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Arbres de régression
Critère pour la segmentation – L’équation d’ANOVA

ENGINETYPE
={dohc}
moyenne : 20.50
ec-type : 3.50
5%
Choisir la segmentation de manière à ce que
(1) Les moyennes soient le plus disparates
ENGINETYPE
={l,ohcf,ohc} possibles entre les groupes
moyenne : 26.27 moyenne : 27.33
ec-type : 6.17 ec-type : 5.76
100% 88% ou (de manière équivalente)
ENGINETYPE
={ohcv,rotor} (2) Les valeurs soient le plus proches
moyenne : 17.42
ec-type : 1.04 possibles dans les groupes
7%

Équation d’analyse de variance : TSS = BSS + WSS


2 2 nl 2 Choix de la variable de segmentation
n L L

∑ (y − y ) = ∑ n l (y l − y ) + ∑ ∑ (y − yl )
X j* = arg max BSS (X j )
i il
i =1 l =1 l =1 i =1
j

n x V.Totale n x V. Inter-classes n x V. Intra-classes

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Arbres de régression
Traitement des variables continues
60

50

HORSEPOWER
40
<=79.00

City-MPG
moyenne : 32.53
ec-type : 4.59 30
36%
moyenne : 26.27
HORSEPOWER 20
ec-type : 6.17
100% > 79.00
moyenne : 22.75 10
ec-type : 3.66
64%
0
0 20 40 60 80 100 120 140 160 180 200 220
Horsepower

BSS ( X ) = n1 × ( y1 − y ) + n2 × ( y2 − y )
Trouver le point de coupure (discrétisation) 2 2
sur X tel que BSS est maximum

n1 × n2
BSS ( X ) = × ( y1 − y2 )
2
Ou, de manière équivalente
n1 + n2

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Arbres de régression
Règles d’arrêt – Pre-pruning

Critères empiriques pour contrôler la taille de l’arbre


• Effectif minimum pour segmenter
• Nombre de niveaux de l’arbre

Critère statistique (AID) : probabilité critique pour la segmentation


Si p-value de l’ANOVA est inférieure au seuil, on segmente

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Arbres de régression
Post-pruning avec CR-T
Apprentissage en deux phases
(1) Expansion [growing] maximiser l’homogénéité des groupes n
(2) Elagage [pruning] minimiser l’erreur de prédiction au sens des moindres carrés E = ∑ ( yˆ − yi )
2
i
i =1

0.8

0.7

0.6

0.5
Apprentissage

0.4 Vraie erreur

0.3

0.2

0.1

0
0 50 100 150 200 250

La stratégie de l’élagage est la même que pour la discrimination :


• Définir une séquence d’arbres de coût-complexité équivalents
• Choisir dans la séquence, celle qui minimise l’erreur sur un fichier d’élagage
• Éventuellement, donner une préférence à la simplicité en introduisant la règle de l’écart-type

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Arbres de régression
Regroupement des feuilles issues d’une segmentation

2 approches différentes selon C-RT et AID


(1) C-RT : arbre toujours binaire trouver le regroupement qui maximise BSS

(2) AID : arbre m-aire regrouper les feuilles très proches au sens de Y
• On fusionne les 2 feuilles les plus proches (comparaison de moyennes – test de Student)
• On réitère l’opération tant que la p-value est supérieure à la probabilité critique pour
la fusion

Remarque : il est tout à fait possible que toutes les feuilles soient regroupées en une feuille unique

ENGINETYPE
={dohc}
moyenne : 20.50
ec-type : 3.50 Pas de fusion
5%

ENGINETYPE
={l,ohcf,ohc}
moyenne : 26.27 moyenne : 27.33
ec-type : 6.17 ec-type : 5.76
100% 88%
Fusion de 3 feuilles
ENGINETYPE
={ohcv,rotor}
moyenne : 17.42
ec-type : 1.04 Fusion de 2 feuilles
7%

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Régression linéaire multiple
Une technique alternative

Solution : REGRESSION LINEAIRE MULTIPLE


(1) Une combinaison linéaire des variables exogènes
(2) Méthodes des moindres carrés Y = a0 + a1 X 1 + L + aJ X J + ε
(3) Critère des moindres carrés

Coefficients Évaluation des coefficients

Évaluation globale de la régression

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Comparaison Linéaire vs. Non-linéaire

Modèle linéaire vs. Modèle non-linéaire

12

10
9.28
y = 3.2325x + 2.4267
8
7.19

6
6.08

4 4.21 4.23

0.82
0
0 0.5 1 1.5 2 2.5

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Conclusion

En termes de performances
Dans la pratique, les arbres de régression ne se démarquent pas de la régression linéaire

En matière d’exploration
Les arbres sont à privilégier, ils permettent d’identifier des « zones » où les observations
sont homogènes, et procéder alors une estimation locale des paramètres de distribution de Y

Bibliographie
Breiman, Friedman, Olshen and Stone – « Classification and Regression Trees », Chapman &
Hall, 1984.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11