4 Arbres Regression

Prédiction d’une variable continue
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Principes de la régression
Prédiction d’une variable continue à partir d’une

série de variables de type quelconque
Y = f ( X 1 ,K, X J )
Variable à prédire, endogène Variable prédictives, enxogènes, descripteurs

Forcément continue Continues et/ou discrètes
A définir :
(1) La forme de la fonction f
(2) L’estimation de ses paramètres à partir de l’échantillon d’apprentissage
(3) Le critère d’évaluation de la qualité de l’estimation
Solution : ARBRE DE REGRESSION

(1) Un arbre logique
(2) Segmentation de manière à obtenir des groupes « purs » sur Y
(3) Critère des moindres carrés
Ricco Rakotomalala
Arbres de régression
Structure générale et éléments clés
Positionnement du groupe
Comment définir la « bonne »

CURBWEIGHT taille de l’arbre ?
<=2399.50
moyenne : 38.00
FUEL ec-type : 3.37
={diesel} 4%
moyenne : 30.40
ec-type : 6.99 CURBWEIGHT
9% > 2399.50
moyenne : 25.33
Taille relative du groupe ec-type : 3.13
5%
moyenne : 26.27
ec-type : 6.17 HORSEPOWER
100% <=79.00
moyenne : 31.94
FUEL ec-type : 4.32
={gas} 32%
moyenne : 25.85
Homogénéité du groupe
ec-type : 5.93 HORSEPOWER
91% > 79.00
moyenne : 22.59
ec-type : 3.67
59%
Comment choisir la
Variable de segmentation ?
Comment choisir la
borne de discrétisation ?
Ricco Rakotomalala
Critère pour la segmentation – L’équation d’ANOVA
ENGINETYPE
={dohc}
moyenne : 20.50
ec-type : 3.50
5%
Choisir la segmentation de manière à ce que
(1) Les moyennes soient le plus disparates
ENGINETYPE
={l,ohcf,ohc} possibles entre les groupes
moyenne : 26.27 moyenne : 27.33
ec-type : 6.17 ec-type : 5.76
100% 88% ou (de manière équivalente)
ENGINETYPE
={ohcv,rotor} (2) Les valeurs soient le plus proches
moyenne : 17.42
ec-type : 1.04 possibles dans les groupes
7%
Équation d’analyse de variance : TSS = BSS + WSS

2 2 nl 2 Choix de la variable de segmentation
n L L
∑ (y − y ) = ∑ n l (y l − y ) + ∑ ∑ (y − yl )
X j* = arg max BSS (X j )
i il
i =1 l =1 l =1 i =1
j
n x V.Totale n x V. Inter-classes n x V. Intra-classes
Ricco Rakotomalala
Traitement des variables continues
60
50
HORSEPOWER
40
<=79.00
City-MPG
moyenne : 32.53
ec-type : 4.59 30
36%
moyenne : 26.27
HORSEPOWER 20
ec-type : 6.17
100% > 79.00
moyenne : 22.75 10
ec-type : 3.66
64%
0
0 20 40 60 80 100 120 140 160 180 200 220
Horsepower
BSS ( X ) = n1 × ( y1 − y ) + n2 × ( y2 − y )
Trouver le point de coupure (discrétisation) 2 2
sur X tel que BSS est maximum
n1 × n2
BSS ( X ) = × ( y1 − y2 )
2
Ou, de manière équivalente
n1 + n2
Ricco Rakotomalala
Règles d’arrêt – Pre-pruning
Critères empiriques pour contrôler la taille de l’arbre

• Effectif minimum pour segmenter
• Nombre de niveaux de l’arbre
Critère statistique (AID) : probabilité critique pour la segmentation

Si p-value de l’ANOVA est inférieure au seuil, on segmente
Ricco Rakotomalala
Post-pruning avec CR-T
Apprentissage en deux phases
(1) Expansion [growing] maximiser l’homogénéité des groupes n
(2) Elagage [pruning] minimiser l’erreur de prédiction au sens des moindres carrés E = ∑ ( yˆ − yi )
2
i
i =1
0.8
0.7
0.6
0.5
Apprentissage
0.4 Vraie erreur
0.3
0.2
0.1
0
0 50 100 150 200 250
La stratégie de l’élagage est la même que pour la discrimination :

• Définir une séquence d’arbres de coût-complexité équivalents
• Choisir dans la séquence, celle qui minimise l’erreur sur un fichier d’élagage
• Éventuellement, donner une préférence à la simplicité en introduisant la règle de l’écart-type
Ricco Rakotomalala
Regroupement des feuilles issues d’une segmentation
2 approches différentes selon C-RT et AID

(1) C-RT : arbre toujours binaire trouver le regroupement qui maximise BSS
(2) AID : arbre m-aire regrouper les feuilles très proches au sens de Y
• On fusionne les 2 feuilles les plus proches (comparaison de moyennes – test de Student)
• On réitère l’opération tant que la p-value est supérieure à la probabilité critique pour
la fusion
Remarque : il est tout à fait possible que toutes les feuilles soient regroupées en une feuille unique
ENGINETYPE
={dohc}
moyenne : 20.50
ec-type : 3.50 Pas de fusion
5%
ENGINETYPE
={l,ohcf,ohc}
moyenne : 26.27 moyenne : 27.33
ec-type : 6.17 ec-type : 5.76
100% 88%
Fusion de 3 feuilles
ENGINETYPE
={ohcv,rotor}
moyenne : 17.42
ec-type : 1.04 Fusion de 2 feuilles
7%
Ricco Rakotomalala
Régression linéaire multiple
Une technique alternative
Solution : REGRESSION LINEAIRE MULTIPLE

(1) Une combinaison linéaire des variables exogènes
(2) Méthodes des moindres carrés Y = a0 + a1 X 1 + L + aJ X J + ε
(3) Critère des moindres carrés
Coefficients Évaluation des coefficients
Évaluation globale de la régression
Ricco Rakotomalala
Comparaison Linéaire vs. Non-linéaire
Modèle linéaire vs. Modèle non-linéaire
12
10
9.28
y = 3.2325x + 2.4267
8
7.19
6
6.08
4 4.21 4.23
0.82
0
0 0.5 1 1.5 2 2.5
Ricco Rakotomalala
Conclusion
En termes de performances
Dans la pratique, les arbres de régression ne se démarquent pas de la régression linéaire
En matière d’exploration
Les arbres sont à privilégier, ils permettent d’identifier des « zones » où les observations
sont homogènes, et procéder alors une estimation locale des paramètres de distribution de Y
Bibliographie
Breiman, Friedman, Olshen and Stone – « Classification and Regression Trees », Chapman &
Hall, 1984.
Ricco Rakotomalala

4 Arbres Regression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

4 Arbres Regression

Transféré par

Droits d'auteur :

Formats disponibles

Prédiction d’une variable continue

Prédiction d’une variable continue à partir d’une

Variable à prédire, endogène Variable prédictives, enxogènes, descripteurs

Solution : ARBRE DE REGRESSION

Comment définir la « bonne »

Équation d’analyse de variance : TSS = BSS + WSS

n x V.Totale n x V. Inter-classes n x V. Intra-classes

Critères empiriques pour contrôler la taille de l’arbre

Critère statistique (AID) : probabilité critique pour la segmentation

0.4 Vraie erreur

La stratégie de l’élagage est la même que pour la discrimination :

2 approches différentes selon C-RT et AID

Solution : REGRESSION LINEAIRE MULTIPLE

Coefficients Évaluation des coefficients

Évaluation globale de la régression

Modèle linéaire vs. Modèle non-linéaire

Vous aimerez peut-être aussi