Académique Documents
Professionnel Documents
Culture Documents
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Principes de la régression
Y = f ( X 1 ,K, X J )
A définir :
(1) La forme de la fonction f
(2) L’estimation de ses paramètres à partir de l’échantillon d’apprentissage
(3) Le critère d’évaluation de la qualité de l’estimation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Arbres de régression
Structure générale et éléments clés
Positionnement du groupe
Comment choisir la
Variable de segmentation ?
Comment choisir la
borne de discrétisation ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Arbres de régression
Critère pour la segmentation – L’équation d’ANOVA
ENGINETYPE
={dohc}
moyenne : 20.50
ec-type : 3.50
5%
Choisir la segmentation de manière à ce que
(1) Les moyennes soient le plus disparates
ENGINETYPE
={l,ohcf,ohc} possibles entre les groupes
moyenne : 26.27 moyenne : 27.33
ec-type : 6.17 ec-type : 5.76
100% 88% ou (de manière équivalente)
ENGINETYPE
={ohcv,rotor} (2) Les valeurs soient le plus proches
moyenne : 17.42
ec-type : 1.04 possibles dans les groupes
7%
∑ (y − y ) = ∑ n l (y l − y ) + ∑ ∑ (y − yl )
X j* = arg max BSS (X j )
i il
i =1 l =1 l =1 i =1
j
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Arbres de régression
Traitement des variables continues
60
50
HORSEPOWER
40
<=79.00
City-MPG
moyenne : 32.53
ec-type : 4.59 30
36%
moyenne : 26.27
HORSEPOWER 20
ec-type : 6.17
100% > 79.00
moyenne : 22.75 10
ec-type : 3.66
64%
0
0 20 40 60 80 100 120 140 160 180 200 220
Horsepower
BSS ( X ) = n1 × ( y1 − y ) + n2 × ( y2 − y )
Trouver le point de coupure (discrétisation) 2 2
sur X tel que BSS est maximum
n1 × n2
BSS ( X ) = × ( y1 − y2 )
2
Ou, de manière équivalente
n1 + n2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Arbres de régression
Règles d’arrêt – Pre-pruning
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Arbres de régression
Post-pruning avec CR-T
Apprentissage en deux phases
(1) Expansion [growing] maximiser l’homogénéité des groupes n
(2) Elagage [pruning] minimiser l’erreur de prédiction au sens des moindres carrés E = ∑ ( yˆ − yi )
2
i
i =1
0.8
0.7
0.6
0.5
Apprentissage
0.3
0.2
0.1
0
0 50 100 150 200 250
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Arbres de régression
Regroupement des feuilles issues d’une segmentation
(2) AID : arbre m-aire regrouper les feuilles très proches au sens de Y
• On fusionne les 2 feuilles les plus proches (comparaison de moyennes – test de Student)
• On réitère l’opération tant que la p-value est supérieure à la probabilité critique pour
la fusion
Remarque : il est tout à fait possible que toutes les feuilles soient regroupées en une feuille unique
ENGINETYPE
={dohc}
moyenne : 20.50
ec-type : 3.50 Pas de fusion
5%
ENGINETYPE
={l,ohcf,ohc}
moyenne : 26.27 moyenne : 27.33
ec-type : 6.17 ec-type : 5.76
100% 88%
Fusion de 3 feuilles
ENGINETYPE
={ohcv,rotor}
moyenne : 17.42
ec-type : 1.04 Fusion de 2 feuilles
7%
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Régression linéaire multiple
Une technique alternative
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Comparaison Linéaire vs. Non-linéaire
12
10
9.28
y = 3.2325x + 2.4267
8
7.19
6
6.08
4 4.21 4.23
0.82
0
0 0.5 1 1.5 2 2.5
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Conclusion
En termes de performances
Dans la pratique, les arbres de régression ne se démarquent pas de la régression linéaire
En matière d’exploration
Les arbres sont à privilégier, ils permettent d’identifier des « zones » où les observations
sont homogènes, et procéder alors une estimation locale des paramètres de distribution de Y
Bibliographie
Breiman, Friedman, Olshen and Stone – « Classification and Regression Trees », Chapman &
Hall, 1984.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11