Académique Documents
Professionnel Documents
Culture Documents
Arbres de décision
Pr Pierre Collet
Campus Numérique des Systèmes Complexes
UniTwin UNESCO CS-DC
Département d’Informatique de
L’UFR Mathématique et Informatique de
L’Université de Strasbourg
Pierre.Collet@unistra.fr
Jouer : 9oui/5non
Ensoleillement
humidité Vent
Ensoleillement
« pures » (tout oui / tout non). Soleil : 2oui/3non couvert : 4oui ! pluie : 3oui/2non
humidité
<77.5% : 2oui ! >77.5% : 3non !
0 si indépendance
Si l’on commence par des variables discrètes, quelles sont les valeurs des
t de Tschuprow pour :
Ensoleillement : 0.3559
Vent . . . . . . . . : 0.2582
Quelle est la variable la plus « importante » ? (Celle dont dépend le plus
la décision d’aller jouer au golf, et qu’on mettra donc en premier dans
l’arbre ?)
Pierre Collet : Intelligence
23
Artificielle
Tableau de contingence pour variables réelles
Maintenant, en étudiant le cas « soleil »
Comment choisir la bonne variable de
segmentation ?
Calculer le t de Tschuprow pour les
variables autres que Ensoleillement.
Comment fait-on pour les variables
continues ?
S’il y a du soleil « humidité » peut
Jouer : 9oui/5non
prendre les valeurs :
70 - - - 85 - - - 90 - - - 95
Ensoleillement
Déterminer le t pour toutes les valeurs Soleil : 2oui/3non couvert : 4oui ! pluie : 3oui/2non
médianes (77.5, 87.5, 92.5)
humidité
??? ???
Ensoleillement
humidité
<77.5% : 2oui ! >77.5% : 3non !