Vous êtes sur la page 1sur 9

Didacticiel - Etudes de cas

R.R.

Objectif
Montrer lutilisation de la macro complmentaire TANAGRA.XLA dans le tableur EXCEL. De nombreux utilisateurs sappuient sur EXCEL pour la gestion de leurs donnes. Cest un outil relativement efficace et largement diffus. Calculer des statistiques intermdiaires, crer de nouvelles variables, sont des oprations qui peuvent tre ralises trs simplement, sans connaissances pralables mirobolantes sur la manipulation de donnes. Lenjeu par la suite est de pouvoir faire le pont entre le tableur, un environnement familier des utilisateurs, vers un logiciel de Data Mining, moins courant mais absolument ncessaire ds lors que lon veut raliser des tudes plus sophistiques. La premire solution consiste importer les fichiers au format XLS. Propose par de nombreux logiciels, cette option comporte un inconvnient : une fois le fichier import, nous ne disposons plus des outils de manipulation de donnes dEXCEL. Plus ennuyeux pour les dveloppeurs, il faut pouvoir suivre les diffrentes versions du format XLS. Elles ne sont pas toujours disponibles. Dans TANAGRA, nous avons la garantie que limportation fonctionne pour les versions 97, 2000 et 2003 dEXCEL. Au-del, tout dpend de lvolution du format. Une autre solution consiste programmer les mthodes de Data Mining sous forme de macros complmentaires. Elles deviennent donc de nouvelles fonctionnalits du tableur. Plusieurs logiciels commerciaux sappuient sur ce schma. Malheureusement, tant principalement pilots par menu, ces logiciels ne nous permettent pas denchaner automatiquement les traitements, ni de disposer dune trace de la succession doprations ralises. Pour le dveloppeur, mme si les algorithmes de traitement peuvent tre implments dans des DLL compiles, il faut quand mme beaucoup dinvestissement en VBA pour la dfinition des interfaces de slection des donnes, le paramtrage des mthodes, etc. Enfin, la dernire solution recense serait dintgrer le tableur comme une partie du logiciel de Data Mining. Nous avons explor cette option via la technologie OLE. Lide semble viable. Nous lavons mise en uvre (voir XL-SIPINA, http://eric.univ-lyon2.fr/~ricco/sipina.html). Mais, cause de la technologie utilise, peut-tre aussi parce que nous la matrisons de manire approximative, le systme obtenu est relativement lent et peu fiable. Ne voulant pas investir trop de temps de dveloppement dans ce qui nest quun exercice de style, nous navons pas voulu aller plus loin. Bref, la jonction entre EXCEL et TANAGRA restait ce jour une question dlicate. Certes, il tait dj possible dimporter des fichiers XLS dans TANAGRA. Mais seule la premire feuille de calcul tait accessible. De plus, lobligation de fermer EXCEL, qui verrouille le fichier, avant dimporter les donnes tait une source derreur frquente, sans parler des incertitudes concernant les versions de fichiers. Nous avons donc ajout une nouvelle fonctionnalit faisant le pont entre EXCEL et TANAGRA, indpendamment de la version du fichier XLS et sans avoir fermer la session de travail sous EXCEL. Toujours en accord avec notre philosophie, nous avons opt pour une approche simplifie lextrme. Elle passe par une macro complmentaire (TANAGRA.XLA), dont le rle consiste dfinir la slection de lutilisateur, puis excuter automatiquement TANAGRA. La transmission des donnes, qui est la phase critique, emprunte un canal indit : le presse-papiers. Les exprimentations montrent que ce dispositif est fiable et performant. Lutilisateur, qui travaille sous EXCEL, peut tout moment lancer une session de DATA MINING en activant un nouveau menu. Toutes les oprations de prparation et de transfert sont transparentes. Il se retrouve instantanment dans lenvironnement de TANAGRA avec un nouveau diagramme. Il dispose alors de toutes les fonctionnalits dun logiciel de Data Mining, notamment la possibilit denchaner les traitements en les traant sous forme de diagramme.

22/11/2006

Page 1 sur 9

Didacticiel - Etudes de cas

R.R.

Dans ce didacticiel, nous montrons comment installer cette nouvelle macro complmentaire et raliser un traitement sur un fichier de donnes. Cette fonctionnalit est disponible depuis la version 1.4.11 de TANAGRA.

Installer la macro complmentaire dans EXCEL


Vrifier la prsence de la macro complmentaire
Tout dabord, nous devons nous assurer que la version installe de TANAGRA possde bien la fonctionnalit voulue. Le plus simple est de vrifier la prsence de la macro complmentaire TANAGRA.XLA dans le rpertoire dinstallation du logiciel (la plupart du temps, il sagira de c:\program files\tanagra ). Il est important de ne pas dplacer ce fichier, il cherchera lexcutable lors de son activation.

Installer la macro complmentaire dans EXCEL


Ltape suivante consiste lancer le tableur EXCEL. activons le menu OUTILS/MACRO COMPLEMENTAIRES. Pour installer la macro complmentaire, nous

Une bote de dialogue apparat, nous devons alors chercher le fichier TANAGRA.XLA dans le rpertoire dinstallation de TANAGRA.

22/11/2006

Page 2 sur 9

Didacticiel - Etudes de cas

R.R.

La macro complmentaire est alors charge dans EXCEL, nous devons veiller ce quelle soit active.

Aprs avoir valid, nous constatons quun nouveau menu est disponible dans EXCEL.

A partir de maintenant, tant que nous navons pas dsactiv la macro complmentaire, ce nouveau menu sera disponible chaque dmarrage du tableur EXCEL.

Travailler sur un fichier


Pour illustrer le fonctionnement du package, nous chargeons le fichier WEATHER.XLS de Quinlan (1993).

22/11/2006

Page 3 sur 9

Didacticiel - Etudes de cas

R.R.

Slectionner les donnes


Avant de lancer la macro TANAGRA, il est conseill de slectionner les donnes de travail. Nous pouvons modifier cette slection par la suite mais il est plus facile de le faire au pralable. Attention, la premire ligne de la slection doit correspondre au nom des attributs. Le typage utilise une rgle trs simple : si la premire donne de la colonne (la deuxime ligne de la slection) est numrique, la variable est considre continue ; elle est dfinie catgorielle dans le cas contraire.

Activer le menu TANAGRA / EXECUTE TANAGRA


Nous activons alors le nouveau menu TANAGRA / EXECUTE TANAGRA dans EXCEL.

22/11/2006

Page 4 sur 9

Didacticiel - Etudes de cas

R.R.

Une bote de dialogue apparat, elle vous permet de vrifier si la slection convient, et de la corriger le cas chant.

Tout va bien dans notre exemple, il ne nous reste plus alors qu valider la manipulation en cliquant sur le bouton OK. Le logiciel TANAGRA est alors automatiquement excut avec les donnes slectionnes.

Nous constatons que les donnes ont t exportes (14 observations et 5 attributs). Les variables ont t automatiquement types.

22/11/2006

Page 5 sur 9

Didacticiel - Etudes de cas

R.R.

Travailler dans TANAGRA


Nous voulons calculer quelques statistiques descriptives sur les variables discrtes. Dans un premier temps, nous devons spcifier les variables de travail. Le composant DEFINE STATUS est tout indiqu pour cela, nous pouvons le placer automatiquement dans le diagramme en utilisant le raccourci dans la barre doutil.

Le composant est ajout dans le diagramme et la bote de paramtrage apparat. Nous plaons toutes les variables discrtes en INPUT et nous validons.

Pour visualiser les rsultats de la manipulation, nous cliquons sur le menu contextuel VIEW du composant. La slection est clairement indique.

22/11/2006

Page 6 sur 9

Didacticiel - Etudes de cas

R.R.

Enfin, dernire tape dans TANAGRA, nous insrons le composant de calcul dans le diagramme. Dans notre exemple, il sagit du composant UNIVARIATE DISCRETE STAT situ dans longlet STATISTICS.

Nous le slectionnons, puis nous le plaons sur le composant DEFINE STATUS. Les rsultats sont affichs lorsque nous cliquons sur le menu contextuel VIEW.

22/11/2006

Page 7 sur 9

Didacticiel - Etudes de cas

R.R.

Rcuprer les rsultats dans EXCEL


A tout moment, il est possible de rcuprer les rsultats, au format HTML, dans une feuille du tableur EXCEL. Pour ce faire, nous activons le menu COMPONENT / COPY RESULTS.

22/11/2006

Page 8 sur 9

Didacticiel - Etudes de cas

R.R.

Puis dans le classeur EXCEL, aprs avoir ajout une feuille de calcul dans le classeur courant, nous collons les rsultats. Selon le cas, le formatage est plus ou moins respect mais lessentiel y est.

Conclusion -- Evaluation des performances


Une des questions cls de cette nouvelle fonctionnalit est la rapidit du passage dEXCEL TANAGRA. Si lutilisation du presse-papiers WINDOWS est lente et trop gourmande en ressources, les aspects de temps de calcul prennent le pas sur le ct pratique de la chose. Dans ce cas, il serait plus indiqu dexporter le fichier EXCEL et de limporter dans TANAGRA via le dispositif habituel. Pour valuer cela, et surtout pour se donner une ide de la taille critique partir de laquelle il devient plus judicieux de passer par un systme dexportation/importation de fichier, nous avons test notre procd sur plusieurs fichiers, dont le fichier SHUTTLE.XLS comportant 58000 observations et 10 variables distribu avec ce didacticiel. Vous pourrez reproduire lexprience chez vous, le passage dEXCEL TANAGRA dure quelques secondes. Nous avons constat que dans la plupart des cas, pour les tailles de fichiers acceptes par EXCEL, le passage se fait quasiment instantanment.

22/11/2006

Page 9 sur 9