Vous êtes sur la page 1sur 116

Copie No :_________

DVELOPPEMENT DES TECHNOLOGIES GOSPATIALES.


Livrable 1- Dfinition dune chane de production de donnes multidimensionnelles gospatiales

Marie-Jose Proulx, M.Sc., professionnelle de recherche, Suzie Larrive, B.Sc.A., professionnelle de recherche, veline Bernier, M.Sc., professionnelle de recherche, Yvan Bdard, PhD., professeur-chercheur Titulaire de la chaire de recherche industrielle CRSNG en bases de donnes Centre de recherche en gomatique, Universit Laval, godcisionnelles de lUniversit Laval.

Chaire de recherche industrielle CRSNG en bases de donnes godcisionnelles, Centre de recherche en gomatique, Universit Laval

2006-05-25

http://mdspatialdb.chair.scg.ulaval.ca/

Table des matires


1. 2. 3. Mise en contexte............................................................................................................ 9 Rappel des concepts multidimensionnels. ................................................................... 11 Chane de production de donnes multidimensionnelles gospatiales ........................ 12 3.1. Chane de production de donnes................................................................... 12 3.1.1. 3.1.2. 3.1.3. 3.1.4. 3.2. 4. Dmarrage: ........................................................................................ 13 Llaboration du systme: ................................................................. 14 Construction du systme: .................................................................. 15 Transition du systme:....................................................................... 16

Spcificits de la chane de production pour les donnes dcisionnelles ....... 17

Analyse des fonctionnalits de logiciels daccs aux donnes. ................................... 18 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. Syntell 4i (Syntell):......................................................................................... 20 JMAP Spatial OLAP (Kheops-Technologies)................................................ 21 OLAP Add-On for ArcGIS (ESRI) ................................................................ 22 SAS 9.9- SAS Web OLAP Viewer for Java (SAS)........................................ 23 Cognos 8 BI (Cognos) .................................................................................... 24 Proclarity 2.0 ................................................................................................. 25

5.

Analyse du potentiel des solutions dj utilises par RDDC pour produire des donnes gospatiales.................................................................................................................. 27 Solutions logicielles dun grand intrt pour lextraction, le traitement et le chargement des donnes dans une application SOLAP............................................... 29 6.1. Trois outils dun grand intrt pour lETL ..................................................... 30 6.1.1. Produits FME .................................................................................... 30 6.1.1.1. 6.1.1.2. 6.1.1.3. 6.1.1.4. 6.1.2. 6.1.2.1. FME ............................................................................... 30 Spatialdirect - FME Web Services................................. 31 FME Data Servers.......................................................... 31 FME Developer Tools ................................................... 31 JUMP Unified Mapping Platform.................................. 31

6.

Produits de Vivid Solutions............................................................... 31

6.1.2.2. 6.1.2.3. 6.1.2.4. 6.1.3. 6.2. 6.2.1. 6.2.2. 6.2.3. 6.2.4. 6.2.5. 6.2.6. 6.2.7. 6.2.8. 6.2.9.

JTS Topology Suite ....................................................... 32 RoadMatcher.................................................................. 32 JCS Conflation Suite...................................................... 32

GEOXYGENE .................................................................................. 33 Slection et extraction ....................................................................... 34 Nettoyage des donnes ...................................................................... 36 Intgration de donnes....................................................................... 37 Intgration informatique.................................................................... 38 Intgration smantique ...................................................................... 38 Fusion multisource ............................................................................ 38 Intgration horizontale ...................................................................... 39 Intgration verticale........................................................................... 40 Intgration gospatiale ...................................................................... 40

Oprations ETL .............................................................................................. 34

6.2.10. Passage de primitives objet explicite. ............................................. 40 6.2.11. Passage dattributs graphiques textuels des attributs descriptifs. ... 40 6.2.12. Intgration temporelle ....................................................................... 41 6.2.13. Gnralisation cartographique des donnes ...................................... 41 6.2.13.1. 6.2.13.2. 6.2.13.3. 6.2.13.4. 6.2.13.5. 6.2.13.6. 6.2.13.7. 6.2.13.8. 6.2.13.9. Raffinement ................................................................... 42 Agrgation des donnes ................................................. 43 Reclassification.............................................................. 44 Rduction de dimension................................................. 46 Simplification des donnes ............................................ 47 Resymbolisation............................................................. 48 Caractrisation ............................................................... 48 Exagration symbolique ................................................ 49 Dplacement .................................................................. 49

6.2.13.10. Dformation ................................................................... 49 6.2.13.11. Lissage ........................................................................... 49 6.2.14. Traitement des images....................................................................... 50 6.2.15. Traitements des donnes 3D.............................................................. 50 6.2.16. Autres oprations intressantes ......................................................... 50 6.3. Conclusion...................................................................................................... 51

7.

Nouveaux outils produits dans le cadre de la chaire de recherche industrielle en bases de donnes gospatiales dcisionnelles. ...................................................................... 53 7.1. 7.2. 7.3. 7.4. Mthode et outils danalyse des besoins des utilisateurs................................ 53 Outils supportant llaboration de systmes................................................... 54 Outils supportant la construction de systmes................................................ 55 Outils supportant la transition du systme...................................................... 56

8.

Intgration des diffrents outils dans la chane de production de donnes multidimensionnelles propose. .................................................................................. 58 8.1. 8.2. Bilan de la situation organisationnelle: .......................................................... 58 Exploration des donnes:................................................................................ 58 8.2.1. 8.2.2. 8.3. 8.3.1. 8.3.2. 8.4. 8.4.1. 8.4.2. 8.4.3. Inventorier les donnes :.................................................................... 58 valuer les besoins et produire une maquette : ................................. 60 Modliser les systmes oprationnel et multidimensionnel : ............ 62 Dfinir les contraintes dintgrit...................................................... 63 Choix des plateformes et implantation de larchitecture du systme. 64 Dvelopper le systme....................................................................... 66 Extraire, transformer et charger les donnes : ................................... 68 8.4.3.1. 8.4.3.2. 8.4.4. Donnes descriptives : ................................................... 68 Donnes gospatiales :................................................... 69

Conception du systme :................................................................................. 62

Ralisation du systme : ................................................................................. 64

Tester la validit du processus ETL. ................................................. 72

9. 10.

Conclusion................................................................................................................... 75 Rfrences ................................................................................................................... 76

Annexe A- Lecture suggre 1. ................................................................................................ 78 Annexe B : Lecture suggre 2................................................................................................ 96 Annexe C : Formats matriciels supports par ArcGIS. .......................................................... 100 Annexe D : Formats de donnes supports par GDAL. ......................................................... 103 Annexe E - Formats supports par FME 2006 ....................................................................... 106

Annexe F Formats supports par Spatialdirect.................................................................... 114 Annexe G Synthse des oprateurs de gnralisation cartographique prsent par Martel [1999] ........................................................................................................................ 116

Liste des figures


Figure 1. Chane de production de donnes introduites dans les phases de dveloppement de la mthode UP. ...................................................................................................................... 13 Figure 2. Application CITS-Gestion dinventaire cartographique. ................................... 20 Figure 3. Application SOLAP-Sport ........................................................................................ 21 Figure 4. OLAP Add-ON for ArcGIS (ESRI). ......................................................................... 22 Figure 5. SAS 9.9- SAS Web OLAP Viewer for Java ............................................................. 23 Figure 6. Cognos 8 BI .............................................................................................................. 24 Figure 7. Proclarity 2.0 ........................................................................................................... 25 Figure 8 : Architecture de la plate-forme GeOxygene avec des exemples de composantes logiciels. [Extrait de Badard, 2005] .................................................................................. 33 Figure 9. Exemple de lutilisation des oprateurs dextraction et slection de FME. .............. 35 Figure 10. Exemple en (a) de dcouverts et (b) de chevauchement. Extrait de JCS Conflation Suite User Guide. .............................................................................................................. 36 Figure 11. Dplacement latral entre deux jeux de donnes de type polygone. Extrait de JCS Conflation Suite User Guide. ............................................................................................ 40 Figure 12. Diffrence entre loprateur Aggregator et Dissolver de FME............................... 44 Figure 13. Exemple de classification de la dimension marges de recul dans un SOLAP. . 45 Figure 14. Classification dun attribut discret avec FME. Loprateur ValueMapper classifie le nombre dtages en 3 catgories, soit 1 3, 4 6 et 7 9 tages.................................. 45 Figure 15. Classification dun attribut continu avec FME. Les oprateurs ExpressionEvaluator, AttributeFilter et AttributeCreator sont utiliss pour crer les classes dtages 30 et moins, 30 70 et 70 et plus............................................................ 46 Figure 16. Distinction entre les oprateurs CenterOfGravityReplacer, CenterLineReplacer , CenterPointReplacer.......................................................................................................... 47 Figure 17. Exemple de resymbolisation. gauche, reprsentation simplifie (lensemble des objets ont le mme symbole) et droite reprsentation plus dtaille (symboles diffrents selon le type de btiment).................................................................................................. 48

Figure 18. Outils pouvant tre utiliss dans la chane de production des donnes aux tapes dexploration des donnes................................................................................................. 61 Figure 19. Outils pouvant tre utiliss dans la chane de production des donnes aux tapes de conception de systme....................................................................................................... 64 Figure 20. Diffrentes architectures OLAP possibles pour la ralisation du systme.............. 66 Figure 21. Outils pouvant tre utiliss dans la chane de production des donnes ltape dimplantation de la structure multidimensionnelle. ......................................................... 68 Figure 22. Outils pouvant tre utiliss dans la chane de production des donnes ltape dextraction, de transformation et dintgration................................................................ 71 Figure 23. Outils pouvant tre utiliss dans la chane de production des donnes ltape des tests de validation. ............................................................................................................. 72

Liste des tableaux


Tableau 1. Syntell 4i (Syntell).................................................................................................. 20 Tableau 2. JMAP Spatial OLAP (Kheops-Technologies) ....................................................... 21 Tableau 3. OLAP Add-ON for ArcGIS (ESRI)....................................................................... 22 Tableau 4. SAS 9.9- SAS Web OLAP Viewer for Java .......................................................... 23 Tableau 5. Cognos 8 BI (Cognos) ............................................................................................ 24 Tableau 6. Proclarity 2.0......................................................................................................... 25 Tableau 7. Tableau synthse des outils clients ......................................................................... 26 Tableau 8. Domaines dapplication des types doprateurs de gnralisation. Extrait de Martel [1997]. ............................................................................................................................... 42 Tableau 9. Synthse de la planification de dveloppement des outils..................................... 57

1. Mise en contexte
Partout dans le monde, de nombreuses organisations dpensent des sommes colossales en acquisition de donnes localises sur le territoire. La production cartographique, l'tablissement de relations avec les bases de donnes internes lorganisation et l'analyse spatiale de ces donnes relvent du domaine de la gomatique qui reprsente un march annuel de plusieurs dizaines de milliards de dollars. Cependant, les donnes ainsi produites sont surtout de nature oprationnelle et par consquent difficiles exploiter des fins dcisionnelles, fins qui demandent des informations multisources, agrges, des comparaisons dans l'espace et le temps, des synthses, des mesures de tendances, des rponses rapides des requtes imprvues, etc. D'importants efforts sont dploys depuis une quinzaine d'annes pour mettre en place des systmes d'aide la dcision gospatiale, mais ces systmes reposent sur les systmes d'information gographique (SIG) et les approches transactionnelles habituelles (OLTP) pour produire l'information godcisionnelle, souvent avec des dlais inacceptables, voire des cots prohibitifs au point d'en laisser tomber la production. Cette situation nuit la prise de dcision tactique/stratgique (ex. dploiement des ressources, de nouvelles infrastructures) et devient particulirement problmatique en situation d'urgence o tout retard peut avoir des impacts majeurs. Cette difficult de produire l'information gospatiale dcisionnelle provient de cinq problmes : (1) des mthodes inadquates de conception de bases de donnes gospatiales fins dcisionnelles, (2) la difficult d'agrger et synthtiser des donnes cartographiques htrognes, (3) la difficult d'valuer la qualit de l'information gospatiale agrge, (4) une sous-exploitation des technologies de l'information et des communications, et (5) un manque de technologies dcisionnelles gospatiales efficaces . (Bdard,Y., M.J. Proulx & S. Rivest, 2005) La prsente tude vise identifier les besoins spcifiques pour la mise en place dun systme multidimensionnel qui sintroduit dans une dmarche denvergure dentrept de donnes ou de petits comptoirs de donnes. Indpendamment de lorientation prise, plusieurs technologies entrent en liste lorsque vient le temps de prparer les donnes multidimensionnelles partir de plusieurs sources. De plus, le processus de production de ces donnes est directement influenc par la richesse des fonctions analytiques dsires. Par consquent, cette tude vise proposer une chane de production utilisant diffrents outils et mthodes afin de raliser un systme multidimensionnel. Les aspects suivants seront abords. Dabord un rappel des concepts multidimensionnels est ncessaire pour permettre au lecteur de comprendre la suite du document (cf. section 2). La dfinition en temps que telle dune chane de production des donnes multidimensionnelles sera introduite (cf. section 3). Lanalyse de diffrentes architecture de donnes multidimensionnelles sera prsenter et des solutions commerciales prsentes (cf. section 4). Ensuite, lanalyse des solutions dj utilises par RDDC pour produire des donnes gospatiales seront valuation pour la production de donnes multidimensionnelles (cf. section 5). De nouvelles solutions pouvant tre dun grand intrt pour RDDC seront aussi proposes (cf. section 6).

Ensuite, la prsentation des outils logiciels planifis dans le programme de R&D de la chaire de recherche pouvant tre dintrt pour RDDC seront prsenter afin de les intgrer lorsque souhaitable dans la chane de production (cf. section 7). Finalement, lintgration de tous les outils discuts prcdemment sera faite lintrieur de la chane de production (cf. section 8). Nous couvrirons lensemble du processus, depuis la conception jusqu la lexploitation et lanalyse des donnes multidimensionnelles, en passant par lextraction, la transformation, le chargement des donnes et la gestion des donnes multidimensionnelles spatiales. Cette chane de production sarrimera ainsi avec les technologies utilises au RDDC.

2. Rappel des concepts multidimensionnels.


Les concepts multidimensionnels sorientent autour de deux aspects fondamentaux: les cube de donnes ainsi que les technologies danalyse en ligne (ou OLAP) et leur architecture. Lapproche des bases de donnes multidimensionnelles introduit des concepts qui diffrent des concepts relis aux bases de donnes communment utilises qui sont qualifies de transactionnelles. La technologie danalyse en ligne permet la visualisation cartographique des donnes, la navigation cartographique dans la carte elle-mme ou dans les symboles affichs sur cette carte et ceci selon diffrents types de forage. La lecture des rfrences suivante qui se trouve en annexe au prsent rapport est recommande. Rvision des concepts multidimensionnels et aperu des applications possibles. Bdard Y., M.J. Proulx & S. Rivest, 2005, Enrichissement du OLAP pour l'analyse gographique : exemples de ralisation et diffrentes possibilits technologiques, Revue des Nouvelles Technologies de l'Information - Entrepts de donnes et l'Analyse en ligne, sous la direction de F. Bentayeb, O. Boussad, J. Darmont et S. Loudcher, Cpadus-ditions, France, pp. 1-20.

3. Chane de production de donnes multidimensionnelles gospatiales


3.1. Chane de production de donnes.
Afin de produire efficacement des donnes dcisionnelles, il est primordial davoir en tte une chane de production permettant dillustrer les tapes cls dans la production de donnes en gnral. La chane de production prsente dans cet ouvrage est base sur la mthode de dveloppement UP (Unified Process). Cette mthode est une vision itrative et incrmentale de dveloppement de systme o chaque phase est dfinie partiellement a priori puis raffine durant sa ralisation. Il existe quatre phases de dveloppement de systme selon la mthode UP. Le dmarrage : Cette phase consiste en une tude de faisabilit ou une enqute minimale afin de supporter la dcision de continuer ou darrter le dveloppement. Llaboration : Cette phase consiste lidentification de la majorit des besoins et de la porte du systme, on procde limplantation du cur de larchitecture de faon itrative et o les risques levs sont attnus. La construction : Cette phase consiste en limplantation itrative des lments les plus simples et les moins risqus. Elle vise complter le dveloppement (incluant la documentation et le manuel lusager) et prparer les tests et le dploiement. Transition : Tests, dploiement, formation, migration de lancien vers le nouveau systme et mise en opration.

Il est alors possible de positionner les tapes de la chane de production de donnes en regard ces diffrentes phases de dveloppement. Dabord un premier groupe dtapes a pour objectif de dresser le bilan organisationnel, autrement dit identifier les ressources pour le projet. Le second groupe a pour objectif dexplorer les donnes existantes et danalyser les besoins. Troisimement, la conception du systme focus sur les tapes de conception et de modlisation du systme et des processus. Finalement, la ralisation en soi du systme inclut les tapes cls telles que limplantation, lextraction et la transformation des donnes. Cette chane de production de donnes est illustre dans la figure suivante en regard aux phases de dveloppement de systme selon la mthode UP.

Figure 1. Chane de production de donnes introduites dans les phases de dveloppement de la mthode UP.

Dans la section 3.1.1 et suivantes, chaque tapes de la chane de production est discute.

3.1.1.

Dmarrage:
Les premires observations faire lors du dveloppement dune application gospatiale dcisionnelle est danalyser la situation organisationnelle en

termes de ressources disponibles et de contraintes matrielles. Lapplication souhaite doit sarrimer aux systmes dj en place, mais elle doit aussi cadrer avec les contraintes et recommandations organisationnelle en termes darchitecture et de logiciel. Il est primordial de dterminer au dpart les ressources humaines disponibles dans lorganisation, soit lexpertise technique et les types dusagers cibls pour lapplication. Les ressources matrielles en place permettent de savoir sur quelle architecture (systmes oprationnels, entrept de donnes, marchs de donnes, systmes dcisionnels, applications maison) et systmes en place (SGBD, GIS, ETL, etc.) il faudra sarrimer. Ltude du contrle de scurit et de la confidentialit des donnes doit aussi tre faite. cette tape, peu de choses sont directement lies au dveloppement proprement dit et la production des donnes gospatiales dcisionnelles, mis part, si une architecture dentrept de donnes dcisionnel existe dj sur place, on pourrait tenir compte des plateformes utilises pour identifier des formats de donnes produire.

3.1.2.

Llaboration du systme:
Au tout dbut de la chane de production de donnes, il est essentiel de procder lanalyse des besoins des utilisateurs. De plus, il est souhaitable de refaire cette tape dans le cadre dune mise jour du systme afin den assurer lvolutivit. Cette analyse peut tre ralise laide d'observations, interviews, questionnaires et revues de documentation ou encore par maquettage et prototypage. Diverses tudes ont dmontr quil est difficile pour la clientle dexprimer ses besoins pour les applications gomatiques. Ce constat est dautant plus vrai lorsquil sagit dapplications multidimensionnelles. La nouveaut du potentiel godcisionnel, sa dimension analytique et exploratoire ainsi que sa convivialit soulvent souvent des attentes nouvelles, volutives et htrognes lintrieur mme dun projet. Il devient alors avantageux dutiliser des exemples visuels et concrets laide de prototype et de maquette. Cette pratique est rpute la plus efficace pour dcouvrir les besoins des utilisateurs lors du dveloppement de systmes dcisionnels. Parmi les tapes cls de lexploration des besoins, notons, linventaire prliminaire des sources de donnes utilises actuellement (formulaires, graphiques, cartes, atlas) qui permettent de comprendre la thmatique danalyse des usagers. Un inventaire dtaill des sources existantes autant descriptives que gospatiales permettra didentifier les sources externes lorganisation ncessaire pour construire lapplication. Cette tude est essentielle afin dvaluer si les usagers utilisent dj des donnes dcisionnelles ou non. Dans laffirmative, les usagers seront en mesure dexprimer assez clairement leur attentes. Dans la ngative, lobjectif de

lexploration des besoins est de concrtiser des besoins dcisionnels partir des donnes actuelles utilises par les usagers. Ces besoins sont souvent prsents par lquipe de dveloppement puisque les usagers ont peu ou pas de connaissance en analyses dcisionnelles. Par consquent, il est ncessaire de dfinir des analyses multidimensionnelles types en proposant des analyses de nature spatiale et de nature multidimensionnelle. Par cette premire tude, lquipe de dveloppement sera en mesure de dfinir les indicateurs danalyse, les classifications, les thmatiques et les vues appropries pour les donnes. Gnralement, une maquette (ou une liste) illustrant les besoins des utilisateurs est produite afin de valider une dernire fois la comprhension de lquipe de dveloppement. La maquette permet trs souvent aux usagers dexprimer de nouveaux besoins par la visualisation concrte de leur application potentielle. Plus loin lors de llaboration du systme, la modlisation est essentielle la mise en place des bases de donnes ainsi qu la dfinition de lontologie de lapplication (i.e. vocabulaire). Pour les donnes transactionnelles, il existe plusieurs formalismes bien tablis dont le standard UML avec ou sans extensions pour les donnes gospatiales. Du ct dcisionnel, il existe quelques propositions de formalismes non-spatiaux. Cependant, la modlisation formelle des oprations de transformation des donnes sources et dagrgation spatiales permettant la production de donnes agrges, rsumes diffrents niveaux de granularit est encore inexistante dans ces formalismes. partir des rsultats de linventaire prcdent, il sera possible de concevoir larchitecture du systme. Il peut sagir dune architecture 1 tiers, 2 tiers avec entrept de donnes, 2 tiers sans entrepts de donnes ou 3 tiers. La conception des modles conceptuels et dimplantation du systme oprationnel peuvent tre ncessaire, car pour certaines applications dcisionnelles, il ny a pas de systme oprationnel existant au pralable. La comprhension du systme oprationnel permet ensuite la conception des modles conceptuels et dimplantation multidimensionnels (dfinition des mesures, des dimensions et des niveaux).

3.1.3.

Construction du systme:
La mise en place dune base de donnes gospatiales dcisionnelles implique dabord lintgration de donnes provenant de diffrentes sources transactionnelles. Toute intgration de donnes ncessite une slection a priori des sources intgrer, souvent dans un contexte de redondance, d'htrognit et dincompatibilit. Il s'agit d'un des principaux problmes des bases de donnes gospatiales dcisionnelles. Afin dassurer une information de qualit, il devient ncessaire didentifier les meilleures sources

de donnes en considrant leur nature et les efforts d'intgration requis pour une organisation. Les bases de donnes dcisionnelles utilisent des donnes agrges diffrents niveaux afin de supporter les vues globales et locales dsires par l'utilisateur. L'agrgation des donnes non-spatiales est prise en charge par le serveur OLAP ou des outils statistiques. Cependant, les agrgations gospatiales doivent tre effectues laide doutils spcialiss. Ltude des choix de fonctions de fusion, dagrgation, de synthse et de dveloppement dindicateurs font aussi partie de cette tape. Afin de peupler le cube de donnes de qualit, il faut implanter des contraintes d'intgrit lors de l'intgration et de l'agrgation des donnes sources. Il faut valuer les contraintes techniques relies aux systmes actuels et lorganisation et choisir les logiciels pour limplantation de lapplication reposant sur larchitecture propose ou dj en place. Lvaluation et slection des sources de donnes spatiales et descriptives est une tape qui permet de choisir efficacement les donnes utiliser dans lapplication dcisionnelle. Il faut toutefois prendre soin de dfinir les mtadonnes de transformation des donnes sources dans le dictionnaire de donnes au fur et mesure que les transformations seront effectues afin de documenter adquatement le futur systme. Pour les mme raisons, la dfinition des mtadonnes relatives aux agrgations des donnes multidimensionnelles est tout aussi importante. Si ncessaire, le dveloppement du systme oprationnel consistera en lextraction des sources de donnes spatiales et descriptives, leur transformation et leur chargement dans le systme oprationnel qui peut tre implant sous la forme dun entrept de donnes ou non. Le dveloppement du systme dcisionnel (base de donnes multidimensionnelle) consiste tant qu lui lextraction des donnes du systme oprationnel, leur transformation, agrgation et chargement des donnes dans la base de donnes multidimensionnelle. Par la suite, un choix sera fait sur larchitecture retenue pour la structuration des donnes descriptives (Multidimensionnelle OLAP ou Relationnelle OLAP). Ensuite, la structuration des donnes spatiales (par gnralisation cartographique ou reprsentation multi-chelle) pour chaque niveau cartographiable des dimensions spatiales sera requise.

3.1.4.

Transition du systme:
Finalement, des tests sur la validit des rsultats de transformation et dagrgation des donnes doivent tre faits afin dassurer un systme de qualit.

3.2. Spcificits de la chane de production pour les donnes dcisionnelles


Lorsque vient le temps de prsenter une chane de production pour des donnes dcisionnelles, il faut tenir compte des particularits de ce type de systme. Premirement, ltape danalyse des besoins se doit dtre plus exhaustive que lors de la dfinition dun systme transactionnel. Les besoins doivent cerns prcisment puisque les donnes requises pour ces analyses doivent tre prcalcules et souvent stockes dans le systme. Par consquent, pour mieux dfinir les besoins des usagers, la cration dune maquette est souhaitable. Le maquettage est une technique qui permet de surmonter des difficults de spcification dues au manque de prcision dans l'expression des besoins. Elle est un outil permettant de faciliter la communication entre lanalyste et les utilisateurs. Cette activit consiste dvelopper rapidement une bauche du futur systme que les analystes utiliseront pour valider leur comprhension des besoins exprims par les usagers. Le processus de maquettage est itratif. Diffrentes versions de la maquette peuvent tre produites pour parvenir ultimement lillustration complte et fidle des besoins des usagers. Par consquent, la dfinition dune maquette prend du temps et ces efforts doivent tre considrs dans le plan de dveloppement dune application dcisionnelle si lon souhaite atteindre plus prcisment les besoins des usagers. Deuximement, ltape de transformation des donnes est plus vaste. Selon la littrature, cette tape de production de donnes est plus couteuse en temps et en nergie que dautres tapes. Data acquisition and preparation often accounts for over 70% of a typical data integration project, and results in project delays of two to three times the original estimate. (Exeros, 2005). Trs souvent les organisations possdent peu de documentation sur les donnes quelles possdent et encore moins sur la comprhension des relations ou transformations que les donnes ont subies avec le temps. Trop souvent les experts qui comprenaient les donnes ont quitts lorganisation ou ne sont pas disponibles pour participer au processus actuel dintgration. De plus, cette tape qui est trs complexe raliser en soi doit se faire gnralement dune manire manuelle. Peu doutils existent pour automatiser entirement la chane de production de donnes non-spatiale, par consquent, la chane de production de donnes spatiale en ressent les contrecoups. En plus dextraire et de transformer les donnes sources pour les rendre cohrentes et homognes entres-elles, il faut produire des donnes des niveaux agrgs. Ces donnes agrges spatiales ou non sont le rsultat de traitements qui doivent tre pralablement modliss et documents. Leur cration requiert gnralement des processus de calculs complexes et produisent un volume de donnes important. Cependant, bien que des efforts supplmentaires soient requis au niveau de la dfinition des besoins et de lagrgation des donnes, les efforts totaux pour dvelopper une application dcisionnelle sont moindres que les efforts totaux requis pour le dveloppement de lapplication transactionnelle sur laquelle est bas le systme dcisionnel.

4. Analyse des fonctionnalits de logiciels daccs aux donnes.


Lobjectif de cette section est de dtailler les fonctionnalits des logiciels daccs aux donnes multidimensionnelles du march afin de permettre ultrieurement danalyser les besoins gnriques de la production de donnes multidimensionnelles partir de ces technologies. Cette section dcrit, partir dun article publi rcemment (Bdard et al, 20051), trois familles de solutions technologiques pour le dveloppement et limplantation dune application SOLAP, bases sur les technologies utilises et les fonctionnalits disponibles. Ce regroupement en trois familles origine de la diversit des technologies pouvant tre utilises pour remplir les fonctions descriptives et cartographiques dune application SOLAP. Les fonctions du volet descriptif peuvent videmment tre supportes par un serveur OLAP conventionnel ou par un SGDB relationnel ou objetrelationnel avec structure en toile, en flocon ou en constellation. Les avantages d'un serveur OLAP pour le volet descriptif incluent les fonctionnalits dagrgation de donnes et les capacits optimises daccs aux donnes, ce qui augmente la rapidit danalyse pour les grands volumes de donnes. Les fonctions du volet cartographique peuvent, quant elles, tre supportes par un logiciel de visualisation cartographique, un logiciel de cartographie assiste par ordinateur (CAO) ou un SIG. Les trois familles de solutions bases sur les technologies et fonctionnalits disponibles sont : (1) les solutions OLAP dominant, (2) les solutions SIG dominant, et (3) les solutions intgres ou hybrides qui font appel autant aux fonctions OLAP que SIG [LGS Group 2000]. Au sein de cette classification, c'est loutil dominant qui offre ou qui fait appel certaines fonctionnalits minimales de lautre outil. Parfois, l'outil dominant fournit lunique interface graphique de lapplication SOLAP, parfois l'interface unique peut tre dveloppe avec un langage de programmation (ex. Java, VB, C++). Pour les deux premires familles, un groupe de fonctionnalits domine largement l'autre groupe et l'application est dveloppe autour de l'outil dominant. Inversement, dans le cas de la solution intgre, les fonctionnalits tant OLAP que SIG sont offertes un niveau suprieur, l'interface graphique principale est unique et construite au-dessus des technologies sous-jacentes (i.e. OLAP et SIG) et l'application SOLAP est dveloppe pour tirer profit de l'intgration des fonctions OLAP et SIG. Dans ce dernier cas, lorsque ces fonctionnalits et l'interface principale forment un produit logiciel autonome (ex. JMap Spatial OLAP Extension [KHEOPS 2005]), nous parlons d'une technologie SOLAP (similairement la situation relative la technologie SIG vs le couplage des technologies CAO et SGBD). Les trois familles de solutions rpondent des besoins diffrents. Dans le premier cas, le volet cartographique n'est qu'accessoire. Dans le deuxime cas, c'est le volet OLAP qui est

1 Pour plus de dtails sur les types de solutions SIG domainant, OLAP dominant et intgre, le lecteur est invit lire larticle (Bdard et al., 2005) prsente en annexe.

accessoire. Dans le dernier cas, les deux volets sont jugs importants et leur coordination ou synchronisation est une particularit cl de cette technologie. Les technologies tudies dans cette section sont : Syntell 4i (Syntell), une solution classe dans la famille des OLAP dominants, mais qui est avant tout un environnement de dveloppement dapplications analytiques de tableaux de bord spatiaux. Un lment distinctif entre les applications standard OLAP et les tableaux de bord est que, le tableau de bord permet laccs un ventail de donnes tant transactionnelles que multidimensionnelles (OLAP). Le tableau de bord peut ainsi faciliter laccs aux diffrents systmes de lorganisation par un accs unique, contrairement une application SOLAP o lapplication permet typiquement laccs des cubes multidimensionnels. De grandes distinctions existent aussi entre ces deux types de solutions au niveau de la navigation dans les donnes et de la conception de lapplication2. JMAP Spatial OLAP (Kheops-Technologies), la solution intgre de lUniversit Laval; OLAP Add-On for ArcGIS (ESRI), une solution plutt limite de SIG dominant; SAS 9.9- SAS Web OLAP Viewer for Java (SAS), une solution OLAP dominant dont les capacits de traitement statistiques sur les donnes sont trs avances. Cognos 8 BI (Cognos), une solution OLAP dominant trs populaire dans le march des OLAP; et Proclarity 9.0 (Proclarity), une solution OLAP dominant qui vient dtre achete rcemment par le gant Microsoft.

Ces technologies illustrent bien les architectures multidimensionnelles disponibles sur le march tant Multidimensionnelle OLAP (MOLAP) que Relationnelle OLAP (ROLAP)3. Les aspects tudis seront axs sur les structures supportes par ces architectures ainsi que les formats descriptifs. De plus le volet cartographique sera analys en regard aux engins de visualisation cartographiques et formats gomtriques supports. Un tableau synthse rsume les critres danalyse.

2 Pour plus dinformation sur les tableaux de bord, le lecteur est encourag lire le rapport de recherche (Proulx, Bernier & Bdard, 2006) sur les tableaux de bord et le SOLAP. 3 Afin de bien comprendre lvaluation des technologies, le lecteur est encourag lire la section suivante du rapport rdige en 1997 pour le CRDV portant sur les architectures multidimensionnelles OLAP qui se trouve en annexe au prsent rapport.

4.1. Syntell 4i (Syntell):


http: //www.syntell.com La technologie SYNTELL 4i est base sur les rgles d'affaires de l'entreprise. Ceci implique que l'application analytique en entier soit dcrite l'aide de rgles d'affaires. Ce sont ces rgles qui produiront l'application. La technologie Syntell 4i supporte une architecture MOLAP utilisant son propre serveur Syntell ou les serveurs OLAP populaires. Cette technologie permet aussi dinterfacer des bases de donnes relationnelles pour effectuer du reporting, le tout encapsul dans une application analytique (type tableau de bord). Il sagit dune technologie dont lune de ses composantes est lOLAP. Elle intgre aussi des visualisateurs cartographiques plus ou moins volus selon les besoins de navigation exprims par les usagers.
Figure 2. Application CITS-Gestion dinventaire cartographique.
Tableau 1. Syntell 4i (Syntell) Type de solution: OLAP Dominant Type dinterface : Client html Architecture multidimensionnelle : HOLAP Engin OLAP supports : Structure ROLAP supportes : Syntell 4i OLAP Server, SQL Server OLAP Services, Hyperion Essbase, IBM BD2 OLAP Services, SAP BW et tout OLE DB pour OLAP. Via modlisation toile.

Engin de visualisation cartographique support : Connecteur SIG-ESRI Formats de donnes gomtriques ShapeFile supports : Engin de visualisation cartographique support : JMAP 3.0 (Kheops-technologies) Formats de donnes gomtriques supports : Formats matriciels supports : Autres formats : Oracle 10g Spatial, Shape (ESRI), MapInfo, AutoCad, MicroStation, Digital Exchange Format, Personal geodatabase et ArcSDE (ESRI) TIFF et GEOTIFF SVG (Scalable Vector Graphics, WMS (Open GIS consortium)

Navigation dans les donnes spatiales : De minimale avance, selon la programmation faite dans lapplication analytique. Outils facilitant la mise en place du systme : Suite Syntell 4i Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes : Repository Modeler SynLoader SynLoader Repository Syntell 4i et CatalogOLAP

4.2. JMAP Spatial OLAP (Kheops-Technologies)


http://www.kheops-tech.com/en/jmap/solap.jsp JMAP Spatial OLAP est la toute premire technologie Web qui intgre compltement les dimensions gospatiales dans un environnement d'aide dcisionnelle en intelligence d'affaires. Il offre une interface graphique intuitive permettant des nontechniciens d'accder trs facilement leurs donnes gospatiales pour les visualiser ou les analyser. Les interfaces utilisateur peuvent inclure plusieurs cartes thmatiques, des diagrammes statistiques (diagrammes barres, camemberts, etc.) et des tableaux affichs en fonction d'une symbologie dfinie pour les valeurs ou les membres de la classification.

Figure 3. Application SOLAP-Sport4

Tableau 2. JMAP Spatial OLAP (Kheops-Technologies) Type de solution : Solution intgre Type dinterface: Client Java Architecture multidimensionnelle : ROLAP sans serveur Engin OLAP supports : Structure ROLAP supportes : Aucun

Modle en toile, en flocon, en constellation et la structure parent-enfant. Toutes bases de donnes possdant une connexion Java Database Conection (JDBC). (ex. Oracle, Acces, SQL Server). Engin de visualisation cartographique support : JMAP 3.0 (Kheops-technologies) Formats de donnes gomtriques supports : Formats matriciels supports : Autres formats : Oracle 10g Spatial, Shape (ESRI), MID/MIF (MapInfo), DWG (AutoCad), DGN (MicroStation), DXF (Digital Exchange Format), Personal geodatabase et ArcSDE (ESRI) TIFF et GEOTIFF WMS (OGC)

Navigation dans les donnes spatiales : Avance Outils facilitant la mise en place du systme : Aucun Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes :

Centre recherche en bases de donnes gospatiales multidimensionnelles (31-01-2006.)

4.3. OLAP Add-On for ArcGIS (ESRI)


http://www.esri.com/software/arcgis/extensions/olap/about/overview.html Lextension OLAP pour ArcGIS permet aux utilisateurs de serveur OLAP (ex. Microsoft SQL Server, SAS OLAP Server et SAP BW) de visualiser leurs donnes dans lenvironnement ArcGIS sous la forme dune vue en lecture seulement. Loutil offre un utilitaire permettant deffectuer manuellement la connexion dune vue OLAP sauvegarde une couche cartographique ArcGIS. Les vues OLAP doivent tre connectes une une dans ArcGIS et la navigation nest possible que sur les donnes OLAP descriptives. La navigation Spatiale OLAP nest pas supporte. Cette solution demeure par consquent la solution la plus limite prsente.
Figure 4. OLAP Add-ON for ArcGIS (ESRI)5.
Tableau 3. OLAP Add-ON for ArcGIS (ESRI) Type de solution : SIG Dominant Type dinterface: Client Desktop Architecture multidimensionnelle : MOLAP Engin OLAP supports : Microsoft SQL Server, SAS OLAP Server et SAP BW

Engin de visualisation cartographique support : ArcGIS Web Server 9.0 (ESRI) Formats de donnes gomtriques supports : Formats matriciels supports : DB2 with Spatial type,Informix with Spatial type, SQL Server ,Oracle with Spatial or Locator, Personal geodatabases (Microsoft Access) Voir annexe C

Navigation dans les donnes spatiales : Aucune Outils facilitant la mise en place du systme : Aucun Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes :

tir de http://www.esri.com/software/arcgis/extensions/olap/about/overview.html (31-01-2006)

4.4. SAS 9.9- SAS Web OLAP Viewer for Java (SAS)
http://www.sas.com/technologies/bi/query_reporting/webolapviewer/factsheet.pdf
A map is one form of a graphical representation of data, in addition to bar charts, tile charts or line charts, that lets users explore data by drilling up and down hierarchies and slicing through data. Maps from ESRIs ArcGIS Server can be used to display SAS OLAP data just like other views of the data. SAS Web OLAP Viewer for Java can display OLAP data as color coding on top of ESRI maps within its standard feature set. Users can drill on map regions to visualize information from an OLAP data source in real time. SAS OLAP supports synchronized drill and display for map and table view. Users can drill on regions in the map visualizing information from an OLAP data source in real time, enabling a zoom down to the level of individual houses on a road.
Figure 5. SAS 9.9- SAS Web OLAP Viewer for Java6
Tableau 4. SAS 9.9- SAS Web OLAP Viewer for Java Type de solution: OLAP Dominant Type dinterface: Client Java Architecture multidimensionnelle : MOLAP Engin OLAP supports : Structure ROLAP supportes : Connection OLE DB pour: SAP BW, SAS Olap server , SQL server Aucune

Engin de visualisation cartographique support : ArcGIS Web Server 9.0 (ESRI) Formats de donnes gomtriques supports : Formats matriciels supports : DB2 with Spatial type,Informix with Spatial type, SQL Server ,Oracle with Spatial or Locator, Personal geodatabases (Microsoft Access) Voir annexe C

Navigation dans les donnes spatiales : Avance. Outils facilitant la mise en place du systme : SAS Enterprise BI Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes : SAS Enterprise ETL Server SAS Enterprise BI Server SAS Information Map Studio (metadata)

tir de http://www.sas.com/technologies/bi/query_reporting/webolapviewer/factsheet.pdf (31-01-2006)

4.5. Cognos 8 BI (Cognos)


http://www.cognos.com/pdfs/factsheets/fs_c8bi_analysis.pdf Analysis with Cognos 8 Business Intelligence (BI) is based on the industrys acknowledged best-selling OLAP and analysis software, Cognos PowerPlay. The new analysis capability with Cognos 8 BI expands this functionality to cover a complete range of data sources and to provide seamless movement among reports, queries, and analysis. Cognos 8 Business Intelligence offers reporting, query, and analysis; dashboards and scorecarding; event lifecycle management; and the unifying power of centralized metadata in one product, on a single, proven service oriented architecture. Cognos 8 BI delivers all of these capabilities through a 100 percent Web browser interface for all users.
Figure 6. Cognos 8 BI 7
Tableau 5. Cognos 8 BI (Cognos) Type de solution: OLAP Dominant Type dinterface : Client Web Architecture multidimensionnelle : HOLAP Engin OLAP supports : PowerCubes PowerPlay, SSAS, BD2 OLAP, Essbase et serveur OLAP populaires SQL Server, Oracle, SAp BW, IBM, Sybase, ODBC. Structure ROLAP supportes : Modle toile et BD relationnelle forme normale. IBM DB2 Cube Views, Oracle Materialized Views, and Teradata. Engin de visualisation cartographique support : Plusieurs Visualizer 1.5 ou MapX (MapInfo) Formats de donnes gomtriques supports : Formats matriciels supports : ARCGIS Server Formats de donnes gomtriques supports : Formats matriciels supports : Format TAB (MapInfo) structur dans un geoset . Non DB2 with its Spatial type ,Informix with its Spatial type, SQL Server ,Oracle ,Oracle with Spatial or Locator ,Personal geodatabases (Microsoft Access). Voir annexe C

Navigation dans les donnes spatiales : Minimale Outils facilitant la mise en place du systme : Cognos 8i Suite Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes :
7

Cognos Transformer Cognos Integration Cognos Integration Cognos 8 BI Metadata

Tir de http://www.cognos.com/c8demo/content/launcher.html (31-01-2006)

4.6. Proclarity 2.0


http://www.proclarity.com/products/ ProClarity, de la compagnie Knosys, est un logiciel client OLAP qui permet de manipuler des cubes de donnes crs laide dAnalysis Services de Microsoft SQL Server. ProClarity permet de visualiser les donnes descriptives dun cube sous diffrentes formes graphiques telles que des tableaux ou dautres diagrammes. Rcemment, cette compagnie a t achete par Microsoft.
Figure 7. Proclarity 2.0 8
Tableau 6. Proclarity 2.0 Type de solution: OLAP Dominant Type dinterface : Client desktop ou Web (version light du desktop) Architecture multidimensionnelle : MOLAP Engin OLAP supports : Structure ROLAP supportes : Cube Analysis Services de Microsoft SQL Server exclusivement. Aucune

Engin de visualisation cartographique support : KMapX (Proclarity) Le plugiciel KMapX, dvelopp laide de MapX de la compagnie MapInfo, permet la visualisation, sous forme cartographique, des donnes gomtriques associes une dimension spatiale gomtrique dun cube. Formats de donnes gomtriques Format TAB (MapInfo) structur dans un geoset utilisable par supports : KMapX. Formats matriciels supports : Aucun (car le logiciel utilise des geosets MapInfo. Aucun format matriciel actuellement support par MapInfo ne permet de relier des attributs aux pixels). Navigation dans les donnes spatiales : Avance. Outils facilitant la mise en place du systme : Aucun Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes :

Tire de site Web Centre recherche en bases de donnes gospatiales multidimensionnelles (31-01-2006)

Tableau 7. Tableau synthse des outils clients Outils clients Type de solution: Type dinterface Architecture multidimensionnelle : Engin OLAP supports : Syntell 4i OLAP dominant Client html HOLAP Syntell 4i OLAP Server, SQL Server OLAP Services, Hyperion Essbase, IBM BD2 OLAP Services, SAP BW Toutes sources conformes la norme OLE DB OLAP Via modlisation toile. JMAP Spatial OLAP Kheops-Technologies Solution intgre Client Java ROLAP sans serveur Aucun OLAP Add-On for ArcGIS (ESRI) SIG Dominant Client Desktop MOLAP Microsoft SQL Server, SAS OLAP Server et SAP BW SAS 9.9- SAS Web OLAP Viewer for Java OLAP Dominant Client Java MOLAP Connection OLE DB pour: SAP BW via readonly tables, SAS Olap server , MSQL server Cognos 8 BI OLAP Dominant Client Web HOLAP PowerCubes multidimensionnel PowerPlay, SSAS, BD2 OLAP, Essbase et serveur OLAP populaires SQL Server, Oracle, SAp BW, IBM, Sybase, ODBC. Modle toile et BD relationnelle forme normale: IBM DB2 Cube Views, Oracle Materialized Views, and Teradata. Visualizer 1.5 (Cognos) MapX (MapInfo) ARCGIS Server Minimale Proclarity 2.0 OLAP Dominant Client desktop ou Web MOLAP Cube Analysis Services de Microsoft SQL Server exclusivement.

Structure ROLAP supportes :

Engin de visualisation cartographique support : Navigabilit dans les donnes spatiales Outils facilitant la mise en place du systme : Outils de modlisation : Outils ETL : Rafrachissement des donnes : Gestion des mtadonnes :

Connecteur SIG-ESRI JMAP 3.0 (Kheopstechnologies) (de minimale avance) Programmable dans lapplication analytique Suite Syntell 4i Repository Modeler SynLoader SynLoader Repository Syntell 4i et CatalogOLAP

Modle en toile, en flocon, en constellation et la structure parent-enfant. Toutes bases de donnes (JDBC). (ex. Oracle, Access, SQL Server). JMAP 3.0 (Kheopstechnologies) Avance

Aucune

Aucune

Aucune

ArcGIS Web Server 9.0 (ESRI) Aucune

ArcGIS Web Server 9.0 (ESRI) Avance

KMapX (Proclarity) Avance

Aucune

Aucune

SAS Enterprise BI

Cognos 8i Suite Cognos Transformer Cognos Integration Cognos Integration Cognos 8 BI Metadata

Aucune

SAS Enterprise ETL Server SAS Enterprise BI Server SAS Information Map Studio (metadata)

5. Analyse du potentiel des solutions dj utilises par RDDC pour produire des donnes gospatiales.
RDDC est un intgrateur de donnes important et il produit des donnes dans diffrents formats que ce soit civil ou militaire. Pour ces raisons, il utilise un ventail doutils pour la production de celles-ci. Cette section dressera donc partiellement la liste des outils utiliss par RDDC ainsi que les formats militaires utiliss afin de les inclure ventuellement dans la chane de production de donnes. Un premier produit utilis par RDDC est la libraire Open Source Geospatial Data Abstraction (GDAL). Il sagit dun traducteur de fichiers matriciels. Cette librairie est utilise entre autre par les applications telles que MapServer et GRASS. Les formats supports par GDAL sont multiples et sont lists en annexe ce rapport. Un sous-projet de la librairie appel OGR Simple Feature Library est une librairie permettant de lire (et parfois dcrire) dans des formats vectoriels incluant ESRI Shapefiles, S-57, SDTS, PostGIS, Oracle Spatial, et Mapinfo mid/mif et TAB. RDDC utilise aussi lOpen Geographic Data Store Interface (OGDI) pour accder des donnes gospatiales de diffrents formats dune manire neutre. OGDI est une API qui utilise des mthodes d'accs standardises pour travailler en conjonction avec des progiciels GIS et des produits de donnes gospatiaux divers. OGDI utilise une architecture de client/serveur pour faciliter la diffusion de donnes gospatiales sur n'importe quel rseau TCP/IP et une approche driver-oriented pour faciliter laccs diffrents formats de donnes vectoriels et matriciels gospatiaux. Lorganisation utilise videmment des formats de donnes gospatiaux militaires, comme le Vector Map (VMap). Les jeux de donnes VMap utilisent "le format de produit vectoriel" (vpf) utilis d'abord par l' US Defense Mapping Agency et plus tard par son successeur, le National Imagery and Mapping Agency (NIMA). Ce jeu de donnes reprsente un nombre norme de fichiers organiss dans des bibliothques selon diffrents niveaux de dtails.

VMap Level 0 Reprsente un niveau dinformation quivalent aux chelles 1:1 million- 1:2 millions des cartes papier. VMap Level 1 - Reprsente un niveau dinformation quivalent lchelle 1:250,000 des cartes papier. VMap Level 2 - Reprsente un niveau dinformation quivalent aux chelles 1:50,000-1:100,000 des cartes papier.

Du cot des donnes matricielles, le format Compressed ARC Digitized Raster Graphics (CADRG) est utilis. Celui-ci est une reprsentation digitalise de produits papier. Le CADRG est driv directement du format ADRG et de dautres sources aprs des traitements de compression et de filtrage. CADRG est produit diffrentes

chelles, soient les cartes oprationnelles de navigation ARC1 1:1 000 000, les cartes tactiques de pilotage ARC2 1: 500 000, les graphiques doprations ARC5 1:250 000 et les cartes topographiques ARC6 1:100 000 et ARC7 1:50 000. Finalement, le format de modle numrique dlvation Digital Terrain Elevation Data (DTED) de larme amricaine est utilis. Ce format, dvelopp par le National Imagery and Mapping Agency (NIMA), se dfinit comme une matrice uniforme de valeurs dlvation de terrain qui fournit des donnes quantitatives de base pour des systmes et les applications qui exigent l'lvation du terrain, la pente, et-ou des informations sur ltat superficielle de la surface du terrain. Aucune information sur les outils dinventaires de donnes, les outils modlisation de donnes, les systmes de gestion de bases de donnes et les systmes dinformation gographiques utiliss au RDDC nont t transmis lors de ce projet. Aprs vrification, il semble plutt quune grande varit de ceux-ci soit en fait utilise dans lorganisation, ce qui fait en sorte que le choix dfinitif de ces outils sera faire pour la production de donnes gospatiales dcisionnelles.

6. Solutions logicielles dun grand intrt pour lextraction, le traitement et le chargement des donnes dans une application SOLAP
Les outils SOLAP sont reconnus pour leur grande facilit de composition des requtes et leur rapidit daffichage des rsultats. Cependant, pour avoir cette facilit et rapidit, il faut au pralable structurer et charger les donnes. Cette tche peut tre trs longue raliser dpendamment de leffort dintgration ncessaire pour obtenir des donnes homognes ainsi que de lefficacit des outils utiliss pour agrger et gnraliser les donnes des diffrents niveaux des dimensions et pour calculer les mesures. Ces oprations dextraction, de structuration, de transformation et de chargement des donnes sont effectues par des outils dalimentation ou ETL tools (Extract, Transform and Load). Ces outils se composent dun ensemble doprations permettant deffectuer ces tches dcrites dans le prsent rapport. Les outils ETL spatiaux ont vu le jour avec la disponibilit massive des donnes et ce dans tous les formats. Cette abondance des donnes engendre plusieurs problmes dintgration des jeux de donnes entre eux soit au niveau informatique (format des donnes), gospatial (projection cartographique), smantique (cohrence des attributs), temporelle, etc. Le rle de ces outils est donc de rendre les donnes accessibles par les applications SIG et homognes entre elles. Les SIG et les outils ETL sont donc des outils complmentaires. Les applications SOLAP de par leur nature o tout doit tre calcul lavance, requirent beaucoup plus de traitements ETL que les applications SIG. Premirement, tout comme dans les applications SIG, il est ncessaire de charger les donnes dtailles dans la base de donnes. ce niveau, les traitements ETL raliser pour les deux types dapplications sont les mmes. Ils consistent principalement extraire les donnes des jeux de donnes sources, les nettoyer et les intgrer. Les deux types dapplications se distinguent au niveau des donnes agrges car une application SOLAP a obligatoirement plusieurs niveaux dabstraction tandis que ce que nest pas toujours le cas pour une application SIG. Les oprations de gnralisation sont alors grandement utilises afin de gnrer les gomtries pour les niveaux dabstraction plus levs de mme que pour les valeurs dattribut, gnralises par une moyenne par exemple. Cette section dcrira premirement, de faon gnrale, trois outils pouvant tre utiles pour lETL des donnes dans un cube multidimensionnel spatial. Par la suite, les principales fonctions de ces outils seront prsentes selon des catgories doprations dETL spatiales utilises pour le dveloppement dune application SOLAP.

6.1. Trois outils dun grand intrt pour lETL


Les outils ETL ou outils dalimentation sont dfinis par lOffice de la langue franaise comme tant un: outil informatique qui est destin extraire des donnes de diverses sources (bases de donnes de production, fichiers, Internet, etc.), de les transformer et de les charger dans un entrept de donnes. [OLF, 2000]. Cette dfinition est prcise par cette note : Tous les auteurs ne dcoupent pas cette phase du processus de construction et d'entretien d'un entrept de donnes de la mme manire, car les outils qui existent, sur le march, ne possdent pas tous les mmes fonctionnalits. Toutefois, on peut dire que l'alimentation d'un entrept de donnes renferme, grosso modo, les tapes suivantes : l'acquisition ou collecte des donnes (qui implique leur slection et leur extraction des diverses sources), leur transformation (qui implique leur nettoyage, leur intgration et parfois leur agrgation) et enfin leur chargement ou leur migration. [OLF, 2000]. Cette section dcrira les produits FME de la compagnie Safe Software, les produits Open-source de la compagnie Vivid Solutions et la plate-forme logicielle GeOxygene.

6.1.1.

Produits FME
Les produits FME sont dvelopps par la compagnie Canadienne Safe Software, fonde en 1993 en Colombie-Britannique. Cette compagnie a dvelopp quatre logiciels, soit : FME, FME Web Services (Spatialdirect), FME Data servers et FME Developer Tools, que nous prsenterons dans les paragraphes qui suivent.

6.1.1.1.

FME

FME (Feature Manipulation Engine) est une collection intgre doutils ETL spatiaux nomms transformers, utilise pour la transformation et la translation des donnes. Il permet: de combiner plusieurs sources de donnes en une seule opration de translation; de joindre des donnes de systmes diffrents; de transformer des donnes dun format un autre; deffectuer des tests permettant dassurer la qualit des donnes spatiales.

Le logiciel FME comprend trois composantes: Workbench: permet deffectuer des traitements ETL trs sophistiqus. Universal Viewer: permet une vue rapide des donnes pouvant tre dans lun des nombreux formats de donnes supports par FME.

Universal Translator: permet le transfert rapide de systme de coordonnes et de format de donnes (150 diffrents) dun jeu de donnes. 6.1.1.2. Spatialdirect - FME Web Services

Ce produit permet deffectuer le transfert de systme de coordonnes et de format de donnes (54 diffrents) via une application Web. Celui-ci peut-tre utilis via une interface HTML ou sous forme de plugiciel (plug-in) offrant ainsi aux serveurs Web de donnes spatiales du march, la possibilit de distribuer leurs donnes sous diffrents formats et systmes de coordonnes. 6.1.1.3. FME Data Servers

Ce produit fournit aux applications OLE DB client un accs direct plus de 100 formats de donnes. Il existe prsentement une solution pour les logiciels MapGuide dAutodesk et GeoMedia WebMap dIntergraph. Ce produit offre la possibilit de publier les donnes client en format natif sans avoir besoin de les convertir. Les transferts de format et projection sont effectus la vole afin dafficher de manire intgre, des jeux de donnes de formats et systmes de coordonnes htrognes. 6.1.1.4. FME Developer Tools

Ce produit consiste en un ensemble de librairies servant au dveloppement dapplication incorporant les fonctionnalits de FME. Par exemple, la compagnie ESRI a incorpor la technologie FME dans son extension ArcGIS Data Interoperability laide de la librairie dobjets de FME.

6.1.2.

Produits de Vivid Solutions


La compagnie Vivid Solutions est une compagnie Canadienne localise Vancouver et fonde en 1996. Cette compagnie a dvelopp entre autres, une suite de produits Open Source en collaboration avec la communaut R&D en gomatique qui sont utiliss partout travers le monde. Ces produits sont : JUMP Unified Mapping Platform, RoadMatcher, JTS Topology Suite et JCS Conflation Suite.

6.1.2.1.

JUMP Unified Mapping Platform

Cest une application ayant une interface utilisateur graphique (GUI) permettant la visualisation et le traitement des donnes spatiales. Elle procure un cadre dapplications (application framework) utilis pour le dveloppement et lexcution dapplications personnalises de traitements spatiaux.

6.1.2.2.

JTS Topology Suite

Ce produit est une interface de programmation (API) 100% JAVA fournissant des prdicats 2D spatiaux et des fonctions pour des oprations gomtriques fondamentales, conformes avec le modle gomtrique de la norme Simple Features Specification for SQL de l'OpenGIS Consortium (OGC). Les fonctions fournies sont : Les prdicats spatiaux (bas sur le modle DE-9IM (Dimensionally Extended Nine-Intersection Model) Fonctions de superposition (intersection, diffrence, union, diffrence symtrique), Zone tampon, Enveloppe convexe, Fonctions de distance et daire, Validation de la topologie.

JTS fournit une fondation solide pour la construction dapplications spatiales telles un visualiseur, un programme gnral de requtes spatiales et des outils pour la validation, le nettoyage et lintgration des donnes spatiales. 6.1.2.3. RoadMatcher

Cette application rduit grandement le temps ncessaire la fusion de jeux de donnes routires linaires en fournissant un ensemble doutils assistant la fusion multisource automatique et manuelle. Cette application utilise la plateforme JUMP. 6.1.2.4. JCS Conflation Suite

Ce produit est une interface de programmation 100% JAVA construite partir de lAPI JTS et utilisant la plateforme JUMP. Elle permet la fusion multisource de jeux de donnes spatiales et opre indpendamment des logiciels commerciaux. Elle ne supporte pas les formats natifs des outils SIG et utilise le format GML en entre et sortie. JCS permet principalement la fusion multisource de donnes polygonales et comprend aussi un menu Roads permettant la fusion des routes. Cependant, RoadMatcher offre plus doprations pour les rseaux routiers linaires. JCS offre : plusieurs traitements de fusion multisource de donnes gospatiales tels le nettoyage de zones adjacentes, lalignement de zones adjacentes et lappariement des routes; des fonctions dassurance de la qualit permettant la dtection et laffichage des erreurs ainsi que des fonctions de nettoyage automatiques et manuelles pour ajuster la gomtrie des outils ddition manuelle pour la fusion des donnes ne pouvant tre excute automatiquement.

6.1.3.

GEOXYGENE
GeOxygene est une plate-forme logicielle, ouverte et modulaire ddie aux applications en information gographique, avec une architecture et un modle de donnes communs, permettant le partage des codes, leur documentation et leur maintenance. [Badard et Braun, 2005]. Ce projet Open-source est issu des dveloppements mens au laboratoire COGIT de lInstitut Gographique National (IGN, France) par ses auteurs M. Thierry Badard, maintenant professeur au dpartement des sciences gomatiques lUniversit Laval et M. Arnaud Braun. La plate-forme GeOxygene est dveloppe en JAVA et permet le dploiement dapplication sous la forme de service Web. Elle sappuie sur les standards de lISO et lOGC et permet limplmentation de la norme ISO 19107 ainsi que des spcifications relatives la notion de feature (Features, Feature Collection et Relationships between features). Elle est un bon point de dpart pour lutilisation de JAVA Data Objects (JDO) pour les bases de donnes gographiques. Cette plate-forme constitue ainsi une base la construction de solutions logicielles, sappuyant sur des donnes gographiques, rellement interoprables car implmentant lensemble des spcifications OGC et normes ISO.

Figure 8 : Architecture de la plate-forme GeOxygene avec des exemples de composantes logiciels. [Extrait de Badard, 2005]

Les composants de larchitecture inclus dans la distribution open-source sont les suivants:

un schma orient-objet compatible avec les spcifications et normes de lOGC et de lISO permettant de modliser et manipuler toutes les facettes de linformation gographique (smantique, gomtrie, topologie, mtadonnes). Les utilisateurs modlisent leur application en UML et la code en Java, en sappuyant sur ce schma.

des scripts SQL permettant de manipuler la BD (Oracle avec sa cartouche spatiale et PostGIS (open source) avec sa sur-couche gographique PostgreSQL sont supports). Les donnes sont stockes dans un SGBD relationnel afin dassurer des temps de rponse et daccs rapides. un composant open-source, OJB (ObJect relational Bridge, de la fondation Apache) assure le mapping (i.e. telle classe Java correspond telle table ) entre le schma objet et les tables relationnelles. Les utilisateurs ont ainsi une perception entirement objet de linformation quils manipulent. les oprateurs gographiques cods dans des bibliothques spares, afin dassurer lindpendance des dveloppements. Ces algorithmes proviennent du Web (ex. : la bibliothque open-source JTS pour les calculs de gomtrie algorithmique.) ou danciens dveloppements dj raliss au COGIT.

Deux outils ont aussi t inclus dans la distribution open-source. Il sagit dun visualisateur dobjets gographiques (Geotools version 1) et un navigateur graphique permettant laffichage des proprits des objets et le dclenchement dynamiquement des mthodes.

6.2. Oprations ETL


Cette section dcrira des catgories doprations ETL pouvant tre utilises dans le dveloppement dapplication SOLAP et regroupera sous ces catgories les principales oprations ETL disponibles dans FME et JTS/JCS.

6.2.1.

Slection et extraction
Cette catgorie regroupe toutes les oprations permettant de filtrer les donnes afin de pouvoir nen rcuprer quune partie. Les outils FME supportent la slection descriptive et spatiale des donnes ainsi que leurs extractions. Voici quelques exemples de ces transformers:

AttributeFilter: permet de filtrer les enregistrements suivant les valeurs possibles dun attribut. Les valeurs de cet attribut doivent tre discrtes car cet oprateur supporte uniquement loprateur = . GeometryFilter : permet de filtrer les gomtries suivants leur type (point, ligne, polygone). AggregateFilter : permet de sparer les gomtries tant des agrgats des gomtries simples. SpatialFilter : permet de comparer chaque enregistrement dun jeu de donnes Candidat avec tous les enregistrements dun jeu de donnes Base

afin de rcuprer uniquement les objets candidats satisfaisant la relation topologique spcifie avec les objets Bases.

Joiner: effectue une jointure entre enregistrements de deux jeux de donnes via un ou des champs communs. SQL executor: Permet de filtrer les enregistrements dune base de donnes via une requte SQL. Les formats SIG tel Shapefile, MapInfo, etc. sont non supports par cet oprateur. Clipper : Permet de rcuprer les donnes se retrouvant lintrieur ou lextrieur de zones. ExpressionEvaluator : Permet dvaluer si une expression mathmatique est vraie ou fausse. Loprateur AttributeFilter doit ensuite tre utilis pour diriger les enregistrements ayant la valeur vraie et ceux ayant la valeur fausse vers des destinations diffrentes. AreaCalculotor, LengthCalculator : Le premier permet de calculer laire de polygones et le second de calculer en 2D ou 3D, la longueur des lignes ou bien le primtre dun polygone. Laire, le primtre et la longueur peuvent ensuite tre utiliss comme critre de slection.

Lexemple de la figure ci-bas montre comment il est possible dextraire les btiments, du fichier ShapeFile de gauche, ayant une superficie calcule suprieure 100 000 m. Le premier oprateur calcule la superficie, le second value si oui ou non (1 ou 0), cette superficie est suprieure 100 000m et le dernier rcupre uniquement les enregistrements ayant satisfait la requte prcdente, i.e dont la valeur au champ _result est gal 1.

Figure 9. Exemple de lutilisation des oprateurs dextraction et slection de FME.

FME permet aussi dextraire uniquement les attributs voulus. Par exemple, dans lexemple de la figure ci-haut, le champ Comment na pas t rcupr. Il est possible aussi de renommer les attributs. Dans lexemple de la Figure 9, les attributs ID_COURANT et _AREA ont t renomms en ID_BAT et SUPERFICIE.

Le cadre dapplications JUMP permet de slectionner les objets gographiques tout comme un SIG, soit :

objet par objet laide de la souris dans la fentre cartographique. laide dun rectangle dessin dans la fentre cartographique et permettant la slection de plusieurs objets. laide de la souris dans la fentre affichant les enregistrements; laide de la souris et en mode dition afin de slectionner quune partie de la gomtrie dun agrgat ou bien le trou dun polygone. laide dune clture pralablement dessine.

JTS fournit des oprations gomtriques qui pourraient tre utilises pour lextraction des donnes par rapport leurs types de gomtrie et leurs relations spatiales avec dautres objets.

6.2.2.

Nettoyage des donnes


Le nettoyage des donnes gomtriques consiste rendre les donnes exemptes dincohrences de nature spatiale comme les dpassements (overshoot), les espacements (undershoot), les dcouverts (gaps) et les zones de chevauchement (overlaps). Gaps are places where two adjacent polygons are separated by a small amount along some or all of their boundary (see Figure 10a below). Since some coverages can contain legitimate spaces between polygons, gaps are always defined relative to a specified distance tolerance. Only spaces which have the adjacent line segments separated by less than the distance tolerance are considered to be gaps.[JCS, 2003] Overlaps are places where two polygons overlap (see Figure 10b below). No distance tolerance is needed, since any overlap is always considered to be an error in a coverage. [JCS, 2003]

Figure 10. Exemple en (a) de dcouverts et (b) de chevauchement. Extrait de JCS Conflation Suite User Guide.

Overshoot is the portion of an arc digitized past its intersection with another arc. [ESRI, 2006] Undershoot is a line that falls short of another line that it should intersect. [ESRI, 2006] FME comprend : Snapper qui permet daccrocher les nuds de lignes ou bien les sommets de lignes et polygones se retrouvant distance infrieure la distance de tolrance spcifie. Il permettra de corriger les dpassements et les espacements. SelfIntersector : Permet du supprimer les intersections de lobjet sur lui-mme. DuplicateRemover permet de filtrer selon les valeurs dun attribut cl afin dliminer les enregistrements doublons.

JUMP permet deffectuer une srie de tests permettant de valider la topologie dune couche spatiale. Entre autres, sassurer : que les segments ont une longueur minimum, quun polygone ou une ligne ne sintersecte pas avec luimme. JCS comprend la fonction Find Coverage Gaps et Remove Coverage Gaps qui permettent de trouver et dtruire les erreurs de dcouvert. Les chevauchements peuvent tre trouvs grce la fonction Find Coverage Overlaps. Ils doivent cependant tre corrigs manuellement. Cependant, les plus petits dentre eux ont pu tre dtects et corrigs avec les commandes Find Coverage Gaps et Remove Coverage Gaps. Certains de ces chevauchements sont aussi dus des objets gomtriques dupliqus. RoadMatcher comprend aussi des fonctions permettant de corriger les espacements et les dpassements, mais ces fonctions ne permettent pas de traiter le jeu de donnes au complet de faon automatique. Chaque erreur doit tre corrige lune aprs lautre en utilisant la commande Extend/clip segment afin dallonger ou raccourcir le segment jusquau segment intersecter qui sera scind en deux. Il est possible cependant laide dune requte de trouver les segments en dfaut.

6.2.3.

Intgration de donnes
Lorsque le systme se compose de donnes provenant de sources htrognes, il est invitable de faire face des problmes dintgration de donnes. Avant de charger ces donnes dans le systme, il faut les rendre homognes entre elles et les intgrer.

Lintgration multisource est dfinie selon lOffice qubcois de la langue franaise comme tant : Opration qui consiste transformer les donnes qui proviennent de sources htrognes (bases de donnes de production d'une entreprise, bases de donnes externes, Internet, etc.), de manire qu'elles forment un tout cohrent et homogne, au moment o elles sont verses dans l'entrept de donnes, pour alimenter ou rafrachir celui-ci. [OLF, 2002].

6.2.4.

Intgration informatique
Lintgration informatique des donnes gospatiales consiste convertir les formats de donnes gomtriques des systmes sources en celui du systme cible. Par exemple, convertir le format DGN en format .SHP dESRI. FME supporte plus de 150 formats diffrents. Pour les donnes descriptives issues des bases de donnes, elles peuvent facilement tre lues et transfres vers un autre outil via linterface ODBC (Open Database Connectivity). Il est aussi possible de convertir les donnes descriptives en format ASCII et de pouvoir les importer dans tout systme de gestion de base de donnes et mme dans la plupart des SIG. Les donnes de gomtrie ponctuelle en format ASCII peuvent aussi tre importes directement dans la plupart des SIG.

6.2.5.

Intgration smantique
Opration consistant assurer une cohrence entre le nom des classes (ex. : btiment, construction), le nom des attributs (no civique, numro civique) et les valeurs de domaine dattributs (vrai/faux, oui/non). Lintgration smantique comprend aussi la fusion et la scission de classes, le recodage dattributs, la gnralisation et la spcialisation de classes dobjets. Les oprateurs ValueMapper et SchemaMapper de FME peuvent tre utiliss pour faire le mapping des schmas de deux jeux de donnes ainsi que des valeurs des domaines de valeurs. Le mapping des noms dattribut est fait directement avec linterface du Workbench de FME.

6.2.6.

Fusion multisource
La fusion multisource (conflation) est un type particulier dintgration smantique utilisant la gomtrie des objets pour apparier les sources entre elles. Selon lOffice de la langue franaise, elle est dfinie comme: Traitement gomatique qui consiste transposer les attributs d'une carte thmatique sur une carte gographique de rfrence, en utilisant comme points de repre leurs entits gomtriques communes. [OLF, 2001]. ESRI la dfinit aussi comme tant: A set of procedures that aligns the features of two geographic data layers and then transfers the attributes of one to the other. La fusion multisource est un processus irrversible, i.e.

quil nest pas possible de reproduire les sources dans leurs tats initiaux puisque seuls les attributs sont conservs. FME comprend les oprations RubberSheeter et AffineWarper qui permettent dajuster un ensemble dobjets gomtriques cibles afin quils correspondent mieux la gomtrie dobjets gomtriques sources. Une fois les gomtries apparies, les attributs peuvent tre transfrs dune source une autre via loprateur Matcher. Dans le cas o, les classes dobjets ont un attribut commun, loprateur FeatureMerger peut tre utilis dans le but de copier les attributs de la source dans la classe dobjets cible. Road Matcher de Vivid Solutions a t conu dans le but de permettre la fusion multisource de donnes linaires de rseaux routiers. Cet outil permet de crer un nouveau rseau routier partir de deux sources diffrentes en rcuprant les segments de la source de meilleure qualit lorsquil y a appariement et dinclure ou non les segments non apparis dans le jeu de donnes rsultant. Cet outil comprend donc toutes les oprations ncessaires pour la fusion multisource de donnes linaires. JCS permet dapparier des donnes polygonales ayant une couverture continue telle les lots cadastraux, les limites administratives, etc. Il permet aussi lappariement des routes.

6.2.7.

Intgration horizontale
Elle consiste en lintgration des jeux de donnes couvrant des territoires adjacents et ayant le mme contenu, i.e. les mmes thmes. JCS permet daligner des donnes polygonales provenant de plusieurs sources :

Boundary Alignment : permet dliminer les dcouverts et les zones de chevauchements entre donnes surfaciques pouvant provenir de deux jeux de donnes diffrents. Cet outil pourrait entre autre permettre daligner les limites administratives de deux jeux de donnes adjacents. Offset Boundary Corner finder : permet de dtecter les dplacements latral (offset) entre deux jeux de donnes polygonales.

Figure 11. Dplacement latral entre deux jeux de donnes de type polygone. Extrait de JCS Conflation Suite User Guide.

6.2.8.

Intgration verticale
Ce type dintgration consiste rendre cohrent des jeux de donnes couvrant le mme territoire mais ayant un contenu diffrent. Dpendamment des relations spatiales possibles entre les deux jeux de donnes apparier, plusieurs oprations dcrites dans cette section pourraient tre utilise.

6.2.9.

Intgration gospatiale
Lintgration gospatiale fait rfrence au changement de systmes de coordonnes. FME supporte plusieurs systmes de coordonnes et il est facile et rapide de convertir les donnes dun systme de rfrence un autre laide dUniversal Translator.

6.2.10.

Passage de primitives objet explicite.

Les fichiers CAD sont composs de primitives linaires et les objets surfaciques y sont rares. Lorsque lon rcupre de telles donnes, on doit construire les surfaces partir de lignes qui les composent. Il faut parfois ajouter des lignes virtuelles pour fermer ces polygones, comme dans le cas de lac. FME comprend lopration PolygonBuilder qui permet de contruire automatiquement des polygones partir de lignes fermes. Il peut tre pralable cette opration, dutiliser les oprations Snapper, Intersector et SelfIntersector pour nettoyer les donnes.

6.2.11. Passage dattributs graphiques textuels des attributs descriptifs.


Souvent certaines donnes descriptives sont uniquement graphiques, visibles sur la carte sous forme dtiquette et non rattaches lobjet gomtrique principal, comme dans le cas du numro de lot inscrit au centre du polygone de lot. Lorsque lon slectionne les attributs du lot, on ne retrouve pas le numro inscrit en tiquette. Il faut donc utiliser des fonctions qui permettent de lire ces valeurs dattribut graphique et de les stocker dans un attribut descriptif rattache lobjet gomtrique principal. FME comprend : PointOnAreaOverlay : Chaque point reoit les attributs du polygone qui linclut et chaque polygone reoit les attributs de chaque point quil inclut.

NeighborFinder : Apparie les gomtries les plus prs de deux classes dobjets. Il est possible de spcifier une distance maximum. Dans ce cas, il est possible quil y ait des gomtries non apparies. Lorsquappari, les attributs des la seconde classe sont copis dans la premire classe. La gomtrie de la premire classe est conserve.

6.2.12.

Intgration temporelle

Lintgration temporelle peut tre au niveau de la donne elle-mme et au niveau des spcifications de la donne. Par exemple, un attribut nombre dtage a t ajout en mars 2000 au spcification de la classe dobjets Btiment. Donc tous les btiments ayant t saisis avant 2000 nauront pas cet attribut. Au niveau de la donne, si la source de donnes de btiments est plus rcente que la source des rues par exemple, on pourrait avoir comme rsultat des btiments sans accs aucune rue. FME comprend les operations suivantes relatives lintgration temporelle :

Matcher : Permet de dtecter si les objets de deux jeux de donnes correspondent au niveau de la gomtrie, de leurs valeurs dattributs ou bien les deux. Il est possible de dfinir une tolrance au-del de laquelle les sommets de deux gomtries seront considrs comme diffrents. ChangeDetector: Ce transformer ressemble beaucoup Matcher lexception quil catgorise les objets nayant pas de correspondance, comme tant ADDED sils proviennent du jeu de donnes le plus jour et DELETED sils proviennent du jeu de donnes mettre jour.

6.2.13.

Gnralisation cartographique des donnes

Selon lOLF, la gnralisation cartographique est : Laction de simplifier les lments cartographiques et leur reprsentation, en fonction d'un besoin particulier et selon des rgles prcises. La gnralisation cartographique fait appel la simplification des formes, la modification de la position des entits spatiales et la suppression ou au regroupement d'entits spatiales. Elle est utilise notamment pour le passage une chelle cartographique infrieure. Puisque cette opration ETL comprend plusieurs oprateurs, il est important de les catgoriser. De plus, ces catgories nous permettrons de mieux dcrire ces oprateurs trs importants dans le dveloppement dune application SOLAP. Nous utiliserons donc les types doprateurs dfinis par Martel [1997] afin de classifier les diffrents oprateurs des outils ltude (voir lannexe F pour une synthse de ces oprateurs). Le tableau suivant montre les types doprateurs ainsi que les types de gomtrie, temporalit et smantique auxquels ils sappliquent.

0D Raffinement Agrgation Reclassification Rduction de dimension Simplification Resymbolisation Caractrisation Exagration symbolique Dplacement Dformation Lissage

Vectoriel Temporel Smantique 1D 2D 0D 1D Objet Attribut Relation

Tableau 8. Domaines dapplication des types doprateurs de gnralisation. Extrait de Martel [1997].

6.2.13.1.

Raffinement Le raffinement consiste supprimer des dtails afin de conserver que ce qui est important sans toutefois le modifier. Au niveau gomtrique, il serait possible par exemple de supprimer sur une carte topographique les lacs ayant une superficie infrieure un certain seuil, de supprimer les btiments de gomtrie ponctuelle afin que conserver uniquement ceux de gomtrie surfacique. Au niveau temporel, les vnements de plus courte dure pourrait tre supprims, par exemple, on supprime les feux ayant dure moins de 15 minutes. On pourrait aussi supprimer les vnements ayant une dure de vie instantane et conserver uniquement ceux ayant une vie durable dans le cas o la classe dobjets une temporalit alternative, i.e. soit instantane soit durable. Au niveau smantique, on pourrait, par exemple, supprimer toutes les routes dont la classification nest pas autoroute. Il est aussi possible de raffiner la structure du jeu de donnes en supprimant des attributs ou des relations non essentiels. La gomtrie et la temporalit pouvant aussi tre considres comme des attributs pourraient tre supprimes afin dliminer des dtails. Par exemple, la gomtrie des btiments pourrait tre supprime, sachant quil est possible de dduire par la suite sa position approximative partir de son adresse ou bien son code postal. Le raffinement sapparentant la slection et lextraction, les mmes oprateurs des outils ltude, peuvent tre utiliss pour raliser cette opration de gnralisation.

6.2.13.2.

Agrgation des donnes Lagrgation permet de combiner plusieurs objets pour nen former quun seul (i.e. une relation de type n:1) dans le but de simplifier la reprsentation lorsque la densit devient trop grande. Il en rsulte une nouvelle classe dobjets dont le niveau dabstraction est suprieur et qui conserve lapparence gnrale de la classe dobjets originale. Les objets dorigine peuvent appartenir une mme classe dobjets (p.ex. plusieurs petits btiments qui sagrgent pour en former un plus significatif) ou des classes diffrentes (p.ex. lagrgation des pistes et btiments pour former laroport). Cet oprateur peut aussi tre utilis au niveau temporel. Dans ce cas, il combine des vnements ponctuels et/ou linaires pour former des vnements de plus longue dure. FME comprend les oprations dagrgation suivantes:

Aggregator : Cette opration permet de combiner diffrentes gomtries en un agrgat. Les gomtries sont agrges selon leurs valeurs dattributs. Deaggregator : Permet de dcomposer un agrgat en ses composantes. Dissolver : Gnre des polygones de plus grandes superficies en supprimant les limites communes de polygones adjacents. Cette opration pourrait tre utilise pour gnrer les limites du pays partir des limites des provinces. NeighborhoodAggregator : Cre un agrgat dobjets bas sur leurs proximits.

Figure 12. Diffrence entre loprateur Aggregator et Dissolver de FME.

Dans la partie du haut de la figure 12, les peuplements forestiers sont agrgs sans supprimer les limites entre les peuplements contrairement ceux de lexemple du bas. Dans les 2 cas, les gomtries slectionnes correspondent un enregistrement de la base de donnes. 6.2.13.3. Reclassification La reclassification est lune des oprations de gnralisation les plus utilises dans le dveloppement dun SOLAP. Chaque niveau hirarchique, suprieur au niveau dtaill dune dimension dun cube, doit tre reclassifi. Par exemple, lattribut discret type dutilisation des btiments dont le contenu est dtaill (maison mobile, maison unifamilial, commerce de restauration, etc.) peut tre reclassif un niveau dabstraction suprieur selon les valeurs: rsidentiel, commercial et industriel. Un attribut continu tel la marge de recul, peut tre classifi selon les catgories : moins de 2m, 2 5m, 5 10m, 10 30m et plus de 50m tel quillustr dans lexemple suivant.

Figure 13. Exemple de classification de la dimension marges de recul dans un SOLAP.

La principale difficult de cette tche est de dfinir les classes de chaque niveau. Une fois les classes dfinies, loprateur ValueMapper peut tre utilis dans le cas dun attribut discret, afin dassocier chaque valeur possible, la valeur du niveau suprieur. Lexemple ci-bas montre le cas de lattribut nombre dtages ayant un domaine de valeurs possibles de 1 9 tages, classifi en 3 catgories, soit de 1 3 tages, de 4 6 tages et de 7 9 tages.

Figure 14. Classification dun attribut discret avec FME. Loprateur ValueMapper classifie le nombre dtages en 3 catgories, soit 1 3, 4 6 et 7 9 tages.

Dans le cas dattributs continus, les oprateurs ExpressionEvaluator, AttributeFilter et AttributeCreator doivent tre utiliss pour gnrer les catgories. Lexemple ci-bas reprend le mme exemple que la Figure 14, mais cette fois-ci le domaine de valeurs du nombre de dtages est de 1 120. Afin de catgoriser les enregistrements en 3 classes, les oprateurs

ExpressionEvaluator sont utiliss. Ensuite, les oprateurs AttributeFilter permettent de rcuprer les enregistrements dont la valeur du champ _result est 1 (vrai), donc ayant satisfait lexpression dfinie dans loprateur ExpressionEvaluator. Les oprateurs AttributeCreator permettent par la suite de crer un nouvel attribut Clas_Etag qui contiendra les valeurs 1, 2 ou 3, soit lidentifiant de nos trois catgories dtage.

Figure 15. Classification dun attribut continu avec FME. Les oprateurs ExpressionEvaluator, AttributeFilter et AttributeCreator sont utiliss pour crer les classes dtages 30 et moins, 30 70 et 70 et plus.

Lorsque la reclassification a un impact sur la gomtrie, on doit en plus utiliser un oprateur dagrgation spatiale afin de gnrer la gomtrie agrge rsultante. Si la gomtrie rsultante doit tre des agrgats de gomtries loprateur Agregate doit tre utilis. Si par contre les limites adjacentes entre les objets doivent tre supprimes afin de gnrer de nouveaux objets simples, loprateur Dissolver est utiliser. Il est aussi possible dutiliser les deux commandes dans le cas o on aurait besoin dagrger les objets gnraliss gnrs par Dissolver selon le mme attribut (si les objets ayant la mme valeur ne sont pas tous adjacents) ou bien sur un attribut diffrent. 6.2.13.4. Rduction de dimension Cette opration consiste rduire la dimension de lobjet. Par exemple, une classe dobjets surfacique grande chelle, telle une route, pourrait tre reprsente par une ligne petite chelle. La dimension de lunivers pourrait aussi tre rduit, par exemple, passer dun univers 3D (x, y, z) un univers 2D (x, y). Pour rduire la dimension de lunivers dun fichier, on a qu diriger un fichier source 3D vers un fichier de destination en 2D et la coordonne Z sera automatiquement supprime. Pour la rduction de dimension de la gomtrie des objets, FME comprend les oprateurs suivants :

CenterLineReplacer : Remplace la gomtrie dune surface par une ligne traversant le centre du polygone. CenterPointReplacer : Remplace la gomtrie linaire ou surfacique par un point se trouvant au centre du rectangle englobant minimum de celle-ci. Dans le cas dune surface, il est possible que le point se retrouve lextrieur de celle-ci. CenterOfGravityReplacer : Remplace la gomtrie par un point se retrouvant au centre de gravit de celle-ci. Le centre de gravit correspond la position obtenu de la moyenne des coordonnes x, y et possiblement z. Dans le cas dune surface, il est possible que le point se retrouve lextrieur de celle-ci. LabelPointReplacer : Remplace la gomtrie de lobjet par un point. Si la gomtrie est linaire, le point correspondra au centre de la ligne. Si la gomtrie est une surface, le point se retrouvera quelque part lintrieur de la surface et lextrieur dun trou.

Figure 16. Distinction entre les oprateurs CenterOfGravityReplacer, CenterLineReplacer , CenterPointReplacer..

6.2.13.5.

Simplification des donnes La simplification consiste supprimer des parties de la gomtrie de lobjet tout en conservant la forme gnrique de celui-ci. Contrairement au raffinement qui sapplique la classe dobjets, la simplification sapplique lobjet. Un objet ponctuel ne peut donc pas tre simplifi mais une classe dobjets ponctuelle peut tre raffine. Au niveau temporel, des vnements avec prsence ou fonction discontinue peuvent tre simplifis. FME comprend les oprations suivantes pouvant servir simplifier les gomtries:

AreaGeneralizer: Rduit la densit de sommets composant la limite des polygones de manire prserver la couverture topologique originale. LineGeneralizer : Rduit la densit des sommets dune polyligne.

6.2.13.6.

Resymbolisation Cette opration combine une opration de reclassification, est aussi trs importante dans une application SOLAP afin dassocier des gomtries ponctuelles, une symbologie diffrente dpendamment du niveau dagrgation sur lequel elles sont reprsentes. FME ne comprend pas doprateur permettant dattribuer une symbologie des gomtries. Cet aspect est gr directement dans les outils SIG et SOLAP.

Figure 17. Exemple de resymbolisation. gauche, reprsentation simplifie (lensemble des objets ont le mme symbole) et droite reprsentation plus dtaille (symboles diffrents selon le type de btiment).

6.2.13.7.

Caractrisation La caractrisation est similaire au raffinement, car elle est utilise lorsquil y a trop dlments pas assez significatifs individuellement et trop denses. Cependant, contrairement au raffinement, il ne sapplique pas au domaine smantique mais crer un motif (pattern) reprsentatif des lments originaux. La position exacte et le nombre exact de gomtries sont alors abandonns. Il nexiste pas doprateurs permettant dexcuter ce type dopration automatiquement dans les outils ltude.

6.2.13.8.

Exagration symbolique Cette opration est gre automatiquement par les SIG. La dimension du symbole lcran de lordinateur est dtermine en fonction de lchelle daffichage et des paramtres fournis par lusager.

6.2.13.9.

Dplacement Sur des cartes numriques, le dplacement est une opration de gnralisation moins importante que lorsquon utilisait des cartes papiers. Cependant, si lon a imprimer une carte petite chelle, les gomtries trs prs lune de lautre peuvent se chevaucher. Le dplacement peut alors tre utilis dans le but de rendre la carte lisible. FME comprend la commande OffSetter qui permet de dcaler la gomtrie suivant une distance en x, y et/ou z.

6.2.13.10.

Dformation Contrairement lexagration o cest le symbole qui subit un agrandissement, la dformation implique une modification (forme et dimension) de lentit gomtrique elle-mme afin damliorer la lisibilit. Cette opration intervient par exemple lorsquil sagit dlargir lentre dun port afin de ne pas crer un lac en rduisant lchelle. Cet oprateur na pas dapplication temporelle. Cette opration doit tre ralise de faon manuelle et nest pas trs utilise dans une application SOLAP.

6.2.13.11.

Lissage Cette opration consiste dplacer les sommets dun objet gographique pour simplifier la forme de lobjet et ne retenir que les tendances gnrales. Elle est semblable la simplification la diffrence que les sommets sont dplacs plutt qulimins. Cette opration a une forte connotation esthtique puisquelle amliore lapparence de lobjet gographique en diminuant les pics et les fluctuations moins importantes. Nous navons pas eu loccasion dutiliser cette opration de gnralisation dans le cadre de nos projets SOLAP.

6.2.14.

Traitement des images

JUMP comprend des transformations affines et de rubber-sheet pour la correction des images. FME comprend les oprations suivantes :

RasterLineExtractor: convertit tous les objets de format raster en des lignes individuels. RasterPointExtractor: convertit tous les objets de format raster en des points individuels. RasterResampler: Redimensionne un fichier raster. RasterSegmenter : Segmente un fichier raster en analysant lhistogramme des composantes et en identifiant les units qui sont homognes avec la technique fuzzy c-means.

6.2.15.

Traitements des donnes 3D

FME comprend les transformers suivants pour la transformation des donnes 3D :

ContourGenerator: gnre des courbes de niveaux partir dun modle numrique de terrain. DEMGenerator: Genre un modle numrique de terrain de format Raster partir de points, lignes de cassures et lignes 3D. SurfaceDraper: Pour chaque coordonne composant la gomtrie des objets dune classe dobjets, drive les coordonnes z dune surface 3D. SurfaceModeler : Permet de gnrer un modle numrique de structure TIN partir de plusieurs sources de donnes, tels des points, des lignes de cassure, des courbes de niveaux, etc.. TINGenerator: Gnre un modle numrique de format TIN. VoronoiDiagrammer: Gnre un diagramme de type Voronoi.

6.2.16.

Autres oprations intressantes

FME comprend dautres oprations de transformations des donnes pouvant tre utile dans le dveloppement dune application SOLAP :

UUIDGenerator: Calcule un identifiant de type UUID pour chaque objet. Le UUID est compos 32 chiffres hexadcimaux.

TimeStamper : Ajoute un attribut de type horodatage et donne chaque objet la date daujourdhui. GOIDGenerator : Calcule un GOID (Geographic Object Identifier) pour chaque objet. StatisticCalculator: Cet oprateur peut tre dun grand intrt dans le dveloppement dune application SOLAP afin de calculer les mesures du cube.

6.3. Conclusion
Cette section a permis de monter le nombre impressionnant doprations ETL pouvant tre utilises dans le dveloppement dune application SOLAP. La technologie d'intgration de donnes gospatiales la plus rpandue et qui nous apparat la plus complte prsentement sur le march est le logiciel FME (Feature Manipulation Engine) de la compagnie Safe Software de Vancouver. Elle est trs rapide et offre plusieurs fonctions avances utiles pour faire du ETL-Spatial. Par contre, comme toute technologie, elle ne couvre pas tous les besoins et les rsultats produits devraient tre tests avant d'tre intgrs dans une chane de production de cubes de donnes gospatiales. Les produits de Vivid Solutions sont quant eux complmentaires : JTS est utilis pour effectuer des relations spatiales entre objets, JCS et Road Matcher pour la fusion de donnes et JUMP comme une plateforme offrant les fonctions SIG de base ainsi quune interface graphique aux produits JCS et RoadMatcher. GeOxygene comprend une librairie de classes permettant le chargement, la gestion et laffichage des donnes gospatiales sous forme de classes JAVA dfinies selon les normes ISO et OGC. Tel que spcifi dans cette section, ce sont les oprations de gnralisation qui sont les plus utilises par rapport une application SIG, afin de pouvoir charger linformation des niveaux dabstraction moins levs. Cependant, le dveloppement dapplication SOLAP peut ncessiter lutilisation de fonctions agrgatives qui ne sont pas offertes par les outils ETL du commerce, et ce, malgr leur grand ventail doprateurs. Gnralement, le processus dagrgation implique lutilisation dun oprateur sur les membres dune seule dimension spatiale. Cependant, il peut savrer fort intressant de reprsenter la relation existante entre deux, voire mme N dimensions spatiales dun mme hypercube de donnes, telle que ladjacence, linclusion ou lintersection. De plus, des oprateurs agrgatifs mixtes, rsultant de la combinaison doprateurs spatiaux et non-spatiaux, permettent dobtenir des rsultats numriques pour une analyse spatiale comme le dnombrement des intersections, la moyenne dadjacence ou la somme des superficies, et ce, par rgion. Il est galement possible dy ajouter la notion de temporalit en effectuant les calculs selon les priodes reprsentes. Il reste donc un large ventail de travaux de recherche effectuer dans ce domaine tels que dtaills dans la section suivante.

7. Nouveaux outils produits dans le cadre de la chaire de recherche industrielle en bases de donnes gospatiales dcisionnelles.
Lobjectif de cette section est de mettre en perspective les travaux planifis de la chaire de recherche industrielle en bases de donnes gospatiales dcisionnelles (http://mdspatialdb.chair.scg.ulaval.ca) du Dr Bdard qui cadrent dans les processus de production de donnes multidimensionnelles gospatiales. Plusieurs outils sont actuellement en conception ou en dveloppement et seront vraisemblablement disponibles aux partenaires de la chaire dici trois ans, soit pour la fin de la Chaire industrielle. Les outils planifis ne sont prsentement pas disponibles sur le march et permettront de complter ou remplacer avantageusement les tches manuelles actuelles ou encore les outils existants qui sont sans rfrence spatiale, le tout pour le processus de production de donnes multidimensionnelles. La mise en place dun rfrentiel informatique enrichi ,intgrant les donnes spatiotemporelles avec les donnes dcisionnelles (c.f. Projet 1 : Rfrentiel ISTory), est la pierre angulaire d'un environnement intgr de mthodes, services web et logiciels interoprables de conception, traitement et exploitation de la donne godcisionnelle. La mise en place d'un tel rfrentiel assurera l'volutivit des systmes dvelopps au sein de la chaire de recherche. Ce rfrentiel, baptis ISTory (Information SpatioTemporelle + RepositORY, ou en anglais Integrated Spatio-Temporal RepositORY) contiendra les connaissances sur le domaine gospatial et godcisionnel (mtastructures transactionnelle, dcisionnelle ontologique et de spcifications, registre d'applications, mtadonnes, contraintes dintgrit, gestion multilingue, etc.). Il intgrera, les concepts normaliss facilitant l'interoprabilit des systmes (cf. normes ISO, OGC, OMG et W3C). Ce nouveau rfrentiel et ses concepts thoriques unifis constituent la recherche fondamentale servant de base l'ensemble des projets et des outils qui seront dvelopps dans la chaire. Le rsultat sera matrialis par une mtastructure fdre XML accessible via des API et des services web. Aucune technologie similaire nexiste ce jour ou nest prsente dans les confrences acadmiques. Quoique des projets godcisionnels soient raliss depuis peu, ce nouvel environnement va permettre damliorer de faon notable le processus complet de conception-traitement-exploitation sur les plans mthodologique et technologique. Afin de positionner adquatement les mthodes et outils de la chaire de recherche, nous procderons leur prsentation en suivant le cycle de dveloppement dun systme dont la premire tape consiste lanalyse des besoins des utilisateurs.

7.1. Mthode et outils danalyse des besoins des utilisateurs.


La chaire de recherche industrielle vise le dveloppement doutil de dfinition des besoins godcisionnels sous la forme doutil de maquettage et de prototypage rapides (cf. Projet 2). Lenvironnement de cet outil sera divis en trois volets : (1) un volet didacticiel sur le web permettant de se familiariser avec les applications

godcisionnelles, (2) un volet maquettage trs flexible permettant de simuler rapidement une solution pour un chantillon de besoins des utilisateurs, et (3) un volet participatif pour encadrer les discussions, recueillir les commentaires des utilisateurs et prioriser leurs besoins. Deux niveaux danalyse des besoins seront distingus : un niveau global permettant de dfinir les grandes lignes du systme grce au maquettage et un niveau dtaill permettant de dfinir les spcifications dtailles grce au prototypage rapide. La recherche et le dveloppement pour cette mthode et ces outils est dj en cours. Le volet (1) devrait tre termin pour lautomne 2006 (du moins en franais) et sera accessible aux partenaires de la chaire industrielle dans un premier temps (incluant RDDC). Le volet (2) a fait lobjet de recherches thoriques depuis le dbut de la chaire ainsi que lobjet dune exprimentation avec Syntell lhiver 2006. Suite ces travaux, il est prvu quun projet soit fait avec loutil de maquettage RAPT de Syntell pour enrichir celui-ci dans un contexte de maquettage rapide. Le volet (3) a t discut dans le mmoire de MSc de Louis-tienne Guimond et sera potentiellement poursuivi ultrieurement sil savrait prioritaire.

7.2. Outils supportant llaboration de systmes


Un projet vise dfinir un formalisme de modlisation multidimensionnelle avec le langage UML tendu pour la rfrence spatiale et de dfinir un outil de modlisation multidimensionnelle (cf. Projet 13). Il en rsultera la publication d'un formalisme supportant la modlisation des diffrents types de dimensions spatiales d'tats et d'volutions spatio-temporels, 3D, en temps rel et pour applications mobiles. Ce projet vise aussi dvelopper des gnrateurs automatiques de code pour des outils du march, servant ainsi tout dveloppement d'applications godcisionnelles. De plus la modlisation formelle des oprations dagrgation spatiales permettant la production de donnes agrges, rsumes diffrents niveaux de granularit telles que la fusion, la gnralisation et la reprsentation multiple des donnes multidimensionnelles sera intgre loutil par le bais du projet 5 (cf. Enrichissement du formalisme de modlisation multidimensionnel des processus de production de linformation godcisionnelle). Ce projet dbutera par une tude des fonctions de fusion, dagrgation, de synthse et de dveloppement dindicateurs. La recherche et le dveloppement spcifique est dbut et se droulera jusquen 2007. La recherche et le dveloppement pour loutil de modlisation est galement dbute et se droulera jusqu 2009 avec diffrentes dates de livraison pour les diffrents modules. Plus particulirement, cela donnera lieu 3 versions de Perceptory : Perceptory for databases, Perceptory for datacubes, Perceptory for GeoWeb services. Finalement, depuis la dfinition du web smantique, la gestion des ontologies est devenue dintrt dans la communaut gomatique. L'quipe de la chaire y travaille aussi depuis quelques annes avec ses partenaires, dont principalement Ressources Naturelles Canada et Intlec. Loutil ontologique gospatial (cf. Projet 4) fera partie des outils exploitant le rfrentiel ISTory (cf. Projet 1) qui sera enrichi dune structure d'ontologie, des fonctionnalits d'change et d'intgration d'ontologies en XML ainsi qu'un gnrateur de code OWL. La recherche et le dveloppement de cet outil est dbut et se droulera jusquen 2008. Une trs grande interoprabilit avec les outils

de modlisation objet (ex. les 3 versions de Perceptory) et les mthodes de spcification fait partie intgrante de ce projet.

7.3. Outils supportant la construction de systmes


Une mthode d'valuation et de slection de donnes sources (cf. Projet 3) sera dveloppe et sera compatible avec les normes internationales ISO (ISO TC211 2004) et OGC (OGC 2004). Il est prsentement trop tt pour affirmer quil en rsultera un outil pour assister la mthode, voire pour planifier la forme mme de cet outil. Cependant, cette mthode utilisera le rfrentiel ISTory (cf. Projet 1) et des services web externes daccs aux donnes et mtadonnes (do dpend la forme du logiciel potentiel). Cette mthode et son outil permettront d'valuer le potentiel d'interoprabilit et les efforts d'intgration/agrgation des diffrents jeux de donnes. La recherche et le dveloppement de cet outil se droule de 2005 2009. Un autre projet (cf. Projet 21) vise dvelopper un outil dintgration et dagrgation des donnes gospatiales en utilisant linformation du rfrentiel ISTory (i.e. la modlisation UML cf. projet 5, linformation ontologique cf. projet 4, ou le contenu de spcifications cf. partie du projet 1), les rsultats de recherche en gnralisation cartographique et reprsentation multiple du projet GEMURE et fonctionnant pardessus les meilleurs outils d'intgration actuels FME (Safe Software 2004) et JUMP (Vivid Solutions 2003). La recherche et le dveloppement de cet outil a dbut par le dveloppement dextensions spatiales au langage MDX (en collaboration avec Syntell) et se droulera jusquen 2008. Plus particulirement, un outil trs spcialis (sous-ensemble du projet 21, fait en collaboration avec un projet GEOIDE) est prsentement en phase design et son dveloppement devrait dbuter lt 2006. Cet outil, appel RN-ETL (Road Network ETL), est spcialis dans la production de cubes de donnes pour les rseaux (particulirement routiers, mais potentiellement gnriques). La recherche en cours vise le volet transactionnel (cf. partie GEOIDE du projet), i.e. la resegmention personnalise dun rseau sur demande et la modification sur demande du systme de rfrence spatiale (linaire ou cartographique). La partie multidimensionnelle sera ralise en 2007 (i.e. volet agrgatif et analyses spatiales avances). Afin de peupler les cubes avec des donnes de qualit, il faut implanter des contraintes d'intgrit lors de l'intgration et de l'agrgation des donnes sources. Dans un premier temps, peu de mthodes formelles existent pour dfinir les contraintes d'intgrits gospatiales, peu doutils les supportent (ex. Radius Technology de LaserScan, certaines fonctions rseau de SIG, JCS, etc.) mais aucune ne traite le volet agrgatif des cubes. Les contraintes dintgrit utilisent abondamment les matrices topologiques dEgenhofer et Herring (1994) ou de Clementini et Di Felice (1995) maintenant reconnues dans la norme ISO-TC211 ou les capacits d'expression formelle en langages UML, OCL ou autre. Cependant, rien n'a t fait ce jour pour dfinir les contraintes d'intgrit agrgatives gospatiales (il faut ici mentionner que contrairement aux donnes non-spatiales, les donnes gospatiales agrges peuvent provenir d'une source distincte des donnes dtailles). Ce projet (cf. Projet 16) vise

donc reprendre les travaux de notre quipe ayant conduit au prototype CSory, puis de les adapter aux problmes multidimensionnels. Loutil d'assurance qualit dcisionnelle a priori (i.e. CSory multidimensionnel) sera intgr la suite de prototypes bass sur le rfrentiel ISTory (projet 1). Les pictogrammes de Perceptory seront galement intgrs la matrice ISO pour en accrotre la capacit dexpression. La recherche et le dveloppement de cet outil sont dbuts et se droulent jusquen 2007.

7.4. Outils supportant la transition du systme


Lors de lopration du systme, une des difficults pour les utilisateurs est d'apprcier la qualit des donnes qu'ils emploient. Cette problmatique apporte plusieurs soucis quant aux risques d'utilisation inadquate, d'interprtation fautive, de rsultats incorrects voire de rpercussions juridiques (Gervais 2003; Bdard et al. 2004). Les mthodes actuelles reposent sur l'exploitation simple des mtadonnes tant dans le monde dcisionnel que gomatique transactionnel. Un projet (cf. Projet 11) de recherche conduira un outil pour valuer la qualit dcisionnelle a posteriori qui conseillera l'usager sur la qualit globale des donnes gospatiales visualises, sur la valeur d'indicateurs spcifiques de qualit, sur la qualit d'un type de donnes, pour un secteur donn, pour une poque donne, et ainsi de suite selon des critres qu'il aura dfinis pralablement. Il sagit dune continuit du projet MUM pour lequel un article de lquipe du Dr Bdard vient de remporter le ESRI Award 2006 de lAmerican Society of Photogrammetry and Remote Sensing. La recherche et le dveloppement de cet outil sont dbuts et se drouleront jusquen 2007. Des travaux sont en cours pour permettre des services web de cration de minicubes gospatiaux pour utilisation sur PDA. Loutil en rsultant sera un module de services web spcialiss (cf. projets 8 et 10). Dautres travaux visant amliorer les fonctions godcisionnelles (ex. projets 7, 9 12, 17 et 22) sont prsentement leurs dbuts, particulirement concernant lintgration de mtadonnes dans les cubes, la modification en temps rel du contenu de cubes, la prise en charge des volutions smantiques pour de longues priodes temporelles, lutilisation de structures spatiales matricielles et de fonctions de Data Mining pour peupler les cubes SOLAP. Il est probable que certaines de ces fonctions se retrouveront dans les technologies utilises par les partenaires de la chaire pour leurs applications (ex. GEOLAP, JMap SOLAP, M3Cat, M3GO).

Tableau 9. Synthse de la planification de dveloppement des outils.


Projet R&D 1 2 3 4 8 et 10 11 13 Nom de loutil Rfrentiel ISTORY Outil de dfinition des besoins godcisionnels Outil d'valuation et de slection de donnes sources (si jug appropri pour supporter la mthode) Outil ontologique gospatial Module de service web de cration de minicubes Outil pour valuer la qualit dcisionnelle a posteriori Outil de modlisation multidimensionnelle - Enrichissement des processus de production de linformation (projet 5) 16 21 CSory, outil d'assurance qualit dcisionnelle a priori (contrainte dintgrit spatio-temporelles pour cubes) Outil dintgration et dagrgation des donnes gospatiales - RN-ETL spcialis pour rseau routier plusieurs Fondations pour lamlioration doutils des partenaires de la Chaire 2005 2006 chancier 2007 2008 2009

8. Intgration des diffrents outils dans la chane de production de donnes multidimensionnelles propose.
Dans cette section, lensemble des tapes de la chane de production des donnes multidimensionnelles seront discutes en regard des outils utiles pour procder ces tapes. La chane de production ayant dj t introduite la section 3.0, nous discuterons directement des outils utiles pour produire les donnes multidimensionnelles.

8.1. Bilan de la situation organisationnelle:


Cette tape consiste valuer les ressources humaines et matrielles de lorganisation et dvaluer les aspects de scurit et de confidentialit des donnes. cette tape, peu de choses sont directement lies proprement parler la production des donnes gospatiales dcisionnelles, mis part, si une architecture dentrept de donnes dcisionnelles existe dj sur place, on pourrait tenir compte des plateformes utilises pour identifier des formats de donnes produire.

8.2. Exploration des donnes:


Cette tape consiste inventorier les donnes, valuer les besoins et si ncessaire produire une maquette. Le rsultat de lanalyse des besoins permet de produire la liste des indicateurs et des analyses types.

8.2.1.

Inventorier les donnes :


Ltape dinventaire des donnes est semblable au processus dinventaire relatif au dveloppement dune application transactionnelle, cest pourquoi les outils existant dans lorganisation pour produire un inventaire de donnes descriptifs et spatiaux peuvent tre utiliss. De plus en plus, les produits commerciaux offrent un outil spcifique pour la saisie des mtadonnes des fichiers graphiques qui est intgr ou complmentaire leur outil SIG. Par exemple ESRIArcCatalogue permet de saisir les mtadonnes selon les normes ISO-TC211 et de les visualiser ensuite selon diffrentes normes telle la norme Content Standard for Digital Geospatial Metadata (CSDGM) du Federal Geographic data Committee (FGDC). Aussi lquivalent existe avec Geomedia 6.0, il sagit de Spatial Metadata Management System (SMMS) qui permet la gestion des mtadonnes spatiales selon la norme CSDGM.

Il est aussi possible de se procurer un outil de gestion de mtadonnes disponible en gratuiciel sur le Web, tels Metadata Parser (US Geological Survey), MetaScribe (NOAA Services Center) ou M3Cat9 (Intelec Gomatique). Ce dernier est dvelopp par une compagnie qubcoise partenaire de notre Chaire industrielle et permet de documenter les mtadonnes des normes reconnues et de se dvelopper un profil de mtadonnes personnel. Conu sur une base de mtamodle, il offre un niveau de flexibilit suprieur ainsi quun lien avec un outil de gestion des ontologies galement dvelopp par Intlec (N.B. notre quipe a contribu grandement la conception de cet outil). Il existe des valuations de certains outils de mtadonnes gratuits sur le site du Federal Geospatial Data Committee10 . Finalement, le dveloppement dun outil de gestion de mtadonnes maison est toujours intressant puisquil permet de complter plus facilement les normes de mtadonnes par des informations utiles pour le dveloppement de lapplication. Au Centre de recherche en gomatique, un outil de gestion de mtadonnes a t dvelopp lt dernier pour le projet de recherche sur la gestion intgre des donnes gospatiales et non gospatiales multi-sources pour le suivi environnemental des sites en rosion le long des infrastructures routires en Gaspsie et aux les-de-la-Madeleine pour le Ministre des Transports. Dans cet outil, des indications sur la nature des donnes ont t ajoutes afin didentifier facilement quelles donnes avaient un potentiel multidimensionnel (ex. quelles pouvaient tre agrges, quelles avaient des niveaux hirarchies, quelles pouvaient dfinir un indicateur). Donc, par un dveloppement maison simple autour de MS-Access, nous avons ajust linventaire aux besoins multidimensionnels. Il faut noter ici que nous navions pas besoin de prendre en compte une reprsentation graphique de la couverture spatiale de chaque jeu de donnes (comme le fait M3Cat ou autres outils de saisie de mtadonnes pouvant servir galement de gorpertoires). Donc, chaque occasion, il faut valuer les besoins en terme dinventaire et ressources disponibles et choisir entre les trois options suivantes: utiliser tel quel un outil existant, modifier un outil existant (lorsquils le permettent) ou en construire un. Chaque situation est diffrente. De plus, plusieurs infrastructures de donnes gospatiales tant canadiennes (Infrastructure canadienne de donnes gospatiales (ICDG)11 quamricaines (National Spatial Data Infrastructure (NSDI12) permettent de tlcharger gratuitement des jeux de donnes gospatiaux ainsi que leurs mtadonnes. Il est ainsi possible de complter facilement les donnes que possde lorganisation par celles-ci. Ceci peut mme se faire automatiquement avec la mise en place de services Web permettant la dcouverte automatique de jeux
9

http://www.intelec.ca/technologie_f.html#m3cat http://www.fgdc.gov/metadata/geospatial-metadata-tools http://www.geoconnexions.org/ICDG.cfm/fuseaction/aboutGcs.welcome/gcs.cfm http://www.fgdc.gov/nsdi/nsdi.html

10 11 12

de donnes spatiaux partir des mtadonnes. Les spcifications OGC pour les services de catalogue (OGC Catalogue Services Specification 2.0.1) Cette spcification dcrit les interfaces d'accs de services de catalogues. Ces services permettent la publication de catalogues de mtadonnes sur des donnes spatiales, sur des services et autres ressources ainsi que la recherche parmi les entres de catalogues. Les services de catalogues permettent la dcouverte de ressources enregistres au sein d'une communaut. Puisquaucun outil dinventaire de donnes na t identifi par RDDC comme tant privilgier dans cette tude, un choix dfinitif devra tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles.

8.2.2.

valuer les besoins et produire une maquette :


cette tape, il est ncessaire de dfinir des analyses multidimensionnelles types avec les usagers afin dtre en mesure de dfinir les indicateurs danalyse, les classifications, les thmatiques et les vues appropries pour les donnes. La procdure normale dvaluation des besoins des usagers consiste des entrevues avec les usagers. Malheureusement, aucun outil nassiste lquipe dans ce processus, seule lexprience de lquipe de dveloppement est garante du succs de cette tape. Par consquent, la chaire de recherche en simplement dessiner sa maquette dans Powerpoint en prenant soin de dessiner les interfaces voulues dans un outil de dessin. Lorsque les besoins des usagers sont dfinis, on poursuit gnralement avec la production dune maquette qui permet de valider ces besoins avant le dveloppement de lapplication. Les outils de maquettage permettent de produire une maquette selon le visuel propre de lapplication rsultante. Pour faire une maquette, on peut utiliser des outils bureautiques connus tels Word13 ou Visio qui contiennent des gabarits de modlisation dont un dinterfaces Windows permettant de maquetter rapidement une application compose de fentres, boutons et menus droulants. Autrement, on peut simplement dessiner sa maquette dans Powerpoint en prenant soin de dessiner les interfaces voulues dans un outil de dessin. Finalement, des outils de maquettage spcifiques peuvent tre utiliss comme Toolbook Instructor ou Macromedia Director qui permettent de crer des animations interactives et des simulations de logiciels et de les distribuer sous forme de pages web. Avec ces outils, lquipe de dveloppement peut crer une simulation de lapplication logicielle, y insrer des comportements, des animations et de la navigation. Lquipe de dveloppement peut par la suite rcuprer linterface simule pour lappliquer pour le dveloppement dune nouvelle maquette. Le degr de rutilisation des composantes de la maquette

13

Utiliser la barre doutils Contrle toolbox de Word.

devient alors plus important que dans le cas de maquettes dessines avec des outils bureautiques. Il existe aussi des outils de maquettage ddis des technologies spcifiques. Lquipe de la chaire a eu recours loutil de maquettage RAPT (Syntell 4i) lhiver dernier pour maquetter une application de tableau de bord. Ce genre doutil permet de produire rapidement une illustration des besoins des usagers pour le dveloppement dun tableau de bord spatial. Par consquent, si loutil de maquettage est flexible et extensible, une adaptation des gabarits visuels de ces outils peuvent permettre de maquetter des applications pour dautres technologiques que la technologie ddie. Ainsi, le dveloppement dun gabarit visuel SOLAP permettrait lutilisation de cet outil pour le maquettage dune telle application (il est actuellement limit lapproche tableau de bord et le volet spatial est limit aux fonctions de base). Ceci constitue une orientation technologique insrer dans les projets de la chaire et permettra de tirer davantage profit des travaux de L.E. Guimond ce sujet. Aucun outil de dfinition des besoins et de maquettage semble tre actuellement utilis au RDDC. Un choix dfinitif devra alors tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles. La figure suivante fait la synthse des outils pouvant tre utiliss dans la chane de production aux tapes dexploration des donnes.

Figure 18. Outils pouvant tre utiliss dans la chane de production des donnes aux tapes dexploration des donnes.

8.3. Conception du systme :


8.3.1. Modliser les systmes oprationnel et multidimensionnel :
La modlisation est essentielle la mise en place de bases de donnes efficaces. Pour les donnes transactionnelles, il existe plusieurs formalismes bien tablis dont le standard UML avec ou sans extension pour les donnes gospatiales. Par consquent, plusieurs outils commerciaux existent et assistent lusager dans cette tche, comme Micosoft Visio avec son gabarit UML, Oracle Designer 2000, IBM Rational Rose et Borland Together. Par contre, afin daccrotre la productivit de la modlisation des donnes spatiales transactionnelles, diffrentes solutions ont t avances (ex. Perceptory, MADS, ArgoGEOUML, GEOFRAME) mais seulement Perceptory dvelopp par lquipe du Dr Bdard est utilis dans plusieurs pays pour des projets lextrieur du milieu acadmique. Plusieurs fonctions propres aux donnes spatiales permettent damliorer loffre des produits UML standards (ex. modles plus efficaces crer et diter, gnration de code pour SIG, gnration de documents de spcifications, compatibilit accrue avec les normes ISO-TC211) Du ct dcisionnel, aucun logiciel commercial ne semble couvrir cette tche. Il existe des propositions de formalisme conceptuel dans les projets de recherche, mais rien encore de concret na t propos la communaut. Par consquent, la chaire BDGD travaille actuellement intgrer leur outil de modlisation conceptuel Perceptory14 un formalisme de modlisation multidimensionnel bas sur le formalisme UML tendu la rfrence spatiale. Actuellement, mme sans le support dun outil de modlisation, les composantes UML actuelles de Perceptory peuvent tre utilises pour modliser tous les lments multidimensionnels (cube, dimension, mesure, niveau et membre). Les paquetages sont utiliss pour les cubes et les dimensions alors que les classes sont utilises pour dcrire les mesures, les niveaux et les membres. La mthode de modlisation prvoit trois niveaux dabstraction, soit les niveaux Cube (1), Dimension (2) et Membre (3). Le premier niveau permet la description gnrale du ou des cube(s) de lapplication ainsi que de ses composantes (dimensions et mesures). Le deuxime niveau permet la description dtaille des dimensions (hirarchies et niveaux). Finalement, le troisime niveau permet de dcrire plus spcifiquement les membres des dimensions. Pour de plus amples information sur le formalisme et son application se rfrer au livrable 2 de ce projet (cf. Rapport et dmonstrateur technologique pour la cration de donnes, des mtadonnes et leur utilisation). Le support dun outil de modlisation multidimensionnelle assistera lusager dans cette tche en permettant de:
14

http://sirs.scg.ulaval.ca/perceptory

grer la syntaxe du modle (liens entre les cubes, dimensions, niveaux et membres); documenter les mtadonnes de transformation et dagrgation; crer les modles multidimensionnels partir de modles transactionnels ou de bases de donnes source; gnrer limplantation (en schma en toile); gnrer le code dimplantation de la base de donnes.

Ce sera la premire solution du genre, i.e. intgrant la fois les proccupations multidimensionnelles et spatiales et de plus, partir dUML. Puisquaucun outil de modlisation de donnes na t identifi par RDDC comme tant privilgier dans cette tude parmi lensemble des outils utiliss, un choix dfinitif devra tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles.

8.3.2.

Dfinir les contraintes dintgrit


Afin de peupler le cube de donnes de qualit, il faut implanter des contraintes d'intgrit lors de l'intgration et de l'agrgation des donnes sources. Dans un premier temps, peu de mthodes formelles existent pour dfinir les contraintes d'intgrits gospatiales. Plusieurs sont dfinies durant la modlisation de la base de donnes (cf. tape prcdente), mais cette faon de faire est rapidement limite et doit tre ralise de manire distincte pour tre efficace, particulirement dans le cas des donnes gospatiales o des milliers de possibilits existent et des choix stratgiques doivent tre faits (ex. outil CSory/G6 dvelopps au CRG il y a quelques annes suite aux projets avec Gomatique Canada et Ressources Naturelles Qubec sur des BD denvergure). Il sagit alors dun exercice en soi qui doit tre support par une mthode et un outil appropris tel que dmontr par diffrents travaux de recherche antrieurs et actuels. Dans un deuxime temps, rien n'a t fait ce jour pour dfinir les contraintes d'intgrit agrgatives gospatiales telles que retrouves dans les cubes. Il faut ici mentionner que contrairement aux donnes non-spatiales, les donnes gospatiales agrges peuvent provenir d'une source distincte des donnes dtailles, les contraintes dintgrits entre celles-ci deviennent dautant plus complexes dcrire. Pour ces raison, un outil d'assurance qualit dcisionnelle a priori (contrainte dintgrit spatiale) est en cours de conception et de dveloppement dans le cadre de la chaire de recherche, le tout bas sur CSOry/G6 et la matrice topologique 3x3 ISO enrichie des PVL de Perceptory afin dexprimer ce quelle ne peut exprimer prsentement.

Aucun outil de dfinition de gestion des contraintes dintgrits semble tre actuellement utilis au RDDC. Un choix dfinitif devra alors tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles La figure suivante fait la synthse des outils pouvant tre utiliss dans la chane de production ltape de conception.

Figure 19. Outils pouvant tre utiliss dans la chane de production des donnes aux tapes de conception de systme.

8.4. Ralisation du systme :


8.4.1. Choix des plateformes et implantation de larchitecture du systme.
cette tape, il faut choisir larchitecture OLAP qui supportera le systme et par consquent les plateformes logicielles (SGBD, OLAP) associes. Toutefois, les efforts relis au calcul des agrgations et la gestion des mises jour de la base de donnes multidimensionnelle varieront selon le type darchitecture OLAP choisi. Si larchitecture retenue est Multidimensionnelle ou Hybride OLAP, le serveur OLAP assistera lusager dans la structuration de la base de donnes multidimensionnelle, effectuera le calcul des agrgations des donnes et permettra la gestion des mises jour de la base de donnes multidimensionnelle. Ces serveurs ne disposent toutefois pas doprateurs spatiaux et ne permettent pas souvent de lier des primitives gomtriques pour supporter la cartographie. Si par contre larchitecture retenue est relationnelle OLAP, il ny a pas de serveur OLAP dimpliqu mais le lien avec les primitives cartographiques ainsi que lutilisation doprateurs spatiaux est alors possible. La base de donnes doit tre

structure sans assistance et le recours une quipe danalystes exprimente est souhaitable. Ensuite, les agrgations devront tre prcalcules et stockes dans la table de faits. Selon la complexit du cube de donnes, le nombre de combinaisons impliques et le volume de donnes total, le calcul des agrgations peut rapidement devenir une tche longue et complexe. Lutilisation des index relationnels permet doptimiser laccs aux donnes, mais la taille du cube ROLAP demeure assez importante. Finalement, sans serveur OLAP la mise jour incrmentielle de la base de donnes multidimensionnelle requiert des programmes maison afin de lancer priodiquement les calculs dagrgations des donnes selon la frquence de rafrachissement souhaite par les usagers. Cette tche devient rapidement un obstacle lutilisation des structures ROLAP si la frquence de rafrachissement des donnes est plus courte que le temps de calcul requis pour effectuer les agrgations et les indexer. Il devient alors avantageux dutiliser un serveur MOLAP qui gre le rafrachissement des agrgations, en rduit le temps de traitement et leur volume de par sa structure optimise. Par contre, aucun serveur MOLAP ne supporte les donnes spatiales et les oprateurs spatiaux. Il faut donc une structure parallle pour le stockage des donnes spatiales. Des travaux de la chaire ont toutefois dbut afin dextensionner le langage multidimensionnel MDX (utilis par SQL-Server, Syntell 4i, Mondrian, etc.) avec des oprateurs spatiaux et ainsi permettre de tenir compte automatiquement des donnes spatiales dans un serveur MOLAP. Puisquaucun systme de gestion de bases de donnes (SGBD) et systmes dinformation gographiques (SIG) nont t identifi par RDDC comme tant privilgier dans cette tude, un choix dfinitif devra tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles. Par contre, le choix dfinitif dune technologie SGBD fera en sorte de limiter le choix de larchitecture OLAP possible pour lapplication. Par contre, les technologies OLAP de Syntell 4i et JMAP ont dj t testes par RDDC dans le projet GEOLAP comme serveur dapplication analytique. La figure suivante fait la synthse des diffrentes architectures OLAP possibles pour la ralisation du systme selon les technologies OLAP et SOLAP tudies la section 4.0.

Figure 20. Diffrentes architectures OLAP possibles pour la ralisation du systme.

8.4.2.

Dvelopper le systme
Peu importe le choix de larchitecture retenue, une application OLAP se doit dtre structure selon ce type de modle la base. Des oprations particulires sont donc ncessaires afin de structurer les donnes selon la

structure multidimensionnelle (ex. modle toile, en flocon ou en constellation) modlise au pralable. D'abord, il faut importer les donnes composant les membres des dimensions dans leurs tables respectives. Ensuite, il faut stocker les identifiants des lments parents afin de concrtiser la relation de hirarchie entre les niveaux de la dimension. Par la suite, laide des donnes du systme transactionnel, il faut peupler la table des faits. Pour se faire, il faut crer les identifiant uniques, peupler les identifiants des niveaux infrieurs (i.e. les plus dtaills) de toutes les dimensions et les informations correspondants aux mesures du cube (ex. nombre de btiments, nombre de personnes et nombre de lignes lectriques). Il faut aussi grer lvolutivit des donnes et lhistorique de celles-ci, cest pourquoi dans limplantation de structures multidimensionnelles complexes, le recours une quipe de dveloppement exprimente est ncessaire. notre connaissance, il nexiste pas encore doutil permettant de gnrer une structure multidimensionnelle partir de la modlisation faite au pralable. Cest pourquoi loutil de modlisation Perceptory dvelopp par la Chaire permettra par son gnrateur de code de produire cette structure selon le SCGB relationnel choisi (cf. 8.3.1). Par contre, lensemble des outils de modlisation du march pourrait tre utilis pour la modlisation multidimensionnelle en prenant soin de gnrer manuellement la structure multidimensionnelle requise. Le module administrateur du logiciel OLAP retenu permet deffectuer les configurations de la base de donnes multidimensionnelle. Par exemple, dans le cas de la technologie JMAP Spatial OLAP, ladministrateur permet de configurer la connexion la base de donnes source structure selon une structure multidimensionnelle ROLAP et configurer les cubes en dfinissant leurs composantes (i.e. dfinir les dimensions, les hirarchies, lier les dimensions la table de fait et dterminer les mesures). Il est aussi possible partir de ladministrateur de crer de nouvelles mesures (dites calcules) dans le cube de donnes partir des mesures de base stockes. Puisquaucun outil de modlisation de donnes na t identifi par RDDC comme tant privilgier dans cette tude, un choix dfinitif devra tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles. La figure suivante fait la synthse des outils pouvant tre utiliss dans la chane de production ltape dimplantation de la structure multidimensionnelle.

Figure 21. Outils pouvant tre utiliss dans la chane de production des donnes ltape dimplantation de la structure multidimensionnelle.

8.4.3.

Extraire, transformer et charger les donnes :


Donnes descriptives :

8.4.3.1.

Ltape dextraction, de transformation et de chargement (ETL) des donnes est une tape cruciale dans le processus de production de donnes dcisionnelle (cf. section 6.0). Plusieurs outils ETL commerciaux existent pour traiter les donnes descriptives. Trs souvent, les serveurs de bases de donnes multidimensionnelles en possdent un qui lui est intgr, comme cest le cas de Microsoft SQL Server avec Data transformation Services. Aussi, les serveurs OLAP incluent trs souvent dans leur suite de produits un outil ETL comme Cognos Data Integration ou SAS Enterprise ELT Server. Aussi, la documentation des transformations appliques sur les donnes est primordiale si on veut bien comprendre le rsultat des analyses produites. Ces outils commerciaux ont souvent un outil de mtadonnes intgr au serveur OLAP ou un outil complmentaire ralisant cette tche, comme Cognos BI Metadata Integration. Malheureusement, ce jour, aucun outil ETL pour les cubes de donnes nexiste et les outils non-spatiaux ne peuvent pas traiter les donnes spatiales. Il sagit ici dun important lment de recherche de notre chaire industrielle. Comme mentionn prcdemment les efforts relis la ralisation, la structuration des donnes multidimensionnelle et lagrgation des donnes varient selon le type darchitecture OLAP choisi. Sans serveur OLAP, les agrgations doivent tre prcalcules et stockes dans la table de faits. Pour prcalculer les agrgations des donnes, lusager peut avoir recours un

logiciel statistique comme SAS ou dvelopper son programme dagrgation maison. laide dun algorithme combinant les dimensions entre-elles, il est possible de faire calculer la somme, la moyenne, le minimum ou le maximum dune mesure et de la stocker la suite des autres faits dans la table de faits. A ce jour cependant, aucun calcul spatial nest effectu. 8.4.3.2. Donnes gospatiales :

Suite ces constats, il faut tout dabord faire judicieusement le choix des sources de donnes spatiales et non spatiales intgrer car elles auront un impact important sur les efforts dploys et la qualit des rsultats. En regard aux diffrentes contraintes (budget, dlais, expertise), il faut identifier les sources de donnes de qualit qui nous permettront avec un minimum defforts et de temps dobtenir la donne rsultante souhaite avec la qualit souhaite. De toute vidence, il nexiste pas encore doutil qui permettraient dassister lusager dans ces choix et dvaluer ainsi la meilleure source de donnes gospatiales utiliser selon ses besoins. Cest pourquoi un tel outil d'valuation et de slection de donnes sources est prvu dans le dveloppement de la Chaire de recherche, lequel supportera la mthode actuellement en cours de dveloppement. Les produits ETL pour le traitement des donnes spatiales sont plus rares et le traitement de ces donnes est beaucoup plus complexe. Lorsque vient le temps de structurer les donnes gospatiales, un outil comme Feature Manipulation Engine (FME) de Safe Software (cf. section 6.0) est tout indiqu pour produire les donnes gospatiales dcisionnelles. Quoiquaucunement destin au peuplement de cubes de donnes spatiales, il peut tre utilis pour plusieurs fonctions. Plusieurs manipulations simples peuvent galement tre faites dans un outil SIG (ex. changement de format de donnes, de projection et de datum, fusion de polygones), par contre loutil FME permet de dcrire le processus de transformation appliqu sur les donnes laide dune squence de processus qui peut servir elle seule de documentation. Diffrentes oprations doivent tre ralises afin dintgrer les donnes gospatiales, comme uniformiser le datum et le systme de projection de tous les jeux de donnes. Comme le processus dagrgation de donnes gospatiales ncessaires pour produire les couches spatiales requises pour les dimensions spatiales des SOLAP peuvent tre complexes, le dveloppement dun outil dintgration et dagrgation des donnes gospatiales est planifi dans les travaux de la Chaire afin de couvrir spcifiquement cette tche au lieu dutiliser des outils SIG ou dintgration de donnes comme FME. Ceci permettra dautomatiser davantage lensemble des oprations requises. La premire partie dun tel outil spcialis pour les rseaux routiers, appel RN-ETL, est dailleurs en dveloppement dans notre quipe. Le projet RN-ETL consiste en la conception et le dveloppement dune mthode gnrique et dun logiciel permettant la transformation (intgration/agrgation) de donnes routires selon des paramtres personnalisables. Disponible sous forme dun service

Web interoprable, cette application constituera un sous-ensemble de services ETL (ExtractTransformLoad) pour la cration de cubes de donnes godcisionnelles, mais spcialise sur deux aspects pour le volet transactionnel: la resegmentation sur demande et le transfert des donnes routires entre diffrents systmes de rfrence spatiale (linaires et gographiques). Puisquaucun outil ETL na t identifi par RDDC comme tant privilgier dans cette tude, un choix dfinitif devra tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles. Seul GDAL avait t identifi par RDDC comme tant utilis pour transformer des donnes matricielles. Aucun outil de transformation de donnes vectoriel navait t identifi. La figure suivante fait la synthse des outils pouvant tre utiliss dans la chane de production ltape dETL.

Figure 22. Outils pouvant tre utiliss dans la chane de production des donnes ltape dextraction, de transformation et dintgration.

8.4.4.

Tester la validit du processus ETL.


Avant de mettre une telle application entre les mains des usagers, il faut sassurer que les donnes produites sont de qualit. Pour ce faire, FME possde des fonctionnalits de validation des donnes spatiales qui peuvent tre utilises (mais qui devraient tre testes auparavant, spcialement pour les oprations de type agrgatif et gnralisant). Afin de complter ces fonctionnalits selon les besoins spcifiques des donnes gospatiales dcisionnelles, un outil pour valuer la qualit dcisionnelle externe (cf. fitness-for-use) a posteriori sera dvelopp dans la chaire de recherche en continuation des travaux du projet de manuel lusager multidimensionnel (MUM). Ce projet avait pour objectif le dveloppement dun outil permettant de limiter les risques de mauvaise utilisation des donnes gospatiales en indiquant des indicateurs de qualit sur les mtadonnes. Aucun outil de dfinition de test de validit ne semble tre actuellement utilis au RDDC. Un choix dfinitif devra alors tre fait lors de limplantation de la chane de production de donnes gospatiales dcisionnelles La figure suivante fait la synthse des outils pouvant tre utiliss dans la chane de production ltape de tests de validation.

Figure 23. Outils pouvant tre utiliss dans la chane de production des donnes ltape des tests de validation. La figure suivante prsente dans une figure synthse lensemble des outils utiles pour traverser les tapes du processus de production des donnes gospatiales dcisionnelles.

Exploration des donnes


Inventaire des donnes
ESRI ArcCatalogue Geomedia SMMS Metadata Parser MetaScribe M3Cat Outil maison Services de catalogue OGC

Conception
Modlisation
Perceptory Micosoft Visio avec son gabarit UML Oracle Designer 2000 IBM Rational Rose Borland Together Outil de

Ralisation du systme
Extraction, transformation et dintegration des donnes spatiales Implanter larchitecture OLAP
Geomedia ESRI ShapeFile MID-MIF Oracle spatial Autres
Bases de donnes JDBC

Analyse des besoins et maquettage


Microsoft Word Microsoft Visio Microsoft Powerpoint ToolBook Instructor Macromedia Director Syntell 4i RAPT Outil de dfinition des

Contraintes dintgrit
Outil

d'assurance qualit dcisionnelle a priori (Chaire)

Architecture ROLAP
Algorithme de calcul des agrgations Algorithme de mise jour des donnes

FME Geospatial Data Abstraction (GDAL) JUMP Java Topology Suite Outil d'valuation et de slection de

Extraction

donnes sources (Chaire)

besoins gospatiaux dcisionnels (Chaire)

modlisation multidimensionnelle (Chaire)

Admin SOLAP Star schema

Client Jmap Spatial OLAP

Architectures MOLAP
MID-MIF
Microsoft SQL Server

Serveur OLAP

Client Proclarity

FME JUMP Java Conflation Suite DVP Vectorization DVP Image Batch Processing RN-ETL- Outil dintgration et

Transformatio

dagrgation des donnes

Donnes gospatiales utilises au RDDC


Compressed ARC Digitized Raster Graphics ERDAS Digital Terrain Elevation Data (DTED) Geomedia MID-MIF Oracle spatial Vector Map ESRI ShapeFile

ArcGIS
SAP BW

Microsoft SQL Server

Serveur OLAP

Client SAS Web OLAP for Java

Implanter la structure multidimensionelle


Perceptory Micosoft Visio avec son gabarit UML Oracle Designer 2000 IBM Rational Rose Borland Together Outil de

FME Java Conflation Suite JUMP RN-ETL- Outil dintgration et

Intgration

Architectures HOLAP
Geomedia ESRI Shapefile MID-MIF Oracle spatial Autres
Microsoft Serveur SQL Syntell 4i Server SAP BW Autres BD

dagrgation des donnes

Autres formats

Extraction, transformation et integration des donnes descriptives


SAS (Calcul des aggregations ROLAP) SQL Server Data transformation Services Syntell 4i SynLoader SAS Enterprise ETL Server

Serveur OLAP

Client Syntell 4i

Donnes descriptives utilises au RDDC


Microsoft SQL Server Autres BD Bases de donnes JDBC

Star schema
Hyperion Essbase Autres BD

ArcGIS MID-MIF

modlisation multidimensionnelle (Chaire)

Oracle

Power Cubes

Serveur OLAP

Client Cognos BI

Oracle

Star schema

Tests de validit
FME MUM- Outil

Outils en dveloppement Outils utiliss au RDDC Outils dvelopps par les partenaires de la chaire.

MS Access

d'assurance qualit dcisionnelle a posteriori (Chaire)

9. Conclusion
Cette tude visait identifier les besoins spcifiques pour la mise en place dun systme multidimensionnel qui sintroduit dans une dmarche denvergure dentrept de donnes spatiales ou de petits comptoirs de donnes spatiales. Plusieurs technologies se ctoient lorsque vient le temps de prparer les donnes gospatiales dcisionnelles, le processus de production de ces donnes est donc davantage complexe mettre en uvre que pour les donnes non-spatiales. Ceci est particulirement vrai pour chaque tape qui ncessite dajouter, denrichir ou de changer des mthodes et des outils. Sans de tels outils, il est possible de faire des applications qui exploitent la rfrence spatiale mais avec davantage defforts et de plus grandes limitations. Le plein potentiel de la rfrence spatiale nest possible quavec des mthodes et outils adapts. Les avantages qui en dcoulent, et particulirement la possibilit de comprendre les phnomnes tudis de faon beaucoup plus complte et de dcouvrir des informations autrement impossibles dcouvrir, justifient les efforts de R&D dans cette direction. Ce besoin et la pertinence des solutions avances ont t valus et chaudement supports par diffrents chercheurs et organismes subventionnaires majeurs. Le prsent rapport propose donc une chane de production de donnes gospatiales multidimensionnelles intgrant diffrents outils et mthodes, existant ou en dveloppement. Pour ce faire, les technologies dj utilises par RDDC pour produire des donnes gospatiales ont t values pour la production de donnes multidimensionnelles. De nouvelles solutions commerciales pouvant tre dun grand intrt pour RDDC ont aussi t proposes ainsi que des propositions doutils logiciels planifis dans le programme de R&D de la chaire de recherche, lesquels impliquent les partenaires industriels de la chaire dont certains sont galement des partenaires de RDDC. Les outils de RDDC, de la chaire et de leurs partenaires industriels qui sont impliqus dans une telle chane incluent la suite Syntell 4i (Syntell) dont lapplication GEOLAP (RDDC), JMAP SOLAP (Kheops Technologies), M3CAT (Intlec), DVP Vectorization et DVP Image batch processing (Groupe Alta). Aussi une autre avenue de recherche importante est la production de base de donnes reprsentations multiples. Diffrentes mthodes de saisis ont t dveloppes afin de permettre de nouvelles possibilits pour la gnralisation cartographique la vole et la cartographie web sur demande. Premirement lintroduction de patrons gomtriques lors de la saisie reprsentation multiple est une premire voie de recherche (Cardenas, 2004; Sabo et al, 2005). Ensuite, lenrichissement de mthodes photogrammtriques pour lacquisition 3D (Fredericque et al, 2005) en est une autre. Par consquent, lapplication de ces mthodes peuvent permettre daider construire des cubes spatiaux plus riches que ce quil est possible de faire prsentement en adaptant le peuplement de cube gospatiaux ds le dpart. Fort de cet inventaire, la dfinition dune chane de production des donnes multidimensionnelles a t introduite et lintgration des outils discuts prcdemment a t faite lintrieur de la chane de production.

10. Rfrences
1. Badard, T. et A. Braun. Plate-forme GeOxygene Guide utilisateur. Institut Gographique National, mars 2005. 2. Bdard,Y., M.J. Proulx & S. Rivest, 2005, Enrichissement du OLAP pour l'analyse gographique : exemples de ralisation et diffrentes possibilits technologiques, Revue des Nouvelles Technologies de l'Information - Entrepts de donnes et l'Analyse en ligne, sous la direction de F. Bentayeb, O. Boussad, J. Darmont et S. Loudcher, Cpadus-ditions, France, pp. 1-20 3. Bdard, Y., S. Larrive, M.-J. Proulx, F. Ltourneau & P.-Y. Caron, 1997, tude de l'tat actuel et des besoins de R&D relativement aux architectures et technologies des data warehouses appliques aux donnes spatiales, Rapport de recherche remis au CRDV, 98p., Mars. 4. Cardenas, A. ,2004, Utilisation de patrons gomtriques comme support la gnralisation automatique. MSc Thesis, Laval University, Dept. Geomatics Sciences, Quebec, Canada, 77 pp. 5. ESRI GIS Dictionary, fvrier 2006, http://support.esri.com/index.cfm?fa=knowledgebase.gisDictionary.gateway 6. Exeros, 2005, Solution Brief, The Economics of Data Integration: Making Integrated Data Strategies Economically Viable, White Paper, 6 pages. 7. Geoxygene, 2006. http://oxygene-project.sourceforge.net/index.html 8. JCS Conflation Suite User Guide, Vivid Solutions, novembre 2003. 9. Martel, C., 1997. Analyse des capacits et limites de MGE/Map Generalizer pour la gnralisation des cartes routires, Rapport produit dans le cadre du cours Projet de levs intgrs, Dpartement des sciences gomatiques, Universit Laval. 10. Martel, C., 1999. Dveloppement d'un cadre thorique pour la gestion des reprsentations multiples dans les bases de donnes spatiales, Thse de Matrise, Dpartement des sciences gomatiques, Universit Laval. 11. Proulx, MJ, Bernier, E. et Bdard, Y., 2006, Exploration dapplications dcisionnelles la Direction des inventaires forestiers : Dveloppement dun tableau de bord et dune application Spatial OLAP (SOLAP), Rapport de R&D, Centre de recherche en gomatique, Universit Laval, mars, 69 pages. 12. Sabo M.N, A. Cardenas, Y. Bdard & E. Bernier (2005). Introduction du concept de patron gomtrique et application aux btiments afin de faciliter leur

gnralisation cartographique la vole. Geomatica, Journal of the Canadian Institute of Geomatics, Vol. 59, No. 3, pp. 295-311. 13. Safe Software (produits FME), 2006. http://www.safe.com/ 14. Vivid Solutions (produits JTS, JCS et JUMP), 2006. http://www.vividsolutions.com/

Annexe A- Lecture suggre 1.


Bdard Y., M.J. Proulx & S. Rivest, 2005, Enrichissement du OLAP pour l'analyse gographique : exemples de ralisation et diffrentes possibilits technologiques, Revue des Nouvelles Technologies de l'Information - Entrepts de donnes et l'Analyse en ligne, sous la direction de F. Bentayeb, O. Boussad, J. Darmont et S. Loudcher, Cpadus-ditions, France, pp. 1-20.

Enrichissement du OLAP pour l'analyse gographique: exemples de ralisations et diffrentes possibilits technologiques
Yvan Bdard*, Marie-Jose Proulx**, Sonia Rivest *** Chaire industrielle CRSNG en bases de donnes gospatiales dcisionnelles Centre de recherche en gomatique, 0611 Pavillon Casault, Dpartement des Sciences gomatiques Facult de Foresterie et de Gomatique Universit Laval, Qubec, Canada, G1K 7P4 *Yvan.Bedard@scg.ulaval.ca http://sirs.scg.ulaval.ca/YvanBedard **Marie-Josee.Proulx@scg.ulaval.ca ***Sonia.Rivest@scg.ulaval.ca Rsum. D'importants efforts sont dploys depuis une quinzaine d'annes pour mettre en place des systmes d'aide la dcision sur le territoire. Ces systmes reposent toutefois sur les systmes d'information gographique (SIG) et les approches transactionnelles habituelles (OLTP) pour produire l'information godcisionnelle, souvent avec des dlais inacceptables, voire des cots prohibitifs au point d'en laisser tomber la production. Par consquent, les nouvelles applications Spatial OLAP (SOLAP) arrivent point pour permettre efficacement le dploiement dapplications daide la dcision et dexploration des donnes gographiques. Cet article vise faire connatre les besoins et avantages lis aux applications SOLAP, particulirement l'exploration cartographique des donnes. Puisque de telles applications n'ont pratiquement pas t abordes par la communaut informatique, cet article dlaisse les aspects scientifiques traditionnels du OLAP dj bien couverts par cette dernire au profit d'exemples concrets d'applications SOLAP et d'un survol des principaux concepts propres celles-ci. Notamment, une catgorisation en trois familles de solutions y est propose, soit OLAP-dominant, SIG-dominant et intgre. Chaque exemple d'application y est positionn et les avantages d'une technologie SOLAP y sont prsents. Riche de ces expriences, nous terminons avec quelques "difficults caches" de la rfrence spatiale qui font l'objet de nos proccupations de recherche.

Introduction
Partout dans le monde, de nombreuses organisations dpensent des sommes colossales en acquisition de donnes localises sur le territoire. La production cartographique, l'tablissement de relations avec les bases de donnes internes lorganisation et l'analyse spatiale de ces donnes relvent du domaine de la gomatique qui reprsente un march annuel de plusieurs dizaines de milliards d'euros. Cependant, les donnes ainsi produites sont surtout de nature oprationnelle et

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

difficiles exploiter des fins dcisionnelles, fins qui demandent des informations multisources, agrges, des comparaisons dans l'espace et le temps, des synthses, des mesures de tendances, des rponses rapides des requtes imprvues, etc. D'importants efforts sont dploys depuis une quinzaine d'annes pour mettre en place des systmes d'aide la dcision gospatiale, mais ces systmes reposent sur les systmes d'information gographique (SIG) et les approches transactionnelles habituelles (OLTP) pour produire l'information godcisionnelle, souvent avec des dlais inacceptables, voire des cots prohibitifs au point d'en laisser tomber la production. Cette situation nuit la prise de dcision tactique/stratgique (ex. dploiement des ressources, de nouvelles infrastructures) et devient particulirement problmatique en situation d'urgence o tout retard peut avoir des impacts majeurs. Cette difficult de produire l'information gospatiale dcisionnelle provient de cinq problmes : (1) des mthodes inadquates de conception de bases de donnes gospatiales fins dcisionnelles, (2) la difficult, voire l'impossibilit d'agrger et synthtiser automatiquement des donnes cartographiques htrognes, (3) la difficult d'valuer la qualit de l'information gospatiale agrge, (4) une sousexploitation des technologies de l'information et des communications par la communaut gomatique, et (5) un manque de technologies dcisionnelles gospatiales efficaces. Le prsent article traite de ce dernier point, particulirement de l'analyse spatiale en ligne (SOLAP). Il est dj reconnu que pour soutenir leurs processus dcisionnels, les organismes dploient des entrepts de donnes et utilisent des outils clients spcifiques afin d'accder, visualiser et analyser leurs donnes intgres. Puisqu'une grande partie de ces donnes peut avoir une composante spatiale (ex. position GPS, adresse civique, polygone cartographique), de nouveaux outils sont ncessaires pour profiter pleinement de la position et la forme des phnomnes analyss. Il a t dmontr [Caron 1998] que les technologies OLAP sans visualisation et navigation cartographiques prsentent d'importantes limitations pour l'analyse de phnomnes gographiques et spatio-temporels comme on en rencontre en environnement, foresterie, agriculture, urbanisme, scurit, transport, etc. Malheureusement, cette solution prvaut encore aujourd'hui malgr que diffrentes possibilits existent pour dvelopper des applications d'analyse spatiale en ligne (appeles "applications SOLAP"). L'objectif de cet article est de prsenter ces diffrentes possibilits tout en mettant l'accent sur la solution la plus volue : la "technologie SOLAP". Ainsi, la prochaine section rsume les besoins spcifiques au monde godcisionnel et prsente les opportunits qui conduisent depuis 1997, au dveloppement dapplications SOLAP avec diffrentes solutions (ex. combinaisons SIG + OLAP, technologie SOLAP). La troisime section dfinit la technologie SOLAP et prsente certains concepts spcifiques aux donnes spatiales accompagns d'exemples dapplications. La quatrime section prsente les diffrentes mthodes de dveloppement dapplications SOLAP, incluant l'utilisation de la technologie Spatiale OLAP et chaque exemple d'application y est positionn. Finalement, nous concluons avec des avenues de recherche importantes pour le dveloppement dapplications SOLAP du point de vue de gomaticiens spcialiss sur la donne gospatiale.

Les besoins spcifiques du godcisionnel.


Les donnes emmagasines dans les entrepts de donnes forment la base des analyses et guident lorganisation dans sa prise de dcision. Cependant, les donnes ne sont pas toujours exploites selon leur plein potentiel et une partie de leur richesse, c'est--dire, leur composante spatiale, est souvent inutilise. "Hidden in most data is a geographical component that can be tied to a place : an address, postal code, global positioning system location, () region or country" [ESRI 2000]. En effet, il est estim quenviron quatre-vingt pour cent des donnes stockes dans les bases de donnes corporatives possdent une rfrence spatiale [Franklin 1992], laquelle rfrence peut inclure, en plus de la position, une forme, une orientation et une taille. La simple visualisation de cette composante spatiale permet de rpondre un premier besoin, soit de mieux comprendre le phnomne en question en voyant sa position dans un cadre de rfrence gographique, en voyant son tendue sur le territoire, en voyant sa distribution sur le territoire (concentre, disperse, par groupes, alatoire, rgulire, etc.). Une telle visualisation permet de dcouvrir des informations non disponibles dans les outils OLAP traditionnels,

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

soit des modes de distribution gographique du phnomne ne suivant pas les dcoupages territoriaux prdfinis comme membres d'une dimension (ex. nom du pays, nom de la rgion, nom de la ville). L'utilisation de la composante spatiale permet galement de rpondre un deuxime besoin, soit de dcouvrir des relations spatiales entre diffrents phnomnes gographiques (ex. corrlation spatiale entre une frquence dune maladie X et un taux d'mission d'un polluant Y). Cette dcouverte peut se faire par visualisation mme si une corrlation ne suit pas la hirarchie de la dimension territoriale telle que dfinie dans le cube de donnes (i.e. dont la dlimitation gographique est uniquement identifie par un nom de lieu, comme pays province - rgion administrative). Cette dcouverte peut galement se faire par l'ajout de plusieurs dcoupages territoriaux ou l'ajout de dimensions d'analyse spatiale [Marchand et al 2004]. Souvent, laffichage cartographique rvle des informations (ex. proximit entre deux phnomnes isols, tendue dun phnomne, forme dun phnomne longeant une rive, orientation des phnomnes selon un flanc de montagne) qui nauraient pas t souponnes en faisant appel dautres mthodes de reprsentation telles que les tableaux et les graphiques. Un troisime besoin majeur dans un contexte d'analyse spatiale en ligne est celui de pouvoir naviguer dans une carte aussi librement que ce que permet un outil OLAP dans les tableaux et graphiques statistiques. Ainsi, l'utilisateur a besoin de pouvoir regarder les dtails d'une rgion d'intrt grce un forage spatial, comparer ces dtails avec ceux d'une autre rgion qui n'est pas adjacente, dcouvrir s'il y a des caractristiques communes entre les distributions spatiales du phnomne dans ces deux rgions, remonter une vision plus globale pour comparer un phnomne local avec un phnomne national, voir l'volution du phnomne sur le territoire sans tre restreint au dcoupage gographique de la dimensions spatiale utilise, obtenir des valeurs statistiques spatiales et temporelles sur l'volution de ce phnomne, etc. Beaucoup de connaissances gographiques peuvent tre obtenues par l'utilisation approprie de la visualisation et de la navigation cartographique la OLAP, et ceci mme pour des rfrences spatiales non prvues dans le cube de donnes. L'utilisation de la carte comme mdium d'exploration de donnes permet d'avoir un modle informatis se rapprochant davantage de la ralit de l'utilisateur et consquemment lui demandant un moins grand effort d'abstraction, ce qui accrot son efficacit. L'utilisation de la cartographie impose galement une utilisation plus judicieuse, grce la smiologie graphique [Bertin 1977, Tufte 1992], des variables visuelles telles que la couleur, la teinte, le poids des traits et la trame, mettant ainsi en action de faon plus efficace les principales facults corticales (mot, image, nombre, couleur, conscience spatiale, etc.). Les cartes se prtent mieux que les tableaux et graphiques statistiques l'ajout de codes, symboles et couleurs significatifs permettant de mieux supporter l'exploration interactive des donnes. La possibilit de naviguer dans la carte permet de chercher des associations, favorisant la dcouverte de relations spatiales insouponnes et potentiellement la construction d'un nouveau cube de donnes avec un dcoupage diffrent du territoire. Une application SOLAP, comparativement une application OLAP, rveille davantage notre capacit de visualisation exceptionnelle car la capacit de perception et de rflexion du cerveau humain, tout comme sa mmoire, relvent du domaine de l'image. Plusieurs tudes, dont principalement celle de Standing [1973], ont dmontr que la capacit de rtention de la mmoire est beaucoup plus grande pour les images que pour les mots [Fortin et Rousseau 1989] et que pour les chiffres. Selon [Buzan et Buzan 2003], "les images sont donc souvent plus vocatrices que les mots, plus prcises et plus aptes dclencher un vaste ventail d'associations". L'application de la thorie soutenue par ces deux auteurs et de plusieurs autres recherches sur le cerveau (ex. [Standing 1973]) nous amne dduire que l'effet stimulant que procurent les cartes incite une meilleure exploration des donnes en gardant le cerveau plus alerte, en encourageant un meilleur rythme visuel, en dveloppant davantage la conscience spatiale et en amliorant la vision globale. Pour obtenir une telle efficacit avec les donnes gospatiales, plusieurs dfis doivent tre surmonts et des avenues de recherche importantes doivent tre adresses puisque certains aspects demeurent problmatiques. Alors que certaines avenues relvent davantage de l'informatique traditionnelle (ex. indexation et compression des donnes), d'autres relvent typiquement de la gomatique (ex. gnralisation cartographique, reprsentation multiple, prcision spatiale, smiologie cartographique, intgration et agrgation spatiale).

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

De toute vidence, les outils client actuellement utiliss pour exploiter les entrepts ne sont pas adapts aux entrepts de donnes gospatiales, car ils nexploitent pas la structure gomtrique des donnes [Han et Kamber 2001]. Certes, ils peuvent tre utiliss, mais sans la capacit de manipuler la composante cartographique, ils ne peuvent pas supporter danalyses ni d'explorations avances [Rivest et al 2003]. De nouveaux outils client sont requis pour exploiter le plein potentiel de cette composante cartographique. Les systmes dinformation gographique (SIG) qui permettent d'assembler, stocker, manipuler et afficher l'information rfrence spatiale [Longley et al 2001] reprsentent un premier candidat potentiel. Par contre, malgr ses capacits danalyse spatiale pousses, il est reconnu que le SIG seul, avec son architecture OLTP limite, souffre d'un interface de requte complexe et de temps de rponse lents aux requtes agrgatives, en plus de ne pas offrir les fonctions temporelles et navigationnelles ncessaires pour soutenir laide la dcision. Des solutions alternatives doivent tre dveloppes [Bdard et al 2001]. Dans un premier temps, l'utilisateur doit pouvoir se concentrer sur l'information recherche (le "quoi") et non pas sur les oprations ncessaires pour y parvenir (le "comment"). Dans un deuxime temps, pour tre efficace, le processus de prise dcision doit suivre le flux de pense de lutilisateur. Il ne doit pas tre interrompu par des manipulations complexes et des temps de rponse trop longs. Les requtes spatiales, la navigation, l'affichage des cartes avec niveau de dtail et la smiologie graphique approprie, ainsi que la synchronisation entre les vues cartographiques, tabulaires et graphiques doivent s'effectuer l'intrieur de 10 secondes, soit l'intrieur de la bande cognitive identifie par [Newell 1990]. Ce haut niveau de convivialit associ une interactivit trs fluide sont ncessaires pour naviguer la vitesse de la pense [Vitt et al 2002]. Enfin, le tout reprsente en soi un dfi majeur pour les SIG lorsquils sont utiliss seuls. Ainsi, parmi les solutions potentielles, le couplage des technologies spatiales et non-spatiales, comme SIG et OLAP, semble tre une bonne option et a t expriment par notre quipe depuis 1997. Ce couplage a pav la voie lmergence dune nouvelle famille doutils mieux adapte pour les analyses spatiales et spatiotemporelles, cest--dire les technologies SOLAP. Cette nouvelle famille est conue ds le dpart pour exploiter les entrepts de donnes spatiales multichelles, l'enrichissement des concepts d'exploration de donnes en fonction d'une rfrence spatiale explicite et le paradigme multidimensionnel, ce qui lui procure plusieurs avantages sur les simple couplages SIG-OLAP.

Quest-ce qu'une technologie SOLAP ?


La technologie SOLAP peut tre dfinie comme "un type de logiciel qui permet la navigation rapide et facile dans les bases de donnes spatiales et qui offre plusieurs niveaux de granularit d'information, plusieurs thmes, plusieurs poques et plusieurs modes d'affichage synchroniss ou non : cartes, tableaux et diagrammes " [Bdard 2004]. La technologie SOLAP supporte la structure multidimensionnelle telle qu'utilise en informatique dcisionnelle, ce qui lui confre un immense avantage sur les logiciels de dploiement dapplication cartographique sur le Web (ex. ArcIMS, GeoMedia WebMap, MapX), mme lorsque ceux-ci offrent des oprations appeles forage (ex. PushnSee [Korem 2005]), car ces derniers sont bass sur une structure transactionnelle. La technologie SOLAP offre aussi de nouvelles fonctions daide la dcision non disponibles dans les SIG traditionnels ni dans les outils OLAP (cf. section 3.2). Malgr une histoire courte, le SOLAP atteint dj un premier niveau de maturit avec ses propres concepts, technologies et applications. Une technologie SOLAP permet la visualisation cartographique des donnes, la navigation cartographique dans la carte elle-mme ou dans les symboles affichs sur cette carte et ceci selon diffrents types de forage. Dans une technologie SOLAP la cration des cartes rsultantes des analyses est dynamique, contrairement certains logiciels de visualisation OLAP (ex. Visualizer de Cognos) o chacune des oprations de navigation spatiales (ex. forage) doit tre prdfinie dans lapplication et associe une carte. Cette limitation complexifie la mise jour des donnes gomtriques en rpartissant linformation sur plusieurs cartes. De plus, un tel outil SOLAP gre adquatement les rgles de reprsentation cartographique des rsultats des analyses sur les cartes. Par consquent, lutilisation dun tel outil ne ncessite pas le support dun expert en cartographie mme s'il permet

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

l'utilisateur de crer des centaines de milliers de cartes diffrentes par quelques clics de souris. Dans la prsentation des rsultats, la technologie SOLAP utilise les mmes rgles smiologiques (ex. couleur, trame, contour) pour l'ensemble des affichages, i.e. tableaux, graphiques et cartes. Cela permet davoir une synchronisation visuelle entre les diffrents modes de prsentation de linformation et d'avoir un panorama homogne. La smiologie graphique utilise pour les diffrents types daffichage (i.e. tableaux, graphiques et cartes) demeure synchronise lors dun forage ou lors dautres oprations, conservant ainsi une continuit perceptuelle ncessaire la dcouverte de corrlations. Enfin, il faut distinguer les applications SOLAP des technologies SOLAP. Une technologie SOLAP est une technologie gnrique construite spcialement pour offrir des fonctions SOLAP de base ou plus avances sans ncessiter defforts de programmation. Le premier produit commercial SOLAP est le rsultat des travaux de notre laboratoire et est commercialis sous le nom de JMap Spatial OLAP [KHEOPS 2005]. Une application SOLAP est une application mtier qui fournit l'utilisateur un certain nombre de fonctionnalits de type SOLAP et qui peut tre construite soit avec la technologie SOLAP, soit avec des combinaisons de technologies non-SOLAP (ex. SIG et OLAP) et du code de programmation maison, ou soit avec d'autres technologies (ex. librairies en Java).

Applications SOLAP ralises avec diffrentes technologies.


Les outils SOLAP peuvent tre utiliss pour dployer une multitude dapplications. travers les diffrents projets de recherche, notre quipe a dvelopp plusieurs applications dans un but d'exprimentations technologiques diverses et d'identification des lacunes des technologies du march. Une des premires expriences a t ralise en foresterie et a fait appel deux produits fonctionnant en parallle sans interface commune, soit PowerPlay de Cognos et GeoMedia d'Intergraph. Nous avons galement expriment l'utilisation d'un logiciel de visualisation scientifique qui semblait offrir les fonctions recherches, soit AVS (Advanced Visual Systems) [AVS 2005], mais avons abandonn cette piste aprs plusieurs mois de dveloppement car la gestion des objets gomtriques tait dficiente lors de son utilisation en 1999 (ex. surfaces avec des trous, surfaces composes de polygones disjoints), le langage de programmation tait propritaire et le rsultat devenait trop lourd maintenir dans notre contexte. Par contre, une autre application fut dveloppe pour aider les gestionnaires distribuer les budgets de maintenance du rseau routier en se basant sur les priodes budgtaires, les conditions routires, la classification des routes, le flux de circulation, etc. En plus de croiser, visualiser et explorer les informations requises, le cube permet de simuler la dgradation de la chausse et de calculer les cots de diffrents types de maintenance [Rivest et al 2001]. La figure 1 prsente cette application qui fut dveloppe avec loutil OLAP ProClarity [ProClarity 2005], SQL-Server Analysis Services de Microsoft et lAPI de GeoMedia WebMap avec une interface commune dveloppe en Visual Basic. Une autre application en transport permet d'analyser les donnes relatives aux diffrents types d'accidents en fonction de leur position sur le rseau routier et des caractristiques de celui-ci, le tout en fonction de diffrentes priodes [cf. Rivest et al 2004]. La figure 2 illustre cette application cette foisci dploye avec une technologie SOLAP, soit JMap Spatial OLAP [KHEOPS 2005] et Oracle 10g. Contrairement aux autres solutions, celle-ci ne ncessitait pas de dveloppement supplmentaire pour linterface l'usager puisque cette technologie SOLAP inclut l'interface. Les dtails des diffrentes mthodes utilises pour ces applications SOLAP sont donns la section 4.

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

FIG. 1. Une application de gestion du rseau routier (ProClarity et GeoMedia WebMap) : Visualisation de ltat de la chausse au niveau des segments de route.

FIG. 2. Une application sur les accidents sur le rseau routier (JMap Spatial OLAP et Oracle 10g) : Visualisation de la frquence des accidents par dcoupage territorial (en haut) et selon les types daccidents (en bas). Une application en sant environnementale permet dexplorer les relations entre les tats de sant et les phnomnes environnementaux, comme lincidence des maladies respiratoires en fonction de la qualit de lair pour rapidement valider ou invalider une hypothse [cf. Bdard 2002]. La figure 3 prsente cette application dveloppe par programmation en Visual Basic, MS Access et la librairie du logiciel de visualisation cartographique SoftMap et la mme application la figure 4 dveloppe avec ProClarity, SQL-Server Analysis Services de Microsoft et KMapX [Knosys 2000] et une interface commune dveloppe en VBScript.

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

FIG. 3. Une application en sant environnementale (Visual Basic et librairie de SoftMap) : Visualisation des cas de dcs de maladies respiratoires.

FIG. 4. Une application en sant environnementale (ProClarity et KMapx). Visualisation des cas de dcs des maladies respiratoires. Une application sur la cohorte dtudiants inscrits ces 15 dernires annes l'Universit Laval permet une analyse par programmes dtude, provenances gographiques, institutions de provenance, etc. afin de mieux planifier les prochains efforts de recrutement [cf. Proulx et Bdard 2004]. Une application relative aux sports de haut niveau permet d'analyser les performances (vitesse, vitesse maximale, dure, constance) atteintes par des athltes de patinage de vitesse sur diffrentes sections de la piste et selon diffrents facteurs techniques (ex. type de dpart), mcaniques (ex. type de patin) et mtorologiques (ex. vitesse et direction du vent), le tout partir de mesures prises par systme de positionnement satellitaire GPS [cf. Veilleux et al 2004] . Les figures 5 et 6 illustrent ces deux applications dployes avec la technologie JMAP Spatial OLAP et Oracle 10g.

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

FIG. 5. Une application sur la cohorte dtudiants (JMap Spatial OLAP) : Visualisation des tudiants par provenance gographique.

FIG. 6. Une application sur les performances des athltes de patinage de vitesse (JMap Spatial OLAP) : Visualisation de la vitesse moyenne des patineurs sur la piste (gauche) et par segments de parcours (droite). Plusieurs autres domaines dapplications ont t explors par notre quipe, tels que la scurit publique et le transport maritime. Rcemment, des applications en SOLAP 3D sur la gestion des forts et les fouilles archologiques mettent profit laspect tridimensionnel de lespace, cest--dire les volumes. Dans lapplication en archologie, il est possible de naviguer dans les diffrentes units stratigraphiques fouilles afin de comparer les lots de fouille entre eux en fonction de leur couleur, de leur granulomtrie, de leur consistance, de leur position gographique et stratigraphique et du type dartfacts (ex. cramique) trouvs dans le lot [Fortin et Bdard 2004]. La figure 7 illustre lapplication darchologie o les lots sont reprsents comme des volumes (i.e. en trois dimensions) [Rageul 2004]. La figure 8 prsente une application sur la gestion des forts qui permet de visualiser sur un modle tridimensionnel, les volumes de bois, les perturbations naturelles, les essences vgtales, etc [Brisebois 2004]. Ces deux projets sont bass sur une interface dveloppe en Visual Basic utilisant le SIG ESRI ArcGIS, le client OLAP ProClarity et le serveur OLAP SQL-Server Analysis Services de Microsoft.

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

FIG. 7. Une application tridimensionnelle en archologie (ESRI ArcGIS et ProClarity) : Visualisation des lots fouills sous la forme de volume.

FIG 8. Une application tridimensionnelle pour la gestion des forts (ESRI ArcGIS et ProClarity) : Visualisation des chablis sur le modle 3D.

Vocabulaire du monde SOLAP


Comme c'est le cas pour toute technologie et norme gospatiale moderne, les concepts apports ici reposent sur les concepts informatiques standards et apportent les extensions ncessaires pour effectuer de nouvelles fonctions ou pour amliorer l'excution des fonctions existantes. Ainsi, en comparaison au modle multidimensionnel conventionnel, le modle multidimensionnel spatial comprend aussi des faits et des dimensions non-spatiales. Par contre, comme nous le dcrivons ci-aprs, il existe aussi des dimensions spatiales de diffrents types, des mesures spatiales et des oprations spatiales. Sans aller dans les dtails, nous en prsentons les principaux concepts dans les sous-sections qui suivent. Dimensions spatiales

Le SOLAP possde des capacits de manipulation de donnes spatiales qui supportent des dimensions spatiales non-gomtriques, gomtriques et mixtes en plus des dimensions non-spatiales [Han et al 1998; Bdard et al 2001]. La dimension spatiale non-gomtrique utilise la rfrence spatiale nominale seulement (ex. les noms des lieux) et aucune reprsentation cartographique nest associe aux membres de la dimension. Ce type de dimension spatiale est couramment utilis dans les outils OLAP conventionnels. Les deux autres types de dimension spatiale incluent des formes gomtriques rfrences spatialement sur une carte qui permettent aux membres de la dimension dtre visualiss et
Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

interrogs dune manire cartographique. Ces gomtries existent pour tous les niveaux de la dimension spatiale gomtrique ou pour seulement certains niveaux dans le cas dune dimension spatiale mixte. La figure 9 prsente les trois types de dimensions spatiales.

FIG. 9. Les trois types de dimensions spatiales supportes par le SOLAP. Une autre catgorie de dimension caractre spatial, plutt atypique, est parfois cre pour faciliter la navigation dans les cubes l'aide d'oprateurs topologiques spatiaux (ex. adjacent, inclus, intersecte) ou temporels (ex. prcde, en mme temps, durant). Nous appelons de telles dimensions les dimensions d'oprateurs topologiques spatiaux, temporels ou spatio-temporels. En faisant correspondre les oprateurs des membres, il devient facile de prciser avec plus ou moins de dtail la relation dsire entre diffrents phnomnes (ex. inclus -> inclus totalement -> inclus totalement sans partage de frontire). Une telle dimension d'oprateurs a t utilise avec succs pour l'analyse des dplacements de radios amateurs [Marchand et al 2004] et pour notre application en archologie. Mesures spatiales

Dans un contexte multidimensionnel spatial, il ny a pas que les dimensions qui possdent une composante gomtrique, mais aussi les mesures. Par consquent, en plus des mesures conventionnelles supportes dans les systmes OLAP, il existe les mesures spatiales [Rivest et al, 2001]. Le pointeur spatial est le type de mesure spatiale le plus connu [Han et al 1998]. Cest la mthode utilise par les technologies SIG pour grer la composante gomtrique des objets spatiaux. Il sagit dun ensemble de pointeurs (stocks dans le cube de donnes) vers la gomtrie dun objet spatial stocke dans une autre structure que la structure multidimensionnelle. Le second type de mesure spatiale est la transposition au monde spatial de la mesure conventionnelle du OLAP. Elle permet de driver des valeurs laide dun oprateur mtrique ou topologique d'analyse spatiale dont le rsultat sera ensuite stock dans le cube de donnes (ex. surface dun objet, distance minimale avec l'objet le plus proche, cumul de longueurs sur un rseau). Finalement, la dernire mesure spatiale consiste gnrer des donnes gomtriques sous la forme dun ou plusieurs objets spatiaux obtenus par la combinaison de dimensions spatiales gomtriques (ou mixtes en utilisant les niveaux o les membres possdent une gomtrie). Il sagit dun ensemble de coordonnes obtenu partir des oprateurs danalyses spatiaux dun SIG, par exemple les coordonnes d'un point, ligne ou polygone rsultant de lintersection spatiale des membres de plusieurs dimensions. Ainsi en est-il des polygones rsultant de lintersection des polygones dlimitant les membres des dimensions spatiales frontires politiques et bassins versants. Oprateurs spatiaux de navigation

Finalement, les outils SOLAP possdent des oprateurs de navigation pour explorer via la carte l'ensemble des donnes spatiales. Les oprateurs spatiaux de navigation proposent diffrents forages, dont le forage spatial, le remontage spatial et le forage latral spatial. Loprateur de forage spatial permet lusager de naviguer dun niveau gnral un niveau plus dtaill lintrieur dune dimension spatiale gomtrique (ex. cartographier les rgions sous-jacentes composant un pays). Une opration de remontage permet la navigation inverse, c'est--dire de remonter dun niveau dtaill des donnes vers un niveau plus gnral (ex. cartographier les donnes nationales sus-jacentes une rgion). Finalement, un oprateur de forage latral permet de visualiser les diffrents membres du mme niveau de dtail dune dimension spatiale (ex. cartographier pour mieux comparer les mesures de

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

la rgion sud par rapport celles de la rgion nord). Ces oprateurs sont utiliss directement sur la carte. Les oprateurs spatiaux de navigation peuvent sappliquer sur un objet individuel (ex. visualiser les rgions composant lobjet Canada) ou sappliquer lensemble des objets dun niveau de dtail (ex. visualiser lensemble des rgions composant le niveau Pays).

Approches pour le dveloppement d'applications SOLAP


Cette section dcrit, partir des travaux de Rivest [Rivest 2000], trois familles de solutions technologiques pour le dveloppement et limplantation dune application SOLAP, bases sur les technologies utilises et les fonctionnalits disponibles. Ce regroupement en trois familles origine de la diversit des technologies pouvant tre utilises pour remplir les fonctions descriptives et cartographiques dune application SOLAP. Les fonctions du volet descriptif peuvent videmment tre supportes par un serveur OLAP conventionnel ou par un SGDB relationnel ou objet-relationnel avec structure en toile, en flocon ou en constellation. Les avantages d'un serveur OLAP pour le volet descriptif incluent les fonctionnalits dagrgation de donnes et les capacits optimises daccs aux donnes, ce qui augmente la rapidit danalyse pour les grands volumes de donnes. Les fonctions du volet cartographique peuvent, quant elles, tre supportes par un logiciel de visualisation cartographique, un logiciel de cartographie assiste par ordinateur (CAO) ou un SIG. Les trois familles de solutions bases sur les technologies et fonctionnalits disponibles sont : (1) les solutions OLAP dominant, (2) les solutions SIG dominant, et (3) les solutions intgres ou hybrides qui font appel autant aux fonctions OLAP que SIG [LGS Group 2000]. Au sein de cette classification, c'est loutil dominant qui offre ou qui fait appel certaines fonctionnalits minimales de lautre outil. Parfois, l'outil dominant fournit lunique interface graphique de lapplication SOLAP, parfois l'interface unique peut tre dveloppe avec un langage de programmation (ex. Java, VB, C++). Pour les deux premires familles, un groupe de fonctionnalits domine largement l'autre groupe et l'application est dveloppe autour de l'outil dominant. Inversement, dans le cas de la solution intgre, les fonctionnalits tant OLAP que SIG sont offertes un niveau suprieur, l'interface graphique principale est unique et construite au-dessus des technologies sous-jacentes (i.e. OLAP et SIG) et l'application SOLAP est dveloppe pour tirer profit de l'intgration des fonctions OLAP et SIG. Dans ce dernier cas, lorsque ces fonctionnalits et l'interface principale forment un produit logiciel autonome (ex. JMap Spatial OLAP [KHEOPS 2005]), nous parlons d'une technologie SOLAP (similairement la situation relative la technologie SIG vs le couplage des technologies CAO et SGBD). Les trois familles de solutions rpondent des besoins diffrents. Dans le premier cas, le volet cartographique n'est qu'accessoire. Dans le deuxime cas, c'est le volet OLAP qui est accessoire. Dans le dernier cas, les deux volets sont jugs importants et leur coordination ou synchronisation est une particularit cl de cette technologie.

Solutions OLAP dominant


Ce type de solution procure toutes les fonctionnalits dun outil OLAP, il est donc implicite quune telle solution utilise les capacits dun serveur OLAP. Par contre cette solution n'intgrera quun trs faible sous-ensemble des fonctions dun SIG, gnralement les fonctions daffichage, de navigation cartographique (ex. dplacement et changement d'chelle) et de slection dlments gomtriques. Les fonctions danalyse spatiale, de synchronisation cartes-tableaux-graphiques, de modification de cartes, etc. ne sont pas disponibles pour ce type de solution qui peut tre qualifie dapplication gospatiale priphrique o la rfrence spatiale nest utilise que comme support la visualisation danalyses non-spatiales [Bdard et al 1997]. Certaines fonctions minimales de forage spatial peuvent parfois tre offertes et permettent alors de dvelopper des applications SOLAP intressantes. Des alliances entre compagnies OLAP et SIG font en sorte de faciliter le dveloppement de telles applications. Un premier exemple de partenariat est celui de ProClarity [ProClarity 2005] et MapInfo. ProClarity est un logiciel client OLAP qui permet de manipuler des bases de donnes

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

multidimensionnelles (cubes) cres laide dAnalysis Services de Microsoft SQL Server. ProClarity permet de visualiser les donnes descriptives dun cube sous diffrentes formes graphiques telles que des tableaux et autres diagrammes. Le plugiciel KMapX, bas sur la technologie MapX de MapInfo, permettait la visualisation et le forage sous forme cartographique des donnes gomtriques associes une dimension spatiale gomtrique du cube. Un fichier de configuration permettait de dfinir les donnes spatiales gomtriques coupler une des dimensions dun cube. Un partenariat rcent entre les compagnies MapInfo et Microstrategy [BI.com 2004] pourrait bien offrir une solution similaire court terme et, selon les fonctionnalits offertes, devenir une offre de la troisime famille (i.e. intgre). Un autre produit disponible sur le march et trs reprsentatif de cette premire famille est le logiciel Visualizer de Cognos. Visualizer est un logiciel de visualisation de donnes pouvant provenir de sources diverses telles quun serveur OLAP ou une base de donnes relationnelle. Visualizer permet dafficher les donnes descriptives dune base de donnes multidimensionnelle sous forme de diffrents types de diagrammes. Le logiciel permet aussi laffichage cartographique des donnes spatiales dune dimension par le biais de la technologie MapX de MapInfo. Par contre, une faiblesse principale de cette famille de solutions, outre le temps de programmation requis, se situe au niveau du nombre de dimensions spatiales gomtriques supportes. En effet, les deux logiciels ne permettent de visualiser quune seule dimension spatiale la fois, ce qui limine la possibilit dtudier des corrlations spatiales. De plus, certains outils (ex. Visualizer) ne sont pas flexibles au niveau de la construction du volet de visualisation cartographique car chacune des oprations OLAP spatiales doit tre prdfinie et associe une nouvelle carte, ce qui complexifie la mise jour de ces cartes. En fait, il y a autant de cartes diffrentes que de vues cartographiques possibles, ce qui rend une telle approche utilisable uniquement dans un contexte de mises jour peu frquentes et ne ncessitant pas d'interoprabilit.

Solutions SIG dominant


Un serveur OLAP peut tre simul lintrieur dune base de donnes relationnelle par le biais de la modlisation en toile. Lorsque le volume de donnes consulter est peu lev, cette solution peut savrer trs avantageuse, puisque les calculs dagrgation peuvent seffectuer de manire slective et contrle laide de requtes SQL sur la base de donnes. Ces requtes peuvent alors tre adaptes en fonction des besoins dun projet particulier, en vitant par exemple de calculer les agrgations nonsignificatives ou en permettant de joindre les tables impliques dans les requtes de manire plus flexible que ne le permettent habituellement les serveurs OLAP qui utilisent des fonctions d inner join . Par contre cette solution doit inclure, dans la base de donnes, des lments permettant de grer la ralisation doprations OLAP telles que le forage et le remontage puisquil nexiste pas de serveur OLAP pour grer ces oprations. Les solutions SIG dominant offrent toutes les fonctionnalits de loutil SIG, mais seulement un sous-ensemble des fonctionnalits de loutil OLAP (ex. limitations dans le pivot des dimensions et le forage cartographique). Cette solution couple une base de donnes relationnelle simulant un serveur OLAP un logiciel SIG ou un outil de visualisation de donnes spatiales. L'interface graphique l'usager ainsi que les fonctions de forage tant smantiques que spatiales doivent alors tre programmes. De mme en est-il pour les fonctions danalyse spatiale et temporelle, de la synchronisation cartes-tableaux-graphiques, etc.

Solutions intgres
Ce type de solution, intgrant les fonctionnalits dun outil OLAP et dun SIG, pourrait tre qualifi dapplication centre-gospatiale o la rfrence spatiale des objets est utilise constamment dans lexploration et lanalyse des donnes, de faon aussi libre qu'avec les dimensions non-spatiales [Bdard et al. 1997]. Ce type de solution est utile lorsque lapplication doit s'intgrer dans un environnement gomatique fort flux de donnes (ex. pour les mises jour cartographiques, l'interoprabilit) ou ncessite lutilisation de fonctions spcifiques au SIG, comme par exemple les oprateurs danalyse spatiaux. Les

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

solutions de cette famille sont ralisables soit laide des librairies de fonctions de logiciels client OLAP et de logiciels SIG, soit laide de technologies SOLAP. Dans le premier cas, le dveloppement dune telle solution est possible moyennant beaucoup de programmation ad hoc lintrieur dun cadre applicatif spcifique. Pour ce faire, certaines technologies OLAP, tels que ProClarity de ProClarity et Essbase dHyperion rendent disponibles leurs librairies de fonctions et dobjets pour la ralisation dapplications spcifiques laide de langages de programmation courants comme Visual Basic ou C++. Il est alors possible de dvelopper une extension OLAP intgrer au logiciel SIG comme MapInfo, ArcView dESRI et GeoMedia dIntergraph qui permettent lutilisation de leurs librairies de fonctions avec les produits MapX, MapObjects et GeoMedia respectivement. De plus, le produit OpenMap qui consiste en un ensemble de composantes Java ddies la manipulation des donnes spatiales gomtriques [OpenMap 2005], peut aussi tre utilis pour le dveloppement du volet SIG. Une technologie SOLAP permet quant elle dintgrer lensemble des fonctionnalits OLAP et SIG, voire de les enrichir. L'interface graphique met disposition de lusager des fonctions de forage tant spatial que smantique, des fonctions danalyse spatiale, de sries cartographiques temporelles, etc. Les bnfices de lutilisation dun tel outil sont nombreux au niveau de la manipulation et de la mise a jour des donnes cartographique car on a ici accs un SIG. Dun autre cot, le couplage entre le volet gomtrique et descriptif des donnes est dj programm, le temps de dveloppement dune telle application est donc rduit au minimum. Des outils de navigation cartographique permettent de forer dans les cartes dune manire synchronise avec les autres types daffichages (ex. tableaux et diagrammes). Un transfert technologique entre lUniversit Laval et la compagnie qubcoise KHEOPS Technologie, propritaire de la solution SIG-Web JMap, a permis de dvelopper la premire solution commerciale intgre de SOLAP (printemps 2005). Les trois familles de solutions exposes dans cette section prsentent un parallle avec l'volution de l'intgration CAD-SGBD vs SIG qui eut lieu durant la dcennie 1985-95 [Bdard 1991]. Nous rencontrons encore aujourd'hui les diffrents types d'intgration SGBD-CAD et SIG et chaque type d'intgration rpond des besoins et des contextes diffrents. Enfin, il est possible de grouper diffremment les solutions prsentes, soit : avec ou sans programmation ad hoc pour le dveloppement de solutions SOLAP. Les principales difficults lies la programmation ad hoc dcoulent de la complexit d'une interface l'usager qui soit efficace et lgante ainsi que du temps requis pour cette programmation qui doit tre adapte chaque nouvelle application.

Positionnement des applications ralises


Afin dillustrer lventail des applications ralises dans nos laboratoires, chacune des applications prsentes la section 3.1 sera positionne dans leur famille de solution respective. Premirement, lapplication de sant environnementale (cf. figures 4) dveloppe avec ProClarity et le plugiciel KMapX, ainsi que lapplication sur la gestion du rseau routier (cf. figure 1) dveloppe avec ProClarity et GeoMedia WebMap dIntergraph font partie de la catgorie des OLAP dominant. Bien quintressantes, ces applications auraient ncessites beaucoup plus de programmation maison pour atteindre les niveaux de fonctionnalit et de flexibilit offerts par les solutions intgres. Ensuite, lapplication de sant environnementale (cf. figures 3) dveloppes par programmation Visual Basic partir du SGBD MS Access et du logiciel de visualisation cartographique SoftMap fait partie de la famille des SIG dominant. Cette application a exig davantage defforts de programmation que les solutions OLAP dominant prcdentes tant donn labsence de serveur OLAP pour la gestion des donnes multidimensionnelles. Les applications tridimensionnelles sur la gestion des forts et ainsi quen archologie (cf. figures 7 et 8) font partie de la catgorie des SOLAP intgrs, puisquun SIG a t utilis pour la gestion des objets volumtriques qui tait lintrt principal de lapplication. Loutil OLAP ProClarity a t retenu pour la gestion du descriptif. Finalement, les applications des figures 2, 5 et 6 ont ncessit trs peu deffort de dveloppement, puisquelles ont t dployes dans une solution SOLAP intgre toute prte, soit la version prcommerciale de loutil JMAP Spatial OLAP utilisant Oracle Spatial comme base de donnes. Le tableau 1 permet de positionner graphiquement les diffrentes applications selon leur catgorie, quelle requiert des efforts de programmation ou non (out-of-the-box).

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

OLAP Dominant Solution toute prte (out-of-the-box) Solution ncessitant de programmer

SIG Dominant

SOLAP Intgr

2,5,6JMap Spatial OLAP 4- ProClarity/ KMapX, 1- ProClarity/ GeoMedia WebMap 3- SoftMap/ Visual Basic 7,8-ArcGIS/ Proclarity

TABLEAU 1. Positionnement des applications (cf. numro des figures) selon les trois familles de solutions potentielles et leur degr de programmation.

Conclusion
L'objectif de cet article tait de faire dcouvrir les diffrentes possibilits de dveloppement dapplications SOLAP tout en mettant l'accent sur la "technologie SOLAP". Par consquent, pour bien comprendre les enjeux du dveloppement de telles applications, un rsum des besoins spcifiques du monde godcisionnel a t prsent ainsi que quelques lments du vocabulaire SOLAP. Notre objectif n'tait pas de dcrire le tout d'une faon trop formelle et scientifique, mais plutt de vhiculer un message sur le fort potentiel du SOLAP jusqu'ici nglig par la communaut informatique. Des exemples concrets dapplications SOLAP dveloppes notre centre de recherche ont donc t prsents non pas comme catalogue de nos ralisations mais pour mieux illustrer ce potentiel et soutenir le reste de l'article. Trois familles de solutions possibles ont ainsi t dcrites pour raliser de telles applications SOLAP et nous y avons positionn nos applications. Les principales limitations des diffrentes familles ont t discutes, chaque famille pouvant dcouler de contextes particuliers. Le dveloppement dapplications SOLAP requiert encore des efforts de recherche importants puisque certains aspects demeurent problmatiques. Plus particulirement du point de vue gomatique (i.e. des problmes lis la donne gospatiale), notons la quasi-impossibilit de gnrer automatiquement les niveaux agrgs d'information cartographique pour les cubes partir des donnes cartographiques fines (cf. limitations de la gnralisation cartographique automatique), la discordance entre l'agrgation cartographique et la gnralisation cartographique (ncessaire pour assurer la visibilit de la carte), la trs grande htrognit spatiale des donnes (ex. les cartes ne se superposent jamais correctement), l'enrichissement ncessaire des mthodes de conception pour prendre en compte la difficult de production des donnes gospatiales, la prise en compte des processus complexes de mise jour cartographique pour le peuplement des cubes de donnes gospatiales dcisionnelles, le contrle des nombreuses mtadonnes gospatiales (plus de 400 dans la norme internationale de mtadonnes ISO-19115 [ISO, 2002]), contradiction vs synchronisation entre les rgles de smiologie graphique utilises en cartographie vs graphiques statistiques, gestion de l'volution des dcoupages territoriaux vs volutions smantiques vs mesures, et ainsi de suite. C'est au dveloppement de solutions ce type de problme que nous concentrons nos efforts, en complmentarit avec la communaut informatique pour les aspects fondamentaux OLAP.

Remerciements
Les auteurs tiennent remercier les organisations suivantes pour le financement de la Chaire industrielle en bases de donnes gospatiales dcisionnelles : Conseil de Recherche en Sciences Naturelles et en Gnie du Canada, Recherche et Dveloppement Dfense Canada, Hydro-Qubec, DVP, Intlec Gomatique, Holonics, KHEOPS Technologies, Syntell, Ressources Naturelles Canada, Transports Qubec et lUniversit Laval.

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

Rfrences
[AVS 2005] Data Visualization and Visual Analytics, http://www.avs.com/index_wf.html [BI.com 2004] BusinessIntelligence.com, 2004. MapInfo and MicroStrategy Deliver Location-Enabled Business Intelligence, September 2004, http://www.businessintelligence.com/ex/asp/id.606/xe/binewsdetail.htm [Bdard 1991] Bdard, Y., 1991, Les logiciels SIG : une volution via l'intgration de donnes multisources, Journal de la Socit Franaise de Photogrammtrie et de Tldtection, No. 122, p. 58-63 [Bdard et al 1997] Y. Bdard, S. Larrive, M.-J. Proulx, P.-Y. Caron, F. Ltourneau, 1997. Geospatial Data Warehousing : Positionnement technologique et stratgique, Rapport prpar pour le Centre de recherche de la dfense de Valcartier, Universit Laval, 79 pp. [Bdard et al 2001] Y. Bdard, T. Merrett, J. Han, 2001. Fundamentals of Spatial Data Warehousing for Geographic Knowledge Discovery, Geographic Data Mining and Knowledge Discovery, Taylor & Francis, Research Monographs in GIS, Chap. 3, p. 53-73 [Bdard et al 2002] Y. Bdard, P. Gosselin, S. Rivest, et al, 2002. Integrating GIS Components with Knowledge Discovery Technology for Environmental Health Decision Support, International Journal of Medical Informatics,Vol. 70, No. 1, p. 79-94 [Bdard 2004] Y. Bdard, 2004. Amlioration des capacits dcisionnelles des SIG par l'ajout d'un module SOLAP. Universit de Provence, Centre de Mathmatiques et Informatique, LSIS, Marseille, 8 avril. [Bertin 1977] J. Bertin, 1977. La graphique et le traitement graphique de l'information, Flammarion Paris, 273 p. [Buzan et Buzan 2003] T. Buzan, B. Buzan, 2003. Mind Map, dessine-moi l'intelligence, 2 dition. ditions de l'Organisation, Paris, 325 p. [Brisebois 2004] Analyse du potentiel d'extension du concept SOLAP pour l'exploration des donnes spatiales 3D, Mmoire de matrise, Dpartement des Sciences gomatique, Universit Laval. [Caron 1998] P.Y. Caron, 1998. tude du potentiel de OLAP pour supporter l'analyse spatiotemporelle. MSc. Dp. Sciences gomatiques, Centre de recherche en gomatique, Universit Laval, 129 p. [ESRI 2000] ArcView, 2000. GIS Brochure. http://www.esri.com/library/whitepapers/avlit.html. [Fortin et Bdard 2004] M. Fortin, Y. Bdard, 2004. Dveloppement d'un systme de dcouverte des connaissances spatio-temporelles issues d'un chantier de fouilles archologiques, Colloque Gomatique 2004, 27-28 octobre, Montral, Canada [Fortin et Rousseau 1989] C. Fortin, R. Rousseau, 1989. Psychologie cognitive : une approche de traitement de l'information. Presses de l'Universit du Qubec, 434 p. [Franklin 1992] C. Franklin, 1992. An Introduction to Geographic Information Systems : Linking Maps to Databases. Database, April, pp. 13-21. [Guimond 2004] L.E. Guimond, 2004. Conception dun environnement de dcouverte des besoins pour le dveloppement de solutions SOLAP, M.Sc.Dp. Sciences gomatiques, Universit Laval, 128 p. [Han et al 1998] J. Han, N. Stefanovic, K. Koperski, 1998. Selective materialization : An Efficient Method for Spatial Data Cube Construction. Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD'98), Melbourne, Australia. [Han et Kamber 2001] J. Han, M. Kamber, 2001. Data Mining : concepts and Techniques, Morgan Kaufmann Publisher, Inc, 2001. [ISO, 2002] International Standard Organization, 2002, Geographic Information, 19115-Metadata, 141 pages. [KHEOPS 2005] KHEOPS, 2005. JMAP Spatial OLAP, http://www.kheops-tech.com/en/jmap/solap.jsp [Knosys 2000] Knosys, 2000, Geo Spatial Mapping : MapInfo MapX Plug-In for Knosys ProClarity 3.0, [Korem 2005] Korem, 2005. Site web Pushnsee, http://www.pushnsee.com/

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

[LGS Group 2000] LGS Group Inc., 2000. Analysis of Health Surveillance Business Intelligence Tools and Applications, Final Draft, 111 pp. [Longley et al 2001] P.A. Longley, M.F. Goodchild, D.J. Maguire, D. Rhind, 2001. Geographic Information Systems and Science. John Wiley & Son, 454 p. [Marchand et al 2004] P. Marchand, A. Brisebois, Y. Bdard, G. Edwards, 2004. Implementation and evaluation of a hypercube-based method for spatio-temporal exploration and analysis, Journal of the International Society of Photogrammetry and Remote Sensing,Vol. 59, No. 1-2, p. 6-20 [Newell 1990] A. Newell, 1990. Unified theories of cognition. Harvard University Press, Cambridge MA, 549 p. [OpenMap 2005] OpenMap, 2005. What is ? http://openmap.bbn.com/whatis.html [Pestana et al 2004] G. Pestana, M. M. da Silva, H. Madeira, 2004. A Prototype Implementation of a Spatial Data Warehouse for Integrating Business, Historical and Spatial Data, 5th Int. Conf. of Intelligent Data Engineering and Automated Learning. [Pestana et al 2005] G. Pestana, M. M. da Silva, Y. Bdard, 2005. Spatial OLAP Modeling : An Overview Base on Spatial Objects Changing over Time, IEEE 3rd International Conference on Computational Cybernetics, 13-16 avril, Mauritius [ProClarity 2005] ProClarity, 2005. ProClarity Product Information, http ://www.ProClarity.com/, [Proulx et Bdard 2004] M-J Proulx, Y. Bdard, 2004. Le potentiel de l'approche multidimensionnelle pour l'analyse de donnes gospatiales en comparaison avec l'approche transactionnelle des SIG., Colloque Gomatique 2004, 27-28 octobre, Montral, Canada [Rageul 2004] Dveloppement d'une application d'exploration de donnes gospatiales comme support la fouille archologique, Rapport de fin dtudes, cole d'ingnieurs INSA de Strasbourg, France [Rivest 2000] S. Rivest, 2000. Investigation des modes dintgration physique entre un serveur de base de donnes multidimensionnelle et un SIG, M.Sc. Dp. Sciences gomatiques, Universit Laval, 84 p. [Rivest et al 2001] S. Rivest, Y. Bdard, P. Marchand, 2001. Towards better support for spatial decision-making : defining the characteristics of Spatial On-Line Analytical Processing, Geomatica,Vol. 55, No. 4, p. 539-555 [Rivest et al 2003] S. Rivest, Y. Bdard, M.J. Proulx, M. Nadeau, 2003. SOLAP : a new type of user interface to support spatio-temporal multidimensional data exploration and analysis, Workshop ISPRS, Quebec, Canada, October 2-3. [Rivest et al 2004] S. Rivest, P. Gignac, J. Charron, Bdard, Y, 2004. Dveloppement dun systme dexploration spatio-temporelle interactive des donnes de la Banque dinformation corporative du ministre des Transports du Qubec. Colloque Gomatique 2004, 27-28 octobre, Montral, Canada [Standing 1973] L. Standing 1973. Learning 10000 pictures. Quaterly Journal of Experimental Psychology, vol. 25, 207-222. [Tufte 1992] E.R. Tufte, 1992. The Visual Display of Quantitative Information. Graphics Press, 191 p. [Veilleux et al 2004] J-P, Veilleux, Lambert, M., Santerre, R., Bdard Y., 2004. Utilisation du systme de positionnement par satellites (GPS) et des outils d'exploration et d'analyse SOLAP pour l'valuation et le suivi de sportifs de haut niveau, Colloque Gomatique 2004, 27-28 octobre, Montral, Canada [Vit et al 2002] E. Vitt, M. Luckevich, S. Misner, 2002, Business Intelligence, Making Better Decisions Faster, Microsoft Press, 202 p.

Summary
Important efforts have been made for the last fifteen years to set up geospatial decision support systems. However, these systems are based on geographic information systems (GIS) and usual transactional approaches (OLTP) to produce geodecisional information, often with unacceptable delays and prohibitive costs up to the point of dropping the production. Consequently, the new Spatial OLAP (SOLAP) applications arrive just in

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

time to allow effective implementations of geospatial decision support systems. This article highlights the needs and the advantages related to SOLAP applications, particularly for cartographic data exploration. Given that such applications have almost never been tackled by the computer science community, this paper does not discuss the traditional scientific issues of OLAP applications which are widely addressed by this community. Instead, it presents concrete SOLAP examples and an overview of the main underlying concepts. A categorization in three families of solutions is proposed: OLAPdominant, GIS-dominant and integrated solution. Each given example of applications is then positioned in regards to these categories and the advantages to use the integrated solution are addressed. We finally conclude with a brief overview of the typical hidden difficulties related to geographic data which are one of our research preoccupations.

Prsent la 1ere Journe Francophone sur les entrepts de donnes et lanalyse en ligne (juin 2005).

Annexe B : Lecture suggre 2.


Section 1.11.2 On-line Analytical Processing, Bdard, Y., S. Larrive, M.-J. Proulx, F. Ltourneau & P.-Y. Caron, 1997, tude de l'tat actuel et des besoins de R&D relativement aux architectures et technologies des data warehouses appliques aux donnes spatiales, Rapport de recherche remis au CRDV, 98 p., Mars.

Lutilisation dun outil OLAP dans les data warehouses sadresse parfaitement aux besoins dun data warehouse et permet entre autre de simplifier la navigation dans la base de donnes possdant une structure multidimensionnelle. Larchitecture OLAP consiste en trois services: la base de donnes, le serveur OLAP et le module client. 1. La base de donnes dtermine comment et o les donnes sont enregistres. La base de donnes dune architecture OLAP doit au dpart supporter des donnes agrges ou rsumes. Cette base de donnes peut donc provenir dun data warehouse ou de data marts. Cette base de donnes doit ensuite possder une structure multidimensionnelle qui peut tre implante dans un SGBD multidimensionnel aussi bien que dans un SGBD relationnel. Ainsi, The multidimensional data store15 logically stores the data in arrays conform to the multidimensional model into a multidimensional database. The relational data store stores the data conform to the relational data model as keyed records in tables, and the data can be accessed by a common language SQL in a relational database. (Gill et al., 1996). Dans le SGBD relationnel, lutilisation du schma en toile (star schema) permet de simuler une structure multidimensionnelle. Ainsi, les informations relatives aux dimensions des donnes sont stockes dans des tables relationnelles appeles fact tables. Ces tables sont ensuite interprtes par le serveur OLAP afin de construire une vue (relle ou virtuelle) du cube multidimensionnel relative ces donnes. Sans vouloir stendre sur le sujet, notons que la structure modlise laide du star schema nest pas normalise, cest pourquoi lutilisation dun schma en flocon (snow flakes schema) permet daccrotre les performances dinterrogations. Les diffrents types de modlisation sont bien prsents dans un article produit par Brooks (1995).
2.

Le serveur OLAP est le logiciel qui gre la base de donnes de structure multidimensionnelle et laccs des usagers. Pour viter la confusion terminologique possible entre les serveurs OLAP, Cafasso (1996) les a baptiss selon les SGBD associs. Ainsi, multidimensional OLAP (MOLAP) sutilise lorsque le serveur est jumel SGBD multidimensionnel et relational OLAP (ROLAP) sutilise pour le couplage un SGBD relationnel. Quant au module client, il sagit du logiciel daccs et de manipulation/exploration des donnes dessence multidimensionnelle.

3.

partir de ces trois composantes, larchitecture OLAP peut se dvelopper selon plusieurs configurations possibles: la configuration multidimensionnelle, la configuration relationnelle et la configuration combine multidimensionnelle/relationnelle.
15

Notons ici le terme data store est utilis dans le sens de base de donnes.

Extrait du rapport de recherche produit pour le CRDV, section On-line Analytical Processing

La configuration multidimensionnelle (cf. figure 1.15), consiste en un serveur MOLAP et une base de donnes multidimensionnelle propritaire. Les donnes sommaires et agrges du data warehouse sont stockes dans la base de donnes selon le cube multidimensionnel. Les donnes sont accdes par le serveur MOLAP directement du module client. Dans la majorit des cas de cette configuration, le serveur MOLAP utilis est intgr au SGBD multidimensionnel. Par consquent la majorit des SGBD multidimensionnels prsents antrieurement (cf. tableau 1.3) offrent des serveurs MOLAP intgrs.
Modules client

Data Warehouse/Data Mart dans une base de donnes multidimensionnelle Serveur MOLAP

figure 1.15. Architecture OLAP multidimensionnelle.

La configuration relationnelle (cf. figure 1.16), consiste en un serveur ROLAP qui agit entre le module client et une base de donnes relationnelle. Les donnes du data warehouse sont stockes dans la base de donnes sous forme de tables relationnelles et ces donnes sont extraites par des requtes SQL pour tre ensuite prsentes au client dans une vue multidimensionnelle. Dans cette configuration, le serveur ROLAP utilis est indpendant du SGBD relationnel. Cette structure possde certains avantages. Selon Hettler (1997) ROLAP proponents argue that this approach eliminates the needs to store large amounts of data redundantly. They add that relational databases are the only way to store very large amounts of data and maintain acceptable retrieval performance.

Data Warehouse/ Data Mart dans une base de donnes relationnelle

Serveur ROLAP

Vue multidimensionnelle des donnes

Modules client

figure 1.16. Architecture OLAP relationnelle.

Finalement, la configuration combine multidimensionnelle/relationnelle (cf. figure 1.17), consiste en un serveur ROLAP et deux bases de donnes distinctes. Les donnes sommaires et agrges du data warehouse sont stockes dans une premire base de donnes selon la matrice multidimensionnelle. Ensuite, les donnes dtailles sont stockes dans une autre base de

Extrait du rapport de recherche produit pour le CRDV, section On-line Analytical Processing

donnes sous forme de tables relationnelles. Les donnes sommaires sont accdes directement par le serveur ROLAP tandis que les donnes dtailles sont prsentes au client par le serveur ROLAP selon une vue multidimensionnelle. Dans cette configuration, le serveur ROLAP utilis est indpendant des SGBD et permet laccs conjoint aux deux types de structures de donnes. Cette configuration permet daccrotre les performances dinterrogation puisque les donnes agrges sont dj prcalcules dans la structure multidimensionnelle (Hettler, 1997).
vue multidimensionnelle des donnes

Data Warehouse/ Data Warehouse/Data Mart Data Mart dans une dans une base de donnes multidimensionnelle base de donnes relationnelle Serveur ROLAP

Modules client

figure 1.17. Architecture OLAP combine (relationnelle/multidimensionnelle).

Les avantages et inconvnients propres chaque configuration sont en fait lis directement au type de SGBD utilis. Ainsi la configuration multidimensionnelle souffrira des dsavantages des SGBD multidimensionnels et ainsi de suite. On peut trs bien associer les capacits de la structure combine aux caractristiques des SGBD multidimensionnels tendus.

Extrait du rapport de recherche produit pour le CRDV, section On-line Analytical Processing

Annexe C : Formats matriciels supports par ArcGIS.


Format Description Distributed on CDROM by the National Imagery and Mapping Agency (NIMA). ADRG is geographically referenced using the equal arc-second raster chart/map (ARC) system in which the globe is divided into 18 latitudinal bands or zones. The data consists of raster images and other graphics generated by scanning source documents. This format provides a method for reading in and displaying decompressed, BIL, BIP, and BSQ image data. By creating an ASCII description file that describes the layout of the image data, black-and-white, grayscale, pseudo color, and multiband image data can be displayed without translation into a proprietary format.

ARC Digitized Raster Graphics (ADRG)

Band Interleaved by Line (ESRI BIL), Band Interleaved by Pixel (ESRI BIP), Band Sequential (ESRI BSQ) Bitmap (BMP), Device-Independent Bitmap (DIB) format, or Microsoft Windows Bitmap Compressed ARC Digitized Raster Graphics (CADRG)

BMP files are Windows bitmap images. They are usually used to store pictures or clip art that can be moved between different applications on Windows platforms. Distributed on CDROM by NIMA. CADRG is geographically referenced using the ARC system in which the globe is divided into 18 latitudinal bands or zones. The data consists of raster images and other graphics generated by scanning source documents. CADRG achieves a nominal compression ratio of 55:1.

Panchromatic (grayscale) images that have been georeferenced and corrected Controlled Image Base for distortion due to topographic relief distributed by NIMA. Thus, they are similar to digital orthophoto quads and have similar applicationssuch as (CIB) serving as a base or backdrop for other data or as a simple map. Digital Geographic Information Exchange Standard (DIGEST) Arc Standard Raster Product (ASRP), UTM/UPS Standard Raster Product (USRP) Digital Terrain Elevation Data (DTED) Level 0, 1, & 2 ER Mapper Graphics Interchange

DIGEST datasets are digital replicas of graphic products designed for seamless worldwide coverage. ASRP data is transformed into the ARC system and divides the earth's surface into latitudinal zones. USRP data is referenced to UTM or UPS coordinate systems. Both are based on the WGS 1984 datum.

Created by NIMA (formerly the Defence Mapping AgencyDMA).

A proprietary raster format from ER Mapper. Produced using the ER Mapper image processing software. A proprietary image format that is highly compressed and requires an LZW

Format (GIF)

license from Unisys. Allows high-quality, high-resolution graphics to be displayed on a variety of graphics hardware and is intended as an exchange and display mechanism for graphics images. Single-band thematic images produced by the ERDAS 7.5 image processing software. A proprietary ESRI format that supports 32-bit integer and 32-bit floating point raster grids. Grids are useful for representing geographic phenomena that vary continuously over space and for performing spatial modeling and analysis of flows, trends, and surfaces such as hydrology. Used to reference multiple ESRI GRIDs as a multiband raster dataset. A stack is stored in a directory structure similar to a grid or coverage. Used to reference multiple ESRI GRIDs as a multiband raster dataset. A stack file is a simple text file that stores the path and name of each ESRI GRID contained within it on a separate line. Produced using the IMAGINE image processing software created by ERDAS. IMAGINE files can store both continuous and discrete single-band and multiband data. Intergraph's proprietary format for 16-bit imagery (CIT) and unsigned 8-bit imagery (COT).

ERDAS 7.5 GIS

ESRI GRID

ESRI GRID Stack

ESRI GRID Stack file

ERDAS IMAGINE Intergraph Raster Files: CITBinary data; COTGrayscale data Joint Photographic Experts Group (JPEG) File Interchange Format (JFIF) JPEG 2000

A standard compression technique for storing full color and grayscale images. Support for JPEG compression is provided through the JFIF file format. A compression technique especially for maintaining the quality of large imagery. Allows for a high-compression ratio and fast access to large amounts of data at any scale. Single- or multiband continuous images produced by the ERDAS 7.5 image processing software. A compression technique especially for maintaining the quality of large images. Allows for a high-compression ratio and fast access to large amounts of data at any scale. Raster data stored within an ArcSDE database. Widespread use in the desktop publishing world. It serves as an interface to several scanners and graphic arts packages. TIFF supports black-and-white, grayscale, pseudo color, and true color images, all of which can be stored in a compressed or decompressed format. Provides a method for reading and displaying files that are not otherwise supported by another format but are formatted in such a way that the arrangement of the data may be described by a relatively small number of parameters. By creating an ASCII description file that describes the layout of

ERDAS 7.5 LAN Multiresolution Seamless Image Database (MrSID) ArcSDE Rasters Tag Image File Format (TIFF) (GeoTIFF tags are supported.)

ERDAS RAW

the raster data, it can be displayed without translation into a proprietary format. The format is defined in the ERDAS IMAGINE software. Provides a portable, legally unencumbered, well-compressed, well-specified standard for lossless bitmapped raster files. It is meant as a replacement for .gif files and supports a large range of bit depths, from monochrome to 64-bit color. Its features include indexed-color images of up to 256 colors and effective 100 percent lossless images of up to 16 bits per pixel. Developed by NIMA as a standardized format for images and supporting data. It has become the standard for digital imagery and imagery-related products for the United States intelligence community and other departments and agencies of the U.S. government and is now being adopted as a standard by civilian organizations (ISO/ANSI) and governments outside the United States (for example, NATO).

Portable Network Graphics (PNG)

National Image Transfer Format (NITF)

Annexe D : Formats de donnes supports par GDAL.


Tir de GDAL Raster Formats, http://www.gdal.org/formats_list.html, le 31-03-2006. Long Format Name Arc/Info ASCII Grid Arc/Info Binary Grid (.adf) AIRSAR Polarimetric Microsoft Windows Device Independent Bitmap (.bmp) VTP Binary Terrain Format (.bt) CEOS (Spot for instance) First Generation USGS DOQ (.doq) DODS / OPeNDAP New Labelled USGS DOQ (.doq) ERMapper Compressed Wavelets (.ecw) ESRI .hdr Labelled ENVI .hdr Labelled Raster Envisat Image Product (.n1) EOSAT FAST Format FITS (.fits) Arc/Info Binary Grid (.adf) GMT Compatible netCDF GRASS Rasters TIFF / GeoTIFF (.tif) AIG AIRSAR BMP Code AAIGrid Creation Georeferencing Maximum file size Yes No No Yes No Yes No No No No No Yes Yes Yes No No Yes Yes Yes No No Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes No Yes Yes Yes Yes Yes Yes Yes No Yes No No Yes Yes Yes Yes Yes Yes Yes Yes Yes 2GB -4GiB 2GiB 2GiB No limits No limits No limits 2GB No limits No limits --2GB --4GiB --------

BSB Nautical Chart Format (.kap) BSB BT CEOS DOQ1 DODS DOQ2

Military Elevation Data (.dt0, .dt1) DTED ECW EHdr ENVI Envisat FAST FITS GIO GMT GRASS GTiff

Graphics Interchange Format (.gif) GIF

Hierarchical Data Format Release 4 HDF4 (HDF4) Hierarchical Data Format Release 5 HDF5 (HDF5) Erdas Imagine (.img) Vexcel MFF2 Idrisi Raster HFA HKV RST

Image Display and Analysis (WinDisp) ILWIS Raster Map (.mpr,.mpl) Japanese DEM (.mem) JPEG JFIF (.jpg) JPEG2000 (.jp2, .j2k) JPEG2000 (.jp2, .j2k) JPEG2000 (.jp2, .j2k) JPEG2000 (.jp2, .j2k)

IDA ILWIS JDEM JPEG JPEG2000 JP2KAK JP2ECW JP2MrSID

Yes Yes No Yes Yes Yes Yes Yes No No Yes Yes Yes No No

Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes Yes Yes Yes Yes Yes No Yes No Yes No Yes Yes Yes Yes Yes Yes

2GB --4GiB (max dimentions 65500x65500) 2GiB No limits 500MB

NOAA Polar Orbiter Level 1b Data L1B Set (AVHRR) Erdas 7.x .LAN and .GIS Daylon Leveller Heightfield In Memory Raster Vexcel MFF Multi-resolution Seamless Image Database Meteosat Second Generation NDF NITF NetCDF OGDI Bridge PCI .aux Labelled PCI Geomatics Database File Portable Network Graphics (.png) PCRaster (.map) Netpbm (.ppm,.pgm) Swedish Grid RIK (.rik) RadarSat2 XML (product.xml) LAN Leveller MEM MFF MrSID MSG

-2GB 2GiB No limits --

NLAPS Data No Format NITF netCDF OGDI PAux PCIDSK PNG PCRaster PNM RIK RS2 Yes No No Yes Yes Yes Yes Yes No No No Yes No No

No limits 4GB 2GB -No limits No limits

No limits 4GB 4GB -4GB ---

USGS SDTS DEM (*CATD.DDF) SDTS Raster Matrix Format (*.rsw, .mtw) RMF SAR CEOS SGI Image Format SAR_CEOS SGI

USGS ASCII DEM (.dem) X11 Pixmap (.xpm)

USGSDEM XPM

No Yes

Yes No

--

Annexe E - Formats supports par FME 2006


(extrait du site Web de Safe Sotware (www.safe.com), le 02/02/06
LEGEND
* + * ** formats supported formats currently not supported requires installation of the application software custom mapping files beta version contact us for availability

B A S E
FORMAT Access Database (nonspatial) (Windows only) Adobe Illustrator (EPS) ADRG Reader (Extra cost plug-in req'd) Aircom ENTERPRISE (Extra cost plug-in req'd) APIC (Extra cost plug-in req'd) APT ARGIS GINA (Extra cost plug-in req'd) ASCII Tabular ASRP Reader (Extra cost plug-in req'd) Autodesk GIS Design Server (VISION) native Autodesk AutoCAD 2004 Autodesk AutoCAD DWF Autodesk AutoCAD DWG/DXF Autodesk GIS Design Server (VISION) GINA

E D I T I O N W + -

P R O F E S R * + +

S I O N A L W + +

I N E T S & E R R I G R A P H R * + + W + +

O R A C L E R * + +

& D B 2

S M A L L W O R L D R * + + W + +

S E R V E R R * + + -

L I N U X W + + -

S E R V E R R * + +

W I N D O W S W + +

R + -

W + +

B A S E
FORMAT Autodesk Map Object Reader Autodesk MapGuide SDF (binary) (Windows only) Autodesk MapGuide SDL (Windows only) AutoKa Transfer File (FF) (Extra cost plug-in req'd) BC Electronic Submission Framework (ESF) ABR BC Electronic Submission Framework (ESF) FTA GML BC Electronic Submission Framework (ESF) RESULTS GML BC MOEP BGrund (Extra cost plugin req'd) Bitmap Reader/Writer C60 Format (AEDSICAD) (Extra cost plugin req'd) CADRG Reader (Extra cost plug-in req'd) Card (Extra cost plug-in req'd) CCOGIF Reader (Extra cost plug-in req'd) CCOGIF Writer (Extra cost plug-in req'd) CDED DEM CGDEF CITS/QLF ColorRAW CSV (Comma-Separated Value) Cubestore MDF Danish DSFL Danish DSFL XML (XDK) Danish UFO

E D I T I O N W

P R O F E S R * *

S I O N A L W *

I N E T S & E R R I G R A P H R * * W *

O R A C L E R * *

& D B 2

S M A L L W O R L D R * * W *

S E R V E R R

L I N U X W

S E R V E R R * *

W I N D O W S W *

W *

+ -

+ + +

+ + +

+ + +

+ + +

+ + +

+ + +

B A S E
FORMAT dBase III (DBF) DES Design Files (DGN) Version 7 Design Files (DGN) Version 8 DFAD (Extra cost plug-in req'd) DFD (MultiGen Paradigm) (Extra cost plug-in req'd) DFK (Extra cost plug-in req'd) DMDF (Digital Map Data Format) DTED DEM ECW Reader/Writer EDBS (Extra cost plug-in req'd) EDIGO ENVI .hdr EPS (Encapsulated PostScript) ERDAS IMAGINE Reader ESRI .hdr ESRI ArcGIS 9.x Map (.mxd) ESRI ArcGIS Binary Grid (ArcGrid:AIG) ESRI ArcInfo Coverage ESRI ArcInfo Export (E00) ESRI ArcInfo Generate ESRI ArcSDE 9.0/8.x/3.x ESRI Ascii Grid ESRI Enterprise GeoDatabase (SDE) ESRI Geodatabase (XML) ESRI PC ArcInfo ESRI Personal

E D I T I O N W -

P R O F E S R *

S I O N A L W -

I N E T S & E R R I G R A P H R * * * * W * *

O R A C L E R * * * *

& D B 2

S M A L L W O R L D R * * * * W * *

S E R V E R R -

L I N U X W -

S E R V E R R * * * *

W I N D O W S W * *

R -

W * *

B A S E
FORMAT GeoDatabase (Access) 8.3/9.0 (Windows only) ESRI Shape Facet XDR FalconView Reader Fastgate (Extra cost plug-in req'd) FME Feature Store (FFS) GATE/ADA (Extra cost plug-in req'd) GDF (Extra cost plug-in req'd) GDMS GDS (Extra cost plug-in req'd) GE Energy Smallworld GE Smallworld GenaMap (Extra cost plug-in req'd) GEODESYS StruMap GEOgraf (grafbat-ASCII) (Extra cost plug-in req'd) Geographix CDF Geogrid OVL/ASC (PDF Manual - in German) (Extra cost plug-in req'd) GEOnet Names Server (GNS) GeoTask GeoTIFF GICAD (Extra cost plugin req'd) GML (OGC Geography Markup Language) Google Earth KML GPX GRIPS Reader (Extra cost plug-in req'd) GTI GTViewer

E D I T I O N W

P R O F E S R

S I O N A L W

I N E T S & E R R I G R A P H R W

O R A C L E R

& D B 2

S M A L L W O R L D R W

S E R V E R R

L I N U X W

S E R V E R R

W I N D O W S W

* **

+ **

* * *

+ * *

* -

+ -

B A S E
FORMAT GTI/RDB (Extra cost plug-in req'd) IBM DB2 Spatial IBM DB2 Tables (nonspatial) IBM IFF (Extra cost plug-in req'd) IDRISI Incremental Update Format (IUF) Intergraph FRAMME Intergraph FRAMME SEF (Standard Exchange Format) Writer (Extra cost plug-in req'd) Intergraph G/Technology (Extra cost plug-in req'd) Intergraph GeoMedia Access Warehouse (Windows only) Intergraph GeoMedia SQL Server Warehouse Intergraph MGE INTERLIS (Extra cost plug-in req'd) ISO 8211 JPEG JPEG 2000 Reader/Writer KLT Atlas ASCII (Extra cost plug-in req'd) Landmark ZGF (Zycor Graphics File) Landonline (LandXML) Laser-Scan IFF LaserScan Gothic (Extra cost plug-in req'd) Latitude DMF (Extra cost plug-in req'd) Leica GSI (Extra cost plug-in req'd) Leica IDEX

E D I T I O N W -

P R O F E S R + -

S I O N A L W + +

I N E T S & E R R I G R A P H R + W + +

O R A C L E R + -

& D B 2

S M A L L W O R L D R + W + +

S E R V E R R + -

L I N U X W + +

S E R V E R R + -

W I N D O W S W + +

R -

W + +

B A S E
FORMAT MapGIS (Extra cost plug-in req'd) MapGIS ASCII (Extra cost plug-in req'd) MapInfo MID/MIF MapInfo SpatialWare on SQL Server (Extra cost plug-in req'd) MapInfo TAB Mercator MCF Microsoft Excel (.xls) (Windows only) Microsoft SQL Server Database (Attributes Only) MicroStation Geographics V7/V8 MrSID Reader MySQL Database (Attributes Only) MySQL Spatial Database MZK (PDF Manual - in German) (Extra cost plug-in req'd) Nen1878 (Extra cost plug-in req'd) NetCDF Reader NITF Reader NTF NTX Caris (Note: Does not include the ability to handle NTX Soundings) NTX Soundings (Note: This is not a special reader/writer but rather a license for it enables more functionality in the NTX reader/writer that FME has.) (Extra cost plug-in req'd) Numeric Raw ODBC 2.x Database (Attributes Only)

E D I T I O N W -

P R O F E S R ** * *

S I O N A L W **

I N E T S & E R R I G R A P H R ** * * W **

O R A C L E R ** * *

& D B 2

S M A L L W O R L D R ** * * W **

S E R V E R R * *

L I N U X W

S E R V E R R

W I N D O W S W

R -

W **

** ** * *

B A S E
FORMAT ODBC 3.x Database (Attributes Only) (Windows only) OGDI ONORM (PDF manual in German) (Extra cost plug-in req'd) Oracle 10g/9i/8i Spatial Object Oracle 10g/9i/8i Tables (nonspatial) Oracle Spatial Relational Oracle SQL Loader ASCII OS MasterMap (DNF) (GML-2) PenMetrics GRD PHOCUS PHODAT PLANET (Extra cost plugin req'd) PostGIS Database PostgreSQL Database Raster Image (PNG) REGIS rmDATA MXF (PDF Manual - in German) (Extra cost plug-in req'd) S-57 SAIF SDTS SEG Y (Extra cost plugin req'd) SEG-P1 Shockwave Flash SLF Smallworld (Spatial Biz) (Extra cost plug-in req'd) SOTF SPANS (Extra cost plugin req'd)

E D I T I O N W + +

P R O F E S R * +

S I O N A L W + +

I N E T S & E R R I G R A P H R * + W + +

O R A C L E R * +

& D B 2

S M A L L W O R L D R * + W + +

S E R V E R R * + -

L I N U X W + + -

S E R V E R R * +

W I N D O W S W + +

R *

W + +

B A S E
FORMAT SQD (Extra cost plug-in req'd) STAR INFORMATIC (CX) (Extra cost plug-in req'd) SuperMap (Extra cost plug-in req'd) SVG (Scalable Vector Graphics) Swedish KF85 Swedish MASIK Text File Text Line TIGER/Line TOBIN TDRBM II Data Distribution Writer TOP10GML USGS DEM (Digital Elevation Model) USGS DLG VALIS/ASC (PDF Manual - in German) (Extra cost plug-in req'd) Vertical Mapper Grid (NGrid) VML VPF Reader VPF Writer (Extra cost plug-in req'd) VRML Web Feature Service (WFS) WLDGE (Extra cost plugin req'd) XML XPM Reader/Writer Z-MAP (ASCII)

E D I T I O N W + -

P R O F E S R * *

S I O N A L W * + * + *

I N E T S & E R R I G R A P H R * * W * + * + *

O R A C L E R * *

& D B 2

S M A L L W O R L D R * * W * + * + *

S E R V E R R *

L I N U X W + * + *

S E R V E R R * *

W I N D O W S W * + * + *

R -

W * + * + *

Annexe F Formats supports par Spatialdirect


(extrait du site Web de Safe Sotware (www.safe.com), le 02/02/06
Format
Access Database (nonspatial) AutoCAD DWF AutoCAD DWG (R12) AutoCAD DWG (R14) AutoCAD DWG (R2000) AutoCAD DWG (R2004) AutoCAD DXF (R12) AutoCAD DXF (R14) AutoCAD DXF (R2000) AutoCAD DXF (R2004) Autodesk MapGuide SDF (binary) Caris NTX CubeWerx MDF EPS (Encapsulated PS) ESRI Arc/Info Coverage ESRI Arc/Info E00 ESRI Arc/Info Generate ESRI ArcSDE 9.0/8.x/3.x ESRI Personal Geodatabase (Access) ESRI Enterprise GeoDatabase (SDE) ESRI Shape FME Feature Store File (FSS) Geographix CDF GeoTask GIF Image GML 2 (Safe Schema) IBM DB2 Spatial IBM DB2 Tables (non-spatial) IEPS (Illustrator EPS) Intergraph GeoMedia Access Warehouse Intergraph GeoMedia SQL Server Warehouse Landmark Z-MAP MapGuide SDL MapInfo MID/MIF MapInfo SpatialWare on SQL Server (extra cost plugin req'd')

Source Download Upload Data Format Format -

MapInfo TAB Microstation Design V7 Microstation Design V8 MySQL OGC GML (ESRI Profile) OGC GML (Fixed Schema) OGC GML (FME Profile) OGC WFS OGDI Oracle 10g/9i/8i Spatial Object Oracle 10g/9i/8i Tables (nonspatial) Oracle Spatial Relational PenMetrics GRD PNG (Downloadable) PostGIS Database Scalable Vector Graphics (SVG) SeisWorks VML VRML Zycor (merged) Zycor (multi) -

Annexe G Synthse des oprateurs de gnralisation cartographique prsent par Martel [1999]