Vous êtes sur la page 1sur 72

Bases de donnes publiques, archives de laboratoire en ligne

A. Le Bail Universit du Maine Laboratoire des Fluorures CNRS UMR 6010

Contenu de lexpos
- Le Quiz des bases de donnes de cristallographie - Dmonstrations ICSD, CSD, CRYSTMET - Dmonstrations ICDD Identification de phase - Poudres - Bases publiques : PDB, NDB, AMCSD, Zolites, SDPD, etc. - Le projet COD - Dmonstration - Installation de la base de donnes COD

1- Le Quiz des Bases de Donnes de Cristallographie


19 questions naves et des rponses (avec une pointe d'humour) possibles slectionner. Choisir les rponses A, B, ou C, compter combien de A, B ou C vous avez obtenu, ensuite voyez quelle sorte de cristallographe vous paraissez tre en fin de questionnaire. Premire question : I - Une base de donnes globale et d'accs facile existe-t-elle en cristallographie ?

3 rponses au choix :
A - Non. L'ensemble (>400000) des structures cristallines avec coordonnes
atomiques est fragment en plusieurs bases de donnes (source : prface de "Structural Science", Editeur: Frank Allen, Acta Crystallographica B58 - numro spcial - 2002) : Base
de donnes Entres Contenu en 2002 Mtaux, alliages Inorganiques, minraux Organiques, organomtalliques Protines Acides nucliques gratuit gratuit Cot

CRYSTMET ICSD CSD PDB NDB Total

69054 59285 260535 17637 1468 407979

B - Sans opinion. C - Oui. Vous avez simplement acheter tous les fragments pour obtenir une base de donnes complte, si vraiment vous en avez besoin. Mais seuls des laboratoires pluridisciplinaires pourraient en avoir la ncessit.

Autres questions :
II - Est-ce que des coordonnes atomiques sont disponibles gratuitement sur l'Internet ? III - Est-ce que ce n'est pas bizarre ? Pourquoi cette base AMCSD (American Mineralogist Crystal Structure Database) n'essaie-t-elle pas de rassembler encore plus de coordonnes atomiques de minraux ? IV - Vraiment, de nombreux fichiers CIF sont en accs libre sur le site Web de l'IUCr ? Pourquoi ne pas les organiser dans une base permettant de rpondre plus efficacement des requtes prcises sur des parmamtres de maille, des formules chimiques, etc ? V - Mais, finalement, d'o viennent ces donnes ? VI - Une base globale de donnes cristallographiques en accs libre serait-elle vraiment utile ? VII - Quels sont les besoins essentiels qui pourraient justifier une base de donnes cristallographiques globales ?

VIII - Et au sujet de cette base de donnes de diagrammes de poudre (ICDD PDF-2, PDF-4) vraiment indispensable pour une identification de phases ? IX - Vous voulez dire qu'il vous faut acheter CSD, ICSD, CRYSTMET et en plus les PDF-2 ou PDF-4 (divers sous-ensembles, voir VIII-A) qui sont > 70% reconstruits par un simple calcul partir des coordonnes atomiques de CSD et ICSD ? X - Mais si la possibilit de savoir si une structure cristalline est dj dtermine et publie est tout ce dont vous avez besoin, pourquoi ces bases de donnes varies ne cooprent pas pour vous offrir un service minimal qui vous permettrait d'obtenir la rponse (limite par exemple une rfrence bibliographique, sans plus de dtails, notamment sans les coordonnes atomiques ventuellement) aprs un questionnement par paramtres de maille et cadrage par indications chimiques ? XI - Et, pensez-vous vraiment que les cristallographes enverraient leur donnes vers une nouvelle base COD ? Sinon, ce ne sera jamais une base globale et complte, et alors elle sera sans intrt. XII - D'accord pour mettre la COD en place, mais qui va financer ? Combien de personnes faudra-t-il recruter pour vrifier les donnes et effectuer toutes les autres tches administratives ?

XIII - Plus prcisment, comment pourrait tre organise et pilote cette COD (Crystallography Open Database) ? XIV - Comment seront slectionnes les entres ? XV - Quel sera le contenu des fichiers CIF (ou quel que soit le type de fichier) ? XVI - Et le sujet brlant des droits d'auteur et du copyright des donnes scientifiques brutes ? XVII - Ce modle de base de donnes en accs libre est-il vraiment srieux ou bien plaisantez-vous ? XVIII - Conclusion ?

Rsultats du Quiz - quelle sorte de cristallographe tes-vous :


- Plus de 10 A : Vous tes prts devenir volontaire dans le projet COD - Plus de 10 B : Vous avez un certain talent pour la diplomatie. - Plus de 10 C : Vous souhaitez continuer soutenir exclusivement le systme actuel des bases de donnes fragmentes et commerciales.

2-1 Dmonstration ICSD (Inorganic Crystal Structure Database)


L'accs ICSD est possible sur CD-ROM ou bien sur Internet (http://icsd.ill.fr/icsd/), ou encore en installant la version Internet en local sur votre PC.

Cas du CD-ROM sur PC :

Ici une recherche de toutes les entres contenant au moins les lments P et O :

Il sort un total de 4622 fiches :

2-2 Dmonstration CSD (Cambridge Structural Database)


Un accs est possible (en France...) soit sur CD-ROM soit par liaison Internet avec un serveur de l'INIST (http://www.inist.fr/) sur lequel est installe la base de donnes CSD. Lancement d'Internet Explorer, chargement de lapplet Java du Serveur de lINIST :

Identification par login et mot de passe :

Lancement du logiciel CONQUEST :

Affichage de la fentre offrant le choix des moyens de recherche :

Il est possible d'effectuer une recherche en combinant plusieurs des possibilits. Les donnes obtenues en rponse peuvent tre transfres sur votre propre machine, ici en utilisant le menu File/SCP File Transfer de MINDTERM (par dfaut, les fichiers sont transfrs sur le rpertoire C:\Windows\java\mindterm) :

2-3 Dmonstration CRYSTMET


Cette base contient les structures cristallines et rfrences des mtaux et alliages intermtalliques. Quelques copies d'crans obtenues au cours d'une utilisation :

Une recherche est possible par diverses approches avec cette interface (version de dmonstration de 1999). Ici est propos un choix des lments dans le tableau priodique, mais la recherche peut galement se faire par mots-cl ou nom d'auteur dans les rfrences, ou par paramtres de maille, etc :

Ci-dessous le rsultat d'une recherche de phosphates, il en est trouv 25 (c'est inattendu...), ces mmes donnes sont galement sous copyright ICSD :

Le logiciels permet une visualisation des structures cristallines :

Il est galement possible d'afficher le diagramme de diffraction de poudre :

ainsi que les coordonnes atomiques si elles existent :

3 - Dmonstration ICDD Identification de phase en diffraction de poudre

Pour tout savoir sur cette question de l'identification de phases, on se reportera au "Search Match Round Robin" (2002) : http://sdpd.univ-lemans.fr/smrr/index.html Les rsultats de ce "round robin" (sorte de comptition interlaboratoires) ont t publis dans un article dont la rfrence est :"Results and conclusions of the Internet based "Search/match round robin 2002", J.-M. Le Meins, L.M.D. Cranswick, A. Le Bail, Powder Diffraction 18 (2003) 106-113.

Ci-dessous la premire tape d'une analyse qualitative au moyen d'un diagramme de diffraction de poudre (chargement du diagramme, estimation et retrait du fond continu, limination de Kalpha2 si il y a lieu) :

Ensuite, le diagramme est compar la liste contenue dans PDF-2 ou l'un des PDF-4. Il est possible de restreindre la recherche par lments chimiques ou sousensemble structural, mais le procd est assez efficace pour souvent proposer une identification exacte sans mme avoir imposer des limites, comme ici avec le logiciel EVA (Bruker/Socabim) :

On obtiendra plus de dtails sur la phase identifie en lanant le logiciel associ la base PDF-2 ou PDF-4. Ici, c'est PCPDFWIN travaillant sur PDF-2 :

La recherche peut s'effectuer par le numro d'entre PDF obtenu aprs identification de phase :

Voici la fiche qui correspond, avec les positions des rflexions, les intensits et les indices de Miller (disponibles si la phase est indexe), plus quelques autres informations et des rfrences bibliographiques, mais pas de coordonnes atomiques :

La recherche peut s'effectuer selon d'autres critres, comme ici par combinaison exclusive d'lments chimiques. La base fourni une liste de 69 fiches pour une slection exclusive des lments H, O, P, V :

Retour au Quiz, question VII


VIII - Et au sujet de cette base de donnes de diagrammes de poudre (ICDD PDF-2, PDF-4) vraiment indispensable pour une identification de phases ?

A - Eh bien, c'est aussi une base de donnes cristallographique, la plus chre, et galement fragmente (PDF-4-minerals, PDF-4organics, PDF-4-"full", etc) qui est maintenant constitue plus de 70% de diagrammes de poudre calculs partir des coordonnes atomiques extraites des bases CSD (PDF-4/Organics) et ICSD (dans PDF-2, PDF-4-full et PDF-4-minerals). Quelques tarifs (acadmiques, le premier chiffre correspond un achat de licence initial, le second chiffre correspond un renouvellement annuel) et volution du nombre des donnes dans les bases partielles (il n'y a pas de base complte notre connaissance) :

2004 PDF-2 PDF-4/Full File PDF-4/Minerals PDF-4/Organics Total

Entres (total) 157048 157048 17535 210000

Inorganiques Minraux ? ? 17535 210000 25609 25609

Organiques

Cot (US $) 4920 - 875 3785 - 720 760 - 380 6090 - 2800

133370 133370

339864 (il y a un peu de redondance)

2001 (les divers PDF-4 n'existaient pas) PDF-2 1999 PDF-2 1995 PDF-2 59800 (avant inclusion de donnes ICSD) 5750 - 1050 120000 6100 - 1150 131000 6100 - 1150

En comparaison, les cots annuels acadmique de renouvellement de CSD et ICSD sont trs infrieurs. Il est plus avantageux d'avoir ces bases et de fabriquer ses propres diagrammes de poudre calculs.

4 - Bases de donnes publiques : PDB, NDB, AMCSD, Zolites, SDPD, etc

Ces bases de donnes sont en accs totalement libre. Selon leur importance elles peuvent tre gres par des groupes importants disposant de supports gouvernementaux (fond de la NSF, du NIH...) ou bien par des individus ne disposant que de leur volont et d'aucun moyen spcial. En gnral ces bases de donnes sont en accs Internet direct, sans mme exiger un mot de passe. Le cot de la scurisation qu'appliquent les bases commerciales est norme.

4-1 Protein Data Bank - PDB :


Le nombre des structures en date du 2 mars 2004, soit 24547, est comparer au chiffre connu en 2001 (17637). Cela donne une ide de la croissance trs rapide des connaissances dans ce domaine touchant la biologie. Ci-dessous la page de garde du site Web :

Ci-dessous est montr le rsultat d'une recherche par le mot "DNA" qui retourne 114 entres :

Qu'il ait t possible de parvenir crer et maintenir cette base de donnes tout en la laissant en accs libre est remarquable. La recherche dans tous les domaines de la sant ne doit tre freine par aucun intrt commercial, c'est une vidence. PDB a su profiter de l'essor de l'Internet pour s'offrir gratuitement (la mise en place et la maintenance n'tant videmment pas sans frais).

Il est simplement regrettable que les bases de donnes CSD, ICSD, CRYSTMET et mme ICDD n'aient pas pris exemple sur PDB, alors que certaines d'entre-elles bnficient de fonds publics ou de dons et se dclarent but non lucratif.

4-2 Nucleic Acid Data Base : NDB


On trouve 2322 structures d'acides nucliques dans cette base en date du 27 fvrier 2004 ( comparer 1468 en 2001) :

4-3 American Mineralogist Crystal Structure Database AMCSD


Cette base de structures de minraux dpend de la revue scientifique American Mineralogist :

Ci-dessous le rsultat d'une recherche par le mot-cl "heulandite". La base contient les coordonnes atomiques en libre accs (ici il a t choisi une sortie rduite) :

4-4 Database of Zeolite Structures


Cette base de donnes est extrmement documente au sujet des zolites:

La recherche est possible au moyen des codes de type de rseau, bien connus des experts :

Ci-dessous une fiche pour le type ABW (les fiches existent aussi au format PDF) :

4-5- Base de preprints : ArXiv


Ici ce sont les articles complets qu'il est possible de trouver avant leur publication :

On y trouve surtout des articles de physiciens/mathmaticiens/informaticiens(etc), mais trs peu d'articles de chimistes bien que des physico-chimistes y contribuent au moins en science des matriaux :

4-6- PUBMED
Nous sommes ici dans le domaine du mdical :

Mais pourtant, une recherche par le mot-cl "crystallography" renvoie vers 43714 liens :

4-7 SDPD-D (Structure Determination by Powder Diffractometry - Database) C'est une base de rfrences bibliographiques classes dans le domaine de la dtermination de structure en diffraction de poudres (>1000 rfrences). Il y a un moteur de recherche fonctionnant avec mots-cls pour les auteurs, les titres des articles et les noms des logiciels utiliss pour rsoudre les structures cristallines : URL : http://sdpd.univ-lemans.fr/iniref.html Cette base utilise des logiciels en langage PERL. Un petit didacticiel expliquant comment installer une base de donnes similaire est disponible : URL : http://sdpd.univ-lemans.fr/perl/howto.html

5-1 - Le Projet COD (Crystallography Open Database)


Daniel Chateigner, Xiaolong Chen, Marco Ciriotti, Lachlan M.D. Cranswick, Robert T. Downs, Armel Le Bail, Luca Lutterotti, Hareesh Rajan, Alexandre F.T. Yokochi

Rejoignez nous ! contactez cod@cristal.org

Les banques de donnes de coordonnes atomiques des structures cristallines (pour la plupart en accs payant) dlaient de 3 6 mois, sinon beaucoup plus (1, 2 ans) la prsentation de nouvelles donnes aprs leur publication dans les revues scientifiques. En tant que cristallographe, vous tes certainement intress par un accs aussi rapide que possible aux donnes nouvelles ou anciennes, et pourquoi pas gratuitement. Votre principal argument est probablement que vous ne souhaitez pas perdre votre temps redterminer une structure cristalline dj connue. L'Internet offre la possibilit d'une rponse immdiate, sous certaines conditions : 1. Une petite quipe de scientifiques motivs, avec une certaine exprience en matire de bases de donnes et de programmation logicielle se charge de coordonner le projet COD (Crystallography Open Database) sur une assise de logiciels libres a) pour la maintenance de la base de donnes b) pour l'valuation automatique et le calcul de donnes drives (par exemple le calcul de diagrammes de poudre dans un objectif d'application l'identification de phase), c) pour la consultation et la recherche. 2. Les auteurs (c'est dire la Communaut Scientifique = VOUS) approvisionnent le projet avec leurs donnes (notez que si vous n'avez pas vendu vos rsultats exprimentaux en exclusivit, vous tes libre de distribuer vos coordonnes atomiques n'importe laquelle des bases de donnes, mme si ces coordonnes ont dj fait partie d'une publication, de plus, de nombreux excellent rsultats n'ont jamais t publis). Nous ne sommes plus dans la mme situation qu'il y a des dizaines d'annes, lorsque les bases de donnes bien connues (ICSD, CSD, PDF) ont t inities. Aujourd'hui, nous disposons de l'Internet, de calculateurs rapides et conomiques et d'un ensemble important de logiciels gratuits. La question est : avons-nous suffisamment de scientifiques volontaires pour cooprer une telle base de donnes en accs libre et gratuit ? La COD, une fois mene bonne fin, ne sera rien d'autre qu'un serveur Web de structures cristallines avec moteur de recherche par mots-cls, prservant les donnes qu'elles soient publies ou non.

5-2 - Dmonstration de la COD


L'accs au site international se fait par l'adresse Web : http://www.crystallography.net/

La recherche est simpliste mais efficace, soit par lments chimiques, ou divers mots-cl ou domaines de paramtres de maille et de volume

La base contient seulement 14000 fiches, et notamment plus de 300 phosphates. Ci-dessous le rsultat d'une recherche de toutes les phases contenant P et O au minimum. Pour ne pas mettre le serveur Web genoux, la rponse est limite un maximum de 300 fiches, pour obtenir tous les phosphates de la base, il faudrait donc ajouter une contrainte supplmentaire, par exemple un nombre strict d'lments.

Un sous-ensemble de COD est rserv aux structures cristallines prdites, PCOD :

PCOD possde un moteur de recherche similaire celui de la COD :

La sortie aprs interrogation (ici par la formule SiO2) est toutefois lgrement diffrente :

Les fichiers diponibles dans cette base sont plus nombreux, et notamment une visualisation en 3D est directement possible par des fichiers VRML :

6 - Installation de la base de donnes COD


Vous pouvez installer la COD (ainsi que PCOD) sur votre propre PC. Vous pouvez aussi en dtourner l'utilisation pour en faire une base de donnes propres votre laboratoire, ou bien une base personnelle. La base de donnes COD (Crystallography Open Database) est installe sur un support combin Apache/MySQL/PHP fonctionnant sous Windows 98/XP (Apache est le logiciel serveur Web, MySQL est le logiciel de base de donne et le moteur de recherche, PHP est le langage de communication et d'interrogation de la base). Cette combinaison est fournie en logiciel libre par le groupe EasyPHP. Ce systme fonctionne aussi bien en mode autonome isol ou comme serveur intranet ou Internet.

1 - Tlcharger EasyPHP : http://www.easyphp.org/ , l'installer prfrentiellement sur un rpertoire C:\EasyPHP . 2 - Tlcharger les lments de COD : http://www.crystallography.net/cod.zip , crer un sous-rpertoire C:\EasyPHP\www\cod\ et y dzipper le fichier cod.zip. Ceci fait apparatre plusieurs autres fichiers compresss avec extension .zip, les distribuer dans plusieurs nouveaux rpertoires crer : cif.zip contient les fichiers CIF dcompresser dans un rpertoire C:\EasyPHP\www\cod\cif\ , MySQL-cod.zip contient les fichiers spcifiques au logiciel MySQL, dcompresser dans C:\EasyPHP\mysql\data\cod\ . 3 - Dmarrer le logiciel EasyPHP par un double clic sur le fichier excutable C:\EasyPHP\easyphp.exe

Ensuite, regarder l'tat de la base de donnes COD en cliquant sur "Administration", ceci doit ouvrir votre butineur Web par dfaut localement l'adresse http://127.0.0.1/home/ :

En cas de problme avec cette adresse http://127.0.0.1/home/, la changer par une alternative : http://localhost/home/ ou bien configurer correctement le serveur Apache au travers d'EasyPHP.

Ensuite, cliquer sur le bouton "PhpMyAdmin", la fentre suivante apparat :

Ensuite, cliquer sur "Home" et slectionner la base "cod":

La base de donnes COD est alors sous votre contrle, visiter cette page, mais soyez prudent, vous avez tout pouvoir, y compris celui de dtruire la base...

Cliquer sur "data" pour en voir plus sur l'agencement des donnes :

A partir de la fentre prcdente, montrant la structure intime de cette trs simple base de donnes, vous pouvez insrer de nouvelles entres partir d'un fichier texte (et plus encore) :

Cliquer sur "insert data from a textfile into table", la fentre suivante apparat :

Le fichier texte utilis pour entrer les donnes minimales qui permettent la recherche par le moteur MySQL est prpar partir des fichiers CIF ou REF en utilisant les logiciels CIF2COD ou REF2COD distribus galement avec le fichier principal COD.zip.

4 - Tlcharger le logiciel PhpEditor l'URL : http://www.scatlaws.com/voirprog.php3?prog=phpeditor&lg=en


Ce logiciel est en franais. Installer PhpEditor, par exemple dans un rpertoire crer tel que C:\EasyPHP\PhpEditor\. Lancer le logiciel PhpEditor, et ouvrir le fichier suivant : C:\easyphp\www\cod\index.html.

Cliquer sur "Visualisation", alors, comme si vous tiez connect sur le serveur internet de COD, vous obtenez la page d'entre de COD partir de votre propre installation sur votre ordinateur :

Rutilisation du systme COD


Vous pouvez parfaitement rutiliser la structure de cette base de donnes COD pour crer vos propres archives, contenant les structures cristallines dtermines dans votre laboratoire. Il est possible de vider la base et d'insrer vos propres donnes. La procdure est dcrite ci-dessous: Cration d'un fichier texte pour entrer de nouvelles donnes Une fois vos fichiers CIF rassembls, il faut les traiter par le logiciel CIF2COD qui produit un fichier texte contenant les champs utiliss par le systme de recherche. La base MySQL nomme "cod" possde une seule table nomme "data" qui est facilement mise jour par l'intermdiaire de ce fichier texte (.txt).

Il y a 14 champs ("fields") dans cette table.

Le contenu de ces champs est cr partir de fichiers CIF par le logiciel CIF2COD : Chaque champ est encadr de guillemets "etc", et les champs sont spars par le caractre ; (point virgule). La ligne ne contient pas le champ 'entry' mais commence directement au champ 'file'. premire ligne :
"1000000";"0";" 7.8783";" 10.4689";" 16.0680";" 90.000";" 95.147";" 90.000";" 1319.90";" 6 ";"P21/n";"C 5.00 H 17.00 O 8.00 N 2.00 P 2.00 Al 1.00" ;"S. PHAN THANH J. MARROT J. RENAUDIN V. MAISONNEUVE H3N(CH2)5NH3].AlP2O8H,a One-Dimensional Aluminophosphate"

deuxime ligne :
"1000001";"0";" 48.4800";" 21.7200";" 10.7400";" 90.000";" 90.000";" 90.000";" 11309.10";" 4 ";"P 21 21 21";"C 107.00 H 142.00 O 26.00 N 14.00";"Alain Soyer Pristinamycin complex solved using Shake-and-Bake"

L'interrogation de COD est ralise au moyen de formulaires HTML et de petits codes en langage PHP qui se connectent directement la partie MySQL. Tout est disponible dans la distribution COD.zip. Exemple simple d'une partie de code PHP pour la requte de toutes les fiches correspondant un volume de maille compris entre vmin and vmax : $requete = "SELECT * FROM data WHERE vol BETWEEN $vmin and $vmax LIMIT 300"; Cela signifie que dans la table "data", le champ "vol" est recherch pour des valeurs comprises entre vmin et vmax, arrtant la recherche si plus de 300 fiches sont trouves. Bonne chance si vous dcidez de rutiliser la COD pour votre usage personnel ou pour des archives de laboratoire !