Vous êtes sur la page 1sur 26

Cours de

Bioinformatique
Pr HAMIDECHI

I ntroduction : La bioinformatique, nouvellement incluse dans les systèmes


d’enseignement biologiques (elle émerge dans les années 1980). C’est une discipline qui permet
l’analyse et l’interprétation des informations biologiques contenues soit dans génome (séquences
ADN, ARN) soit dans le protéome. On peut également la définir comme étant la discipline de
l’analyse" in silico " de l’information biologique contenue
dans les séquences nucléiques et protéiques.

La révolution extraordinaire que connaît la biologie moléculaire ces dernières années, est en
grande partie associée au développement spectaculaire de cette nouvelle discipline qui n’est autre
que la bioinformatique. Celle-ci, grâce à ses méthodes qui se basent essentiellement sur les
connaissances approfondies de la biologie moléculaire, des mathématiques et de l’informatique
(car interdisciplinaire), vient contribuer spectaculairement à l’avancement des connaissances
biologiques aussi bien au niveau génomique que protéomique.

On peut considérer que la bioinformatique tire sa définition de deux concepts importants : la


biologie et l’information car le suffixe informatique n’a rien à voir avec l’utilisation des
ordinateurs pour la biologie. Il s’agit plutôt d’une discipline pour l’interprétation des
informations génétiques et structurales (http://genet.univ-
tours.fr/gen001400_fichiers/chap1/genach1ec3.htm).

Elle est devenue l’outil par excellence pour :


 interpréter les données biomoléculaires,
 analyser la structure des molécules,
 confronter cette structure au reste des molécules existantes dans des bases de données
biologiques,
 prédire le rôle et la fonction de cette structure, …

Elle s’intéresse aux données du :

1. génome (totalité du matériel génétique de la cellule),


2. transcriptome (ARNm transcrits),
3. protéome (l’ensemble des protéines bio synthétisées),
4. métabolome (molécules organiques telles que lipides, glucides, faisant partie des
activités métaboliques de la cellule vivante).

Le développement rapide et l’utilisation facilitée de Internet, grâce à ses interfaces


graphiques conviviales, ont permis de gérer des ressources bibliographiques

-1-
et de les partager ; on parlera alors de banques de données biologiques, de
délocalisation des ressources.

CHAPITRE 1 : LES BANQUES ET BASES DE DONNEES


BIOLOGIQUES
Introduction : L’utilisation de l’Internet pour la recherche de l’information biologique est
d’actualité. Si la méthode n’est pas structurée, le chercheur de l’information aura le sentiment
d’être perdu au sein de cette gigantesque toile d’araignée qui est le web.

C’est pour cela qu’une structuration et une modélisation de la méthode de recherche


s’imposent. Cela permet, en effet de gagner énormément de temps et d’effectuer des recherches
plus spécifiques.

Il nous faut distinguer deux choses :

1. qu’est ce qu’une base de données (BD) ?


2. différence entre banque de données et base de données ?

Une base de données, qu’est ce que ?


Une base de données, usuellement abrégée en BD ou BDD, est un ensemble structuré et
organisé permettant le stockage de grandes quantités d'informations afin d'en faciliter
l'exploitation (ajout, mise à jour, recherche de données). Une base de données se traduit
physiquement par un ensemble de fichiers présent sur une mémoire de masse (bien souvent un
disque). Certaines peuvent être accessibles via les réseaux, on parle alors de base de données en
ligne (http://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es). Bref, Une base de données est un fichier
ou un ensemble de fichiers permettant le stockage permanent ou temporaire des informations
ainsi que l'accès à ces informations devenues structurées (http://www.webadev.com/lexique-b-
base-de-donnees.php).

C’est un tableau dans lequel on intègre des informations de manière logique et structurée
comme la liste d’un groupe d’étudiants :

Date de
N° Carte Nom Prénom filière
naissance
AAA1 NOM1 PRENOM1 DN1 Biotechnologie
AAA2 NOM2 PRENOM2 DN2 Ecologie
AAA3 NOM3 PRENOM3 DN3 Biotechnologie
… … … … …
AAA12 NOM12 PRENOM12 DN12 Microbiologie
AAA13 NOM13 PRENOM13 DN13 Ecologie

A partir de ce tableau on peut avoir une information sur le nombre des étudiants de
biotechnologie.

En bioinformatique, une base de données biologiques peut contenir des informations sur des
protéines, alors qu’une autre peut contenir des informations sur des gènes, des

-2-
plasmides, etc. Aujourd’hui, il existe une grande diversité de bases biologiques que vous pouvez
consulter sur le Net. Ces bases offrent des fiches descriptives de séquences nucléiques ou
protéiques (AND, ADNc, ARN, protéines) ; ces fiches sont appelées des entrées.

Il convient de dire qu’une banque de données est une base de données (car tableau structuré)
mais qui contient des informations biologiques hétérogènes (virus, bactéries, champignons,
végétaux, animaux) alors qu’une base de données est plus spécialisée (base spécifique à E. coli,
à Bacillus, etc.).

Bases de données biologiques

Banques généralistes Bases spécialisées

Banques génomiques Protéiques

EMBL SwissProt

GenBank UniprotKBBBB

DDBJ

Quelques exemples de BD sur Internet:

1. BD bibliographique Medline : (de l'anglais : Medical Literature Analysis and Retrieval System On

L'interface PubMed permet de consulter gratuitement la base de données à partir d'un navigateur World W

À la fin 2006, la base de données contenait plus de 17 millions d'articles référencés provenant d'environ 5 000

-3-
La base de données MEDLINE possède en avril 2007 plus de 15 millions de citations publiées
depuis 1950 dans environ 5000 revues biomédicales (revues en biologie et en médecine)
distinctes. Elle est la base de données de référence pour les sciences biomédicales.

2. BD bibliographique WorldCat : WorldCat est le catalogue en ligne de l’OCLC (Online


Computer Library Center), réputé le plus grand catalogue OPAC (Online public access
catalog) du monde. Son nom est la contraction de l’anglais World Catalog (catalogue mondial).
Créé en 1971, il contient les données relatives à plus de 10’000 bibliothèques publiques et
privées du monde. En 2005, il englobait 73% du National Union Catalog (catalogue des livres
d'avant 1956). WorldCat est disponible dans nombre de bibliothèques et sur les réseaux
informatiques des universités ; depuis août 2006, il est en accès libre via Internet sur
WorldCat.org.

3. BD bibliographique Pascal : Pascal résulte d'une informatisation du Bulletin


Signalétique du CNRS, créé en 1940 par le physicien Pierre Auger, sous la forme d'une
collection de périodiques de dépouillement de la littérature internationale.

Cette base de données bibliographiques en science, technologies et médecine, a été créée en


1971. Le signe PASCAL avait été créé avec la signification suivante : Programme Appliqué à la
Sélection et à la Compilation Automatique de la Littérature.

La différence entre une base de données et une banque de données n’est pas liée à la
structure de la base (du tableau) mais à la nature du contenu même.

Une base de données biologiques concerne des données spécifiques à une discipline, une
maladie, une espèce vivante, une molécule, … elle est donc spécifique. On peut recenser
plus de 250 BD spécialisées.

Exemples :

 Base de données sur les maladies : GeneCards, OMIM, OMIA, …


 Base de données taxonomique
 Bases de structure : PDB (Protein Data Bank)
 Bases d’expression : YPD (Yeast Proteome Database), MGED (Microarray and Gene
Expression Data Home)
 Bases de voies métaboliques : KEGG
 Bases de cartographie
 Base de phénotypie : MIM, MIA

-4-
Une banque de données biologique, est une base de données généralisée. On y trouve des informat

Il faut savoir qu’il existe des banques de données génomiques et des banques de données protéique

Les trois principales banques de données nucléiques sont :

1. GenBank deNCBI(NationalCenterforBiotechnologyInformation) :
Créée par IntelliGenetics en 1982. jusqu’en octobre 2004 elle contenait 38 941 263 entrées (ou séquences
EMBL de EMBO (Europen Moleculary Biology Organization): . La banque EMBL contient 44 538 943
DDBJ : Dna Data Base of Japan : Créeé en 1986 et diffusée par NIG (National Institute of Genetics, Jap

L’inconvénient majeur de ces banques de données reste le manque de vérification des


données et retardent un peu dans l’insertion de nouvelles séquences.

Elles ont, cependant quelques qualités :

 Un très grand nombre de séquences : par exemple en 2000, EMBL contenait


déjà 109 bases nucléiques, SwissProt contenait 31 millions d’acides aminés.
 Une grande variétés d’organismes (homme, animaux, végétaux,
microorganismes).

Pour en savoir plus : http://www.pasteur.fr/recherche/unites/sis/B6/13/Html/html-


b6n13001.html

Les deux principales banques de données protéiques sont :

PIR-NBRF : D’abord, elle fut créée par la NBRF (National Biomedical Researche Foundation) en
SwissProt : Créée par le biochimiste Amos BAIROCH en 1986 à l’Université de Genève. actuel

là Elle
w
contient plus de 320 000 séquences de protéines provenant de quelques
10 000 espèces différentes.
-5-
Autres bases et banques de données :
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref,
Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase,
CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE,
Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DGP, DictyDb,
Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene,
EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB,

-6-
GENATLAS, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP,
GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB,
HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB,
IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel,
MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol- R-Us,
MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB,
OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PKR, PMD, PPDB, PRESAGE,
PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE,
RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB,
STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL
Repository, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR,
VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ...

Les interfaces des banques de données

1. Interface des banques nucléiques :

GenBank ( nih.gov/):

-7-
EMBL
http://www.ebi.ac.uk/
embl/

DDBJ
http://www.ddbj.nig.a
c.jp/searches-e.html

-8-
2. Interface des banques protéiques :

PIR-NBRF

SwissProt

Interrogation des bases de données

On peut interroger une BD pour plusieurs raisons :

 Pour connaître la séquence d’un gène ou d’une portion de ce gène


 Pour connaître la structure primaire d’une protéine
 Pour comparer deux séquences, …

Le résultat de l’interrogation des BD est une fiche descriptive de la molécule. On parlera alors
d’une entrée (ou fiche descriptive de la séquence recherchée). La structure d’une entrée est
resque la même quelque soit la p BD interrogée.

Travail Pratique 1: Par exemple réalisons le TP suivant sur Inter et pourn connaître la structure
primaire du gène de la phosphatase alcaline humaine, en interrogeant la BD EMBL.

-9-
Démarche :

1. Allez sur le moteur de recherche google est glisser l’adresse de EMBL :


http://www.ebi.ac.uk/embl/

2. Sur l’interface de celle-ci tapez le mot alkalin phosphatase (toujours en anglais svp)
puis cliquez sur le bouton Go:

3. une nouvelle page (interface) apparaît avec une proposition de résultats :

- 10 -
Dans cette interface, EMBL propose les revues scientifiques qui ont été consultées afin de
répondre à notre requête.

On constate que " Nucletide Sequences " propose trois résultats et " Literature " en propose
19. Attention : ces chiffres peuvent changer du jour au lendemain !

4. Cliquez sur le bouton de " Nucletide Sequences " et vous aurez l’interface suivante :

5. Cliquez sur le numéro d’accession de la séquence : AB011406 C’est le code


d’entrée à cette fiche. Vous obtiendrez la page de l’entrée suivante :

- 11 -
La suite de cette page est :

- 12 -
Suite et fin :

Application individuelle 1:

Refaire le même travail sur l’enzyme TYROSINASE des végétaux. Cette enzyme est
responsable du noircissement à l'air des fruits et légumes.

Support pour cette application : http://www.didier-pol.net/3ENZYMO.html

Application individuelle 2:

Il s’agit de vous informer sur la structure primaire d’une enzyme clé de la


photosynthèse : la Rubisco.

Support pédagogique : http://www.com.univ-mrs.fr/IRD/atollpol/glossaire/photos.htm

Travail Pratique 2: Réalisons le TP suivant sur Internet pour connaître la structure primaire du
gène Lacz qui entre dans le processus de la régulation du métabolisme de la molécule de lactose
chez Escherichia coli.

Attention, pour cette fois-ci Utilisez l’interface GenBank.

Support pédagogique : http://www.snv.jussieu.fr/bmedia/operonlactose/index.htm

- 13 -
Démarche :

1. Sur une page web, tapez l’adresse de NCBI : (http://www.ncbi.nlm.nih.gov/)

2. Dans la colonne bleue à gauche, cliquez sur le lien de GenBank et vous obtiendrez la page
suivante :

- 14 -
Dans cette page, sélectionnez Nucleotide dans la rubrique Search, et tapez le nom du
gène (dans ce cas Lac Z) dans la rubrique ‘for’ et cliquez sur le bouton ‘Go’.

Vous aurez une page des résultats : cette page propose 12611 résultats !

3. Cliquez sur le lien EU733646 qui représente le numéro de l’entrée.

- 15 -
Suite :

Suite et fin:

Application individuelle 1: Refaire le même travail sur le gène Lac Y

Application individuelle 2: Refaire le même travail sur le gène Lac A

- 16 -
REMARQUE PERTINENTE : Vous pouvez refaire ces application en interrogeant des BD
protéiques (comme SwisProt par exemple) au lieu de EMBL et Genbank qui sont des BD
nucléiques.

Travail pratique 3 : Recherchez la structure de la protéine de l’insuline humaine sur la BD


SwisProt.

Démarche : Allez à l’adresse de SwisProt : http://www.expasy.ch/sprot/ et choisissez


insulin dans la rubrique for puis cliquez sur le bouton Go:

Interprétation d’une entrée

On considère l’exemple de l’entrée suivante : IL6_HUMAN

Interprétez la fiche descriptive de cette entrée en utilisant l’interface de EMBL, puis celle de
GenBank.

- 17 -
Les systèmes pour l’interrogation des banques de données

Toutes les banques de données possèdent leurs systèmes (ou outils, ou logiciels)
d’interrogation. Les plus utilisés sont :

1. Le système SRS (Sequence retrievial System) : Cet outil a été créé en 1993 par Etzold et ar

Voir l’animation (
informatique/tut3.swf )

En précisant l’entrée numéro PDB:1BXN, vous obtiendrez la fiche suivante :

- 18 -
3. Le système Entrez : http://www.ncbi.nlm.nih.gov/sites/gquery

- 19 -
Travail pratique : sur Internet, allez au lien suivant :
http://www.loria.fr/~devignes/M1BIOINFO/BDBio-TP2-EntrezSRS-2006-Devignes.pdf

Suivez les étapes de ce TP afin de pouvoir comparer les deux systèmes SRS et Entrez. Tirez vos
conclusions.

Aide au TP : http://www.fil.univ-lille1.fr/~pupin/Enonces/tp_srs.html

Exemple de lecture d’une entrée EMBL : Considérons l’entrée suivante : BAA11310

Suite de l’entrée :

- 20 -
La partie gauche de l’entrée (encadré rouge) donne l’ensemble des codes qui ont les
significations suivantes :

Locus = Représente l’équivalent du nom de l’entrée avec les informations sur le code d’accès
de l’entrée (ici = BAA11310) et le nombre d’acides aminés de la molécule (ici = 68 aa).

VERSION = BAA11310.1

Les auteurs de ce travail n’ont pas encore versionné leur travail ; il est à sa 1ère version. Le
versionnement n’est pas obligatoire. Il dépend des résultats de recherches. Si les auteurs
s’aperçoivent qu’il y a des changements (dans la structure de la molécule par exemple), une
nouvelle version de leur travail sera hébergée dans cette banque de données.

AUTHORS = Noms des auteurs : Sage-Ono,K., Ono,M. and Kamada,H.

TITLE = Titre de leur article. A cDNA encoding a Pharbitis nil chlorophyll a/b binding
protein

JOURNAL Submitted (31-OCT-1995) Kimiyo Sage-Ono, University of Tsukuba, Gene


Research Center; Tennoudai1-1-1, Tsukuba, Ibaraki 305-8572, Japan (E-
mail:okimiyo@sakura.cc.tsukuba.ac.jp, Tel:81-29-853-7759, Fax:81-29-853-7746)

SOURCE 1..68 = Longueur de la molecule (68 aa) et ses origines :


/organism="Ipomoea nil"
/strain="Violet"
/db_xref="taxon:35883"
/tissue_type="apical bud"
/clone_lib="lambda gt10 KSO"
/dev_stage="seedling"
/note="synonym: Pharbitis nil"

ORIGIN : structure primaire de la molécule


1 MAASTMALSS SSFAGKAVKV SPSTPEITGN VNFTMRKTAG KPKPVSSGSP WYGPDRVKYL
61 GPFFRAAP

- 21 -
Exemple d’une fiche (entrée) consultée sur EMBL :

- 22 -
Exemple d’une fiche (entrée) consultée sur GenBank :

- 23 -
 Concernant les base de données génomiques :

- 24 -
 Concernant les bases de données protéiques :

- 25 -
4. Le système ACNUC : ACNUC fait partie des logiciels qui fonctionnent selon une
construction de fichiers index représentant des critères de sélection (mot-clé, auteurs,
espèces, revues, type de molécule...) et une organisation des fichiers permettant d'effectuer
des liens entre critères ainsi qu'un langage de requête basé sur les opérations logiques ET,
OU et NON. On peut ainsi répondre à une question de ce type : "je recherche dans l'EMBL
les séquences codants pour des protéines de levure ou de souris qui ne soient pas
mitochondriales et ayant une longueur supérieure à 500 paires de bases". Ce logiciel, très
répandu en France, est l'un des plus performants pour l'interrogation malgré le nombre
croissant de séquences dans les banques de données. Il est principalement utilisé pour les
grandes banques généralistes (EMBL, Genbank, PIR-NBRF). (http://www2b.ac-
lille.fr/biotechnologies/bio-informatique.htm)

Résumé des systèmes d’interrogation des banques de données :

Logiciel Description
SRS (Sequence
Permet une interrogation simple ou croisée sur plusieurs bases de
Retrieval
biologie moléculaire.
System).
Entrez (NCBI
Permet d’interroger des séquences moléculaires de MedLine,
WWW Entrez
GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB.
Browser).
Système d’interrogation des banques EMBL, GenBank, PIR,
ACNUC Hovergen (Homologous Vertebrate Genes Data Base), NRSub
(Bacillus subtilis), NRBact (Haemophylus et Mycoplasma)

- 26 -

Vous aimerez peut-être aussi